JP6042790B2

JP6042790B2 - トレンド分析装置、トレンド分析方法およびトレンド分析プログラム

Info

Publication number: JP6042790B2
Application number: JP2013236961A
Authority: JP
Inventors: 結城遠藤; 浩之戸田; 鷲崎　誠司; 誠司鷲崎
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-11-15
Filing date: 2013-11-15
Publication date: 2016-12-14
Anticipated expiration: 2033-11-15
Also published as: JP2015097026A

Description

本発明は、テキストのトレンド分析装置に係り、特にユーザの特定の興味に基づいて、マイクロブログなどから得られるテキストストリームにおけるトレンドを分析するためのトレンド分析装置、方法、プログラムに関する。

マイクロブログなどの普及に伴い、リアルタイム性の高いテキストストリームにおけるトレンド分析の重要性が増している。トレンドは、特定の時刻や時期に見られるテキストの特徴を表す。ユーザにより頻繁にメッセージが投稿されるマイクロブログのトレンドを分析することで、ユーザの行動の時間的変化を観測できる。このトレンド情報を利用することにより、例えばＥＣ（ＥｌｅｃｔｒｏｎｉｃＣｏｍｍｅｒｃｅ）サイトや情報検索サイトなどのサービスにおいて、ユーザの嗜好に合いやすい商品や、今後流行しそうな情報を提供でき、ユーザの利便性を高めることができる。

特許文献１によれば、テキストのトピック毎の時間変化の速度の差を考慮した上で、トレンドを分析する方法が提案されている。この方法は、代表的なトレンド、つまりテキスト群全体において盛り上がっているトピックを抽出している。一方非特許文献１によれば、ニュース記事に関するテキスト群を階層的にクラスタリングすることで、代表的なトレンドに加え、それを詳細化したトレンドを抽出できる。例えば、代表的なトレンドとして、「地震」や「ワールドカップ」などのトピックを抽出し、さらに「地震」に関するサブトピックとして、「津波」や「国際援助」といった詳細化されたトレンドを抽出できる。

尚、本発明で利用するローカルクラスタリングの一例は非特許文献２に記載されている。

特開２０１１−１３４２３０号公報

Ｍ．Ｚｉｍｍｅｒｍａｎｎ，Ｉ．Ｎｔｏｕｔｓｉ，Ｚ．Ｆ．Ｓｉｄｄｉｑｕｉ，Ｍ．ＳｐｉｌｉｏｐｏｕｌｏｕａｎｄＨ．−Ｐ．Ｋｒｉｅｇｅｌ，"ＤｉｓｃｏｖｅｒｉｎｇＧｌｏｂａｌａｎｄＬｏｃａｌＢｕｒｓｔｓｉｎａＳｔｒｅａｍｏｆＮｅｗｓ"，ＩｎＰｒｏｃ．ｏｆＳＡＣ’１２，２０１２，ｐｐ．８０７−８１２Ｒ．Ａｎｄｅｒｓｅｎ，Ｙ．Ｐｅｒｅｓ，"ＦｉｎｄｉｎｇＳｐａｒｓｅＣｕｔｓＬｏｃａｌｌｙＵｓｉｎｇＥｖｏｌｖｉｎｇＳｅｔｓ"，ＩｎＰｒｏｃ．ｏｆＳＴＯＣ’０９，２００９，ｐｐ．２３５−２４４

しかしながら、特許文献１および非特許文献１の手法では、多種多様なトピックについてのメッセージが投稿されているマイクロブログにおいて、ユーザの特定の興味に基づいたトレンドを分析することはできなかった。これら従来手法は、代表的なトレンドを抽出しており、テキスト群全体において最も盛り上がっているトピックを抽出している。

非特許文献１は、代表的なトレンドの詳細化を行っているが、代表的なトレンドがユーザの興味に基づくものでなければ、詳細化されたトレンドも同様にユーザの興味に基づくものにならないという問題があった。例えば、「アクセサリ」に興味のあるユーザに対しても、テキスト全体において「地震」のトピックが最も盛り上がっていた場合、「地震」に関する詳細なトレンドが抽出されてしまい、「ネックレス, ○○ブランド」や「衣服, ○○柄」などのアクセサリと意味の近いトピックについてのトレンドを観測することはできない。

本発明は、上記従来技術の問題点に鑑みて、ユーザの特定の興味と近いトレンドを分析することができるトレンド分析装置、方法、プログラムを提供することを目的としている。

上記課題を解決するための本発明のトレンド分析装置は、テキストストリームにおけるトレンドを分析するトレンド分析装置であって、テキストストリームが格納されたテキストストリーム記憶手段と、前記テキストストリーム記憶手段に格納された各テキストをノードとし、各テキスト中に共通の単語が共起しているものをエッジとしたテキスト関連グラフを構築するテキスト関連グラフ計算手段と、ユーザが指定したクエリ集合を入力とし、前記テキスト関連グラフ計算手段により構築されたテキスト関連グラフから、前記入力されたクエリ集合を含むテキストのノードを起点としてクエリに関連するテキストクラスタを抽出してクエリベースクラスタ記憶手段に格納するクエリベースクラスタ抽出手段と、前記クエリベースクラスタ記憶手段に格納されたテキスト群の各テキストの特徴量と、取り込んだテキストストリームの各テキストの特徴量とを計算する特徴量抽出手段と、前記特徴量抽出手段によって計算された、クエリベースクラスタ記憶手段に格納されたテキスト群のテキスト特徴量とユーザが入力したトレンド数とを用いてクラスタリングしサブクラスタを抽出する処理と、前記特徴量抽出手段によって計算されたテキストストリームのテキスト特徴量と前記抽出されたサブクラスタとの類似度に基づいて求められた、クエリと関連度が高く且つ前記サブクラスタと関連度の低いテキストであって、再クラスタリングを行うと判定したテキスト群と、ユーザが入力したトレンド数とを用いてクラスタリングを行う処理とを実行し、前記各クラスタリングにより抽出されたサブクラスタをサブクラスタ記憶手段に格納するサブクラスタ抽出手段と、前記特徴量抽出手段によって計算されたテキストストリームのテキスト特徴量およびテキスト情報と、前記サブクラスタ記憶手段に格納されたクラスタ群とを入力とし、テキストと各サブクラスタの類似度と、テキストと全てのサブクラスタの類似度とを計算し、クエリと関連度が高く且つサブクラスタと関連度の低いテキストを非関連テキスト記憶手段に格納するクラスタ類似度計算手段と、前記非関連テキスト記憶手段内に格納されたテキスト数がしきい値より大のときに再クラスタリングを行うと判定する再クラスタリング判定手段と、前記サブクラスタ記憶手段に格納されたクラスタ群について、単語の集合であり、各単語はトレンドの度合を数値として保持しているトレンドトピックを計算するトレンドトピック計算手段と、を備えたことを特徴としている。

上記構成によれば、テキスト関連グラフ計算手段およびクエリベースクラスタ抽出手段によって、ユーザが指定したクエリと意味の近いテキスト群をまとめることができ、そのテキスト群をサブクラスタ抽出手段がさらにクラスタリングし、そのクラスタリング結果を用いてトレンドトピックを計算しているので、ユーザの特定の興味と近いトレンドを計算することができる。

さらに、前記クエリと関連度が高く且つサブクラスタと関連度の低いテキストであって、再クラスタリングを行うと判定したテキスト群を再度クラスタリングするように構成しているので、ユーザの特定の興味に関する、新たに出現したトレンドを計算することができる。

本発明によれば、マイクロブログなどの多様なトピックからなる膨大なテキストストリームにおいて、クエリと意味の近いテキストをクラスタリングすることが可能となる。それにより、ユーザの特定の興味と近いトレンドを分析することが可能になる。さらに、特定の興味と近い、それにより、ＥＣサイトや情報検索サービスにおいて、特定のユーザの興味やジャンルなどに近いトレンドに基づく情報提供が可能になり、ユーザの利便性の向上が期待できる。

本発明の一実施形態例によるトレンド分析装置の構成図。本発明の一実施形態例における、テキストストリームからクエリベースのテキストクラスタを抽出するまでの処理のフローチャート。本発明の一実施形態例におけるクエリベースクラスタ抽出部の処理のフローチャート。本発明の一実施形態例におけるクエリベースクラスタからトレンドトピックを計算する処理のフローチャート。本発明の一実施形態例におけるサブクラスタ記憶部の記憶例を示す説明図。本発明の一実施形態例における特定のクエリに関する新たなトレンドの出現を検出する処理のフローチャート。本発明の一実施形態例におけるトレンド分析結果の出力例を示す説明図。

以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。本実施形態例によるトレンド分析装置は、ユーザの特定の興味に基づいて、マイクロブログなどから得られるテキストストリームにおけるトレンドを分析する装置であり、ユーザが入力した、自身の興味に基づくクエリと意味の近いクラスタを計算し、計算したクラスタにおいてトレンドトピックの抽出処理を行うことを特徴とする。

図１は、本実施形態例によるトレンド分析装置の構成を示すブロック図である。図１において１０は、情報を入力するための手段としての入力部であり、例えば、キーボード、マウス、ディスクドライブ装置などから構成される。

２０は、マイクロブログなどから得られるテキストストリームを格納するテキストストリーム記憶部（テキストストリーム記憶手段）である。

３０は、前記テキストストリーム記憶部２０に格納された各テキストをノードとし、各テキスト中に共通の単語が共起しているものをエッジとしたテキスト関連グラフを構築するテキスト関連グラフ計算部（テキスト関連グラフ計算手段）である。

４０は、入力部１０から受け取ったユーザ指定のクエリ集合を入力とし、前記テキスト関連グラフ計算部３０により構築されたテキスト関連グラフから、前記入力されたクエリ集合を含むテキストのノードを起点としてクエリに関連するテキストクラスタを抽出して、クエリベースクラスタ記憶手段としてのクエリベースクラスタ記憶部５０に格納するクエリベースクラスタ抽出部（クエリベースクラスタ抽出手段）である。

６０は、前記クエリベースクラスタ記憶部５０に格納されたテキスト群の各テキストの特徴量と、取り込んだテキストストリームの各テキストの特徴量とを計算する特徴量抽出部（特徴量抽出手段）である。

７０は、前記特徴量抽出部６０によって計算された、クエリベースクラスタ記憶部５０に格納されたテキスト群のテキスト特徴量とユーザが入力したトレンド数とを用いてクラスタリングしサブクラスタを抽出する処理と、前記特徴量抽出部６０によって計算されたテキストストリームのテキスト特徴量と前記抽出されたサブクラスタとの類似度に基づいて求められた、クエリと関連度が高く且つ前記サブクラスタと関連度の低いテキストであって、再クラスタリングを行うと判定したテキスト群と、ユーザが入力したトレンド数とを用いてクラスタリングを行う処理とを実行し、前記各クラスタリングにより抽出されたサブクラスタをサブクラスタ記憶手段としてのサブクラスタ記憶部８０に格納するサブクラスタ抽出部（サブクラスタ抽出手段）である。

９０は、前記特徴量抽出部６０によって計算されたテキストストリームのテキスト特徴量およびテキスト情報と、前記サブクラスタ記憶部８０に格納されたクラスタ群とを入力とし、テキストと各サブクラスタの類似度と、テキストと全てのサブクラスタの類似度とを計算し、クエリと関連度が高く且つサブクラスタと関連度の低いテキストを非関連テキスト記憶手段としての非関連テキスト記憶部１００に格納するクラスタ類似度計算部（クラスタ類似度計算手段）である。

１１０は、前記非関連テキスト記憶部１００内に格納されたテキスト数がしきい値より大のときに再クラスタリングを行うと判定する再クラスタリング判定部（再クラスタリング判定手段）である。

１２０は、前記サブクラスタ記憶部８０に格納されたクラスタ群について、単語の集合であり、各単語はトレンドの度合を数値として保持しているトレンドトピックを計算するトレンドトピック計算部（トレンドトピック計算手段）である。

１３０は、前記トレンドトピック計算部１２０で計算された結果のトレンドトピックを出力する出力部である。

図１のトレンド分析装置は、例えばコンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばＲＯＭ、ＲＡＭ、ＣＰＵ、入力装置、出力装置、通信インターフェース、ハードディスク、記録媒体およびその駆動装置を備えている。

このハードウェアリソースとソフトウェアリソース（ＯＳ、アプリケーションなど）との協働の結果、トレンド分析装置は、図１に示すように、入力部１０、テキストストリーム記憶部２０、テキスト関連グラフ計算部３０、クエリベースクラスタ抽出部４０、クエリベースクラスタ記憶部５０、特徴量抽出部６０、サブクラスタ抽出部７０、サブクラスタ記憶部８０、クラスタ類似度計算部９０、非関連テキスト記憶部１００、再クラスタリング判定部１１０、トレンドトピック計算部１２０および出力部１３０を実装する。

前記テキストストリーム記憶部２０、クエリベースクラスタ記憶部５０、サブクラスタ記憶部８０および非関連テキスト記憶部１００は、ハードディスクあるいはＲＡＭなどの保存手段・記憶手段に構築されているものとする。

次に、上記のように構成されたトレンド分析装置の各部を具体的に説明する。図２は、テキストストリームからクエリベースのテキストクラスタを抽出するまでの処理のフローチャートである。以下詳細を説明する。

＜ステップＳ２１０＞
入力部１０を介して、ユーザが入力した、ユーザの興味に応じたクエリワード群Ｑおよびトレンド数Ｋを受け付ける。

＜ステップＳ２２０＞
一定時間分のテキストストリームに関して、発生時間とテキスト情報をテキストストリーム記憶部２０に記憶する。テキストストリーム記憶部２０を含む以下の記憶部は、これらの情報が保存され、復元可能なものであれば何でもよい。例えば、データベースや、予め備えられた汎用的な記憶装置（メモリやハードディスク装置）の特定領域に記憶されるものなどである。記憶されたテキストストリームは一定時間後削除され、再度新たに一定時間分のテキストストリームを記憶する。新たにテキストストリームが記憶される度に、テキスト関連グラフ計算部３０に情報を受け渡す。なお、テキストストリームとはマイクロブログ(例えばＴｗｉｔｔｅｒ（登録商標））などのリアルタイム性の高いテキストを想定している。

＜ステップＳ２３０＞
テキスト関連グラフ計算部３０がテキストストリーム記憶部２０に記憶されたテキストｄ∈Ｄを、形態素解析器により名詞・動詞・形容詞などの単語集合に分割する。その後、各々のテキストｄ∈Ｄの関連性を表す、テキスト関連グラフＧ＝（Ｖ，Ｅ）を構築する。ここでＤはテキスト集合であり、Ｇは無向グラフ、Ｖはノード集合、Ｅはエッジ集合である。グラフＧの構築方法は、各テキストｄをノードｖ∈Ｖとし、各テキストにおいて共通の単語が共起しているものをエッジｅ∈Ｅで接続する。

＜ステップＳ２４０＞
クエリベースクラスタ抽出部４０が入力部１０からクエリ集合Ｑを受け取る。受け取ったクエリ集合Ｑを含むテキストｄのノードｖを起点として、クエリと関連するテキストクラスタを抽出する。特定のノードを起点としたグラフのクラスタリングには、ローカルクラスタリングの一種であるＥｖｏＣｕｔ（非特許文献２参照）など、公知のものを用いることができる。

この際、ローカルクラスタリングを適用するために、起点となるノードを一つ定める必要がある。一方、クエリ群Ｑを含むテキストのノードは複数存在することがある。そのため、起点となるノードの候補を結合し、一つのノードにまとめることで、まとめたノードを起点としてローカルクラスタリングを行う。クエリベースクラスタ抽出部４０が行う具体的な処理の流れを図３のフローチャートを用いて説明する。

図３において、クエリベースクラスタ抽出部４０はステップＳ３１０〜Ｓ３７０の処理を実行するものであるが、ループＬ３００はＬ３００（Ｓ）〜Ｌ３００（ｅ）内のステップＳ３２０〜Ｓ３６０の処理を繰り返し実行することを表している。

＜ステップＳ３１０＞
結合元のノード変数ｖ´に空集合（ｅｍｐｔｙｓｅｔ）φを代入する。尚、本明細書においては空集合を「空集合φ」と表記する。

＜ステップＳ３２０＞
あるノードｖのテキストにおいてすべてのクエリワード群Ｑが含まれるか否かを判定する。判定結果がＮｏの場合は、Ｌ３００（Ｓ）で始まる繰り返し処理の終了判定を行うＬ３００（ｅ）に進む。

＜ステップＳ３３０＞
ステップＳ３２０の判定結果がＹｅｓの場合に結合元ノードｖ´が空集合φであるか否かを判定する。

あるノードｖのテキストにおいてすべてのクエリワード群Ｑが含まれる（ステップＳ３２０のＹｅｓ）かつ結合元ノードｖ´が空集合φである(ステップＳ３３０のＹｅｓ）場合、結合元ノードｖ´にノードｖを代入する。その後はＬ３００（ｅ）に進む。

＜ステップＳ３５０＞
あるノードｖのテキストにおいてすべてのクエリワード群Ｑが含まれる（ステップＳ３２０のＹｅｓ）かつ結合元ノードｖ´が空集合φでない(ステップＳ３３０のＮｏ)場合、ノードｖ´とノードｖを一つのノードに結合しｖ´に代入する。その後はステップＳ３６０に進む。

＜ステップＳ３６０＞
結合されたノードｖ´に接続されるエッジも統合し、グラフＧを更新する。その後はＬ３００（ｅ）に進む。

＜ステップＳ３７０＞
グラフＧのすべてのノードについてループＬ３００内のステップＳ３２０〜Ｓ３６０の処理を行った後、結合したノードｖ´を起点としてクラスタリングする。

＜ステップＳ２５０＞
図３のフローチャートに沿ってクエリベースクラスタ抽出部４０が抽出したクラスタを、クエリベースクラスタ記憶部５０に記憶する。

次に、クエリベースクラスタからトレンドトピックを計算する処理を、図４のフローチャートを用いて説明する。

＜ステップＳ４１０＞
特徴量抽出部６０がクエリベースクラスタ記憶部５０から受け取ったテキスト群の特徴量を計算する。各テキストｄの特徴量は、テキストを形態素解析器によって単語単位に分割した後、各テキストに関して出現する単語情報に基づき、テキストの特徴を表すベクトルｆ_dを構築する。具体的な算出方法としては、以下の式（１）によって求められるＴＦ−ＩＤＦなどが考えられる。

ここで、ｆ_dwは特徴ベクトルｆ_dにおける単語ｗの要素の値を表す。また、ＴＦ（ｄ，ｗ）はテキストｄにおける単語ｗの出現回数。ＤＦ（ｗ）はクラスタにおいて単語ｗが出現するテキストの数、Ｎはクラスタにおけるテキストの総数を表す。

＜ステップＳ４２０＞
サブクラスタ抽出部７０が入力部１０から受け取ったトレンド数ｋ、特徴量抽出部６０から受け取ったテキスト特徴量およびテキスト情報を用いてクラスタを抽出し、類似したテキストをまとめる。そして、抽出したクラスタを、例えば図５に示す通りクラスタＩＤと対応付けてサブクラスタ記憶部８０に記憶する。クラスタリングの手法としては、以下の式（２）に示す目的関数Ｅを最小化するクラスタＣを算出するｋ−ｍｅａｎｓ法などが考えられる。

＜ステップＳ４３０＞
サブクラスタ記憶部８０から受け取ったクラスタ群について、トレンドトピック計算部１２０がトレンドトピックを計算する。トレンドトピックは単語の集合で構成され、各々の単語はトレンドの度合を数値として保持している。トレンド度合は、あるクラスタにおいて、特徴的な単語を持つテキストが多いほどその単語はトレンドであるとみなし、以下の式（３）により算出する。

ここで、Ｔ_i,wはクラスタｉにおける単語ｗのトレンド度合を表す。Ｔ_i,wを計算した後、クラスタ毎にＴ_i,wを基に昇順で単語をソートし、単語リストを作成する。

＜ステップＳ４４０＞
トレンドトピック計算部１２０が計算したトレンドトピックの単語リストを出力部１３０に受け渡す。出力部１３０は例えば図７に示す通り各クラスタの単語リストにおける上位ワードを出力する。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部装置への送信などを含む概念である。出力部１２０は出力デバイスのドライバソフトまたは、出力デバイスのドライバソフトと出力デバイスなどで実現され得る。

さらに、図６のフローチャートに示すように、テキストストリームをリアルタイムで処理し、特定のクエリに関する新たなトレンドの出現を検出する。

＜ステップＳ５１０＞
特徴量抽出部６０がテキストストリームのテキストの特徴量を計算する。テキストストリームは１テキストずつ処理する。特徴量の算出は、前述のステップＳ４１０と同様の手段を用いる。

＜ステップＳ５２０＞
クラスタ類似度計算部９０がサブクラスタ記憶部８０からクラスタ群を受け取り、特徴量抽出部６０から前記テキストストリームのテキスト特徴量とテキスト情報を受け取る。そして、クラスタ群とテキスト特徴量との類似度を算出する。テキストｄとクラスタｉとの類似度ｓ（ｉ，ｄ）の算出方法としては、以下の式（４）によって求められるコサイン類似度を利用する方法などが考えられる。

また、全てのサブクラスタにおけるテキスト、すなわちクエリベースクラスタとの類似度ｓ（ｄ）を以下の式（５）によって求める。

＜ステップＳ５３０＞
クラスタ類似度計算部９０が、クエリと関連度が高く、かつサブクラスタと関連度の低いテキストを非関連テキスト記憶部１００に記憶する。具体的には以下の条件式（６）、（７）を満たすテキストｄを記憶する。

ここでδおよびμは定数である。各サブクラスタとの類似度がしきい値（δ）よりも小さく、かつクエリベースクラスタとの類似度がしきい値（μ）よりも大きければ、テキストｄはクエリと関連している一方で、どのサブクラスタとも関連していないとみなし、非関連テキスト記憶部１００に記憶する。

＜ステップＳ５４０＞
再クラスタリング判定部１１０が非関連テキスト記憶部１００のテキスト数Ｍを基に、非関連テキスト記憶部１００のテキスト群をクラスタリングするか否か判定する。具体的には、しきい値σを用いて、以下の条件式（８）が成り立つ場合に、クラスタリングを行う。

＜ステップＳ５５０＞
サブクラスタ抽出部７０が再クラスタリング判定部１１０の結果を受け取り、条件式が成り立つ場合に、非関連テキスト記憶部１００のテキスト群をクラスタリングする。クラスタリングの方法は前述のステップＳ４２０と同様の手段を用いる。クラスタリング後、前述のステップＳ４３０、ステップＳ４４０と同様の手段によりトレンドトピック計算部１２０がトレンドトピックを計算し、出力部１３０が結果を出力する。

上記のように本実施形態例によれば、テキスト関連グラフ計算部３０において、テキスト群の関連を表すグラフを構築し、クエリベースクラスタ抽出部４０において、特定の興味に応じたクエリに基づいて前記構築したグラフをクラスタリングしているので、クエリと意味の近いテキストをまとめることができる。

また、クエリベースクラスタ抽出部４０が、特定の興味に応じて抽出したクラスタにおけるテキスト群を、サブクラスタ抽出部７０がさらにクラスタリングしているので、そのクラスタリング結果を用いて、トレンドトピック計算部１２０がユーザの特定の興味と近いトレンドトピック計算することができる。

さらに、クラスタ類似度計算部９０において、特定の興味に関して計算したクラスタ群とテキストストリームとの類似度を計算し、類似度に応じて非関連テキスト記憶部１００に記憶し、記憶されたテキスト群を、再クラスタリング判定部１１０が再クラスタリングするか否かを判定し、判定結果を基にサブクラス抽出部８０がクラスタを再計算するように構成している。このため、再計算したクラスタを用いて、トレンドトピック計算部１２０が特定の興味に関する、新たに出現したトレンドトピックを計算することができる。

また、本実施形態のトレンド分析装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態のトレンド分析方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばＦＤ（Ｆｌｏｐｐｙ（登録商標）Ｄｉｓｋ）や、ＭＯ（Ｍａｇｎｅｔｏ−Ｏｐｔｉｃａｌｄｉｓｋ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、メモリカード、ＣＤ（ＣｏｍｐａｃｔＤｉｓｋ）−ＲＯＭ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＨＤＤ、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。

本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

１０…入力部
２０…テキストストリーム記憶部
３０…テキスト関連グラフ計算部
４０…クエリベースクラスタ抽出部
５０…クエリベースクラスタ記憶部
６０…特徴量抽出部
７０…サブクラスタ抽出部
８０…サブクラスタ記憶部
９０…クラスタ類似度計算部
１００…非関連テキスト記憶部
１１０…再クラスタリング判定部
１２０…トレンドトピック計算部
１３０…出力部

Claims

テキストストリームにおけるトレンドを分析するトレンド分析装置であって、
テキストストリームが格納されたテキストストリーム記憶手段と、
前記テキストストリーム記憶手段に格納された各テキストをノードとし、各テキスト中に共通の単語が共起しているものをエッジとしたテキスト関連グラフを構築するテキスト関連グラフ計算手段と、
ユーザが指定したクエリ集合を入力とし、前記テキスト関連グラフ計算手段により構築されたテキスト関連グラフから、前記入力されたクエリ集合を含むテキストのノードを起点としてクエリに関連するテキストクラスタを抽出してクエリベースクラスタ記憶手段に格納するクエリベースクラスタ抽出手段と、
前記クエリベースクラスタ記憶手段に格納されたテキスト群の各テキストの特徴量と、取り込んだテキストストリームの各テキストの特徴量とを計算する特徴量抽出手段と、
前記特徴量抽出手段によって計算された、クエリベースクラスタ記憶手段に格納されたテキスト群のテキスト特徴量とユーザが入力したトレンド数とを用いてクラスタリングしサブクラスタを抽出する処理と、前記特徴量抽出手段によって計算されたテキストストリームのテキスト特徴量と前記抽出されたサブクラスタとの類似度に基づいて求められた、クエリと関連度が高く且つ前記サブクラスタと関連度の低いテキストであって、再クラスタリングを行うと判定したテキスト群と、ユーザが入力したトレンド数とを用いてクラスタリングを行う処理とを実行し、前記各クラスタリングにより抽出されたサブクラスタをサブクラスタ記憶手段に格納するサブクラスタ抽出手段と、
前記特徴量抽出手段によって計算されたテキストストリームのテキスト特徴量およびテキスト情報と、前記サブクラスタ記憶手段に格納されたクラスタ群とを入力とし、テキストと各サブクラスタの類似度と、テキストと全てのサブクラスタの類似度とを計算し、クエリと関連度が高く且つサブクラスタと関連度の低いテキストを非関連テキスト記憶手段に格納するクラスタ類似度計算手段と、
前記非関連テキスト記憶手段内に格納されたテキスト数がしきい値より大のときに再クラスタリングを行うと判定する再クラスタリング判定手段と、
前記サブクラスタ記憶手段に格納されたクラスタ群について、単語の集合であり、各単語はトレンドの度合を数値として保持しているトレンドトピックを計算するトレンドトピック計算手段と、
を備えたことを特徴とするトレンド分析装置。
テキストストリームにおけるトレンドを分析するトレンド分析方法であって、
テキスト関連グラフ計算手段が、テキストストリームを格納したテキストストリーム記憶手段内の各テキストをノードとし、各テキスト中に共通の単語が共起しているものをエッジとしたテキスト関連グラフを構築するテキスト関連グラフ計算ステップと、
クエリベースクラスタ抽出手段が、ユーザ指定のクエリ集合を入力とし、前記テキスト関連グラフ計算手段により構築されたテキスト関連グラフから、前記入力されたクエリ集合を含むテキストのノードを起点としてクエリに関連するテキストクラスタを抽出してクエリベースクラスタ記憶手段に格納するクエリベースクラスタ抽出ステップと、
特徴量抽出手段が、前記クエリベースクラスタ記憶手段に格納されたテキスト群の各テキストの特徴量を計算する第１の特徴量抽出ステップと、
サブクラスタ抽出手段が、前記第１の特徴量抽出ステップによって計算された、クエリベースクラスタ記憶手段に格納されたテキスト群のテキスト特徴量とユーザが入力したトレンド数とを用いてクラスタリングしてサブクラスタを抽出し、サブクラスタ記憶手段に格納する第１のサブクラスタ抽出ステップと、
特徴量抽出手段が、取り込んだテキストストリームの各テキストの特徴量を計算する第２の特徴量抽出ステップと、
クラスタ類似度計算手段が、前記第２の特徴量抽出ステップによって計算されたテキストストリームのテキスト特徴量およびテキスト情報と、前記サブクラスタ記憶手段に格納されたクラスタ群とを入力とし、テキストと各サブクラスタの類似度と、テキストと全てのサブクラスタの類似度とを計算し、クエリと関連度が高く且つサブクラスタと関連度の低いテキストを非関連テキスト記憶手段に格納するクラスタ類似度計算ステップと、
再クラスタリング判定手段が、前記非関連テキスト記憶手段内に格納されたテキスト数がしきい値より大のときに再クラスタリングを行うと判定する再クラスタリング判定ステップと、
サブクラスタ抽出手段が、前記再クラスタリング判定ステップにより再クラスタリングを行うと判定されたときに、前記非関連テキスト記憶手段に格納されたテキスト群と、ユーザが入力したトレンド数とを用いてクラスタリングを行い、サブクラスタを抽出して前記サブクラスタ記憶手段に格納する第２のサブクラスタ抽出ステップと、
トレンドトピック計算手段が、前記サブクラスタ記憶手段に格納されたクラスタ群について、単語の集合であり、各単語はトレンドの度合を数値として保持しているトレンドトピックを計算するトレンドトピック計算ステップと、
を備えたことを特徴とするトレンド分析方法。
コンピュータを請求項１に記載の各手段として機能させるトレンド分析プログラム。