JP2009187395A - トピック分析装置、方法及びプログラム - Google Patents

トピック分析装置、方法及びプログラム Download PDF

Info

Publication number
JP2009187395A
JP2009187395A JP2008028017A JP2008028017A JP2009187395A JP 2009187395 A JP2009187395 A JP 2009187395A JP 2008028017 A JP2008028017 A JP 2008028017A JP 2008028017 A JP2008028017 A JP 2008028017A JP 2009187395 A JP2009187395 A JP 2009187395A
Authority
JP
Japan
Prior art keywords
topic
period
topics
integrated
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008028017A
Other languages
English (en)
Inventor
Norikazu Matsumura
憲和 松村
Satoshi Morinaga
聡 森永
Kenji Yamanishi
健司 山西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008028017A priority Critical patent/JP2009187395A/ja
Publication of JP2009187395A publication Critical patent/JP2009187395A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】ブログやWEBニュースなどの時間の経過とともに蓄積される大規模テキストストリームからの話題抽出(トピック分析)を行い、過去や新規トピックとの対応関係、トピックの進化過程を抽出すること。
【解決手段】トピック分析装置80は、トピック統合部83、近似情報生成部84及び全期間トピック学習部86を備える。トピック統合部83は、第1の期間内に逐次入力されたデータに基づいて抽出された第1のトピックと第2の期間内に逐次入力されたデータに基づいて抽出された第2のトピックとを統合して統合トピックとする。近似情報生成部84は、統合された時刻に応じて前記統合トピックの一部を除外して近似情報とする。全期間トピック学習部86は、前記近似情報に基づいて前記両期間におけるトピックを抽出して全期間トピックとする。
【選択図】図1

Description

本発明はトピック分析装置、方法及びプログラムに関し、特に、大規模テキストストリームを含むデータに含まれるトピックを分析するトピック分析装置、方法及びプログラムに関する。
特許文献1〜3において、大規模テキストストリームにおけるトピックを分析するトピック分析装置が記載されている。大規模テキストストリームとは、時間の経過とともに蓄積されていく大量のテキストデータをいい、ブログやSNS(Social Networking Service)、WEBニュース等のインターネット上に存在するテキストデータを含む。
特許文献1のトピック分析装置は、時間的に追加されていくテキストデータに対して、なるべく少ない記憶容量と処理時間で、随時、リアルタイムに主要トピックの個数および生成と消滅を同定し、また主要トピックの特徴を抽出し、それによって単一トピックの内容が変化した場合にも、それを知ることが出来るようにした装置である。
また、特許文献2のマクロ情報生成装置は、データが分散環境にあることを想定し、各分散環境のトピック結果の情報を一箇所に集め、なるべく少ない処理容量で全分散環境に跨るトピック分析を実行する。なお、マクロ情報生成装置は、時系列のデータを扱う際には、各分散環境に時間情報で区切ってデータを配置して、全期間のトピック分析を行う。
さらに、特許文献3の固有情報抽出装置は、テキストストリームに含まれる、文書作成日等から時間情報を抽出するとともに、固有表現から特徴情報を抽出し、グラフ化した時系列データをユーザに提供する。
また、特許文献4において、コミュニケーション参加者に対し、現在進行中のコミュニケーションの話題と同一、類似の話題によってなされた過去のコミュニケーションログを知識資料として提供しうるネットワークコミュニケーションシステムが記載されている。
さらに、特許文献5において、時間情報を有する文書を所定の時間間隔で分類し、分類カテゴリ別に時系列に並べ、時間的な話題の変遷を抽出し視覚化する方法と装置が記載されている。
特開2005−352613号公報 特開2007−073024号公報 特開2004−086534号公報 特開2005−084858号公報 特開平10−154150号公報
以下の分析は、本発明者によってなされたものである。特許文献1のトピック分析装置は、過去のトピックを初期状態として、新規に追加されたデータについて逐次的に学習(例えば、オンライン学習)するように構成され、過去のデータも含めた再学習を行うことはない。かかるトピック分析装置においては、時間の経過とともに過去のトピックが結合又は分裂し、過去のデータが新規トピックとして同定されることがない。また、現在のトピックと過去の限定された期間におけるトピックとの対応関係を求めることができない。さらに、入力されたテキストの全てを分析対象とし、トピックの形成に悪影響を及ぼしうる他と全く類似していないノイズデータも分析対象とするため、トピックの抽出精度が低くなるおそれがある。
特許文献2のマクロ情報生成装置は、時間の経過とともにテキストが追加される状況を想定していないため、古いトピックであっても、新規トピックと同等の条件で分析がなされる。
特許文献3の固有情報抽出装置は、固有情報となる単語を抽出するにすぎないため、テキストストリーム内に出現する多くの話題(トピック)を抽出することは難しい。
上記の特許文献1の従来技術においては、抽出されるトピックの精度が低いおそれがある。特許文献1のトピック分析装置は、新規追加テキスト分だけを学習していくため、少ない処理容量でトピック分析できるものの、過去テキストデータを含めた学習を行っていない。したがって、かかる装置においては、過去のトピック同士が分裂又は結合することがなく、新規に抽出されたトピックは過去のデータを踏まえたものではないからである。また、ノイズデータも含む全てのデータを分析対象とした場合にも、抽出されるトピックの精度が悪くなる。
また、上記の従来技術においては、現在のトピックと過去の各期間のトピックとの対応関係をはじめとする現在トピックの進化(遷移)過程を出力することができない。従来技術においては、テキストストリームに基づいて各期間のトピックと現在トピックとを抽出し、それらの対応関係を求めるような方式は存在しないからである。
さらに、上記の特許文献3の従来技術においては、テキストストリームに対して、類似のトピックにまとめ上げたうえで出力を行うことができない。固有名詞などの単語レベルの情報のみに基づいてテキストストリーム全体の解釈を行うことは難しいからである。
また、上記特許文献4及び5の従来技術においては、大量のテキストデータからトピックを抽出する際における処理負荷及び記憶容量を抑えることができない。
そこで、時間の経過とともに蓄積される大量のテキストデータから、処理負荷及び記憶容量を抑えつつ、高精度にトピックを抽出するトピック分析装置、方法及びプログラムを提供することが課題となる。また、抽出されたトピックの進化過程を出力するトピック分析装置、方法及びプログラムを提供することが課題となる。さらに、単語レベルにおける抽出を行うのみならず、類似のトピックをまとめて出力するトピック分析装置、方法及びプログラムを提供することが課題となる。
本発明の第1の視点に係るトピック分析装置は、
第1の期間内に逐次入力されたデータに基づいて抽出された第1のトピックと第2の期間内に逐次入力されたデータに基づいて抽出された第2のトピックとを統合して統合トピックとするように構成されたトピック統合部と、
統合された時刻に応じて前記統合トピックの一部を除外して近似情報とするように構成された近似情報生成部と、
前記近似情報に基づいて前記両期間におけるトピックを抽出して全期間トピックとするように構成された全期間トピック学習部と、を備えることを特徴とする。
第1の展開形態のトピック分析装置は、
前記第1のトピック、前記第2のトピック及び前記全期間トピックの間の対応関係を抽出するように構成されたトピック対応関係抽出部を備えることが好ましい。
第2の展開形態のトピック分析装置は、
前記両期間における前記全期間トピックの進化過程を抽出するように構成されたトピック対応関係抽出部を備えることが好ましい。
第3の展開形態のトピック分析装置は、
前記第1及び第2のトピック並びに統合トピックが、それぞれ有限混合モデルによって表されることが好ましい。
第4の展開形態のトピック分析装置は、
前記トピック統合部が、前記第1のトピックを表す有限混合モデルと前記第2のトピックを表す有限混合モデルとをそれぞれに含まれるデータの個数に応じた比によって重みをつけつつ足し合わせることによって、前記統合トピックを表す有限混合モデルを抽出するように構成されることが好ましい。
第5の展開形態のトピック分析システムは、
上記のトピック分析装置を有するサーバと、
1又は2以上のクライアント端末と、を備えるトピック分析システムであって、
前記トピック分析装置は、前記クライアント端末から前記データを逐次入力するように構成されることが好ましい。
本発明の第2の視点に係るトピック分析方法は、
コンピュータによって、逐次入力されたテキストデータにおけるトピックを分析するトピック分析方法であって、
第1の期間内に逐次入力されたデータに基づいて抽出された第1のトピックと第2の期間内に逐次入力されたデータに基づいて抽出された第2のトピックとを統合して統合トピックとするトピック統合工程と、
統合された時刻に応じて前記統合トピックの一部を除外して近似情報とする近似情報生成工程と、
前記近似情報に基づいて前記両期間におけるトピックを抽出して全期間トピックとする全期間トピック学習工程と、を含むことを特徴とする。
第6の展開形態のトピック分析方法は、
前記第1のトピック、前記第2のトピック及び前記全期間トピックの間の対応関係を抽出するトピック対応関係抽出工程を含むことが好ましい。
第7の展開形態のトピック分析方法は、
前記両期間における前記全期間トピックの進化過程を抽出するように構成されたトピック対応関係抽出工程を備えることが好ましい。
第8の展開形態のトピック分析方法は、
前記第1及び第2のトピック並びに統合トピックが、それぞれ有限混合モデルによって表されることが好ましい。
第9の展開形態のトピック分析方法は、
前記トピック統合工程において、前記第1のトピックを表す有限混合モデルと前記第2のトピックを表す有限混合モデルとをそれぞれに含まれるデータの個数に応じた比によって重みをつけつつ足し合わせることによって、前記統合トピックを表す有限混合モデルを抽出することが好ましい。
本発明の第3の視点に係るトピック分析プログラムは、
第1の期間内に逐次入力されたデータに基づいて抽出された第1のトピックと第2の期間内に逐次入力されたデータに基づいて抽出された第2のトピックとを統合して統合トピックとするトピック統合処理と、
統合された時刻に応じて前記統合トピックの一部を除外して近似情報とする近似情報生成処理と、
前記近似情報に基づいて前記両期間におけるトピックを抽出して全期間トピックとする全期間トピック学習処理と、をコンピュータに実行させることを特徴とする。
第10の展開形態のトピック分析プログラムは、
前記第1のトピック、前記第2のトピック及び前記全期間トピックの間の対応関係を抽出するトピック対応関係抽出処理をコンピュータに実行させることが好ましい。
第11の展開形態のトピック分析プログラムは、
前記両期間における前記全期間トピックの進化過程を抽出するように構成されたトピック対応関係抽出処理をコンピュータに実行させることが好ましい。
第12の展開形態のトピック分析プログラムは、
前記第1及び第2のトピック並びに統合トピックが、それぞれ有限混合モデルによって表されることが好ましい。
第13の展開形態のトピック分析プログラムは、
前記トピック統合処理において、前記第1のトピックを表す有限混合モデルと前記第2のトピックを表す有限混合モデルとをそれぞれに含まれるデータの個数に応じた比によって重みをつけつつ足し合わせることによって、前記統合トピックを表す有限混合モデルを抽出することが好ましい。
本発明によって、時間の経過とともに蓄積される大量のテキストデータから、処理負荷及び記憶容量を抑えつつ、高精度にトピックを抽出することできる。本発明において、蓄積されるすべてのデータからトピックを抽出するのではなく、最新の期間(第2の期間)におけるトピックとそれ以前の所定の期間(第1の期間)におけるトピックに基づいて、例えば、新しい情報ほど重視するようにして適度な量の近似情報を生成し、その近似情報に基づいて全期間のトピックを学習する。これにより、小さい処理負荷と少ない記憶容量に基づいてトピック分析を行うことができる。また、本発明において、過去のデータも含めたトピック分析が行われるため、新規に追加されたデータのみを逐次的に分析していく手法と比較して、抽出されるトピックの精度も向上する。
また、本発明によって、トピックの進化過程を出力することができる。本発明において、出力された全期間のトピックが、過去においていずれのトピックに影響を受けてきたのかを示す対応関係を抽出することができるからである。
次に、本発明の実施形態に係るトピック分析装置について図面を参照して詳細に説明する。図1は本実施形態に係るトピック分析装置の構成を示すブロック図である。本実施形態に係るトピック分析装置80は、トピック統合部83、近似情報生成部84、全期間トピック学習部86を備える。
トピック統合部83は、第1の期間内に逐次入力されたデータに基づいて抽出された第1のトピック(過去トピック)と第2の期間内に逐次入力されたデータに基づいて抽出された第2のトピック(新規トピック)とを統合して統合トピックとする。入力されるデータは、一例として、テキストデータであってもよい。
近似情報生成部84は、統合された時刻に応じて前記統合トピックの一部を除外して近似情報とする。近似情報生成部84は、一例として、時刻の古いものほど優先的に除外してもよい。
全期間トピック学習部86は、前記近似情報に基づいて前記両期間におけるトピックを抽出して全期間トピックとする。
また、本発明の他の実施形態として、上記トピック分析装置80を有するサーバと、1又は2以上のクライアント端末と、を備えるトピック分析システムであって、サーバに設けたトピック分析装置は、クライアント端末からデータを逐次入力するように構成されたものであってもよい。
次に、本発明の第1の実施例に係るトピック分析装置について図面を参照して詳細に説明する。図2は本実施例に係るトピック分析装置の構成を示すブロック図である。図2を参照すると、トピック分析装置70は、過去データ処理装置10、新規データ処理装置20、全期間データ処理装置30、出力装置40、過去データ入力装置50及び新規データ入力装置60を備える。
過去データ入力装置50は、ブログやSNS等において時間の経過とともに蓄積されるテキストデータを入力する。過去データ入力装置50は、例えば、データを操作・入力するキーボード、WEBに掲載された記事をダウンロードするアプリケーション又はサーバに蓄積されたシステムログを転送するアプリケーション等によって、過去データ処理装置10において分析対象とされるデータを入力する。新規データ入力装置60も、同様にして、新規データ処理装置20において分析対象とされるデータを入力する。
過去データ処理装置10及び新規データ処理装置20は、入力されたテキストデータに対して、プログラム制御に基づく処理を施す。過去データ処理装置10はデータ記憶部11、トピック学習部12及び時刻情報抽出部13を備え、新規データ処理装置20はデータ記憶部21、トピック学習部22及び時刻情報抽出部23を備える。データ記憶部11、21は、それぞれ過去データ入力装置50及び新規データ入力装置60から入力されたデータを記憶する。トピック学習部12、22は、トピックの学習を行う。時刻情報抽出部13、23は、抽出されたトピックの時刻情報を抽出する。
全期間データ処理装置30は、トピック時刻情報記憶部31、トピック記憶部32、トピック統合部33、近似情報生成部34、近似情報記憶部35、全期間トピック学習部36及びトピック対応関係抽出部37を備える。全期間データ処理装置30は、過去データ処理装置10及び新規データ処理装置20に蓄積されたデータについて、プログラム制御に基づく処理を施す。
トピック記憶部32は、過去データ処理装置10及び新規データ処理装置20からインターネット等のネットワークを介して送信されたトピックを記憶する。トピック時刻情報記憶部31は、同様に、送信されたトピックの時刻情報を記憶する。トピック統合部33は、トピック記憶部32、トピック時刻情報記憶部31のトピックの情報を統合する。近似情報生成部34は、統合されたトピックからタイムスタンプ付の近似情報を生成する。近似情報記憶部35は、生成された近似情報を格納する。全期間トピック学習部36は、生成された近似情報を用いて全期間のトピックを学習する。トピック対応関係抽出部37は、過去と新規と全期間の各トピックの対応関係を抽出するとともに、全期間トピックの進化過程を抽出する。
出力装置40は、全期間データ処理装置30に蓄積された結果を出力する。出力装置40は、全期間データ処理装置30によって生成されたトピック対応関係、進化過程などの出力を行う。出力装置40として、例えば、ディスプレイなどの表示装置やプリンタなどの印刷機器などを用いることができる。
次に、図面を参照して本実施例に係るトピック分析装置70の動作について詳細に説明する。図3は、本発明の実施例に係るトピック分析装置70を構成する各装置10、20及び30の動作を示すシーケンス図である。
過去データ処理装置10は過去データ入力装置50を介して、過去のテキストデータを入力する(ステップS11)。一方、新規データ処理装置20は新規データ入力装置60を介して、最新のテキストデータを入力する(ステップS21)。次に、過去データ処理装置10のトピック学習部12は過去データに対して、複数の話題(トピック)の塊を抽出するトピック分析を行い、時刻情報抽出部13は抽出されたトピックの時刻情報を抽出する(ステップS12)。同様に、新規データ処理装置20のトピック学習部22は新規データに対する、トピックの抽出を行い、時刻情報抽出部23は抽出されたトピックの時刻情報を抽出する(ステップS22)。過去データ処理装置10及び新規データ処理装置20によって抽出されたトピック及び時刻情報は、全期間データ処理装置30のトピックへ送信される。
全期間データ処理装置30は、受信したトピックをトピック記憶部32に格納するとともに、受信したトピック時刻情報をトピック時刻情報31に格納する。トピック統合部33は、トピックとトピック時刻情報とを統合する(ステップS31)。近似情報生成部34は、統合された情報に基づいて、タイムスタンプ付の近似情報を生成して(ステップS32)、近似情報記憶部35に格納する。全期間トピック学習部36は、生成された近似情報に基づいて、全期間のトピックを分析する(ステップS33)。この時、数日あるいは数週間後の分析に備え、分析された全期間トピックを過去トピックとしてトピック時刻情報記憶部31、トピック記憶部32に格納する。トピック対応関係抽出部37は、過去トピック、新規トピック、全期間トピックの対応関係を抽出し、出力装置40へ送信し、出力装置40は受信した対応関係を出力する(ステップS34)。
次に、本実施例のトピック分析装置70の効果について説明する。トピック分析装置70は、過去のトピック、ある一定期間の新規トピックを統合したトピックから近似情報を生成し、その近似情報から全期間のトピックを学習する。したがって、近似情報を必要最低限な量だけ生成して分析を行うようにすれば、処理負荷及び記憶容量を抑えつつ、トピックを分析することできる。また、トピック分析装置70によって、過去のデータも考慮した全期間トピックを学習しているため、トピック抽出の精度が向上するとともに、過去のトピック同士が結合又は分裂するトピックの進化過程の出力も可能となる。
次に、本発明の第2の実施例に係るトピック分析装置について図面を参照して説明する。なお、本実施例は、上記第1の実施例に係るトピック分析装置の各部と対応させつつ説明する。図7は、本発明の第2の実施例に係るトピック分析装置の構成を示すブロック図である。
本実施例のトピック分析装置90は、図2及び図7を参照すると、過去データ入力装置50及び新規データ入力装置60としてキーボード91a、91bを備え、過去データ処理装置10、新規データ処理装置20及び全期間データ処理装置30としてパーソナル・コンピュータ(PC)92a、92b、92cを備え、出力装置40としてディスプレイ95を備える。
ここで、PC92aの有する中央演算装置(CPU)93aは、過去データ処理装置10におけるトピック学習部12、時刻情報抽出部13として機能する。また、PC92bの有するCPU93bは、新規データ処理装置20におけるトピック学習部22、時刻情報抽出部23として機能する。さらに、PC92cの有するCPU93cは、全期間データ処理装置30におけるトピック統合部33、近似情報生成部34、全期間トピック学習部36、トピック対応関係抽出部37として機能する。
PC92a、92b、92cは、それぞれ磁気ディスク式等の補助記憶装置(「記憶装置」)94a、94b、94cを備える。PC92aにおける記憶装置94aは、過去データ処理装置10におけるデータ記憶部11として機能する。また、PC92bにおける記憶装置94bは、新規データ処理装置20におけるデータ記憶部21として機能する。さらに、PC92cにおける記憶装置94cは、全期間データ処理装置30におけるトピック時刻情報記憶部31、トピック記憶部32、近似情報記憶部35として機能する。
ここで、過去データ処理装置10及び新規データ処理装置20から受信したトピックはトピック記憶部32に格納され、トピックの時刻情報はトピック時刻情報記憶部31に格納され、生成されたタイムスタンプ付の近似情報は近似情報記憶部35に格納される。
本実施例のトピック分析装置によって、入力のテキストストリームに対して、少ない記憶容量、処理容量で高精度なトピック分析を行い、さらに全期間のトピック、過去のトピック、新規のトピックの間の対応関係やトピックの進化過程などを出力することができる。
一例として、入力テキストストリームはブログ記事であるものとする。図2のトピック学習部12及び22は、単語の共起関係に基づいて複数の話題に分類することができる分類ルールを作成することによって、どのような話題が入力テキスト内に現れていたのかをトピックとして抽出する。テキスト内に出現した全ての単語を、w1、w2、…、wNとし、一つのテキストデータをベクトル(x(w1)、x(w2)、…、x(wN))によって表現する。ここで、x(wi)は、例えば、単語wi(i=1、…、N)がそのテキスト内に現れていた場合には1、そうでない場合には0の値をとる。トピックの出現確率の分布を推定する際には、公知のEMアルゴリズムに基づいて、有限混合モデルの推定を行う。この分布を正規分布とした場合には、各トピックに対する、期待値、分散などのパラメータによってトピックが定義される。トピックを生成する手法として、一例として、特許文献1に記載されたテキストクラスタリング技術を用いることができる。
時刻情報抽出部13、23は、トピック学習部22によって抽出されたトピックに分類されたテキストデータに対する時刻情報の抽出を行う。それぞれのトピックには、分類されたテキストデータの数に相当する時刻情報が存在する。トピック学習部12、22と時刻情報抽出部13、23によって抽出された、トピック及び時刻情報は、全期間データ処理装置30のトピック記憶部32及びトピック時刻情報記憶部31にインターネットなどの通信手段を介して送信される。
全期間データ処理装置30のトピック統合部33は、トピック時刻情報記憶部31、トピック記憶部32に格納されているトピックを統合する。具体的には、過去のトピックを示す有限混合モデルと新規のトピックを示す有限混合モデルとを過去のデータ数と新規のデータ数の割合に応じて加算することによって、これらの有限混合モデルを混合したモデルを作成する。これによって、トピックを統合することが可能となる。具体的な手法として、例えば特許文献2に記載の方法を用いることができる。
近似情報生成部34は、統合された情報からタイムスタンプ付の近似情報を生成する。トピックを示す有限混合モデルとしてベルヌーイ混合分布を仮定した場合、各トピックにはどの単語がどのような確率で出現したかを示す発生確率の情報が含まれる。各単語の発生確率に基づいて、各単語が出現したか否かをサンプリングし、発生したトピックの時刻情報集合の中から、タイムスタンプを1つ選択する。このとき、所定の期間を経過した、古いタイムスタンプが付された近似情報は消去する。
このように、所定の期間を経過した古い情報を価値のないものとして棄却することによって、一定期間の新しいデータに基づくトピック分析が可能となる。これによって、トピックが時間の経過とともにトピックが特定のものへと収束してしまうのを防ぐことができる。近似情報記憶部35は、以上のようにして生成された近似情報を格納する。
全期間トピック学習部36は、タイムスタンプ付の近似情報に基づいて、トピックを学習する。学習の具体的な方法として、一例として、トピック学習部12、22と同様に、特許文献1のテキストクラスタリング技術を用いることができる。
トピック対応関係抽出部37は、過去データ処理装置10及び新規データ処理装置20から受信した過去トピック及び新規トピック、並びに、全期間トピック学習部36によって学習された全期間トピックの間の対応関係を抽出する。各近似情報には、過去トピック又は新規トピックのいずれのトピックから生成されたものであるかに関するラベルが付されている。また、各近似情報は全期間トピックのいずれかのトピックに属する。したがって、過去トピック、新規トピック及び全期間トピックの組み合わせごとに件数をカウントすることによって、いずれのトピック同士の関係が深いのかを調べることができる。さらに、求めた全期間トピックの情報を過去トピックとしてトピック時刻情報記憶部31及びトピック記憶部32に格納し、一定期間の経過後に新規トピックと全期間トピックとを求める、というように再帰的に全期間トピックを分析していくこともできる。
トピックの対応関係の出力例を図4に示す。図4における、かぎ括弧の中身はトピックとして、特徴語を示している。特徴語は、対象とするトピックのみに多く出現し、他のトピックにはほとんど出現しない単語が上位にくるように抽出する。具体的な方法として、特許文献(例えば、特許第2581196号公報、特開2001−266060号公報等)に記載された特徴語抽出技術を用いることができる。図4は、上段から順に、全期間トピック、過去トピック、新規トピックを示している。各全期間トピックに対して、対応関係にある過去トピックと新規トピックが配置されている。例えば、全期間トピックの「スポーツ」は、過去トピックの「野球」と、新規トピックの「サッカー」及び「スケート」とに対応している。
図4の対応関係によって、図5及び図6に示すような全期間トピックの進化過程を出力することできる。図5は、時間が経過しても全期間トピックとしては「魚料理」から変化がなかった場合を示している。期間を四季に区切った場合、各季節の旬な魚のトピックが結合していき、「魚料理」のトピックが形成されていく。一方、図6は、時間の経過とともに全期間トピックも進化した場合を示している。夏には、新規トピックとして「海外」が加わり、全期間トピックは「飛行機」であった。しかし、秋から冬にかけて「飛行機テロ事件」、「汚職事件」が加わり、他の全期間トピック「賄賂」も結合し、全期間トピックが「事件」へと進化していった様子を表している。ブログやSNSにおいては、このように話題が次々と急速に移り変わる。したがって、トピックを分析する際には、このように、トピックの進化過程を出力することが好ましい。
以上の記載は実施例に基づいて行ったが、本発明は、上記実施例に限定されるものではない。
本発明に係るトピック分析装置は、マーケティング調査又はブランドイメージ調査のためのブログ又はSNSの分析、CRM、ナレッジマネジメント、コンタクトセンタへの問い合わせ内容の分析、又は、BLOG、SNS若しくは掲示板等のWEBコミュニティ・ポータルサービス運営等の用途に適用することができる。
本発明の実施形態に係るトピック分析装置の構成を示すブロック図である。 本発明の第1の実施例に係るトピック分析装置の構成を示すブロック図である。 本発明の第1の実施例に係るトピック分析装置の動作を示すシーケンス図である。 本発明の過去/新規トピック、全期間トピックの対応関係の出力例である。 全期間トピック進化過程の出力例である。 全期間トピック進化過程の出力例である。 本発明の第2の実施例に係るトピック分析装置の構成を示すブロック図である。
符号の説明
10 過去データ処理装置
11、21 データ記憶部
12、22 トピック学習部
13、23 時刻情報抽出部
20 新規データ処理装置
30 全期間データ処理装置
31 トピック時刻情報記憶部
32 トピック記憶部
33、83 トピック統合部
34、84 近似情報生成部
35 近似情報記憶部
36、86 全期間トピック学習部
37 トピック対応関係抽出部
40 出力装置
50 過去データ入力装置
60 新規データ入力装置
70、80、90 トピック分析装置
91a、91b キーボード
92a、92b、92c PC
93a、93b、93c CPU
94a、94b、94c 記憶装置
95 ディスプレイ

Claims (16)

  1. 第1の期間内に逐次入力されたデータに基づいて抽出された第1のトピックと第2の期間内に逐次入力されたデータに基づいて抽出された第2のトピックとを統合して統合トピックとするように構成されたトピック統合部と、
    統合された時刻に応じて前記統合トピックの一部を除外して近似情報とするように構成された近似情報生成部と、
    前記近似情報に基づいて前記両期間におけるトピックを抽出して全期間トピックとするように構成された全期間トピック学習部と、を備えることを特徴とするトピック分析装置。
  2. 前記第1のトピック、前記第2のトピック及び前記全期間トピックの間の対応関係を抽出するように構成されたトピック対応関係抽出部を備えることを特徴とする、請求項1に記載のトピック分析装置。
  3. 前記両期間における前記全期間トピックの進化過程を抽出するように構成されたトピック対応関係抽出部を備えることを特徴とする、請求項1に記載のトピック分析装置。
  4. 前記第1及び第2のトピック並びに統合トピックは、それぞれ有限混合モデルによって表されることを特徴とする、請求項1ないし3のいずれか一に記載のトピック分析装置。
  5. 前記トピック統合部は、前記第1のトピックを表す有限混合モデルと前記第2のトピックを表す有限混合モデルとをそれぞれに含まれるデータの個数に応じた比によって重みをつけつつ足し合わせることによって、前記統合トピックを表す有限混合モデルを抽出するように構成されたことを特徴とする、請求項4に記載のトピック分析装置。
  6. 請求項1ないし5のいずれか一に記載のトピック分析装置を有するサーバと、
    1又は2以上のクライアント端末と、を備えるトピック分析システムであって、
    前記トピック分析装置は、前記クライアント端末から前記データを逐次入力するように構成されたことを特徴とするトピック分析システム。
  7. コンピュータによって、逐次入力されたテキストデータにおけるトピックを分析するトピック分析方法であって、
    第1の期間内に逐次入力されたデータに基づいて抽出された第1のトピックと第2の期間内に逐次入力されたデータに基づいて抽出された第2のトピックとを統合して統合トピックとするトピック統合工程と、
    統合された時刻に応じて前記統合トピックの一部を除外して近似情報とする近似情報生成工程と、
    前記近似情報に基づいて前記両期間におけるトピックを抽出して全期間トピックとする全期間トピック学習工程と、を含むことを特徴とするトピック分析方法。
  8. 前記第1のトピック、前記第2のトピック及び前記全期間トピックの間の対応関係を抽出するトピック対応関係抽出工程を含むことを特徴とする、請求項7に記載のトピック分析方法。
  9. 前記両期間における前記全期間トピックの進化過程を抽出するように構成されたトピック対応関係抽出工程を備えることを特徴とする、請求項7に記載のトピック分析方法。
  10. 前記第1及び第2のトピック並びに統合トピックは、それぞれ有限混合モデルによって表されることを特徴とする、請求項7ないし9のいずれか一に記載のトピック分析方法。
  11. 前記トピック統合工程において、前記第1のトピックを表す有限混合モデルと前記第2のトピックを表す有限混合モデルとをそれぞれに含まれるデータの個数に応じた比によって重みをつけつつ足し合わせることによって、前記統合トピックを表す有限混合モデルを抽出することを特徴とする、請求項10に記載のトピック分析方法。
  12. 第1の期間内に逐次入力されたデータに基づいて抽出された第1のトピックと第2の期間内に逐次入力されたデータに基づいて抽出された第2のトピックとを統合して統合トピックとするトピック統合処理と、
    統合された時刻に応じて前記統合トピックの一部を除外して近似情報とする近似情報生成処理と、
    前記近似情報に基づいて前記両期間におけるトピックを抽出して全期間トピックとする全期間トピック学習処理と、をコンピュータに実行させることを特徴とするトピック分析プログラム。
  13. 前記第1のトピック、前記第2のトピック及び前記全期間トピックの間の対応関係を抽出するトピック対応関係抽出処理をコンピュータに実行させることを特徴とする、請求項12に記載のトピック分析プログラム。
  14. 前記両期間における前記全期間トピックの進化過程を抽出するように構成されたトピック対応関係抽出処理をコンピュータに実行させることを特徴とする、請求項12に記載のトピック分析プログラム。
  15. 前記第1及び第2のトピック並びに統合トピックは、それぞれ有限混合モデルによって表されることを特徴とする、請求項12ないし14のいずれか一に記載のトピック分析プログラム。
  16. 前記トピック統合処理において、前記第1のトピックを表す有限混合モデルと前記第2のトピックを表す有限混合モデルとをそれぞれに含まれるデータの個数に応じた比によって重みをつけつつ足し合わせることによって、前記統合トピックを表す有限混合モデルを抽出することを特徴とする、請求項15に記載のトピック分析プログラム。
JP2008028017A 2008-02-07 2008-02-07 トピック分析装置、方法及びプログラム Pending JP2009187395A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008028017A JP2009187395A (ja) 2008-02-07 2008-02-07 トピック分析装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008028017A JP2009187395A (ja) 2008-02-07 2008-02-07 トピック分析装置、方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2009187395A true JP2009187395A (ja) 2009-08-20

Family

ID=41070551

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008028017A Pending JP2009187395A (ja) 2008-02-07 2008-02-07 トピック分析装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2009187395A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012115254A1 (ja) * 2011-02-25 2012-08-30 楽天株式会社 検索装置、検索方法、検索プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
JP2013011999A (ja) * 2011-06-28 2013-01-17 Yahoo Japan Corp トピック変化検出装置及び方法
JP2017084368A (ja) * 2015-10-28 2017-05-18 富士通株式会社 トピック表現の精緻化
JP7398320B2 (ja) 2020-03-31 2023-12-14 株式会社日立システムズ コンサルティング支援システム、コンサルティング支援方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNJ200610037024; 松村憲和、外2名: '分散・ヘテロなデータからのトピック全体構造の学習' FIT2005 第4回情報科学技術フォーラム 情報科学技術レターズ 第4巻 , 20050822, p.93-94 *
JPN6012061647; 松村憲和、外2名: '分散・ヘテロなデータからのトピック全体構造の学習' FIT2005 第4回情報科学技術フォーラム 情報科学技術レターズ 第4巻 , 20050822, p.93-94 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012115254A1 (ja) * 2011-02-25 2012-08-30 楽天株式会社 検索装置、検索方法、検索プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
JP2012178026A (ja) * 2011-02-25 2012-09-13 Rakuten Inc 検索装置、検索方法、検索プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
CN103262079A (zh) * 2011-02-25 2013-08-21 乐天株式会社 检索装置、检索方法、检索程序、及存储该程序的计算机可读取记录介质
KR101346927B1 (ko) * 2011-02-25 2014-01-03 라쿠텐 인코포레이티드 검색 장치, 검색 방법, 및 검색 프로그램을 기억하는 컴퓨터 판독 가능한 기록 매체
CN103262079B (zh) * 2011-02-25 2015-04-01 乐天株式会社 检索装置及检索方法
JP2013011999A (ja) * 2011-06-28 2013-01-17 Yahoo Japan Corp トピック変化検出装置及び方法
JP2017084368A (ja) * 2015-10-28 2017-05-18 富士通株式会社 トピック表現の精緻化
JP7398320B2 (ja) 2020-03-31 2023-12-14 株式会社日立システムズ コンサルティング支援システム、コンサルティング支援方法

Similar Documents

Publication Publication Date Title
Buntain et al. Automatically identifying fake news in popular twitter threads
Kumar et al. Dynamics of conversations
Rezende et al. Non-random coextinctions in phylogenetically structured mutualistic networks
Kim et al. Use of hangeul twitter to track and predict human influenza infection
US20170193403A1 (en) Machine learning based webinterface generation and testing system
JP4322887B2 (ja) スレッド順位付け装置及び方法
JP5961320B2 (ja) ソーシャル・メデイアにおけるユーザの分類方法、コンピュータ・プログラム及びコンピュータ
US9411860B2 (en) Capturing intentions within online text
CN105302880A (zh) 内容关联推荐方法及装置
US9906542B2 (en) Testing frequency control using a volatility score
CN106503907B (zh) 一种业务评估信息确定方法以及服务器
WO2016010875A1 (en) Behavior change detection system for services
CN112183881A (zh) 一种基于社交网络的舆情事件预测方法、设备及存储介质
US11288701B2 (en) Method and system for determining equity index for a brand
Jawad et al. Advancement of artificial intelligence techniques based lexicon emotion analysis for vaccine of COVID-19
JP2009187395A (ja) トピック分析装置、方法及びプログラム
US20200202233A1 (en) Future scenario generating device and method, and computer program
Gentile et al. Extracting semantic user networks from informal communication exchanges
Bao et al. Inferring Motif-Based Diffusion Models for Social Networks.
CN107688594A (zh) 基于社交信息的风险事件的识别系统及方法
Yi et al. Mining the key predictors for event outbreaks in social networks
Kumar et al. Potential Extensions and Updates in Social Media for Twitter Developers
CN104850578B (zh) 一种基于lda算法的社会化网络交互活动用户兴趣挖掘方法
Al Mukhaini et al. False: fake news automatic and lightweight solution
Vásquez et al. Using centrality measures to improve the classification performance of tweets during natural disasters

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121127

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130409