JP2005352613A - トピック分析方法及びその装置並びにプログラム - Google Patents

トピック分析方法及びその装置並びにプログラム Download PDF

Info

Publication number
JP2005352613A
JP2005352613A JP2004170612A JP2004170612A JP2005352613A JP 2005352613 A JP2005352613 A JP 2005352613A JP 2004170612 A JP2004170612 A JP 2004170612A JP 2004170612 A JP2004170612 A JP 2004170612A JP 2005352613 A JP2005352613 A JP 2005352613A
Authority
JP
Japan
Prior art keywords
topic
generation model
data
generation
mixed component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004170612A
Other languages
English (en)
Other versions
JP4254623B2 (ja
Inventor
Satoshi Morinaga
聡 森永
Kenji Yamanishi
健司 山西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004170612A priority Critical patent/JP4254623B2/ja
Priority to US11/147,290 priority patent/US20050278613A1/en
Publication of JP2005352613A publication Critical patent/JP2005352613A/ja
Application granted granted Critical
Publication of JP4254623B2 publication Critical patent/JP4254623B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 時間的に追加されていくテキストデータに対して、なるべく少ない記憶容量と処理時間で、随時、リアルタイムに主要トピックの個数および生成と消滅を同定し、また主要トピックの特徴を抽出し、それによって単一トピックの内容が変化した場合にも、それを知ることが出来るようにしたトピック分析方式を得る。
【解決手段】 テキストデータ1が時間とともに追加されていくような状況で、該データを順次読み込みつつトピックを検出するものであり、トピックの生成モデルを混合分布モデルで表現し、データのタイムスタンプに応じて過去のデータほど激しく忘却しながら該トピックの生成モデルをオンラインで学習する学習手段21〜2nと、複数の候補となるトピックの生成モデル31〜3nの中で情報量基準に基づいて最適なトピックの生成モデルを選択するモデル選択手段4とを含み、その混合成分としてトピックを検出するようにしている。
【選択図】 図1

Description

本発明はトピック分析方法及びその装置並びにプログラムに関し、特にテキストマイニングや自然言語処理の分野において、時系列で追加されていくテキスト集合に対して、各時刻の主要なトピックを同定して各トピックの内容および変化を分析するトピック分析方式に関するものである。
一括で与えられた時系列のテキストデータに対して、各時刻における主要な表現を抽出する方式としては、例えば、非特許文献1に示された方式が知られている。この方式では、テキストデータに現れる単語の中で、その出現頻度が特定の時間期間で上昇しているものが抽出され、その時間期間の開始時刻が主要トピックの出現時刻、期間の終了時刻がそのトピックの消滅時刻、その単語がトピックの内容を表現するものとされていた。
また、トピックの時系列的変化を可視化する方式としては、非特許文献2に開示の方式が知られている。しかし、上記2つの方式はいずれもデータが逐次的に与えられる語毎にオンラインでリアルタイムに処理することはできなかった。
ある特定の単語を含む文章の時系列の塊を検出する方式としては、非特許文献3に示された方式が知られているが、これは異なる単語を使っていても同一内容のトピックを表すようなトピックの分析には不向きであり、また、リアルタイムに分析できないという問題があった。
有限混合確率モデルを用いてトピックの同定や変化検出を行う方式としては、非特許文献4に示された方式が知られているが、いずれもデータが逐次的に与えられる語毎にオンラインでリアルタイムに処理することはできなかった。
リアルタイムに有限混合確率モデルを学習する方式については、非特許文献5が知られているが、これはデータの時系列的順序を考慮するが、データの発生時間そのものを反映できないという問題があった。
R. Swan, J. Allan, "Automatic generation of overview timelines, " Proc. SIGIR Intl. Conf. Information Retrieval, 2000. S.Harve, B.Hetzler, and L.Norwell: ThemeRiver: Visualizing theme changes over time, Proceesings of IEEE Symposium on Information Visualization, 2000 J.Kleinberg: Bursty and hierarchical structure in streams,Proceedings of KDD2002, pp:91-101, ACM Press, 2003 X.Liu, Y.Gong, W.Xu, and S.Zhu: Document clustering with cluster refinement and model selection capabilities, Proceedings of SIGIR International Conference on Information Retrieval, 2002 やH.Li and K.Yamanishi: Topic analysis using a finite mixture model,Information Processing and Management, Vol.39/4, pp 521-541, 2003 K.Yamanishi, J.Takeuchi, G.Williams, and P.Milne: On-line unsupervised oultlier detection using finite mixtures with discounting learning algorithms,"in {\em Proceedings of KDD2000}, ACM Press, pp:320--324 2000
テキストデータが時間を追って追加されていくような状況で、随時、主要なトピックの内容同定をしたい場合には、従来の多くの方式は、多大な記憶容量と処理時間とが必要になるという問題があった。しかしながら、CRM(Customer Relationship Management)やナレッジマネジメントおよびWEB監視などの目的で、時間的に追加されていくテキストデータのトピックを分析する際には、なるべく少ない記憶容量と処理時間でリアルタイムに分析を行う必要がある。
さらに上記の各方式においては、単一のトピックの内容が時間と共に微妙に変化していく場合に、「同じトピックだが内容が微妙に変化している」ことを知ることが出来ない。しかしながら、CRMやWEB監視目的のトピック分析などにおいては、「特定の商品に対する苦情内容の変化」の抽出などのように、単一トピックの内容変化を同定することによって得られる知見は大きい。
本発明の目的は、時間的に追加されていくテキストデータに対して、なるべく少ない記憶容量と処理時間で、随時、リアルタイムに主要トピックの個数および生成と消滅を同定すること、および主要トピックの特徴を抽出すること、それによって、単一トピックの内容が変化した場合にも、それを分析者が知ることが出来るようにしたトピック分析方法およびその装置並びにプロクラムを提供することである。
本発明によるトピック分析装置は、テキストデータが時間とともに追加されていくような状況で、該データを順次読み込みつつトピックを検出するトピック分析装置であって、トピックの生成モデルを混合分布モデルで表現し、データのタイムスタンプに応じて過去のデータほど激しく忘却しながら該トピックの生成モデルをオンラインで学習する学習手段と、複数の候補となるトピックの生成モデルの中で情報量基準に基づいて最適なトピックの生成モデルを選択するモデル選択手段とを含み、その混合成分としてトピックを検出することを特徴とする。
本発明による他のトピック分析装置は、特定の時間のトピックの生成モデルの混合成分と、別の時間のトピック生成モデルの混合成分を比較して、新しいトピックの生成と既存のトピックの消滅を判定するトピック形成消滅判定手段を含むことを特徴とする。
本発明による更に他のトピック分析装置は、トピックの生成モデルの各混合成分に対応するトピックの特徴表現を、混合成分のパラメータに基づいて抽出して、各トピックを特徴付けるトピック特徴表現抽出手段を含むことを特徴とする。
本発明による別のトピック分析装置は、テキストデータが時間とともに追加されていくような状況で、該データを順次読み込みつつトピックを検出するトピック分析装置であって、トピックの生成モデルを混合分布モデルで表現し、データのタイムスタンプに応じて過去のデータほど激しく忘却しながら該トピックの生成モデルをオンラインで学習する学習手段と、複数の候補となるトピックの生成モデルの中で情報量基準に基づいて最適なトピックの生成モデルを選択するモデル選択手段を有しその混合成分としてトピックを検出する手段と、特定の時間のトピックの生成モデルの混合成分と、別の時間のトピック生成モデルの混合成分を比較して、新しいトピックの生成と既存のトピックの消滅を判定するトピック形成消滅判定手段とを含むことを特徴とする。
本発明による他のトピック分析装置は、テキストデータが時間とともに追加されていくような状況で、該データを順次読み込みつつトピックを検出するトピック分析装置であって、トピックの生成モデルを混合分布モデルで表現し、データのタイムスタンプに応じて過去のデータほど激しく忘却しながら該トピックの生成モデルをオンラインで学習する学習手段と、複数の候補となるトピックの生成モデルの中で情報量基準に基づいて最適なトピックの生成モデルを選択するモデル選択手段と、その混合成分としてトピックを検出し、トピックの生成モデルの各混合成分に対応するトピックの特徴表現を、混合成分のパラメータに基づいて抽出して、各トピックを特徴付けるトピック特徴抽出手段とを含むことを特徴とする。
本発明によるトピック分析方法は、テキストデータが時間とともに追加されていくような状況で、該データを順次読み込みつつトピックを検出する方法であって、トピックの生成モデルを混合分布モデルで表現し、データのタイムスタンプに応じて過去のデータほど激しく忘却しながら該トピックの生成モデルをオンラインで学習するステップと、複数の候補となるトピックの前記生成モデルの中で、情報量基準に基づいて最適なトピックの生成モデルを選択して、その混合成分としてトピックを検出するステップとを含むことを特徴とする。
本発明による他のトピック分析方法は、特定の時間のトピックの生成モデルの混合成分と、別の時間のトピック生成モデルの混合成分とを比較して、新しいトピックの生成と既存のトピックの消滅を判定するステップを含むことを特徴とする。
本発明による更に他のトピック分析方法は、トピックの生成モデルの各混合成分に対応するトピックの特徴表現を、混合成分のパラメータに基づいて抽出して、各トピックを特徴付けるステップを含むことを特徴とする。
本発明による別のトピック分析方法は、テキストデータが時間とともに追加されていくような状況で、該データを順次読み込みつつトピックを検出する方法であって、トピックの生成モデルを混合分布モデルで表現し、データのタイムスタンプに応じて過去のデータほど激しく忘却しながら該トピックの生成モデルをオンラインで学習するステップと、複数の候補となるトピックの前記生成モデルの中で、情報量基準に基づいて最適なトピックの生成モデルを選択してその混合成分としてトピックを検出するステップと、特定の時間のトピックの生成モデルの混合成分と別の時間のトピック生成モデルの混合成分を比較して、新しいトピックの生成と既存のトピックの消滅を判定するステップとを含むことを特徴とする。
本発明による他のトピック分析方法は、テキストデータが時間とともに追加されていくような状況で、該データを順次読み込みつつトピックを検出する方法であって、トピックの生成モデルを混合分布モデルで表現し、データのタイムスタンプに応じて過去のデータほど激しく忘却しながら該トピックの生成モデルをオンラインで学習するステップと、複数の候補となるトピックの前記生成モデルの中で情報量基準に基づいて最適なトピックの生成モデルを選択して、その混合成分としてトピックを検出するステップと、トピックの生成モデルの各混合成分に対応するトピックの特徴表現を、混合成分のパラメータに基づいて抽出することにより、各トピックを特徴付けるステップとを含むことを特徴とする。
本発明によるプログラムは、テキストデータが時間とともに追加されていくような状況で、該データを順次読み込みつつトピックを検出する方法をコンピュータに実行させるためのプログラムであって、トピックの生成モデルを混合分布モデルで表現し、データのタイムスタンプに応じて過去のデータほど激しく忘却しながら該トピックの生成モデルをオンラインで学習するステップと、複数の候補となるトピックの前記生成モデルの中で、情報量基準に基づいて最適なトピックの生成モデルを選択して、その混合成分としてトピックを検出するステップとを含むことを特徴とする。
本発明による他のプログラムは、特定の時間のトピックの生成モデルの混合成分と、別の時間のトピック生成モデルの混合成分とを比較して、新しいトピックの生成と既存のトピックの消滅を判定するステップを含むことを特徴とする。
本発明による更に他のプログラムは、トピックの生成モデルの各混合成分に対応するトピックの特徴表現を、混合成分のパラメータに基づいて抽出して、各トピックを特徴付けるステップを含むことを特徴とする。
本発明による別のプログラムは、テキストデータが時間とともに追加されていくような状況で、該データを順次読み込みつつトピックを検出する方法をコンピュータに実行させるためのプログラムであって、トピックの生成モデルを混合分布モデルで表現し、データのタイムスタンプに応じて過去のデータほど激しく忘却しながら該トピックの生成モデルをオンラインで学習するステップと、複数の候補となるトピックの前記生成モデルの中で、情報量基準に基づいて最適なトピックの生成モデルを選択してその混合成分としてトピックを検出するステップと、特定の時間のトピックの生成モデルの混合成分と別の時間のトピック生成モデルの混合成分を比較して、新しいトピックの生成と既存のトピックの消滅を判定するステップとを含むことを特徴とする。
本発明による他のプログラムは、テキストデータが時間とともに追加されていくような状況で、該データを順次読み込みつつトピックを検出する方法をコンピュータに実行させるためのプログラムであって、トピックの生成モデルを混合分布モデルで表現し、データのタイムスタンプに応じて過去のデータほど激しく忘却しながら該トピックの生成モデルをオンラインで学習するステップと、複数の候補となるトピックの前記生成モデルの中で情報量基準に基づいて最適なトピックの生成モデルを選択して、その混合成分としてトピックを検出するステップと、トピックの生成モデルの各混合成分に対応するトピックの特徴表現を、混合成分のパラメータに基づいて抽出することにより、各トピックを特徴付けるステップとを含むことを特徴とする。
本発明の作用を述べる。本発明では、各テキストを文書ベクトルとして表現し、その生成モデルとして混合分布モデルを用いる。混合分布の一つのコンポーネントが一つのトピックに対応するとする。混合分布モデルはコンポーネントの個数等が異なる複数のものが保持される。新規テキストデータが追加されるたびに、学習手段によって各モデルのパラメータが追加学習され、モデル選択手段によって情報量基準に基づいて最も適切なモデルが選択される。選択されたモデルの各コンポーネントが主要なトピックを表している。また、モデル選択手段によってどのモデルが選択されるかが変化した場合には、トピック形成消滅判定手段により以前に選択されていたモデルと今回選択されたモデルの比較が行われ、どれが新たに形成されたトピックであるか、どのトピックが消滅したのかが判定される。
さらに本発明では、モデル選択手段によって選択されたモデルの各トピック、トピック生成/消滅判定手段によって判定された新たに生成されたトピック/消滅したトピックに関して,トピック特徴表現抽出手段が該当する混合分布のパラメータから、そのトピックの特徴表現を抽出し出力される。
複数の混合分布モデルを全て独立に学習し選択するのではなく、一つもしくは複数の上位モデルを学習し、学習された上位モデルからサブモデル生成手段によって複数のサブモデルを生成し、モデル選択手段によって、その中から適切なモデルを選択するのでも良い。さらに、サブモデルを独立に生成して保持するのではなく、サブモデル生成選択手段によって、特定のサブモデルの情報量基準を上位モデルから直接に計算し、最も適切なサブモデルを選択するのでもよい。
学習手段による各モデルのパラメータの追加学習においては、到着順の早いテキストデータに比べて到着順が後ろのテキストデータの内容を重視するようにしてもよい。さらに、テキストデータにタイムスタンプが付随している場合には、到着順のみならずタイムスタンプの内容を利用して、古いテキストデータに比べて最近のテキストデータほど内容を重視するようにしてもよい。
モデル選択手段およびサブモデル生成選択手段において適切なモデルを選択する際に、新たに入力されたテキストデータを用いて追加学習した前後の分布間の距離や、追加学習する前の分布において前記入力テキストデータが発生するのはどれくらい稀なのか、を各モデルに対して計算し、それを最小にするモデルを選択するのでもよい。さらに、これらを計算した結果をモデルの次元数で割ったものや、特定の時刻からの値の累積値、最近の値を重視するように重み付けした平均値などを計算するのでも良い。
トピック形成/消滅判定手段において、以前に選択されていたモデル(旧モデル)と今回選択されたモデル(新モデル)を比較する際に、旧モデルに含まれるコンポーネントと新モデルに含まれるコンポーネントの全ての組み合わせのペアについて類似度を計算し、どの旧モデルのコンポーネントとも類似度が低い新モデルのコンポーネントを新たに形成されたトピックと判定、どの新モデルのコンポーネントとも類似度が低い旧モデルのコンポーネントを消滅したトピックと判定してもよい。コンポーネント間の類似度は、平均値間の距離や、分布の同一性検定におけるP値を用いてもよい。モデルが上位モデルから生成されたサブモデルである場合は、コンポーネント間の類似度として上位モデルにおける同一のコンポーネントから生成されているかどうかを用いてもよい。
トピック特徴表現抽出手段においては、各トピックを表すコンポーネントの確率分布に従ってテキストデータを発生させ、テキストデータを入力とする公知の特徴抽出技術を用いて各トピックの特徴表現を抽出してもよい。前記公知の特徴抽出技術で必要となるテキストデータの各種統計量が、コンポーネントのパラメータから計算できる場合は、その値を使って特徴抽出してもよい。サブ分布生成手段においては、上位モデルの幾つかのコンポーネントをコンポーネントとする混合分布をサブ分布としてもよい。
本発明の第一の効果は、時系列のテキストデータを複数の混合分布でモデル化し、忘却型逐次学習アルゴリズムによるパラメータ学習とモデル選択によって、主要トピックおよびその生成/消滅を、少ない記憶容量と処理時間で随時同定できることができるということである。この際、データのタイムスタンプを利用して、古いものほど、その効果を失いながらトピック構造を同定することができる。また、テキストデータが追加されるごとに新しい単語が出現して、その表現ベクトルの次元が上がっても、これに対応して、最適な主要トピックを同定することができる。
また、本発明の第二の効果は、学習された混合分布のパラメータから各トピックの特徴表現を同定することによって、トピックの内容を随時抽出できること、それによって、単一トピックの内容が変化した場合にも、それを分析者が知ることができるということである。
以下に、図面を参照して本発明の実施の形態について詳細に説明する。図1は本発明の第一の実施の形態にかかるトピック分析装置の構成を示すブロック図である。本トピック分析装置は、全体としてコンピュータからなり、テキストデータ入力手段1、学習手段21,……,2n、混合分布モデル(モデル記憶手段)31,……,3n、モデル選択手段4、トピック形成/消滅判定手段5、トピック特徴表現抽出手段6、出力手段8を含んでいる。
テキストデータ入力手段1は、コールセンターのコンタクト内容や、Webから収集した監視対象ページの内容、新聞記事の内容などテキスト(文字情報)を入力する手段であり、対象とするデータを一括して入力するだけでなく、データが発生したり収集されたりする毎に、追加的に入力することも可能となっているものである。また、入力されたテキストは公知の形態素解析技術や構文解析技術によって分解され、さらに公知の属性選択技術や重み付け技術を用いることで、後記モデル31〜3nが対象とするデータ形式に変換される。
例えば、全ての単語のうち、名詞だけを取り出し、それらをw1 ,…,wN として、それらのテキスト中の頻度をtf(w1 ),…,tf(wN )としてベクトル(tf(w1 ),…,tf(wN ))をテキストデータの表現としたり、全体のテキストの数をM、単語wi を含むテキストの数をdf(wi )として、tf−idf値である、
tf−idf(wi )=tf(wi )×log(M/df(wi ))
を各要素とするベクトル、
(tf−idf(wi ),…,tf−idf(wN ))
をテキストデータの表現としたりする。これらを構成する際に、予め頻度がしきい値に達しないものは最初から要素に入れないなどの前処理を行うこともあり得る。
本テキストデータ入力手段1は、テキストデータを操作入力するためのキーボードや、コールセンターデータベースの内容を逐次転送するプログラム、Web上のテキストデータをダウンロードするアプリケーションなどの一般的な情報入力手段により構成される。
学習手段21〜2nは、テキストデータ入力手段1によって入力されたテキストデータに基づき、混合分布31〜3nを更新する手段である。混合分布31〜3nは、入力されるテキストデータの従う確率分布の候補として、テキストデータ入力手段1によって入力されたテキストデータに基づき推定されたものである。
一般に、確率モデルの考え方では、与えられたデータxは、ある確率変数の実現値とみなされる。特に、この確率変数の確率密度関数が有限次元のパラメータaを持つ固定された関数形f(x;a)を持つと仮定すると、その確率密度関数族、
F={f(x;a)|a in A}
をパラメトリック確率モデルという。なお、Aはaのとり得る値の集合である。また、データxに基づきパラメータaの値を推測することを推定という。例えば、logf(x;a)をaの関数(対数尤度関数)とみなし、これを最大にするaを推定値とする最尤推定法などが一般的である。
また、複数の確率モデルの線形結合、
M={f(x;C1,…,Cn,a1,…,an)
=C1*f1(x;a1)+…+Cn*fn(x;an)|ai in Ai,C1+…+Cn=1、 Ci>0 (i=1,…,k)}
によって与えられる確率モデルMを混合モデル、その確率分布を混合分布、線形結合の対象となった元の各分布をコンポーネント、Ciをi番目のコンポーネントの混合比率とよぶ。これは、yを1からnまでの整数を値域とする確率変数とし、
Pr{y=i}=Ci,f(x|y=i)=fi(x;ai)
を満たす確率変数z=(y,x)に対して、yを隠れ変数としてxのみをモデル化したものと同じである。
ただし、y=iという条件の下でのxの条件付密度関数をf(x|y=i)としている。また、後の記述の簡単化のために、z=(y,x)の確率密度関数を、
g(z;C1,……,Cn,a1,……,an)
とする。
本発明においては、モデル31〜3nは、コンポーネント数やコンポーネントのパラメータが異なる混合モデルであるとし、各コンポーネントは特定の主要なトピックについて述べているテキストデータの従う確率分布であるとする。すなわち、与えられたモデルにおいて、コンポーネントの個数はテキストデータ集合の中の主要トピックの数を表し、各コンポーネントが各主要トピックに相当することになる。
混合モデルに対して、与えられたデータに基づいて最尤推定を行うことは非常に大きな計算量を必要とするが、計算量を節約して近似解を求める方法として、EM(Expectation Maximization)アルゴリズムがよく知られている。このEMアルゴリズムにおいては、対数尤度を直接に最大化するのではなく、隠れ変数yの値の事後分布の計算と、yの値で条件付けしたxの対数尤度の前記事後分布による平均値Ey[log g(x|y)]の最大化を繰り返すことで、混合分布の各パラメータの推定が行われる。ただし、yの前記事後分布による平均値をEy[*]としている。
さらに、データが一括で与えられるのではなく、逐次的に追加到着する状況で、混合分布のパラメータ推定結果をデータ追加時に更新していく逐次型のEMアルゴリズムも公知となっている。特に、非特許文献5では、データの到着順序が考慮され、最近到着したものが重要視され、昔に到着したデータの影響は徐々に軽くなっていく手法が記されている。これは、到着したデータの総数をL個としl番目のデータをxl、そのときの隠れ変数をylとした場合に、ylの事後分布の計算と、最近到着したものの重みを大きくした対数尤度、
ΣEyl[(1−r)(L-l) rlog g(yl|xl)]
の最大化を逐次的に行うものである。
ただし、Σはl=1〜Lの和を表すとし、Eyl[*]はylの事後分布による平均とする。上記の特別な場合としてr=0としたものが、データの到着順序による重み付けをしない逐次型のEMアルゴリズムである。
本発明の学習手段21〜2nは前記の逐次型EMアルゴリズムによって、テキストデータ入力手段1からデータが与えられるたびに、モデル31〜3nにおける混合分布の推定結果を更新する。さらに、テキストデータにタイムスタンプが付随している場合は、
ΣEyl[(1−r)(L-tl)rlog g(xl,yl|yl)]
を最大化するように逐次学習をおこなってもよい。ただし、l番目のデータのタイムスタンプをtlとしている。こうすることによって、データの到着間隔が不ぞろいである場合にも、時間的に最近のデータを重要視し古いデータの影響を軽くするようにコンシスタントに推定が行われる。
例えば、混合モデルとして、各コンポーネントがガウス分布であるような場合を考えると、i番目のコンポーネントは平均μi ,分散共分散行列Σi をパラメータとするガウス密度関数として、
(1/(2π)d/2|Σi |)exp[−(1/2)(x−μiTΣi -1(x−μi )]
で表される。コンポーネントの数はk個あるとし、i番目のコンポーネントの混合比率をξi とする。
この場合、told 時刻のデータをxn とし、tnew 時刻に新しいデータxn+i を入力としたとき、i番目のコンポーネントの更新前の平均パラメータ、分散協分散行列パラメータ、混合比率をそれぞれμi old ,Σi old ,ξi old とし、更新後のそれらをμi new ,Σi new ,ξi new は、例えば以下のように計算することができる。ここで、d、Wij,Si は助変数である。
Figure 2005352613
Figure 2005352613
ここに、αはユーザ指定の定数である。
Figure 2005352613
ここに、λはユーザ指定の定数(忘却率)である。
Figure 2005352613
Figure 2005352613
Figure 2005352613
Figure 2005352613
ただし、上記では、表記の簡単化のために、
(式1*式3+式2*式4)/(式3+式4)
と書くところを、
WA(式1,式2|式3,式4)
として表している。
モデル選択手段4では、入力されるテキストデータの従う確率分布の候補であるモデル31〜3nのそれぞれに対し、テキストデータ入力手段1によって入力されたテキストに基づいて情報量基準の値が計算され、最も適切なモデルが選択される。例えば、Wをウインドウの大きさとし,t番目のデータのベクトル表現の次元をdtとし、P(t)(x|k)をk個のコンポーネントからなる混合分布で、t番目のデータが入力されてから逐次的にパラメータを更新したものであるとするとき、n番目のデータを受け取ったときの情報量基準の値I(k)は、例えば、以下のように計算できる。
I(k)=(1/W)Σt=n-W n (−logP(t) (xt |k))/dt
この値を最小化するようなコンポーネント個数kが最適なコンポーネント数であり、それを構成するコンポーネントが主要トピックを表すコンポーネントであると同定することができる。この基準の値は、入力テキストデータが追加されるごとに新しい単語が出現して、その表現ベクトルの次元が上がっても、これに対応して計算できるものである。P(t) (xt |k)を構成するコンポーネントは、独立なコンポーネントであっても、上位の混合モデルのサブコンポーネントであってもよいものとする。
トピック形成/消滅判定手段5では、モデル選択手段4によって選択されモデルが変化した場合、新たに選択されたモデルのコンポーネントの中で、以前に選択されていたモデルには近いコンポーネントが存在しないものを、「新たに形成されたトピック」、逆に新しいモデルにおいて近いコンポーネントが存在しない古いモデルのコンポーネントを、「消滅したトピック」と判定し、出力手段7に出力する。コンポーネント間の近さの尺度としては、分布の同一性検定におけるP値や、二つの確率分布の近さを計る量として公知のKL(Kullback Leibler)ダイバージェンス等を用いればよい。あるいは、さらに簡単に二つの確率分布の平均値の差などを用いても良い。
トピック特徴抽出手段6は、モデル選択手段4によって選択されたモデルに対して、各コンポーネントの特徴を抽出し、該当トピックの特徴表現として出力手段7に出力する。特徴表現を抽出するのには、単語の情報利得を計算して、その大きいものを抽出する方法を用いることができる。情報利得は、例えば、以下のように計算する。
t番目のデータが与えられたときに、全体のデータの数をtとして、全データの中で指定された単語wを含むデータの数をmw 、これを含まないデータの数をm’w 、ある指定したコンポーネント(かりにi番目とする)から発生したテキストの数をti 単語wを含むデータの中でi番目のコンポーネントから発生したデータ数をmw + 、単語wを含まないデータの中でi番目のコンポーネントから発生したデータ数をm’w + とするとき、I(A,B)を情報量尺度として、wの情報利得を、
IG(w)=I(t,ti)−(I(mw 、mw + )+I(m’w 、m’w + ))
のように計算する。
ここで、I(A,B)の計算式としては、エントロピー、確率的コンプレキシティ、拡張型確率的コンプレキシティなどを用いることができる。エントロピーは、
I(A,B)=AH(B/A)=A(Blog(B/A)+(A−B)log((A−B)/A))
で表されるものであり、確率的コンプレキシティは、
I(A,B)=AH(B/A)+(1/2)log(A/2π)
で表されるものであり、拡張型確率的コンプレキシティは、
I(A,B)=min{B,A−B}+c(AlogA)1/2
で表されるものである。
また、IG(w)の代わりに情報利得としてχ自乗検定量、
(mw +m’w )×(mw +(m’w −m’w +)−(mw −mw + )m’w )×((mw + +m’w + )×(mw −mw + +m’w −m’w + )mw m’w-1
を用いることもできる。
各iについて、i番目のコンポーネントに対し、各wについて、上記情報利得を計算し、大きい順に指定された数の言葉を抽出することにより、特徴語を抽出することができる。また、しきい値を予め与えて、そのしきい値以上の情報利得を与える言葉を抽出することにより、特徴語を抽出することができる。上記情報利得を計算するのに必要な統計量は、t番目のデータが与えられたときには、各iとwに対し、t,ti ,mw ,m’w ,mw + ,m’w + であるが、これらはデータが与えられる毎にインクリメンタルに計算できる。
本学習手段およびモデルは、CPUなどのマイクロプロセッサおよびその周辺回路と、モデル31〜3nを記憶している記憶装置、およびこれらの動作を統括するプログラムとが協働することにより構成されている。
図2は本発明の動作を示すフローチャートである。まず、ステップ101では、テキストデータ入力手段によってテキストデータが入力され、以降のステップでの処理の対象とするデータ形式に変換される。続いて、ステップ102では、前記変換されたテキストデータに基づき、学習手段によってモデルのパラメータ推定の更新を行う。これによって、各モデルにおいては今回入力されたデータの値を反映した新しいパラメータの値を保持することになる。
次に、ステップ103においては、保持されている複数のモデルの中から、これまでに入力されたテキストデータを鑑みて最も適切なモデルがモデル選択手段により選択される。選択されたモデルにおける混合分布の各コンポーネントが主要なトピックに対応している。
ステップ104においては、どのモデルが選択されたかが今回のデータ入力の結果、前回のそれと変化したかどうかが判定される。今回と前回で選択されるモデルが変わらなかった場合は、前回までのテキストデータにおける主要トピックに対して、今回のデータを入力することで新たに主要トピックの形成や消滅がおきなかったことを意味する。逆に、選択されるモデルが変化した場合は、一般に混合分布を構成するコンポーネントの数が変化しており、何らかの新規トピックの形成もしくは消滅が起きていることを意味する。
そこで、ステップ105においては、今回選択されたモデルのコンポーネントの中で、前回選択されていたモデルのコンポーネントのどれとも近いものがないものをトピック形成/消滅判定手段により同定し、新規に形成された主要トピックを表すコンポーネントであるとする。同様に、ステップ106においては、前回選択されていたモデルのコンポーネントの中で、今回選択されたモデルのコンポーネントのどれとも近いものがないものを同定し、主要でなくなったトピックを表すコンポーネントであるとする。
ステップ107では、今回選択されたモデルの各コンポーネントおよび新規形成/ 消滅したとされたコンポーネントの特徴がトピック特徴抽出手段により抽出され、該当するトピックの特徴表現とされる。新たにテキストデータが入力された場合は、ステップ101に戻り、一連の処理がなされる。また、ステップ103から107の処理は、入力される各テキストデータに対して毎回行う必要は無く、主要トピックの同定や新規形成/消滅トピックの同定を行うように、ユーザーなどから指示された場合やタイマーなどで指定された時刻にだけ行うようにしてもよい。
図3は本発明の第二の実施形態にかかるトピック分析装置の構成を示すブロック図であり、図1と同等部分は同一符号により示している。第一の実施形態との違いは、モデル選択手段でモデル選択する際の候補となるモデルが、上位モデルの複数のサブモデルである場合になっていることである。サブモデル生成手段9によって生成されたサブモデルに対して、第一の実施の形態と同様のモデル選択を行う。例えば、上位モデルとしては比較的多数のコンポーネントをもつ混合モデルを想定し、サブモデルとしてはそのコンポーネントを幾つか取り出して混合モデルを作った場合が相当する。
このような構成にすることで、並列に複数のモデルを保持する必要と、それぞれを学習手段によって更新する必要が無くなり、処理に必要な記憶容量や計算量を縮減することができる。また、トピック形成/消滅判定手段においても、二つのコンポーネントの間の近さの尺度として、「上位モデルで同一コンポーネントから生成されたかどうか」を採用することにより、確率分布間の距離等を尺度とする場合に比べて必要な計算量を縮減することが出来る。
図4は本発明の第三の実施形態にかかるトピック分析装置の構成を示すブロック図であり、図1と同等部分は同一符号にて示している。ここでも、モデル選択手段でモデル選択する際の候補となるモデルが、上位モデルの複数のサブモデルとして与えられるが、第二の実施形態との違いは、複数のサブモデルを並列に計算するのでなく、サブモデル生成選択手段41によって、順番に情報量基準を計算し、最も適切なサブモデルを選択することにある。このような構成にすることで、サブモデル全てを保持しておく必要も無くなり、必要な記憶容量をさらに縮減することができる。
図5に本発明への入力データの例を示す。特定のタイプの電気製品に関して議論を行うWEB上の掲示板に対する監視データで、掲示板への書き込みが行われた日付時刻を付加された書き込み内容(テキストデータ)が1レコードを構成している。WEB掲示板自体は投稿が随時行われるので、時間的にデータが随時追加されていくことになる。スケジュールに従って動くプログラムあるいは掲示板サーバー自体等により、新規に追加されたデータが本発明のトピック分析装置に入力され、各処理が行われるとする。
図6は、ある特定の時刻までデータが入力された場合の、本発明によるトピック分析の出力例である。各列が各主要トピックに相当し、モデル選択手段によって選択されたモデルにおける各コンポーネントに対して、トピック特徴表現抽出手段の出力を記載したものである。この分析例では、選択されたモデルには二つのコンポーネントがあり、一つ目のコンポーネントは、「商品XX」、「遅い」、「メール」などを特徴表現とする主要トピック、二つ目のコンポーネントは、「音」、「ZZ」、「よい」などを特徴表現とする主要トピックとなっている。
図7は、さらに特定の時刻までデータ入力が進んだ場合の、本発明によるトピック分析の出力例である。ただし、本出力例はこの時刻でモデル選択手段によってどのモデルが選択されたかが変化した場合を記載している。本出力例で、トピック形成/消滅判定手段により新規形成と判定されたトピックには「主要トピック:新規」、消滅したと判定されたトピックには「消滅トピック」、新しく選択されたモデルのコンポーネントで、以前のモデルのコンポーネントに近いものが存在するトピックには「主要トピック:継続」と列名がついている。
「商品XX」を特徴語とするトピックは、「主要トピック:継続」の列名を持つので、以前から主要であったトピックである。しかしながら、図6の「商品XX」のトピックと比較すると、「メール」の代わりに「ウイルス」が特徴語となっており、同じトピックでも内容が変化してきていることを分析者が見て取ることが可能となっている。
「音」や「ZZ」を特徴語としていたトピックは図6では主要トピックであったが、図7では「消滅トピック」として出力されている。図7の分析を行った時点で、このトピックが消滅したことが見て取れる。逆に、「新WW」などを特徴表現とするトピックは「主要トピック:新規」と同定されており、この時点であらたに主要トピックとなったことを分析者が見て取ることが出来る。
本発明の第一の実施形態に係るトピック分析装置の構成を表すブロック図である。 本発明の第一の実施形態に係るトピック分析装置の動作を示すフロー図である。 本発明の第二の実施形態に係るトピック分析装置の構成を表すブロック図である。 本発明の第三の実施形態に係るトピック分析装置の構成を表すブロック図である。 本発明への入力データ例である。 本発明の分析結果出力例(その1)である。 本発明の分析結果出力例(その2)である。
符号の説明
1 テキストデータ入力手段
21〜2n 学習手段
31〜3n モデル(または上位モデル、サブモデル)
4 モデル選択手段
5 トピック形成/消滅判定手段
6 トピック特徴表現抽出手段
8 出力手段
9 サブモデル生成手段
41 サブモデル生成選択手段

Claims (18)

  1. テキストデータが時間とともに追加されていくような状況のもとで、該データを順次読み込みつつトピックを検出するトピック分析装置であって、
    トピックの生成モデルを混合分布モデルで表現し、データのタイムスタンプに応じて過去のデータほど激しく忘却しながら該トピックの生成モデルをオンラインで学習する学習手段と、
    前記生成モデルを格納する記憶手段と、
    前記記憶手段に格納された複数の候補となるトピックの生成モデルの中で、情報量基準に基づいて最適なトピックの生成モデルを選択して、その混合成分としてトピックを検出する手段とを含むことを特徴とするトピック分析装置。
  2. 特定の時間のトピックの生成モデルの混合成分と、別の時間のトピック生成モデルの混合成分を比較して、新しいトピックの生成と既存のトピックの消滅を判定するトピック形成消滅判定手段を含むことを特徴とするトピック分析装置。
  3. トピックの生成モデルの各混合成分に対応するトピックの特徴表現を、混合成分のパラメータに基づいて抽出して、各トピックを特徴付けるトピック特徴表現抽出手段を含むことを特徴とするトピック分析装置。
  4. テキストデータが時間とともに追加されていくような状況のもとで、該データを順次読み込みつつトピックを検出するトピック分析装置であって、
    トピックの生成モデルを混合分布モデルで表現し、データのタイムスタンプに応じて過去のデータほど激しく忘却しながら該トピックの生成モデルをオンラインで学習する学習手段と、
    前記生成モデルを格納する記憶手段と、
    前記記憶手段に格納された複数の候補となるトピックの生成モデルの中で情報量基準に基づいて最適なトピックの生成モデルを選択して、その混合成分としてトピックを検出する手段と、
    特定の時間のトピックの生成モデルの混合成分と、別の時間のトピック生成モデルの混合成分を比較して、新しいトピックの生成と既存のトピックの消滅を判定するトピック形成消滅判定手段とを含むことを特徴とするトピック分析装置。
  5. トピックの生成モデルの各混合成分に対応するトピックの特徴表現を、混合成分のパラメータに基づいて抽出して、各トピックを特徴付けるトピック特徴抽出手段を、更に含むことを特徴とする請求項4記載のトピック分析装置。
  6. テキストデータが時間とともに追加されていくような状況のもとで、該データを順次読み込みつつトピックを検出するトピック分析装置であって、
    トピックの生成モデルを混合分布モデルで表現し、データのタイムスタンプに応じて過去のデータほど激しく忘却しながら該トピックの生成モデルをオンラインで学習する学習手段と、
    前記生成モデルを格納する記憶手段と、
    前記記憶手段に格納された複数の候補となるトピックの生成モデルの中で情報量基準に基づいて最適なトピックの生成モデルを選択してその混合成分としてトピックを検出する手段と、
    トピックの生成モデルの各混合成分に対応するトピックの特徴表現を、混合成分のパラメータに基づいて抽出して、各トピックを特徴付けるトピック特徴抽出手段とを含むことを特徴とするトピック分析装置。
  7. テキストデータが時間とともに追加されていくような状況のもとで、該データを順次読み込みつつトピックを検出する方法であって、
    トピックの生成モデルを混合分布モデルで表現し、データのタイムスタンプに応じて過去のデータほど激しく忘却しながら該トピックの生成モデルをオンラインで学習して、記憶手段に記憶するステップと、
    前記記憶手段に記憶された複数の候補となるトピックの前記生成モデルの中で、情報量基準に基づいて最適なトピックの生成モデルを選択して、その混合成分としてトピックを検出するステップとを含むことを特徴とするトピック分析方法。
  8. 特定の時間のトピックの生成モデルの混合成分と、別の時間のトピック生成モデルの混合成分とを比較して、新しいトピックの生成と既存のトピックの消滅を判定するステップを含むことを特徴とするトピック分析方法。
  9. トピックの生成モデルの各混合成分に対応するトピックの特徴表現を、混合成分のパラメータに基づいて抽出して、各トピックを特徴付けるステップを含むことを特徴とするトピック分析方法。
  10. テキストデータが時間とともに追加されていくような状況のもとで、該データを順次読み込みつつトピックを検出する方法であって、
    トピックの生成モデルを混合分布モデルで表現し、データのタイムスタンプに応じて過去のデータほど激しく忘却しながら該トピックの生成モデルをオンラインで学習して、記憶手段に記憶するステップと、
    前記記憶手段に記憶された複数の候補となるトピックの前記生成モデルの中で、情報量基準に基づいて最適なトピックの生成モデルを選択してその混合成分としてトピックを検出するステップと、
    特定の時間のトピックの生成モデルの混合成分と別の時間のトピック生成モデルの混合成分を比較して、新しいトピックの生成と既存のトピックの消滅を判定するステップとを含むことを特徴とするトピック分析方法。
  11. トピックの生成モデルの各混合成分に対応するトピックの特徴表現を、混合成分のパラメータに基づいて抽出することにより、各トピックを特徴付けるステップを、更に含むことを特徴とする請求項10記載のトピック分析方法。
  12. テキストデータが時間とともに追加されていくような状況のもとで、該データを順次読み込みつつトピックを検出する方法であって、
    トピックの生成モデルを混合分布モデルで表現し、データのタイムスタンプに応じて過去のデータほど激しく忘却しながら該トピックの生成モデルをオンラインで学習して、記憶手段に記憶するステップと、
    前記記憶手段に記憶された複数の候補となるトピックの前記生成モデルの中で情報量基準に基づいて最適なトピックの生成モデルを選択して、その混合成分としてトピックを検出するステップと、
    トピックの生成モデルの各混合成分に対応するトピックの特徴表現を、混合成分のパラメータに基づいて抽出することにより、各トピックを特徴付けるステップとを含むことを特徴とするトピック分析方法。
  13. テキストデータが時間とともに追加されていくような状況のもとで、該データを順次読み込みつつトピックを検出する方法をコンピュータに実行させるためのプログラムであって、
    トピックの生成モデルを混合分布モデルで表現し、データのタイムスタンプに応じて過去のデータほど激しく忘却しながら該トピックの生成モデルをオンラインで学習して、記憶手段に記憶するステップと、
    前記記憶手段に記憶された複数の候補となるトピックの前記生成モデルの中で、情報量基準に基づいて最適なトピックの生成モデルを選択して、その混合成分としてトピックを検出するステップとを含むことを特徴とするプログラム。
  14. 特定の時間のトピックの生成モデルの混合成分と、別の時間のトピック生成モデルの混合成分とを比較して、新しいトピックの生成と既存のトピックの消滅を判定するステップを含むことを特徴とする、コンピュータにより読取可能なプログラム。
  15. トピックの生成モデルの各混合成分に対応するトピックの特徴表現を、混合成分のパラメータに基づいて抽出して、各トピックを特徴付けるステップを含むことを特徴とする、コンピュータにより読取可能なプログラム。
  16. テキストデータが時間とともに追加されていくような状況で、該データを順次読み込みつつトピックを検出する方法をコンピュータに実行させるためのプログラムであって、
    トピックの生成モデルを混合分布モデルで表現し、データのタイムスタンプに応じて過去のデータほど激しく忘却しながら該トピックの生成モデルをオンラインで学習して、記憶手段に記憶するステップと、
    前記記憶手段に記憶された複数の候補となるトピックの前記生成モデルの中で、情報量基準に基づいて最適なトピックの生成モデルを選択してその混合成分としてトピックを検出するステップと、
    特定の時間のトピックの生成モデルの混合成分と別の時間のトピック生成モデルの混合成分を比較して、新しいトピックの生成と既存のトピックの消滅を判定するステップとを含むことを特徴とするプログラム。
  17. トピックの生成モデルの各混合成分に対応するトピックの特徴表現を、混合成分のパラメータに基づいて抽出することにより、各トピックを特徴付けるステップを、更に含むことを特徴とする請求項16記載のプログラム。
  18. テキストデータが時間とともに追加されていくような状況のもとで、該データを順次読み込みつつトピックを検出する方法をコンピュータに実行させるためのプログラムであって、
    トピックの生成モデルを混合分布モデルで表現し、データのタイムスタンプに応じて過去のデータほど激しく忘却しながら該トピックの生成モデルをオンラインで学習して、記憶手段に記憶するステップと、
    前記記憶手段に記憶された複数の候補となるトピックの前記生成モデルの中で情報量基準に基づいて最適なトピックの生成モデルを選択して、その混合成分としてトピックを検出するステップと、
    トピックの生成モデルの各混合成分に対応するトピックの特徴表現を、混合成分のパラメータに基づいて抽出することにより、各トピックを特徴付けるステップとを含むことを特徴とするプログラム。
JP2004170612A 2004-06-09 2004-06-09 トピック分析方法及びその装置並びにプログラム Expired - Lifetime JP4254623B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004170612A JP4254623B2 (ja) 2004-06-09 2004-06-09 トピック分析方法及びその装置並びにプログラム
US11/147,290 US20050278613A1 (en) 2004-06-09 2005-06-08 Topic analyzing method and apparatus and program therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004170612A JP4254623B2 (ja) 2004-06-09 2004-06-09 トピック分析方法及びその装置並びにプログラム

Publications (2)

Publication Number Publication Date
JP2005352613A true JP2005352613A (ja) 2005-12-22
JP4254623B2 JP4254623B2 (ja) 2009-04-15

Family

ID=35461938

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004170612A Expired - Lifetime JP4254623B2 (ja) 2004-06-09 2004-06-09 トピック分析方法及びその装置並びにプログラム

Country Status (2)

Country Link
US (1) US20050278613A1 (ja)
JP (1) JP4254623B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008062910A1 (fr) * 2006-11-22 2008-05-29 Haruo Hayashi Dispositif et procédé d'analyse de documents
WO2009116342A1 (ja) * 2008-03-18 2009-09-24 日本電気株式会社 動的トピック分析システム、動的トピック分析方法および動的トピック分析プログラムを記録した媒体
JP2010218032A (ja) * 2009-03-13 2010-09-30 Fuji Xerox Co Ltd 議論支援装置及び議論支援プログラム
JP2012190142A (ja) * 2011-03-09 2012-10-04 Ntt Docomo Inc 評価装置および評価方法
US8307293B2 (en) 2009-03-13 2012-11-06 Fuji Xerox Co., Ltd. Discussion support apparatus, discussion support method, and computer-readable medium
JP2013011999A (ja) * 2011-06-28 2013-01-17 Yahoo Japan Corp トピック変化検出装置及び方法
DE102012224488A1 (de) 2012-01-13 2013-07-18 International Business Machines Corp. System, Verfahren und Programm zur Entnahme eines themenfremden Teils aus einem Gespräch
JP2016194912A (ja) * 2015-03-31 2016-11-17 日本電気株式会社 混合モデルの選択方法及び装置
CN109783586A (zh) * 2019-01-21 2019-05-21 福州大学 基于聚类重采样的水军评论检测系统及方法

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080120346A1 (en) * 2006-11-22 2008-05-22 Anindya Neogi Purging of stored timeseries data
JPWO2008087968A1 (ja) * 2007-01-17 2010-05-06 日本電気株式会社 変化点検出方法および装置
CN101296128A (zh) * 2007-04-24 2008-10-29 北京大学 一种对互联网信息进行异常状态监测的方法
US7917355B2 (en) * 2007-08-23 2011-03-29 Google Inc. Word detection
JP5379138B2 (ja) * 2007-08-23 2013-12-25 グーグル・インコーポレーテッド 領域辞書の作成
US7983902B2 (en) 2007-08-23 2011-07-19 Google Inc. Domain dictionary creation by detection of new topic words using divergence value comparison
JP2010033484A (ja) * 2008-07-31 2010-02-12 Fujitsu Ltd 宴会場所推薦装置および宴会場所推薦プログラム
US9892103B2 (en) * 2008-08-18 2018-02-13 Microsoft Technology Licensing, Llc Social media guided authoring
US8676565B2 (en) * 2010-03-26 2014-03-18 Virtuoz Sa Semantic clustering and conversational agents
US9378202B2 (en) 2010-03-26 2016-06-28 Virtuoz Sa Semantic clustering
US8694304B2 (en) * 2010-03-26 2014-04-08 Virtuoz Sa Semantic clustering and user interfaces
US9524291B2 (en) 2010-10-06 2016-12-20 Virtuoz Sa Visual display of semantic information
JP5804492B2 (ja) * 2011-03-29 2015-11-04 日本電気株式会社 リスク管理装置
US9569413B2 (en) * 2012-05-07 2017-02-14 Sap Se Document text processing using edge detection
CN108491414A (zh) * 2018-02-05 2018-09-04 中国科学院信息工程研究所 一种融合话题特征的新闻内容在线抽取方法及系统
US10606954B2 (en) 2018-02-15 2020-03-31 International Business Machines Corporation Topic kernelization for real-time conversation data
US11301629B2 (en) * 2019-08-21 2022-04-12 International Business Machines Corporation Interleaved conversation concept flow enhancement
CN112711650B (zh) * 2019-10-24 2024-04-12 富驰律法(北京)科技有限公司 一种公益诉讼线索挖掘方法及系统
US11501081B1 (en) 2019-12-31 2022-11-15 Meta Platforms, Inc. Methods, mediums, and systems for providing a model for an end-user device
CN117786543B (zh) * 2024-02-28 2024-05-10 沂水友邦养殖服务有限公司 一种数字化肉鸡养殖信息存储管理方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6233575B1 (en) * 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
JP3791879B2 (ja) * 1999-07-19 2006-06-28 富士通株式会社 文書要約装置およびその方法
US7028250B2 (en) * 2000-05-25 2006-04-11 Kanisa, Inc. System and method for automatically classifying text
MXPA05005100A (es) * 2002-11-14 2005-12-14 Educational Testing Service Evaluacion automatica del uso excesivamente repetitivo de palabras en un ensayo.
US7346839B2 (en) * 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
US20050108630A1 (en) * 2003-11-19 2005-05-19 Wasson Mark D. Extraction of facts from text

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2008062910A1 (ja) * 2006-11-22 2010-03-04 春男 林 文書解析装置および方法
WO2008062910A1 (fr) * 2006-11-22 2008-05-29 Haruo Hayashi Dispositif et procédé d'analyse de documents
JP5397370B2 (ja) * 2008-03-18 2014-01-22 日本電気株式会社 動的トピック分析システム、動的トピック分析方法および動的トピック分析プログラムを記録した媒体
WO2009116342A1 (ja) * 2008-03-18 2009-09-24 日本電気株式会社 動的トピック分析システム、動的トピック分析方法および動的トピック分析プログラムを記録した媒体
JP2010218032A (ja) * 2009-03-13 2010-09-30 Fuji Xerox Co Ltd 議論支援装置及び議論支援プログラム
US8296363B2 (en) 2009-03-13 2012-10-23 Fuji Xerox Co., Ltd. Discussion support apparatus, discussion support method, and computer-readable medium
US8307293B2 (en) 2009-03-13 2012-11-06 Fuji Xerox Co., Ltd. Discussion support apparatus, discussion support method, and computer-readable medium
JP2012190142A (ja) * 2011-03-09 2012-10-04 Ntt Docomo Inc 評価装置および評価方法
JP2013011999A (ja) * 2011-06-28 2013-01-17 Yahoo Japan Corp トピック変化検出装置及び方法
DE102012224488A1 (de) 2012-01-13 2013-07-18 International Business Machines Corp. System, Verfahren und Programm zur Entnahme eines themenfremden Teils aus einem Gespräch
US9002843B2 (en) 2012-01-13 2015-04-07 International Business Machines Corporation System and method for extraction of off-topic part from conversation
JP2016194912A (ja) * 2015-03-31 2016-11-17 日本電気株式会社 混合モデルの選択方法及び装置
CN109783586A (zh) * 2019-01-21 2019-05-21 福州大学 基于聚类重采样的水军评论检测系统及方法
CN109783586B (zh) * 2019-01-21 2022-10-21 福州大学 基于聚类重采样的水军评论检测方法

Also Published As

Publication number Publication date
US20050278613A1 (en) 2005-12-15
JP4254623B2 (ja) 2009-04-15

Similar Documents

Publication Publication Date Title
JP4254623B2 (ja) トピック分析方法及びその装置並びにプログラム
Bandekar et al. Design and analysis of machine learning algorithms for the reduction of crime rates in India
Wang et al. SVStream: A support vector-based algorithm for clustering data streams
Kim et al. Anomaly pattern detection for streaming data
US8165979B2 (en) System and method for resource adaptive classification of data streams
CN112235327A (zh) 异常日志检测方法、装置、设备和计算机可读存储介质
Sani et al. Redefining selection of features and classification algorithms for room occupancy detection
AU2020325094B2 (en) Finite rank deep kernel learning with linear computational complexity
Piger Turning points and classification
Lynch et al. Bayesian classification and feature reduction using uniform Dirichlet priors
Al-Shalabi New feature selection algorithm based on feature stability and correlation
Tüysüzoğlu et al. Temporal bagging: a new method for time-based ensemble learning
CN114610576A (zh) 一种日志生成监控方法和装置
Dierckx et al. Quantifying news narratives to predict movements in market risk
Florez-Larrahondo Incremental learning of discrete hidden Markov models
Johnpaul et al. Representational primitives using trend based global features for time series classification
D'Acunto et al. Learning multiscale non-stationary causal structures
Yolacan et al. A framework for studying new approaches to anomaly detection
Amayri et al. Infinite Langevin mixture modeling and feature selection
Lin et al. Temporal data mining using Hidden Markov-local polynomial models
Cheriyan et al. Web page prediction using Markov model and Bayesian statistics
Yang et al. A novel approach of rough set-based attribute reduction using fuzzy discernibility matrix
Virani et al. Algorithms for context learning and information representation for multi-sensor teams
Hourbracq et al. Learning and selection of dynamic Bayesian Networks for non-stationary processes in real time
Elmahalwy et al. New hybrid ensemble method for anomaly detection in data science

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080701

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081007

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090119

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120206

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4254623

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120206

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130206

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130206

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140206

Year of fee payment: 5