JP2015032166A

JP2015032166A - 分類装置、分類方法、および分類プログラム

Info

Publication number: JP2015032166A
Application number: JP2013161860A
Authority: JP
Inventors: 徳章川前; Noriaki Kawamae; 郷史松本; Goshi Matsumoto
Original assignee: NTT Comware Corp
Current assignee: NTT Comware Corp
Priority date: 2013-08-02
Filing date: 2013-08-02
Publication date: 2015-02-16
Anticipated expiration: 2033-08-02
Also published as: JP6166980B2

Abstract

【課題】文章情報と当該文章情報に対応する付随情報とから、付随情報に対応する特徴、および当該付随情報に対応する特徴以外であって同一カテゴリーの文章情報に共通して出現する特徴を抽出することができる分類装置、分類方法、および分類プログラムを提供すること。【解決手段】分類装置は、文章情報と当該文章情報に対応する付随情報とに対して、前記文章情報から前記付随情報に関連する単語を抽出する関連抽出部と、前記関連抽出部が抽出した前記付随情報に関連する単語以外であって、同一カテゴリーの文章情報に共通し、かつ高頻度で出現する単語を抽出する共通抽出部と、を備える。【選択図】図５

Description

本発明は、分類装置、分類方法、および分類プログラムに関する。

対象となる文章情報から単語の抽出を行うものがある。例えば、非特許文献１には、確率モデルに基づいて、トピックを階層化することが記載されている。

ＭｉｍｎｏＤａｖｉｄ、ＬｉＷｅｉ、ＭｃＣａｌｌｕｍＡｎｄｒｅｗ、"ＭｉｘｔｕｒｅｓｏｆＨｉｅｒａｒｃｈｉｃａｌＴｏｐｉｃｓｗｉｔｈＰａｃｈｉｎｋｏＡｌｌｏｃａｔｉｏｎ"、Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ、ｐｐ．６３３−６４０、２００７

しかしながら、非特許文献１に示されるモデルでは、文章情報（例えば、テキストデータ）と当該文章情報に対応する付随情報（例えば、メタデータ）とから、付随情報に対応する特徴、および当該付随情報に対応する特徴以外であって同一カテゴリーの文章情報に共通して出現する特徴を抽出できないという問題があった。

本発明は、上述の課題を鑑みてなされたものであり、文章情報と当該文章情報に対応する付随情報とから、付随情報に対応する特徴、および当該付随情報に対応する特徴以外であって同一カテゴリーの文章情報に共通して出現する特徴を抽出することができる分類装置、分類方法、および分類プログラムを提供することを目的とする。

（１）本発明は、上述した課題を解決するためになされたもので、本発明の第１の態様は、分類装置であって、文章情報と当該文章情報に対応する付随情報とに対して、前記文章情報から前記付随情報に関連する単語を抽出する関連抽出部と、前記関連抽出部が抽出した前記付随情報に関連する単語以外であって、同一カテゴリーの文章情報に共通し、かつ高頻度で出現する単語を抽出する共通抽出部と、を備えることを特徴とする分類装置である。

（２）本発明の第２の態様は、上述の分類装置であって、前記関連抽出部が抽出した前記付随情報に関連する単語および前記共通抽出部が抽出した前記共通して出現する単語に基づいて、前記付随情報に関連する単語に対応するトピック、および前記共通して出現する単語に対応するトピックの確率分布を割り当てる割当部と、前記割当部がトピックおよびトピックの確率分布を割り当てた全ての単語について、統計的な手法により、前記付随情報に関連する単語に対応するトピックと、前記共通して出現する単語に対応するトピックの確率分布と、前記単語に対応するトピックと前記共通して出現する単語に対応するトピックの確率分布とを選択するスイッチ変数の確率分布とを推定する推定部と、をさらに備えることを特徴とする分類装置である。

（３）本発明の第３の態様は、上述の分類装置であって、前記同一カテゴリーの文章情報とは、前記文章情報を構成する前記付随情報に関連する単語に対応するトピックが所定の数以上、同一である文章情報であることを特徴とする分類装置である。

（４）本発明の第４の態様は、分類方法であって、文章情報と当該文章情報に対応する付随情報とに対して、前記文章情報から前記付随情報に関連する単語を抽出する関連抽出過程と、前記関連抽出過程により抽出された前記付随情報に関連する前記単語以外であって、同一カテゴリーの文章情報に共通し、かつ高頻度で出現する単語を抽出する共通抽出過程と、
を有することを特徴とする分類方法である。

（５）本発明の第５の態様は、分類プログラムであって、コンピュータに、文章情報と当該文章情報に対応する付随情報とに対して、前記文章情報から前記付随情報に関連する単語を抽出する関連抽出ステップと、前記関連抽出ステップにより抽出された前記付随情報に関連する前記単語以外であって、同一カテゴリーの文章情報に共通し、かつ高頻度で出現する単語を抽出する共通抽出ステップと、を実行させるための分類プログラムである。

本発明の分類装置、分類方法、および分類プログラムによれば、文章情報と当該文章情報に対応する付随情報とから、付随情報に対応する特徴、および当該付随情報に対応する特徴以外であって同一カテゴリーの文章情報に共通して出現する特徴を抽出することができる。

本発明の実施形態により実現される付随情報に関連する単語および付随情報に関連する単語以外であって、同一カテゴリーの文章情報に共通して出現する単語の抽出の一例を示す概略図である。本実施形態に係るグラフィカルモデルの一例である。本実施形態に係る分類システムの構成の一例を示す概略図である。本実施形態に係る分類システムの構成の一例を示す概略ブロック図である。本実施形態に係る計算サーバの構成の一例を示す概略ブロック図である。本実施形態に係る分類装置における計算処理に用いる確率変数と確率分布のパラメータとその種類を示すテーブルの一例である。本実施形態に係る計算サーバにおける計算処理の説明の一例を示すフローチャートである。本実施形態に係る計算サーバにおける計算対象データの一例を説明する説明図である。本実施形態に係る計算サーバにおける計算対象データの処理の一例を説明する説明図である。本実施形態に係るグラフィカルモデルにおける各ノードと、ギブスサンプリングにより取得される確率変数との対応の一例を示す概略図である。本実施形態に係る確率変数を統計的処理により取得するときの説明図である。本実施形態により単語の抽出を行ったときの一例を示す説明図である。本実施形態および各比較例により単語の抽出を行ったときの一例を示す説明図である。本実施形態および各比較例により単語の抽出を行ったときの一例を示す説明図である。本実施形態および各比較例により単語の抽出を行ったときの一例を示す説明図である。本発明の実施形態と比較する第１の比較例に係るグラフィックモデルである。本発明の実施形態と比較する第２の比較例に係るグラフィックモデルである。本発明の実施形態と比較する第３の比較例に係るグラフィックモデルである。

（第１の比較例）
以下、本発明の実施形態と比較する第１の比較例について図面を参照しながら詳しく説明する。
図１６は、本発明の実施形態と比較する第１の比較例に係るグラフィックモデルである。
図１６において、ノード１１２は、ハイパーパラメータβのノードである。ハイパーパラメータβは、トピック（単語）の確率分布θ_ｄを求めるのに用いられる。ハイパーパラメータβは、初期値としてランダム値が用いられる。
ノード１１３は、テキストデータごとに特異なトピックの確率分布θ_ｄを求めるノードである。ここで、Ｄは、文章の数を表し、トピックの確率分布θ_ｄは、テキストデータごとにＤ種類存在する。

ノード１１４は、トピックの確率変数ｚ_ｉを取得するノードである。すなわち、ノード１１４は、テキストデータから、ノード１１３で求められた特異なトピックの確率分布θ_ｄに基づき、トピックの確率変数ｚ_ｉを取得する。ここで、ｚ_ｉは、ｉ番目（ｉは任意の整数）の単語（トークン：単語の最小単位）に関連するトピックである。

ノード１１５は、ハイパーパラメータγのノードである。ハイパーパラメータγは、単語の確率分布φを求めるために用いられる。ハイパーパラメータγは、初期値としてランダム値が用いられる。
ノード１１６は、トピックごとに特異な単語の確率分布φを求めるノードである。トピックの数はＺであり、ノード１１６の単語の確率分布φは、Ｚ種類となる。
ノード１１７は、トピックごとのタイムスタンプの確率分布λを求めるノードである。トピックの数はＺであり、ノード１１７のタイムスタンプの確率分布λは、Ｚ種類となる。

ノード１１８は、トピックごとのタイムスタンプを取得するノードである。すなわち、ノード１１８は、ノード１１４で取得されたトピックから、ノード１１７で求められたタイムスタンプの確率分布λに基づき、タイムスタンプの確率変数ｔ_ｄを取得する。ここで、ｔ_ｄは、テキストデータにおけるトピックごとの確率変数である。
ノード１１９は、単語ｗ_ｉを取得するノードである。すなわち、ノード１１９は、ノード１１４で取得されたトピックから、ノード１１６で求められた単語の確率分布φに基づき、単語の確率変数ｗ_ｉを取得する。ここで、ｗ_ｉは、ｉ番目（ｉは任意の整数）の単語を表す。

（第２の比較例）
以下、本発明の実施形態と比較する第２の比較例について図面を参照しながら詳しく説明する。
図１７は、本発明の実施形態と比較する第２の比較例に係るグラフィックモデルである。
図１７において、ノード１０１は、ハイパーパラメータβのノードである。ハイパーパラメータβは、トピック（単語）の確率分布θ_ｄを求めるのに用いられる。ハイパーパラメータβは、初期値としてランダム値が用いられる。
ノード１０２は、テキストデータごとに特異なトピックの確率分布θ_ｄを求めるノードである。ここで、Ｄは、文章の数を表し、トピックの確率分布θ_ｄは、テキストデータごとにＤ種類存在する。

ノード１０３は、ハイパーパラメータεのノードである。ハイパーパラメータεは、スイッチ変数の確率分布μ_ｄを求めるのに用いられる。ハイパーパラメータεは、初期値としてランダム値が用いられる。ここで、スイッチ変数とは、トピックを切り替えるスイッチとして使用される確率変数である。
ノード１０４は、テキストデータごとにスイッチ変数の確率分布μ_ｄを求めるノードである。
ノード１０５は、スイッチ変数ｒ_ｉを取得するノードである。すなわち、ノード１０５は、ノード１０４で求められたスイッチ変数の確率分布μ_ｄに基づき、スイッチ変数ｒ_ｉを取得する。ここで、ｒ_ｉは、ｉ番目（ｉは任意の整数）のスイッチ変数である。

ノード１０６は、トピックの確率変数ｚ_ｉを取得するノードである。すなわち、ノード１０６は、テキストデータから、ノード１０２で求められた特異なトピックの確率分布θ_ｄに基づき、トピックの確率変数ｚ_ｉを取得する。ここで、ｚ_ｉは、ｉ番目（ｉは任意の整数）の単語（トークン：単語の最小単位）に関連するトピックである。

ノード１０７は、ハイパーパラメータγのノードである。ハイパーパラメータγは、単語の確率分布φを求めるために用いられる。ハイパーパラメータγは、初期値としてランダム値が用いられる。
ノード１０８は、トピックごとに特異な単語の確率分布φを求めるノードである。トピックの数はＺであり、ノード１０８の単語の確率分布φは、Ｚ＋１種類となる。
ノード１０９は、トピックごとのタイムスタンプの確率分布λを求めるノードである。トピックの数はＺであり、ノード１０９のタイムスタンプの確率分布λは、Ｚ種類となる。

ノード１１０は、トピックごとのタイムスタンプを取得するノードである。すなわち、ノード１１０は、ノード１０６で取得されたトピックから、ノード１０９で求められたタイムスタンプの確率分布λに基づき、タイムスタンプの確率変数ｔ_ｄを取得する。ここで、ｔ_ｄは、テキストデータにおけるトピックごとの確率変数である。
ノード１１１は、単語ｗ_ｉを取得するノードである。すなわち、ノード１１１は、ノード１０６で取得されたトピックから、ノード１０８で求められた単語の確率分布φに基づき、単語の確率変数ｗ_ｉを取得する。ここで、ｗ_ｉは、ｉ番目（ｉは任意の整数）の単語を表す。

（第３の比較例）
以下、本発明の実施形態と比較する第３の比較例について図面を参照しながら詳しく説明する。
図１８は、本発明の実施形態と比較する第３の比較例に係るグラフィックモデルである。
図１８において、ノード１２０は、ハイパーパラメータαのノードである。ハイパーパラメータαは、トピック（単語）の確率分布θ_ｄを求めるのに用いられる。ハイパーパラメータαは、初期値としてランダム値が用いられる。
ノード１２１は、テキストデータごとにトピックの確率分布θ_ｄを求めるノードである。ここで、Ｄは、文章の数を表し、トピックの確率分布θ_ｄは、テキストデータごとにＤ種類存在する。

ノード１２２は、トピックの確率変数ｚ_ｉを取得するノードである。すなわち、ノード１２２は、テキストデータから、ノード１２１で求められたトピックの確率分布θ_ｄに基づき、トピックの確率変数ｚ_ｉを取得する。ここで、ｚ_ｉは、ｉ番目（ｉは任意の整数）の単語（トークン：単語の最小単位）に関連するトピックである。

ノード１２３は、ハイパーパラメータβのノードである。ハイパーパラメータβは、トピック（単語）の確率分布θ_ｄｚを求めるのに用いられる。ハイパーパラメータβは、初期値としてランダム値が用いられる。
ノード１２４は、テキストデータごとに特異なトピックの確率分布θ_ｄｚを求めるノードである。ここで、トピックの確率分布θ_ｄｚは、トピックごとにＺ種類、存在する。

ノード１２５は、テキストデータごとに特異なトピックの確率変数ｚ^’ _ｉを取得するノードである。すなわち、ノード１２５は、テキストデータから、ノード１２４で求められたテキストデータごとに特異なトピックの確率分布θ_ｄｚに基づき、テキストデータごとに特異なトピックの確率変数ｚ^’ _ｉを取得する。ここで、ｚ^’ _ｉは、ｉ番目（ｉは任意の整数）の単語（トークン：単語の最小単位）に関連するトピックである。

ノード１２６は、ハイパーパラメータγのノードである。ハイパーパラメータγは、単語の確率分布φを求めるために用いられる。ハイパーパラメータγは、初期値としてランダム値が用いられる。
ノード１２７は、トピックごとに特異な単語の確率分布φを求めるノードである。トピックの数はＺ’であり、ノード１２７の単語の確率分布φは、Ｚ’種類となる。

ノード１２８は、単語ｗ_ｉを取得するノードである。すなわち、ノード１２８は、ノード１２５で取得されたテキストデータごとに特異なトピックから、ノード１２７で求められた単語の確率分布φに基づき、単語の確率変数ｗ_ｉを取得する。ここで、ｗ_ｉは、ｉ番目（ｉは任意の整数）の単語を表す。

（実施形態）
以下、本発明の実施形態について図面を参照しながら詳しく説明する。
図１は、本発明の実施形態により実現される付随情報に関連する単語、および付随情報に関連する単語以外であって同一カテゴリーの文章情報に共通して出現する単語の抽出の一例を示す概略図である。
例えば、図示するように、実施形態における分類装置は、文章情報群２００の中の文章情報２０１から抽出情報２１０として、付随情報に関連する単語「Ｅｎｇｌａｎｄ」、および付随情報に関連する単語以外であって同一カテゴリーの文章情報に共通して出現する単語「ＴｏｗｅｒＢｒｉｄｇｅ」、「ＢｕｃｋｉｎｇｈａｍＰａｌａｃｅｓ」、「ＲｏｙａｌＦａｍｉｌｙ」などを、単語の集合を表すトピックとして抽出することができる。

また、分類装置は、文章情報群２００の中の文章データ２０２から抽出情報２３０として、抽出情報２３０として、付随情報に関連する単語「Ａｍｅｒｉｃａ」、および付随情報に関連する単語以外であって同一カテゴリーの文章情報に共通して出現する単語「ＲｏｃｋｙＭｏｕｎｔａｉｎｓ」、「ＷａｌｌＳｔｒｅｅｔ」、「ＮｉａｇａｒａＦａｌｌｓ」、「ＳｔａｔｕｅｏｆＬｉｂｅｒｔｙ」などを、トピックとして抽出することができる。

また、分類装置は、文章情報群２００の中の文章データ２０１、２０２から抽出情報２２０として、付随情報に関連する単語「５．０」、および付随情報に関連する単語以外であって同一カテゴリーの文章情報に共通して出現する単語「ＮｉｃｅＣｏｕｎｔｒｙ」、「ＧｏｏｄＰｌａｃｅ」、「Ｅｘｃｉｔｉｎｇ」などを、トピックとして抽出することができる。

以下の説明において、文章情報群には、複数の文章情報と複数の文章情報のそれぞれに付随する付随情報とが含まれる。文章情報とは、例えば、メール、論文、商品やアイテムのレビューなどのテキストデータ、ソーシャルメディア内において投稿された投稿文などのインターネット上でのブログやウェブページなどの文章データである。レビューとは、ユーザが購入した商品や店舗の評価および感想の文章データや、ホテルやレストランを利用したユーザが記載した評価および感想の文章データなどである。

付随情報とは、文章情報の作成者に関する情報、文章情報の生成日時に関する情報、文章情報名に関する情報、文章情報の評価に関する情報などである。
文章情報の作成者に関する情報には、文章情報を作成した作成者を識別する作成者識別情報、当該作成者に対する信頼度を表す信頼度情報、当該作成者に関連づけられたユーザを識別する識別情報などが含まれる。
文章情報名に関する情報には、文章情報の名称、文章情報の本文に含まれる商品の名称、施設や店舗の名称、場所の名称などの名称に関する情報が含まれる。

同一カテゴリーの文章情報とは、例えば、文章情報を構成する単語のうち、付随情報に関連する単語に対応するトピックが所定の数（例えば、８割）以上、同一である文章情報のことである。
トピックには、テーマトピックとトレンドトピックとが含まれる。

図２は、本実施形態に係るグラフィカルモデルの一例である。
図２において、ノード１１は、ハイパーパラメータαのノードである。ハイパーパラメータαは、テーマトピックの確率分布θを求めるためのものである。ハイパーパラメータαは、初期値としてランダム値が用いられる。

ノード１２は、文章データごとに特異なテーマトピックの確率分布θを求めるノードである。テーマトピックの確率分布θは、例えば、多項分布である。本実施形態では、テーマトピックの確率分布θとして、ディリクレ分布を用いている。ディリクレ分布は、連続型の確率分布であるが、積分することにより、離散値として計算できる。ここで、Ｄは、文章情報における文章データの数を表し、テーマトピックの確率分布θは、文章データごとにＤ種類となる。

ノード１３は、テーマトピックの確率変数ｇを取得するノードである。すなわち、ノード１３は、文章データから、ノード１２で求められたテーマトピックの確率分布θに基づき、テーマトピックの確率変数ｇを取得する。Ｎ_ｄは、文章データの中の単語の数であり、テーマトピックの確率変数ｇは、Ｎ_ｄ種類、すなわち、対象とする文章データにおける単語の数に対応する種類となる。

ノード１４は、ハイパーパラメータβのノードである。ハイパーパラメータβは、単語の確率分布Ψを求めるためのものである。ハイパーパラメータβは、初期値としてランダム値が用いられる。

ノード１５は、文章データごとに特異なトレンドトピックの確率分布Ψを求めるノードである。トレンドトピックの確率分布Ψは、例えば、多項分布である。本実施形態では、トレンドトピックの確率分布Ψとして、ディリクレ分布を用いている。ここで、Ｇは、トレンドトピックの数を表し、トレンドトピックの確率分布Ψは、文章データごとにＧ種類となる。

ノード１６は、トレンドトピックの確率変数ｃを取得するノードである。すなわち、ノード１６は、文章データから、ノード１５で求められたトレンドトピックの確率分布Ψに基づき、トレンドトピックの確率変数ｃを取得する。トレンドトピックの確率変数ｃは、Ｎ_ｄ種類、すなわち、対象とする文章データにおける単語の数に対応する種類となる。

ノード１７は、ハイパーパラメータγのノードである。ハイパーパラメータγは、単語の確率分布φを求めるために用いられる。ハイパーパラメータγは、初期値としてランダム値が用いられる。

ノード１８は、単語の確率分布φを求めるノードである。本実施形態では、単語の確率分布φとして、ディリクレ分布を用いている。ここで、Ｃは、トレンドトピックの数を表し、ノード１８の単語の確率分布φは、Ｇ＋Ｃ＋Ｄ＋１種類となる。

ノード１９は、ハイパーパラメータεのノードである。ハイパーパラメータεは、スイッチ変数の確率分布μ_ｄを求めるのに用いられる。ハイパーパラメータεは、初期値としてランダム値が用いられる。ここで、スイッチ変数とは、テーマトピックとトレンドトピックとを切り替えるスイッチとして使用される確率変数である。

ノード２０は、文章データごとに特異なスイッチ変数の確率分布μ_ｄを求めるノードである。スイッチ変数の確率分布μ_ｄは、例えば、多項分布である。本実施形態では、スイッチ変数の確率分布μ_ｄとして、ディリクレ分布を用いている。スイッチ変数の確率分布μ_ｄは、Ｄ種類となる。

ノード２１は、スイッチ変数ｒを取得するノードである。すなわち、ノード２１は、文章データから、ノード２０で求められたスイッチ変数の確率分布μ_ｄに基づき、スイッチ変数ｒを取得する。スイッチ変数ｒは、Ｎ_ｄ種類、すなわち、対象とする文章データにおける単語の数に対応する種類となる。

ここで、スイッチ変数ｒは単語の機能を示している。単語の機能とは、例えば、抽出される単語「高い」は、商品の「値段」なのか、お店の「評価」なのかの違いを扱うためのものである。スイッチ変数ｒとしては、例えば、ｒ＝０、ｒ＝１、ｒ＝２、ｒ＝３の４種類がある。各スイッチ変数と単語の機能との関係は、以下の通りである。

ｒ＝０：全ての文章データで共通の単語
ｒ＝１：各文章データにおいて固有の単語（各文章データにおける独特な単語など）
ｒ＝２：テーマトピックに関連する単語
ｒ＝３：トレンドトピックに関連する単語

ノード２２は、単語の確率変数ｗを取得するノードである。すなわち、ノード２２は、スイッチ変数ｒに応じて、ノード１３で求められたテーマトピックの確率変数ｇとノード１６で求められたトレンドトピックの確率変数ｃとを切り替え、ノード１８で求められた単語の確率分布φに基づき、単語の確率変数ｗを取得する。具体的には、ノード２２は、スイッチ変数ｒ＝０、１のとき、ノード１８で求められた単語の確率分布φに基づき、単語の確率変数ｗを取得する。また、ノード２２は、スイッチ変数ｒ＝２のとき、ノード１３で求められたテーマトピックの確率変数ｇとノード１８で求められた単語の確率分布φとに基づき、単語の確率変数ｗを取得する。また、ノード２２は、スイッチ変数ｒ＝３のとき、ノード１６で求められたトレンドトピックの確率変数ｃとノード１８で求められた単語の確率分布φとに基づき、単語の確率変数ｗを取得する。

このように、本実施形態では、スイッチ変数ｒを導入し、文章データごとに単語の機能の違いにより、単語の確率変数ｗを取得している。単語の確率変数ｗは、Ｎ_ｄ種類、すなわち、対象とする文章データにおける単語の数に対応する種類となる。

ノード２３は、トレンドの確率分布λを求めるノードである。本実施形態では、トレンドの確率分布λとして、ベータ分布を用いている。ノード２３のトレンドの確率分布λは、Ｃ種類となる。

ノード２４は、トレンドの確率変数ｔを取得するノードである。すなわち、ノード２４は、ノード２３で求められたトレンドの確率分布λに基づき、トレンドの確率変数ｔを取得する。トレンドの確率分布ｔは、Ｎ_ｄ種類、すなわち、対象とする文章データにおける単語の数に対応する種類となる。

なお、上述した単語の確率変数ｗ、トレンドの確率変数ｔは、直接、観測することが可能な観測変数である。また、テーマトピックの確率変数ｇ、トレンドトピックの確率変数ｃ、スイッチ変数ｒは、直接、観測することができない潜在変数である。また、各ノード間の矢印の向きは、それぞれのノード間における因果関係を表す。

次に、図２に示したようなグラフィックモデルにおける処理について、具体的に説明する。
図３は、本実施形態に係る分類システムＳ１の構成の一例を示す概略図である。
図４は、本実施形態に係る分類システムＳ１の構成の一例を示す概略ブロック図である。
分類システムＳ１は、ファイルサーバ５１と、計算サーバ５２（分類装置）と、データベース５３と、サービスサーバ５４と、を含んで構成される。

ファイルサーバ５１は、図４に示すように、計算対象となる文章データを保存するデータファイル保存部６１を備えている。データファイル保存部６１は、文章データを保存する。なお、計算対象となる文章データは、インターネット上の文章に限られるものではない。

計算サーバ５２（分類装置）は、ファイルサーバ５１から計算対象の文章データを取り出し、図２に示したグラフィックモデルで示されるような計算処理を行い、計算結果を出力する。計算サーバ５２は、図４に示すように、事前処理部７１と、計算処理部７２と、を含んで構成される。
事前処理部７１は、図２に示したグラフィカルモデルに対応する事前処理を行い、計算処理対象の文章データから、単語を抽出する。事前処理部７１の事前処理については、後述する。

計算処理部７２は、事前処理部７１で処理されたデータを入力し、図２に示したグラフィックモデルに対応するような計算処理を行う。計算処理部７２は、事前処理部７１が単語の抽出を行った文章データ、当該文章データの付随情報、抽出した単語のそれぞれに対して、文章データＩＤ、付随情報ＩＤ、単語ＩＤを付加し、その対応表をデータベース５３に記憶させる。
本実施形態では、確率変数の取得に、ギブスサンプリングを用いている。計算処理部７２の計算処理については、後述する。

データベース５３は、図４に示すように、計算結果記憶部８１を有している。計算サーバ５２の計算処理部７２の計算結果は、データベース５３に送られ、計算結果記憶部８１に記憶される。
サービスサーバ５４は、計算結果をサービスの利用のために提供するためのサーバである。図４に示すように、サービスサーバ５４は、呼び出し部９１を備えている。
ユーザ端末５５からの呼び出しに応じて、呼び出し部９１は、計算結果をユーザ端末５５に送る。この計算結果は、商品検索、レビュー検索、マーケティングなど、各種のサービスに利用できる。

図５は、本実施形態に係る計算サーバ５２（分類装置）の構成の一例を示す概略ブロック図である。
事前処理部７１は、関連抽出部７１１と、共通抽出部７１２と、を含んで構成される。また、計算処理部７２は、割当部７２１と、算出部７２２と、を含んで構成される。

関連抽出部７１１は、文章データと当該文章データ付随する付随情報とに対して、文章データから付随情報に関連する単語を抽出する。関連抽出部７１１は、抽出した付随情報に関連する単語の情報を共通抽出部７１２および計算処理部７２に出力する。
共通抽出部７１２は、文章データと当該文章データに付随する付随情報とに対して、関連抽出部７１１が抽出した付随情報に関連する単語以外であって同一カテゴリーの文章情報に共通し、かつ高頻度で出現する単語を抽出する。共通抽出部７１２は、抽出した共通して出現する単語の情報を計算処理部７２に出力する。

計算処理部７２は、事前処理部７１が単語の抽出を行った文章データ、当該文章データの付随情報、抽出した単語のそれぞれに対して、文章データＩＤ、付随情報ＩＤ、単語ＩＤを付加する。

割当部７２１は、付随情報に関連する単語および共通して出現する単語に基づいて、付随情報に関連する単語に対応するトピック、および共通して出現する単語に対応するトピックの確率分布を割り当てる。具体的には、割当部７２１は、付随情報に関連する単語（テーマトピック）に対応するテーマトピックの確率変数の数の値Ｇを割り当てる。また、割当部７２１は、付随情報に関連する単語以外であって同一カテゴリーの文章データに共通して出現する単語（トレンドトピック）に対応するトレンドトピックの確率変数の数の値Ｃを割り当てる。

算出部７２２（推定部）は、割当部７２１がトピックおよびトピックの確率分布を割り当てた全ての単語について、統計的な手法により、付随情報に関連する単語に対応するトピックと、共通して出現する単語に対応するトピックの確率分布と、単語に対応するトピックと共通して出現する単語に対応するトピックの確率分布とを選択するスイッチ変数の確率分布とを推定する。

具体的には、算出部７２２は、割当部７２１が値（Ｇ、Ｃ）を割り当てた全ての単語（テーマトピックおよびトレンドトピック）について、テーマトピックの確率変数と、トレンドトピックの確率変数と、これらのテーマトピックの確率変数とトレンドトピックの確率変数とに関するスイッチとして使用されるスイッチ変数とを潜在変数として、統計的な手法、例えば、ギブスサンプリングにより、当該テーマトピックの確率変数とトレンドトピックの確率変数とを選択するスイッチ変数の確率分布とを推定する。

図６は、本実施形態に係る分類装置における計算処理に用いる確率変数と確率分布のパラメータとその種類を示すテーブルの一例である。
図示するように、テーブルＴ１は、計算処理部７２における計算結果の一例であり、確率変数と、確率分布のパラメータとその種類からなる。確率変数には、観測変数であるトレンドの確率変数ｔと、潜在変数であるスイッチ変数ｒと、潜在変数であるテーマトピックの確率変数ｇおよびトレンドトピックの確率変数ｃと、観測変数である単語の確率変数ｗと、が保存される。また、確率分布のパラメータとその種類には、確率変数を取得するための確率分布のパラメータおよびその種類が保存される。トレンドの確率変数ｔに対応する確率分布はλであり、その種類はＣ種類である。また、スイッチ変数ｒに対応する確率分布はμ_ｄであり、その種類はＤ種類である。また、テーマトピックの確率変数ｇに対応する確率分布はθであり、その種類はＤ種類、トレンドトピックの確率変数ｃに対応する確率分布はΨ_ｄｇであり、その種類はＤＧ種類である。ここで、確率分布Ψ_ｄｇは、文章データｄにおける特異なテーマトピックの確率変数ｇの確率分布Ψである。また、単語の確率変数ｗに対応する確率分布はφ_{ｃ（ｇ、ｄ、ｂ）}であり、その種類はＧ＋Ｃ＋Ｄ＋１種類である。確率分布φ_{ｃ（ｇ、ｄ、ｂ）}は、文章データｄにおける特異なトレンドトピックの確率変数ｃの確率分布φである。なお、ｂは、バックグラウンドトピックである。

図７は、本実施形態に係る分類装置（計算サーバ５２）における計算処理の説明の一例を示すフローチャートである。
ステップＳＴ１０１の前に、事前処理部７１の事前処理について図８を参照して説明する。
図８は、本実施形態に係る分類装置における計算処理の処理内容の一例を説明する説明図である。
テーブルＴ２では、最初のレコードの文章データには、文章データとして「テキストＡＡＡＢ」が記述され、付随情報として「４４Ｌｉｋｅ」が記述されている。文章データの要素となるトークン（単語）のそれぞれの項目列には、関連抽出部７１１および共通抽出部７１２が抽出した単語「リンゴ」、「操作性」、・・・、「遺産」が記述されている。そして、最後のレコードの文章データには、文章データとして「テキストＸＤＣＦ」が記述され、付随情報として「５Ｌｉｋｅ」が記述されている。文章データの要素となるトークン（単語）のそれぞれの項目列には、関連抽出部７１１および共通抽出部７１２が抽出した単語「音楽」、「芸術」、・・・、「リンゴ」が記述されている。
当該テーブルＴ２に対して、計算処理部７２は、以下のステップＳＴ１０１を行う。
なお、トピックとは、テーマトピックとトレンドトピックとを総称したものである。また、Ｚは、トピックの数を表す。

図７に戻って、ステップＳＴ１０１において、計算処理部７２は、関連抽出部７１１および共通抽出部７１２が単語の抽出を行った文章データ、当該文章データの付随情報、関連抽出部７１１および共通抽出部７１２が抽出した単語のそれぞれに対して、文章データＩＤ、付随情報ＩＤ、単語ＩＤを付加する。図９を参照して、ステップＳＴ１０１の処理を詳細に説明する。

図９は、本実施形態に係る分類装置における計算処理の処理内容の一例を説明する説明図である。
テーブルＴ３は、テーブルＴ２に対して、ステップＳＴ１０１で、文章データＩＤ、付随情報ＩＤ、単語ＩＤを割り振る処理を行ったときの一例である。
テーブルＴ３に図示するように、最初のレコードの文章データには、文章データＩＤとして「０００」が割り当てられ、付随情報ＩＤとして「４４」が割り当てられる。トークン１〜トークンＮ__ｄに対して、単語ＩＤ「００００」、「０００３」、・・・、「０１２０」がそれぞれ割り振られる。そして、最後のレコードの文章データでは、文章データＩＤとして「０８６」が割り当てられ、付随情報ＩＤとして「０２１１」が割り当てられる。そして、トークン１〜トークンＮ__ｄに対して、単語ＩＤ「１２１２３４」、「０３０４３」、・・・、「００００」がそれぞれ割り振られる。なお、同一のトークンには、同一のトークンＩＤが割り振られる。

図７に戻って、ステップＳＴ１０２において、計算処理部７２は、トピックの確率変数の数（Ｇ、Ｃ）およびハイパーパラメータ（α、β、γ、ε）の初期値を設定する。また、計算処理部７２は、ギブスサンプリングの計算処理の繰り返し回数を、トピックの確率変数の数（Ｇ、Ｃ）により設定する。
ステップＳＴ１０３において、計算処理部７２は、トピックの確率変数の数（Ｇ、Ｃ）のそれぞれの値の範囲で乱数を発生し、その値をトピックの確率変数（ｇ、ｃ）およびスイッチ変数ｒに与える。図９を参照して、ステップＳＴ１０３の処理を詳細に説明する。

図９のテーブルＴ４は、ステップＳＴ１０１の処理を行ったテーブルＴ３に対してトピックの確率変数に、乱数が挿入されたときの一例である。トピック１において、テーマトピックの数Ｇを、例えば、２０とすると、テーマトピックの確率変数の欄には、例えば「０」〜「１９」の範囲の乱数値が挿入される。同様に、トレンドトピックの数Ｃを例えば１５とすると、トレンドトピックの確率変数の欄には、例えば、「０」〜「１４」の範囲の乱数値が挿入される。図８のテーブルＴ２の例では、最初のレコードの文章データには、トピック「１」〜「Ｎ_{_ｄ}」として、それぞれに対応するテーマトピックの確率変数の欄およびトレンドトピックの確率変数の欄に、「１１」、「５」、「８」、「１３」、・・・、「３」、「９」が挿入されている。そして、最後のレコードの文章データには、トピック「１」〜「Ｎ_{_ｄ}」として、それぞれに対応するテーマトピックの確率変数の欄およびトレンドトピックの確率変数の欄に、「２」、「４」、「１」、「５」、・・・、「１１」、「６」が挿入されている。

図７に戻って、ステップＳＴ１０４において、計算処理部７２は、ギブスサンプリングで確率変数の取得を行う。具体的には、割当部７２１は、付随情報に関連する単語（テーマトピック）に対応するテーマトピックの確率変数の数の値Ｇを割り当てる。また、割当部７２１は、付随情報に関連する単語以外であって同一カテゴリーの文章データに共通して出現する単語（トレンドトピック）に対応するトレンドトピックの確率変数の数の値Ｃを割り当てる。

算出部７２２は、割当部７２１が値（Ｇ、Ｃ）を割り当てた全ての単語（テーマトピックおよびトレンドトピック）について、テーマトピックの確率変数と、トレンドトピックの確率変数と、これらのテーマトピックの確率変数とトレンドトピックの確率変数とに関するスイッチとして使用されるスイッチ変数とを潜在変数として、統計的な手法、例えば、ギブスサンプリングにより、当該テーマトピックの確率変数とトレンドトピックの確率変数とに関するスイッチとして使用されるスイッチ変数とを推定する。

ステップＳＴ１０５において、計算処理部７２は、ステップＳＴ１０２からＳＴ１０４の処理を繰り返し、ギブスサンプリングの繰り返し数がトピックの確率変数の数（Ｇ、Ｃ）により設定した繰り返し数に達したら、計算処理を終了する。
このように、本実施形態では、ギブスサンプリングにより、確率変数の取得が行われる。図１０は、図２に示したグラフィカルモデルにおける各ノードと、ギブスサンプリングにより取得される確率変数（図９におけるテーブルＴ４）との対応を示している。

次に、本実施形態において、ギブスサンプリングにより各確率変数が求められることについて説明する。
本実施形態では、図１１に示すように、確率変数を統計的処理により取得するために、ディリクレ分布およびベータ分布を導入している。ディリクレ分布は、連続型の確率分布であるが、積分することにより、離散型に変換できる。

文章データ全体の同時確率は、ディリクレ分布およびベータ分布を導入すると、以下のようになる。

ここで、ｗ_ｄｉは、文章データｄのｉ番目の単語（ｉは整数）を表し、φ_ｃｄｉは、文章データｄにおけるｉ番目のトレンドトピックの確率変数ｃに対する単語の確率分布φを表す。また、ｃ_ｄは、文章データｄにおけるトレンドトピックの確率変数ｃを表し、Ψ_ｄｇｄは、文章データｄにおけるテーマトピックの確率変数ｇに対するトレンドトピックの確率分布Ψであり、ｔ_ｄは、文章データｄにおけるタイムスタンプを表す。また、λ_ｃｄは、文章データｄにおけるトレンドトピックの確率変数ｃに対するトレンドの確率分布λを表し、ｇ_ｄは、文章データｄにおけるテーマトピックの確率変数ｇを表し、ｒ_ｄｉは、文章データｄにおけるｉ番目のスイッチ変数ｒを表す。

式（１）に対して、確率分布φ、μ、Ψ、θについて積分することで、多項分布のパラメータは消去でき、以下の式（２）に変形できる。確率変数の推定におけるギブスサンプリングに用いる式は、式（２）である。すなわち、上述のディリクレ分布を積分した式（１）から、以下のように、条件付き確率を導出する式（２）が求められる。テーマトピックｊ、トレンドトピックｋ、かつ、スイッチ変数ｒが｛０、１、２、３｝である確率を導出する式は、以下のようになる。

ここで、ｎ_{ｄｊ＿ｄｉ}は、ｉ番目（ｉは整数）の文章データｄを除く文章データｄにおけるテーマトピックｊに対する単語の数を表し、ｎ_{ｄｊｋ＿ｄｉ}は、ｉ番目の文章データｄを除く文章データｄにおけるテーマトピックｊとトレンドトピックｋとに対する単語の数を表し、α_ｊは、テーマトピックｊに対するハイパーパラメータαを表す。また、ｎ_{ｄｇ＿ｄｉ}は、ｉ番目（ｉは整数）の文章データｄを除く文章データｄにおけるテーマトピックの確率変数ｇの数を表し、α_ｇは、テーマトピックの確率変数ｇに対するハイパーパラメータαを表す。β_ｋは、トレンドトピックｋに対するハイパーパラメータβを表すし、ｎ_ｄｊｃは、文章データｄにおけるテーマトピックｊに対するトレンドトピックの確率変数ｃの数を表す。β_ｃは、トレンドトピックの確率変数ｃに対するハイパーパラメータβを表し、ｎ_ｄ０は、文章データｄにおけるスイッチ変数ｒ＝０のときの単語の数を表す。ε_０は、スイッチ変数ｒ＝０のときのハイパーパラメータεを表し、ｎ_ｄｒは、文章データｄにおけるスイッチ変数ｒの単語の数を表す。

また、ε_ｒは、スイッチ変数ｒのときのハイパーパラメータεを表し、ｎ_ｂｖは、文章データｄにおけるバックグラウンドトピックｖの単語の数を表す。γ_ｖは、バックグラウンドトピックｖに対するハイパーパラメータγを表し、ｎ_ｂｗは、バックグラウンドトピックｂに対する単語の確率変数ｗの数を表す。γ_ｗは、単語の確率変数ｗに対するハイパーパラメータγを表し、ｎ_ｄ１は、文章データｄにおけるスイッチ変数ｒ＝１のときの単語の数を表す。ε_１は、スイッチ変数ｒ＝１のときのハイパーパラメータεを表し、ｎ_ｄ２は、文章データｄにおけるスイッチ変数ｒ＝２のときの単語の数を表す。ε_２は、スイッチ変数ｒ＝２のときのハイパーパラメータεを表し、ｎ_ｊｖは、テーマトピックｊに対するバックグラウンドトピックｖの単語の数を表す。ｎ_ｊｗは、テーマトピックｊに対する単語の確率変数ｗの数を表し、ｎ_ｄ３は、文章データｄにおけるスイッチ変数ｒ＝３のときの単語の数を表す。

また、ε_３は、スイッチ変数ｒ＝３のときのハイパーパラメータεを表し、ｎ_ｋｖは、トレンドトピックｋに対するバックグラウンドトピックｖの単語の数を表し、ｎ_ｋｗは、トレンドトピックｋに対する単語の確率変数ｗの数を表す。λ_ｋ１は、スイッチ変数ｒ＝１のときのトレンドトピックｋに対するトレンドの確率分布λを表し、λ_ｋ２は、スイッチ変数ｒ＝２のときのトレンドトピックｋに対するトレンドの確率分布λを表す。ｒ_ｊは、テーマトピックｊに対するスイッチ変数ｒを表す。

本実施形態におけるギブスサンプリングの処理手順は、まず、テーマトピックの確率変数ｇおよびトレンドトピックの確率変数ｃを確率分布に基づいて取得し、全てのトピックの組み合わせについて、スイッチ変数ｒ＝０〜３を全て取得し、予め決められたサンプリング数に達するまで、確率変数を更新する。

なお、このような計算を行う際に、一括計算では、計算量が多くなるため、本実施形態では、列ごとに計算して、確率変数を更新する。これにより、最適解が得られる。そして、本実施形態では、全て埋め終えたら初期値の影響をなくすために、再度計算をやり直し、前回の状態とは比較せず、確率が高くなるように、確率変数を更新する。

式（３）は、式（２）をＨａｄｏｏｐなどにより実行可能な形に変形したものである。式（３）により、Ｈａｄｏｏｐの各ノードにあるデータに対して、Ｍａｐで処理を行い、Ｒｅｄｕｃｅで集約を行い、その結果をＨＤＦＳ（ＨａｄｏｏｐＤｉｓｔｒｉｂｕｔｅｄＦｉｌｅＳｙｓｔｅｍ：分散ファイルシステム）で共有し、Ｍａｐ側の入力データとして利用される。

式（４）は、式（３）によりＨＤＦＳで共有される結果を表し、当該式（４）がＭａｐ側の入力データとなる。以降、式（３）および式（４）の処理を任意の回数繰り返す。

図１２は、本実施形態により単語の抽出を行ったときの一例を示す説明図である。
テーブルＴ５は、テーマトピック（ｔｈｅｍｅ）と、分布（ｄｉｓｔｒｉｂｕｔｉｏｎ）と、第１のトレンドトピック（ｔｒｅｎｄ１）と、第２のトレンドトピック（ｔｒｅｎｄ２）と、第３のトレンドトピック（ｔｒｅｎｄ３）と、の各項目列を有する。例えば、テーマトピックの最初の行には、ｔｒａｉｎｉｎｇ、ｌｅａｒｎｉｎｇ、ｃｌａｓｓｉｆｉｃａｔｉｏｎ、ｆｅａｔｕｒｅ、ｓｕｐｅｒｖｉｓｅ、ａｎａｌｙｓｉｓ、ｌａｂｅｌ、ｖｅｃｔｏｒ、ｒｅｇｒｅｓｓｉｏｎ、ｔｒａｉｎが格納される。

また、分布の最初の行には、横軸に時刻を１で正規化したもの、縦軸に確率密度をそれぞれとり、第１から第３のトレンドトピックに対応する単語の確率密度の特性が格納される。例えば、第１のトレンドトピックに対応する特性は、横軸０．３付近で、確率密度のピークを迎え、第２のトレンドトピックに対応する特性は、横軸０．４から０．９あたりにおいて、ほぼ変化のない確率密度となり、第３のトレンドトピックに対応する特性は、横軸０．９付近で確率密度のピークを迎える。各分布の曲線は、ベータ分布に従う。また、当該確率密度の特性は、観測変数ｔとして、時刻を用いているため、第３のトレンドトピックに対応する特性が、最近話題になっているトピックであることを表し、第１のトレンドトピックに対応する特性が、以前に話題になったトピックであることを表している。

また、第１のトレンドトピックの最初の行には、ｗｅｂ、ａｌｇｏｒｉｔｈｍ、ｄａｔａｂａｓｅ、ｔｒｅｅ、ｒｅｔｒｉｅｖａｌ、ｈｕｍａｎ、ｆｅｅｄｂａｃｋ、ｓｖｍ、ｒｅｑｕｉｒｅｓ、ｒｅｌｅｖａｎｔが格納される。
また、第２のトレンドトピックの最初の行には、ｉｎｆｏｒｍａｔｉｏｎ、ａｐｐｌｉｃａｔｉｏｎ、ｑｕｅｒｉｅｓ、ｒｅｌａｔｉｏｎｓ、ｏｎｔｏｌｏｇｙ、ｒａｎｋｉｎｇ、ｈｙｐｅｒｔｅｘｔ、ｕｎｓｔｒｕｃｔｕｒｅｄ、ｇｒａｐｈｓ、ｐｒｅｃｉｓｉｏｎが格納される。
また、第３のトレンドトピックの最初の行には、ｐｒｏｂａｂｉｌｉｓｔｉｃ、ｍｏｄｅｌｓ、ｍｏｄｅｌ、ｋｎｏｗｌｅｄｇｅ、ｆｒａｍｅｗｏｒｋ、ｆｕｔｕｒｅ、ａｃｃｅｓｓ、ｓｔａｔｉｓｔｉｃｓ、ｃｏｍｍｅｒｃｉａｌ、ｎｅｔｗｏｒｋｓが格納される。

また、テーブルＴ５におけるテーマトピックの最後の行には、ｗａｒｓ、ｓｔａｒ、ｌｕｃａｓ、ｊａｒ、ｅｐｉｓｏｄｅ、ｐｈａｎｔｏｍ、ｍｅｎａｃｅ、ｅｆｆｅｃｔｓ、ｔｒｉｌｏｇｙ、ｄｖｄが格納される。
また、分布の最後の行には、横軸に評点を１で正規化したもの、縦軸に確率密度をとり、第１から第３のトレンドトピックに対応する単語の確率密度の特性が格納される。なお、当該最後の行における第１から第３のトレンドトピックは、第１から第３のスコアトピックを表す。

例えば、第１のスコアトピックに対応する特性は、横軸０．１付近で、確率密度のピークを迎え、第２のスコアトピックに対応する特性は、横軸０．５付近で、確率密度のピークを迎え、第３のスコアトピックに対応する特性は、横軸０．８付近で確率密度のピークを迎える。各分布の曲線は、ベータ分布に従う。また、当該確率密度の特性は、観測変数ｔとして、評点（スコア）を用いているため、第３のスコアトピックに対応する特性が、評点の高いトピックであることを表し、逆に第１のスコアトピックに対応する特性が、評点の低いトピックであることを表している。

また、第１のトレンドトピックの最後の行、すなわち、第１のスコアトピックの最後の行には、ｙｅａｒｓ、ｌｏｎｇ、ｌｏｏｋ、ａｃｔｏｒ、ｅｘｐｅｎｓｉｖｅ、ｓｅｃｏｎｄ、ｐｉｃｔｕｒｅ、ｐｒｉｃｅ、ｏｌｄ、ｊｕｓｔが格納される。
また、第２のトレンドトピックの最後の行、すなわち、第２のスコアトピックの最後の行には、ｆａｍｉｌｙ、ｇｏｏｄ、ｆａｎｓ、ｅｎｊｏｙ、ｑｕａｌｉｔｙ、ｍａｋｅ、ｐｅｏｐｌｅ、ｆｕｎｎｙ、ｓｐｅｃｉａｌ、ｑｕａｌｉｔｙが格納される。
また、第３のトレンドトピックの最後の行、すなわち、第３のスコアトピックの最後の行には、ｇｒｅａｔ、ｂｅｓｔ、ｒｅａｌｌｙ、ｌｏｖｅ、ｂｅｔｔｅｒ、ｌｉｋｅ、ｆｅｅｌ、ｋｎｏｗ、ｈｉｇｈｌｙ、ｒｅｃｏｍｍｅｎｄが格納される。

ここで、言語モデルの有用性の評価指標としては、例えば、ＰＰＸがあり、確率モデルの予測能力を評価する指標である。このＰＰＸの値は、値が小さいほど、モデルの予測精度が高いことを表す。一般式として、次のように表される。

ここで、Ｗは、単語の数を表し、ｈは、サンプル数を表し、θ^ｈ _ｚは、サンプル数ｈ、文章データｄにおけるトピックの確率変数ｚの確率分布θを表す。φ^ｈ _ｚｖは、サンプル数ｈ、トピックの確率変数ｚに対する単語の確率変数ｖの確率分布φを表す。トピックの確率変数ｚは、上述のテーマトピックの確率変数およびトレンドトピックの確率変数ｃである。
本実施形態では、トピックをテーマトピックとトレンドトピックとで階層化しているため、式（５）を変形して、次のように表すことができる。

ここで、μ^ｈ _ｄ０（μ^ｈ _ｄ１、μ^ｈ _ｄ２、μ^ｈ _ｄ３）は、文章データｄにおけるスイッチ変数ｒが０から３のときのスイッチ変数ｒの確率分布μ_ｄ０（μ_ｄ１、μ_ｄ２、μ_ｄ３）を表す。また、θ^ｈ _ｄｇ（Ψ^ｈ _ｄｇｃ）は、サンプル数ｈのときの文章データｄにおけるテーマトピックの確率変数ｇ（トレンドトピックの確率変数ｃ）の確率分布θ（Ψ）を表す。

図１３は、本実施形態および各比較例により単語の抽出を行ったときの一例を示す説明図である。
テーブルＴ６は、データ（Ｄａｔａ）と、第１の比較例と、第２の比較例と、第３の比較例と、本実施形態と、の各項目列を有する。
データの各行は、計算対象の文章データが異なる。また、各比較例では、トピックであるのに対し、本実施形態では、当該トピックがテーマトピック、トレンドトピックの二つのトピックである点が異なる。

テーブルＴ６の各列には、各比較例に対しては式（５）を用い、本実施形態に対しては式（６）を用いて算出した評価指標が格納される。図示するように、Ｄａｔａ１〜Ｄａｔａ４の各データにおいて、本実施形態における評価指標の値が、比較例と比べて小さく、本実施形態のモデルの予測精度が高いことを表している。

図１４は、本実施形態および各比較例により単語の抽出を行ったときの一例を示す説明図であり、図１３におけるテーブルＴ６のＤａｔａ３の行に対応する各比較例、本実施形態におけるそれぞれの評価指標の特性である。
横軸は、本実施形態に対してはテーマトピック、トレンドトピックの数を表し、各比較例ではトピックの数を表す。
図示するように、本実施形態における評価指標の値は、各比較例の評価指標の値と比べて小さく、本実施形態のモデルの予測精度が高いことを表している。

図１５は、本実施形態および各比較例により単語の抽出を行ったときの一例を示す説明図である。
テーブルＴ７は、各比較例と本実施形態により単語の抽出を行ったときの予測誤差の値を示したものである。当該予測誤差の値は、値が小さいほど予測誤差が少なく、予測精度が高いことを表している。
図示するように、本実施形態では、データの種類や観測変数（ｔ、ｖ）の種類によらず、観測変数の予測誤差の値が各比較例の値と比べて小さく、予測精度が高いことを表している。

なお、上述の説明では、単語を、英単語として説明しているが、英単語に限定されず、日本語、その他の言語でも、単語の抽出することが可能である。

また、本実施形態の計算サーバ５２の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムを、コンピュータシステムに読み込ませ、実行することにより、計算サーバ５２に係る上述した種々の処理を行ってもよい。

このように、本実施形態によれば、分類装置（計算サーバ５２）は、文章情報と当該文章情報に対応する付随情報とに対して、文章情報から前記付随情報に関連する単語を抽出する関連抽出部７１１と、関連抽出部７１１が抽出した付随情報に関連する単語以外であって同一カテゴリーの文章情報に共通し、かつ高頻度で出現する単語を抽出する共通抽出部７１２と、を備える。

これにより、分類装置（計算サーバ５２）は、文章情報と当該文章情報に対応する付随情報とから、付随情報に対応する特徴、および当該付随情報に対応する特徴以外であって同一カテゴリーの文章情報に共通して出現する特徴を抽出することができる。

なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器などのハードウェアを含むものであってもよい。また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリなどの書き込み可能な不揮発性メモリ、ＣＤ−ＲＯＭなどの可搬媒体、コンピュータシステムに内蔵されるハードディスクなどの記憶装置のことをいう。

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネットなどのネットワークや電話回線などの通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ））のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置などに格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。

ここで、プログラムを伝送する「伝送媒体」は、インターネットなどのネットワーク（通信網）や電話回線などの通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

以上、本発明の実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計なども含まれる。

５１・・・ファイルサーバ、５２・・・計算サーバ、５３・・・データベース、５４・・・サービスサーバ、５５・・・ユーザ端末、６１・・・データファイル保存部、７１・・・事前処理部、７１１・・・関連抽出部、７１２・・・共通抽出部、７２・・・計算処理部、７２１・・・割当部、７２２・・・算出部（推定部）、８１・・・計算結果記憶部、９１・・・呼び出し部

Claims

文章情報と当該文章情報に対応する付随情報とに対して、前記文章情報から前記付随情報に関連する単語を抽出する関連抽出部と、
前記関連抽出部が抽出した前記付随情報に関連する単語以外であって同一カテゴリーの文章情報に共通し、かつ高頻度で出現する単語を抽出する共通抽出部と、
を備えることを特徴とする分類装置。
前記関連抽出部が抽出した前記付随情報に関連する単語および前記共通抽出部が抽出した前記共通して出現する単語に基づいて、前記付随情報に関連する単語に対応するトピック、および前記共通して出現する単語に対応するトピックの確率分布を割り当てる割当部と、
前記割当部がトピックおよびトピックの確率分布を割り当てた全ての単語について、統計的な手法により、前記付随情報に関連する単語に対応するトピックと、前記共通して出現する単語に対応するトピックの確率分布と、前記単語に対応するトピックと前記共通して出現する単語に対応するトピックの確率分布とを選択するスイッチ変数の確率分布とを推定する推定部と、
をさらに備えることを特徴とする請求項１に記載の分類装置。
前記同一カテゴリーの文章情報とは、前記文章情報を構成する前記付随情報に関連する単語に対応するトピックが所定の数以上、同一である文章情報であること
を特徴とする請求項１または請求項２に記載の分類装置。
文章情報と当該文章情報に対応する付随情報とに対して、前記文章情報から前記付随情報に関連する単語を抽出する関連抽出過程と、
前記関連抽出過程により抽出された前記付随情報に関連する単語以外であって、同一カテゴリーの文章情報に共通し、かつ高頻度で出現する単語を抽出する共通抽出過程と、
を有することを特徴とする分類方法。
コンピュータに、
文章情報と当該文章情報に対応する付随情報とに対して、前記文章情報から前記付随情報に関連する単語を抽出する関連抽出ステップと、
前記関連抽出ステップにより抽出された前記付随情報に関連する単語以外であって、同一カテゴリーの文章情報に共通し、かつ高頻度で出現する単語を抽出する共通抽出ステップと、
を実行させるための分類プログラム。