JP2008276344A

JP2008276344A - 多重トピック分類装置、多重トピック分類方法、および多重トピック分類プログラム

Info

Publication number: JP2008276344A
Application number: JP2007116431A
Authority: JP
Inventors: Masateru Rikitoku; 正輝力徳
Original assignee: JustSystems Corp
Current assignee: JustSystems Corp
Priority date: 2007-04-26
Filing date: 2007-04-26
Publication date: 2008-11-13
Anticipated expiration: 2027-04-26
Also published as: JP5110950B2

Abstract

【課題】多重トピック分類を高速かつ高精度におこなうこと。
【解決手段】多重トピック分類装置２００は、学習処理をおこなう場合、取得部２１１により、分類済みデータ２０１とその訓練データセットＹを取得する。つぎに、生成部２１２により、分類済みデータ２０１の素性ベクトルｘを生成する。そして、算出部２１３によりトピック共起行列Ｋを算出する。このあと、設定部２１４により、重みベクトル設定処理を実行する。また、分類処理をおこなう場合、取得部２１１により、未分類データ２０２を取得する。つぎに、生成部２１２により、未分類データ２０２の素性ベクトルｘを生成する。そして、分類部２２１により、単独トピック分類実行処理および多重トピック分類実行処理をおこなう。最後に、出力部２２２により、分類結果を出力する。
【選択図】図２

Description

この発明は、文書などの分類対象に複数のトピックを付与する多重トピック分類装置、多重トピック分類方法、および多重トピック分類プログラムに関する。

従来、文書分類において１文書に１つの分類ラベルを付与することが前提となっていた。これは、排他的に分類され１文書に１つの分類ラベルが付与されていたほうが利用しやすいためと考えられる。しかし、この排他的な分類を実現するために分類器の性能向上はもちろん、厳密に構成された分類基準、分類ラベル定義が必要であった。この分類基準の構築とメンテナンスには多大なコストがかかるのが普通である。

一方、現在は、タグを使って種々の情報を整理するサービスがひろまってきている。その理由の１つは、１データに対して１整理タグを付与させるような厳密な分類システムや複雑な分類階層構造を使用せずに、シンプルでフラットな分類タグを複数付与させる簡易な仕様であると考えられる。

しかし、付与された多重分類タグを再利用する場合には、その複数タグ間の相関や階層を考慮しないと、効率的で有用な分類ができないようになってきている。こういった背景から、文書分類において１文書に複数の分類タグを付与する多重トピック文書分類の重要性は高くなってきている。現在までの多重トピック文書分類の研究は、Naive Bayes 法に基づく手法と、ＳＶＭ（Support Vector Machine）を多値分類へ一般化する手法と、に大別される。

A. McCallumらは、各トピックに対するNaive Bayes 分類器の混合モデルを構成し、その混合係数をＥＭアルゴリズムで推定することで多重トピック分類を実現する手法を提案した（下記非特許文献１を参照。）。

同じく上田らは、それぞれのトピックに対応するNaive Bayes 分類器の混合モデルであるパラメトリック混合モデル（ＰＭＭ）を提案し、ＳＶＭなどの従来法に比べて平均Ｆ１値で上回ることを実験で示した（下記非特許文献２を参照。）。

Altun らは、構造マッピングの学習を多値分類ＳＶＭの一般化として定式化した。彼らの定式化では、分類対象と分類先構造データを１つの素性空間での事例ベクトルと考え、その事例ベクトルと新に作った不正解構造データを伴う負例事例ベクトルとのマージンを最大化するように重みベクトルを決定する。彼らは、木構造の文書分類階層を持った文書分類タスクにこの手法を適用し一対他方式のＳＶＭに比べて精度性能で上回ったと報告している（下記非特許文献３を参照。）。

同じく、賀沢らは、多重トピック文書分類にマージン最大化法による分類手法（ＭＭＬ）を提案した（下記非特許文献４，５を参照。）。ＭＭＬでは、トピック素性空間と語彙素性空間にそれぞれカーネル関数が定義され、その結合カーネル関数を使用してＳＶＭと同じ枠組によって学習分類が実行される。

ＭＭＬの手法は基本的に上記の構造マッピングのマージン最大化学習と同じであるが、多重トピックのベクトル間の類似度に相当するカーネル関数に線形カーネルとトピックＦ１値に基づく非線型カーネルを使用している。そして、一対他方式のＳＶＭやＰＭＭを含む他の多重トピック文書分類器との精度比較実験を行い、精度性能で他の手法より優れていることと報告している。

A. McCallum. Multi-label text classification with a mixturemodel trained by EM. AAAI’99 Workshop on TextLearning, 1999. N. Ueda and K. Saito. Single-shot detection of multiple categories of text using parametric mixture models. Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, pages 626-631, 2002. Y. Altun, I. Tsochantaridis, and T. Hofmann. Hidden markov support vector machines. Proc. ICML, 2003. 平博順，前田英作，磯崎秀樹，賀沢秀人，泉谷知範最大マージン原理に基づく多重ラベリング学習"電子情報通信学会論文誌D-II Vol.J88-D-II No.11 pp.2246-2259 (2005). Maximal Margin Labeling for Multi-Topic Text CategorizationAdvances in Neural Information Processing Systems 17, pp.649-656 (2005)

しかしながら、上述したＭＭＬは精度性能に優れた多重トピック文書分類器ではあるが、以下の問題がある。１つは、多重トピック分類の本来の目的である出力トピック数が大きい場合の精度性能において問題がある。彼らの報告では出力トピック数が４以上の場合においては、ＰＭＭと同等以下の性能を示している。

さらに、トピックＦ１値に基づく非線型カーネル関数を使用した場合、分類時にもカーネル関数を使って分類をする必要があり、現実にはその分類処理速度の遅さから実用が不可能であるという問題がある。

この発明は、上述した従来技術による問題点を解消するため、多重トピック分類を高速かつ高精度におこなうことができる多重トピック分類装置、多重トピック分類方法、および多重トピック分類プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するため、この発明にかかる多重トピック分類装置、多重トピック分類方法、および多重トピック分類プログラムは、未分類データの多重トピック分類を実行する多重トピック分類装置、多重トピック分類方法、および多重トピック分類プログラムにおいて、分類済みデータと当該分類済みデータに付与されたトピックに関する訓練データとを取得し、取得された分類済みデータの素性ベクトルを生成し、取得された訓練データと生成された素性ベクトルとに基づいて、前記訓練データにより表現されるトピック間の相関をあらわすトピック共起カーネルを算出し、算出されたトピック共起カーネルに基づいて、前記未分類データの多重トピック分類に用いる重みベクトルを設定することを特徴とする。

また、上記発明において、Dice係数によるトピック共起カーネルを算出することとしてもよい。

また、上記発明において、未分類データを取得し、取得された未分類データの素性ベクトルを生成し、生成された前記未分類データの素性ベクトルと重みベクトルとに基づいて、前記未分類データの多重トピック分類をおこなうこととしてもよい。

これらの発明によれば、相関の強い多重トピックは、それ自身マルチトピックのサブ構造の1 つと考えることができるため、各トピック間の相関を明示的に表すカーネル関数を導入することで、多重トピックを単独トピックと相関の強い多重トピックの重ね合わせとして表現することができる。

また、Dice係数に基づくトピック共起カーネルを構築することにより、カーネル行列の非対角項でそのままトピック対の共起の強さをあらわすことができ、共起の強さによって異なるトピック間の類似度を設定することができる。

本発明にかかる多重トピック分類装置、多重トピック分類方法、および多重トピック分類プログラムによれば、多重トピック分類を高速かつ高精度におこなうことができるという効果を奏する。

以下に添付図面を参照して、この発明にかかる多重トピック分類装置、多重トピック分類方法、および多重トピック分類プログラムの好適な実施の形態を詳細に説明する。

まず、本発明の概要について説明する。ＭＭＬでは、トピック素性空間と語彙素性空間にそれぞれカーネル関数が定義され、その結合カーネル関数を使用してＳＶＭと同じ枠組によって学習分類が実行されるが、本発明では、訓練データの各トピック間の共起情報からトピック素性空間のカーネル関数を構築する手法を採用する。

すなわち、ＭＭＬの上記２つの問題点を改善するためにマージン最大化多重トピック分類器にトピック共起カーネルを導入する。トピック共起カーネル関数は、各トピックの訓練データ中の共起頻度に基づいてDice係数から定義される。

異なるトピック間の類似度をDice係数で表現でき、これによって相関の強い、より関連したトピック対を１つの分類クラスのように扱うことができる。さらに、この効果によって、多重トピックを関連の強いトピック対の重ね合わせの状態として表現し、多重トピックのサイズの大きい場合でもより適切な分類をおこなうことができる。また、トピックF1 値に基づく非線型カーネルと異なり、トピック共起カーネルは斜交軸の空間で定義される線形カーネル関数であるため、分類時に重みベクトルを明示的に構成することができる。そのために高速な分類が可能になる。

（多重トピック分類装置のハードウェア構成）
まず、この発明の実施の形態にかかる多重トピック分類装置のハードウェア構成について説明する。図１は、この発明の実施の形態にかかる多重トピック分類装置のハードウェア構成を示すブロック図である。

図１において、多重トピック分類装置は、ＣＰＵ１０１と、ＲＯＭ１０２と、ＲＡＭ１０３と、ＨＤＤ（ハードディスクドライブ）１０４と、ＨＤ（ハードディスク）１０５と、ＦＤＤ（フレキシブルディスクドライブ）１０６と、着脱可能な記録媒体の一例としてのＦＤ（フレキシブルディスク）１０７と、ＣＤ−ＲＷドライブ１０８と、ＣＤ−ＲＷ１０９と、ディスプレイ１１０と、キーボード１１１と、マウス１１２と、ネットワークＩ／Ｆ１１３と、を備えている。また、各構成部はバス１００によってそれぞれ接続されている。

ここで、ＣＰＵ１０１は、多重トピック分類装置の全体の制御を司る。ＲＯＭ１０２は、ブートプログラムなどのプログラムを記憶している。ＲＡＭ１０３は、ＣＰＵ１０１のワークエリアとして使用される。ＨＤＤ１０４は、ＣＰＵ１０１の制御にしたがってＨＤ１０５に対するデータのリード／ライトを制御する。ＨＤ１０５は、ＨＤＤ１０４の制御で書き込まれたデータを記憶する。

ＦＤＤ１０６は、ＣＰＵ１０１の制御にしたがってＦＤ１０７に対するデータのリード／ライトを制御する。ＦＤ１０７は、ＦＤＤ１０６の制御で書き込まれたデータを記憶したり、ＦＤ１０７に記憶されたデータを多重トピック分類装置に読み取らせたりする。

ＣＤ−ＲＷドライブ１０８は、ＣＰＵ１０１の制御にしたがってＣＤ−ＲＷ１０９に対するデータのリード／ライトを制御する。ＣＤ−ＲＷ１０９は、ＣＤ−ＲＷドライブ１０８の制御で書き込まれたデータを記憶したり、ＣＤ−ＲＷ１０９に記憶されたデータを多重トピック分類装置に読み取らせたりする。また、着脱可能な記録媒体として、ＭＯ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、メモリーカードなどであってもよい。

ディスプレイ１１０は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ１１０は、たとえば、ＣＲＴ、ＴＦＴ液晶ディスプレイ、プラズマディスプレイなどを採用することができる。

キーボード１１１は、文字、数字、各種指示などの入力のためのキーを備え、データの入力をおこなう。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス１１２は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などをおこなう。ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。

ネットワークＩ／Ｆ１１３は、通信回線を通じてインターネットなどのネットワーク１１４に接続され、このネットワーク１１４を介して他の装置に接続される。そして、ネットワークＩ／Ｆ１１３は、ネットワーク１１４と内部のインターフェースを司り、外部装置からのデータの入出力を制御する。ネットワークＩ／Ｆ１１３には、たとえばモデムやＬＡＮアダプタなどを採用することができる。

（多重トピック分類装置の機能的構成）
つぎに、この発明の実施の形態にかかる多重トピック分類装置の機能的構成について説明する。図２は、この発明の実施の形態にかかる多重トピック分類装置の機能的構成を示すブロック図である。

図２において、多重トピック分類装置２００は、未分類データ２０２の多重トピック分類を実行する機能を有し、具体的には、学習処理部２１０と分類処理部２２０とから構成されている。これらの機能的構成は、図１に示したＲＯＭ１０２，ＲＡＭ１０３，ＨＤ１０５などの記録媒体に記録されているプログラムを、ＣＰＵ１０１に実行させることによって、またはネットワークＩ／Ｆ１１３によって、その機能を実現する。

まず、学習処理部２１０は、分類済みデータ２０１から未分類データ２０２を分類するための重みベクトルを設定する機能を有し、具体的には、取得部２１１と生成部２１２と算出部２１３と設定部２１４とから構成されている。取得部２１１は、各種データを取得する。学習処理部２１０においては、分類済みデータ２０１と当該分類済みデータ２０１に付与された多重トピックに関する訓練データとを取得する機能を有する。

ここで、分類済みデータ２０１とは、トピック（分類クラスともいう）がすでに付与されている電子データであり、たとえば、論文、図書、新聞、雑誌、漫画、小説などの電子文書が挙げられる。取得部２１１は、多重トピック分類装置２００の外部から与えられた分類対象または内部に保持されている分類済みデータ２０１を読み込む。

また、訓練データとは、訓練済みデータに付与されたトピックがどのトピックであるかを示すデータであり、たとえば、バイナリベクトル形式で表現される。１つの分類済みデータ２０１には、１または複数の訓練データが関連付けられている。ここでは、Ｄ個の訓練データｙ₁，…，ｙ_d，…，ｙ_Dが関連付けられている。以降、Ｄ個の訓練データｙ₁，…，ｙ_d，…，ｙ_Dを訓練データセットＹと称す。

訓練データｙ_dの個数Ｄは任意に設定される。多重トピック文書分類とは、１文書に複数のトピックを付与するタスクである。分類トピック集合をＴ＝｛Ｔ_i｜ｉ＝１，…，ｃ｝とすると、多重トピックが付与される訓練データｙ_dは、次のようなトピック素性空間のバイナリベクトルとして表現できる。

ｙ_d＝｛ｔ₁，…，ｔ_i，…，ｔ_c｝
ｔ_i＝１ｉ番目のトピックＴ_iが付与される
０ｉ番目のトピックＴ_iが付与されない

例として、トピック総数ｃ＝４の分類トピック集合Ｔ＝｛Ｔ₁，Ｔ₂，Ｔ₃，Ｔ₄｝について、Ｔ₁が「国際」、Ｔ₂が「政治」、Ｔ₃が「経済」、Ｔ₄が「スポーツ」をあらわすとする。分類済みデータ２０１が「国際政治」を扱っている（分類済み）電子文書である場合に、トピックＴ₁，Ｔ₂が付与されると、その電子文書におけるｄ番目の訓練データｙ_dは、ｙ_d＝｛１，１，０，０｝と表現される。

生成部２１２は、取得部２１１によって取得された分類済みデータ２０１の素性ベクトルｘ＝｛ｘ₁，…，ｘ_N｝を生成する機能を有する。素性ベクトルｘは未分類データ２０２の属性をあらわすベクトルである。たとえば、分類済みデータ２０１が電子文書である場合、単語（Ｎ個）ごとの出現頻度をベクトル化する、いわゆるbag-of-word表現により、素性ベクトルｘを生成する。この場合、ｘ₁，…，ｘ_Nは、電子文書内に出現するＮ個の単語の出現頻度となる。

また、算出部２１３は、取得部２１１によって取得された訓練データｙ_dと生成部２１２によって生成された素性ベクトルｘとに基づいて、訓練データｙ_dにより表現されるトピック間の相関をあらわすトピック共起カーネルを算出する機能を有する。トピック共起カーネルとは、トピック間の相関を明示的に表現するカーネル関数である。

多重トピック分類において、分類処理部２２０により出力される多重トピックは、いくつかの関連の少ないサブトピックの重ね合わせとして表現できると考えられる。線形カーネルの場合、そのサブトピックは１つのトピックそのものとして扱われていたことに対応する。

しかし、相関の強い多重トピックは、それ自身、多重トピックのサブ構造の１つと考えることができる。そこで、各トピック間の相関を明示的に表現するカーネル関数を導入することで、多重トピックを、単独トピックと相関の強い多重トピックの重ね合わせとして表現する。これは、畳み込みカーネルで実現されているサブ構造全体で、構造データを素性ベクトル化する手法の近似手法とも考えられる。

また、従来は訓練データｙ_d中の多重トピックの出現頻度等の統計情報は明示的には利用されてこなかった。それらの情報は多重トピック文書分類において有益な情報と考えられる。そこで、本実施の形態では、２次までのサブ構造である、トピック対の共起頻度を利用するトピック共起カーネルを提案する。

トピック対の相関を考慮するにはいくつかの可能性があるが、本実施の形態では、直感的にわかりやすい非対角項がそのままトピック対の共起の強さを表現するDice係数に基づくトピック共起カーネルを構築する。

このトピック共起カーネルは共起の強さによって異なるトピック間の類似度を設定することができ、非特許文献４の線形カーネルに基づくＭＭＬの出力トピック数が大きい場合のトピックＦ１値の低い欠点を改善できることが期待できる。また、トピック素性空間の非対角項を持つカーネル行列として表現されるため、分類時に明示的に重みベクトルの構成ができ、高速な分類を実行することができる。

ここで、Dice係数によるトピック共起カーネルについて具体的に説明する。多重トピックのなす素性空間において、非対角項を持つ線形カーネル関数を、下記式（１）とする。

上記式（１）において、<,>はベクトルの内積をあらわす記号である。ｙは任意の訓練データｙ_dであり、ｙ’はｙとは異なる他の訓練データｙ_dである。また、Ｋはトピック共起行列であり、Ｋ_ijはトピック共起行列Ｋ内の行列要素である。また、ｉはｉ番目のトピックＴ_iを特定するインデックスである。ｊはｊ＝１，…，ｃであり、ｊ≠ｉである。

また、行列要素Ｋ_ijは、下記式（２）によってあらわされる。

上記式（２）において、＃ｙ_iは訓練データセットＹにおける各訓練データｙ_dのi番
目のトピックＴ_iの出現頻度であり、＃ｙ_jは訓練データセットＹにおける各訓練データｙ_dのｊ番目のトピックＴ_jの出現頻度である。＃ｙ_i∩ｙ_jは、訓練データセットＹに
おける各訓練データｙ_dのｉ，ｊ番目のトピック対Ｔ_i，Ｔ_jの共起頻度である。

ここで、行列要素Ｋ_ijの計算方法について説明する。ここでは、例として、上述のように、トピック総数ｃ＝４の分類トピック集合Ｔ＝｛Ｔ₁，Ｔ₂，Ｔ₃，Ｔ₄｝とし、Ｔ₁が「国際」、Ｔ₂が「政治」、Ｔ₃が「経済」、Ｔ₄が「スポーツ」をあらわすとする。また、訓練データ数ＤをＤ＝３とし、訓練データｙ₁〜ｙ₃を以下の通りとする。

ｙ₁＝｛０，１，１，０｝
ｙ₂＝｛１，１，０，０｝
ｙ₃＝｛０，１，１，１｝

ｃ＝４であるため、トピック共起行列Ｋは４行４列の行列となる。ここで、各行列要素Ｋ_ijの算出例を列挙する。

Ｋ₁₂＝Ｋ₂₁＝（２×１）／（１＋３）＝１／２
Ｋ₁₃＝Ｋ₃₁＝（２×０）／（１＋２）＝０
Ｋ₁₄＝Ｋ₄₁＝（２×０）／（１＋１）＝０
Ｋ₂₃＝Ｋ₃₂＝（２×２）／（３＋２）＝４／５
Ｋ₂₄＝Ｋ₄₂＝（２×１）／（３＋１）＝１／２
Ｋ₃₄＝Ｋ₄₃＝（２×１）／（２＋１）＝２／３

また、行列要素Ｋ_ij中、対角項Ｋ_iiは共起情報から決定することはできないが、トピック共起行列Ｋがカーネル行列であるという要請、つまり正定値性を満たす条件から、下記式（３），（４）のように決めることができる。

行列Ｌ，Ｋの対角成分はよく知られている正定値対称行列のCholeskey分解アルゴリズムから決めることができる。ここで、行列Ｌの対角成分でＬ_ii＝１であるという仮定を置いた。これは、任意のトピック共起行列が正定値性を満たし、行列Ｋの非対角成分が小さい時、Ｋは単位行列にほぼ同じであるという要請を考慮したものである。

また、設定部２１４は、算出部２１３によって算出されたトピック共起カーネルに基づいて、未分類データ２０２の多重トピック分類に用いる重みベクトルを設定する機能を有する。具体的には、上述したトピック共起行列Ｋを用いて重みベクトルｗ_Kを算出する。重みベクトルｗ_Kは下記式（５）により算出される。

上記式（５）において、ｍはｍ＝１，…，ｃであり、訓練データｙ_d内のｍ番目の成分をあらわす。すなわち、ｙ’_dmは、訓練データｙ_d内のｍ番目の成分を反転させたバイナリベクトルであり、訓練データｙ_dの不正解ベクトルをあらわす。たとえば、訓練データｙ₁＝｛０，１，１，０｝の不正解ベクトルｙ’_dmは、以下のとおりである。

ｙ’_d1＝｛１，１，１，０｝
ｙ’_d2＝｛０，０，１，０｝
ｙ’_d3＝｛０，１，０，０｝
ｙ’_d4＝｛０，１，１，１｝

また、上記式（５）で、α_dmは、下記式（６）〜（８）に示すマージン最適化多重ラベリング学習の最適化問題（双対問題表示）として定式化された公知の式の解の非ゼロ要素である。

また、｜,｜_Kは、トピックのなす空間で内積としてトピック共起カーネルＫを使用したベクトルの長さをあらわす。

この重みベクトルｗ_Kにより、通常の線形カーネルでは考慮できない、トピック間の相関を考慮しつつ、線形カーネルと同じく高速な分類処理速度を実現できる。分類時には、各事例のノルムに従うスコアの正規化処理がマルチトピック分類器には必要となる。それを含めた分類処理の詳細については後述する。

なお、上記式（６）〜（８）に示した最適化問題は２次計画問題であり、様々な効率的な解法アルゴリズムが存在する。しかし、多重トピック文書分類の場合、最適化する変数の個数は文書数×トピック数と大きくなり、通常はＳＶＭの場合と同じく一般的な解法アルゴリズムの適用が難しくなる。そこで、ＳＶＭのSequential Mimimum Optimization（ＳＭＯ）アルゴリズムを上記式（６）〜（８）式の最適化問題に拡張した解法アルゴリズムを本実施の形態で適用することができる。

ＳＶＭのＳＭＯアルゴリズムは最急降下法を基本とする反復解法の１つである。各反復で、最も目的関数を下げる２変数を選択しその変数のみを更新していく。ＳＶＭの場合には等式制約式が１つあるために、自由に更新できる最小の変数である２変数を選択し逐次更新していくが、本実施の形態の多重トピック分類の場合には、等式制約式がないため１変数を選択して更新していく拡張ＳＭＯアルゴリズムを使用する。

（１）拡張ＳＭＯアルゴリズムでは、まず、誤差定数ＥＰＳに正の定数を設定し、すべてのα_dmを初期化（α_dm＝０）する。
（２）つぎに、下記式（９）に示すバイオレーション値ｖ_dmが最大となる(ｄ，ｍ）を選択する。これは各訓練データの各反復数時での分類誤りを示している。

（３）そして、ｖ_dm＜ＥＰＳを満たしていれば終了、そうでなければ次の（４）へ移行する。（４）上記（２）で選択された(ｄ，ｍ）により特定されるα_dmを、下記式（１０）により更新する。

（５）そして、α_dmの更新に伴ってｖ_dmを更新して、上記（１）にもどる。学習処理部２１０による学習処理時は、α_dmの更新に伴って、全訓練データに対するviolation値ｖ_dmの更新処理が発生する。その際に（１０）式によってカーネル計算を行う必要あるため、そのままの実装では学習時間は膨大となる。ＳＶＭのＳＭＯアルゴリズムと同じようにカーネル関数値のキャッシュを保持することで学習処理時間の短縮化を図ることができる。

つぎに、分類処理部２２０について説明する。図２において、分類処理部２２０は、学習処理部２１０により得られた重みベクトルを用いて未分類データ２０２を分類する機能を有し、具体的には、取得部２１１と生成部２１２と分類部２２１と出力部２２２とをから構成される。

取得部２１１は、分類処理部２２０においては、未分類データ２０２を取得する機能を有する。ここで、未分類データ２０２とは、トピックがまだ付与されていない電子データであり、たとえば、論文、図書、新聞、雑誌、漫画、小説などの電子文書が挙げられる。取得部２１１は、多重トピック分類装置２００の外部から与えられた分類対象または内部に保持されている分類済みデータ２０１を読み込む。

生成部２１２は、分類処理部２２０においては、取得部２１１によって取得された未分類データ２０２の素性ベクトルｘ＝｛ｘ₁，…，ｘ_N｝を生成する機能を有する。素性ベクトルｘは未分類データ２０２の属性をあらわすベクトルである。たとえば、未分類データ２０２が電子文書である場合、単語（Ｎ個）ごとの出現頻度をベクトル化する、いわゆるbag-of-word表現により、素性ベクトルｘを生成する。この場合、ｘ₁，…，ｘ_Nは、電子文書内に出現するＮ個の単語の出現頻度となる。

また、図２において、分類部２２１は、未分類データ２０２の多重トピック分類を実行する機能を有する。具体的には、未分類データ２０２の素性ベクトルと重みベクトルとに基づいて、未分類データ２０２の多重トピック分類を実行する。

また、出力部２２２は、分類結果となるバイナリベクトルを出力する機能を有する。具体的には、たとえば、バイナリベクトルのみ出力したり、未分類データ２０２に関連付けて出力する。出力形式は、画面表示や印刷出力、記憶領域への格納、他のコンピュータ装置への送信が挙げられる。

（学習処理手順）
つぎに、この発明の実施の形態にかかる学習処理手順について説明する。図３は、この発明の実施の形態にかかる学習処理手順を示すフローチャートである。図３において、まず、取得部２１１により、分類済みデータ２０１とその訓練データセットを取得する（ステップＳ３０１）。

つぎに、生成部２１２により、分類済みデータ２０１の素性ベクトルｘを生成する（ステップＳ３０２）。そして、算出部２１３によりトピック共起行列Ｋを算出する（ステップＳ３０３）。このあと、設定部２１４により、重みベクトル設定処理を実行する（ステップＳ３０４）。これにより、一連の学習処理手順を終了する。

つぎに、重みベクトル設定処理（ステップＳ３０４）の詳細な処理手順について説明する。図４は、重みベクトル設定処理（ステップＳ３０４）の詳細な処理手順を示すフローチャートである。

まず、訓練データｙ_dのインデックスｄをｄ＝１とし（ステップＳ４０１）、ｍ（訓練データｙ_d内のｍ番目の成分をあらわすインデックス）をｍ＝１とする（ステップＳ４０２）。そして、上記式（５）のＡ_dmを算出する（ステップＳ４０３）。つぎに、ｍ＞ｃであるか否かを判断する（ステップＳ４０４）。ｍ＞ｃでない場合（ステップＳ４０４：Ｎｏ）、ｍをインクリメントして（ステップＳ４０５）、ステップＳ４０３に戻る。

一方、ｍ＞ｃである場合（ステップＳ４０４：Ｙｅｓ）、ｄ＞Ｄ（Ｄは訓練データｙ_dの総数）であるか否かを判断する（ステップＳ４０６）。ｄ＞Ｄでない場合（ステップＳ４０６：Ｎｏ）、ｄをインクリメントして（ステップＳ４０７）、ステップＳ４０３に戻る。一方、ｄ＞Ｄである場合（ステップＳ４０６：Ｙｅｓ）、上記式（５）により重みベクトルｗ_Kを算出して（ステップＳ４０８）、一連の処理を終了する。

（分類処理手順）
つぎに、この発明の実施の形態にかかる分類処理手順について説明する。図５は、この発明の実施の形態にかかる分類処理手順を示すフローチャートである。図５において、まず、取得部２１１により、未分類データ２０２を取得する（ステップＳ５０１）。つぎに、生成部２１２により、未分類データ２０２の素性ベクトルｘを生成する（ステップＳ５０２）。そして、単独トピック分類実行処理（ステップＳ５０３）および多重トピック分類実行処理（ステップＳ５０４）をおこなう。最後に、出力部２２２により、分類結果を出力することにより（ステップＳ５０５）、一連の処理を終了する。

つぎに、単独トピック分類実行処理（ステップＳ５０３）の詳細な処理手順について説明する。図６は、単独トピック分類実行処理の詳細な処理手順を示すフローチャートである。図６において、まず、ｉ（ｉ番目のトピックＴｉを特定するインデックス）をｉ＝１とし（ステップＳ６０１）、単独トピックベクトルｙｉを生成する（ステップＳ６０２）。単独トピックベクトルｙ_iは、ｉ番目のトピックＴ_iの値ｔ_iのみがｔ_i＝１となるバイナリベクトルである。

つぎに、単独トピックスコアＳ_iを算出する（ステップＳ６０３）。単独トピックスコアＳ_iは、下記式（１１）により算出される。

なお、｜ｙ_i｜_Kは単独トピックの長さである。そして、ｉ＞ｃであるか否かを判断する（ステップＳ６０４）。すなわち、すべての単独トピックに対して単独トピックスコアＳ_iを算出したか否かを判断する。ｉ＞ｃでない場合（ステップＳ６０５：Ｎｏ）、ｉをインクリメントして（ステップＳ６０６）、ステップＳ６０２に戻る。

一方、ｉ＞ｃである場合（ステップＳ６０４：Ｙｅｓ）、これまでに算出された単独トピックスコアＳ₁〜Ｓ_Cを降順にソートする（ステップＳ６０５）。そして、その中から最大スコアＳ_maxを保持して（ステップＳ６０７）、ステップＳ５０４に移行する。

つぎに、多重トピック分類実行処理（ステップＳ５０４）の詳細な処理手順について説明する。図６は、多重トピック分類実行処理（ステップＳ５０４）の詳細な処理手順を示すフローチャートである。図６において、まず、ｇ＝２とする（ステップＳ７０１）。ｇは、ステップＳ６０５においてソートされた降順をあらわす。なお、ｇ＝１の場合、単独トピックスコアＳ_maxの算出元となる単独トピックべクトルである。

つぎに、多重トピックベクトルｚ_gを生成する（ステップＳ６０２）。多重トピックベクトルｚ_gとは、上位２番目の単独トピックスコアの算出元の単独トピックベクトルから上位ｇ番目までの単独トピックスコアの算出元の単独トピックベクトルの論理和である。

たとえば、ｇ＝４とした場合、上位２番目の単独トピックスコアの算出元の単独トピックベクトルｙ_Aから上位３番目の単独トピックスコアの算出元の単独トピックベクトルｙ_Cを以下の通りとすると、多重トピックベクトルｚ₄は以下の通りとなる。

ｙ_A＝｛１，０，０，０｝
ｙ_B＝｛０，０，１，０｝
ｙ_C＝｛０，０，０，１｝
ｚ₄＝｛１，０，１，１｝

そして、多重トピックスコアＭ_gを算出する（ステップＳ７０３）。多重トピックスコアＭ_gは、下記式（１２）により算出される。

なお、｜ｚ_g｜_Kは多重トピックの長さである。多重トピックスコアＭ_gは線形カーネルであるため、多重トピックの長さ｜ｚ_g｜_Kの正規化項を除いて、多重トピックスコアＭ_gは単独トピックスコアＳ₁×｜ｙ₁｜_K〜Ｓ_C×｜ｙ_c｜_Kの和になっている。そのため、多重トピックに対するスコア計算には、一般のNaive Bayes分類器や、一対他方式のＳＶＭなどと同じ単独トピックに対する計算コストと、トピック素性空間での多重トピックの長さによる正規化計算コストとなり、比較的高速に分類を実行できる。

このあと、Ｍ_g＞Ｓ_maxであるか否かを判断する（ステップＳ７０４）。Ｍ_g＞Ｓ_maxである場合（ステップＳ７０４：Ｙｅｓ）、ｇ＞ｃであるか否かを判断する（ステップＳ７０５）。そして、ｇ＞ｃでない場合（ステップＳ７０５：Ｎｏ）、ｇをインクリメントして（ステップＳ７０６）、ステップＳ７０２に戻る。

一方、ｇ＞ｃである場合（ステップＳ７０５：Ｙｅｓ）、最終的に得られた多重トピック訓練データｚ_gを保持する（ステップＳ７０７）。一方、ステップＳ７０４において、Ｍ_g＞Ｓ_maxでない場合（ステップＳ７０４：Ｎｏ）、１つ前の多重トピック訓練データｚ_g-1を保持する（ステップＳ７０８）。このあと、ステップＳ５０５に移行することで、多重トピック分類実行処理（ステップＳ５０４）の一連の処理を終了する。

このように、この発明の実施の形態によれば、カーネルにより相関の強いトピック対と語彙素性との関連をより強く学習することができ、トピック数の大きい場合のトピックＦ１値性能を向上させることができる。また、このトピック共起カーネルは非対角項を持つ線形カーネルとして表現できるため、分類時に明示的に重みベクトルを構成することができる。そのため、分類時にもカーネル関数を使用する場合に比べて高速な分類を実現することができる。

なお、本実施の形態で説明した多重トピック分類方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。

以上のように、本発明にかかる多重トピック分類装置、多重トピック分類方法、および多重トピック分類プログラムは、各種電子文書やソーシャルブックマークなどに有用である。

この発明の実施の形態にかかる多重トピック分類装置のハードウェア構成を示すブロック図である。この発明の実施の形態にかかる多重トピック分類装置の機能的構成を示すブロック図である。この発明の実施の形態にかかる学習処理手順を示すフローチャートである。重みベクトル設定処理の詳細な処理手順を示すフローチャートである。この発明の実施の形態にかかる分類処理手順を示すフローチャートである。単独トピック分類実行処理の詳細な処理手順を示すフローチャートである。多重トピック分類実行処理の詳細な処理手順を示すフローチャートである。

符号の説明

２００多重トピック分類装置
２１０学習処理部
２１１取得部
２１２生成部
２１３算出部
２１４設定部
２２０分類処理部
２２１分類部
２２２出力部

Claims

未分類データの多重トピック分類を実行する多重トピック分類装置において、
分類済みデータと当該分類済みデータに付与されたトピックに関する訓練データとを取得する取得手段と、
前記取得手段によって取得された分類済みデータの素性ベクトルを生成する生成手段と、
前記取得手段によって取得された訓練データと前記生成手段によって生成された素性ベクトルとに基づいて、前記訓練データにより表現されるトピック間の相関をあらわすトピック共起カーネルを算出する算出手段と、
前記算出手段によって算出されたトピック共起カーネルに基づいて、前記未分類データの多重トピック分類に用いる重みベクトルを設定する設定手段と、
を備えることを特徴とする多重トピック分類装置。
前記算出手段は、Dice係数によるトピック共起カーネルを算出することを特徴とする請求項１に記載の多重トピック分類装置。
前記未分類データの多重トピック分類を実行する分類手段を備え、
前記取得手段は、未分類データを取得し、
前記生成手段は、前記取得手段によって取得された未分類データの素性ベクトルを生成し、
前記分類手段は、前記生成手段によって生成された前記未分類データの素性ベクトルと前記設定手段によって設定された重みベクトルとに基づいて、前記未分類データの多重トピック分類をおこなうことを特徴とする請求項１または２に記載の多重トピック分類装置。
未分類データの多重トピック分類を実行する多重トピック分類方法において、
分類済みデータと当該分類済みデータに付与されたトピックに関する訓練データとを取得する取得工程と、
前記取得工程によって取得された分類済みデータの素性ベクトルを生成する生成工程と、
前記取得工程によって取得された訓練データと前記生成工程によって生成された素性ベクトルとに基づいて、前記訓練データにより表現されるトピック間の相関をあらわすトピック共起カーネルを算出する算出工程と、
前記算出工程によって算出されたトピック共起カーネルに基づいて、前記未分類データの多重トピック分類に用いる重みベクトルを設定する設定工程と、
を含んだことを特徴とする多重トピック分類方法。
未分類データの多重トピック分類をコンピュータに実行させる多重トピック分類プログラムにおいて、
分類済みデータと当該分類済みデータに付与されたトピックに関する訓練データとを取得する取得工程と、
前記取得工程によって取得された分類済みデータの素性ベクトルを生成する生成工程と、
前記取得工程によって取得された訓練データと前記生成工程によって生成された素性ベクトルとに基づいて、前記訓練データにより表現されるトピック間の相関をあらわすトピック共起カーネルを算出する算出工程と、
前記算出工程によって算出されたトピック共起カーネルに基づいて、前記未分類データの多重トピック分類に用いる重みベクトルを設定する設定工程と、
を前記コンピュータに実行させることを特徴とする多重トピック分類プログラム。