JP5164209B2

JP5164209B2 - 分類モデル生成装置、分類装置、分類モデル生成方法、分類方法、分類モデル生成プログラム、分類プログラムおよび記録媒体

Info

Publication number: JP5164209B2
Application number: JP2008161237A
Authority: JP
Inventors: 具治岩田; 利幸田中
Original assignee: Kyoto University; Nippon Telegraph and Telephone Corp
Current assignee: Kyoto University; Nippon Telegraph and Telephone Corp
Priority date: 2008-06-20
Filing date: 2008-06-20
Publication date: 2013-03-21
Anticipated expiration: 2028-06-20
Also published as: JP2010003106A

Description

本発明は、分類対象データを分類する分類体系（以下、「ターゲット分類体系」という。）のデータだけでなく、別の分類体系（以下、「補助分類体系」という。）のデータも用いて、分類モデルを学習し、また、その学習した分類モデルを用いて分類対象データをターゲット分類体系において分類する技術に関する。

学習データ（学習用のデータ）の数が少ない場合、一般に、分類モデルの性能は低くなる。そこで、補助分類体系におけるクラスのラベル（以下、「クラスラベル」または単に「ラベル」という。）が付与されたデータを用いることにより、分類モデルの性能を向上させることができれば好ましい。その場合、例えば、あるＷｅｂページを、あるターゲット分類体系のクラス（以下、「ターゲットクラス」ともいう。）に分類したいとする。そして、ディレクトリ型検索エンジンやソーシャルブックマークサイトにおける多数のユーザによって、ターゲット分類体系とは異なる補助分類体系に、多くのＷｅｂページがすでに分類されており、そのような情報を活用できれば望ましい。

また、例えば、オンラインショッピングなどの商品について購買順序を考慮した予測（分類）に関する技術が知られている（非特許文献１参照）。
岩田具治、山田武士、上田修功、"購買順序を考慮した協調フィルタリング"、人工知能と知識処理研究会、AI2007-3,13-18,2007

しかし、補助分類体系とターゲット分類体系とでは、一般にクラスラベルが異なり、また、同じラベルがあったとしても意味が異なる可能性もある。そのため、従来の教師あり学習の技術（非特許文献１など）を用いて、補助分類体系のクラス（以下、「補助クラス」ともいう。）のデータを利用することはできないという問題がある。

そこで、本発明は、前記問題に鑑みてなされたものであり、補助分類体系のデータを有効に利用することで、ターゲット分類体系に関する高精度な分類モデルを生成することを課題とする。また、その生成した分類モデルを用いて、分類対象データをターゲット分類体系において高精度に分類することを、他の課題とする。

前記課題を解決するために、本発明は、分類対象データを分類する分類体系であるターゲット分類体系においてすでに分類されている１つ以上の既分類データと、前記ターゲット分類体系とは異なる分類体系である補助分類体系においてすでに分類されている１つ以上の既分類データと、を用いて学習を行うことで、前記分類対象データを前記ターゲット分類体系における複数のクラスのいずれかに分類するための分類モデルを生成する分類モデル生成装置であって、情報を記憶する記憶手段と、前記した２種類の既分類データにおける個別の各既分類データを前記ターゲット分類体系のいずれかのクラスに分類したと予測したときの前記分類モデルの誤差関数と、当該予測をしたときの前記した２種類の既分類データにおける個別の各既分類データの前記分類モデルへの影響度を示す各重みと、を用いて、前記した２種類の既分類データにおける個別の既分類データごとの前記誤差関数の値と前記重みとの積の総和である期待誤差を最小化させるように、前記重みを推定して、当該重みを前記記憶手段に格納する重み推定部と、前記記憶手段に格納された重みと、前記した２種類の既分類データと、を用いて、前記分類モデルを生成するモデル構築部と、を備えることを特徴とする。

かかる発明によれば、ターゲット分類体系における既分類データだけでなく、補助分類体系における既分類データも用い、誤差関数と重みとの積の総和である期待誤差を最小化させるように重みを推定し、その推定された重みと２種類の既分類データとを用いて分類モデルを生成することで、補助分類体系のデータも有効に利用し、ターゲット分類体系に関する高精度な分類モデルを生成することができる。

また、本発明は、前記重み推定部が、前記ターゲット分類体系と前記補助分類体系とを統合した場合の確率分布モデルを、前記ターゲット分類体系の確率分布モデルに近似させるための、前記ターゲット分類体系と前記補助分類体系とのクラスごとの前記分類モデルへの影響度の比率を示す混合比を用いて、前記した２種類の既分類データに関する事後確率を推定して、当該事後確率を前記記憶手段に格納する事後確率推定部と、前記記憶手段に格納された事後確率を用いて、前記ターゲット分類体系の既分類データに対する尤度を最大化するように、前記混合比を推定し、前記尤度が最大化されたときの前記混合比から前記重みを推定して、当該重みを前記記憶手段に格納する混合比推定部と、を備えることを特徴とする。

かかる発明によれば、重み推定部が、事後確率推定部と、混合比推定部とを備えているので、例えば、事後確率推定部が、ＥＭ（Expectation-Maximization）アルゴリズムにおけるＥ(Expectation)ステップを行い、かつ、混合比推定部がＭ(Maximization)ステップを行うことで、混合比についての大域的最適解を求め、求めた混合比から重みを決定（推定）することができる。

また、本発明は、前記モデル構築部が、前記記憶手段に格納された重みと、前記した２種類の既分類データと、を用いて、前記分類モデルにおいて前記分類対象データを前記ターゲット分類体系に分類するためのモデルパラメータを推定して、当該モデルパラメータを前記記憶手段に格納するモデルパラメータ推定部を備えることを特徴とする。

かかる発明によれば、モデルパラメータ推定部が、例えば、後記する式（１０）を用いてモデルパラメータを推定することができる。

また、本発明は、分類装置が、分類モデル生成装置の前記記憶手段に格納されたモデルパラメータを用いて、前記分類対象データを前記ターゲット分類体系における複数のクラスのいずれかに分類する分類部を備えることを特徴とする。

かかる発明によれば、分類部が、推定したモデルパラメータを用いて分類対象データをターゲット分類体系における複数のクラスのいずれかに分類する、つまり、高精度な分類モデルを用いることで高精度な分類を実現することができる。

また、本発明は、コンピュータを、分類モデル生成装置または分類装置の各部として機能させるためのプログラムである。これにより、このプログラムをインストールされたコンピュータは、このプログラムに基づいた各機能を実現することができる。

また、本発明は、前記プログラムが記録されたことを特徴とするコンピュータに読み取り可能な記録媒体である。これにより、この記録媒体を装着されたコンピュータは、この記録媒体に記録されたプログラムに基づいた各機能を実現することができる。

本発明によれば、補助分類体系のデータも有効に利用することで、ターゲット分類体系に関する高精度な分類モデルを生成することができる。また、その生成した分類モデルを用いて、分類対象データをターゲット分類体系において高精度に分類することができる。

以下、本発明を実施するための最良の形態（以下、「実施形態」という。）について、詳細に説明する。図１は、本実施形態に係る分類装置の構成を示すブロック図である。図１に示すように、分類装置１は、演算手段２と、入力手段３と、記憶手段４と、出力手段５とを備えている。各手段２〜５はバスライン１１に接続されている。なお、分類装置１は、分類モデル（以下、単に「モデル」ともいう。）を生成する分類モデル生成装置としての機能と、その生成した分類モデルによって分類対象データを分類する分類装置としての機能とを兼ね備えるものであるが、いずれか一方の機能のみを有するものとして実現されてもよい。

演算手段２は、例えば、ＣＰＵ（Central Processing Unit）およびＲＡＭ（Random Access Memory）から構成される主制御装置である。この演算手段２は、図１に示すように、重み推定部２１と、モデル構築部２２と、分類部２３と、メモリ２４とを含んで構成される。なお、各部２１〜２３の説明は後記するが、従来手法と比較した場合の本実施形態における主な特徴は重み推定部２１であるので、重み推定部２１に関して特に詳細に説明する。また、モデル構築部２２と分類部２３に関しては、従来手法を大きく変更せずに適用できるので、詳細な説明を省略する。

入力手段３は、例えば、キーボード、マウス、ディスクドライブ装置等から構成される。この入力手段３は、各種データを入力し、記憶手段４に格納する（詳細は後記）。

記憶手段４は、例えば、一般的なハードディスク装置等から構成され、演算手段２で用いられる各種プログラムや各種データ等を記憶する。この記憶手段４は、プログラムとして、重み推定プログラム４１と、モデル構築プログラム４２と、分類プログラム４３とをプログラム格納部４０ａに記憶する。そして、演算手段２は、これらのプログラム４１〜４３を記憶手段４から読み込んでメモリ２４に展開して実行することで、前記した重み推定部２１、モデル構築部２２、分類部２３の各機能を実現する。

また、記憶手段４は、入力データ４４と、重み４５と、モデルパラメータ４６と、テストデータ４７とをデータ格納部４０ｂに記憶する。ここで、入力データ４４は、入力手段３から入力されるデータであり、学習用サンプルである。重み４５は、演算手段２の重み推定部２１の演算処理によって推定された重みに関するデータである（詳細は後記）。モデルパラメータ４６は、演算手段２のモデル構築部２２の演算処理によって算出されたデータである（詳細は後記）。テストデータ４７は、テスト用サンプルである（詳細は後記）。なお、入力データ４４、重み４５、モデルパラメータ４６およびテストデータ４７に関しては、以下、符号を適宜省略する。

出力手段５は、例えば、グラフィックボード（出力インタフェース）およびそれに接続されたモニタである。このモニタは、例えば、液晶ディスプレイ等から構成され、演算処理結果（分類対象データの分類結果等）を表示する。

本実施形態では、ターゲット分類体系のデータ（既分類データ。以下、「ターゲットデータ」ともいう。）だけでなく、補助分類体系のデータ（既分類データ以下、「補助データ」ともいう。）も用いて、分類器（分類モデル）を学習する。ターゲットクラス集合をＺ、補助クラス集合をＡ、全クラス集合をＹ＝｛Ｚ，Ａ｝とする。

学習データとして、ターゲットデータであるＤ_ｚ＝｛ｘ_ｎ，ｙ_ｎ｝^Ｎｚ _ｎ＝１（本明細書において、「^Ｎｚ _ｎ＝１」は「ｎ」に「１」から「Ｎ_ｚ」までを代入することを意味する。他の文字についても同様）と、
補助データであるＤ_ａ＝｛ｘ_ｎ，ｙ_ｎ｝^Ｎ _{ｎ＝Ｎｚ＋１}とが与えられたとき、クラスが未知のサンプルｘ（分類対象データ。後記するテストデータ４７）のクラスｙ∈Ｚを予測する分類モデルを学習する。

ここで、Ｗｅｂページデータの場合、サンプルは例えば単語出現頻度ベクトルｘ_ｎ＝（ｘ_ｎ１，・・・，ｘ_ｎｗ）で表される（ｘ_ｎｗは第ｎサンプルに単語ｗが出現した回数を表す）。

また、ｙ_ｎ∈Ｚ（ｉｆ１≦ｎ≦Ｎ_ｚ）、ｙ_ｎ∈Ａ（ｉｆＮ_ｚ＋１≦ｎ≦Ｎ）であり、Ｗｅｂページの場合、ｙ_ｎは第ｎサンプルが分類されているカテゴリを表す。なお、ｙは離散値である。また、ｘを離散変数として扱うが、連続変数の場合へも容易に拡張可能である。

本実施形態では、ターゲットデータに補助データ（補助分類体系のデータ）も含めた全データに関する重み付き経験誤差Ｅ（Ｍ）（式（１））を最小化することにより、モデルＭを学習する。

ここで、ｗ（ｚ|ｙ）はクラスｙ∈Ｙのサンプルがターゲットクラスｚ∈Ｚのモデル学習にどのくらい参考になるかをあらわす重みを表す。なお、式（１）において、太字の文字（ここではｘ_ｎとＺ）は、複数の成分を有していることを示し、以下の他の式についても同様である。また、文章中の文字については、いずれも太字で示していないが、各式と整合をとったものであるものとする。

また、Ｊ（ｘ_ｎ，ｚ；Ｍ）はサンプルｘのクラスをｚと予測したときのモデルＭの誤差関数を表す。誤差関数の例として、
負の対数尤度Ｊ（ｘ，ｚ；Ｍ）＝−ｌｏｇＰ（ｚ｜ｘ；Ｍ）や、
０−１損失関数Ｊ（ｘ，ｚ；Ｍ）＝０（ｉｆｆ（ｘ）＝ｙ），
Ｊ（ｘ，ｚ；Ｍ）＝１（otherwise）、などが考えられる。なお、本明細書では、対数は自然対数、すなわち、対数ｌｏｇの底は「ｅ」であるものとする。

重みを、以下のように決定する（動作主体については後記。以下同様）。まず、クラスｙにおける経験分布を近似するモデル分布Ｐ^〜（ｘ｜ｙ）（本明細書において、経験分布を意味する記号「^〜」はその直前の文字の上に付される記号であるものとする。後記する「＾」についても同様）を推定する（式（２））。ここで、δ（ｘ，ｘ_n）はクロネッカーのデルタを表し、Ｎ（ｙ）はクラスがｙであるサンプルの数を表す。

次に、モデル分布の全クラスの混合がターゲットクラスｚ∈Ｚの真の分布Ｐ（ｘ｜ｚ）を近似するように、混合比Ｐ_ｚ（ｙ）を推定する（式（３））。ここで、混合比とは、ターゲット分類体系と補助分類体系とを統合した場合の確率分布モデルを、ターゲット分類体系の確率分布モデルに近似させるための、ターゲット分類体系と補助分類体系とのクラスごとの、分類モデルに対する影響度の比率を示すものである。

なお、混合比Ｐ_ｚ（ｙ）、および、混合比Ｐ_ｚ（ｙ）の集合Ｐは、
Ｐ＝｛｛Ｐ_ｚ（ｙ）｝_ｙ∈Ｙ｝_ｚ∈Ｚ（０≦Ｐ_ｚ（ｙ）≦１，Σ_ｙ∈ＹＰ_ｚ（ｙ）＝１）を満たすものとする。

そして、重みｗ（ｚ|ｙ）を設定（算出）する（式（４））。なお、Ｐ（ｚ）は、あるサンプルに関してクラスｚが選ばれる確率である。

このとき、重み付き誤差Ｅ（Ｍ）は期待誤差の近似となる（式（５））。

式（５）において、右辺の１行目から２行目への式変形は、ｎについての総和の式をｘとｙについての総和の式に変えたものである。右辺の２行目から３行目への式変形は、式（４）を使ったものである。右辺の３行目から４行目への式変形は、式（２）を使ったものである。右辺の４行目から５行目への式変形は、式（３）を使ったものである。右辺の５行目から６行目への式変形は、条件付確率の公式（定義）を使ったものであり、Ｐ（ｘ，ｚ）はｘとｚが同時に発生する確率を示す。

右辺の６行目から７行目への式変形は、期待値の公式（定義）を使ったものであり、ε_ｚ[Ｊ（ｘ，ｚ；Ｍ）]はターゲットクラスｚに関する誤差の期待値を示す。このため、補助データも利用した重み付き誤差Ｅ（Ｍ）を最小化することにより、頑健な（高精度な）モデルが推定できると期待できる。

式（３）の近似を満たす集合Ｐは、ターゲットデータに対する対数尤度Ｌ（Ｐ）をＥＭ（Expectation-Maximization）アルゴリズムを用いて最大化することにより推定する（式（６））。ＥＭアルゴリズムとは、Ｅ(Expectation)ステップとＭ(Maximization)ステップとの２つの手順を収束条件が満たされるまで繰り返すことで、パラメータ（ここでは集合Ｐ）の最尤推定を行うアルゴリズムである。

ここで、Ｐ^〜 _−ｎ（ｘ｜ｙ）は、ｎ番目のサンプルを除いたデータを用いて推定したモデル分布を表す。モデル分布の推定に用いたサンプルを用いて混合比を推定する場合、過学習を起こし、Ｐ_ｚ（ｚ）＝１、Ｐ_ｚ（ｙ≠ｚ）＝０という自明な解が得られてしまうため、式（６）のように1eave-one-out（ＬＯＯ）法を用いる。Ｐ^〜 _−ｎ（ｘ｜ｙ）をクラスｙのデータを用いて推定し固定した場合、Ｌ（Ｐ）はＰに関して上に凸であるため、解の大域的最適性が保証される。ＥＭアルゴリズムにおける第τステップでの推定値をＰ^（τ）とする。ここで、τは、ＥステップとＭステップとの２つの手順を繰り返した回数（τ＝０，１，２，…）を指す。なお、τ＝０のときには推定値の予め定められた初期値を示す。このとき、最大化すべき完全データ対数尤度の条件付き期待値Ｑ（Ｐ｜Ｐ^（τ））は、式（７）のように表すことができる。

Ｅステップにおける計算は式（８）のように表すことができる。なお、式（８）の右辺の分母におけるｙ’は、式（８）の他の箇所におけるｙと区別するために便宜上記号を変えたもので、ｙと同じ意味である。

Ｍステップにおける計算は式（９）のように表すことができる。

このＥステップにおける計算とＭステップにおける計算を、収束条件が満たされるまで繰り返すことにより、集合Ｐの推定値が得られる。

なお、ＥＭアルゴリズムではなく、準ニュートン法など他の最適化手法を用いて式（６）を最大化することによっても、集合Ｐを推定できる。

＜重み推定＞
図２を参照しながら、重み推定部２１の構成について説明する。図２は、本実施形態に係る重み推定部のブロック図を含む図である。図２に示すように、重み推定部２１は、入力データ読込部２１１と、事後確率推定部２１２と、混合比推定部２１３と、重み書込部２１４とを備えている。

まず、入力データ読込部２１１により、入力データ４４を読み込む。そして、事後確率推定部２１２によって式（８）を用いて全学習用サンプルの全時刻に対する事後確率を推定し、また、混合比推定部２１３によって式（９）を用いて混合比を推定する。この事後確率推定と混合比推定を式（６）が収束するまで交互に繰り返し、重み書込部２１４において、
重みをｗ（ｚ|ｙ）＝Ｐ（ｚ）Ｐ_ｚ（ｙ）／Ｎ（ｙ）と設定（算出）し、重み４５に格納する。なお、格納された重み４５は、モデル構築部２２で利用される。

＜モデル構築＞
図３を参照しながら、モデル構築部２２の構成について説明する。図３は、本実施形態に係るモデル構築部のブロック図を含む図である。図３に示すように、モデル構築部２２は、入力データ読込部２２１と、重み読込部２２２と、モデルパラメータ推定部２２３と、モデルパラメータ書込部２２４とを備えている。

まず、入力データ読込部２２１により、入力データ４４を読み込む。また、重み読込部２２２により、重み４５を読み込む。そして、モデルパラメータ推定部２２３によって式（１０）を用いてモデルパラメータＭ＾を推定する。

なお、式（１０）の左辺においてＭに付した記号「＾（ハット）」は、そのＭがargmin関数の引数を最小化させることを示すものである。

モデルパラメータ書込部２２４は、モデルパラメータ推定部２２３が推定したモデルパラメータをモデルパラメータ４６に格納する。なお、格納されたモデルパラメータ４６は、分類部２３で利用される。

図４を参照しながら、分類部２３の構成について説明する。図４は、本実施形態に係る分類部のブロック図を含む図である。図４に示すように、分類部２３は、テストデータ読込部２３１と、モデルパラメータ読込部２３２と、分類結果出力部２３３とを備えている。

まず、テストデータ読込部２３１により、未分類のテストデータ４７を読み込む。また、モデルパラメータ読込部２３２により、モデルパラメータ４６を読み込む。そして、分類結果出力部２３３において、テストデータとモデルパラメータを使って分類結果を計算し、分類結果を出力する。

図１に示した分類装置１の動作について図５を参照（適宜図１参照）して説明する。図５は、本実施形態に係る分類装置の処理の流れを示す説明図である。

まず、分類装置１は、重み推定部２１によって、記憶手段４（図１参照）に予め格納された入力データ４４に基づいて重みを推定する（ステップＳ１０：重み推定ステップ）。推定された重みは、重み４５として記憶手段４に格納される。次に、分類装置１は、モデル構築部２２によって、記憶手段４（図１参照）に予め格納された入力データ４４および重み４５に基づいてモデルを構築する（ステップＳ２０：モデル構築ステップ）。構築されたモデルは、モデルパラメータ４６として記憶手段４に格納される。このステップＳ１０とステップＳ２０はモデルの学習に関する処理である。

続いて、分類装置１は、分類部２３によって、記憶手段４（図１参照）に予め格納された未分類であるテストデータ４７（分類対象データ）を、モデルパラメータ４６に基づいて分類する（ステップＳ３０：分類ステップ）。このステップＳ３０は分類対象データの分類に関する処理である。

次に、前記したステップＳ１０の重み推定ステップについて図６を参照（適宜図１ないし図５参照）して説明する。図６は、重み推定ステップの処理を示すフローチャートである。

まず、図６に示すように、重み推定部２１は、入力データ読込部２１１によって、記憶手段４（図１参照）から、入力データ４４を読み込む（ステップＳ１）。次に、重み推定部２１は、事後確率推定部２１２によって、モデル分布の推定を行う（ステップＳ２）。具体的には、前記した式（２）を満たすモデル分布を推定する。

その後、重み推定部２１は、事後確率推定部２１２によって、初期化を行う（ステップＳ３）。具体的には、事後確率推定部２１２は、ＥＭアルゴリズムのＥステップとＭステップとの２つの手順の繰り返し回数τを０に設定し、混合比Ｐ_ｚ（ｙ）の分布をランダムに設定する。

次に、重み推定部２１は、事後確率推定部２１２によって、ＥＭアルゴリズムのＥステップを実行する（ステップＳ４）。具体的には、事後確率推定部２１２は、前記した式（８）により、前記事後確率を推定する。続いて、重み推定部２１は、混合比推定部２１３によって、ＥＭアルゴリズムのＭステップを実行する（ステップＳ５）。具体的には、混合比推定部２１３は、前記した式（９）により、前記混合比を推定する。次に、重み推定部２１は、混合比推定部２１３によって、収束条件が満たされたか否かを判別する（ステップＳ６）。具体的には、混合比推定部２１３は、前記した式（６）に示す尤度Ｌ（Ｐ）が収束したか否かを判別する。この収束の判別は、閾値や変化率などを使用することにより行うことができる。

収束条件が満たされた場合、すなわち前記した式（６）に示す尤度Ｌ（Ｐ）が収束した場合（ステップＳ６：Ｙｅｓ）、混合比推定部２１３は、重みｗ（ｚ|ｙ）を計算する（ステップＳ８）。具体的には、混合比推定部２１３は、
ｗ（ｚ|ｙ）＝Ｐ（ｚ）Ｐ_ｚ（ｙ）／Ｎ（ｙ）の式を用いて重みを計算する。そして、重み推定部２１は、重み書込部２１４によって、その重みを、重み４５として、記憶手段４（図１参照）に書き込み、処理を終了する。

一方、ステップＳ６において、収束条件が満たされていない場合、すなわち前記した式（６）に示す尤度Ｌ（Ｐ）が収束していない場合（ステップＳ６：Ｎｏ）、重み推定部２１は、ＥステップおよびＭステップの繰り返し回数τに「１」を加算し（τ＝τ＋１）（ステップＳ７）、ステップＳ４に戻る。

本実施形態によれば、分類装置１は、ターゲット分類体系における既分類データだけでなく、補助分類体系における既分類データも用い、誤差関数と重みとの積の総和である期待誤差（式（５）参照）を最小化させるように重みを推定し、その推定された重みと２種類の既分類データとを用いて分類モデルを生成することで、補助分類体系のデータも有効に利用し、ターゲット分類体系に関する高精度な分類モデルを生成することができる。

また、重み推定部２１が、事後確率推定部２１２と、混合比推定部２１３とを備えているので、例えば、事後確率推定部２１２が、ＥＭアルゴリズムにおけるＥステップを行い、かつ、混合比推定部２１３がＭステップを行うことで、混合比についての大域的最適解を求め、求めた混合比から重みを決定（推定）することができる。

また、例えば、モデルパラメータ推定部２２３が、式（１０）を用いてモデルパラメータを推定することができる。

また、分類部２３が、推定したモデルパラメータを用いて分類対象データをターゲット分類体系における複数のクラスのいずれかに分類する、つまり、高精度な分類モデルを用いることで高精度な分類を実現することができる。

また、分類装置１は、一般的なコンピュータに、前記した各処理のプログラムを実行させることで実現することもできる。このプログラムは、通信回線を介して配布することも可能であるし、ＣＤ−ＲＯＭ（Compact Disc-Read Only Memory）等の記録媒体に書き込んで配布することも可能である。

以上で本実施形態の説明を終えるが、本発明の態様はこれらに限定されるものではない。例えば、本発明は、任意の誤差関数およびモデルを用いることが可能である。その他、ハードウェアやフローチャート等の具体的な構成について、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

《人工データにおける実施例》
本実施形態の分類装置１を評価するため、人工データを用いた２クラス分類実験を行った。この２クラス分類実験とは、ターゲットデータと補助データから生成した分類モデルに基づき、テストデータを２つのクラスのいずれかに分類する実験である。

ターゲットデータは平均の異なる２つの１００次元正規分布からデータが生成されるものとする。ここで、クラスｃ_１、ｃ_２の平均はそれぞれ
μ_１＝（−１，０，０，・・・，０），μ_２＝（１，０，０，・・・，０）であり、共分散行列はともに単位行列であるものとする。そして、補助データとして，以下の３パターンを考える。なお、第３次元以降の平均はターゲットデータと同じく全て０、共分散行列は全て単位行列とする。図７（ａ）にターゲットデータ，図７（ｂ）〜（ｄ）に各補助データの生成モデルの第１，第２次元を示す。図７（ａ）〜（ｄ）は、特に軸や目盛りを図示していないが、２次元の座標平面を表しており、中央部分が原点である。また、各円は標準偏差のラインを表す。

図７（ｂ）に示す同一補助データは、ターゲットデータと同一の生成モデルから生成され、クラスｃ_３、ｃ_４の平均はそれぞれ
μ_３＝（−１，０，０，・・・，０），μ_４＝（１，０，０，・・・，０）である。

図７（ｃ）に示す相関補助データは、ターゲットデータとクラス間関係に相関がある生成モデルから生成され、クラスｃ_３、ｃ_４の平均はそれぞれ
μ_３＝（−√０．５，√０．５，０，・・・，０），
μ_４＝（√０．５，−√０．５，０，・・・，０）である。

図７（ｄ）に示す混合補助データは、同一補助データ、および、ターゲットデータとクラス間関係が直交する補助データの組合せ（混合）であり、クラスｃ_３、ｃ_４、ｃ_５、ｃ_６の平均はそれぞれ
μ_３＝（−１，０，０，・・・，０），μ_４＝（１，０，０，・・・，０），
μ_５＝（０，１，０，・・・，０），μ_６＝（０，−１，０，・・・，０）である。なお、補助データのうち、この混合補助データのみ４補助クラスであり、それ以外は２補助クラスである。

ターゲットデータとして各クラス２，４，８，１６，３２，６４，１２８，２５６サンプル（入力データ４４）、補助データとして各クラス２５６サンプル（入力データ４４）、テストデータとして各クラス１００サンプル（テストデータ４７）を生成した。これらに基づき、分類モデルを生成し、補助データを使わない場合（ターゲットデータのみ）と各補助データを使った場合の、テストデータの分類に関する正答率を計算した。その結果、表１のようになった。表１において、右４列の数字は平均正答率の百分率を示し、それぞれの括弧内の数字は標準偏差を示している。本実施形態の分類装置１の分類方法に基づいて補助データを使うことによって、補助データを使わない場合よりも正答率が向上していることがわかる。

《テキストデータにおける実施例》
本実施形態の分類装置１を評価するため、テキストデータを用いて分類実験を行った。

＜モデル分布＞
モデル分布Ｐ^〜（ｘ｜ｙ）として、正規分布、多項分布など任意の分布を仮定することができる。ここでは、入力データ４４およびテストデータ４７としてテキストデータを想定し、ｘを単語出現頻度ベクトルと考え、モデル分布として多項分布Ｐ^〜（ｘ_ｎ｜ｙ）（式（１１））を用いる。

ここで、Ｖは総語彙数、θ_ｙｊはクラスｙのときｊ番目の単語が出現する確率、ｘ_ｎｊはｎ番目のサンプルにおけるｊ番目の単語の出現頻度を表す。

多項分布のパラメータθ_ｙｊのｎ番目のサンプルを除いたときのＬＯＯ最尤推定値θ＾_{−ｎ，ｙｊ}は式（１２）で得られる。

ここで、ゼロ確率問題を回避するために、ＬＯＯ最尤推定値と一様分布の線形和を用いてスムージングする（式（１３））。

ここで、０≦α≦１はハイパーパラメータである。ハイパーパラメータを人手で設定してもよいが、一般化ＥＭアルゴリズムを用いることにより、以下の
Ｑ（Ｐ，α｜Ｐ^（τ），α^（τ））を最大化するように、混合比の集合Ｐとハイパーパラメータαを同時にデータから推定することも可能である（式（１４））。

Ｅステップは式（８）、Ｍステップにおける混合比の更新は式（９）で、通常のＥＭアルゴリズムと同様に実現できる。Ｍステップにおけるハイパーパラメータの更新はニュートン法を用いて行う（式（１５））。

ここで、式（１５）に記載されている式（１４）のαによる一階偏微分は式（１６）となる。

また、式（１５）に記載されている式（１４）のαによる二階偏微分は式（１７）となる。

式（１７）から明らかなように、二階偏微分は常に負になるため、
Ｑ（Ｐ，α｜Ｐ^（τ），α^（τ））はαに関して上に凸である。この実験では、一般化ＥＭアルゴリズムを用いて混合比の集合Ｐおよびハイパーパラメータαをデータから推定した。

＜分類モデル＞
代表的なテキスト分類モデルであるナイーブベイズモデルとロジスティック回帰モデルをモデルＭとして用いた場合について説明する。

（ナイーブベイズモデル）
ナイーブベイズモデルではクラスが与えられたとき、文書中の各単語は独立に生成されると仮定され、クラスｚにおける単語出現頻度ベクトルｘの分布Ｐ（ｘ｜ｚ）が多項分布で表される（式（１８））。

ここで、φ_ｚｊはクラスｚの文書におけるｊ番目の単語が出現する確率を表す。誤差関数として負の対数尤度を用い、また、φ＝｛｛φ_ｚｊ｝^Ｖ _ｊ＝１｝_ｚ∈Ｚの事前確率としてディリクレ分布Ｐ（φ）∝Π_ｚ∈ＺΠ^Ｖ _ｊ＝１φ^β _ｚｊを用いたとき、重み付き誤差関数Ｅ（Ｍ_ＮＢ）は、式（１９）のように表される。

式（１９）を最小化するφ_ｚｊの推定値φ＾_ｚｊは、式（２０）によって得られる。

（ロジスティック回帰モデル）
ロジスティック回帰モデルでは、単語出現頻度ベクトルｘが与えられたとき、クラスｚに属する確率Ｐ（ｚ｜ｘ）は式（２１）のように表される。

ここで、λ_ｚはクラスｚに関する未知パラメータベクトル、λ_ｚ ^Ｔはλ_ｚの転置を表す。誤差関数として負の対数尤度を用い、また、λ_ｚの事前確率として平均０、共分散行列γ^−１Ｉ（Ｉは単位行列）の正規分布を用いたとき、重み付き誤差（期待誤差）Ｅ（Ｍ_ＬＲ）は、式（２２）のように表される。

準ニュートン法などを用いて式（２２）の値を最小化することにより、未知パラメータベクトル｛λ_ｚ｝_ｚ∈Ｚを推定できる。ロジスティック回帰モデルを用いた場合、各サンプルの誤差関数を付加するのみであるため、これまで提案されている多くの分類モデルを若干修正するのみで適用することができる。

＜比較手法＞
分類モデルとしてナイーブベイズモデルを用いた本手法（本実施形態の分類装置１による手法）（ＣＡ−ＮＢ）と、分類モデルとしてロジスティック回帰モデルを用いた本手法（ＣＡ−ＬＲ）と、補助データを用いないナイーブベイズモデルによる手法（ＮＢ）、ロジスティック回帰モデルによる手法（ＬＲ）の４手法を比較した。ＮＢの推定値は、推定値である式（２０）の重みを
ｗ（ｚ｜ｚ）＝１，ｗ（ｚ｜ｙ≠ｚ）＝０としたものである。同様に、ＬＲの推定値は、本手法における重み付き誤差である式（２２）の重みを
ｗ（ｚ｜ｚ）＝１，ｗ（ｚ｜ｙ≠ｚ）＝０として最小化することにより得られる。

それぞれの実験において評価用データセットを１００作成し、その平均正答率を用いて評価した。また、評価用データセットとは別に１つの開発用データセットを作成し、各手法において開発用データセットの正答率を最も高くする分類モデルのハイパーパラメータ（βもしくはγ）を｛１０^−３，１０^−２，１０^−１，１｝の４候補から選択した。

＜Ｔｏｙデータ＞
20Newsgroups（20news）から作成したデータセットを用い、各補助クラスの分布が、あるターゲットクラスと同じ分布である場合の、本手法の効果を評価する。20newsは、２０のディスカッショングループに投稿された約２万の英語文書から成る。各文書の特徴量として単語出現頻度を用いた。このとき、停止語（文書に含まれる意味的な内容を持たない前置詞や冠詞などの一般的に機能語と呼ばれ検索に役立たない単語）および出現頻度が１以下の単語は省き、総語彙数は52,647であった。

２０のグループのうち、コンピュータ（comp）を親ディレクトリにもつ５つのグループ（graphics，os.ms-windows.misc，sys.ibm.pc.hardware，sys.mac.hardware，windows.x）に分類する問題について、
ターゲットクラス集合をＺ＝｛ｃ_１，・・・，ｃ_５｝、
補助クラス集合をＡ＝｛ｃ_６，・・・，ｃ_１０｝とする。

そして、graphicsの記事をターゲットクラスｃ_１もしくは補助クラスｃ_６に、os.ms-windows.miscの記事をターゲットクラスｃ_２もしくは補助クラスｃ_７に、sys.ibm.pc.hardwareの記事をターゲットクラスｃ_３もしくは補助クラスｃ_８に、sys.mac.hardwareの記事をターゲットクラスｃ_４もしくは補助クラスｃ_９に、windows.xの記事をターゲットクラスｃ_５もしくは補助クラスｃ_１０に、ランダムに割り当て、ターゲットデータおよび補助データを作成した。

このとき、テストデータとして各クラス１００サンプル、ターゲットデータとして各クラス２，４，８，１６，３２，６４，１２８，２５６サンプル、補助データとして残り全サンプル用いた。総学習サンプル数は4,363であった。このときの正答率を表２に示す。表２において、右４列の数字は平均正答率の百分率を示し、それぞれの括弧内の数字は標準偏差を示している。

本手法であるＣＡ−ＮＢ、ＣＡ−ＬＲの正答率は学習サンプル数が少ない場合でも極めて高く、補助データを適切に利用することにより、頑健な（高精度な）モデル推定ができていると言える。

＜20Newsgroupsデータ＞
20newsの２０グループのうち、comp.graphics，rec.sport.baseba11，sci.electronics，talk.religion.miscの４グループをターゲットクラスとし、他の１６グループを補助クラスとしてデータを作成し、本手法を評価した。テストデータ４７として各クラス１００サンプル、ターゲットデータ（入力データ４４）として各クラス２，４，８，１６，３２，６４，１２８，２５６サンプル、補助データ（入力データ４４）として全サンプル用いた、総補助サンプル数は15,211であった。このときの正答率を表３に示す。表３において、右４列の数字は平均正答率の百分率を示し、それぞれの括弧内の数字は標準偏差を示している。本手法であるＣＡ−ＮＢの正答率が最も高くなっている。

＜Webページデータ＞
日本語のディレクトリ型検索エンジンgoo（登録商標）カテゴリ検索（２００３年９月取得）とyahoo（登録商標）カテゴリ（２００３年３月取得）のデータを用いて本手法を評価した。形態素解析により単語を抽出し、両カテゴリで出現数が１０以上の単語を特徴量として用いた。このとき、総語彙数は43,200であった。goo（登録商標）とyahoo（登録商標）でクラスラベルが同一のクラスや、関連していると思われるクラスもあるが、明確な対応付けが難しいクラスもあり、また、クラス数も異なる（goo（登録商標）：１３クラス、yahoo（登録商標）：１４クラス）。

goo（登録商標）ディレクトリのクラスをターゲットクラスとし、テストデータ４７として各クラス１００サンプル、ターゲットデータ（入力データ４４）として各クラス２，４，８，１６，３２，６４，１２８，２５６サンプル、補助データ（入力データ４４）としてyahoo（登録商標）ディレクトリに含まれる全サンプル用いた。総補助サンプル数は51,728であった。このときの正答率を表４に示す。表４において、右４列の数字は平均正答率の百分率を示し、それぞれの括弧内の数字は標準偏差を示している。本手法であるＣＡ−ＮＲ、ＣＡ−ＬＲの正答率が総じて高くなっている。

本実施形態に係る分類装置の構成を示すブロック図である。本実施形態に係る重み推定部のブロック図を含む図である。本実施形態に係るモデル構築部のブロック図を含む図である。本実施形態に係る分類部のブロック図を含む図である。本実施形態に係る分類装置の処理の流れを示す説明図である。重み推定ステップの処理を示すフローチャートである。（ａ）はターゲットデータ、（ｂ）〜（ｄ）は各補助データの生成モデルの第１、第２次元を示す図である。

符号の説明

１分類装置
２演算手段
３入力手段
４記憶手段
５出力手段
１１バスライン
２１重み推定部
２２モデル構築部
２３分類部
２４メモリ
４０ａプログラム格納部
４１重み推定プログラム
４２モデル構築プログラム
４３分類プログラム
４０ｂデータ格納部
４４入力データ
４５重み
４６モデルパラメータ
４７テストデータ
２１１入力データ読込部
２１２事後確率推定部
２１３混合比推定部
２１４重み書込部
２２１入力データ読込部
２２２重み読込部
２２３モデルパラメータ推定部
２２４モデルパラメータ書込部
２３１テストデータ読込部
２３２モデルパラメータ読込部
２３３分類結果出力部

Claims

分類対象データを分類する分類体系であるターゲット分類体系においてすでに分類されている１つ以上の既分類データと、前記ターゲット分類体系とは異なる分類体系である補助分類体系においてすでに分類されている１つ以上の既分類データと、を用いて学習を行うことで、前記分類対象データを前記ターゲット分類体系における複数のクラスのいずれかに分類するための分類モデルを生成する分類モデル生成装置であって、
情報を記憶する記憶手段と、
前記した２種類の既分類データにおける個別の各既分類データを前記ターゲット分類体系のいずれかのクラスに分類したと予測したときの前記分類モデルの誤差関数と、当該予測をしたときの前記した２種類の既分類データにおける個別の各既分類データの前記分類モデルへの影響度を示す各重みと、を用いて、前記した２種類の既分類データにおける個別の既分類データごとの前記誤差関数の値と前記重みとの積の総和である期待誤差を最小化させるように、前記重みを推定して、当該重みを前記記憶手段に格納する重み推定部と、
前記記憶手段に格納された重みと、前記した２種類の既分類データと、を用いて、前記分類モデルを生成するモデル構築部と、
を備えることを特徴とする分類モデル生成装置。
前記重み推定部は、
前記ターゲット分類体系と前記補助分類体系とを統合した場合の確率分布モデルを、前記ターゲット分類体系の確率分布モデルに近似させるための、前記ターゲット分類体系と前記補助分類体系とのクラスごとの前記分類モデルへの影響度の比率を示す混合比を用いて、前記した２種類の既分類データに関する事後確率を推定して、当該事後確率を前記記憶手段に格納する事後確率推定部と、
前記記憶手段に格納された事後確率を用いて、前記ターゲット分類体系の既分類データに対する尤度を最大化するように、前記混合比を推定し、前記尤度が最大化されたときの前記混合比から前記重みを推定して、当該重みを前記記憶手段に格納する混合比推定部と、
を備えることを特徴とする請求項１に記載の分類モデル生成装置。
前記モデル構築部は、
前記記憶手段に格納された重みと、前記した２種類の既分類データと、を用いて、前記分類モデルにおいて前記分類対象データを前記ターゲット分類体系に分類するためのモデルパラメータを推定して、当該モデルパラメータを前記記憶手段に格納するモデルパラメータ推定部
を備えることを特徴とする請求項１に記載の分類モデル生成装置。
請求項３に記載の分類モデル生成装置の前記記憶手段に格納されたモデルパラメータを用いて、前記分類対象データを前記ターゲット分類体系における複数のクラスのいずれかに分類する分類部
を備えることを特徴とする分類装置。
分類対象データを分類する分類体系であるターゲット分類体系においてすでに分類されている１つ以上の既分類データと、前記ターゲット分類体系とは異なる分類体系である補助分類体系においてすでに分類されている１つ以上の既分類データと、を用いて学習を行うことで、前記分類対象データを前記ターゲット分類体系における複数のクラスのいずれかに分類するための分類モデルを生成する分類モデル生成装置による分類モデル生成方法であって、
前記分類モデル生成装置は、情報を記憶する記憶手段と、重み推定部と、モデル構築部と、を備えており、
前記重み推定部は、前記した２種類の既分類データにおける個別の各既分類データを前記ターゲット分類体系のいずれかのクラスに分類したと予測したときの前記分類モデルの誤差関数と、当該予測をしたときの前記した２種類の既分類データにおける個別の各既分類データの前記分類モデルへの影響度を示す各重みと、を用いて、前記した２種類の既分類データにおける個別の既分類データごとの前記誤差関数の値と前記重みとの積の総和である期待誤差を最小化させるように、前記重みを推定して、当該重みを前記記憶手段に格納する重み推定ステップを実行し、
前記モデル構築部は、前記記憶手段に格納された重みと、前記した２種類の既分類データと、を用いて、前記分類モデルを生成するモデル構築ステップを実行する
ことを特徴とする分類モデル生成方法。
前記重み推定部は、事後確率推定部と、混合比推定部と、を備えており、
前記重み推定ステップにおいて、
前記事後確率推定部は、前記ターゲット分類体系と前記補助分類体系とを統合した場合の確率分布モデルを、前記ターゲット分類体系の確率分布モデルに近似させるための、前記ターゲット分類体系と前記補助分類体系とのクラスごとの前記分類モデルへの影響度の比率を示す混合比を用いて、前記した２種類の既分類データに関する事後確率を推定して、当該事後確率を前記記憶手段に格納し、
前記混合比推定部は、前記記憶手段に格納された事後確率を用いて、前記ターゲット分類体系の既分類データに対する尤度を最大化するように、前記混合比を推定し、前記尤度が最大化されたときの前記混合比から前記重みを推定して、当該重みを前記記憶手段に格納する
ことを特徴とする請求項５に記載の分類モデル生成方法。
前記モデル構築部は、モデルパラメータ推定部を備えており、
前記モデル構築ステップにおいて、
前記モデルパラメータ推定部は、前記記憶手段に格納された重みと、前記した２種類の既分類データと、を用いて、前記分類モデルにおいて前記分類対象データを前記ターゲット分類体系に分類するためのモデルパラメータを推定して、当該モデルパラメータを前記記憶手段に格納する
ことを特徴とする請求項５に記載の分類モデル生成方法。
請求項７に記載の分類モデル生成方法によって前記記憶手段に格納されたモデルパラメータを用いて、
前記分類対象データを分類する分類装置における分類部は、
前記分類対象データを前記ターゲット分類体系における複数のクラスのいずれかに分類するステップを実行する
ことを特徴とする分類方法。
コンピュータを請求項１から請求項３のいずれか一項に記載の分類モデル生成装置の各部として機能させるための分類モデル生成プログラム。
コンピュータを請求項４に記載の分類装置の分類部として機能させるための分類プログラム。
請求項９に記載の分類モデル生成プログラム、または、請求項１０に記載の分類プログラムが記録されたことを特徴とするコンピュータに読み取り可能な記録媒体。