JP2002133389A

JP2002133389A - データ分類学習方法、データ分類方法、データ分類学習器、データ分類器、データ分類学習プログラムを記録した記憶媒体、データ分類プログラムを記録した記録媒体

Info

Publication number: JP2002133389A
Application number: JP2000327153A
Authority: JP
Inventors: Hiroyori Taira; 博順平
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2000-10-26
Filing date: 2000-10-26
Publication date: 2002-05-10

Abstract

(57)【要約】【課題】訓練データの数が少ない場合にもテストデー
タに対するデータ分類の精度を向上させる。【解決手段】分類クラスが付与されたデータの数が０
または訓練データにおける正例の比率が分類クラスが付
与されたテストデータ中の正例の比率を上回っていれ
ば、分類クラスが付与されていないテストデータ中で強
分類器による評価値が最大のテストデータの分類クラス
に正例を代入し、上回っていなければ、分類クラスが付
与されていないテストデータ中で強分類器による評価が
最小のテストデータの分類クラスに負例を代入する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はデータ分類学習方法
およびデータ分類方法、装置、およびデータ分類学習プ
ログラム、データ分類プログラムを記録した記録媒体に
関する。

【０００２】

【従来の技術】従来の、訓練データのみを分類法のブー
スティング学習で用いるデータ分類についてブースティ
ング学習の例としてAdaBoostアルゴリズムを取り上げな
がら図５により述べる（参考文献：ブースティング入
門、人工知能学会誌、Vol. 14, No. 5, pp. 771-780, 1
999)。

【０００３】正しい例である正例と誤った例である負例
の２つの分類クラスのいずれかに属すl個の訓練データ
のベクトルの集合を、

【０００４】

【外１】とする。ここで、

【０００５】

【外２】はデータiの特徴ベクトルで、n次元のベクトルである。
またy_iはデータｉに対する分類クラスを表し、正例の場
合＋１、負例の場合−１の値をとる変数である。データ
分類では、データ中に出現する特徴w_k（ただし、kは１
＜k＜nの整数）がテキスト中に出現する場合にはw_k＝
１、出現しない場合にはw_k＝０として、データをベクト
ル

【０００６】

【外３】で表す。データがあるカテゴリに含まれる場合を正例、
含まれない場合を負例として、正例と負例を分類する分
類器を、

【０００７】

【外４】のl個の訓練データを学習することによって分類誤りが
少なくなるように構成する。分類器の構成は以下の手順
で行う。

【０００８】（ステップ４１）m個の訓練データ

【０００９】

【外５】が入力として与えられる。ここで、

【００１０】

【外６】は特徴ベクトル、y₁, ・・・・, y_mは各々

【００１１】

【外７】に対する分類クラスで、正例のとき＋１、負例のとき−
１とする。また、各訓練データに対する重みの初期値と
してD₁(i)＝１／mを与える。ただし、ｉ＝１，・・・・
mとする。

【００１２】（ステップ４２）重みD_tにしたがって訓練
データを学習し、

【００１３】

【外８】に対して正例と判定するときは＋１、負例とするときは
−１を出力する弱分類器

【００１４】

【外９】を得る。

【００１５】（ステップ４３）パラメータα_tを計算す
る。AdaBoostアルゴリズムの場合、

【００１６】

【数１】を計算する。ここで、

【００１７】

【外１０】は重み付き誤分類率で

【００１８】

【数２】で計算される。

【００１９】（ステップ４４）各訓練データの重みを更
新する。AdaBoostアルゴリズムの場合、次式によって各
訓練データの重みを更新する。

【００２０】

【数３】（ステップ４５）各ラウンドt=1, ・・・・,Tに対し、
以上のステップ４２からステップ４４を繰り返す（ステップ４６）最後に、以下の線形和で最終的な分類
器（強分類器と呼ぶ）を得る。

【００２１】

【数４】以上のようにブースティング学習では各ラウンドで１つ
ずつ弱分類器を学習・生成するとともに、訓練データに
対する重みの更新を行う。最後に、ステップ４６でパラ
メータα_tを係数として弱分類器の線形和をとり、最終
的な分類器（強分類器）を得る。

【００２２】こうして学習された分類器

【００２３】

【外１１】を用いてクラスが未知のm個のテストデータ

【００２４】

【外１２】ついて分類を行う。

【００２５】

【発明が解決しようとする課題】訓練データのみを学習
に用いた従来のブースティング学習によるデータ分類で
は、訓練データの数が十分に大きく、訓練データとテス
トデータが同じ分布からサンプリングされたデータであ
ることを仮定し、訓練データのみを用いて分類法を学習
して構成された分類器でテストデータの分類を行ってい
た。しかしながら、訓練データの数が小さい場合には、
訓練データとテストデータが同じ分布からサンプリング
されたデータであるという仮定が成立しなくなり、訓練
データの分布には適合しているがテストデータの分布に
は十分適合していない分類器が構成され、テストデータ
に対する分類精度が低くなる原因の一つになっていた。

【００２６】本発明の目的は、訓練データのみならずテ
ストデータの分布も考慮してテストデータの分布にあっ
た分類器をブースティング学習で構成し、テストデータ
の分類精度を高くしたデータ分類学習方法および器、デ
ータ分類方法および器、データ分類学習プログラムおよ
びデータ分類プログラムを記録した記録媒体を提供する
ことにある。

【００２７】

【課題を解決するための手段】上記目的を達成するため
に、本発明は、分類クラスが未知のテストデータに対
し、これまで学習された弱分類器を結合した強分類器に
よって評価値を得たものの中で負例を付与する場合には
最小の評価値、正例を付与する場合に最大の評価値をと
るデータに分類クラスを与え、クラスの判定されたテス
トデータも用いて分類法を学習する。また、正例と負例
が訓練データの正例と負例の比率と同じになるように分
類クラスを付与する。

【００２８】以下の手順を繰り返す（図１）。

【００２９】（ステップ１）m個の訓練データ

【００３０】

【外１３】が入力として与えられる。ここで、

【００３１】

【外１４】は特徴ベクトル、y₁, ・・・・, y_mは各々

【００３２】

【外１５】に対する分類クラスで、正例のとき＋１、負例のとき−
１とする。また、各訓練データに対する重みの初期値と
してD₁(i)＝１／mを与える。ただし、ｉ＝１，・・・・
mとする。

【００３３】（ステップ２）入力としてn個のテストデ
ータ

【００３４】

【外１６】が与えられる。ここで、

【００３５】

【外１７】は特徴ベクトル、y_m+1, ・・・, y_m+nは各々

【００３６】

【外１８】に対する分類クラスで、初期値として０を与える。各テ
ストデータに対する重みの初期値としてD₁(j) ＝０（j
＝m+1,・・・,m+n)を与える。

【００３７】（ステップ３）重みD_tにしたがって分類ク
ラスが付与されている（y_i≠０）データを学習し、

【００３８】

【外１９】に対して正例と判定するときは＋１、負例とするときは
−１を出力する弱分類器

【００３９】

【外２０】を得る。

【００４０】（ステップ４）パラメータα_tを計算す
る。AdaBoostアルゴリズムの場合は、パラメータ

【００４１】

【数５】を計算する。ここで、

【００４２】

【外２１】は重み付き誤分類率で

【００４３】

【数６】で計算される。

【００４４】（ステップ５）各データの重みを更新す
る。AdaBoostアルゴリズムの場合は、次式によって各デ
ータの重みを更新する。

【００４５】

【数７】（ステップ６〜８）

【００４６】

【外２２】を訓練データ中の正例の数、

【００４７】

【外２３】を既に分類クラスが付与されているテストデータの数、

【００４８】

【外２４】を分類クラスとして正例が付与されたテストデータ数と
するとき、

【００４９】

【数８】が最大値をとるテストデータjに対してyｊ＝＋１および
Dｔ＋１(j)＝ε（εは小さい値で例えばε＝０.０１）
を与える。また、このとき分類クラスを付与するデータ
以外で既に分類クラスが付与されていたデータの重みを

【００５０】

【数９】の式で更新する。ここで、

【００５１】

【外２５】はj以外の重みの和を１−εにするための正規化定数で
ある。

【００５２】

【数１０】が最小値をとるテストデータjに対してｙｊ＝−１およ
びDｔ＋１(j)＝εを与える。また、このとき分類クラス
を付与するデータ以外で既に分類クラスが付与されてい
たデータの重みを

【００５３】

【数１１】の式で更新する。ここで、

【００５４】

【外２６】はj以外の重みの和を１−εにするための正規化定数で
ある。

【００５５】（ステップ９）各ラウンドt = 1, ・・・
・,Tに対し、以上のステップ３からステップ８を繰り返
す。

【００５６】（ステップ１０）最後に以下の線形和で最
終的な分類器（強分類器）を得る。

【００５７】

【数１２】それまでのステップで学習されている弱分類器を組み合
わせて作った強分類器による評価に基づいて学習を行う
ことで分類クラスが予め与えられていないテストデータ
にも分類クラスを付与し、分類クラスの付与されたテス
トデータも含めて分類法の学習を行いデータ分類器を構
成し、構成されたデータ分類器を用いてデータ分類を行
うことで、訓練データの数が小さい場合にもテストデー
タに対するデータ分類の精度が向上する。

【００５８】

【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。

【００５９】図２を参照すると、本発明の一実施形態の
データ分類器はデータ入力部２１と評価部２２とデータ
記憶部２３と分類クラス更新部２４と学習部２５と分類
判定部２６と出力部２７で構成されている。

【００６０】データ入力部２１は訓練データとテストデ
ータを入力し、データ記憶部２３に記憶する。学習部２
５は訓練データおよび分類クラスが付与されたテストデ
ータを用いて分類法の学習を行い、分類器を構成する。
評価部２２は分類クラスの付与されていないテストデー
タについて強分類器

【００６１】

【外２７】による評価値を求め、これをデータ記憶部２３に記憶す
るとともに、分類クラス更新部２４が正例を付与する場
合には最大の、負例を付与する場合には最小の、評価値
を与える分類クラスの付与されていないテストデータへ
分類クラスを付与する。分類判定部２６は、学習部２５
で構成された分類器を用い、入力された分類対象を正例
／負例のいずれかのカテゴリに分類する。出力部２７は
分類結果を出力する。

【００６２】本実施形態の動作を以下のような５個の訓
練データ

【００６３】

【外２８】と５個のテストデータ

【００６４】

【外２９】を用いて詳しく説明する。なお、

【００６５】

【外３０】は１０次元の特徴ベクトル、y₁, ・・・・、y₁₀は各々

【００６６】

【外３１】に対応する分類クラスを表す。これらのデータはデータ
入力部１１から入力され、データ記憶部２３に記憶され
る（ステップ１、２）。

【００６７】 x₁＝（0, 1, 1, 1, 0, 0, 0, 0, 0, 0), y₁＝＋１, x₂＝（1, 1, 1, 0, 0, 0, 0, 0, 0, 0), y₂＝＋１, x₃＝（1, 1, 0, 0, 0, 0, 0, 0, 0, 0), y₃＝＋１, x₄＝（0, 0, 0, 0, 0, 0, 0, 0, 1, 1), y₄＝−１, x₅＝（0, 0, 0, 0, 0, 0, 1, 1, 0, 1), y₅＝−１, x₆＝（0, 1, 1, 1, 1, 0, 0, 0, 0, 0) x₇＝（0, 1, 0, 1, 1, 1, 0, 0, 0, 0) x₈＝（1, 0, 1, 0, 0, 0, 0, 0, 0, 0) x₉＝（0, 0, 0, 0, 0, 1, 1, 1, 1, 0) x₁₀＝（0, 0, 0, 0, 0, 1, 1, 1, 0, 1) 学習部２５は５個の訓練データおよび分類クラスが付与
されたテストデータを用いて学習し、分類器を構成する
（ステップ３〜６）。１回目の学習、すなわちｔ＝１の
とき、テストデータには分類クラスが付与されていない
ため、x₁, ・・・, x₅だけで学習が行われる。このとき
の状態は表１のようになっている。

【００６８】

【表１】ここで、yは訓練データの場合には真の分類クラスを、
テストデータの場合は本発明の装置で推定され付与され
た分類クラスを表す。初期状態では、テストデータの正
解クラスはまだ推定されておらず、全て０とする。ま
た、ここで分類器が判定したクラスとは、分類クラスの
分かっているデータを使って学習した結果できた分類器
でデータを分類したときに判定された分類クラスであ
る。ここで、ε₁およびα₁を計算する。ｙの値が０でな
いもので、弱分類器の評価がｙの値と異なるデータはｘ
₁とｘ₅なので ε₁＝０．２＋０．２＝０．４、 α₁＝（１／２）ｌｎ（０．６／０．４）＝０．２０２
７となる。

【００６９】次に、テストデータにはどれも分類クラス
がまだ付与されていないので、x₆〜x₁₀の中から分類ク
ラスを付与する候補を見つける。また、

【００７０】

【外３２】なので、分類クラスは正例を与える（ステップ７）。強
分類器による評価で最大値のものはx₈であるので、x₈に
分類クラスy₈ ＝＋１を付与する。これを正解の分類ク
ラスとみなす。重みは０.０１が与えられる。

【００７１】２回目の学習、すなわちｔ＝２のとき、分
類クラスの付与されたx₈のデータも含めて学習を行う。
ここで、ε₂およびα₂を計算する。ｙの値が０でないも
ので、弱分類器の評価がｙの値と異なるデータはｘ₈な
ので ε₂＝０．０１ α₂＝（１／２）ｌｎ（０．９９／０．０１）＝２．２
９７５となる。

【００７２】

【数１３】なので、分類クラスは負例を与える（ステップ８）。分
類クラスの付与されていないデータの中で強分類器によ
る評価で最小値のものはx₉, x₁₀なので、ここではx₉に
分類クラスy₉＝−１を付与する。これを正解の分類クラ
スとみなす。重みは０.０１が与えられる（表２）。

【表２】

【００７３】３回目の学習、すなわちｔ＝３のとき、分
類クラスの付与されたx₈, x₉のデータも含めて学習を行
う。ここで、ε₃およびα₃を計算する。ｙの値が０でな
いもので、弱分類器の評価がｙの値と異なるデータはｘ
₉なので、 ε₃＝０．０１ α₃＝（１／２）ｌｎ（０．９９／０．０１）＝２．２
９７５

【００７４】

【数１４】なので、分類クラスは正例を与える（ステップ７）。分
類クラスの付与されていないデータの中で強分類器によ
る評価で最大値のものはx₆, x₇なので、ここでは、x₆に
分類クラスy₆＝＋１を付与する。これを正解の分類クラ
スとみなす。重みは０.０１が与えられる（表３）。

【００７５】

【表３】４回目の学習、すなわちｔ＝４のとき、分類クラスの付
与されたx₆, x₈, x₉のデータも含めて学習を行う。ここ
で、ε₄およびα₄を計算する。ｙの値がでないもので、
弱分類器の評価がｙと異なるデータはｘ₂、ｘ₃、ｘ₈な
ので、 ε₄＝０．１３８５＋０．１３８５＋０．０７５６５＝
０．３５２６ α₄＝（１／２）ｌｎ（０．６４７４／０．３５２６）
＝０．５２１２

【００７６】

【数１５】なので、分類クラスは負例を与える（ステップ８）。分
類クラスの付与されていないデータの中で強分類器によ
る評価で最小値のものはx₁₀なので、ここでは、x ₁₀に分
類クラスy₁₀＝−１を付与する。これを正解の分類クラ
スとみなす。重みは０.０１が与えられる（表４）。

【００７７】

【表４】５回目の学習、すなわちｔ＝５のとき、分類クラスの付
与されたx₆, x₇, x₉,x₁₀のデータも訓練データとみなし
て学習を行う。ここで、ε₅およびα₅を計算する。ｙの
値が０でないもので、弱分類器の評価がｙの値と異なる
データはｘ₄なので ε₅＝０．１０５９ α₅＝（１／２）ｌｎ（０．８９４１／０．１０５９）
＝１．０６６６となる。

【００７８】

【数１６】なので、分類クラスは正例を与える（ステップ７）。分
類クラスの付与されていないデータの中で強分類器によ
る評価で最大値のものはx₇なので、x₇に分類クラスy₇
＝＋１を付与する。これを正解の分類クラスとみなす。
重みは０.０１が与えられる（表５）。

【００７９】

【表５】こうして１回の学習につき１個のテストデータに分類ク
ラスを付与することで、分類器は緩やかにテストデータ
の分布にあったものに変わっていく。

【００８０】この後、出力部２７で分類結果を出力する
（ステップ１１）。

【００８１】次に、本実施形態の効果を、訓練データお
よびテストデータに、RWCPテキストコーパス（参考文
献：豊浦潤、徳永健伸、井佐原均、岡隆一。RWCにおけ
る分類コード付きテキストデータベースの開発。情報処
理学会研究報告NLC96-13.IEICE, 1996. 参照）を用いて
説明する。本コーパスは、１９９４年版の毎日新聞の約
３万件の記事に、国際十進分類法に基づくUDCコード
（参考文献：情報科学技術協会. 国際十進分類法. 丸
善、１９９４。参照）を付与したものである。これらの
記事の中から頻度の高い１０種類の分類コード（スポー
ツ、刑法、政府、教育、交通、軍事、国際関連、言語活
動、演劇、作物）が付与されたデータ２０００記事を選
び、１０００記事を訓練データ、残りの１０００記事を
テストデータ、つまり分類対象データとした。テストデ
ータ数を表６に示す。

【００８２】

【表６】これらの記事に対して形態素解析を行った後、一つの記
事の中に特定の単語が出現するか否かを記事の特徴とみ
なし１０００次元の特徴ベクトルを構成した。

【００８３】分類器は上記の１０種類の分類に対応して
１０台の分類器を構成する。例えば、スポーツに関する
分類器においてはスポーツの分類コードが付与されたデ
ータを正例、付与されていないデータを負例とし、テス
トデータに対して正例／負例のいずれかのカテゴリに入
るかを判定する装置である。よって、変数yiも分類装置
毎に設定する。なお、図２は１０台の分類器のうちの１
台が示してあるが、他の９台も同じ構成である。ブース
ティング学習アルゴリズムとしてはAdaBoostアルゴリズ
ム（参考文献：Y. Freunt, R. E. Schapire. A decisi
on-theoretic generalization of on-line learning an
d an application to boosting. Journal of Computer
and Sysytem Sciences, 55(1), pp.119-139, 1997.参
照）を用いたが、他のブースティング学習アルゴリズム
を用いてもよい。

【００８４】分類精度を評価するために、適合率、再現
率、F値（参考文献：B. M. Sundheim. Overview of th
e Fourth Message Understanding Evaluation and Conf
erence. Proceedings of Fourth Message Understandin
g Conference, pp.3-29, 1992. 参照）を用いた。各分
類毎に、分類モデルと正解の正例と負例の数から、正解
が正例で分類モデルも正例と判断した数aと正解が負例
で分類モデルも正例と判断した数bと正解が正例で分類
モデルも負例と判断した数cとを考える。すると、適合
率P、再現率Rは、次のように定義される。

【００８５】

【数１７】また、F値は適合率、再現率より、

【００８６】

【数１８】で表される。ここで、βは重みづけパラメータで本実施
形態ではβ＝１とした。

【００８７】本発明の場合と従来手法を比較した結果を
表７に示す。なお、訓練データ数を前述の１０００記事
から無作為に選んだ１００、テストデータを前述の１０
００記事と同じ１０００とした。F値は０から１までの
値をとり１に近いほど精度が高いので、１０カテゴリの
うち９カテゴリでテストデータの分布も用いた方が分類
精度が高く、本発明がデータ分類の精度をあげるのに有
効であることが分かる。

【００８８】

【表７】図４は本発明の他の実施形態のデータ分類器の構成図で
ある。

【００８９】入力装置３１はキーボードなどで、図２中
のデータ入力部２１に相当する。記憶装置３２は図２中
のデータ記憶部２３に相当する。３３はハードディスク
である。出力装置３４はプリンタまたはディスプレイ
で、図２の出力部２７に相当する。記録媒体３５は、図
２中の評価部２２、分類クラス更新部２４、学習部２
５、分類判定部２６の各部からなるデータ分類プログラ
ムが記録されているフロッピィ・ディスク、CD−ROM、
光磁気ディスクなどである。データ処理装置３６はCP
U、各インタフェースを含む記録媒体３５からデータ分
類プログラムを読み込んで実行する。

【００９０】なお、図２のデータ分類学習方法も同様に
してパソコンなどのコンピュータ上で実施できる。

【００９１】

【発明の効果】以上説明したように、本発明によれば、
訓練データの数が小さい場合にもテストデータに対する
データ分類の精度が向上するという効果がある。

【図面の簡単な説明】

【図１】本発明のデータ分類学習方法の処理の流れ図で
ある。

【図２】本発明の一実施形態のデータ分類器の構成図で
ある。

【図３】図１のデータ分類器の処理の流れ図である。

【図４】本発明の他の実施形態のデータ分類器の流れ図
である。

【図５】従来のデータ分類学習方法の処理の流れ図であ
る。

【符号の説明】

１〜１１ステップ２１データ入力部２２評価部２３データ記憶部２４分類クラス更新部２５学習部２６分類判定部２７出力部３１入力装置３２、３３記憶装置３４出力装置３５記録媒体３６データ処理装置４１〜４６ステップ

Claims

【特許請求の範囲】

【請求項１】特徴ベクトルと、該特徴ベクトルの分類
クラスの組からなるｍ個（ｍは１以上の整数）の訓練デ
ータを入力するとともに、各訓練データに対する重みの
初期値を与える第１のステップと、特徴ベクトルと、未だ与えられていない、該特徴ベクト
ルの分類クラスの組からなるｎ個（ｎは１以上の整数）
のテストデータを入力するとともに、各テストデータに
対する重みの初期値を与える第２のステップと、重みにしたがって訓練データを学習し、弱分類器を得る
第３のステップと、パラメータを計算する第４のステップと、各データの重みを更新する第５のステップと、既に分類クラスが付与されているテストデータの数がゼ
ロまたは訓練データ中の正例の数／訓練データの総数＞
分類クラスとして正例が付与されたテストデータの数／
既に分類クラスが付与されているテストデータの数のと
き、分類クラス付与されていないテストデータの中で、
それまで学習されている弱分類器を組み合せた強分類器
による評価値が最大のテストデータに分類クラスとして
正例を与えるとともに、該テストデータ以外で既に分類
クラスが付与されているデータの重みを更新し、既に分
類クラスが付与されているテストデータの数がゼロでな
く、かつ訓練データ中の正例の数／訓練データの総数＜
分類クラスとして正例が付与されたテストデータの数／
既に分類クラスが付与されているテストデータの数のと
き、分類クラスが与えられていないテストデータの中
で、それまで学習されている弱分類器を組合わせた強分
類器による評価値が最小のテストデータに分類クラスと
して負例を与え、該テストデータ以外で既に分類クラス
が付与されているテストデータの重みを更新する第６の
ステップと、第３から第６のステップを一定回数繰り返した後、前記
パラメータを用いて最終的な強分類器を得る第７のステ
ップを有するデータ分類学習方法。
【請求項２】特徴ベクトルと、該特徴ベクトルの分類
クラスの組からなるｍ個（ｍは１以上の整数）の訓練デ
ータを入力するとともに、各訓練データに対する重みの
初期値を与える第１のステップと、特徴ベクトルと、未だ与えられていない、該特徴ベクト
ルの分類クラスの組からなるｎ個（ｎは１以上の整数）
のテストデータを入力するとともに、各テストデータに
対する重みの初期値を与える第２のステップと、重みにしたがって訓練データを学習し、弱分類器を得る
第３のステップと、パラメータを計算する第４のステップと、各データの重みを更新する第５のステップと、既に分類クラスが付与されているテストデータの数がゼ
ロまたは訓練データ中の正例の数／訓練データの総数＞
分類クラスとして正例が付与されたテストデータの数／
既に分類クラスが付与されているテストデータの数のと
き、分類クラスが付与されていないテストデータの中
で、それまで学習されている弱分類器を組み合せた強分
類器による評価値が最大のテストデータに分類クラスと
して正例を与えるとともに、該テストデータ以外で既に
分類クラスが付与されているデータの重みを更新し、既
に分類クラスが付与されているテストデータの数がゼロ
でなく、かつ訓練データ中の正例の数／訓練データの総
数＜分類クラスとして正例が付与されたテストデータの
数／既に分類クラスが付与されているテストデータの数
のとき、分類クラスが与えられていないテストデータの
中で、それまで学習されている弱分類器を組合わせた強
分類器による評価値が最小のテストデータに分類クラス
として負例を与え、該テストデータ以外で既に分類クラ
スが付与されているテストデータの重みを更新する第６
のステップと、第３から第６のステップを一定回数繰り返した後、前記
パラメータを用いて最終的な強分類器を得る第７のステ
ップと、各テストデータを、正例、負例のいずれかのカテゴリに
分類するステップと、分類結果を出力するステップを有するデータ分類方法。
【請求項３】特徴ベクトルと該特徴ベクトルの分類ク
ラスの組からなるｍ個（ｍは１以上の整数）の訓練デー
タ、特徴ベクトルと、未だ与えられていない、該特徴ベ
クトルの分類クラスの組からなるｎ個のテストデータを
入力する手段と、前記訓練データと前記テストデータを記憶する手段と、前記各訓練データおよび各テストデータに対して重みの
初期値を与える手段と、重みにしたがって分類クラスが付与されているデータを
学習し、弱分類器を得、パラメータを計算し、各データ
の重みを更新し、既に分類クラスが付与されているテス
トデータの数がゼロまたは訓練データ中の正例の数／訓
練データの総数＞分類クラスとして正例が付与されたテ
ストデータの数／既に分類クラスが付与されているテス
トデータの数のとき、分類クラスが付与されていないテ
ストデータの中で、それまで学習されている弱分類器を
組み合せた強分類器による評価値が最大のテストデータ
に分類クラスとして正例を与えるとともに、該テストデ
ータ以外で既に分類クラスが付与されているデータの重
みを更新し、既に分類クラスが付与されているテストデ
ータの数がゼロでなく、かつ訓練データ中の正例の数／
訓練データの総数＜分類クラスとして正例が付与された
テストデータの数／既に分類クラスが付与されているテ
ストデータの数のとき、分類クラスが与えられていない
テストデータの中で、それまで学習されている弱分類器
を組合わせた強分類器による評価値が最小のテストデー
タに分類クラスとして負例を与え、該テストデータ以外
で既に分類クラスが付与されているテストデータの重み
を更新することを一定回数繰り返した後、前記パラメー
タを用いて最終的な強分類器を得る手段を有するデータ
分類学習装置。
【請求項４】特徴ベクトルと該特徴ベクトルの分類ク
ラスの組からなるｍ個（ｍは１以上の整数）の訓練デー
タ、特徴ベクトルと、未だ与えられていない、該特徴ベ
クトルの分類クラスの組からなるｎ個のテストデータを
入力する手段と、前記訓練データと前記テストデータを記憶する手段と、前記各訓練データおよび各テストデータに対して重みの
初期値を与える手段と、重みにしたがって分類クラスが付与されているデータを
学習し、弱分類器を得、パラメータを計算し、各データ
の重みを更新し、既に分類クラスが付与されているテス
トデータ中の数がゼロまたは訓練データの正例の数／訓
練データの総数＞分類クラスとして正例が付与されたテ
ストデータの数／既に分類クラスが付与されているテス
トデータの数のとき、分類クラスが付与されていないテ
ストデータの中で、それまで学習されている弱分類器を
組み合せた強分類器による評価値が最大のテストデータ
に分類クラスとして正例を与えるとともに、該テストデ
ータ以外で既に分類クラスが付与されているデータの重
みを更新し、既に分類クラスが付与されているテストデ
ータの数がゼロでなく、かつ訓練データ中の正例の数／
訓練データの総数＜分類クラスとして正例が付与された
テストデータの数／既に分類クラスが付与されているテ
ストデータの数のとき、分類クラスが与えられていない
テストデータの中で、それまで学習されている弱分類器
を組合わせた強分類器による評価値が最小のテストデー
タに分類クラスとして負例を与え、該テストデータ以外
で既に分類クラスが付与されているテストデータの重み
を更新することを一定回数繰り返した後、前記パラメー
タを用いて最終的な強分類器を得る手段と、各テストデータを正例、負例のいずれかのカテゴリに分
類する手段と、分類結果を出力する手段を有するデータ分類装置。
【請求項５】特徴ベクトルと、該特徴ベクトルの分類
クラスの組からなるｍ個（ｍは１以上の整数）の訓練デ
ータを入力するとともに、各訓練データに対する重みの
初期値を与える第１の手順と、特徴ベクトルと、未だ与えられていない、該特徴ベクト
ルの分類クラスの組からなるｎ個（ｎは１以上の整数）
のテストデータを入力するとともに、各テストデータに
対する重みの初期値を与える第２の手順と、重みにしたがって訓練データを学習し、弱分類器を得る
第３の手順と、パラメータを計算する第４の手順と、各データの重みを更新する第５の手順と、既に分類クラスが付与されているテストデータの数がゼ
ロまたは訓練データ中の正例の数／訓練データの総数＞
分類クラスとして正例が付与されたテストデータの数／
既に分類クラスが付与されているテストデータの数のと
き、分類クラスが付与されていないテストデータの中
で、それまで学習されている弱分類器を組み合せた強分
類器による評価値が最大のテストデータに分類クラスと
して正例を与えるとともに、該テストデータ以外で既に
分類クラスが付与されているデータの重みを更新し、既
に分類クラスが付与されているテストデータの数がゼロ
でなく、かつ訓練データ中の正例の数／訓練データの総
数＜分類クラスとして正例が付与されたテストデータの
数／既に分類クラスが付与されているテストデータの数
のとき、分類クラスが与えられていないテストデータの
中で、それまで学習されている弱分類器を組合せた強分
類器による評価値が最小のテストデータに分類クラスと
して負例を与え、該テストデータ以外で既に分類クラス
が付与されているテストデータの重みを更新する第６の
手順と、第３から第６の手順を一定回数繰り返した後、前記パラ
メータを用いて最終的な強分類器を得る第７の手順をコ
ンピュータに実行させるためのデータ分類学習プログラ
ムを記録した記録媒体。
【請求項６】特徴ベクトルと、該特徴ベクトルの分類
クラスの組からなるｍ個（ｍは１以上の整数）の訓練デ
ータを入力するとともに、各訓練データに対する重みの
初期値を与える第１の手順と、特徴ベクトルと、未だ与えられていない、該特徴ベクト
ルの分類クラスの組からなるｎ個（ｎは１以上の整数）
のテストデータを入力するとともに、各テストデータに
対する重みの初期値を与える第２の手順と、重みにしたがって訓練データを学習し、弱分類器を得る
第３の手順と、パラメータを計算する第４の手順と、各データの重みを更新する第５の手順と、既に分類クラスが付与されているテストデータの数がゼ
ロまたは訓練データ中の正例の数／訓練データの総数＞
分類クラスとして正例が付与されたテストデータの数／
既に分類クラスが付与されているテストデータの数のと
き、分類クラスが付与されていないテストデータの中
で、それまで学習されている弱分類器を組み合せた強分
類器による評価値が最大のテストデータに分類クラスと
して正例を与えるとともに、該テストデータ以外で既に
分類クラスが付与されているデータの重みを更新し、既
に分類クラスが付与されているテストデータの数がゼロ
でなく、かつ訓練データ中の正例の数／訓練データの総
数＜分類クラスとして正例が付与されたテストデータの
数／既に分類クラスが付与されているテストデータの数
のとき、分類クラスが与えられていないテストデータの
中で、それまで学習されている弱分類器を組合せた強分
類器による評価値が最小のテストデータに分類クラスと
して負例を与え、該テストデータ以外で既に分類クラス
が付与されているテストデータの重みを更新する第６の
手順と、第３から第６の手順を一定回数繰り返した後、前記パラ
メータを用いて最終的な強分類器を得る第７の手順と、各テストデータを正例、負例のいずれかのカテゴリに分
類する第８の手順と、分類結果を出力する第９の手順をコンピュータに実行さ
せるためのデータ分類プログラムを記録した記録媒体。