JPH1196132A

JPH1196132A - 分類予測装置およびそのコンピュータプログラムを記憶した記憶媒体

Info

Publication number: JPH1196132A
Application number: JP25995697A
Authority: JP
Inventors: Kazuhiro Matsumoto; 和宏松本; Yoshinori Yaginuma; 義典柳沼; Kazuo Maeda; 一穂前田; Katsumi Honma; 克已本間
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1997-09-25
Filing date: 1997-09-25
Publication date: 1999-04-09

Abstract

(57)【要約】【課題】分類予測装置およびそのコンピュータプログ
ラムを記憶した記憶媒体に関し，短い時間で効率的にモ
デル作成することを目的とする。【解決手段】データ入力手段とデータ処理手段とデー
タ出力手段を備え，既知の入力データを基に分類予測を
するモデルを作成し，未知の入力データに対して分類予
測する分類予測装置において，データ処理手段は，既知
入力データのデータ量を縮小する前処理部と，前処理さ
れた既知入力データをもとに学習しながらモデルを作成
するモデル学習部とを備える構成をもつ。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は，未知の入力データ
に対して結果を分類もしくは予測する分類予測装置に関
するものであり，既知の入力データをもとに過去の事例
を学習してモデルを作成し，未知の入力データに適用し
て分類予測をするものである。特に，大量にある既知入
力データを前処理してモデル作成に有効なデータを選択
することにより，データ量を縮小し，効率的に学習でき
るようにしたものである。

【０００２】コンピュータ技術，通信技術の発達によ
り，地域，時間，種類等において広範囲にわたる内容の
大量の情報が容易に入手できるようになった。また，記
憶装置の高密度化，低価格化により，それらの情報の蓄
積も容易になった。例えば，流通業界で使用されている
ＰＯＳ（ＰｏｉｎｔＯｆＳａｌｅｓ）システムは，
全国各地の小売店の売上を本社コンピュータにその日の
うちに集めることが可能である。あるいは，金融業にお
ける個人のクレジットカードの使用状況や，保険業にお
ける保険使用者の個人データと使用状況の情報など，大
量の情報がそれぞれの分野で保有されている。

【０００３】しかし，それぞれの分野で大量の情報が蓄
積されていても，それらの蓄積情報を十分に有効に活用
されているわけではなく，蓄積された情報から意味のあ
る情報を簡単に抽出して有効に利用することを可能にす
る技術の開発が要望されている。

【０００４】

【従来の技術】従来は，蓄積された大量の情報に対し
て，頻度や平均，回帰分析，主成分分析等の簡単な統計
処理を行うことで内容分析するだけであった。あるい
は，入力情報を学習してモデルを作成し未知の入力デー
タを予測する方法も，ＡＩ，ニューラルネットワーク
等，さまざまな提案がされているが，これらの方法は大
量のデータを処理するのに時間がかかり，既知大量のデ
ータをもとにモデルを作成するのには適用しにくいもの
である。

【０００５】図１９は従来の学習によるモデル作成装置
を示す。図１９において，２００はデータ処理手段であ
って，コンピュータである。

【０００６】２０１はモデル学習部であって，既知入力
データをもとに学習しながら分類予測するモデルを作成
するものである。２０２はモデル作成部であって，既知
の入力データをもとに，未知の入力データに適用して結
果を予測する最適モデルを作成するものである。

【０００７】２０３はモデル保持部であって，作成され
てモデルを保持するものである。２０３’は分類予測判
定部であって，未知の入力データに適用して分類予測結
果の正否を判定するものである。

【０００８】２０４はモデル評価部であって，モデルが
適正に作成されているかどうかを評価するものである。
２１１はデータ入力手段であって，データ入力するもの
である。

【０００９】２１２はデータ保持手段であって，既知の
入力データを保持するものである。２１３は出力手段で
ある。図１９の構成の動作を説明する。

【００１０】データ入力手段２１１によりデータを入力
する。入力されたデータはデータ保持手段２１２に保持
される。モデル作成部２０２はデータ保持手段２１２に
保持されている既知入力データをもとに，未知のデータ
を適用した時に分類予測をするモデルを作成し，モデル
保持部２０３に保持する。

【００１１】分類予測判定部２０３’は未知の入力デー
タを作成したモデルに適用して分類予測し，結果を出力
する。モデル評価部２０４はモデル作成部２０２が作成
したモデルが適正であるか，ないか評価する。モデル保
持部２０３は評価結果を基に学習しながらモデルを変更
し，正しい結果が得られるモデルを作成する。

【００１２】

【発明が解決しようとする課題】従来のニューラルネッ
トワーク，決定木等の学習しながら分類予測モデルを作
成する分類予測装置は，既知入力データが大量にある場
合に，既知のデータをそのまま使用するしか方法がなか
った。既知データの中には，分類予測結果に影響しない
ような不必要なデータも含まれているので，モデル作成
の効率が悪く，無駄に長時間を費やしていた。そのため
有効な分類予測モデルを得ることが難しかった。

【００１３】本発明は，短い時間で効率的にモデル作成
を行うことのできる分類予測装置を提供することを目的
とする。

【００１４】

【課題を解決するための手段】本発明は，データ入力手
段とデータ処理手段とデータ出力手段を備え，既知の入
力データを基に分類予測をするモデルを作成し，未知の
入力データに対して分類予測する分類予測装置におい
て，データ処理手段は，既知入力データのデータ量を縮
小する前処理部と，前処理された既知入力データをもと
に学習しながらモデルを作成するモデル学習部とを備え
るようにした。

【００１５】図１は本発明の基本構成を示す。図１にお
いて，１はデータ処理手段である。

【００１６】２は前処理部であって，既知の入力データ
の前処理を行うものである。３はモデル学習部である。
４はモデル保持部である。

【００１７】１０はデータ入力手段である。１１はデー
タ保持手段であって，入力データを保持するものであ
る。１２は出力手段である。

【００１８】図１の構成において，既知入力データはデ
ータ保持手段１１に保持されている。前処理部２は既知
入力データをモデル学習部３に入力する前に，データを
効率的に使用できるように前処理する。例えば，重複す
るデータは一つを残して他は使用しない等でデータ数を
縮小する。あるいは，属性とクラス値との間の相関を表
す相互情報を求め，分類予測結果に影響しない属性は考
慮しないようにする等でデータ量を少なくする。このよ
うにして，分類予測結果に寄与する有効なデータのみに
して，少ないデータ量で有効にモデル作成できるように
する。

【００１９】あるいは，別の例として，既知入力データ
に対して主成分分析の手法を用いた属性変換により新し
い属性を定義する。そして，変換前の属性より少ない属
性とすることによりデータ量を縮小し，縮小されたデー
タに基づいて学習しながらモデルを作成する。

【００２０】本発明によれば，大量の既知入力データの
うち，モデル作成に有効なデータのみでモデル作成がで
きるようにデータを前処理するので，有効なモデルを短
時間で作成できる。

【００２１】

【発明の実施の形態】図２は本発明のシステム構成の実
施例を示す。図２において，２１はＣＰＵである。

【００２２】２２はメモリである。２３はメモリにロー
ドされた分類予測プログラムを表す。２４は入力インタ
フェースであって，入力装置（キーボード，マウス等）
のインタフェースである。

【００２３】２５は入力装置である。２６は出力インタ
フェースであって，出力装置（ディスプレイ，プリンタ
等）のインタフェースである。

【００２４】２７はディスプレイである。２８はプリン
タである。３０は入出力インタフェースであって，記憶
媒体ドライブ装置Ａ，記憶媒体ドライブ装置Ｂとのイン
タフェースである。

【００２５】３１は記憶媒体ドライブ装置Ａであって，
磁気ディスク，磁気テープあるいは光記憶媒体等の記憶
媒体Ａ３３のドライブ装置である。３２は記憶媒体ドラ
イブ装置Ｂであって，記憶媒体Ｂ３４のドライブ装置で
ある。

【００２６】３３は記憶媒体Ａであって，既知入力デー
タを保持するものである。３４は記憶媒体Ｂであって，
分類予測プログラムを保持するものである。３５は記憶
媒体に格納されいる分類予測プログラムである。

【００２７】図３は，本発明の分類予測のためのプログ
ラムを記憶する記憶媒体の構成の実施例である。図３に
おいて，３４は記憶媒体（図２の記憶媒体Ｂ（３４）に
相当する）であって，磁気ディスク，フロッピーディス
ク，磁気テープ等の磁気記憶媒体，あるいはＣＤＲＯＭ
等の光記憶媒体である。

【００２８】４１は入力データ作成プログラムであっ
て，既知入力データを作成するものである。４２は前処
理プログラムであって，既知入力データを前処理するプ
ログラムである。

【００２９】４４は学習プログラムであって，前処理さ
れた，既知入力データをもとに分類予測モデルを作成す
るものである。４５はモデル作成プログラムである。

【００３０】４６は評価プログラムであって，モデルが
適正に作成されているか，いないかを評価するプログラ
ムである。４７は分類予測プログラムであって，作成さ
れたモデルに未知入力データを適用し，分類予測するプ
ログラムである。

【００３１】図４は本発明の実施の形態である。図４に
おいて，５１はデータ処理手段である。

【００３２】５２は前処理部である。５３は重み付け部
であって，既知入力データに重み付けをするものであ
る。５４はデータ加工部であって，重み付けされた既知
入力データをもとに加工データを作成するものである。
例えば，分類予測に寄与しない属性を取り除く等の処理
を施すものである。

【００３３】５５は重み情報であって，既知入力データ
に付けた重み情報を表す。５６は加工データであって，
加工された既知入力データを表す。６１はモデル学習部
であって，既知入力データをもとに学習しながら分類予
測するモデルを作成するものである。

【００３４】６２はモデル作成部であって，モデルを作
成するものである。６３はモデル保持部であって，作成
されたモデルを保持するものである。６３’は分類予測
判定部であって，未知入力データにモデルを適用して，
分類予測結果を判定するものである。

【００３５】６４はモデル評価部であって，作成された
モデルを分類予測結果の分かっているテストデータをも
とに，作成されたモデルが正しい予測をするかどうかを
評価するものである。

【００３６】７０はデータ入力手段である。７１はデー
タ保持手段であって，磁気ディスク装置等であり，既知
入力データを保持するものである。

【００３７】７２は出力手段である。図５は本発明の対
象とする既知入力データの例であり，顧客情報の例であ
る。顧客情報は，個人情報のデータと，その個人が特定
の商品を購入したかどうかの購入状況のデータにより構
成される。

【００３８】モデルによる予測のもとになる項目，住
所，性別，年収等が属性であり，購入状況の「購入し
た」，「購入しない」がクラスである。住所，性別，年
収，購入状況等はレコードとして，顧客通番で管理す
る。

【００３９】図６は本発明の重み付け方法の説明図で
ある。図６において，５３は重み付け部である。

【００４０】５５は重み情報である。８０は顧客情報で
ある。８１は加工データであり，重み情報が住所＞性別
＞年収の順で購入状況への影響が大きいものであるとさ
れた場合の加工データの例である。購入状況への影響が
小さい年収が顧客情報８０から削除されている。

【００４１】重み付け部は，次の機能をもつ。既知入力データ（例えば，図５の顧客情報８０）を
入力する。属性（例えば，住所，性別，年収等）がクラス（例
えば，購入状況）にどの程度，影響を与えているか調
べ，その結果を重み情報として出力する。

【００４２】重み情報をもとに，クラスへの寄与の
小さい属性は取り除く。図６の例の場合，購入状況への
影響が比較的小さい年収を削除したデータを加工データ
として作成する。

【００４３】図７は本発明の重み付け方法の説明図
である。図７は，属性がクラスに寄与する確率分布をも
とに属性に重みを決定する方法を説明するものである。

【００４４】９０は既知入力データの例であって，属性
は「住所」，「性別」，「年収」であり，クラスは「購
入状況」である。９１０は既知入力データ９０をもとに
確率と頻度を求めるものである。

【００４５】確率の値が大きい内容に対応する属性がク
ラスへの寄与が大きい。また，頻度が小さい内容の確率
の値は信頼性に欠けると言える。そこで，図７の例の場
合，頻度が１位以下の内容のものを信頼性が低いとして
除外すると，通番で２番と８番が残る。年収に対応する
ものは残らないので，「年収」のクラスへの寄与は小さ
いと判断できる。通番２番の確率値は２／３であり，通
番８番の確率値は１である。従って，「住所」のクラフ
スの寄与は「性別」のクラスへの寄与より小さいと判断
できる。

【００４６】これらを総合して，属性のクラスへの寄与
に関する重みは「性別」＞「住所」＞「年収」の順であ
ると結論できる。以上は属性ひとつずつでの確率分布を
求めて重みを求めたものであるが，属性の組合せを考慮
して精度の高い重みを決定することもできる。図７の参
照番号９２０は，そのような場合の一部を示す。

【００４７】属性が住所と性別の組合せである時，内容
として「住所」が「神奈川県」，かつ「性別」が「男
性」の場合にクラスが「購入した」の確率は１であり，
頻度は１である等である。

【００４８】ここで図４の実施の形態１の構成の動作を
説明する。データ入力手段７０から入力された入力デー
タは既知入力データ作成部５８により既知入力データと
されてデータ保持手段７１に保持される。

【００４９】データ保持手段５１から既知入力データが
重み付け部５３に入力される。重み付け部５３は，入力
された既知データに対して重み付けをする。例えば，前
述したように，属性に重みをつけ，属性「年収」へのク
ラスへの寄与が小さい等の時，属性から年収を削除した
既知入力データを作成する。

【００５０】モデル学習部６１は重み付け部５３の作成
した重み情報と加工データを入力する。モデル作成部６
２は，加工データをもとにモデルを購入予測をするモデ
ル６３を作成する。モデル評価部６４はテストデータに
より作成されたモデルの予測結果を評価する。そして，
モデル作成部６２は評価結果に従ってモデルを変更し，
評価結果が一定レベル以上の精度をもつようになった
ら，作成したモデルを確定する。

【００５１】モデル作成部６２は，例えば，ニューラル
ネットワークを使用し，既知入力データのモデルをニュ
ーラルネットワークの重みとして表現する。あるいは，
決定木アルゴリズムを用いて，既知入力データを木関係
として表現するようにしても良い。あるいは，メモリベ
ースリーゾニング（ＭｅｍｏｒｙＢａｓｅｄＲｅａ
ｓｏｎｉｎｇ）法を使用し，既知入力データのモデルを
データの距離の関数として表現するようにしても良い。

【００５２】分類予測判定部６３’はデータ入力手段７
０から入力された未知入力データに作成されたモデルを
適用して分類予測し，結果を出力する。前述の例では，
顧客情報の分類予測装置を作成する場合について説明し
たが，属性として，クレジットカードの顧客の年収，性
別，年令，就業年数，過去の購入履歴等を定め，新規顧
客の危険率を分類予測し，許可判定を行う等の応用も可
能である。その他，本発明は，様々な種類の情報に応用
できるものである。

【００５３】図８は本発明の実施の形態２である。図８
において，５２は前処理部である。

【００５４】５７はフィルタ部Ａであって，既知入力デ
ータから部分データａと部分データｂを取り出すもので
ある。６１はモデル学習部である。

【００５５】７０はデータ入力手段である。７１はデー
タ保持手段である。７２は出力手段である。

【００５６】９１は部分データａであって，既知入力デ
ータの一部のデータである。９２は部分データｂであっ
て，既知入力データの一部のデータである。９３は部分
データ保持部であって，部分データａを保持するもので
ある。

【００５７】９４は中間版モデルであって，学習途中の
モデルである。９５はフィルタ部Ｐである。９６は部分
データｃであって，部分データｂを中間版モデル９４に
適用した結果，正しくないと結論された既知入力データ
である。

【００５８】図９は，図８のフィルタ部Ａの動作を説明
するものである。５７はフィルタ部Ａである。８０は顧
客情報である。

【００５９】９３は部分データ保持部である。９５はフ
ィルタ部Ｐである。１１０は部分データａである。

【００６０】１１１は部分データｂである。フィルタ部
Ａ（５７）の動作の手順は次のとおりである。フィルタ
部Ａは既知入力データから部分データ作成する。例え
ば，部分データａと部分データｂの分量比を定め，その
比を満たすように既知入力データから無作為に顧客情報
を分割する。あるいは既知入力データを分割し，分割さ
れたデータに対して部分データａと部分データｂの分量
比を定め，その比を満たすように無作為に顧客情報を分
割する。あるいは，全データについて，予め全データの
相関を計算しておき，予め設定したしきい値以上に相関
の高いデータに対しては一つのみ選択するようにして，
部分データａ，部分データｂを求めても良い。

【００６１】そして，部分データａを部分データ保持部
９３に保持する。部分データｂはフィルタ部Ｐ（９５）
に転送する。図１０は図８のフィルタ部Ｐの動作を説明
するものである。

【００６２】図１０において，６１はモデル学習部であ
る。９３は部分データ保持部である。

【００６３】９４は中間版モデルである。９５はフィル
タ部Ｐである。１１０は部分データａである。

【００６４】１１２は部分データｂである。１１３は部
分データｂであって部分データｂ（１１２）をファイル
部Ｐに入力して判定した結果正しいと判定されたデータ
である。

【００６５】１１４は部分データｃであって，部分デー
タｂ（１１２）をフィルタ部Ｐに入力して判定した結果
が正しくないとされたデータである。最初，部分データ
保持部９３は部分データａのみを保持する。そして，モ
デル学習部６１は部分データａに基づいて中間版モデル
９４を作成する。そして，中間版モデル９４に部分デー
タｂを適用し，正しく出力されたデータと正しくないと
結論されたデータに分類する。そして正しくないと結論
されたデータを部分データｃとして部分データ保持部９
３に保持し，部分データａに追加する。さらに，モデル
学習部６１は部分データａおよび追加された部分データ
ｃに基づいて中間版モデル９４を修正する。

【００６６】なお，中間版モデル９４の修正方法は，部
分データｂのうち誤りと分類された部分データｃを一括
して部分データ保持部に保持し，追加された分割データ
に基づいて中間版モデル９４を修正する。

【００６７】あるいは，分割データの１レコードずつを
フィルタ部Ｐに入力し，分類の正否を判定し，誤りと判
定された部分データｃをもとに中間版モデル９４を修正
する。そして，フィルタ部Ｐは次の部分データｂのレコ
ードを取り出して，さらに修正された中間版モデルに従
って正否を判定する。このような処理を部分データｂが
なくなるまで繰り返すようにしても良い。

【００６８】図１１は本発明の実施の形態３である。図
１１は，図８の実施の形態２に重み付け部を付け加えた
ものである。図１１において，図８と共通の参照番号は
同一部分を表す。

【００６９】５２は前処理部である。５３は重み付け部
である。５４はデータ加工部である。

【００７０】５５は重み情報である。５６は加工データ
である。図１１の構成において，重み付け部は，実施の
形態１〔図４参照）で説明したのと同様の方法で既知入
力データに重み付けをし，重み情報５５を作成する。ま
た，重みデータに従ってデータ加工部５４は既知入力デ
ータを加工した加工データを作成する。フィルタ部Ａ
（５７）は加工データをもとにデータを分割する。

【００７１】以後の動作は図８の構成の場合と同様であ
る。即ち，部分データ保持部９３は部分データａを保持
し，モデル学習部６１は最初，部分データａに基づいて
中間版モデル９４を作成し，フィルタ部Ｐ（９５）は，
部分データｂ（９２）を入力し，中間版モデル９４にお
いて，分類結果の正否を判定する。そして，正しくない
とされたデータを部分データｃとして部分データ保持部
９３のデータに追加して保持する。モデル学習部６１は
部分データｃを追加した分割データに基づいて中間版モ
デル９４を修正する。さらに，そのようにして作成した
中間版モデル９４について同様の処理を施し，モデル学
習部６１は最適モデルを作成する。

【００７２】図１２は本発明の実施の形態４である。図
１２は，既知入力データを任意の仕方で分割し，それぞ
れの分割データに基づいてモデルを作成する。そして，
各モデルを統合することによりモデルを作成するもので
ある。

【００７３】図１２において，５２は前処理部である。
前処理部５２において，１５０はデータ分割部であっ
て，既知入力データを分割データＡ（９１’），分割デ
ータＢ（９２’），分割データＮ（９３’）に分割する
ものである。

【００７４】１２５は分割情報である。６１はモデル学
習部である。７０はデータ入力手段である。

【００７５】７１はデータ保持手段である。７２は出力
手段である。９１’は分割データＡである。

【００７６】９２’は分割データＢである。９３’は分
割データＮである。６１はモデル学習部である。

【００７７】１２２はモデル作成部Ａであって，分割デ
ータＡに基づいてモデルを作成するものである。１２
２’はモデルＡであって，分割データＡに基づいて作成
したモデルである。

【００７８】１２３はモデル作成部Ｂであって，分割デ
ータＢに基づいてモデルを作成するものである。１２
２’はモデルＢであって，分割データＢに基づいて作成
したモデルである。

【００７９】１２４はモデル作成部Ｎであって，分割デ
ータＮに基づいてモデルを作成するものである。１２
４’はモデルＮであって，分割データＮに基づいて作成
したモデルである。

【００８０】１３０はモデル統合部であって，モデル
Ａ，モデルＢ，モデルＮを統合するものである。１３１
は統合されたモデルである。

【００８１】図１３は本発明の実施の形態４の説明図で
ある。図１３において，１５０はデータ分割部である。

【００８２】８０は顧客情報である。９１’は分割デー
タＡであって，住所が神奈川県のものを取り出すことに
より分割したものである。

【００８３】９２’は分割データＢであって，住所が東
京都のものを取り出すことにより分割したものである。
９３’は分割データＮであって，住所が千葉県のものを
取り出すことにより分割したものである。

【００８４】１２２は分割モデル作成部Ａである。１２
２’は分割モデルＡである。１２３は分割モデル作成部
Ｂである。

【００８５】１２３’は分割モデルＢである。１２４は
分割モデル作成部Ｎである。１２４’は分割モデルＮで
ある。

【００８６】１３０はモデル統合部である。１３１は統
合されたモデルである。データ分割部１５０は既知入力
データを分割する。例えば，図示のように，住所を基に
分割する。住所が神奈川県にあるレコードを取り出し
て，分割データＡ（９１’）を作成する。住所が東京都
にあるレコードを取り出して，分割データＢ（９２’）
を作成する。住所が千葉県にあるレコードを取り出し
て，分割データＮ（９３’）を作成する。モデル作成部
Ａ（１２２）は分割データＡ（９１’）に基づいて分割
モデルＡ（１２２’）を作成する。モデル作成部Ｂ（１
２３）は分割データＢ（９２’）に基づいて分割モデル
Ｂ（１２３’）を作成する。モデル作成部Ｎ（１２４）
は分割データＮ（９３’）に基づいて分割モデルＮ（１
２４’）を作成する。

【００８７】分割モデル統合部１３０は各モデル（分割
モデルＡ，分割モデルＢ，・・・分割モデルＮ）と分割
情報１２４をもとに各モデルを統合し，モデル１３１を
作成する。この場合，未知入力データが入力された時
に，例えば，そのレコードの住所が東京都であるなら，
統合されたモデル１３１のうちのモデルＡで分類予測さ
れる。あるいは，未知入力データが入力された時に，住
所を無視して住所毎の各モデルで結果を予測し，多数決
により決定するようにしても良い。

【００８８】また，本発明の実施の形態４の各分割デー
タ（クラスタ）について，同一クラスタ内で同じクラス
値をもつデータを求め，同一クラスタ内では同じクラス
をもつデータは一つのみとして学習データを少なくする
ようにしても良い。

【００８９】図１４は本発明の実施の形態５である。図
１４は，本発明の実施の形態４（図１３参照）に重み付
け部を付加したものである。即ち，重み付け部５３は既
知入力データに対して重み付けをし，重み情報５５と加
工データ５６を作成する。加工データ５６をデータ分割
部１５０は分割する。重み情報５５はデータ分割部，各
モデル作成部，統合部に送られる。モデル作成部は，分
割データＡ，分割データＢ，分割データＮに基づいてそ
れぞれモデルＡ，モデルＢ，モデルＮを作成する。統合
部は各モデルを統合する。

【００９０】図１４において，図１２と共通の番号は同
一部分を表す。５３は重み付け部である。５４はデータ
加工部である。

【００９１】５５は重み情報であって，重み付け部５３
でデータ分割したデータの重み情報を表す。５５’，５
５”，５５''' はそれぞれ重み情報（重み情報５５に同
じ）であって，それぞれの分割データとともにそれぞれ
のモデル作成部に入力される。

【００９２】５６は加工データであって，重み付けされ
た既知入力データをもとに加工したデータである。図１
４の構成において，重み付けしたデータをデータ分割す
る点以外は本発明の実施の形態４の動作と同じである。

【００９３】図１５は本発明の実施の形態６である。図
１５はデータ分割部で分割した分割データのそれぞれに
ついて実施の形態２の方法（図８参照）で分割モデルを
作成し，モデルを統合する場合の構成を示す。

【００９４】図１５において，５２は前処理部である。
６１はモデル学習部である。

【００９５】９５はフィルタ部Ｐであって，中間版モデ
ルＡ（１７５）に部分データｂを適用し，正しくないと
結論されたデータ（部分データｃ）と正しいと結論され
る分割データに分類するものである。

【００９６】９５’はフィルタ部Ｐ’であって，中間版
モデルＢ（１７６）に部分データｆを適用し，正しくな
いと結論されたデータ（部分データｇ）と正しいと結論
される分割データに分類するものである。，１５０はデ
ータ分割部である。

【００９７】１５１は分割データＡである。１５２は分
割データＢである。１６１はフィルタ部Ａであって，分
割データＡを部分データａと部分データｂに分割するも
のである。

【００９８】１６２はフィルタ部Ｂであって，分割デー
タＢを部分データｅと部分データｆに分割するものであ
る。１７１は部分データａである。

【００９９】１７２は部分データｂである。１７３は部
分データｅである。１７４は部分データｆである。

【０１００】１７５は中間版分割モデルＡであって，部
分データａもしくは部分データａに部分データｃを加え
た分割データをもとに作成した中間のモデルである。１
７６は中間版モデルＢであって，部分データｅもしくは
部分データｅに部分データｇを加えた分割データをもと
に作成した中間のモデルである。

【０１０１】１８１は部分データｃであって，中間版モ
デルＡ（１７５）に部分データｂを適用した結果，正し
くないと結論されたデータである。１８２は部分データ
ｇであって，中間版モデルＢ（１７６）に部分データｂ
を適用した結果，正しくないと結論されたデータであ
る。

【０１０２】１８５は部分データ保持部Ａであって，部
分データａおよび部分データｃを保持するものである。
１８６は部分データ保持部Ｂであって，部分データｅお
よび部分データｇを保持するものである。

【０１０３】１９１はモデルＡであって，部分データａ
並びに部分データａに部分データｃを付け加えた分割デ
ータに従って作成したモデルである。１９２はモデルＢ
であって，部分データｅおよび部分データａに部分デー
タｇを付け加えた分割データに従って作成したモデルで
ある。

【０１０４】１９５はモデル統合部である。１９６は作
成されたモデルである。図１５の構成において，データ
分割部１５０は既知入力データを分割データＡと分割デ
ータＢに分割する。分割の仕方は任意である。例えば，
均等に分割する。あるいは，図１３で説明したように，
都道府県別等の属性により分割しても良い。

【０１０５】フィルタ部Ａ（１６１）は分割データＡを
もとに，任意にデータ分割し，部分データａと部分デー
タｂを作成する。そして，部分データａは部分データ保
持部Ａ（１８５）に保持され，モデル学習部６１は部分
データａに基づいて中間版モデルＡ（１７５）を作成す
る。そして，フィルタ部Ｐ（９５）に部分データｂを適
用し，正否を判定する。そして，正しくないと結論され
る部分データｃを求め，部分データ保持部Ａ（１８５）
に保持して，部分データａに付け加える。モデルＡ（１
９１）は，部分データｃを付け加えた分割データにより
中間版モデルＡ（１７５）を修正し，上記の処理をさら
に繰り返す。そして，最適なモデルＡ（１９１）を作成
する。

【０１０６】同様の処理を分割データＢ（１５２）に対
して行い，分割データＢ（１５２）に基づいてモデルＢ
（１９２）を作成する。そして，モデル統合部１９５で
モデルＡ（１９１）とモデルＢ（１９２）を統合し，モ
デル１９６を作成する。

【０１０７】図１６は本発明の実施の形態７である。図
１６は，本発明の実施例の形態４の方法（図１２参照）
において，分割データに重み付けをするものである。即
ち，既知入力データを任意の方法で分割し，分割された
データのそれぞれに対して重み付けを行い，重み付けさ
れたそれぞれの分割データをもとにモデルを作成し，そ
れぞれのモデルを統合するものである。

【０１０８】図１６において図１２と共通の番号は共通
部分を示す。図１６の構成において，５３は重み付け部
Ａであって，分割データＡ（９１’）に重み付けをする
ものである。

【０１０９】５３’は重み付け部Ｂであって，分割デー
タＢ（９２’）に重み付けをするものである。５５’は
分割データＡ’（１６１’）の重み情報である。

【０１１０】５５”は分割データＢ’（１６２’）の重
み情報である。１６１’は分割データＡ’であって，分
割データＡ（９１’）を重み付けして作成したものであ
る。

【０１１１】１６２’は分割データＢ’であって，分割
データＢ（９２’）を重み付けして作成したものであ
る。図１６の構成において，データ分割部１５０は既知
入力データを分割し，分割データＡ（９１’）と分割デ
ータＢ（９２’）を作成する。分割の方法は任意であ
る。重み付け部Ａ（５３）は分割データＡ（９１’）に
重み付けをする。また，重み付け部Ｂ（５３’）は分割
データＢ（９２’）に重み付けをする。分割データＡを
重み付けして得た分割データＡ’（分割データＡの加工
データ）とその重み情報Ａ（５５’）を基に，モデル学
習部１２１はモデルＡ（１２２’）を作成する。

【０１１２】同様に，分割データＢ（９２’）を基に，
モデルＢ（１２３’）を作成する。モデル統合部１３０
は，モデルＡ（１２２’）とモデルＢ（１２３’）と分
割情報１２５に基づいて統合し，モデル１３１を作成す
る。

【０１１３】図１７は本発明の実施例８である。図１７
の実施例は，実施の形態６（図１５参照）に重み付け部
を付加し，重み付けされた既知入力データについて実施
の形態６の方法でモデルを作成する場合の構成である。

【０１１４】図１７において，図１５と共通番号は共通
部分を示す。図１７において，５３は重み付け部であ
る。

【０１１５】５５は重み情報である。５６は加工データ
である。図１７の構成において，重み付けしたデータを
分割してモデルを作成する点以外は図１５の構成の動作
と同様である。

【０１１６】図１８は本発明の実施例９である。図１８
の実施例は，本発明の実施の形態６（図１５参照）にお
いて，分割したデータ（分割データＡと分割データＢ）
に重み付けをし，重み付けされたそれぞれの分割データ
に対して実施例６の方法でモデルを作成し，各モデルを
統合するものである。

【０１１７】図１８において，図１５と共通番号は共通
部分を示す。図１８において，５３，５３’は重み付け
部である。

【０１１８】５５’は重み情報Ａであって，分割データ
Ａを分割した重み情報である。５６’は加工データＡで
あって，分割データＡの加工データである。５５”は重
み情報Ｂであって，分割データＢを分割した重み情報で
ある。

【０１１９】５６”は加工データＢであって，分割デー
タＢの加工データである。図８の構成において，分割し
たデータを重み付けし，それぞれの分割データに基づい
てモデルを作成する点以外は本発明の実施例の形態６
（図１５参照）の構成の動作と同様である。

【０１２０】

【発明の効果】本発明によれば，モデル作成の対象にな
る情報が大量にあっても，前処理でデータの重複，不要
な情報を取り除くことを容易にできる。そのため，大量
の情報をもとに学習しながら効率良く分類予測モデルを
作成できる。そのため，本発明によれば，精度の高い分
類予測装置を短い時間で作成することができる。

【図面の簡単な説明】

【図１】本発明の基本構成を示す図である。

【図２】本発明のシステム構成の実施例を示す図であ
る。

【図３】本発明の記憶媒体の構成を示す図である。

【図４】本発明の実施の形態１を示す図である。

【図５】本発明の対象とするデータの例を示す図であ
る。

【図６】本発明の重み付け方法を示す図である。

【図７】本発明の重み付け方法の説明図である。

【図８】本発明の実施の形態２を示す図である。

【図９】本発明のフィルタ部Ａの動作説明図である。

【図１０】本発明のフィルタ部Ｐの動作説明図である。

【図１１】本発明の実施の形態３を示す図である。

【図１２】本発明の実施の形態４を示す図である。

【図１３】本発明の実施の形態４の動作説明図である。

【図１４】本発明の実施の形態５を示す図である。

【図１５】本発明の実施の形態６を示す図である。

【図１６】本発明の実施の形態７を示す図である。

【図１７】本発明の実施の形態８を示す図である。

【図１８】本発明の実施の形態９を示す図である。

【図１９】従来の技術を示す図である。

【符号の説明】

１：データ処理手段２：前処理部３：モデル学習部４：モデル保持部１０：データ入力手段１１：データ保持手段１２：出力手段

───────────────────────────────────────────────────── フロントページの続き (72)発明者前田一穂神奈川県川崎市中原区上小田中４丁目１番１号富士通株式会社内 (72)発明者本間克已神奈川県川崎市中原区上小田中４丁目１番１号富士通株式会社内

Claims

【特許請求の範囲】

【請求項１】データ入力手段とデータ処理手段とデー
タ出力手段を備え，既知の入力データを基に分類予測を
するモデルを作成し，未知の入力データに対して分類予
測する分類予測装置において，データ処理手段は，既知
入力データのデータ量を縮小する前処理部と，前処理さ
れた既知入力データを基に学習しながらモデルを作成す
るモデル学習部とを備えることを特徴とする分類予測装
置。
【請求項２】前処理部は多次元の既知入力データの属
性に重みを付ける重み付け部を備えることを特徴とする
請求項１に記載の分類予測装置。
【請求項３】前処理部は，既知入力データの取捨選択
を行うフィルタ部を備え，モデル学習部は選択された既
知入力データを基にモデルを作成することを特徴とする
請求項１に記載の分類予測装置。
【請求項４】前処理部は既知入力データを分割するデ
ータ分割部を備え，モデル学習部はそれぞれの分割され
た既知入力データをもとにそれぞれのモデルを作成し，
作成されたモデルを統合する統合部を備えることを特徴
とする請求項１に記載の分類予測装置。
【請求項５】モデル学習部としてニューラルネットワ
ークを用いて既知入力データのモデルをニューラルネッ
トワークの重みとして表現することを特徴とする請求項
１，２，３もしくは４に記載の分類予測装置。
【請求項６】モデル学習部として決定木アルゴリズム
を用い，既知入力データを木関係として表現することを
特徴とする請求項１，２，３，４もしくは５に記載の分
類予測装置。
【請求項７】モデル学習部としてメモリベースリーゾ
ニングを用いて既知入力データのモデルをデータの距離
の関数として表現することを特徴とする請求項１，２，
３，４，５もしくは６に記載の分類予測装置。
【請求項８】データ入力手段とデータ出力手段を備え
たコンピュータにより既知入力データを基に分類予測を
するモデルを作成し，未知の入力データに対して分類予
測するコンピュータプログロムを記憶する記憶媒体にお
いて，該コンピュータプログラムは，既知入力データの
データ量を縮小する前処理プログラムと，前処理された
既知入力データをもとに学習しながらモデルを作成する
学習プログラムとを備えることを特徴とする分類予測す
るコンピュータプログロムを記憶した記憶媒体。