JPH1196132A - 分類予測装置およびそのコンピュータプログラムを記憶した記憶媒体 - Google Patents

分類予測装置およびそのコンピュータプログラムを記憶した記憶媒体

Info

Publication number
JPH1196132A
JPH1196132A JP25995697A JP25995697A JPH1196132A JP H1196132 A JPH1196132 A JP H1196132A JP 25995697 A JP25995697 A JP 25995697A JP 25995697 A JP25995697 A JP 25995697A JP H1196132 A JPH1196132 A JP H1196132A
Authority
JP
Japan
Prior art keywords
data
model
unit
input data
known input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP25995697A
Other languages
English (en)
Inventor
Kazuhiro Matsumoto
和宏 松本
Yoshinori Yaginuma
義典 柳沼
Kazuo Maeda
一穂 前田
Katsumi Honma
克已 本間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP25995697A priority Critical patent/JPH1196132A/ja
Publication of JPH1196132A publication Critical patent/JPH1196132A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】 分類予測装置およびそのコンピュータプログ
ラムを記憶した記憶媒体に関し,短い時間で効率的にモ
デル作成することを目的とする。 【解決手段】 データ入力手段とデータ処理手段とデー
タ出力手段を備え,既知の入力データを基に分類予測を
するモデルを作成し,未知の入力データに対して分類予
測する分類予測装置において,データ処理手段は,既知
入力データのデータ量を縮小する前処理部と,前処理さ
れた既知入力データをもとに学習しながらモデルを作成
するモデル学習部とを備える構成をもつ。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は,未知の入力データ
に対して結果を分類もしくは予測する分類予測装置に関
するものであり,既知の入力データをもとに過去の事例
を学習してモデルを作成し,未知の入力データに適用し
て分類予測をするものである。特に,大量にある既知入
力データを前処理してモデル作成に有効なデータを選択
することにより,データ量を縮小し,効率的に学習でき
るようにしたものである。
【0002】コンピュータ技術,通信技術の発達によ
り,地域,時間,種類等において広範囲にわたる内容の
大量の情報が容易に入手できるようになった。また,記
憶装置の高密度化,低価格化により,それらの情報の蓄
積も容易になった。例えば,流通業界で使用されている
POS(Point Of Sales)システムは,
全国各地の小売店の売上を本社コンピュータにその日の
うちに集めることが可能である。あるいは,金融業にお
ける個人のクレジットカードの使用状況や,保険業にお
ける保険使用者の個人データと使用状況の情報など,大
量の情報がそれぞれの分野で保有されている。
【0003】しかし,それぞれの分野で大量の情報が蓄
積されていても,それらの蓄積情報を十分に有効に活用
されているわけではなく,蓄積された情報から意味のあ
る情報を簡単に抽出して有効に利用することを可能にす
る技術の開発が要望されている。
【0004】
【従来の技術】従来は,蓄積された大量の情報に対し
て,頻度や平均,回帰分析,主成分分析等の簡単な統計
処理を行うことで内容分析するだけであった。あるい
は,入力情報を学習してモデルを作成し未知の入力デー
タを予測する方法も,AI,ニューラルネットワーク
等,さまざまな提案がされているが,これらの方法は大
量のデータを処理するのに時間がかかり,既知大量のデ
ータをもとにモデルを作成するのには適用しにくいもの
である。
【0005】図19は従来の学習によるモデル作成装置
を示す。図19において,200はデータ処理手段であ
って,コンピュータである。
【0006】201はモデル学習部であって,既知入力
データをもとに学習しながら分類予測するモデルを作成
するものである。202はモデル作成部であって,既知
の入力データをもとに,未知の入力データに適用して結
果を予測する最適モデルを作成するものである。
【0007】203はモデル保持部であって,作成され
てモデルを保持するものである。203’は分類予測判
定部であって,未知の入力データに適用して分類予測結
果の正否を判定するものである。
【0008】204はモデル評価部であって,モデルが
適正に作成されているかどうかを評価するものである。
211はデータ入力手段であって,データ入力するもの
である。
【0009】212はデータ保持手段であって,既知の
入力データを保持するものである。213は出力手段で
ある。図19の構成の動作を説明する。
【0010】データ入力手段211によりデータを入力
する。入力されたデータはデータ保持手段212に保持
される。モデル作成部202はデータ保持手段212に
保持されている既知入力データをもとに,未知のデータ
を適用した時に分類予測をするモデルを作成し,モデル
保持部203に保持する。
【0011】分類予測判定部203’は未知の入力デー
タを作成したモデルに適用して分類予測し,結果を出力
する。モデル評価部204はモデル作成部202が作成
したモデルが適正であるか,ないか評価する。モデル保
持部203は評価結果を基に学習しながらモデルを変更
し,正しい結果が得られるモデルを作成する。
【0012】
【発明が解決しようとする課題】従来のニューラルネッ
トワーク,決定木等の学習しながら分類予測モデルを作
成する分類予測装置は,既知入力データが大量にある場
合に,既知のデータをそのまま使用するしか方法がなか
った。既知データの中には,分類予測結果に影響しない
ような不必要なデータも含まれているので,モデル作成
の効率が悪く,無駄に長時間を費やしていた。そのため
有効な分類予測モデルを得ることが難しかった。
【0013】本発明は,短い時間で効率的にモデル作成
を行うことのできる分類予測装置を提供することを目的
とする。
【0014】
【課題を解決するための手段】本発明は,データ入力手
段とデータ処理手段とデータ出力手段を備え,既知の入
力データを基に分類予測をするモデルを作成し,未知の
入力データに対して分類予測する分類予測装置におい
て,データ処理手段は,既知入力データのデータ量を縮
小する前処理部と,前処理された既知入力データをもと
に学習しながらモデルを作成するモデル学習部とを備え
るようにした。
【0015】図1は本発明の基本構成を示す。図1にお
いて,1はデータ処理手段である。
【0016】2は前処理部であって,既知の入力データ
の前処理を行うものである。3はモデル学習部である。
4はモデル保持部である。
【0017】10はデータ入力手段である。11はデー
タ保持手段であって,入力データを保持するものであ
る。12は出力手段である。
【0018】図1の構成において,既知入力データはデ
ータ保持手段11に保持されている。前処理部2は既知
入力データをモデル学習部3に入力する前に,データを
効率的に使用できるように前処理する。例えば,重複す
るデータは一つを残して他は使用しない等でデータ数を
縮小する。あるいは,属性とクラス値との間の相関を表
す相互情報を求め,分類予測結果に影響しない属性は考
慮しないようにする等でデータ量を少なくする。このよ
うにして,分類予測結果に寄与する有効なデータのみに
して,少ないデータ量で有効にモデル作成できるように
する。
【0019】あるいは,別の例として,既知入力データ
に対して主成分分析の手法を用いた属性変換により新し
い属性を定義する。そして,変換前の属性より少ない属
性とすることによりデータ量を縮小し,縮小されたデー
タに基づいて学習しながらモデルを作成する。
【0020】本発明によれば,大量の既知入力データの
うち,モデル作成に有効なデータのみでモデル作成がで
きるようにデータを前処理するので,有効なモデルを短
時間で作成できる。
【0021】
【発明の実施の形態】図2は本発明のシステム構成の実
施例を示す。図2において,21はCPUである。
【0022】22はメモリである。23はメモリにロー
ドされた分類予測プログラムを表す。24は入力インタ
フェースであって,入力装置(キーボード,マウス等)
のインタフェースである。
【0023】25は入力装置である。26は出力インタ
フェースであって,出力装置(ディスプレイ,プリンタ
等)のインタフェースである。
【0024】27はディスプレイである。28はプリン
タである。30は入出力インタフェースであって,記憶
媒体ドライブ装置A,記憶媒体ドライブ装置Bとのイン
タフェースである。
【0025】31は記憶媒体ドライブ装置Aであって,
磁気ディスク,磁気テープあるいは光記憶媒体等の記憶
媒体A33のドライブ装置である。32は記憶媒体ドラ
イブ装置Bであって,記憶媒体B34のドライブ装置で
ある。
【0026】33は記憶媒体Aであって,既知入力デー
タを保持するものである。34は記憶媒体Bであって,
分類予測プログラムを保持するものである。35は記憶
媒体に格納されいる分類予測プログラムである。
【0027】図3は,本発明の分類予測のためのプログ
ラムを記憶する記憶媒体の構成の実施例である。図3に
おいて,34は記憶媒体(図2の記憶媒体B(34)に
相当する)であって,磁気ディスク,フロッピーディス
ク,磁気テープ等の磁気記憶媒体,あるいはCDROM
等の光記憶媒体である。
【0028】41は入力データ作成プログラムであっ
て,既知入力データを作成するものである。42は前処
理プログラムであって,既知入力データを前処理するプ
ログラムである。
【0029】44は学習プログラムであって,前処理さ
れた,既知入力データをもとに分類予測モデルを作成す
るものである。45はモデル作成プログラムである。
【0030】46は評価プログラムであって,モデルが
適正に作成されているか,いないかを評価するプログラ
ムである。47は分類予測プログラムであって,作成さ
れたモデルに未知入力データを適用し,分類予測するプ
ログラムである。
【0031】図4は本発明の実施の形態である。図4に
おいて,51はデータ処理手段である。
【0032】52は前処理部である。53は重み付け部
であって,既知入力データに重み付けをするものであ
る。54はデータ加工部であって,重み付けされた既知
入力データをもとに加工データを作成するものである。
例えば,分類予測に寄与しない属性を取り除く等の処理
を施すものである。
【0033】55は重み情報であって,既知入力データ
に付けた重み情報を表す。56は加工データであって,
加工された既知入力データを表す。61はモデル学習部
であって,既知入力データをもとに学習しながら分類予
測するモデルを作成するものである。
【0034】62はモデル作成部であって,モデルを作
成するものである。63はモデル保持部であって,作成
されたモデルを保持するものである。63’は分類予測
判定部であって,未知入力データにモデルを適用して,
分類予測結果を判定するものである。
【0035】64はモデル評価部であって,作成された
モデルを分類予測結果の分かっているテストデータをも
とに,作成されたモデルが正しい予測をするかどうかを
評価するものである。
【0036】70はデータ入力手段である。71はデー
タ保持手段であって,磁気ディスク装置等であり,既知
入力データを保持するものである。
【0037】72は出力手段である。図5は本発明の対
象とする既知入力データの例であり,顧客情報の例であ
る。顧客情報は,個人情報のデータと,その個人が特定
の商品を購入したかどうかの購入状況のデータにより構
成される。
【0038】モデルによる予測のもとになる項目,住
所,性別,年収等が属性であり,購入状況の「購入し
た」,「購入しない」がクラスである。住所,性別,年
収,購入状況等はレコードとして,顧客通番で管理す
る。
【0039】図6は本発明の重み付け方法の説明図で
ある。図6において,53は重み付け部である。
【0040】55は重み情報である。80は顧客情報で
ある。81は加工データであり,重み情報が住所>性別
>年収の順で購入状況への影響が大きいものであるとさ
れた場合の加工データの例である。購入状況への影響が
小さい年収が顧客情報80から削除されている。
【0041】重み付け部は,次の機能をもつ。 既知入力データ(例えば,図5の顧客情報80)を
入力する。 属性(例えば,住所,性別,年収等)がクラス(例
えば,購入状況)にどの程度,影響を与えているか調
べ,その結果を重み情報として出力する。
【0042】 重み情報をもとに,クラスへの寄与の
小さい属性は取り除く。図6の例の場合,購入状況への
影響が比較的小さい年収を削除したデータを加工データ
として作成する。
【0043】図7は 本発明の重み付け方法の説明図
である。図7は,属性がクラスに寄与する確率分布をも
とに属性に重みを決定する方法を説明するものである。
【0044】90は既知入力データの例であって,属性
は「住所」,「性別」,「年収」であり,クラスは「購
入状況」である。910は既知入力データ90をもとに
確率と頻度を求めるものである。
【0045】確率の値が大きい内容に対応する属性がク
ラスへの寄与が大きい。また,頻度が小さい内容の確率
の値は信頼性に欠けると言える。そこで,図7の例の場
合,頻度が1位以下の内容のものを信頼性が低いとして
除外すると,通番で2番と8番が残る。年収に対応する
ものは残らないので,「年収」のクラスへの寄与は小さ
いと判断できる。通番2番の確率値は2/3であり,通
番8番の確率値は1である。従って,「住所」のクラフ
スの寄与は「性別」のクラスへの寄与より小さいと判断
できる。
【0046】これらを総合して,属性のクラスへの寄与
に関する重みは「性別」>「住所」>「年収」の順であ
ると結論できる。以上は属性ひとつずつでの確率分布を
求めて重みを求めたものであるが,属性の組合せを考慮
して精度の高い重みを決定することもできる。図7の参
照番号920は,そのような場合の一部を示す。
【0047】属性が住所と性別の組合せである時,内容
として「住所」が「神奈川県」,かつ「性別」が「男
性」の場合にクラスが「購入した」の確率は1であり,
頻度は1である等である。
【0048】ここで図4の実施の形態1の構成の動作を
説明する。データ入力手段70から入力された入力デー
タは既知入力データ作成部58により既知入力データと
されてデータ保持手段71に保持される。
【0049】データ保持手段51から既知入力データが
重み付け部53に入力される。重み付け部53は,入力
された既知データに対して重み付けをする。例えば,前
述したように,属性に重みをつけ,属性「年収」へのク
ラスへの寄与が小さい等の時,属性から年収を削除した
既知入力データを作成する。
【0050】モデル学習部61は重み付け部53の作成
した重み情報と加工データを入力する。モデル作成部6
2は,加工データをもとにモデルを購入予測をするモデ
ル63を作成する。モデル評価部64はテストデータに
より作成されたモデルの予測結果を評価する。そして,
モデル作成部62は評価結果に従ってモデルを変更し,
評価結果が一定レベル以上の精度をもつようになった
ら,作成したモデルを確定する。
【0051】モデル作成部62は,例えば,ニューラル
ネットワークを使用し,既知入力データのモデルをニュ
ーラルネットワークの重みとして表現する。あるいは,
決定木アルゴリズムを用いて,既知入力データを木関係
として表現するようにしても良い。あるいは,メモリベ
ースリーゾニング(Memory Based Rea
soning)法を使用し,既知入力データのモデルを
データの距離の関数として表現するようにしても良い。
【0052】分類予測判定部63’はデータ入力手段7
0から入力された未知入力データに作成されたモデルを
適用して分類予測し,結果を出力する。前述の例では,
顧客情報の分類予測装置を作成する場合について説明し
たが,属性として,クレジットカードの顧客の年収,性
別,年令,就業年数,過去の購入履歴等を定め,新規顧
客の危険率を分類予測し,許可判定を行う等の応用も可
能である。その他,本発明は,様々な種類の情報に応用
できるものである。
【0053】図8は本発明の実施の形態2である。図8
において,52は前処理部である。
【0054】57はフィルタ部Aであって,既知入力デ
ータから部分データaと部分データbを取り出すもので
ある。61はモデル学習部である。
【0055】70はデータ入力手段である。71はデー
タ保持手段である。72は出力手段である。
【0056】91は部分データaであって,既知入力デ
ータの一部のデータである。92は部分データbであっ
て,既知入力データの一部のデータである。93は部分
データ保持部であって,部分データaを保持するもので
ある。
【0057】94は中間版モデルであって,学習途中の
モデルである。95はフィルタ部Pである。96は部分
データcであって,部分データbを中間版モデル94に
適用した結果,正しくないと結論された既知入力データ
である。
【0058】図9は,図8のフィルタ部Aの動作を説明
するものである。57はフィルタ部Aである。80は顧
客情報である。
【0059】93は部分データ保持部である。95はフ
ィルタ部Pである。110は部分データaである。
【0060】111は部分データbである。フィルタ部
A(57)の動作の手順は次のとおりである。フィルタ
部Aは既知入力データから部分データ作成する。例え
ば,部分データaと部分データbの分量比を定め,その
比を満たすように既知入力データから無作為に顧客情報
を分割する。あるいは既知入力データを分割し,分割さ
れたデータに対して部分データaと部分データbの分量
比を定め,その比を満たすように無作為に顧客情報を分
割する。あるいは,全データについて,予め全データの
相関を計算しておき,予め設定したしきい値以上に相関
の高いデータに対しては一つのみ選択するようにして,
部分データa,部分データbを求めても良い。
【0061】そして,部分データaを部分データ保持部
93に保持する。部分データbはフィルタ部P(95)
に転送する。図10は図8のフィルタ部Pの動作を説明
するものである。
【0062】図10において,61はモデル学習部であ
る。93は部分データ保持部である。
【0063】94は中間版モデルである。95はフィル
タ部Pである。110は部分データaである。
【0064】112は部分データbである。113は部
分データbであって部分データb(112)をファイル
部Pに入力して判定した結果正しいと判定されたデータ
である。
【0065】114は部分データcであって,部分デー
タb(112)をフィルタ部Pに入力して判定した結果
が正しくないとされたデータである。最初,部分データ
保持部93は部分データaのみを保持する。そして,モ
デル学習部61は部分データaに基づいて中間版モデル
94を作成する。そして,中間版モデル94に部分デー
タbを適用し,正しく出力されたデータと正しくないと
結論されたデータに分類する。そして正しくないと結論
されたデータを部分データcとして部分データ保持部9
3に保持し,部分データaに追加する。さらに,モデル
学習部61は部分データaおよび追加された部分データ
cに基づいて中間版モデル94を修正する。
【0066】なお,中間版モデル94の修正方法は,部
分データbのうち誤りと分類された部分データcを一括
して部分データ保持部に保持し,追加された分割データ
に基づいて中間版モデル94を修正する。
【0067】あるいは,分割データの1レコードずつを
フィルタ部Pに入力し,分類の正否を判定し,誤りと判
定された部分データcをもとに中間版モデル94を修正
する。そして,フィルタ部Pは次の部分データbのレコ
ードを取り出して,さらに修正された中間版モデルに従
って正否を判定する。このような処理を部分データbが
なくなるまで繰り返すようにしても良い。
【0068】図11は本発明の実施の形態3である。図
11は,図8の実施の形態2に重み付け部を付け加えた
ものである。図11において,図8と共通の参照番号は
同一部分を表す。
【0069】52は前処理部である。53は重み付け部
である。54はデータ加工部である。
【0070】55は重み情報である。56は加工データ
である。図11の構成において,重み付け部は,実施の
形態1〔図4参照)で説明したのと同様の方法で既知入
力データに重み付けをし,重み情報55を作成する。ま
た,重みデータに従ってデータ加工部54は既知入力デ
ータを加工した加工データを作成する。フィルタ部A
(57)は加工データをもとにデータを分割する。
【0071】以後の動作は図8の構成の場合と同様であ
る。即ち,部分データ保持部93は部分データaを保持
し,モデル学習部61は最初,部分データaに基づいて
中間版モデル94を作成し,フィルタ部P(95)は,
部分データb(92)を入力し,中間版モデル94にお
いて,分類結果の正否を判定する。そして,正しくない
とされたデータを部分データcとして部分データ保持部
93のデータに追加して保持する。モデル学習部61は
部分データcを追加した分割データに基づいて中間版モ
デル94を修正する。さらに,そのようにして作成した
中間版モデル94について同様の処理を施し,モデル学
習部61は最適モデルを作成する。
【0072】図12は本発明の実施の形態4である。図
12は,既知入力データを任意の仕方で分割し,それぞ
れの分割データに基づいてモデルを作成する。そして,
各モデルを統合することによりモデルを作成するもので
ある。
【0073】図12において,52は前処理部である。
前処理部52において,150はデータ分割部であっ
て,既知入力データを分割データA(91’),分割デ
ータB(92’),分割データN(93’)に分割する
ものである。
【0074】125は分割情報である。61はモデル学
習部である。70はデータ入力手段である。
【0075】71はデータ保持手段である。72は出力
手段である。91’は分割データAである。
【0076】92’は分割データBである。93’は分
割データNである。61はモデル学習部である。
【0077】122はモデル作成部Aであって,分割デ
ータAに基づいてモデルを作成するものである。12
2’はモデルAであって,分割データAに基づいて作成
したモデルである。
【0078】123はモデル作成部Bであって,分割デ
ータBに基づいてモデルを作成するものである。12
2’はモデルBであって,分割データBに基づいて作成
したモデルである。
【0079】124はモデル作成部Nであって,分割デ
ータNに基づいてモデルを作成するものである。12
4’はモデルNであって,分割データNに基づいて作成
したモデルである。
【0080】130はモデル統合部であって,モデル
A,モデルB,モデルNを統合するものである。131
は統合されたモデルである。
【0081】図13は本発明の実施の形態4の説明図で
ある。図13において,150はデータ分割部である。
【0082】80は顧客情報である。91’は分割デー
タAであって,住所が神奈川県のものを取り出すことに
より分割したものである。
【0083】92’は分割データBであって,住所が東
京都のものを取り出すことにより分割したものである。
93’は分割データNであって,住所が千葉県のものを
取り出すことにより分割したものである。
【0084】122は分割モデル作成部Aである。12
2’は分割モデルAである。123は分割モデル作成部
Bである。
【0085】123’は分割モデルBである。124は
分割モデル作成部Nである。124’は分割モデルNで
ある。
【0086】130はモデル統合部である。131は統
合されたモデルである。データ分割部150は既知入力
データを分割する。例えば,図示のように,住所を基に
分割する。住所が神奈川県にあるレコードを取り出し
て,分割データA(91’)を作成する。住所が東京都
にあるレコードを取り出して,分割データB(92’)
を作成する。住所が千葉県にあるレコードを取り出し
て,分割データN(93’)を作成する。モデル作成部
A(122)は分割データA(91’)に基づいて分割
モデルA(122’)を作成する。モデル作成部B(1
23)は分割データB(92’)に基づいて分割モデル
B(123’)を作成する。モデル作成部N(124)
は分割データN(93’)に基づいて分割モデルN(1
24’)を作成する。
【0087】分割モデル統合部130は各モデル(分割
モデルA,分割モデルB,・・・分割モデルN)と分割
情報124をもとに各モデルを統合し,モデル131を
作成する。この場合,未知入力データが入力された時
に,例えば,そのレコードの住所が東京都であるなら,
統合されたモデル131のうちのモデルAで分類予測さ
れる。あるいは,未知入力データが入力された時に,住
所を無視して住所毎の各モデルで結果を予測し,多数決
により決定するようにしても良い。
【0088】また,本発明の実施の形態4の各分割デー
タ(クラスタ)について,同一クラスタ内で同じクラス
値をもつデータを求め,同一クラスタ内では同じクラス
をもつデータは一つのみとして学習データを少なくする
ようにしても良い。
【0089】図14は本発明の実施の形態5である。図
14は,本発明の実施の形態4(図13参照)に重み付
け部を付加したものである。即ち,重み付け部53は既
知入力データに対して重み付けをし,重み情報55と加
工データ56を作成する。加工データ56をデータ分割
部150は分割する。重み情報55はデータ分割部,各
モデル作成部,統合部に送られる。モデル作成部は,分
割データA,分割データB,分割データNに基づいてそ
れぞれモデルA,モデルB,モデルNを作成する。統合
部は各モデルを統合する。
【0090】図14において,図12と共通の番号は同
一部分を表す。53は重み付け部である。54はデータ
加工部である。
【0091】55は重み情報であって,重み付け部53
でデータ分割したデータの重み情報を表す。55’,5
5”,55''' はそれぞれ重み情報(重み情報55に同
じ)であって,それぞれの分割データとともにそれぞれ
のモデル作成部に入力される。
【0092】56は加工データであって,重み付けされ
た既知入力データをもとに加工したデータである。図1
4の構成において,重み付けしたデータをデータ分割す
る点以外は本発明の実施の形態4の動作と同じである。
【0093】図15は本発明の実施の形態6である。図
15はデータ分割部で分割した分割データのそれぞれに
ついて実施の形態2の方法(図8参照)で分割モデルを
作成し,モデルを統合する場合の構成を示す。
【0094】図15において,52は前処理部である。
61はモデル学習部である。
【0095】95はフィルタ部Pであって,中間版モデ
ルA(175)に部分データbを適用し,正しくないと
結論されたデータ(部分データc)と正しいと結論され
る分割データに分類するものである。
【0096】95’はフィルタ部P’であって,中間版
モデルB(176)に部分データfを適用し,正しくな
いと結論されたデータ(部分データg)と正しいと結論
される分割データに分類するものである。,150はデ
ータ分割部である。
【0097】151は分割データAである。152は分
割データBである。161はフィルタ部Aであって,分
割データAを部分データaと部分データbに分割するも
のである。
【0098】162はフィルタ部Bであって,分割デー
タBを部分データeと部分データfに分割するものであ
る。171は部分データaである。
【0099】172は部分データbである。173は部
分データeである。174は部分データfである。
【0100】175は中間版分割モデルAであって,部
分データaもしくは部分データaに部分データcを加え
た分割データをもとに作成した中間のモデルである。1
76は中間版モデルBであって,部分データeもしくは
部分データeに部分データgを加えた分割データをもと
に作成した中間のモデルである。
【0101】181は部分データcであって,中間版モ
デルA(175)に部分データbを適用した結果,正し
くないと結論されたデータである。182は部分データ
gであって,中間版モデルB(176)に部分データb
を適用した結果,正しくないと結論されたデータであ
る。
【0102】185は部分データ保持部Aであって,部
分データaおよび部分データcを保持するものである。
186は部分データ保持部Bであって,部分データeお
よび部分データgを保持するものである。
【0103】191はモデルAであって,部分データa
並びに部分データaに部分データcを付け加えた分割デ
ータに従って作成したモデルである。192はモデルB
であって,部分データeおよび部分データaに部分デー
タgを付け加えた分割データに従って作成したモデルで
ある。
【0104】195はモデル統合部である。196は作
成されたモデルである。図15の構成において,データ
分割部150は既知入力データを分割データAと分割デ
ータBに分割する。分割の仕方は任意である。例えば,
均等に分割する。あるいは,図13で説明したように,
都道府県別等の属性により分割しても良い。
【0105】フィルタ部A(161)は分割データAを
もとに,任意にデータ分割し,部分データaと部分デー
タbを作成する。そして,部分データaは部分データ保
持部A(185)に保持され,モデル学習部61は部分
データaに基づいて中間版モデルA(175)を作成す
る。そして,フィルタ部P(95)に部分データbを適
用し,正否を判定する。そして,正しくないと結論され
る部分データcを求め,部分データ保持部A(185)
に保持して,部分データaに付け加える。モデルA(1
91)は,部分データcを付け加えた分割データにより
中間版モデルA(175)を修正し,上記の処理をさら
に繰り返す。そして,最適なモデルA(191)を作成
する。
【0106】同様の処理を分割データB(152)に対
して行い,分割データB(152)に基づいてモデルB
(192)を作成する。そして,モデル統合部195で
モデルA(191)とモデルB(192)を統合し,モ
デル196を作成する。
【0107】図16は本発明の実施の形態7である。図
16は,本発明の実施例の形態4の方法(図12参照)
において,分割データに重み付けをするものである。即
ち,既知入力データを任意の方法で分割し,分割された
データのそれぞれに対して重み付けを行い,重み付けさ
れたそれぞれの分割データをもとにモデルを作成し,そ
れぞれのモデルを統合するものである。
【0108】図16において図12と共通の番号は共通
部分を示す。図16の構成において,53は重み付け部
Aであって,分割データA(91’)に重み付けをする
ものである。
【0109】53’は重み付け部Bであって,分割デー
タB(92’)に重み付けをするものである。55’は
分割データA’(161’)の重み情報である。
【0110】55”は分割データB’(162’)の重
み情報である。161’は分割データA’であって,分
割データA(91’)を重み付けして作成したものであ
る。
【0111】162’は分割データB’であって,分割
データB(92’)を重み付けして作成したものであ
る。図16の構成において,データ分割部150は既知
入力データを分割し,分割データA(91’)と分割デ
ータB(92’)を作成する。分割の方法は任意であ
る。重み付け部A(53)は分割データA(91’)に
重み付けをする。また,重み付け部B(53’)は分割
データB(92’)に重み付けをする。分割データAを
重み付けして得た分割データA’(分割データAの加工
データ)とその重み情報A(55’)を基に,モデル学
習部121はモデルA(122’)を作成する。
【0112】同様に,分割データB(92’)を基に,
モデルB(123’)を作成する。モデル統合部130
は,モデルA(122’)とモデルB(123’)と分
割情報125に基づいて統合し,モデル131を作成す
る。
【0113】図17は本発明の実施例8である。図17
の実施例は,実施の形態6(図15参照)に重み付け部
を付加し,重み付けされた既知入力データについて実施
の形態6の方法でモデルを作成する場合の構成である。
【0114】図17において,図15と共通番号は共通
部分を示す。図17において,53は重み付け部であ
る。
【0115】55は重み情報である。56は加工データ
である。図17の構成において,重み付けしたデータを
分割してモデルを作成する点以外は図15の構成の動作
と同様である。
【0116】図18は本発明の実施例9である。図18
の実施例は,本発明の実施の形態6(図15参照)にお
いて,分割したデータ(分割データAと分割データB)
に重み付けをし,重み付けされたそれぞれの分割データ
に対して実施例6の方法でモデルを作成し,各モデルを
統合するものである。
【0117】図18において,図15と共通番号は共通
部分を示す。図18において,53,53’は重み付け
部である。
【0118】55’は重み情報Aであって,分割データ
Aを分割した重み情報である。56’は加工データAで
あって,分割データAの加工データである。55”は重
み情報Bであって,分割データBを分割した重み情報で
ある。
【0119】56”は加工データBであって,分割デー
タBの加工データである。図8の構成において,分割し
たデータを重み付けし,それぞれの分割データに基づい
てモデルを作成する点以外は本発明の実施例の形態6
(図15参照)の構成の動作と同様である。
【0120】
【発明の効果】本発明によれば,モデル作成の対象にな
る情報が大量にあっても,前処理でデータの重複,不要
な情報を取り除くことを容易にできる。そのため,大量
の情報をもとに学習しながら効率良く分類予測モデルを
作成できる。そのため,本発明によれば,精度の高い分
類予測装置を短い時間で作成することができる。
【図面の簡単な説明】
【図1】本発明の基本構成を示す図である。
【図2】本発明のシステム構成の実施例を示す図であ
る。
【図3】本発明の記憶媒体の構成を示す図である。
【図4】本発明の実施の形態1を示す図である。
【図5】本発明の対象とするデータの例を示す図であ
る。
【図6】本発明の重み付け方法を示す図である。
【図7】本発明の重み付け方法の説明図である。
【図8】本発明の実施の形態2を示す図である。
【図9】本発明のフィルタ部Aの動作説明図である。
【図10】本発明のフィルタ部Pの動作説明図である。
【図11】本発明の実施の形態3を示す図である。
【図12】本発明の実施の形態4を示す図である。
【図13】本発明の実施の形態4の動作説明図である。
【図14】本発明の実施の形態5を示す図である。
【図15】本発明の実施の形態6を示す図である。
【図16】本発明の実施の形態7を示す図である。
【図17】本発明の実施の形態8を示す図である。
【図18】本発明の実施の形態9を示す図である。
【図19】従来の技術を示す図である。
【符号の説明】
1:データ処理手段 2:前処理部 3:モデル学習部 4:モデル保持部 10:データ入力手段 11:データ保持手段 12:出力手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 前田 一穂 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 (72)発明者 本間 克已 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 データ入力手段とデータ処理手段とデー
    タ出力手段を備え,既知の入力データを基に分類予測を
    するモデルを作成し,未知の入力データに対して分類予
    測する分類予測装置において,データ処理手段は,既知
    入力データのデータ量を縮小する前処理部と,前処理さ
    れた既知入力データを基に学習しながらモデルを作成す
    るモデル学習部とを備えることを特徴とする分類予測装
    置。
  2. 【請求項2】 前処理部は多次元の既知入力データの属
    性に重みを付ける重み付け部を備えることを特徴とする
    請求項1に記載の分類予測装置。
  3. 【請求項3】 前処理部は,既知入力データの取捨選択
    を行うフィルタ部を備え,モデル学習部は選択された既
    知入力データを基にモデルを作成することを特徴とする
    請求項1に記載の分類予測装置。
  4. 【請求項4】 前処理部は既知入力データを分割するデ
    ータ分割部を備え,モデル学習部はそれぞれの分割され
    た既知入力データをもとにそれぞれのモデルを作成し,
    作成されたモデルを統合する統合部を備えることを特徴
    とする請求項1に記載の分類予測装置。
  5. 【請求項5】 モデル学習部としてニューラルネットワ
    ークを用いて既知入力データのモデルをニューラルネッ
    トワークの重みとして表現することを特徴とする請求項
    1,2,3もしくは4に記載の分類予測装置。
  6. 【請求項6】 モデル学習部として決定木アルゴリズム
    を用い,既知入力データを木関係として表現することを
    特徴とする請求項1,2,3,4もしくは5に記載の分
    類予測装置。
  7. 【請求項7】 モデル学習部としてメモリベースリーゾ
    ニングを用いて既知入力データのモデルをデータの距離
    の関数として表現することを特徴とする請求項1,2,
    3,4,5もしくは6に記載の分類予測装置。
  8. 【請求項8】 データ入力手段とデータ出力手段を備え
    たコンピュータにより既知入力データを基に分類予測を
    するモデルを作成し,未知の入力データに対して分類予
    測するコンピュータプログロムを記憶する記憶媒体にお
    いて,該コンピュータプログラムは,既知入力データの
    データ量を縮小する前処理プログラムと,前処理された
    既知入力データをもとに学習しながらモデルを作成する
    学習プログラムとを備えることを特徴とする分類予測す
    るコンピュータプログロムを記憶した記憶媒体。
JP25995697A 1997-09-25 1997-09-25 分類予測装置およびそのコンピュータプログラムを記憶した記憶媒体 Pending JPH1196132A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25995697A JPH1196132A (ja) 1997-09-25 1997-09-25 分類予測装置およびそのコンピュータプログラムを記憶した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25995697A JPH1196132A (ja) 1997-09-25 1997-09-25 分類予測装置およびそのコンピュータプログラムを記憶した記憶媒体

Publications (1)

Publication Number Publication Date
JPH1196132A true JPH1196132A (ja) 1999-04-09

Family

ID=17341263

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25995697A Pending JPH1196132A (ja) 1997-09-25 1997-09-25 分類予測装置およびそのコンピュータプログラムを記憶した記憶媒体

Country Status (1)

Country Link
JP (1) JPH1196132A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002163434A (ja) * 2000-05-26 2002-06-07 Ncr Internatl Inc 一以上の顧客の動向の統計的推定量を決定する方法および装置
JP2003519827A (ja) * 1999-05-18 2003-06-24 シーメンス アクチエンゲゼルシヤフト クラスタに対する、所定の入力量の帰属度をコンピュータ支援により検出する方法、相互に結合された計算要素の装置、クラスタに対する、所定入力量の帰属度をコンピュータ支援により求めるためのコンピュータプログラム坦体、クラスタに対する、所定入力量の帰属度をコンピュータ支援により求めるためのメモリ媒体
JP2003527651A (ja) * 1999-06-01 2003-09-16 ルーセント テクノロジーズ インコーポレーテッド 対象の行動パターンに関する更新可能なデータベースを構築する方法
JP2003337934A (ja) * 2002-05-21 2003-11-28 Gaketsu Den データベース作成プログラム、同プログラムを記録したコンピュータ読み取り可能な記録媒体、データベース作成装置、同方法及びデータベース作成システム
US7447641B2 (en) 2002-06-27 2008-11-04 International Business Machines Corporation User interface and algorithm to handle “unknown” data in card-sorting exercise and cluster analysis
JP2008541295A (ja) * 2005-05-18 2008-11-20 カタリナ マーケティング コーポレーション トランザクションデータを処理するためのアーキテクチャ及びデータ構造
KR20150094408A (ko) * 2014-02-11 2015-08-19 한국전자통신연구원 사물 데이터를 이용한 클라우드 환경에서의 서비스 인지 시스템
JP2020077066A (ja) * 2018-11-05 2020-05-21 株式会社リコー 学習装置および学習方法
JP2020077070A (ja) * 2018-11-05 2020-05-21 株式会社リコー 学習装置および学習方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003519827A (ja) * 1999-05-18 2003-06-24 シーメンス アクチエンゲゼルシヤフト クラスタに対する、所定の入力量の帰属度をコンピュータ支援により検出する方法、相互に結合された計算要素の装置、クラスタに対する、所定入力量の帰属度をコンピュータ支援により求めるためのコンピュータプログラム坦体、クラスタに対する、所定入力量の帰属度をコンピュータ支援により求めるためのメモリ媒体
JP2003527651A (ja) * 1999-06-01 2003-09-16 ルーセント テクノロジーズ インコーポレーテッド 対象の行動パターンに関する更新可能なデータベースを構築する方法
JP2002163434A (ja) * 2000-05-26 2002-06-07 Ncr Internatl Inc 一以上の顧客の動向の統計的推定量を決定する方法および装置
JP2003337934A (ja) * 2002-05-21 2003-11-28 Gaketsu Den データベース作成プログラム、同プログラムを記録したコンピュータ読み取り可能な記録媒体、データベース作成装置、同方法及びデータベース作成システム
US7447641B2 (en) 2002-06-27 2008-11-04 International Business Machines Corporation User interface and algorithm to handle “unknown” data in card-sorting exercise and cluster analysis
JP2008541295A (ja) * 2005-05-18 2008-11-20 カタリナ マーケティング コーポレーション トランザクションデータを処理するためのアーキテクチャ及びデータ構造
KR20150094408A (ko) * 2014-02-11 2015-08-19 한국전자통신연구원 사물 데이터를 이용한 클라우드 환경에서의 서비스 인지 시스템
JP2020077066A (ja) * 2018-11-05 2020-05-21 株式会社リコー 学習装置および学習方法
JP2020077070A (ja) * 2018-11-05 2020-05-21 株式会社リコー 学習装置および学習方法

Similar Documents

Publication Publication Date Title
CN111291816B (zh) 针对用户分类模型进行特征处理的方法及装置
US9785953B2 (en) System and method for generating demand groups
JP2002543538A (ja) 実験データの分布状階層的発展型モデリングと可視化の方法
US20210374164A1 (en) Automated and dynamic method and system for clustering data records
CN112765230B (zh) 基于互联网金融的支付大数据分析方法及大数据分析系统
CN111783873A (zh) 基于增量朴素贝叶斯模型的用户画像方法及装置
JPH1196132A (ja) 分類予測装置およびそのコンピュータプログラムを記憶した記憶媒体
US20230076083A1 (en) Methods and apparatus for generating training data to train machine learning based models
JP2002109208A (ja) 信用リスク管理方法、分析モデル決定方法、分析サーバ及び分析モデル決定装置
CN109977977B (zh) 一种识别潜在用户的方法及对应装置
CN112634022A (zh) 基于不平衡数据处理的信贷风险评估方法与系统
US7882127B2 (en) Multi-category support for apply output
CN115205011B (zh) 基于lsf-fc算法的银行用户画像模型生成方法
CN114998001A (zh) 业务类别识别方法、装置、设备、存储介质和程序产品
CN111984637B (zh) 数据建模中的缺失值处理方法和装置、设备及存储介质
CN114626940A (zh) 数据分析方法、装置及电子设备
CN113034264A (zh) 客户流失预警模型的建立方法、装置、终端设备及介质
CN114297052A (zh) 测试数据生成方法及装置
JP2003323601A (ja) 信頼性尺度付き予測装置
CN111400375A (zh) 一种基于财务业务数据商机挖掘方法及装置
CN111753992A (zh) 筛选方法和筛选系统
CN115953166B (zh) 基于大数据智能匹配的客户信息管理方法及系统
JP2000099575A (ja) 有望顧客抽出方法及び装置
US20050114277A1 (en) Method, system and program product for evaluating a data mining algorithm
Parthasarathy et al. Optimizing ml classification models for constrained EDA resource budgets

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060529

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061010

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070306