JP3293582B2 - データ分類装置、データ分類方法およびデータ分類用プログラムを記録した記録媒体 - Google Patents

データ分類装置、データ分類方法およびデータ分類用プログラムを記録した記録媒体

Info

Publication number
JP3293582B2
JP3293582B2 JP3067699A JP3067699A JP3293582B2 JP 3293582 B2 JP3293582 B2 JP 3293582B2 JP 3067699 A JP3067699 A JP 3067699A JP 3067699 A JP3067699 A JP 3067699A JP 3293582 B2 JP3293582 B2 JP 3293582B2
Authority
JP
Japan
Prior art keywords
data
attribute
input
neural network
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3067699A
Other languages
English (en)
Other versions
JP2000231548A (ja
Inventor
伸克 北島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP3067699A priority Critical patent/JP3293582B2/ja
Publication of JP2000231548A publication Critical patent/JP2000231548A/ja
Application granted granted Critical
Publication of JP3293582B2 publication Critical patent/JP3293582B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、性質の異なる少な
くとも2種以上のデータを、その性質ごとに分類するデ
ータ分類装置、データ分類方法およびデータ分類用プロ
グラムを記録した記録媒体に関する。
【0002】
【従来の技術】金融機関などにおける与信審査、マーケ
ティング等の処理を行う装置は、対象となる顧客データ
や商品データのような属性データをある一定の基準で分
類するデータ分類装置である。従来、データ分類の一手
法として広く用いられている誤差逆伝播(Back Propaga
tion,以下、BPという)法を利用した階層型ニューラ
ルネットワークを用いるデータ分類装置は、非線型で高
性能なデータ分類が可能であり、文字認識等の連続数値
データでは効果を実証している。階層型ニューラルネッ
トワークについては、例えば D. E. Rumelhart他のLear
ning Internal Representations by Error Propagatio
n, PARALLEL DISTRIBUTED PROCESSING Explorations in
the Microstructure of Cognition, The Massachusett
s Instituteof Technology, pp. 318 - 362 (1986年)に
詳しい。
【0003】従来のデータ分類装置について、図面を参
照して詳細に説明する。ここで、図16は、従来のデー
タ分類装置の一構成例を示すブロック図である。図にお
いて、従来のデータ分類装置は、キーボード等の入力装
置1、情報を記憶する記憶装置2、プログラム制御によ
り動作するデータ処理装置3、およびディスプレイ装置
や印刷装置等の出力装置4からなる。記憶装置2は、過
去属性データ記憶部21を備える。過去属性データ記憶
部21は、蓄積した過去の属性データを記憶するととも
に、入力装置1から入力されたデータを記憶する。デー
タ処理装置3は、BP学習部35およびBP推定部36
を備える。
【0004】BP学習部35は、過去属性データ記憶部
21から過去の属性データを学習データとして取得し、
BP法のアルゴリズムにより学習する。BP法のアルゴ
リズムについては、前述した、例えば D. E. Rumelhart
他のLearning Internal Representations by Error Pro
pagation, PARALLEL DISTRIBUTED PROCESSING Explorat
ions in the Microstructure of Cognition, The Massa
chusetts Institute of Technology, pp. 318 - 362 (1
986年)に詳しい。
【0005】BP推定部36は、BP学習部35から取
得したBP学習結果および入力装置1から取得した新規
属性データに基づいて、新規属性データの分類推定を行
い、分類結果を出力装置4に表示する。
【0006】
【発明が解決しようとする課題】ところで、与信審査、
マーケティング等で分類対象とする属性データは、一般
に、職種、住居等の選択肢、誕生月等の離散値等といっ
た属性項目を含むため、BP法で実績のある文字認識等
のデータのように連続数値のみから構成されていない。
また、上述したような属性データの性質に対応したニュ
ーラルネットワークの構造決定方法も見出されていな
い。したがって、従来技術では、安定して高い分類性能
を得ることができないという問題があった。
【0007】この発明は上述した事情に鑑みてなされた
もので、与信審査、マーケティング等に関するデータ
を、その性質ごとに分類する際、安定して高い分類性能
を得ることができるデータ分類装置、データ分類方法お
よびデータ分類用プログラムを記録した記録媒体を提供
することを目的とする。
【0008】
【課題を解決するための手段】上述した問題点を解決す
るために、請求項1記載の発明では、過去における属性
データを記憶する過去属性データ記憶手段と、前記過去
属性データ記憶手段に記憶されている属性データの属性
項目をカテゴリ型に統一するか、数値型に統一するかを
決定する属性項目統一手段と、前記属性項目統一手段に
より属性データの属性項目がカテゴリ型に統一された場
合、各カテゴリに該当するデータ数のクロス集計を行う
データ集計手段と、前記データ集計手段により集計され
たデータに基づいて、ニューラルネットワークに入力す
る属性項目数を決定する入力属性項目数決定手段と、前
記入力属性項目数決定手段により決定された属性項目の
性質に基づいて、データを階層型ニューラルネットワー
クの入力に適した整形を施す入力データ整形手段と、前
記入力属性項目数決定手段の結果を用いてニューラルネ
ットワークの構造を決定し、入力データ整形部から得ら
れた学習データを用いて誤差逆伝播法によって学習する
誤差逆伝播学習手段と、前記誤差逆伝播学習手段からの
誤差逆伝播学習結果および入力データ整形手段からの新
規属性データに基づいて、新規の属性データの分類推定
を行う誤差逆伝播推定手段とを備えることを特徴とす
る。
【0009】また、請求項2記載の発明では、請求項1
記載のデータ分類装置において、前記入力データ整形手
段によりニューラルネットの入力用に整形された過去の
属性データおよびニューラルネットの入力用に整形され
た新規の属性データを記憶する整形属性データ記憶手段
を具備することを特徴とする。
【0010】また、請求項3記載の発明では、請求項1
または2記載のデータ分類装置において、前記属性デー
タは、顧客データであることを特徴とする。
【0011】また、上述した問題点を解決するために、
請求項4記載の発明では、過去における属性データを記
憶し、属性データの属性項目をカテゴリ型に統一する
か、数値型に統一するかを決定し、過去属性データの属
性項目をカテゴリ型に統一した場合、各カテゴリに該当
するデータ数のクロス集計を行い、ニューラルネットワ
ークに入力する属性項目数を決定し、属性項目の性質に
従って、データを階層型ニューラルネットワークの入力
に適した整形を施し、入力属性項目数決定の結果を用い
てニューラルネットワークの構造を決定し、入力データ
整形の結果得られた学習データを用いて誤差逆伝播法に
よって学習し、誤差逆伝播学習結果と整形した新規属性
データとを用いて、新規属性データの分類推定を行うこ
とを特徴とする。
【0012】また、請求項5記載の発明では、請求項4
記載のデータ分類方法において、ニューラルネットの入
力用に整形された過去の属性データおよびニューラルネ
ットの入力用に整形された新規の属性データを記憶する
ことを特徴とする。
【0013】また、請求項6記載の発明では、請求項4
または5記載のデータ分類方法において、前記属性デー
タは、顧客データであることを特徴とする。
【0014】また、上述した問題点を解決するために、
請求項7記載の発明では、過去における属性データを記
憶する過去属性データ記憶処理と、前記過去属性データ
記憶処理により記憶された属性データの属性項目をカテ
ゴリ型に統一するか、数値型に統一するかを決定する属
性項目統一処理と、属性項目統一処理により過去属性デ
ータの属性項目をカテゴリ型に統一した場合、各カテゴ
リに該当するデータ数のクロス集計を行うデータ集計処
理と、ニューラルネットワークに入力する属性項目数を
決定する入力属性項目数決定処理と、前記入力属性項目
数決定手段により決定された属性項目の性質に基づい
て、データを階層型ニューラルネットワークの入力に適
した整形を施す入力データ整形処理と、入力属性項目数
決定部の結果を用いてニューラルネットワークの構造を
決定し、入力データ整形処理の結果から得られた学習デ
ータを用いて誤差逆伝播法によって学習する誤差逆伝播
学習処理と、、前記誤差逆伝播学習手段からの誤差逆伝
播学習結果および入力データ整形手段からの新規属性デ
ータに基づいて、新規属性データの分類推定を行う誤差
逆伝播推定処理とからなるプログラムを記録することを
特徴とする。
【0015】また、請求項8記載の発明では、請求項7
記載の記録媒体において、ニューラルネットの入力用に
整形された過去の属性データおよびニューラルネットの
入力用に整形された新規の属性データを、整形属性デー
タとして記憶する属性データ記憶処理からなるプログラ
ムを記録することを特徴とする。
【0016】また、請求項9記載の発明では、請求項7
または8に記載の記録媒体において、前記属性データ
は、顧客データであることを特徴とする。
【0017】この発明では、属性項目統一手段、データ
集計手段、入力属性項目数決定手段、入力データ整形手
段によって、与信審査、マーケティング等で分類対象と
する属性データを、階層型ニューラルネットワークの入
力に適した構成に加工する。また、誤差逆伝播学習手段
により、入力属性項目数決定手段の結果を用いてニュー
ラルネットワークの構造を決定し、入力データ整形手段
から得られた学習データを用いて誤差逆伝播法によって
学習し、誤差逆伝播推定手段により誤差逆伝播学習手段
からの誤差逆伝播学習結果および入力データ整形手段か
らの新規属性データに従って、新規属性データの分類推
定を行う。したがって、安定して高い分類性能を得るこ
とが可能になる。
【0018】
【発明の実施の形態】以下、図面を用いて本発明の実施
の形態を説明する。 A.第1実施形態 A−1.第1実施形態の構成 図1は、本発明の第1実施形態によるデータ分類装置の
構成を示すブロック図である。なお、図16に対応する
部分には同一の符号を付けて説明を省略する。図におい
て、本第1実施形態によるデータ分類装置は、キーボー
ド等の入力装置1、情報を記憶する記憶装置2、プログ
ラム制御により動作するデータ処理装置300、および
ディスプレイ装置や印刷装置等の出力装置4からなる。
データ処理部300は、属性項目統一部31、データ集
計部32、入力属性項目数決定部33、入力データ整形
部34、BP学習部35、およびBP推定部36からな
る。
【0019】過去属性データ記憶部21は、前述したよ
うに、入力装置1から入力された過去における属性デー
タを記憶する。ここで、図2は、属性データの一例を示
す概念図である。属性データは、データの属性、データ
の型、およびデータ値からなる。図示の例では、データ
の属性「年齢」に対してはデータの型「連続数値」およ
びそのデータが取り得るデータ値として「18〜10
0」、データの属性「性別」に対してはデータの型「カ
テゴリ」およびそのデータが取り得るデータ値として
「男、女」、データの属性「年収」に対してはデータの
型「カテゴリ」およびそのデータが取り得るデータ値と
して「100万円以下、100〜500万円、500〜
1000万円、1000万円以上」が設定されている。
【0020】同様に、データの属性「職種」に対しては
データの型「カテゴリ」およびそのデータが取り得るデ
ータ値として「事務、研究、販売、自営、技術」、デー
タの属性「業種」に対してはデータの型「カテゴリ」お
よびそのデータが取り得るデータ値として「農業、漁
業、不動産、製造、流通、サービス、金融」、データの
属性「婚姻」に対してはデータの型「カテゴリ」および
そのデータが取り得るデータ値として「未婚、既婚、離
別」、データの属性「誕生月」に対してはデータの型
「離散数値」およびそのデータが取り得るデータ値とし
て「1,2,3,4,5,6,7,8,9,10,1
1,12」、さらに、データの属性「当社商品に関する
満足度」に対してはデータの型「カテゴリ」およびその
データが取り得るデータ値として「非常に満足、満足、
どちらとも言えない、不満、非常に不満」が設定されて
いる。
【0021】属性項目統一部31は、過去属性データ記
憶部21に記憶されている属性データの属性項目をカテ
ゴリ型に統一するか、数値型に統一するかを決定する。
ここで、カテゴリ型属性項目とは、図2に示す「職種」
のようにデータ間の大小比較や演算に意味がない、単に
種類あるいは選択肢を示す属性項目である。カテゴリ型
属性項目も実際のデータ表現上は数値に置き換えるが、
その数字は記号としての意味しかない。図2に示す「当
社商品に関する満足度」のような段階評価は、カテゴリ
型であるが、選択肢の順序に意味がある特殊なカテゴリ
型である。
【0022】一方、数値型属性項目とは、図2に示す
「年齢」のように、データ間の大小比較や演算を行った
ときに意味がある数値になる属性項目である。数値型属
性項目には、図2に示す「年齢」のように、ある範囲内
のどの数値も取り得る連続数値型属性項目と、図2に示
す「誕生月」のように飛び飛びの数値を取る離散数値型
属性項目がある。数値型属性項目は、数値の取り得る範
囲をいくつかの範囲に区切ることによって、常にカテゴ
リ型に変換可能である。例えば、図2に示す属性データ
の例では、本来連続数値である「年収」を4個のカテゴ
リ型に変換している。
【0023】カテゴリ型属性項目で数値データに変換で
きるデータは、例えば図2に示す「当社商品に関する満
足度」のような段階評価がある。段階評価は、段階順に
数値に置き換えることによって、数値データに変換可能
である。ここで、図3は、段階評価を数値に置き換えた
例を示す概念図である。図示の例では、「当社商品に関
する満足度」のデータ値「非常に満足、満足、どちらと
も言えない、不満、非常に不満」を、それぞれ「5,
4,3,2,1」に変換することで、数値データとして
取り扱うことができる。
【0024】属性項目統一部31において、属性データ
の属性項目をカテゴリ型と数値型のどちらに統一するか
の基準は、例えば次の通りである。段階評価以外のカテ
ゴリ型属性項目が存在する場合には、カテゴリ型に統一
する。カテゴリ型属性項目が段階評価だけの場合は、カ
テゴリ型と数値型のどちらに統一するかをユーザが入力
装置1により選択する。属性項目統一部31は、過去属
性データの属性項目をカテゴリ型に統一する場合には、
データをデータ集計部32に送り、数値型に統一する場
合には、データを入力属性項目数決定部33に送る。
【0025】データ集計部32は、過去属性データの属
性項目をカテゴリ型に統一した場合、各カテゴリに該当
するデータ数のクロス集計を行う。ここで、数値データ
をカテゴリデータに変換する場合のカテゴリは、ユーザ
が入力装置1により決定する。データ集計部32は、各
属性項目のカテゴリ値毎に基準値の計算を行い、結果を
提示する。この基準値は、例えば与信審査の場合の不良
率などがある。図2に示す属性項目「職種」に対して不
良率を計算した例を図4に示す。
【0026】データ集計部32は、上記基準値の計算結
果をもとにしたユーザの指定により、カテゴリの再決定
および基準値の再計算を行う。例えば、図2に示す属性
データの例では、属性項目「年収」は「100万円以
下、100〜500万円、500〜1000万円、10
00万円以上」の4カテゴリ値を持っている。このカテ
ゴリ値で基準値に対する傾向がはっきりした場合、例え
ば年収が高いカテゴリ値になるほど不良率が下がった場
合等には、ユーザは上記カテゴリ分けを採用する可能性
が高いが、不良率に対するカテゴリ値の傾向が明確でな
い場合には、連続数値の年収のデータをもとにカテゴリ
分けをやり直す可能性が高い。データ集計部32は、こ
のような場合に基準値の再計算を行う。データ集計部3
2は、上記基準値の結果をユーザが了承した時点で、集
計したデータを入力属性項目数決定部33に供給する。
【0027】入力属性項目数決定部33は、ニューラル
ネットワークに入力する属性項目数を決定する。属性項
目数の決定方法には、例えば、分類結果に対する影響度
の大きい属性項目を、それらの影響度を100分率化し
た場合の和が90%になるまで選ぶ方法等がある。次
に、入力データ整形部34は、属性項目の性質に従っ
て、データを階層型ニューラルネットワークの入力に適
した整形を施す。すなわち、入力データ整形部34は、
入力装置1から入力された新規属性データを、学習デー
タと同じ形態に整形し、BP推定部36に供給するとと
もに、新規属性データを過去属性データ記憶部21に供
給する。具体的には、属性項目が数値である場合、例え
ば数値を[0.0, 1.0]あるいは、[−0.5,
0.5]の範囲等に正規化する。属性項目がカテゴリ
である場合、例えばカテゴリ数分のビット値を用意し、
対応するビットだけに「1」を立て、それ以外のビット
は「0」にする。カテゴリ型属性項目の整形方法の例を
図6に示す。また、属性項目が段階評価のカテゴリであ
る場合、例えばカテゴリ数分のビット値を用意し、図7
に示すように表現する方法もある。
【0028】次に、BP学習部35は、入力属性項目数
決定部33の結果を用いてニューラルネットワークの構
造を決定し、入力データ整形部34から得られた学習デ
ータを用いてBP法のアルゴリズムに従って学習する。
入力属性項目数決定部33の結果を用いたニューラルネ
ットワークの構造決定方法には、例えば入力属性項目数
決定部33で決定した入力属性項目数を中間層ユニット
数にする方法がある。
【0029】BP法のアルゴリズムについては、前述し
た、例えば D. E. Rumelhart他のLearning Internal Re
presentations by Error Propagation, PARALLEL DISTR
IBUTED PROCESSING Explorations in the Microstructu
re of Cognition, The Massachusetts Institute of Te
chnology, pp. 318 - 362 (1986年)に詳しい。
【0030】BP推定部36は、BP学習部35から取
得したBP学習結果、および入力データ整形部34から
取得した新規属性データに従って、新規属性データの分
類推定を行い、結果を出力部4に表示する。より具体的
には、BP推定部36は、BP推定の結果を評価し、推
定結果が予め決めた基準に達した場合、データ分類処理
を出力装置4に表示して終了する。一方、BP推定部3
6は、BP推定の結果を評価し、推定結果が予め決めた
基準に達しなかった場合、属性項目統一部31の処理か
らやり直すか、パラメータ設定を変更してBP学習のみ
をやり直すかをユーザに指定させ、その指定に対応する
処理を行う。ここで、予め決めた基準には、例えば正答
率の下限、誤差の上限等がある。
【0031】A−1.第1実施形態の動作 次に、具体的な実施例を用いて本第1実施形態の動作を
説明する。ここで、図11は、本第1実施形態の動作を
説明するためのフローチャートである。なお、以下で
は、図2に示す形式の項目からなる申込用紙で金融機関
における与信審査を行う例について説明する。また、過
去のデータは、既に過去属性データ記憶部21に記憶さ
れているとする。
【0032】まず、動作が開始すると(S1201)、
属性項目統一部31において、属性データの属性項目を
カテゴリ型に統一するか、数値型に統一するかを決定す
る(S1202)。図2に示す属性データには、「職
種」、「業種」等の段階評価以外のカテゴリデータが存
在するので、全ての属性項目をカテゴリ型に統一する
(S1203)。「職種」等のカテゴリデータは、例え
ば図8に示すように数値化する。また、「当社商品に関
する満足度」は、例えば図3に示すように数値化する。
そして、「年齢」のような数値データは、例えば図9に
示すようなカテゴリを設定し、その上で図9に示す入力
属性項目数決定部用入力値欄のように数値化する。属性
項目統一部31の出力結果の例を図10に示す。
【0033】属性項目統一部31は、属性項目をカテゴ
リ型に統一した場合には、結果をデータ集計部32に送
り、数値型に統一した場合には、結果を入力属性項目数
決定部33に送る。次に、データ集計部32において、
各カテゴリに該当するデータ数のクロス集計を行い(S
1204)、各属性項目のカテゴリ値ごとに基準値の計
算を行い(S1205、S1206)、結果を出力装置
4に提示する。ここで、基準値として不良率を求めたク
ロス集計の結果の例を図4に示す。
【0034】次に、入力属性項目数決定部33におい
て、データ型に応じて、中間層ユニット数の基準値を決
定するとともに(S1207)、ニューラルネットワー
クに入力する属性項目数を決定し(S1208)、BP
学習部35に供給する。なお、数値型に統一する場合に
は、直接、中間層ユニット基準数を決定する(S120
7)。中間層ユニット数の基準値の決定方法には、例え
ば入力属性項目数を採用する方法等がある。また、属性
項目数の決定は、例えば、分類結果に対する影響度の大
きい属性項目を、それらの影響度を100分率化した場
合の和が90%になるまで選ぶ等の方法で行う。
【0035】分類結果に対する影響度は、例えば、属性
項目がカテゴリデータの場合、数量化2類を行った場合
のレンジを用いる。数量化2類の方法については、例え
ば「1993年12月、菅民郎著、初心者がらくらく読
める多変量解析の実践、下、44〜116頁」に詳し
い。ここで、100分率化した影響度の総和が90%超
えた時点でニューラルネットへの属性項目数を決定した
場合の、属性項目の影響度のグラフの例を図5に示す。
なお、属性項目が数値データの場合、例えば数量化2類
の代わりに判別分析を行う方法も考えられる。
【0036】次に、入力データ整形部34において、分
類目的に応じてデータ個数の調節を行う(S120
9)。データ個数の調節方法には、例えば次のような例
がある。通常与信審査において、過去に期限までに借金
を返済しなかった顧客のデータ(不良データ)は、期限
までに借金を返済したデータ(正常データ)に比べて個
数が少ない。このような場合、保持している不良データ
をコピーして、正常データとほぼ同数にする等してデー
タ個数の調節を行う。
【0037】BP学習部35において、入力データ整形
部34から学習データを得て、入力項目数決定部33か
ら中間層ユニット数の基準値を受け取って、BP法のア
ルゴリズムに従って学習を行う(S1210)。学習結
果は、BP推定部36に供給される。次に、入力データ
整形部34において、入力属性項目数決定部33から受
け取った、り入力属性項目数が決定された入力データ
を、ニューラルネットワークへの入力に適した形に整形
する(S1211)。例えば、図10に示す「職種」の
ようなN者択一属性項目は、図6に示すように整形する
方法が考えられる。また、図10に示す「誕生月」のよ
うな数値データは、例えば、[0.0,1.0]の範
囲、あるいは[−0.5, 0.5]の範囲等に正規化
すればよい。さらに、「当社商品に関する満足度」のよ
うな段階的評価であるカテゴリ項目は図7に示すような
整形方法が考えられる。
【0038】次に、BP推定部36において、BP学習
部35からの学習結果および、入力データ整形部34か
らの新規属性データを用いて、BP法のアルゴリズムに
従って推定を行う(S1212)。そして、BP推定部
36において、BP推定の結果を評価し、推定結果が予
め決めた基準に達した場合、データ分類処理を出力装置
4に表示して終了する(S1213)。BP推定部36
は、BP推定の結果を評価し、推定結果が予め決めた基
準に達しなかった場合、属性項目統一部31の処理から
やり直すか、パラメータ設定を変更してBP学習のみを
やり直すかをユーザに指定させ、その指定に対応する処
理を行う(S1214、S1215)。
【0039】なお、上述した第1実施形態において、過
去属性データ記憶部21は、例えば磁気ディスク装置、
半導体メモリ記憶装置等を用いて実現することができ
る。また、属性項目統一部31、データ集計部32、入
力属性項目数決定部33、入力データ整形部34、BP
学習部35、BP推定部36は、パーソナルコンピュー
タやワークステーション等を用いて実現することができ
る。さらに、入力装置1は、キーボード等の入力装置、
出力装置4は、CRTディスプレイ、液晶ディスプレイ
等を用いて実現することができる。
【0040】B.第2実施形態 次に、本発明の第2実施形態について図面を参照して詳
細に説明する。 B−1.第2実施形態の構成 図12は、本発明の第2実施形態によるデータ分類装置
の構成を示すブロック図である。なお、図1に対応する
部分には同一の符号を付けて説明を省略する。図におい
て、本発明の第2の実施の形態は、第1実施形態の構成
に加えて、整形属性データ記憶部22を付加して構成さ
れている。整形属性データ記憶部22は、例えば磁気デ
ィスク装置、半導体メモリ記憶装置等からなり、入力デ
ータ整形部34からニューラルネットの入力用に整形さ
れた過去の属性データおよびニューラルネットの入力用
に整形された新規の属性データを取得して記憶する。
【0041】B−2.第2実施形態の動作 次に、本第2実施形態の動作を説明する。ここで、図1
3は、本第2実施形態の動作を説明するためのフローチ
ャートである。なお、図11に示すフローチャートに対
応するステップには同一の符号を付けて説明を省略す
る。本第2実施形態では、動作開始後(S1201)、
まず、データの再整形を実行するか判断し(S130
1)、再整形を行う場合には、第1実施形態と同様の処
理(S1202〜S1216)を実行する一方、再整形
を行わない場合には、整形属性データ記憶部22に記憶
されている属性データを用いて、直接、BP学習部35
による学習を行う(S1210)。このように、整形属
性データ記憶部22を付け加えることにより、新規デー
タを学習データに加えて、BP学習部35の再学習を行
う際にデータの整形処理を省略することが可能になる。
もちろん、経済状況の変化等によって属性データの属性
項目の分類結果に対する影響度等が変化し、整形方法を
変更したい場合は、第1実施形態と同様の処理を行い、
データ整形方法を変更することが可能である。
【0042】C.第3実施形態 次に、本発明の第3実施形態について図面を参照して詳
細に説明する。図14は、本発明の第3実施形態による
データ処理分類装置の構成を示すブロック図である。な
お、図1に対応する部分には同一の符号を付けて説明を
省略する。図において、本第3実施形態は、前述した第
1実施形態の構成に加えて、データ分類プログラムを記
録した、磁気ディスク、半導体メモリその他の記録媒体
からなる記録媒体5を備えている。データ分類プログラ
ムは、記録媒体5からデータ処理装置300に読み込ま
れ、データ処理装置300の動作を制御する。データ処
理装置300は、データ分類プログラムの制御により、
前述した処理、すなわち第1実施形態におけるデータ処
理装置300による処理と同一の処理を実行する。
【0043】D.第4実施形態 次に、本発明の第4実施形態について図面を参照して詳
細に説明する。図15は、本発明の第4実施形態による
データ処理分類装置の構成を示すブロック図である。な
お、図12に対応する部分には同一の符号を付けて説明
を省略する。図において、本第4実施形態は、前述した
第2実施形態の構成に加えて、データ分類プログラムを
記録した、磁気ディスク、半導体メモリその他の記録媒
体からなる記録媒体5を備えている。データ分類プログ
ラムは、記録媒体5からデータ処理装置300に読み込
まれ、データ処理装置300の動作を制御する。データ
処理装置300は、データ分類プログラムの制御によ
り、前述した処理、すなわち第2実施形態におけるデー
タ処理装置300による処理と同一の処理を実行する。
【0044】
【発明の効果】以上説明したように、本発明によれば、
金融機関などの与信審査、マーケティング等で分類対象
とする属性データが一般に含む、職種、住居等の選択
肢、誕生月等の離散値等といった属性項目をBP法を用
いた階層型ニューラルネットワークが処理するために適
したデータ整形を行っているため、また、属性データの
性質に対応した中間層ユニット数決定方法を用いている
ため、安定して高い分類性能を得ることができるという
利点が得られる。
【図面の簡単な説明】
【図1】 本発明の第1実施形態によるデータ分類装置
の構成を示すブロック図である。
【図2】 属性データの例を示す概念図である。
【図3】 段階評価(カテゴリ)から数値への変換例を示
す概念図である。
【図4】 クロス集計の結果の例を示す概念図である。
【図5】 属性項目の分類結果への影響度のグラフの例
を示す概念図である。
【図6】 カテゴリ属性項目のニューラルネット入力用
整形例を示す概念図である。
【図7】 カテゴリ属性項目(段階評価)のニューラルネ
ット入力用整形例を示す概念図である。
【図8】 カテゴリ属性項目の数値化例を示す概念図で
ある。
【図9】 数値属性項目のカテゴリ化後の数値化例を示
す概念図である。
【図10】 属性データの数値化例を示す概念図であ
る。
【図11】 本発明の第1実施形態の動作を説明するた
めのフローチャートである。
【図12】 本発明の第2実施形態によるデータ分類装
置の構成を示すブロック図である。
【図13】 本発明の第2実施形態の動作を説明するた
めのフローチャートである。
【図14】 本発明の第3実施形態の構成によるデータ
分類装置の構成を示すブロック図である。
【図15】 本発明の第4実施形態の構成によるデータ
分類装置の構成を示すブロック図である。
【図16】従来技術のデータ分類装置の構成を示すブロ
ック図である。
【符号の説明】
1 入力装置 2 記憶装置 300 データ処理装置 4 出力装置 5 記録媒体 21 過去属性データ記憶部(過去属性データ記憶手
段) 22 整形属性データ記憶部(整形属性データ記憶手
段) 31 属性項目統一部(属性項目統一手段) 32 データ集計部(データ集計手段) 33 入力属性項目数決定部(入力属性項目数決定手
段) 34 入力データ整形部(入力データ整形手段) 35 BP学習部(誤差逆伝播学習手段) 36 BP推定部(誤差逆伝播推定手段)
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平5−265992(JP,A) 特開 平6−96050(JP,A) 古賀、広瀬,「対話型ニューラルネッ ト適用支援システムの開発」,情報処理 学会第40回全国大会講演論文集(第1分 冊),日本,社団法人情報処理学会・発 行,1990年 6月12日,pp.288−289 山谷,「統計解析とデータマイニン グ」,ネットワークコンピューティン グ,株式会社リックテレコム・発行, 1999年 1月 1日,Vol.11,N o.1,pp.64〜71,(特許庁CSD B文献番号:CSNW200000332006) ハーブ・エデルスタイン,「データ・ マイニングで眠れる情報を掘り起こ せ」,日経コンピュータ,日経BP社・ 発行,1996年 3月18日,No.387, pp.187〜190,(特許庁CSDB文献 番号:CSNW199800591009) 月本、森田、下郡,「重回帰分析に基 づいた帰納学習アルゴリズム」,電子情 報通信学会論文誌,社団法人電子情報通 信学会・発行,1996年 7月25日,Vo l.J79−D−II、No.7,pp. 1244〜1251,(特許庁CSDB文献番 号:CSNT199800759008) (58)調査した分野(Int.Cl.7,DB名) G06N 1/00 - 7/00 G06F 9/44 G06F 17/60 G06F 19/00 JICSTファイル(JOIS) CSDB(日本国特許庁)

Claims (9)

    (57)【特許請求の範囲】
  1. 【請求項1】 過去における属性データを記憶する過去
    属性データ記憶手段と、 前記過去属性データ記憶手段に記憶されている属性デー
    タの属性項目をカテゴリ型に統一するか、数値型に統一
    するかを決定する属性項目統一手段と、 前記属性項目統一手段により属性データの属性項目がカ
    テゴリ型に統一された場合、各カテゴリに該当するデー
    タ数のクロス集計を行うデータ集計手段と、 前記データ集計手段により集計されたデータに基づい
    て、ニューラルネットワークに入力する属性項目数を決
    定する入力属性項目数決定手段と、 前記入力属性項目数決定手段により決定された属性項目
    の性質に基づいて、データを階層型ニューラルネットワ
    ークの入力に適した整形を施す入力データ整形手段と、 前記入力属性項目数決定手段の結果を用いてニューラル
    ネットワークの構造を決定し、入力データ整形部から得
    られた学習データを用いて誤差逆伝播法によって学習す
    る誤差逆伝播学習手段と、 前記誤差逆伝播学習手段からの誤差逆伝播学習結果およ
    び入力データ整形手段からの新規属性データに基づい
    て、新規の属性データの分類推定を行う誤差逆伝播推定
    手段とを備えることを特徴とするデータ分類装置。
  2. 【請求項2】 前記入力データ整形手段によりニューラ
    ルネットの入力用に整形された過去の属性データおよび
    ニューラルネットの入力用に整形された新規の属性デー
    タを記憶する整形属性データ記憶手段を具備することを
    特徴とする請求項1記載のデータ分類装置。
  3. 【請求項3】 前記属性データは、顧客データであるこ
    とを特徴とする請求項1または2記載のデータ分類装
    置。
  4. 【請求項4】 過去における属性データを記憶し、属性
    データの属性項目をカテゴリ型に統一するか、数値型に
    統一するかを決定し、過去属性データの属性項目をカテ
    ゴリ型に統一した場合、各カテゴリに該当するデータ数
    のクロス集計を行い、ニューラルネットワークに入力す
    る属性項目数を決定し、属性項目の性質に従って、デー
    タを階層型ニューラルネットワークの入力に適した整形
    を施し、入力属性項目数決定の結果を用いてニューラル
    ネットワークの構造を決定し、入力データ整形の結果得
    られた学習データを用いて誤差逆伝播法によって学習
    し、誤差逆伝播学習結果と整形した新規属性データとを
    用いて、新規属性データの分類推定を行うことを特徴と
    するデータ分類方法。
  5. 【請求項5】 ニューラルネットの入力用に整形された
    過去の属性データおよびニューラルネットの入力用に整
    形された新規の属性データを記憶することを特徴とする
    請求項4記載のデータ分類方法。
  6. 【請求項6】 前記属性データは、顧客データであるこ
    とを特徴とする請求項4または5記載のデータ分類方
    法。
  7. 【請求項7】 過去における属性データを記憶する過去
    属性データ記憶処理と、 前記過去属性データ記憶処理により記憶された属性デー
    タの属性項目をカテゴリ型に統一するか、数値型に統一
    するかを決定する属性項目統一処理と、 属性項目統一処理により過去属性データの属性項目をカ
    テゴリ型に統一した場合、各カテゴリに該当するデータ
    数のクロス集計を行うデータ集計処理と、 ニューラルネットワークに入力する属性項目数を決定す
    る入力属性項目数決定処理と、 前記入力属性項目数決定手段により決定された属性項目
    の性質に基づいて、データを階層型ニューラルネットワ
    ークの入力に適した整形を施す入力データ整形処理と、 入力属性項目数決定部の結果を用いてニューラルネット
    ワークの構造を決定し、入力データ整形処理の結果から
    得られた学習データを用いて誤差逆伝播法によって学習
    する誤差逆伝播学習処理と、 、前記誤差逆伝播学習手段からの誤差逆伝播学習結果お
    よび入力データ整形手段からの新規属性データに基づい
    て、新規属性データの分類推定を行う誤差逆伝播推定処
    理とからなるプログラムを記録することを特徴とする記
    録媒体。
  8. 【請求項8】 ニューラルネットの入力用に整形された
    過去の属性データおよびニューラルネットの入力用に整
    形された新規の属性データを、整形属性データとして記
    憶する属性データ記憶処理からなるプログラムを記録す
    ることを特徴とする請求項7記載の記録媒体。
  9. 【請求項9】 前記属性データは、顧客データであるこ
    とを特徴とする請求項7または8に記載の記録媒体。
JP3067699A 1999-02-08 1999-02-08 データ分類装置、データ分類方法およびデータ分類用プログラムを記録した記録媒体 Expired - Fee Related JP3293582B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3067699A JP3293582B2 (ja) 1999-02-08 1999-02-08 データ分類装置、データ分類方法およびデータ分類用プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3067699A JP3293582B2 (ja) 1999-02-08 1999-02-08 データ分類装置、データ分類方法およびデータ分類用プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2000231548A JP2000231548A (ja) 2000-08-22
JP3293582B2 true JP3293582B2 (ja) 2002-06-17

Family

ID=12310327

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3067699A Expired - Fee Related JP3293582B2 (ja) 1999-02-08 1999-02-08 データ分類装置、データ分類方法およびデータ分類用プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3293582B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003044668A (ja) * 2001-05-25 2003-02-14 Isi Corp クレジットカード入会審査方法及びクレジットカード発行可否判断方法
JP2003044652A (ja) * 2001-07-31 2003-02-14 Nternet Number Corp ネット連動情報仲介方法およびシステム、ならびにネット連動スクラッチブック
JP7207309B2 (ja) * 2017-08-16 2023-01-18 ソニーグループ株式会社 プログラム、情報処理方法、および情報処理装置
US20210103835A1 (en) * 2018-05-09 2021-04-08 Nec Corporation Data reduction apparatus, data reduction method, and computer- readable recording medium

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ハーブ・エデルスタイン,「データ・マイニングで眠れる情報を掘り起こせ」,日経コンピュータ,日経BP社・発行,1996年 3月18日,No.387,pp.187〜190,(特許庁CSDB文献番号:CSNW199800591009)
古賀、広瀬,「対話型ニューラルネット適用支援システムの開発」,情報処理学会第40回全国大会講演論文集(第1分冊),日本,社団法人情報処理学会・発行,1990年 6月12日,pp.288−289
山谷,「統計解析とデータマイニング」,ネットワークコンピューティング,株式会社リックテレコム・発行,1999年 1月 1日,Vol.11,No.1,pp.64〜71,(特許庁CSDB文献番号:CSNW200000332006)
月本、森田、下郡,「重回帰分析に基づいた帰納学習アルゴリズム」,電子情報通信学会論文誌,社団法人電子情報通信学会・発行,1996年 7月25日,Vol.J79−D−II、No.7,pp.1244〜1251,(特許庁CSDB文献番号:CSNT199800759008)

Also Published As

Publication number Publication date
JP2000231548A (ja) 2000-08-22

Similar Documents

Publication Publication Date Title
Jiang et al. Loan default prediction by combining soft information extracted from descriptive text in online peer-to-peer lending
CN109977151B (zh) 一种数据分析方法及系统
Jones Corporate bankruptcy prediction: a high dimensional analysis
Hsieh An integrated data mining and behavioral scoring model for analyzing bank customers
Ince et al. A comparison of data mining techniques for credit scoring in banking: A managerial perspective
Lim et al. Cluster-based dynamic scoring model
Hand Modelling consumer credit risk
Hu et al. Measuring retail company performance using credit scoring techniques
US20090276368A1 (en) Systems and methods for providing personalized recommendations of products and services based on explicit and implicit user data and feedback
Khemakhem et al. Credit risk assessment for unbalanced datasets based on data mining, artificial neural network and support vector machines
US6988090B2 (en) Prediction analysis apparatus and program storage medium therefor
US20090132347A1 (en) Systems And Methods For Aggregating And Utilizing Retail Transaction Records At The Customer Level
Hooman et al. Statistical and data mining methods in credit scoring
CN112381154A (zh) 预测用户概率的方法、装置和计算机设备
US20200250185A1 (en) System and method for deriving merchant and product demographics from a transaction database
Xia et al. Incorporating multilevel macroeconomic variables into credit scoring for online consumer lending
Zhao et al. Dmdp: A dynamic multi-source default probability prediction framework
Aphale et al. Predict loan approval in banking system machine learning approach for cooperative banks loan approval
McKee Predicting bankruptcy via induction
JP3293582B2 (ja) データ分類装置、データ分類方法およびデータ分類用プログラムを記録した記録媒体
Olson Data mining models
CN115205011B (zh) 基于lsf-fc算法的银行用户画像模型生成方法
CN114565450A (zh) 一种基于逾期共债的催收策略确定方法及相关设备
JP2003323601A (ja) 信頼性尺度付き予測装置
Harikrishna et al. Credit scoring using support vector machine: a comparative analysis

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020305

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080405

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090405

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100405

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110405

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120405

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120405

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130405

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130405

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140405

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees