JP3293582B2

JP3293582B2 - データ分類装置、データ分類方法およびデータ分類用プログラムを記録した記録媒体

Info

Publication number: JP3293582B2
Application number: JP3067699A
Authority: JP
Inventors: 伸克北島
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1999-02-08
Filing date: 1999-02-08
Publication date: 2002-06-17
Anticipated expiration: 2019-02-08
Also published as: JP2000231548A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、性質の異なる少な
くとも２種以上のデータを、その性質ごとに分類するデ
ータ分類装置、データ分類方法およびデータ分類用プロ
グラムを記録した記録媒体に関する。

【０００２】

【従来の技術】金融機関などにおける与信審査、マーケ
ティング等の処理を行う装置は、対象となる顧客データ
や商品データのような属性データをある一定の基準で分
類するデータ分類装置である。従来、データ分類の一手
法として広く用いられている誤差逆伝播（Back Propaga
tion，以下、ＢＰという）法を利用した階層型ニューラ
ルネットワークを用いるデータ分類装置は、非線型で高
性能なデータ分類が可能であり、文字認識等の連続数値
データでは効果を実証している。階層型ニューラルネッ
トワークについては、例えば D. E. Rumelhart他のLear
ning Internal Representations by Error Propagatio
n, PARALLEL DISTRIBUTED PROCESSING Explorations in
the Microstructure of Cognition, The Massachusett
s Instituteof Technology, pp. 318 - 362 (1986年)に
詳しい。

【０００３】従来のデータ分類装置について、図面を参
照して詳細に説明する。ここで、図１６は、従来のデー
タ分類装置の一構成例を示すブロック図である。図にお
いて、従来のデータ分類装置は、キーボード等の入力装
置１、情報を記憶する記憶装置２、プログラム制御によ
り動作するデータ処理装置３、およびディスプレイ装置
や印刷装置等の出力装置４からなる。記憶装置２は、過
去属性データ記憶部２１を備える。過去属性データ記憶
部２１は、蓄積した過去の属性データを記憶するととも
に、入力装置１から入力されたデータを記憶する。デー
タ処理装置３は、ＢＰ学習部３５およびＢＰ推定部３６
を備える。

【０００４】ＢＰ学習部３５は、過去属性データ記憶部
２１から過去の属性データを学習データとして取得し、
ＢＰ法のアルゴリズムにより学習する。ＢＰ法のアルゴ
リズムについては、前述した、例えば D. E. Rumelhart
他のLearning Internal Representations by Error Pro
pagation, PARALLEL DISTRIBUTED PROCESSING Explorat
ions in the Microstructure of Cognition, The Massa
chusetts Institute of Technology, pp. 318 - 362 (1
986年)に詳しい。

【０００５】ＢＰ推定部３６は、ＢＰ学習部３５から取
得したＢＰ学習結果および入力装置１から取得した新規
属性データに基づいて、新規属性データの分類推定を行
い、分類結果を出力装置４に表示する。

【０００６】

【発明が解決しようとする課題】ところで、与信審査、
マーケティング等で分類対象とする属性データは、一般
に、職種、住居等の選択肢、誕生月等の離散値等といっ
た属性項目を含むため、ＢＰ法で実績のある文字認識等
のデータのように連続数値のみから構成されていない。
また、上述したような属性データの性質に対応したニュ
ーラルネットワークの構造決定方法も見出されていな
い。したがって、従来技術では、安定して高い分類性能
を得ることができないという問題があった。

【０００７】この発明は上述した事情に鑑みてなされた
もので、与信審査、マーケティング等に関するデータ
を、その性質ごとに分類する際、安定して高い分類性能
を得ることができるデータ分類装置、データ分類方法お
よびデータ分類用プログラムを記録した記録媒体を提供
することを目的とする。

【０００８】

【課題を解決するための手段】上述した問題点を解決す
るために、請求項１記載の発明では、過去における属性
データを記憶する過去属性データ記憶手段と、前記過去
属性データ記憶手段に記憶されている属性データの属性
項目をカテゴリ型に統一するか、数値型に統一するかを
決定する属性項目統一手段と、前記属性項目統一手段に
より属性データの属性項目がカテゴリ型に統一された場
合、各カテゴリに該当するデータ数のクロス集計を行う
データ集計手段と、前記データ集計手段により集計され
たデータに基づいて、ニューラルネットワークに入力す
る属性項目数を決定する入力属性項目数決定手段と、前
記入力属性項目数決定手段により決定された属性項目の
性質に基づいて、データを階層型ニューラルネットワー
クの入力に適した整形を施す入力データ整形手段と、前
記入力属性項目数決定手段の結果を用いてニューラルネ
ットワークの構造を決定し、入力データ整形部から得ら
れた学習データを用いて誤差逆伝播法によって学習する
誤差逆伝播学習手段と、前記誤差逆伝播学習手段からの
誤差逆伝播学習結果および入力データ整形手段からの新
規属性データに基づいて、新規の属性データの分類推定
を行う誤差逆伝播推定手段とを備えることを特徴とす
る。

【０００９】また、請求項２記載の発明では、請求項１
記載のデータ分類装置において、前記入力データ整形手
段によりニューラルネットの入力用に整形された過去の
属性データおよびニューラルネットの入力用に整形され
た新規の属性データを記憶する整形属性データ記憶手段
を具備することを特徴とする。

【００１０】また、請求項３記載の発明では、請求項１
または２記載のデータ分類装置において、前記属性デー
タは、顧客データであることを特徴とする。

【００１１】また、上述した問題点を解決するために、
請求項４記載の発明では、過去における属性データを記
憶し、属性データの属性項目をカテゴリ型に統一する
か、数値型に統一するかを決定し、過去属性データの属
性項目をカテゴリ型に統一した場合、各カテゴリに該当
するデータ数のクロス集計を行い、ニューラルネットワ
ークに入力する属性項目数を決定し、属性項目の性質に
従って、データを階層型ニューラルネットワークの入力
に適した整形を施し、入力属性項目数決定の結果を用い
てニューラルネットワークの構造を決定し、入力データ
整形の結果得られた学習データを用いて誤差逆伝播法に
よって学習し、誤差逆伝播学習結果と整形した新規属性
データとを用いて、新規属性データの分類推定を行うこ
とを特徴とする。

【００１２】また、請求項５記載の発明では、請求項４
記載のデータ分類方法において、ニューラルネットの入
力用に整形された過去の属性データおよびニューラルネ
ットの入力用に整形された新規の属性データを記憶する
ことを特徴とする。

【００１３】また、請求項６記載の発明では、請求項４
または５記載のデータ分類方法において、前記属性デー
タは、顧客データであることを特徴とする。

【００１４】また、上述した問題点を解決するために、
請求項７記載の発明では、過去における属性データを記
憶する過去属性データ記憶処理と、前記過去属性データ
記憶処理により記憶された属性データの属性項目をカテ
ゴリ型に統一するか、数値型に統一するかを決定する属
性項目統一処理と、属性項目統一処理により過去属性デ
ータの属性項目をカテゴリ型に統一した場合、各カテゴ
リに該当するデータ数のクロス集計を行うデータ集計処
理と、ニューラルネットワークに入力する属性項目数を
決定する入力属性項目数決定処理と、前記入力属性項目
数決定手段により決定された属性項目の性質に基づい
て、データを階層型ニューラルネットワークの入力に適
した整形を施す入力データ整形処理と、入力属性項目数
決定部の結果を用いてニューラルネットワークの構造を
決定し、入力データ整形処理の結果から得られた学習デ
ータを用いて誤差逆伝播法によって学習する誤差逆伝播
学習処理と、、前記誤差逆伝播学習手段からの誤差逆伝
播学習結果および入力データ整形手段からの新規属性デ
ータに基づいて、新規属性データの分類推定を行う誤差
逆伝播推定処理とからなるプログラムを記録することを
特徴とする。

【００１５】また、請求項８記載の発明では、請求項７
記載の記録媒体において、ニューラルネットの入力用に
整形された過去の属性データおよびニューラルネットの
入力用に整形された新規の属性データを、整形属性デー
タとして記憶する属性データ記憶処理からなるプログラ
ムを記録することを特徴とする。

【００１６】また、請求項９記載の発明では、請求項７
または８に記載の記録媒体において、前記属性データ
は、顧客データであることを特徴とする。

【００１７】この発明では、属性項目統一手段、データ
集計手段、入力属性項目数決定手段、入力データ整形手
段によって、与信審査、マーケティング等で分類対象と
する属性データを、階層型ニューラルネットワークの入
力に適した構成に加工する。また、誤差逆伝播学習手段
により、入力属性項目数決定手段の結果を用いてニュー
ラルネットワークの構造を決定し、入力データ整形手段
から得られた学習データを用いて誤差逆伝播法によって
学習し、誤差逆伝播推定手段により誤差逆伝播学習手段
からの誤差逆伝播学習結果および入力データ整形手段か
らの新規属性データに従って、新規属性データの分類推
定を行う。したがって、安定して高い分類性能を得るこ
とが可能になる。

【００１８】

【発明の実施の形態】以下、図面を用いて本発明の実施
の形態を説明する。Ａ．第１実施形態Ａ−１．第１実施形態の構成図１は、本発明の第１実施形態によるデータ分類装置の
構成を示すブロック図である。なお、図１６に対応する
部分には同一の符号を付けて説明を省略する。図におい
て、本第１実施形態によるデータ分類装置は、キーボー
ド等の入力装置１、情報を記憶する記憶装置２、プログ
ラム制御により動作するデータ処理装置３００、および
ディスプレイ装置や印刷装置等の出力装置４からなる。
データ処理部３００は、属性項目統一部３１、データ集
計部３２、入力属性項目数決定部３３、入力データ整形
部３４、ＢＰ学習部３５、およびＢＰ推定部３６からな
る。

【００１９】過去属性データ記憶部２１は、前述したよ
うに、入力装置１から入力された過去における属性デー
タを記憶する。ここで、図２は、属性データの一例を示
す概念図である。属性データは、データの属性、データ
の型、およびデータ値からなる。図示の例では、データ
の属性「年齢」に対してはデータの型「連続数値」およ
びそのデータが取り得るデータ値として「１８〜１０
０」、データの属性「性別」に対してはデータの型「カ
テゴリ」およびそのデータが取り得るデータ値として
「男、女」、データの属性「年収」に対してはデータの
型「カテゴリ」およびそのデータが取り得るデータ値と
して「１００万円以下、１００〜５００万円、５００〜
１０００万円、１０００万円以上」が設定されている。

【００２０】同様に、データの属性「職種」に対しては
データの型「カテゴリ」およびそのデータが取り得るデ
ータ値として「事務、研究、販売、自営、技術」、デー
タの属性「業種」に対してはデータの型「カテゴリ」お
よびそのデータが取り得るデータ値として「農業、漁
業、不動産、製造、流通、サービス、金融」、データの
属性「婚姻」に対してはデータの型「カテゴリ」および
そのデータが取り得るデータ値として「未婚、既婚、離
別」、データの属性「誕生月」に対してはデータの型
「離散数値」およびそのデータが取り得るデータ値とし
て「１，２，３，４，５，６，７，８，９，１０，１
１，１２」、さらに、データの属性「当社商品に関する
満足度」に対してはデータの型「カテゴリ」およびその
データが取り得るデータ値として「非常に満足、満足、
どちらとも言えない、不満、非常に不満」が設定されて
いる。

【００２１】属性項目統一部３１は、過去属性データ記
憶部２１に記憶されている属性データの属性項目をカテ
ゴリ型に統一するか、数値型に統一するかを決定する。
ここで、カテゴリ型属性項目とは、図２に示す「職種」
のようにデータ間の大小比較や演算に意味がない、単に
種類あるいは選択肢を示す属性項目である。カテゴリ型
属性項目も実際のデータ表現上は数値に置き換えるが、
その数字は記号としての意味しかない。図２に示す「当
社商品に関する満足度」のような段階評価は、カテゴリ
型であるが、選択肢の順序に意味がある特殊なカテゴリ
型である。

【００２２】一方、数値型属性項目とは、図２に示す
「年齢」のように、データ間の大小比較や演算を行った
ときに意味がある数値になる属性項目である。数値型属
性項目には、図２に示す「年齢」のように、ある範囲内
のどの数値も取り得る連続数値型属性項目と、図２に示
す「誕生月」のように飛び飛びの数値を取る離散数値型
属性項目がある。数値型属性項目は、数値の取り得る範
囲をいくつかの範囲に区切ることによって、常にカテゴ
リ型に変換可能である。例えば、図２に示す属性データ
の例では、本来連続数値である「年収」を４個のカテゴ
リ型に変換している。

【００２３】カテゴリ型属性項目で数値データに変換で
きるデータは、例えば図２に示す「当社商品に関する満
足度」のような段階評価がある。段階評価は、段階順に
数値に置き換えることによって、数値データに変換可能
である。ここで、図３は、段階評価を数値に置き換えた
例を示す概念図である。図示の例では、「当社商品に関
する満足度」のデータ値「非常に満足、満足、どちらと
も言えない、不満、非常に不満」を、それぞれ「５，
４，３，２，１」に変換することで、数値データとして
取り扱うことができる。

【００２４】属性項目統一部３１において、属性データ
の属性項目をカテゴリ型と数値型のどちらに統一するか
の基準は、例えば次の通りである。段階評価以外のカテ
ゴリ型属性項目が存在する場合には、カテゴリ型に統一
する。カテゴリ型属性項目が段階評価だけの場合は、カ
テゴリ型と数値型のどちらに統一するかをユーザが入力
装置１により選択する。属性項目統一部３１は、過去属
性データの属性項目をカテゴリ型に統一する場合には、
データをデータ集計部３２に送り、数値型に統一する場
合には、データを入力属性項目数決定部３３に送る。

【００２５】データ集計部３２は、過去属性データの属
性項目をカテゴリ型に統一した場合、各カテゴリに該当
するデータ数のクロス集計を行う。ここで、数値データ
をカテゴリデータに変換する場合のカテゴリは、ユーザ
が入力装置１により決定する。データ集計部３２は、各
属性項目のカテゴリ値毎に基準値の計算を行い、結果を
提示する。この基準値は、例えば与信審査の場合の不良
率などがある。図２に示す属性項目「職種」に対して不
良率を計算した例を図４に示す。

【００２６】データ集計部３２は、上記基準値の計算結
果をもとにしたユーザの指定により、カテゴリの再決定
および基準値の再計算を行う。例えば、図２に示す属性
データの例では、属性項目「年収」は「１００万円以
下、１００〜５００万円、５００〜１０００万円、１０
００万円以上」の４カテゴリ値を持っている。このカテ
ゴリ値で基準値に対する傾向がはっきりした場合、例え
ば年収が高いカテゴリ値になるほど不良率が下がった場
合等には、ユーザは上記カテゴリ分けを採用する可能性
が高いが、不良率に対するカテゴリ値の傾向が明確でな
い場合には、連続数値の年収のデータをもとにカテゴリ
分けをやり直す可能性が高い。データ集計部３２は、こ
のような場合に基準値の再計算を行う。データ集計部３
２は、上記基準値の結果をユーザが了承した時点で、集
計したデータを入力属性項目数決定部３３に供給する。

【００２７】入力属性項目数決定部３３は、ニューラル
ネットワークに入力する属性項目数を決定する。属性項
目数の決定方法には、例えば、分類結果に対する影響度
の大きい属性項目を、それらの影響度を１００分率化し
た場合の和が９０％になるまで選ぶ方法等がある。次
に、入力データ整形部３４は、属性項目の性質に従っ
て、データを階層型ニューラルネットワークの入力に適
した整形を施す。すなわち、入力データ整形部３４は、
入力装置１から入力された新規属性データを、学習デー
タと同じ形態に整形し、ＢＰ推定部３６に供給するとと
もに、新規属性データを過去属性データ記憶部２１に供
給する。具体的には、属性項目が数値である場合、例え
ば数値を［０．０，１．０］あるいは、［−０．５，
０．５］の範囲等に正規化する。属性項目がカテゴリ
である場合、例えばカテゴリ数分のビット値を用意し、
対応するビットだけに「１」を立て、それ以外のビット
は「０」にする。カテゴリ型属性項目の整形方法の例を
図６に示す。また、属性項目が段階評価のカテゴリであ
る場合、例えばカテゴリ数分のビット値を用意し、図７
に示すように表現する方法もある。

【００２８】次に、ＢＰ学習部３５は、入力属性項目数
決定部３３の結果を用いてニューラルネットワークの構
造を決定し、入力データ整形部３４から得られた学習デ
ータを用いてＢＰ法のアルゴリズムに従って学習する。
入力属性項目数決定部３３の結果を用いたニューラルネ
ットワークの構造決定方法には、例えば入力属性項目数
決定部３３で決定した入力属性項目数を中間層ユニット
数にする方法がある。

【００２９】ＢＰ法のアルゴリズムについては、前述し
た、例えば D. E. Rumelhart他のLearning Internal Re
presentations by Error Propagation, PARALLEL DISTR
IBUTED PROCESSING Explorations in the Microstructu
re of Cognition, The Massachusetts Institute of Te
chnology, pp. 318 - 362 (1986年)に詳しい。

【００３０】ＢＰ推定部３６は、ＢＰ学習部３５から取
得したＢＰ学習結果、および入力データ整形部３４から
取得した新規属性データに従って、新規属性データの分
類推定を行い、結果を出力部４に表示する。より具体的
には、ＢＰ推定部３６は、ＢＰ推定の結果を評価し、推
定結果が予め決めた基準に達した場合、データ分類処理
を出力装置４に表示して終了する。一方、ＢＰ推定部３
６は、ＢＰ推定の結果を評価し、推定結果が予め決めた
基準に達しなかった場合、属性項目統一部３１の処理か
らやり直すか、パラメータ設定を変更してＢＰ学習のみ
をやり直すかをユーザに指定させ、その指定に対応する
処理を行う。ここで、予め決めた基準には、例えば正答
率の下限、誤差の上限等がある。

【００３１】Ａ−１．第１実施形態の動作次に、具体的な実施例を用いて本第１実施形態の動作を
説明する。ここで、図１１は、本第１実施形態の動作を
説明するためのフローチャートである。なお、以下で
は、図２に示す形式の項目からなる申込用紙で金融機関
における与信審査を行う例について説明する。また、過
去のデータは、既に過去属性データ記憶部２１に記憶さ
れているとする。

【００３２】まず、動作が開始すると（Ｓ１２０１）、
属性項目統一部３１において、属性データの属性項目を
カテゴリ型に統一するか、数値型に統一するかを決定す
る（Ｓ１２０２）。図２に示す属性データには、「職
種」、「業種」等の段階評価以外のカテゴリデータが存
在するので、全ての属性項目をカテゴリ型に統一する
（Ｓ１２０３）。「職種」等のカテゴリデータは、例え
ば図８に示すように数値化する。また、「当社商品に関
する満足度」は、例えば図３に示すように数値化する。
そして、「年齢」のような数値データは、例えば図９に
示すようなカテゴリを設定し、その上で図９に示す入力
属性項目数決定部用入力値欄のように数値化する。属性
項目統一部３１の出力結果の例を図１０に示す。

【００３３】属性項目統一部３１は、属性項目をカテゴ
リ型に統一した場合には、結果をデータ集計部３２に送
り、数値型に統一した場合には、結果を入力属性項目数
決定部３３に送る。次に、データ集計部３２において、
各カテゴリに該当するデータ数のクロス集計を行い（Ｓ
１２０４）、各属性項目のカテゴリ値ごとに基準値の計
算を行い（Ｓ１２０５、Ｓ１２０６）、結果を出力装置
４に提示する。ここで、基準値として不良率を求めたク
ロス集計の結果の例を図４に示す。

【００３４】次に、入力属性項目数決定部３３におい
て、データ型に応じて、中間層ユニット数の基準値を決
定するとともに（Ｓ１２０７）、ニューラルネットワー
クに入力する属性項目数を決定し（Ｓ１２０８）、ＢＰ
学習部３５に供給する。なお、数値型に統一する場合に
は、直接、中間層ユニット基準数を決定する（Ｓ１２０
７）。中間層ユニット数の基準値の決定方法には、例え
ば入力属性項目数を採用する方法等がある。また、属性
項目数の決定は、例えば、分類結果に対する影響度の大
きい属性項目を、それらの影響度を１００分率化した場
合の和が９０％になるまで選ぶ等の方法で行う。

【００３５】分類結果に対する影響度は、例えば、属性
項目がカテゴリデータの場合、数量化２類を行った場合
のレンジを用いる。数量化２類の方法については、例え
ば「１９９３年１２月、菅民郎著、初心者がらくらく読
める多変量解析の実践、下、４４〜１１６頁」に詳し
い。ここで、１００分率化した影響度の総和が９０％超
えた時点でニューラルネットへの属性項目数を決定した
場合の、属性項目の影響度のグラフの例を図５に示す。
なお、属性項目が数値データの場合、例えば数量化２類
の代わりに判別分析を行う方法も考えられる。

【００３６】次に、入力データ整形部３４において、分
類目的に応じてデータ個数の調節を行う（Ｓ１２０
９）。データ個数の調節方法には、例えば次のような例
がある。通常与信審査において、過去に期限までに借金
を返済しなかった顧客のデータ（不良データ）は、期限
までに借金を返済したデータ（正常データ）に比べて個
数が少ない。このような場合、保持している不良データ
をコピーして、正常データとほぼ同数にする等してデー
タ個数の調節を行う。

【００３７】ＢＰ学習部３５において、入力データ整形
部３４から学習データを得て、入力項目数決定部３３か
ら中間層ユニット数の基準値を受け取って、ＢＰ法のア
ルゴリズムに従って学習を行う（Ｓ１２１０）。学習結
果は、ＢＰ推定部３６に供給される。次に、入力データ
整形部３４において、入力属性項目数決定部３３から受
け取った、り入力属性項目数が決定された入力データ
を、ニューラルネットワークへの入力に適した形に整形
する（Ｓ１２１１）。例えば、図１０に示す「職種」の
ようなＮ者択一属性項目は、図６に示すように整形する
方法が考えられる。また、図１０に示す「誕生月」のよ
うな数値データは、例えば、［０．０，１．０］の範
囲、あるいは［−０．５，０．５］の範囲等に正規化
すればよい。さらに、「当社商品に関する満足度」のよ
うな段階的評価であるカテゴリ項目は図７に示すような
整形方法が考えられる。

【００３８】次に、ＢＰ推定部３６において、ＢＰ学習
部３５からの学習結果および、入力データ整形部３４か
らの新規属性データを用いて、ＢＰ法のアルゴリズムに
従って推定を行う（Ｓ１２１２）。そして、ＢＰ推定部
３６において、ＢＰ推定の結果を評価し、推定結果が予
め決めた基準に達した場合、データ分類処理を出力装置
４に表示して終了する（Ｓ１２１３）。ＢＰ推定部３６
は、ＢＰ推定の結果を評価し、推定結果が予め決めた基
準に達しなかった場合、属性項目統一部３１の処理から
やり直すか、パラメータ設定を変更してＢＰ学習のみを
やり直すかをユーザに指定させ、その指定に対応する処
理を行う（Ｓ１２１４、Ｓ１２１５）。

【００３９】なお、上述した第１実施形態において、過
去属性データ記憶部２１は、例えば磁気ディスク装置、
半導体メモリ記憶装置等を用いて実現することができ
る。また、属性項目統一部３１、データ集計部３２、入
力属性項目数決定部３３、入力データ整形部３４、ＢＰ
学習部３５、ＢＰ推定部３６は、パーソナルコンピュー
タやワークステーション等を用いて実現することができ
る。さらに、入力装置１は、キーボード等の入力装置、
出力装置４は、ＣＲＴディスプレイ、液晶ディスプレイ
等を用いて実現することができる。

【００４０】Ｂ．第２実施形態次に、本発明の第２実施形態について図面を参照して詳
細に説明する。Ｂ−１．第２実施形態の構成図１２は、本発明の第２実施形態によるデータ分類装置
の構成を示すブロック図である。なお、図１に対応する
部分には同一の符号を付けて説明を省略する。図におい
て、本発明の第２の実施の形態は、第１実施形態の構成
に加えて、整形属性データ記憶部２２を付加して構成さ
れている。整形属性データ記憶部２２は、例えば磁気デ
ィスク装置、半導体メモリ記憶装置等からなり、入力デ
ータ整形部３４からニューラルネットの入力用に整形さ
れた過去の属性データおよびニューラルネットの入力用
に整形された新規の属性データを取得して記憶する。

【００４１】Ｂ−２．第２実施形態の動作次に、本第２実施形態の動作を説明する。ここで、図１
３は、本第２実施形態の動作を説明するためのフローチ
ャートである。なお、図１１に示すフローチャートに対
応するステップには同一の符号を付けて説明を省略す
る。本第２実施形態では、動作開始後（Ｓ１２０１）、
まず、データの再整形を実行するか判断し（Ｓ１３０
１）、再整形を行う場合には、第１実施形態と同様の処
理（Ｓ１２０２〜Ｓ１２１６）を実行する一方、再整形
を行わない場合には、整形属性データ記憶部２２に記憶
されている属性データを用いて、直接、ＢＰ学習部３５
による学習を行う（Ｓ１２１０）。このように、整形属
性データ記憶部２２を付け加えることにより、新規デー
タを学習データに加えて、ＢＰ学習部３５の再学習を行
う際にデータの整形処理を省略することが可能になる。
もちろん、経済状況の変化等によって属性データの属性
項目の分類結果に対する影響度等が変化し、整形方法を
変更したい場合は、第１実施形態と同様の処理を行い、
データ整形方法を変更することが可能である。

【００４２】Ｃ．第３実施形態次に、本発明の第３実施形態について図面を参照して詳
細に説明する。図１４は、本発明の第３実施形態による
データ処理分類装置の構成を示すブロック図である。な
お、図１に対応する部分には同一の符号を付けて説明を
省略する。図において、本第３実施形態は、前述した第
１実施形態の構成に加えて、データ分類プログラムを記
録した、磁気ディスク、半導体メモリその他の記録媒体
からなる記録媒体５を備えている。データ分類プログラ
ムは、記録媒体５からデータ処理装置３００に読み込ま
れ、データ処理装置３００の動作を制御する。データ処
理装置３００は、データ分類プログラムの制御により、
前述した処理、すなわち第１実施形態におけるデータ処
理装置３００による処理と同一の処理を実行する。

【００４３】Ｄ．第４実施形態次に、本発明の第４実施形態について図面を参照して詳
細に説明する。図１５は、本発明の第４実施形態による
データ処理分類装置の構成を示すブロック図である。な
お、図１２に対応する部分には同一の符号を付けて説明
を省略する。図において、本第４実施形態は、前述した
第２実施形態の構成に加えて、データ分類プログラムを
記録した、磁気ディスク、半導体メモリその他の記録媒
体からなる記録媒体５を備えている。データ分類プログ
ラムは、記録媒体５からデータ処理装置３００に読み込
まれ、データ処理装置３００の動作を制御する。データ
処理装置３００は、データ分類プログラムの制御によ
り、前述した処理、すなわち第２実施形態におけるデー
タ処理装置３００による処理と同一の処理を実行する。

【００４４】

【発明の効果】以上説明したように、本発明によれば、
金融機関などの与信審査、マーケティング等で分類対象
とする属性データが一般に含む、職種、住居等の選択
肢、誕生月等の離散値等といった属性項目をＢＰ法を用
いた階層型ニューラルネットワークが処理するために適
したデータ整形を行っているため、また、属性データの
性質に対応した中間層ユニット数決定方法を用いている
ため、安定して高い分類性能を得ることができるという
利点が得られる。

【図面の簡単な説明】

【図１】本発明の第１実施形態によるデータ分類装置
の構成を示すブロック図である。

【図２】属性データの例を示す概念図である。

【図３】段階評価(カテゴリ)から数値への変換例を示
す概念図である。

【図４】クロス集計の結果の例を示す概念図である。

【図５】属性項目の分類結果への影響度のグラフの例
を示す概念図である。

【図６】カテゴリ属性項目のニューラルネット入力用
整形例を示す概念図である。

【図７】カテゴリ属性項目(段階評価)のニューラルネ
ット入力用整形例を示す概念図である。

【図８】カテゴリ属性項目の数値化例を示す概念図で
ある。

【図９】数値属性項目のカテゴリ化後の数値化例を示
す概念図である。

【図１０】属性データの数値化例を示す概念図であ
る。

【図１１】本発明の第１実施形態の動作を説明するた
めのフローチャートである。

【図１２】本発明の第２実施形態によるデータ分類装
置の構成を示すブロック図である。

【図１３】本発明の第２実施形態の動作を説明するた
めのフローチャートである。

【図１４】本発明の第３実施形態の構成によるデータ
分類装置の構成を示すブロック図である。

【図１５】本発明の第４実施形態の構成によるデータ
分類装置の構成を示すブロック図である。

【図１６】従来技術のデータ分類装置の構成を示すブロ
ック図である。

【符号の説明】

１入力装置２記憶装置３００データ処理装置４出力装置５記録媒体２１過去属性データ記憶部（過去属性データ記憶手
段）２２整形属性データ記憶部（整形属性データ記憶手
段）３１属性項目統一部（属性項目統一手段）３２データ集計部（データ集計手段）３３入力属性項目数決定部（入力属性項目数決定手
段）３４入力データ整形部（入力データ整形手段）３５ＢＰ学習部（誤差逆伝播学習手段）３６ＢＰ推定部（誤差逆伝播推定手段）

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平５−265992（ＪＰ，Ａ) 特開平６−96050（ＪＰ，Ａ) 古賀、広瀬，「対話型ニューラルネット適用支援システムの開発」，情報処理学会第40回全国大会講演論文集（第１分冊），日本，社団法人情報処理学会・発行，1990年６月12日，ｐｐ．288−289 山谷，「統計解析とデータマイニング」，ネットワークコンピューティング，株式会社リックテレコム・発行, 1999年１月１日，Ｖｏｌ．11，Ｎｏ．１，ｐｐ．64〜71，（特許庁ＣＳＤＢ文献番号：ＣＳＮＷ200000332006) ハーブ・エデルスタイン，「データ・マイニングで眠れる情報を掘り起こせ」，日経コンピュータ，日経ＢＰ社・発行，1996年３月18日，Ｎｏ．387, ｐｐ．187〜190，（特許庁ＣＳＤＢ文献番号：ＣＳＮＷ199800591009) 月本、森田、下郡，「重回帰分析に基づいた帰納学習アルゴリズム」，電子情報通信学会論文誌，社団法人電子情報通信学会・発行，1996年７月25日，Ｖｏｌ．Ｊ79−Ｄ−ＩＩ、Ｎｏ．７，ｐｐ. 1244〜1251，（特許庁ＣＳＤＢ文献番号：ＣＳＮＴ199800759008) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06N 1/00 - 7/00 G06F 9/44 G06F 17/60 G06F 19/00 ＪＩＣＳＴファイル（ＪＯＩＳ) ＣＳＤＢ（日本国特許庁)

Claims

(57)【特許請求の範囲】

【請求項１】過去における属性データを記憶する過去
属性データ記憶手段と、前記過去属性データ記憶手段に記憶されている属性デー
タの属性項目をカテゴリ型に統一するか、数値型に統一
するかを決定する属性項目統一手段と、前記属性項目統一手段により属性データの属性項目がカ
テゴリ型に統一された場合、各カテゴリに該当するデー
タ数のクロス集計を行うデータ集計手段と、前記データ集計手段により集計されたデータに基づい
て、ニューラルネットワークに入力する属性項目数を決
定する入力属性項目数決定手段と、前記入力属性項目数決定手段により決定された属性項目
の性質に基づいて、データを階層型ニューラルネットワ
ークの入力に適した整形を施す入力データ整形手段と、前記入力属性項目数決定手段の結果を用いてニューラル
ネットワークの構造を決定し、入力データ整形部から得
られた学習データを用いて誤差逆伝播法によって学習す
る誤差逆伝播学習手段と、前記誤差逆伝播学習手段からの誤差逆伝播学習結果およ
び入力データ整形手段からの新規属性データに基づい
て、新規の属性データの分類推定を行う誤差逆伝播推定
手段とを備えることを特徴とするデータ分類装置。
【請求項２】前記入力データ整形手段によりニューラ
ルネットの入力用に整形された過去の属性データおよび
ニューラルネットの入力用に整形された新規の属性デー
タを記憶する整形属性データ記憶手段を具備することを
特徴とする請求項１記載のデータ分類装置。
【請求項３】前記属性データは、顧客データであるこ
とを特徴とする請求項１または２記載のデータ分類装
置。
【請求項４】過去における属性データを記憶し、属性
データの属性項目をカテゴリ型に統一するか、数値型に
統一するかを決定し、過去属性データの属性項目をカテ
ゴリ型に統一した場合、各カテゴリに該当するデータ数
のクロス集計を行い、ニューラルネットワークに入力す
る属性項目数を決定し、属性項目の性質に従って、デー
タを階層型ニューラルネットワークの入力に適した整形
を施し、入力属性項目数決定の結果を用いてニューラル
ネットワークの構造を決定し、入力データ整形の結果得
られた学習データを用いて誤差逆伝播法によって学習
し、誤差逆伝播学習結果と整形した新規属性データとを
用いて、新規属性データの分類推定を行うことを特徴と
するデータ分類方法。
【請求項５】ニューラルネットの入力用に整形された
過去の属性データおよびニューラルネットの入力用に整
形された新規の属性データを記憶することを特徴とする
請求項４記載のデータ分類方法。
【請求項６】前記属性データは、顧客データであるこ
とを特徴とする請求項４または５記載のデータ分類方
法。
【請求項７】過去における属性データを記憶する過去
属性データ記憶処理と、前記過去属性データ記憶処理により記憶された属性デー
タの属性項目をカテゴリ型に統一するか、数値型に統一
するかを決定する属性項目統一処理と、属性項目統一処理により過去属性データの属性項目をカ
テゴリ型に統一した場合、各カテゴリに該当するデータ
数のクロス集計を行うデータ集計処理と、ニューラルネットワークに入力する属性項目数を決定す
る入力属性項目数決定処理と、前記入力属性項目数決定手段により決定された属性項目
の性質に基づいて、データを階層型ニューラルネットワ
ークの入力に適した整形を施す入力データ整形処理と、入力属性項目数決定部の結果を用いてニューラルネット
ワークの構造を決定し、入力データ整形処理の結果から
得られた学習データを用いて誤差逆伝播法によって学習
する誤差逆伝播学習処理と、、前記誤差逆伝播学習手段からの誤差逆伝播学習結果お
よび入力データ整形手段からの新規属性データに基づい
て、新規属性データの分類推定を行う誤差逆伝播推定処
理とからなるプログラムを記録することを特徴とする記
録媒体。
【請求項８】ニューラルネットの入力用に整形された
過去の属性データおよびニューラルネットの入力用に整
形された新規の属性データを、整形属性データとして記
憶する属性データ記憶処理からなるプログラムを記録す
ることを特徴とする請求項７記載の記録媒体。
【請求項９】前記属性データは、顧客データであるこ
とを特徴とする請求項７または８に記載の記録媒体。