JP2000040079A

JP2000040079A - 並列データ分析装置

Info

Publication number: JP2000040079A
Application number: JP20996498A
Authority: JP
Inventors: Kazuhiro Matsumoto; 和宏松本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1998-07-24
Filing date: 1998-07-24
Publication date: 2000-02-08

Abstract

(57)【要約】【課題】本発明は並列計算機の処理を効率的に行い、
データ分析の精度を向上させる並列データ分析装置を提
供することを目的とする。【解決手段】本発明の並列データ分析装置は分析精
度を低下させるフィールドを除外する、分析精度を向
上させるフィールドを追加する、関連度テーブルを用
いる、散布図を作成する、クラスタごとに分析を行
う、最も精度が良い予測モデルを用いてクラス値を予
測する、欠損値を補間し適用可能なアプリケーション
の範囲を拡大する、指定時間内に処理できるフィール
ド数を求める、ことによって並列処理を効率的に行い、
分析精度を向上させる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は複数のフィールドか
らなるデータを分析する並列データ分析装置に関わり、
特に並列計算機の処理を効率的に行い、データ分析の精
度を向上させる並列データ分析装置に関わる。

【０００２】

【従来の技術】近年のコンピュータなどの情報機器の高
性能化、記憶装置の大容量化、およびインターネットな
どネットワーク化に伴い、遠隔地から様々なデータを収
集することや大量のデータを蓄積することが容易になっ
てきた。こうした環境のもとでは大量の情報を分析し、
有効な情報を抽出してビジネスに活用する技術がますま
す重要になってきている。

【０００３】例えば、流通業界では全国の小売店の売上
内容と時間帯との関係、金融業界ではクレジットカード
の個人別の使用状況、保険業界では個人データと保険の
利用状況などがコンピュータに時々刻々と集積され、そ
れぞれの分析アプリケーションによって、データが示す
動向、規則性などが即座に分析され、意味のある情報が
抽出されてそれぞれのビジネス分野に役立てられてい
る。

【０００４】図２０はこのような複数のフィールドから
なる入力データの例である。図２０では顧客別の年齢、
性別、年収などの個人データが示される。ここで年齢、
性別、年収などの属性のそれぞれをフィールドと呼び、
例えば、顧客別のフィールドの集まりをレコードと呼
ぶ。すなわち、特定のフィールドのデータが他のフィー
ルドのデータとどのような関係を持つかということが分
析される。

【０００５】データの分析過程においては教師あり学習
と教師なし学習がある。教師あり学習では、データ（レ
コード）が示されるごとにデータをどのカテゴリに分類
すべきかを教師が教える。あるいは計算機に分類させて
みて答えが正しかったかどうかを教師が教える。

【０００６】教師なし学習では学習させるべき何種類か
のパターンを繰り返して示し、計算機に自己学習させ
る。計算機にはそのデータをどのカテゴリに分類すべき
かの情報を与えないし、答えを教えることもない。計算
機はデータ（レコード）が入力されると、初期条件や外
部条件の影響を受けながら、レコードの分類基準を自分
自身で作り上げて行く。

【０００７】教師あり学習の場合、フィールド間のデー
タの関連度が計算される。フィールド間のデータの関連
度は例えば相互情報量を用いて計算される。周知の情報
と符号の理論によると、事象Ａと事象Ｂの相互情報量
は、Ｉ（Ａ；Ｂ）＝Ｈ（Ａ）＋Ｈ（Ｂ）−Ｈ（ＡＢ）と
表される。ここでＨ（Ａ）は事象Ａの平均情報量であ
り、Ｈ（Ａ）＝−Σｐ（ａ_i）ｌｏｇ₂ｐ（ａ_i）であ
る。ｐ（ａ_i）は確率事象系Ａの情報の集合｛ａ_i｝の
出現確率である。

【０００８】また、教師あり学習では予測対象のフィー
ルドのことをクラスフィールドと呼び、クラスフィール
ドの値のことをクラス値、クラス値が既知であるデータ
を既知データ、クラス値が未知であるデータを未知デー
タと呼ぶ。例えば年齢と性別から年収を予測する場合、
年齢と性別のフィールドが条件フィールド、年収のフィ
ールドがクラスフィールドになる。

【０００９】データ分析に用いられるアルゴリズムには
相関分析やニューラルネットワークや決定木などの種類
がある。教師あり学習の場合、それぞれのアルゴリズム
において、条件フィールドのデータが分析されてクラス
値が求められる。

【００１０】データ分析の結果には、単に結果を出力す
る場合と予測モデルを作成する場合とがある。予測モデ
ルを作成した場合は、更に予測モデルに基づいて予測対
象のフィールドのデータを予測する。予測モデルは関数
の形をしていることが多い。また、データ分析の結果に
ついて分析精度の良し悪しが検討される。

【００１１】

【発明が解決しようとする課題】分析対象のデータ量は
膨大化しており、大量のデータを扱う場合であっても現
実的な時間内に分析を終了させることが課題である。そ
のため処理装置１台でデータを逐次処理するのではな
く、複数の処理装置を並列にして、データを分割して各
処理装置に順番に分析処理を割り当てたり、分析アプリ
ケーションごとに処理装置を割り当てたりする並列計算
機が用いられる。

【００１２】更に、データの内容が類似したレコードが
同じグループに属するようにクラスタ分割が用いられ
る。大量のデータを類似するグループに分類する処理の
ことをクラスタリングと呼ぶ。データをクラスタ分割す
ることによって、並列化された個々の処理装置が類似し
たデータを扱えるので、データ分析の処理効率を高める
ことができる。

【００１３】しかしながら、並列処理化が進み、個々の
処理装置の性能が向上したとしても、データ量の大小に
関わらず、データを用いて意思決定する場面ではユーザ
が期待する処理時間は従来より短くなってきており、デ
ータ分析アプリケーションが指定された時間内に終了し
なくなるという問題がある。

【００１４】また、データ分析アプリケーションが並列
処理される場合においては、処理速度やデータ量が処理
装置ごとに均等でないことがあり、個々の処理装置に待
ち時間が発生したり、データ分析の途中で処理装置間の
データ転送が発生したりすることがあり、並列計算機全
体の処理能力が低下するという問題がある。

【００１５】本発明は複数のフィールドからなるデータ
を分析する並列データ分析装置に関わり、特に、並列化
のための余分な負荷をなくして並列計算機の処理能力お
よびデータ分析精度を向上させることを目的とする。

【００１６】

【課題を解決するための手段】本発明の並列データ分析
装置は、複数のフィールドからなるデータを複数の処理
装置に割り当てて並列に分析を行い、予測対象のフィー
ルドの予測値を求める並列データ分析装置であって、各
処理装置に共通に割り当てられる複数のフィールドであ
るベースフィールドの中から処理装置ごとに分析の対象
にしない１以上のフィールドを選択するフィールド選択
手段と、ベースフィールドに属するデータから、処理装
置ごとにフィールド選択手段によって選択されたフィー
ルドに属するデータを削除するフィールド削除手段と、
ベースフィールドに属するデータと、削除後のデータと
について、処理装置ごとに分析し、予測モデルを作成す
るデータ分析手段と、予測モデルに基づいて予測対象の
フィールドのデータを予測するデータ予測手段と、予測
結果を比較し、最も分析精度が良い予測モデルを用いて
予測値とする予測モデル選択手段と、を有する。

【００１７】図１は本発明の原理図であり、図１の
（Ａ）は本発明の並列データ分析装置の構成図（１）で
ある。並列データ分析装置１は管理装置２０と複数の処
理装置６とを有する。管理装置２０はフィールド選択手
段４とデータ予測手段５と予測モデル選択手段１７を有
する。

【００１８】フィールド選択手段４では各処理装置６に
共通に割り当てられる複数のフィールドであるベースフ
ィールドの中から処理装置６ごとに分析の対象にしない
１以上のフィールドを選択する。管理装置２０には図１
の（Ｂ）に示すようにベースフィールドを含む複数のフ
ィールドからなるデータが入力される。

【００１９】図１の（Ｂ）の例では分析対象のフィール
ドとして、処理装置６ａにはベースフィールド（Ａ、
Ｂ、Ｃ、Ｄ）が、処理装置６ｂにはフィールド（Ａ、
Ｂ、Ｃ）が、処理装置６ｃにはフィールド（Ａ、Ｂ、
Ｄ）が割り当てられる。

【００２０】すなわち、フィールド選択手段４は処理装
置６ａに対しては削除すべきフィールドを選択しないで
ベースフィールドを割当て、処理装置６ｂに対しては削
除すべきフィールドとしてＤを選択し、処理装置６ｃに
対しては削除すべきフィールドとしてＣを選択する。

【００２１】個々の処理装置６はフィールド削除手段７
とデータ分析手段９と予測モデル１０とを有する。フィ
ールド削除手段７はベースフィールドに属するデータか
ら処理装置６ごとに選択されたフィールドに属するデー
タを削除する。

【００２２】データ分析手段９には、フィールド選択手
段４によって選択され、フィールド削除手段７によって
ベースフィールドに属するデータから削除されたデータ
が入力される。

【００２３】処理装置６に入力されたデータは分析アル
ゴリズムに基づいて分析される。データ分析手段９は、
処理装置６ごとに設けられ、分析アルゴリズムに基づい
てデータの分析を行い、予測モデル１０を作成する。

【００２４】作成された予測モデル１０は各処理装置６
から管理装置２０にあるデータ予測手段５に送出され
る。データ予測手段５は入力された未知データに、個々
の処理装置６から送出された予測モデル１０を適用し、
個々の予測値を出力する。

【００２５】続いて予測モデル選択手段１７が分析精度
の良し悪しを検討する。すなわち、予測モデル選択手段
１７が個々の予測値を比較し、分析精度が最も良い予測
モデル１０を選択する。その結果を予測値として出力す
る。

【００２６】このように、分析精度を低下させるフィー
ルドを除外すること、および、個々の処理装置において
は、割り当てられたフィールドに関するデータ分析を最
後まで実行することが可能になり、並列処理を効率的に
行い、データ分析の精度を向上させることが可能にな
る。

【００２７】また、本発明の並列データ分析装置は、フ
ィールド間のデータの関連度を計算した計算結果を関連
度テーブルとして保持する関連度計算手段と、関連度テ
ーブルを参照し、予測対象のフィールドと関連度が低い
フィールドから順に１以上のフィールドを選択するフィ
ールド選択手段と、を有する。

【００２８】図２は本発明の並列データ分析装置の構成
図（２）である。図２の管理装置２０は関連度計算手段
１４と関連度テーブル３を有する。図２の他の符号の意
味は図１の符号の意味と同じである。

【００２９】管理装置２０には複数のフィールドからな
るデータが入力される。関連度計算手段１４は入力され
たデータの複数のフィールドについてのデータの関連度
を計算し、計算値を関連度テーブル３に保持する。

【００３０】図２のフィールド選択手段４は、関連度テ
ーブル３を参照し、予測対象のフィールドと関連度が低
いフィールドから順に１以上のフィールドを選択する。
個々の処理装置６ではフィールド削除手段７がベースフ
ィールドに属するデータから処理装置６ごとに選択され
たフィールドに属するデータを削除する。

【００３１】これにより、関連度が低いフィールドを除
外することが可能になり、並列処理を効率的に行い、デ
ータ分析の精度を向上させることが可能になる。更に、
本発明の並列データ分析装置は、各処理装置に共通に割
り当てられる複数のフィールドであるベースフィールド
以外のフィールドに処理装置ごとに分析の対象にする１
以上のフィールドを選択するフィールド選択手段と、ベ
ースフィールドに属するデータに、処理装置ごとにフィ
ールド選択手段によって選択されたフィールドに属する
データを追加するフィールド追加手段と、ベースフィー
ルドに属するデータと、追加したデータとについて、処
理装置ごとに分析し、予測モデルを作成するデータ分析
手段と、予測モデルに基づいて予測対象のフィールドの
データを予測するデータ予測手段と、予測結果を比較
し、最も分析精度が良い予測モデルを用いて予測値とす
る予測モデル選択手段と、を有する。

【００３２】図３は本発明の並列データ分析装置の構成
図（３）である。図３の個々の処理装置６はフィールド
追加手段８を有する。図３の他の符号の意味は図１の符
号の意味と同じである。

【００３３】管理装置２０のフィールド選択手段４で
は、ベースフィールド以外のフィールドに処理装置ごと
に分析の対象にする１以上のフィールドを選択する。管
理装置２０には図３に示すようにベースフィールドとベ
ースフィールド以外のフィールドからなるデータが入力
される。

【００３４】図３の例では分析対象のフィールドとし
て、処理装置６ａにはベースフィールド（Ａ、Ｂ）が、
処理装置６ｂにはフィールド（Ａ、Ｂ、Ｃ）が、処理装
置６ｃにはフィールド（Ａ、Ｂ、Ｄ）が、それぞれ割り
当てられる。

【００３５】すなわち、フィールド選択手段４は処理装
置６ａに対してはベースフィールドを割当て、処理装置
６ｂに対しては追加すべきフィールドとしてＣを選択
し、処理装置６ｃに対しては追加すべきフィールドとし
てＤを選択する。

【００３６】個々の処理装置６のフィールド追加手段８
はベースフィールドに属するデータに処理装置６ごとに
選択されたフィールドに属するデータを追加する。続い
て、個々の処理装置６（データ分析手段９）においてデ
ータ分析を並列処理で行い、管理装置２０（予測モデル
選択手段１７）が分析精度の最も良い予測モデル１０を
選択し、その結果を予測値として出力する。

【００３７】このように、分析精度を向上させるフィー
ルドを追加すること、および、個々の処理装置において
割り当てられたフィールドに関するデータ分析を最後ま
で実行することが可能になり、並列処理を効率的に行
い、データ分析の精度を向上させることが可能になる。

【００３８】更にまた、本発明の並列データ分析装置
は、フィールド間のデータの関連度を計算した計算結果
を関連度テーブルとして保持する関連度計算手段と、関
連度テーブルを参照し、予測対象のフィールドと関連度
が高いフィールドから順に１以上のフィールドを選択す
るフィールド選択手段と、を有する。

【００３９】図４は本発明の並列データ分析装置の構成
図（４）である。図４の管理装置２０は関連度計算手段
１４と関連度テーブル３を有する。図４の他の符号の意
味は図３の符号の意味と同じである。

【００４０】管理装置２０には複数のフィールドからな
るデータが入力される。関連度計算手段１４は入力され
たデータの複数のフィールドについてのデータの関連度
を計算し、計算値を関連度テーブル３に保持する。

【００４１】図４のフィールド選択手段４は、関連度テ
ーブル３を参照し、予測対象のフィールドと関連度が高
いフィールドから順に１以上のフィールドを選択する。
個々の処理装置６ではフィールド追加手段８がベースフ
ィールドに属するデータに処理装置６ごとに選択された
フィールドに属するデータを追加する。

【００４２】これにより、関連度が高いフィールドを追
加することが可能になり、並列処理を効率的に行い、デ
ータ分析の精度を向上させることが可能になる。本発明
の並列データ分析装置は、関連度が高いフィールドの組
合せを複数選び出し、個々の組合せに対する散布図を作
成する散布図作成手段を有する。

【００４３】図５は本発明の並列データ分析装置の構成
図（５）である。図５の管理装置２０は関連度テーブル
３と表示手段１５を有する。図５の処理装置６は散布図
作成手段１６を有する。図５の他の符号の意味は他図の
符号の意味と同じである。

【００４４】管理装置２０にあるフィールド選択手段４
が、関連度テーブル３を参照し、関連度が高いフィール
ド同士の組合せを選択する。個々の処理装置６において
散布図作成手段１６が散布図用データを作成する。

【００４５】散布図には、個々のフィールドの組合せに
対してデータが適宜マッピングされる。処理装置６ごと
に作成された散布図は比較のためにまとめて管理装置２
０の表示手段１５が表示する。

【００４６】このようにデータ分析前のフィールドの組
合せに対して並列処理が可能になり、散布図を表示する
ことによってデータ分析前の入力データの状況（傾向）
を把握することが可能になる。

【００４７】更に、本発明の並列データ分析装置は、入
力されたデータを類似したグループに分類するクラスタ
分割手段を有し、個々の処理装置において個々のクラス
タに属するデータの分析を並列に行う。

【００４８】図６の並列データ分析装置の構成図（６）
はクラスタ分割手段１２を説明するための図である。入
力データはクラスタ分割のアルゴリズムに基づいて複数
のグループに分割することができる。クラスタ分割手段
１２は、周知のクラスタ分割アルゴリズムを用いて入力
データを複数のクラスタ１３に分割する。

【００４９】クラスタ分割アルゴリズムには例えば、最
近隣連結、最遠隣連結、群平均連結などがある。クラス
タ分割の結果、データが類似するレコードが同じグルー
プに属する。図６ではクラスタ分割手段１２によって入
力データを複数のクラスタ１３に分割し、一つのクラス
タのデータを複数の処理装置６が並列に処理する。

【００５０】クラスタの大きさ（サイズ、例えばレコー
ド数）によって、一つの処理装置が複数のクラスタに属
するデータを扱う場合もある。いずれの場合もクラスタ
ごとに関連度テーブル３を有し、処理装置６ごとにフィ
ールド削除手段７またはフィールド追加手段８、および
データ分析手段９を有する。

【００５１】更にまた、本発明の並列データ分析装置
は、入力されたデータを複数のクラスタに分割し、個々
の処理装置において個々のクラスタに属するデータを分
析し、クラスタごとに予測モデルを作成する並列データ
分析装置であって、未知のデータがどのクラスタに属す
るかを調べ、クラスタごとに作成された予測モデルに基
づいて未知のデータのクラス値を予測する。

【００５２】図７の並列データ分析装置の構成図（７）
はデータ予測手段５および予測モデル選択手段１７を説
明するための図である。図７において、クラスタ分割手
段１２は入力データを複数のクラスタ１３に分割する。

【００５３】図７では一つの処理装置６に二つのクラス
タ１３を対応させた。一つのクラスタ１３のデータは３
台の処理装置６により並列処理される。クラスタ１３ご
とに且つ処理装置６ごとにデータ分析手段９に入力され
たデータは分析アルゴリズムに基づいて分析され、クラ
スタ１３ごとに且つ処理装置６ごとに予測モデル１０が
作成される。作成された予測モデル１０はクラスタ１３
（若しくは処理装置６）からデータ予測手段５に送出さ
れる。

【００５４】予測モデル選択手段１７はクラスタ分割時
に未知データがどのクラスタ１３に属したかを調べ、そ
のクラスタ１３を特定する。データ予測手段５は特定さ
れたクラスタ１３において作成された予測モデル１０に
基づいてクラス値を予測する。

【００５５】このように、フィールド間の並列処理化に
加えて、類似したレコードをクラスタ化することによ
り、類似したデータ間で更に詳細にデータ分析を行うこ
とが可能になり、データ分析の精度を向上させることが
可能になる。

【００５６】本発明の並列データ分析装置は、欠損値を
含むフィールドが複数ある場合に欠損値を含むフィール
ド以外のフィールドのデータから欠損値を予測し、補間
する欠損値補間手段を有する。

【００５７】図８の欠損値補間は、欠損値補間手段１１
を説明するための図である。入力データに欠損値がある
場合は、欠損値以外の全てのフィールドのデータが分析
され、推定値が補間される。入力データには複数の欠損
値を含む場合がある。

【００５８】図８では、複数のフィールドに欠損値を含
む場合であり、欠損値が属するフィールドとそのフィー
ルドと関連度が高いフィールドとを扱う個々の処理装置
６において欠損値を推定する場合を示す。

【００５９】図８の入力データで欠損しているところを
ｘで示す。図８ではＡからＨまでのフィールドを有する
Ｉ（１）からＩ（５）およびＩ（Ｎ）のレコードにおい
て、Ｉ（２）のＥとＩ（３）のＣとＩ（４）のＧとＩ
（５）のＡが欠損している。

【００６０】教師あり学習の場合は関連度テーブル３を
用いて他のフィールドとの関連から欠損値を推定する。
例えばＡとＢとＣのフィールドからＧのフィールドが予
測でき、ＤとＥとＦのフィールドからＨのフィールドが
予測できる場合は、ＡとＢとＣとＧのフィールドを扱う
処理装置６とＤとＥとＦとＨのフィールドを扱う処理装
置６がそれぞれの欠損値補間手段１１によって欠損値を
推定し、補間する。

【００６１】データ分析アプリケーションは単に欠損値
を補間するだけで処理を終了することもあるが、欠損値
を補間することによって、適用可能なデータ分析アプリ
ケーションの範囲を拡大することができる。

【００６２】データ分析アプリケーションの種類によっ
ては、欠損値があるためにそれぞれのアプリケーション
の処理が進まなくなることがあり、これを回避するため
に入力データを欠損がないものに変換する。そのため、
データを分析する場合ばかりでなく、データをクラスタ
に分割する場合、データを予測する場合のいずれの場合
においても、欠損値の補間を行う。

【００６３】また、大量のデータを扱う場合は欠損値を
含むレコードを除外してデータを分析することもある
が、分析精度を向上させるためには、フィールド間のデ
ータの関連度から欠損値を推定し、欠損値を含むレコー
ドも利用する。

【００６４】また、本発明の並列データ分析装置は、指
定された処理時間内に分析するフィールド数を算出する
フィールド数算出手段と、フィールド数算出手段で算出
したフィールド数の分のフィールドを選択するフィール
ド選択手段と、を有する。

【００６５】図９は本発明の並列データ分析装置の構成
図（８）である。図９の管理装置２０はフィールド数算
出手段２を有する。図９の他の符号の意味は他図の符号
の意味と同じである。

【００６６】図９のフィールド数算出手段２は指定され
た処理時間内に分析するフィールド数を算出する。フィ
ールド数はデータ分析に使用される分析アルゴリズムの
種類、接続される処理装置の数、入力されるデータのレ
コード数などのパラメータに基づいて計算される。

【００６７】このように、処理時間が指定されてデータ
分析を行う場合に、指定時間内に処理できるフィールド
数を求めることによって、並列処理を効率的に行い、デ
ータ分析の精度を向上させることが可能になる。

【００６８】

【発明の実施の形態】本発明の実施例について図面を用
いて詳細に説明する。図１０のフィールド選択は本発明
の並列データ分析装置のフィールド選択に関わる部分の
構成図である。図１０のフィールド数算出部２には分析
アルゴリズムの種類と入力データ量とハードウェア資源
の状況と処理時間を含むパラメータが入力される。

【００６９】データ分析のアルゴリズムにはニューラル
ネットワークや決定木などがある。入力データ量はレコ
ード数などによって示される。ハードウェア資源には接
続される処理装置の数やメモリ容量や処理速度などが示
される。

【００７０】フィールド数算出部２ではこれらのパラメ
ータに基づいて、ユーザに指定された処理時間内に処理
できると見込まれるフィールド数を算出する。フィール
ド数は個々の処理装置が分析を担当する分であり、処理
装置ごとに決める。フィールド数の算出方法には経験式
を用いるものや、ニューラルネットワークや決定木など
により作成した予測モデルを用いるものがある。

【００７１】一方、関連度計算部１４では入力された複
数のフィールドからなるデータについてフィールド間の
データの相互情報量を計算する。その計算結果を関連度
テーブル３に保持する。フィールド選択部４では関連度
テーブル３を参照してクラスフィールド（予測対象のフ
ィールド）との関連度が高い順にフィールド数算出部２
で算出したフィールド数の分のフィールドを選択する。

【００７２】次に図１１を用いて散布図表示と関連度を
説明する。図１１の２０は関連度テーブル３とフィール
ド選択部４と表示部１５を有する管理装置であり、図６
の１６は処理装置６の散布図作成部である。図１１の他
の符号は他の図の符号と同じ意味を持つ。

【００７３】教師あり学習の場合はフィールド選択部４
が関連度テーブル３を参照し、関連度が高いフィールド
同士の組合せを選択する。フィールド選択部４は個々の
処理装置に対してフィールドの組合せを指示する。散布
図作成部１６が散布図用データを作成する。教師なし学
習の場合もフィールド選択部４がフィールドの組合せを
個々の処理装置６に指示する。

【００７４】散布図作成部１６では処理装置６ごとに指
示されたフィールドの組合せに対して入力データをマッ
ピングする。図６の（ａ）は関連度が高い場合であり、
入力データに規則性が認められる。図６の（ｂ）は関連
度が低い場合であり、入力データは分散的である。

【００７５】散布図を作成するときに縦軸や横軸のフィ
ールドを何にするか、次元数をいくつにするかは適宜決
められる。注目するフィールドがある場合は関連度テー
ブル３から注目するフィールドと関連度が高いフィール
ドを選択し、注目するフィールドがない場合は関連度テ
ーブル３から関連度が高いフィールドを組み合わせて選
択する。

【００７６】例えば図２０に示すように１レコードに
「年齢」、「性別」、「職業」、「学歴」、「年収」な
どのフィールドを有する顧客データは、一つ目の処理装
置６に「年齢」と「年収」を、二つ目の処理装置６に
「性別」と「年収」を、三つ目の処理装置６に「学歴」
と「職業」をそれぞれ割当てる。

【００７７】個々の処理装置６は、データ分析前の入力
データについても散布図用データを並列処理により作成
する。処理装置６ごとに作成された散布図用データは比
較のためにまとめられて、管理装置２０の表示部１５が
散布図として表示する。

【００７８】図１２と図１３はフィールド削除とフィー
ルド追加を説明するための図である。図１２はフィール
ド削除とフィールド追加に関わる部分の構成図である。
図１２の符号は他図の符号と同じ意味を持つが、図１２
と図１３では個々の処理装置６を識別するために処理装
置Ｐ、処理装置Ｑ、処理装置Ｒとする。

【００７９】フィールド選択部４は各処理装置６にベー
スフィールドを共通に割り当てると共に処理装置６ごと
に削除すべきフィールドを指定する。フィールド削除部
７はベースフィールドに属するデータから処理装置６ご
とに指定されたフィールドに属するデータを削除する。

【００８０】教師あり学習の場合はフィールド選択部４
は関連度テーブル３を参照してクラスフィールド（予測
対象のフィールド）との関連度が低いフィールドを選択
し、処理装置６ごとに削除すべきフィールドを指定す
る。教師なし学習の場合もフィールド選択部４が処理装
置６ごとに削除すべきフィールドを指定する。

【００８１】一方、フィールド追加部８はベースフィー
ルド以外のフィールドに属するデータに処理装置６ごと
に指定されたフィールドに属するデータを追加する。教
師あり学習の場合はフィールド選択部４は関連度テーブ
ル３を参照してクラスフィールドとの関連度が高いフィ
ールドを選択し、処理装置６ごとに追加すべきフィール
ドを指定する。教師なし学習の場合も、フィールド選択
部４が処理装置６ごとに追加すべきフィールドを指定す
る。

【００８２】データ分析部９には、フィールド削除部７
によってベースフィールドに属するデータから削除され
たり、フィールド追加部８によってベースフィールド以
外に属するデータに追加されたりしたデータが入力され
る。

【００８３】図１３はフィールド削除と追加の例であ
る。フィールド削除の例では処理装置Ｐにベースフィー
ルドのデータ、処理装置Ｑにベースフィールドから「職
業」フィールドを削除したデータ、処理装置Ｒにベース
フィールドから「学歴」フィールドを削除したデータを
割り当てる。

【００８４】すなわち処理装置Ｐには「年齢」、「性
別」、「職業」、「学歴」、「収入」のフィールドが、
処理装置Ｑには「年齢」、「性別」、「学歴」、「収
入」のフィールドが、処理装置Ｒには「年齢」、「性
別」、「職業」、「収入」のフィールドが割り当てられ
る。

【００８５】教師あり学習の場合、管理装置２０のデー
タ予測部５と予測モデル選択部１７が、それぞれの処理
装置６で分析した結果の精度を比較する。例えば分析結
果の精度が、処理装置Ｑの「職業」フィールドがない分
析＞処理装置Ｐのベースとなる分析＞処理装置Ｒの「学
歴」フィールドがない分析の順に良かった場合は「職
業」フィールドは分析に悪い影響を与え、「学歴」フィ
ールドは分析に良い影響を与えることが分かる。

【００８６】一方、フィールド追加の例では処理装置Ｐ
に「年齢」、「性別」、「収入」のベースフィールドの
データ、処理装置Ｑにベースフィールド以外に「職業」
フィールドを追加したデータ、処理装置Ｒにベースフィ
ールド以外に「学歴」フィールドを追加したデータを割
り当てる。

【００８７】教師あり学習の場合、管理装置２０のデー
タ予測部５と予測モデル選択部１７が、それぞれの処理
装置６で分析した結果の精度を比較する。例えば分析結
果の精度が、処理装置Ｑの「職業」フィールドを追加し
た分析＞処理装置Ｐのベースとなる分析＞処理装置Ｒの
「学歴」フィールドを追加した分析の順に良かった場合
は「職業」フィールドは分析に良い影響を与え、「学
歴」フィールドは分析に悪い影響を与えることが分か
る。

【００８８】次に図１４を用いて欠損値補間の処理を説
明する。入力データの複数のフィールドに欠損値がある
場合は、欠損値を含む個々のフィールドを個々の処理装
置６に割当てる。データ推定および補間を個々の処理装
置６で並列処理する。データ推定にはニューラルネット
ワークや決定木などのアルゴリズムが用いられ、欠損値
を含むフィールドと他のフィールドとの関連から欠損値
を推定する。

【００８９】教師あり学習の場合は、管理装置２０が有
する関連度テーブル３を参照してフィールド選択部４が
欠損値を含むフィールドと関連度が高いフィールドを選
択する。教師なし学習の場合も、フィールド選択部４が
欠損値を含むフィールドと欠損値を含まないフィールド
を選択する。

【００９０】教師あり学習、教師なし学習のいずれの場
合も、選択されたフィールドが個々の処理装置６に割り
当てられ、処理装置６の欠損値補間部１１が欠損値を推
定し、補間する。

【００９１】例えば「年齢」、「性別」、「職業」、
「学歴」、「収入」のフィールドの内、「年齢」、「性
別」、「職業」のフィールドに欠損値を有する場合、処
理装置Ｐに「年齢」が、処理装置Ｑに「性別」が、処理
装置Ｒに「職業」が、それぞれのフィールドと関連度が
高いフィールドと組合わされて割り当てられる。

【００９２】図１５は処理装置の構成を説明するための
図である。並列データ分析装置１は管理装置２１と複数
のクラスタ１３から構成される。管理装置２１はクラス
タ分割部１２と表示部１５から構成される。クラスタ１
３はそれぞれ管理装置２０と複数の処理装置６から構成
される。

【００９３】図１６はクラスタ分割の処理を説明するた
めの図である。図１６の関連度テーブル３とデータ予測
部５は各クラスタ１３ごとの管理装置２０にある。ま
た、図１６のクラスタ分割部１２と表示部１５は管理装
置２１にある。

【００９４】クラスタ分割部１２は最近隣連結、最遠隣
連結、群平均連結などの分割アルゴリズムを用いてデー
タが類似するレコードが同じグループに属するように入
力データをクラスタＡ、クラスタＢ、クラスタＣなどの
クラスタ１３に分割する。

【００９５】図１６では「顧客１」、「顧客２」、「顧
客３」などからなるデータが管理装置２１に入力される
と、「顧客１」、「顧客５」、「顧客７」などからなる
データ１、「顧客２」、「顧客４」、「顧客９」などか
らなるデータ２、および「顧客３」、「顧客６」、「顧
客８」などからなるデータ３に分割される。

【００９６】データ１、データ２、データ３などはそれ
ぞれクラスタＡ、クラスタＢ、クラスタＣなどに割り当
てられる。クラスタＡ、クラスタＢ、クラスタＣなどの
クラスタごとに管理装置２０があり、それぞれの管理装
置２０はクラスタごとの関連度テーブル３とデータ予測
部５を有する。

【００９７】それぞれのクラスタでは管理装置２０にお
いてフィールド間の関連度を計算し、関連度テーブル３
を作成する。続いて関連度テーブル３を参照し関連度が
高い複数のフィールドを選択し、個々の処理装置６に関
連度が高い複数のフィールドのデータを割り当てる。

【００９８】個々の処理装置６では関連度テーブル３を
参照し、割り当てられた複数のフィールドに関するデー
タを分析アルゴリズムに基づいて分析し、分析結果を出
力する。分析アルゴリズムが予測モデルを作成する場合
は予測モデルを作成し、管理装置２０のデータ予測部５
に送出する。

【００９９】各クラスタ１３のデータ予測部５には未知
データが入力されており、送出された予測モデルに基づ
いてクラス値を予測する。各クラスタ１３からそれぞれ
送出されたクラス値は、管理装置２１の表示部１５に表
示される。

【０１００】図１７に管理装置２１の処理フロー図を示
す。まずステップＳ１２１においてデータが入力され
る。続いてステップＳ１２３に進み、入力データの中に
欠損値があるかないかを判定する。欠損値がある場合は
ステップＳ１３５に進み、欠損値がない場合はステップ
Ｓ１２５に進む。

【０１０１】ステップＳ１３５においてはクラスタ分割
のための欠損値補間を指示する。クラスタ分割アプリケ
ーションの種類によっては、欠損値があると処理が進ま
なくなることがあるので、それを防止する。続いてステ
ップＳ１３７に進む。

【０１０２】ステップＳ１３７においては、管理装置２
０が欠損値を補間するのを待つ。欠損値補間は管理装置
２０を介して補間対象のフィールドごとに各処理装置６
に指示される。欠損値補間の終了は、各処理装置６から
管理装置２０に通知される。管理装置２０から欠損値補
間の終了が通知されるとステップＳ１２５に進む。

【０１０３】ステップＳ１２５においてはここで処理を
終了するか否かが判定される。ユーザの意向によって
は、単に欠損値を補間するだけで処理を終了する場合も
ある。データ入力までで処理を終了する場合はステップ
Ｓ１３１に進み、処理を継続する場合はステップＳ１２
７に進む。

【０１０４】ステップＳ１２７においては入力されたデ
ータ、若しくは欠損値を補間されたデータをクラスタに
分割する。続いてステップＳ１２９に進む。ステップＳ
１２９においては各クラスタ１３にデータ分析を指示
し、各クラスタ１３がデータ分析を終了するのを待つ。

【０１０５】各クラスタ１３からデータ分析の終了が通
知されるとステップＳ１３１に進む。ステップＳ１３１
においては各クラスタ１３におけるデータの分析結果、
若しくは、予測モデルを表示する。

【０１０６】データ分析が予測モデルを作成するもので
あれば予測モデルを表示し、各クラスタ１３のクラス値
を求めるものであれば各クラスタのクラス値を表示す
る。データ入力のみの場合は、欠損値を補間した入力デ
ータを表示する。これで管理装置２１の処理を終了す
る。

【０１０７】図１８に管理装置２０の処理フロー図を示
す。まずステップＳ２０１において関連度テーブル３を
作成する。管理装置２０の関連度計算部１４によってフ
ィールド間のデータの相互情報量を計算する。その計算
結果を関連度テーブル３に保持する。続いてステップＳ
２０３に進む。

【０１０８】ステップＳ２０３においては管理装置２１
から欠損値補間の指示があるかないかを判定する。欠損
値補間の指示がない場合はステップＳ２０７に進み、欠
損値補間の指示がある場合はステップＳ２０５に進む。

【０１０９】ステップＳ２０５においては各処理装置６
に欠損値補間を指示し、各処理装置６が欠損値補間をす
るのを待つ。ステップＳ２０１で作成した関連度テーブ
ル３を参照し、補間対象のフィールドと関連度が高いフ
ィールドを処理装置６に指示する。

【０１１０】補間対象のフィールドが複数ある場合は、
複数の処理装置６に欠損値補間を並列に行えるように指
示する。各処理装置６から欠損値補間の終了が通知され
るとステップＳ２０７に進む。

【０１１１】ステップＳ２０７においては処理を継続す
るか否かを判定する。欠損値補間で処理を終了する場合
は管理装置２１に補間値を通知して処理を終了し、処理
を継続する場合はステップＳ２０９に進む。

【０１１２】ステップＳ２０９においては、ユーザから
データ分析の処理時間の指定があるかないかを判定す
る。処理時間の指定がある場合はステップＳ２１１に進
み、処理時間の指定がない場合はステップＳ２１３に進
む。

【０１１３】ステップＳ２１１においては、入力データ
量やハードウェア資源などのパラメータに基づいて、ユ
ーザに指定された処理時間内に処理できると見込まれる
フィールド数を算出する。続いてステップＳ２１３に進
む。

【０１１４】ステップＳ２１３では各処理装置に対応す
るフィールドを選択する。フィールド選択部４が関連度
テーブル３を参照し、クラスフィールドとの関連度が高
い順にステップＳ２１１で算出したフィールド数の分の
フィールドを選択する。

【０１１５】フィールド選択部４はクラスフィールドと
の関連度が高いフィールドを選択し、処理装置６ごとに
追加すべきフィールドを指定すると共に、クラスフィー
ルドとの関連度が低いフィールドを選択し、処理装置６
ごとに削除すべきフィールドを指定する。続いてステッ
プＳ２１５に進む。

【０１１６】ステップＳ２１５においては各処理装置６
にデータ分析を指示し、各処理装置６のデータ分析が終
了するのを待つ。各処理装置６からデータ分析の終了が
通知されるとステップＳ２１７に進む。

【０１１７】ステップＳ２１７においては未知データが
あるかないかが判定される。教師あり学習の場合で未知
データがある場合はステップＳ２１９に進み、そうでな
い場合はステップＳ２２５に進む。

【０１１８】ステップＳ２１９ではデータ予測を行うに
あたり、欠損値の補間が必要であるかないかを判定す
る。欠損値があってデータ予測アプリケーションの処理
が進まなくなることを防止する。欠損値の補間が必要な
場合はステップＳ２２１に進み、欠損値の補間が不要な
場合はステップＳ２２３に進む。

【０１１９】ステップＳ２２１においては各処理装置６
に欠損値補間を指示し、各処理装置６が欠損値補間を終
了するのを待つ。各処理装置６から欠損値補間の終了が
通知されるとステップＳ２２３に進む。

【０１２０】ステップＳ２２３においては、各処理装置
６で作成した予測モデルを管理装置２１に通知すると共
に、予測モデルからクラス値を予測して管理装置２１に
通知する。ステップＳ２２５においては分析結果を管理
装置２１に通知する。

【０１２１】図１９に処理装置６の処理フロー図を示
す。まずステップＳ６０１において、入力データの中に
欠損値があるかないかが判定される。欠損値がある場合
はステップＳ６２１に進み、欠損値がない場合はステッ
プＳ６０３に進む。

【０１２２】ステップＳ６２１においては処理装置６の
欠損値補間部１１が欠損値を推定し、補間する。欠損値
を含むフィールドと他のフィールドとの関連から欠損値
を推定する。教師あり学習の場合はクラスタ１３内の関
連度テーブル３を参照する。続いてステップＳ６２３に
進む。

【０１２３】ステップＳ６２３においては処理を継続す
るか否かが判定される。欠損値補間で処理を終了する場
合は管理装置２０に補間値を通知して処理を終了し、処
理を継続する場合はステップＳ６０３に進む。

【０１２４】ステップＳ６０３においてはベースフィー
ルド以外のフィールドが指定されているか否かが判定さ
れる。ベースフィールド以外のフィールドが指定されて
いない場合はステップＳ６０５に進み、ベースフィール
ド以外のフィールドが指定されている場合はステップＳ
６０７に進む。

【０１２５】ステップＳ６０７においては、ベースフィ
ールド以外のフィールドに属するデータに、管理装置２
０に指定されたフィールドに属するデータを追加する。
続いてステップＳ６０９に進む。

【０１２６】ステップＳ６０９においてはベースフィー
ルドが指定されているか否かを判定する。ベースフィー
ルドが指定されていない場合はステップＳ６１１に進
み、ベースフィールドが指定されている場合はステップ
Ｓ６０５に進む。

【０１２７】ステップＳ６０５においては、ベースフィ
ールドに属するデータから管理装置２０に指定されたフ
ィールドに属するデータを削除する。続いてステップＳ
６１１に進む。

【０１２８】ステップＳ６１１においては、管理装置２
０によって処理装置６ごとに指定された複数のフィール
ドのデータについて、個々の処理装置６のデータ分析部
９がデータを分析する。続いてステップＳ６１３に進
む。

【０１２９】ステップＳ６１３においてはデータ分析が
予測モデルを作成するものであるかどうかが判定され
る。予測モデルを作成するものであればステップＳ６１
５に進み、そうでない場合はステップＳ６１７に進む。

【０１３０】ステップＳ６１５においては予測モデルを
作成し、管理装置２０に通知する。ステップＳ６１７に
おいては分析結果を管理装置２０に通知する。尚、本発
明の実施の形態では、クラスタ分割部１２を有する管理
装置２１やデータ予測部５を有する管理装置２０を複数
の処理装置６とは別の装置として示したが、管理装置２
０または管理装置２１を複数の処理装置６の内の１台若
しくは数台の処理装置とする構成にしてもよいことは勿
論のことである。

【０１３１】また、本発明の実施の形態では、フィール
ド削除手段７やフィールド追加手段８を処理装置６ごと
に設け、各処理装置６でデータを削除したり追加したり
する構成にしたが、フィールド削除手段７やフィールド
追加手段８を処理装置６ごとに設けない構成にして、管
理装置２０から各処理装置６に分析すべきフィールドの
データを渡す構成にしてもよいことは勿論のことであ
る。

【０１３２】

【発明の効果】以上の説明から明らかなように本発明に
よれば、個々の処理装置においては、割り当てられたフ
ィールドに関するデータ分析を最後まで実行することが
可能になり、並列計算機の処理を効率的に行うことが可
能になるという効果がある。

【０１３３】また、分析精度を低下させるフィールドを
除外すること、分析精度を向上させるフィールドを追加
すること、クラスタリングを行うこと、欠損値を補間し
適用可能なアプリケーションの範囲を拡大すること、お
よび指定された時間内に教師あり学習を行うことによっ
て、並列計算機の処理を効率的に行い、データ分析の精
度を向上させることが可能になるという効果がある。

【図面の簡単な説明】

【図１】本発明の原理図

【図２】並列データ分析装置の構成図（２）

【図３】並列データ分析装置の構成図（３）

【図４】並列データ分析装置の構成図（４）

【図５】並列データ分析装置の構成図（５）

【図６】並列データ分析装置の構成図（６）

【図７】並列データ分析装置の構成図（７）

【図８】欠損値補間

【図９】並列データ分析装置の構成図（８）

【図１０】フィールド選択

【図１１】散布図表示と関連度

【図１２】フィールド削除とフィールド追加

【図１３】フィールド削除と追加の例

【図１４】欠損値補間の処理

【図１５】処理装置の構成

【図１６】クラスタ分割の処理

【図１７】管理装置２１の処理フロー図

【図１８】管理装置２０の処理フロー図

【図１９】処理装置６の処理フロー図

【図２０】入力データの例

【符号の説明】

１並列データ分析装置２フィールド数算出手段、フィールド数算出部３関連度テーブル４フィールド選択手段、フィールド選択部５データ予測手段、データ予測部６処理装置７フィールド削除手段、フィールド削除部８フィールド追加手段、フィールド追加部９データ分析手段、データ分析部１０予測モデル１１欠損値補間手段、欠損値補間部１２クラスタ分割手段、クラスタ分割部１３クラスタ１４関連度計算手段、関連度計算部１５表示手段、表示部１６散布図作成手段、散布図作成部１７予測モデル選択手段、予測モデル選択部２０、２１管理装置

Claims

【特許請求の範囲】

【請求項１】複数のフィールドからなるデータを複数
の処理装置に割り当てて並列に分析を行い、予測対象の
フィールドの予測値を求める並列データ分析装置であっ
て、各処理装置に共通に割り当てられる複数のフィールドで
あるベースフィールドの中から処理装置ごとに分析の対
象にしない１以上のフィールドを選択するフィールド選
択手段と、前記ベースフィールドに属するデータから、処理装置ご
とに前記フィールド選択手段によって選択されたフィー
ルドに属するデータを削除するフィールド削除手段と、前記ベースフィールドに属するデータと、前記削除後の
データとについて、処理装置ごとに分析し、予測モデル
を作成するデータ分析手段と、前記予測モデルに基づいて予測対象のフィールドのデー
タを予測するデータ予測手段と、前記予測結果を比較し、最も分析精度が良い予測モデル
を用いて予測値とする予測モデル選択手段と、を有することを特徴とする並列データ分析装置。
【請求項２】フィールド間のデータの関連度を計算し
た計算結果を関連度テーブルとして保持する関連度計算
手段と、前記関連度テーブルを参照し、予測対象のフィールドと
の関連度が低いフィールドから順に１以上のフィールド
を選択するフィールド選択手段と、を有することを特徴とする請求項１に記載の並列データ
分析装置。
【請求項３】複数のフィールドからなるデータを複数
の処理装置に割り当てて並列に分析を行い、予測対象の
フィールドの予測値を求める並列データ分析装置であっ
て、各処理装置に共通に割り当てられる複数のフィールドで
あるベースフィールド以外のフィールドに処理装置ごと
に分析の対象にする１以上のフィールドを選択するフィ
ールド選択手段と、前記ベースフィールドに属するデータに、処理装置ごと
に前記フィールド選択手段によって選択されたフィール
ドに属するデータを追加するフィールド追加手段と、前記ベースフィールドに属するデータと、前記追加した
データとについて、処理装置ごとに分析し、予測モデル
を作成するデータ分析手段と、前記予測モデルに基づいて予測対象のフィールドのデー
タを予測するデータ予測手段と、前記予測結果を比較し、最も分析精度が良い予測モデル
を用いて予測値とする予測モデル選択手段と、を有することを特徴とする並列データ分析装置。
【請求項４】フィールド間のデータの関連度を計算し
た計算結果を関連度テーブルとして保持する関連度計算
手段と、前記関連度テーブルを参照し、予測対象のフィールドと
の関連度が高いフィールドから順に１以上のフィールド
を選択するフィールド選択手段と、を有することを特徴とする請求項３に記載の並列データ
分析装置。
【請求項５】関連度が高いフィールドの組合せを複数
選び出し、個々の組合せに対する散布図を作成する散布
図作成手段を有することを特徴とする請求項２または請
求項４に記載の並列データ分析装置。
【請求項６】入力されたデータを類似したグループに
分類するクラスタ分割手段を有し、個々の処理装置において個々のクラスタに属するデータ
の分析を並列に行うことを特徴とする請求項１乃至請求
項５に記載の並列データ分析装置。
【請求項７】入力されたデータを複数のクラスタに分
割し、個々の処理装置において個々のクラスタに属する
データを分析し、クラスタごとに予測モデルを作成する
並列データ分析装置であって、未知のデータがどのクラスタに属するかを調べ、クラス
タごとに作成された予測モデルに基づいて未知のデータ
のクラス値を予測するデータ予測手段を有することを特
徴とする並列データ分析装置。
【請求項８】欠損値を含むフィールドが複数ある場合
に欠損値を含むフィールド以外のフィールドのデータか
ら欠損値を予測し、補間する欠損値補間手段を有するこ
とを特徴とする請求項１乃至請求７に記載の並列データ
分析装置。
【請求項９】指定された処理時間内に分析するフィー
ルド数を算出するフィールド数算出手段と、前記フィー
ルド数算出手段で算出したフィールド数の分のフィール
ドを選択するフィールド選択手段と、を有することを特
徴とする請求項１乃至請求８に記載の並列データ分析装
置。