JP2000040079A - 並列データ分析装置 - Google Patents

並列データ分析装置

Info

Publication number
JP2000040079A
JP2000040079A JP20996498A JP20996498A JP2000040079A JP 2000040079 A JP2000040079 A JP 2000040079A JP 20996498 A JP20996498 A JP 20996498A JP 20996498 A JP20996498 A JP 20996498A JP 2000040079 A JP2000040079 A JP 2000040079A
Authority
JP
Japan
Prior art keywords
data
field
fields
processing device
parallel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP20996498A
Other languages
English (en)
Inventor
Kazuhiro Matsumoto
和宏 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP20996498A priority Critical patent/JP2000040079A/ja
Publication of JP2000040079A publication Critical patent/JP2000040079A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】 本発明は並列計算機の処理を効率的に行い、
データ分析の精度を向上させる並列データ分析装置を提
供することを目的とする。 【解決手段】 本発明の並列データ分析装置は分析精
度を低下させるフィールドを除外する、分析精度を向
上させるフィールドを追加する、関連度テーブルを用
いる、散布図を作成する、クラスタごとに分析を行
う、最も精度が良い予測モデルを用いてクラス値を予
測する、欠損値を補間し適用可能なアプリケーション
の範囲を拡大する、指定時間内に処理できるフィール
ド数を求める、ことによって並列処理を効率的に行い、
分析精度を向上させる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は複数のフィールドか
らなるデータを分析する並列データ分析装置に関わり、
特に並列計算機の処理を効率的に行い、データ分析の精
度を向上させる並列データ分析装置に関わる。
【0002】
【従来の技術】近年のコンピュータなどの情報機器の高
性能化、記憶装置の大容量化、およびインターネットな
どネットワーク化に伴い、遠隔地から様々なデータを収
集することや大量のデータを蓄積することが容易になっ
てきた。こうした環境のもとでは大量の情報を分析し、
有効な情報を抽出してビジネスに活用する技術がますま
す重要になってきている。
【0003】例えば、流通業界では全国の小売店の売上
内容と時間帯との関係、金融業界ではクレジットカード
の個人別の使用状況、保険業界では個人データと保険の
利用状況などがコンピュータに時々刻々と集積され、そ
れぞれの分析アプリケーションによって、データが示す
動向、規則性などが即座に分析され、意味のある情報が
抽出されてそれぞれのビジネス分野に役立てられてい
る。
【0004】図20はこのような複数のフィールドから
なる入力データの例である。図20では顧客別の年齢、
性別、年収などの個人データが示される。ここで年齢、
性別、年収などの属性のそれぞれをフィールドと呼び、
例えば、顧客別のフィールドの集まりをレコードと呼
ぶ。すなわち、特定のフィールドのデータが他のフィー
ルドのデータとどのような関係を持つかということが分
析される。
【0005】データの分析過程においては教師あり学習
と教師なし学習がある。教師あり学習では、データ(レ
コード)が示されるごとにデータをどのカテゴリに分類
すべきかを教師が教える。あるいは計算機に分類させて
みて答えが正しかったかどうかを教師が教える。
【0006】教師なし学習では学習させるべき何種類か
のパターンを繰り返して示し、計算機に自己学習させ
る。計算機にはそのデータをどのカテゴリに分類すべき
かの情報を与えないし、答えを教えることもない。計算
機はデータ(レコード)が入力されると、初期条件や外
部条件の影響を受けながら、レコードの分類基準を自分
自身で作り上げて行く。
【0007】教師あり学習の場合、フィールド間のデー
タの関連度が計算される。フィールド間のデータの関連
度は例えば相互情報量を用いて計算される。周知の情報
と符号の理論によると、事象Aと事象Bの相互情報量
は、I(A;B)=H(A)+H(B)−H(AB)と
表される。ここでH(A)は事象Aの平均情報量であ
り、H(A)=−Σp(ai )log2 p(ai )であ
る。p(ai )は確率事象系Aの情報の集合{ai }の
出現確率である。
【0008】また、教師あり学習では予測対象のフィー
ルドのことをクラスフィールドと呼び、クラスフィール
ドの値のことをクラス値、クラス値が既知であるデータ
を既知データ、クラス値が未知であるデータを未知デー
タと呼ぶ。例えば年齢と性別から年収を予測する場合、
年齢と性別のフィールドが条件フィールド、年収のフィ
ールドがクラスフィールドになる。
【0009】データ分析に用いられるアルゴリズムには
相関分析やニューラルネットワークや決定木などの種類
がある。教師あり学習の場合、それぞれのアルゴリズム
において、条件フィールドのデータが分析されてクラス
値が求められる。
【0010】データ分析の結果には、単に結果を出力す
る場合と予測モデルを作成する場合とがある。予測モデ
ルを作成した場合は、更に予測モデルに基づいて予測対
象のフィールドのデータを予測する。予測モデルは関数
の形をしていることが多い。また、データ分析の結果に
ついて分析精度の良し悪しが検討される。
【0011】
【発明が解決しようとする課題】分析対象のデータ量は
膨大化しており、大量のデータを扱う場合であっても現
実的な時間内に分析を終了させることが課題である。そ
のため処理装置1台でデータを逐次処理するのではな
く、複数の処理装置を並列にして、データを分割して各
処理装置に順番に分析処理を割り当てたり、分析アプリ
ケーションごとに処理装置を割り当てたりする並列計算
機が用いられる。
【0012】更に、データの内容が類似したレコードが
同じグループに属するようにクラスタ分割が用いられ
る。大量のデータを類似するグループに分類する処理の
ことをクラスタリングと呼ぶ。データをクラスタ分割す
ることによって、並列化された個々の処理装置が類似し
たデータを扱えるので、データ分析の処理効率を高める
ことができる。
【0013】しかしながら、並列処理化が進み、個々の
処理装置の性能が向上したとしても、データ量の大小に
関わらず、データを用いて意思決定する場面ではユーザ
が期待する処理時間は従来より短くなってきており、デ
ータ分析アプリケーションが指定された時間内に終了し
なくなるという問題がある。
【0014】また、データ分析アプリケーションが並列
処理される場合においては、処理速度やデータ量が処理
装置ごとに均等でないことがあり、個々の処理装置に待
ち時間が発生したり、データ分析の途中で処理装置間の
データ転送が発生したりすることがあり、並列計算機全
体の処理能力が低下するという問題がある。
【0015】本発明は複数のフィールドからなるデータ
を分析する並列データ分析装置に関わり、特に、並列化
のための余分な負荷をなくして並列計算機の処理能力お
よびデータ分析精度を向上させることを目的とする。
【0016】
【課題を解決するための手段】本発明の並列データ分析
装置は、複数のフィールドからなるデータを複数の処理
装置に割り当てて並列に分析を行い、予測対象のフィー
ルドの予測値を求める並列データ分析装置であって、各
処理装置に共通に割り当てられる複数のフィールドであ
るベースフィールドの中から処理装置ごとに分析の対象
にしない1以上のフィールドを選択するフィールド選択
手段と、ベースフィールドに属するデータから、処理装
置ごとにフィールド選択手段によって選択されたフィー
ルドに属するデータを削除するフィールド削除手段と、
ベースフィールドに属するデータと、削除後のデータと
について、処理装置ごとに分析し、予測モデルを作成す
るデータ分析手段と、予測モデルに基づいて予測対象の
フィールドのデータを予測するデータ予測手段と、予測
結果を比較し、最も分析精度が良い予測モデルを用いて
予測値とする予測モデル選択手段と、を有する。
【0017】図1は本発明の原理図であり、図1の
(A)は本発明の並列データ分析装置の構成図(1)で
ある。並列データ分析装置1は管理装置20と複数の処
理装置6とを有する。管理装置20はフィールド選択手
段4とデータ予測手段5と予測モデル選択手段17を有
する。
【0018】フィールド選択手段4では各処理装置6に
共通に割り当てられる複数のフィールドであるベースフ
ィールドの中から処理装置6ごとに分析の対象にしない
1以上のフィールドを選択する。管理装置20には図1
の(B)に示すようにベースフィールドを含む複数のフ
ィールドからなるデータが入力される。
【0019】図1の(B)の例では分析対象のフィール
ドとして、処理装置6aにはベースフィールド(A、
B、C、D)が、処理装置6bにはフィールド(A、
B、C)が、処理装置6cにはフィールド(A、B、
D)が割り当てられる。
【0020】すなわち、フィールド選択手段4は処理装
置6aに対しては削除すべきフィールドを選択しないで
ベースフィールドを割当て、処理装置6bに対しては削
除すべきフィールドとしてDを選択し、処理装置6cに
対しては削除すべきフィールドとしてCを選択する。
【0021】個々の処理装置6はフィールド削除手段7
とデータ分析手段9と予測モデル10とを有する。フィ
ールド削除手段7はベースフィールドに属するデータか
ら処理装置6ごとに選択されたフィールドに属するデー
タを削除する。
【0022】データ分析手段9には、フィールド選択手
段4によって選択され、フィールド削除手段7によって
ベースフィールドに属するデータから削除されたデータ
が入力される。
【0023】処理装置6に入力されたデータは分析アル
ゴリズムに基づいて分析される。データ分析手段9は、
処理装置6ごとに設けられ、分析アルゴリズムに基づい
てデータの分析を行い、予測モデル10を作成する。
【0024】作成された予測モデル10は各処理装置6
から管理装置20にあるデータ予測手段5に送出され
る。データ予測手段5は入力された未知データに、個々
の処理装置6から送出された予測モデル10を適用し、
個々の予測値を出力する。
【0025】続いて予測モデル選択手段17が分析精度
の良し悪しを検討する。すなわち、予測モデル選択手段
17が個々の予測値を比較し、分析精度が最も良い予測
モデル10を選択する。その結果を予測値として出力す
る。
【0026】このように、分析精度を低下させるフィー
ルドを除外すること、および、個々の処理装置において
は、割り当てられたフィールドに関するデータ分析を最
後まで実行することが可能になり、並列処理を効率的に
行い、データ分析の精度を向上させることが可能にな
る。
【0027】また、本発明の並列データ分析装置は、フ
ィールド間のデータの関連度を計算した計算結果を関連
度テーブルとして保持する関連度計算手段と、関連度テ
ーブルを参照し、予測対象のフィールドと関連度が低い
フィールドから順に1以上のフィールドを選択するフィ
ールド選択手段と、を有する。
【0028】図2は本発明の並列データ分析装置の構成
図(2)である。図2の管理装置20は関連度計算手段
14と関連度テーブル3を有する。図2の他の符号の意
味は図1の符号の意味と同じである。
【0029】管理装置20には複数のフィールドからな
るデータが入力される。関連度計算手段14は入力され
たデータの複数のフィールドについてのデータの関連度
を計算し、計算値を関連度テーブル3に保持する。
【0030】図2のフィールド選択手段4は、関連度テ
ーブル3を参照し、予測対象のフィールドと関連度が低
いフィールドから順に1以上のフィールドを選択する。
個々の処理装置6ではフィールド削除手段7がベースフ
ィールドに属するデータから処理装置6ごとに選択され
たフィールドに属するデータを削除する。
【0031】これにより、関連度が低いフィールドを除
外することが可能になり、並列処理を効率的に行い、デ
ータ分析の精度を向上させることが可能になる。更に、
本発明の並列データ分析装置は、各処理装置に共通に割
り当てられる複数のフィールドであるベースフィールド
以外のフィールドに処理装置ごとに分析の対象にする1
以上のフィールドを選択するフィールド選択手段と、ベ
ースフィールドに属するデータに、処理装置ごとにフィ
ールド選択手段によって選択されたフィールドに属する
データを追加するフィールド追加手段と、ベースフィー
ルドに属するデータと、追加したデータとについて、処
理装置ごとに分析し、予測モデルを作成するデータ分析
手段と、予測モデルに基づいて予測対象のフィールドの
データを予測するデータ予測手段と、予測結果を比較
し、最も分析精度が良い予測モデルを用いて予測値とす
る予測モデル選択手段と、を有する。
【0032】図3は本発明の並列データ分析装置の構成
図(3)である。図3の個々の処理装置6はフィールド
追加手段8を有する。図3の他の符号の意味は図1の符
号の意味と同じである。
【0033】管理装置20のフィールド選択手段4で
は、ベースフィールド以外のフィールドに処理装置ごと
に分析の対象にする1以上のフィールドを選択する。管
理装置20には図3に示すようにベースフィールドとベ
ースフィールド以外のフィールドからなるデータが入力
される。
【0034】図3の例では分析対象のフィールドとし
て、処理装置6aにはベースフィールド(A、B)が、
処理装置6bにはフィールド(A、B、C)が、処理装
置6cにはフィールド(A、B、D)が、それぞれ割り
当てられる。
【0035】すなわち、フィールド選択手段4は処理装
置6aに対してはベースフィールドを割当て、処理装置
6bに対しては追加すべきフィールドとしてCを選択
し、処理装置6cに対しては追加すべきフィールドとし
てDを選択する。
【0036】個々の処理装置6のフィールド追加手段8
はベースフィールドに属するデータに処理装置6ごとに
選択されたフィールドに属するデータを追加する。続い
て、個々の処理装置6(データ分析手段9)においてデ
ータ分析を並列処理で行い、管理装置20(予測モデル
選択手段17)が分析精度の最も良い予測モデル10を
選択し、その結果を予測値として出力する。
【0037】このように、分析精度を向上させるフィー
ルドを追加すること、および、個々の処理装置において
割り当てられたフィールドに関するデータ分析を最後ま
で実行することが可能になり、並列処理を効率的に行
い、データ分析の精度を向上させることが可能になる。
【0038】更にまた、本発明の並列データ分析装置
は、フィールド間のデータの関連度を計算した計算結果
を関連度テーブルとして保持する関連度計算手段と、関
連度テーブルを参照し、予測対象のフィールドと関連度
が高いフィールドから順に1以上のフィールドを選択す
るフィールド選択手段と、を有する。
【0039】図4は本発明の並列データ分析装置の構成
図(4)である。図4の管理装置20は関連度計算手段
14と関連度テーブル3を有する。図4の他の符号の意
味は図3の符号の意味と同じである。
【0040】管理装置20には複数のフィールドからな
るデータが入力される。関連度計算手段14は入力され
たデータの複数のフィールドについてのデータの関連度
を計算し、計算値を関連度テーブル3に保持する。
【0041】図4のフィールド選択手段4は、関連度テ
ーブル3を参照し、予測対象のフィールドと関連度が高
いフィールドから順に1以上のフィールドを選択する。
個々の処理装置6ではフィールド追加手段8がベースフ
ィールドに属するデータに処理装置6ごとに選択された
フィールドに属するデータを追加する。
【0042】これにより、関連度が高いフィールドを追
加することが可能になり、並列処理を効率的に行い、デ
ータ分析の精度を向上させることが可能になる。本発明
の並列データ分析装置は、関連度が高いフィールドの組
合せを複数選び出し、個々の組合せに対する散布図を作
成する散布図作成手段を有する。
【0043】図5は本発明の並列データ分析装置の構成
図(5)である。図5の管理装置20は関連度テーブル
3と表示手段15を有する。図5の処理装置6は散布図
作成手段16を有する。図5の他の符号の意味は他図の
符号の意味と同じである。
【0044】管理装置20にあるフィールド選択手段4
が、関連度テーブル3を参照し、関連度が高いフィール
ド同士の組合せを選択する。個々の処理装置6において
散布図作成手段16が散布図用データを作成する。
【0045】散布図には、個々のフィールドの組合せに
対してデータが適宜マッピングされる。処理装置6ごと
に作成された散布図は比較のためにまとめて管理装置2
0の表示手段15が表示する。
【0046】このようにデータ分析前のフィールドの組
合せに対して並列処理が可能になり、散布図を表示する
ことによってデータ分析前の入力データの状況(傾向)
を把握することが可能になる。
【0047】更に、本発明の並列データ分析装置は、入
力されたデータを類似したグループに分類するクラスタ
分割手段を有し、個々の処理装置において個々のクラス
タに属するデータの分析を並列に行う。
【0048】図6の並列データ分析装置の構成図(6)
はクラスタ分割手段12を説明するための図である。入
力データはクラスタ分割のアルゴリズムに基づいて複数
のグループに分割することができる。クラスタ分割手段
12は、周知のクラスタ分割アルゴリズムを用いて入力
データを複数のクラスタ13に分割する。
【0049】クラスタ分割アルゴリズムには例えば、最
近隣連結、最遠隣連結、群平均連結などがある。クラス
タ分割の結果、データが類似するレコードが同じグルー
プに属する。図6ではクラスタ分割手段12によって入
力データを複数のクラスタ13に分割し、一つのクラス
タのデータを複数の処理装置6が並列に処理する。
【0050】クラスタの大きさ(サイズ、例えばレコー
ド数)によって、一つの処理装置が複数のクラスタに属
するデータを扱う場合もある。いずれの場合もクラスタ
ごとに関連度テーブル3を有し、処理装置6ごとにフィ
ールド削除手段7またはフィールド追加手段8、および
データ分析手段9を有する。
【0051】更にまた、本発明の並列データ分析装置
は、入力されたデータを複数のクラスタに分割し、個々
の処理装置において個々のクラスタに属するデータを分
析し、クラスタごとに予測モデルを作成する並列データ
分析装置であって、未知のデータがどのクラスタに属す
るかを調べ、クラスタごとに作成された予測モデルに基
づいて未知のデータのクラス値を予測する。
【0052】図7の並列データ分析装置の構成図(7)
はデータ予測手段5および予測モデル選択手段17を説
明するための図である。図7において、クラスタ分割手
段12は入力データを複数のクラスタ13に分割する。
【0053】図7では一つの処理装置6に二つのクラス
タ13を対応させた。一つのクラスタ13のデータは3
台の処理装置6により並列処理される。クラスタ13ご
とに且つ処理装置6ごとにデータ分析手段9に入力され
たデータは分析アルゴリズムに基づいて分析され、クラ
スタ13ごとに且つ処理装置6ごとに予測モデル10が
作成される。作成された予測モデル10はクラスタ13
(若しくは処理装置6)からデータ予測手段5に送出さ
れる。
【0054】予測モデル選択手段17はクラスタ分割時
に未知データがどのクラスタ13に属したかを調べ、そ
のクラスタ13を特定する。データ予測手段5は特定さ
れたクラスタ13において作成された予測モデル10に
基づいてクラス値を予測する。
【0055】このように、フィールド間の並列処理化に
加えて、類似したレコードをクラスタ化することによ
り、類似したデータ間で更に詳細にデータ分析を行うこ
とが可能になり、データ分析の精度を向上させることが
可能になる。
【0056】本発明の並列データ分析装置は、欠損値を
含むフィールドが複数ある場合に欠損値を含むフィール
ド以外のフィールドのデータから欠損値を予測し、補間
する欠損値補間手段を有する。
【0057】図8の欠損値補間は、欠損値補間手段11
を説明するための図である。入力データに欠損値がある
場合は、欠損値以外の全てのフィールドのデータが分析
され、推定値が補間される。入力データには複数の欠損
値を含む場合がある。
【0058】図8では、複数のフィールドに欠損値を含
む場合であり、欠損値が属するフィールドとそのフィー
ルドと関連度が高いフィールドとを扱う個々の処理装置
6において欠損値を推定する場合を示す。
【0059】図8の入力データで欠損しているところを
xで示す。図8ではAからHまでのフィールドを有する
I(1)からI(5)およびI(N)のレコードにおい
て、I(2)のEとI(3)のCとI(4)のGとI
(5)のAが欠損している。
【0060】教師あり学習の場合は関連度テーブル3を
用いて他のフィールドとの関連から欠損値を推定する。
例えばAとBとCのフィールドからGのフィールドが予
測でき、DとEとFのフィールドからHのフィールドが
予測できる場合は、AとBとCとGのフィールドを扱う
処理装置6とDとEとFとHのフィールドを扱う処理装
置6がそれぞれの欠損値補間手段11によって欠損値を
推定し、補間する。
【0061】データ分析アプリケーションは単に欠損値
を補間するだけで処理を終了することもあるが、欠損値
を補間することによって、適用可能なデータ分析アプリ
ケーションの範囲を拡大することができる。
【0062】データ分析アプリケーションの種類によっ
ては、欠損値があるためにそれぞれのアプリケーション
の処理が進まなくなることがあり、これを回避するため
に入力データを欠損がないものに変換する。そのため、
データを分析する場合ばかりでなく、データをクラスタ
に分割する場合、データを予測する場合のいずれの場合
においても、欠損値の補間を行う。
【0063】また、大量のデータを扱う場合は欠損値を
含むレコードを除外してデータを分析することもある
が、分析精度を向上させるためには、フィールド間のデ
ータの関連度から欠損値を推定し、欠損値を含むレコー
ドも利用する。
【0064】また、本発明の並列データ分析装置は、指
定された処理時間内に分析するフィールド数を算出する
フィールド数算出手段と、フィールド数算出手段で算出
したフィールド数の分のフィールドを選択するフィール
ド選択手段と、を有する。
【0065】図9は本発明の並列データ分析装置の構成
図(8)である。図9の管理装置20はフィールド数算
出手段2を有する。図9の他の符号の意味は他図の符号
の意味と同じである。
【0066】図9のフィールド数算出手段2は指定され
た処理時間内に分析するフィールド数を算出する。フィ
ールド数はデータ分析に使用される分析アルゴリズムの
種類、接続される処理装置の数、入力されるデータのレ
コード数などのパラメータに基づいて計算される。
【0067】このように、処理時間が指定されてデータ
分析を行う場合に、指定時間内に処理できるフィールド
数を求めることによって、並列処理を効率的に行い、デ
ータ分析の精度を向上させることが可能になる。
【0068】
【発明の実施の形態】本発明の実施例について図面を用
いて詳細に説明する。図10のフィールド選択は本発明
の並列データ分析装置のフィールド選択に関わる部分の
構成図である。図10のフィールド数算出部2には分析
アルゴリズムの種類と入力データ量とハードウェア資源
の状況と処理時間を含むパラメータが入力される。
【0069】データ分析のアルゴリズムにはニューラル
ネットワークや決定木などがある。入力データ量はレコ
ード数などによって示される。ハードウェア資源には接
続される処理装置の数やメモリ容量や処理速度などが示
される。
【0070】フィールド数算出部2ではこれらのパラメ
ータに基づいて、ユーザに指定された処理時間内に処理
できると見込まれるフィールド数を算出する。フィール
ド数は個々の処理装置が分析を担当する分であり、処理
装置ごとに決める。フィールド数の算出方法には経験式
を用いるものや、ニューラルネットワークや決定木など
により作成した予測モデルを用いるものがある。
【0071】一方、関連度計算部14では入力された複
数のフィールドからなるデータについてフィールド間の
データの相互情報量を計算する。その計算結果を関連度
テーブル3に保持する。フィールド選択部4では関連度
テーブル3を参照してクラスフィールド(予測対象のフ
ィールド)との関連度が高い順にフィールド数算出部2
で算出したフィールド数の分のフィールドを選択する。
【0072】次に図11を用いて散布図表示と関連度を
説明する。図11の20は関連度テーブル3とフィール
ド選択部4と表示部15を有する管理装置であり、図6
の16は処理装置6の散布図作成部である。図11の他
の符号は他の図の符号と同じ意味を持つ。
【0073】教師あり学習の場合はフィールド選択部4
が関連度テーブル3を参照し、関連度が高いフィールド
同士の組合せを選択する。フィールド選択部4は個々の
処理装置に対してフィールドの組合せを指示する。散布
図作成部16が散布図用データを作成する。教師なし学
習の場合もフィールド選択部4がフィールドの組合せを
個々の処理装置6に指示する。
【0074】散布図作成部16では処理装置6ごとに指
示されたフィールドの組合せに対して入力データをマッ
ピングする。図6の(a)は関連度が高い場合であり、
入力データに規則性が認められる。図6の(b)は関連
度が低い場合であり、入力データは分散的である。
【0075】散布図を作成するときに縦軸や横軸のフィ
ールドを何にするか、次元数をいくつにするかは適宜決
められる。注目するフィールドがある場合は関連度テー
ブル3から注目するフィールドと関連度が高いフィール
ドを選択し、注目するフィールドがない場合は関連度テ
ーブル3から関連度が高いフィールドを組み合わせて選
択する。
【0076】例えば図20に示すように1レコードに
「年齢」、「性別」、「職業」、「学歴」、「年収」な
どのフィールドを有する顧客データは、一つ目の処理装
置6に「年齢」と「年収」を、二つ目の処理装置6に
「性別」と「年収」を、三つ目の処理装置6に「学歴」
と「職業」をそれぞれ割当てる。
【0077】個々の処理装置6は、データ分析前の入力
データについても散布図用データを並列処理により作成
する。処理装置6ごとに作成された散布図用データは比
較のためにまとめられて、管理装置20の表示部15が
散布図として表示する。
【0078】図12と図13はフィールド削除とフィー
ルド追加を説明するための図である。図12はフィール
ド削除とフィールド追加に関わる部分の構成図である。
図12の符号は他図の符号と同じ意味を持つが、図12
と図13では個々の処理装置6を識別するために処理装
置P、処理装置Q、処理装置Rとする。
【0079】フィールド選択部4は各処理装置6にベー
スフィールドを共通に割り当てると共に処理装置6ごと
に削除すべきフィールドを指定する。フィールド削除部
7はベースフィールドに属するデータから処理装置6ご
とに指定されたフィールドに属するデータを削除する。
【0080】教師あり学習の場合はフィールド選択部4
は関連度テーブル3を参照してクラスフィールド(予測
対象のフィールド)との関連度が低いフィールドを選択
し、処理装置6ごとに削除すべきフィールドを指定す
る。教師なし学習の場合もフィールド選択部4が処理装
置6ごとに削除すべきフィールドを指定する。
【0081】一方、フィールド追加部8はベースフィー
ルド以外のフィールドに属するデータに処理装置6ごと
に指定されたフィールドに属するデータを追加する。教
師あり学習の場合はフィールド選択部4は関連度テーブ
ル3を参照してクラスフィールドとの関連度が高いフィ
ールドを選択し、処理装置6ごとに追加すべきフィール
ドを指定する。教師なし学習の場合も、フィールド選択
部4が処理装置6ごとに追加すべきフィールドを指定す
る。
【0082】データ分析部9には、フィールド削除部7
によってベースフィールドに属するデータから削除され
たり、フィールド追加部8によってベースフィールド以
外に属するデータに追加されたりしたデータが入力され
る。
【0083】図13はフィールド削除と追加の例であ
る。フィールド削除の例では処理装置Pにベースフィー
ルドのデータ、処理装置Qにベースフィールドから「職
業」フィールドを削除したデータ、処理装置Rにベース
フィールドから「学歴」フィールドを削除したデータを
割り当てる。
【0084】すなわち処理装置Pには「年齢」、「性
別」、「職業」、「学歴」、「収入」のフィールドが、
処理装置Qには「年齢」、「性別」、「学歴」、「収
入」のフィールドが、処理装置Rには「年齢」、「性
別」、「職業」、「収入」のフィールドが割り当てられ
る。
【0085】教師あり学習の場合、管理装置20のデー
タ予測部5と予測モデル選択部17が、それぞれの処理
装置6で分析した結果の精度を比較する。例えば分析結
果の精度が、処理装置Qの「職業」フィールドがない分
析>処理装置Pのベースとなる分析>処理装置Rの「学
歴」フィールドがない分析の順に良かった場合は「職
業」フィールドは分析に悪い影響を与え、「学歴」フィ
ールドは分析に良い影響を与えることが分かる。
【0086】一方、フィールド追加の例では処理装置P
に「年齢」、「性別」、「収入」のベースフィールドの
データ、処理装置Qにベースフィールド以外に「職業」
フィールドを追加したデータ、処理装置Rにベースフィ
ールド以外に「学歴」フィールドを追加したデータを割
り当てる。
【0087】教師あり学習の場合、管理装置20のデー
タ予測部5と予測モデル選択部17が、それぞれの処理
装置6で分析した結果の精度を比較する。例えば分析結
果の精度が、処理装置Qの「職業」フィールドを追加し
た分析>処理装置Pのベースとなる分析>処理装置Rの
「学歴」フィールドを追加した分析の順に良かった場合
は「職業」フィールドは分析に良い影響を与え、「学
歴」フィールドは分析に悪い影響を与えることが分か
る。
【0088】次に図14を用いて欠損値補間の処理を説
明する。入力データの複数のフィールドに欠損値がある
場合は、欠損値を含む個々のフィールドを個々の処理装
置6に割当てる。データ推定および補間を個々の処理装
置6で並列処理する。データ推定にはニューラルネット
ワークや決定木などのアルゴリズムが用いられ、欠損値
を含むフィールドと他のフィールドとの関連から欠損値
を推定する。
【0089】教師あり学習の場合は、管理装置20が有
する関連度テーブル3を参照してフィールド選択部4が
欠損値を含むフィールドと関連度が高いフィールドを選
択する。教師なし学習の場合も、フィールド選択部4が
欠損値を含むフィールドと欠損値を含まないフィールド
を選択する。
【0090】教師あり学習、教師なし学習のいずれの場
合も、選択されたフィールドが個々の処理装置6に割り
当てられ、処理装置6の欠損値補間部11が欠損値を推
定し、補間する。
【0091】例えば「年齢」、「性別」、「職業」、
「学歴」、「収入」のフィールドの内、「年齢」、「性
別」、「職業」のフィールドに欠損値を有する場合、処
理装置Pに「年齢」が、処理装置Qに「性別」が、処理
装置Rに「職業」が、それぞれのフィールドと関連度が
高いフィールドと組合わされて割り当てられる。
【0092】図15は処理装置の構成を説明するための
図である。並列データ分析装置1は管理装置21と複数
のクラスタ13から構成される。管理装置21はクラス
タ分割部12と表示部15から構成される。クラスタ1
3はそれぞれ管理装置20と複数の処理装置6から構成
される。
【0093】図16はクラスタ分割の処理を説明するた
めの図である。図16の関連度テーブル3とデータ予測
部5は各クラスタ13ごとの管理装置20にある。ま
た、図16のクラスタ分割部12と表示部15は管理装
置21にある。
【0094】クラスタ分割部12は最近隣連結、最遠隣
連結、群平均連結などの分割アルゴリズムを用いてデー
タが類似するレコードが同じグループに属するように入
力データをクラスタA、クラスタB、クラスタCなどの
クラスタ13に分割する。
【0095】図16では「顧客1」、「顧客2」、「顧
客3」などからなるデータが管理装置21に入力される
と、「顧客1」、「顧客5」、「顧客7」などからなる
データ1、「顧客2」、「顧客4」、「顧客9」などか
らなるデータ2、および「顧客3」、「顧客6」、「顧
客8」などからなるデータ3に分割される。
【0096】データ1、データ2、データ3などはそれ
ぞれクラスタA、クラスタB、クラスタCなどに割り当
てられる。クラスタA、クラスタB、クラスタCなどの
クラスタごとに管理装置20があり、それぞれの管理装
置20はクラスタごとの関連度テーブル3とデータ予測
部5を有する。
【0097】それぞれのクラスタでは管理装置20にお
いてフィールド間の関連度を計算し、関連度テーブル3
を作成する。続いて関連度テーブル3を参照し関連度が
高い複数のフィールドを選択し、個々の処理装置6に関
連度が高い複数のフィールドのデータを割り当てる。
【0098】個々の処理装置6では関連度テーブル3を
参照し、割り当てられた複数のフィールドに関するデー
タを分析アルゴリズムに基づいて分析し、分析結果を出
力する。分析アルゴリズムが予測モデルを作成する場合
は予測モデルを作成し、管理装置20のデータ予測部5
に送出する。
【0099】各クラスタ13のデータ予測部5には未知
データが入力されており、送出された予測モデルに基づ
いてクラス値を予測する。各クラスタ13からそれぞれ
送出されたクラス値は、管理装置21の表示部15に表
示される。
【0100】図17に管理装置21の処理フロー図を示
す。まずステップS121においてデータが入力され
る。続いてステップS123に進み、入力データの中に
欠損値があるかないかを判定する。欠損値がある場合は
ステップS135に進み、欠損値がない場合はステップ
S125に進む。
【0101】ステップS135においてはクラスタ分割
のための欠損値補間を指示する。クラスタ分割アプリケ
ーションの種類によっては、欠損値があると処理が進ま
なくなることがあるので、それを防止する。続いてステ
ップS137に進む。
【0102】ステップS137においては、管理装置2
0が欠損値を補間するのを待つ。欠損値補間は管理装置
20を介して補間対象のフィールドごとに各処理装置6
に指示される。欠損値補間の終了は、各処理装置6から
管理装置20に通知される。管理装置20から欠損値補
間の終了が通知されるとステップS125に進む。
【0103】ステップS125においてはここで処理を
終了するか否かが判定される。ユーザの意向によって
は、単に欠損値を補間するだけで処理を終了する場合も
ある。データ入力までで処理を終了する場合はステップ
S131に進み、処理を継続する場合はステップS12
7に進む。
【0104】ステップS127においては入力されたデ
ータ、若しくは欠損値を補間されたデータをクラスタに
分割する。続いてステップS129に進む。ステップS
129においては各クラスタ13にデータ分析を指示
し、各クラスタ13がデータ分析を終了するのを待つ。
【0105】各クラスタ13からデータ分析の終了が通
知されるとステップS131に進む。ステップS131
においては各クラスタ13におけるデータの分析結果、
若しくは、予測モデルを表示する。
【0106】データ分析が予測モデルを作成するもので
あれば予測モデルを表示し、各クラスタ13のクラス値
を求めるものであれば各クラスタのクラス値を表示す
る。データ入力のみの場合は、欠損値を補間した入力デ
ータを表示する。これで管理装置21の処理を終了す
る。
【0107】図18に管理装置20の処理フロー図を示
す。まずステップS201において関連度テーブル3を
作成する。管理装置20の関連度計算部14によってフ
ィールド間のデータの相互情報量を計算する。その計算
結果を関連度テーブル3に保持する。続いてステップS
203に進む。
【0108】ステップS203においては管理装置21
から欠損値補間の指示があるかないかを判定する。欠損
値補間の指示がない場合はステップS207に進み、欠
損値補間の指示がある場合はステップS205に進む。
【0109】ステップS205においては各処理装置6
に欠損値補間を指示し、各処理装置6が欠損値補間をす
るのを待つ。ステップS201で作成した関連度テーブ
ル3を参照し、補間対象のフィールドと関連度が高いフ
ィールドを処理装置6に指示する。
【0110】補間対象のフィールドが複数ある場合は、
複数の処理装置6に欠損値補間を並列に行えるように指
示する。各処理装置6から欠損値補間の終了が通知され
るとステップS207に進む。
【0111】ステップS207においては処理を継続す
るか否かを判定する。欠損値補間で処理を終了する場合
は管理装置21に補間値を通知して処理を終了し、処理
を継続する場合はステップS209に進む。
【0112】ステップS209においては、ユーザから
データ分析の処理時間の指定があるかないかを判定す
る。処理時間の指定がある場合はステップS211に進
み、処理時間の指定がない場合はステップS213に進
む。
【0113】ステップS211においては、入力データ
量やハードウェア資源などのパラメータに基づいて、ユ
ーザに指定された処理時間内に処理できると見込まれる
フィールド数を算出する。続いてステップS213に進
む。
【0114】ステップS213では各処理装置に対応す
るフィールドを選択する。フィールド選択部4が関連度
テーブル3を参照し、クラスフィールドとの関連度が高
い順にステップS211で算出したフィールド数の分の
フィールドを選択する。
【0115】フィールド選択部4はクラスフィールドと
の関連度が高いフィールドを選択し、処理装置6ごとに
追加すべきフィールドを指定すると共に、クラスフィー
ルドとの関連度が低いフィールドを選択し、処理装置6
ごとに削除すべきフィールドを指定する。続いてステッ
プS215に進む。
【0116】ステップS215においては各処理装置6
にデータ分析を指示し、各処理装置6のデータ分析が終
了するのを待つ。各処理装置6からデータ分析の終了が
通知されるとステップS217に進む。
【0117】ステップS217においては未知データが
あるかないかが判定される。教師あり学習の場合で未知
データがある場合はステップS219に進み、そうでな
い場合はステップS225に進む。
【0118】ステップS219ではデータ予測を行うに
あたり、欠損値の補間が必要であるかないかを判定す
る。欠損値があってデータ予測アプリケーションの処理
が進まなくなることを防止する。欠損値の補間が必要な
場合はステップS221に進み、欠損値の補間が不要な
場合はステップS223に進む。
【0119】ステップS221においては各処理装置6
に欠損値補間を指示し、各処理装置6が欠損値補間を終
了するのを待つ。各処理装置6から欠損値補間の終了が
通知されるとステップS223に進む。
【0120】ステップS223においては、各処理装置
6で作成した予測モデルを管理装置21に通知すると共
に、予測モデルからクラス値を予測して管理装置21に
通知する。ステップS225においては分析結果を管理
装置21に通知する。
【0121】図19に処理装置6の処理フロー図を示
す。まずステップS601において、入力データの中に
欠損値があるかないかが判定される。欠損値がある場合
はステップS621に進み、欠損値がない場合はステッ
プS603に進む。
【0122】ステップS621においては処理装置6の
欠損値補間部11が欠損値を推定し、補間する。欠損値
を含むフィールドと他のフィールドとの関連から欠損値
を推定する。教師あり学習の場合はクラスタ13内の関
連度テーブル3を参照する。続いてステップS623に
進む。
【0123】ステップS623においては処理を継続す
るか否かが判定される。欠損値補間で処理を終了する場
合は管理装置20に補間値を通知して処理を終了し、処
理を継続する場合はステップS603に進む。
【0124】ステップS603においてはベースフィー
ルド以外のフィールドが指定されているか否かが判定さ
れる。ベースフィールド以外のフィールドが指定されて
いない場合はステップS605に進み、ベースフィール
ド以外のフィールドが指定されている場合はステップS
607に進む。
【0125】ステップS607においては、ベースフィ
ールド以外のフィールドに属するデータに、管理装置2
0に指定されたフィールドに属するデータを追加する。
続いてステップS609に進む。
【0126】ステップS609においてはベースフィー
ルドが指定されているか否かを判定する。ベースフィー
ルドが指定されていない場合はステップS611に進
み、ベースフィールドが指定されている場合はステップ
S605に進む。
【0127】ステップS605においては、ベースフィ
ールドに属するデータから管理装置20に指定されたフ
ィールドに属するデータを削除する。続いてステップS
611に進む。
【0128】ステップS611においては、管理装置2
0によって処理装置6ごとに指定された複数のフィール
ドのデータについて、個々の処理装置6のデータ分析部
9がデータを分析する。続いてステップS613に進
む。
【0129】ステップS613においてはデータ分析が
予測モデルを作成するものであるかどうかが判定され
る。予測モデルを作成するものであればステップS61
5に進み、そうでない場合はステップS617に進む。
【0130】ステップS615においては予測モデルを
作成し、管理装置20に通知する。ステップS617に
おいては分析結果を管理装置20に通知する。尚、本発
明の実施の形態では、クラスタ分割部12を有する管理
装置21やデータ予測部5を有する管理装置20を複数
の処理装置6とは別の装置として示したが、管理装置2
0または管理装置21を複数の処理装置6の内の1台若
しくは数台の処理装置とする構成にしてもよいことは勿
論のことである。
【0131】また、本発明の実施の形態では、フィール
ド削除手段7やフィールド追加手段8を処理装置6ごと
に設け、各処理装置6でデータを削除したり追加したり
する構成にしたが、フィールド削除手段7やフィールド
追加手段8を処理装置6ごとに設けない構成にして、管
理装置20から各処理装置6に分析すべきフィールドの
データを渡す構成にしてもよいことは勿論のことであ
る。
【0132】
【発明の効果】以上の説明から明らかなように本発明に
よれば、個々の処理装置においては、割り当てられたフ
ィールドに関するデータ分析を最後まで実行することが
可能になり、並列計算機の処理を効率的に行うことが可
能になるという効果がある。
【0133】また、分析精度を低下させるフィールドを
除外すること、分析精度を向上させるフィールドを追加
すること、クラスタリングを行うこと、欠損値を補間し
適用可能なアプリケーションの範囲を拡大すること、お
よび指定された時間内に教師あり学習を行うことによっ
て、並列計算機の処理を効率的に行い、データ分析の精
度を向上させることが可能になるという効果がある。
【図面の簡単な説明】
【図1】 本発明の原理図
【図2】 並列データ分析装置の構成図(2)
【図3】 並列データ分析装置の構成図(3)
【図4】 並列データ分析装置の構成図(4)
【図5】 並列データ分析装置の構成図(5)
【図6】 並列データ分析装置の構成図(6)
【図7】 並列データ分析装置の構成図(7)
【図8】 欠損値補間
【図9】 並列データ分析装置の構成図(8)
【図10】 フィールド選択
【図11】 散布図表示と関連度
【図12】 フィールド削除とフィールド追加
【図13】 フィールド削除と追加の例
【図14】 欠損値補間の処理
【図15】 処理装置の構成
【図16】 クラスタ分割の処理
【図17】 管理装置21の処理フロー図
【図18】 管理装置20の処理フロー図
【図19】 処理装置6の処理フロー図
【図20】 入力データの例
【符号の説明】
1 並列データ分析装置 2 フィールド数算出手段、フィールド数算出部 3 関連度テーブル 4 フィールド選択手段、フィールド選択部 5 データ予測手段、データ予測部 6 処理装置 7 フィールド削除手段、フィールド削除部 8 フィールド追加手段、フィールド追加部 9 データ分析手段、データ分析部 10 予測モデル 11 欠損値補間手段、欠損値補間部 12 クラスタ分割手段、クラスタ分割部 13 クラスタ 14 関連度計算手段、関連度計算部 15 表示手段、表示部 16 散布図作成手段、散布図作成部 17 予測モデル選択手段、予測モデル選択部 20、21 管理装置

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 複数のフィールドからなるデータを複数
    の処理装置に割り当てて並列に分析を行い、予測対象の
    フィールドの予測値を求める並列データ分析装置であっ
    て、 各処理装置に共通に割り当てられる複数のフィールドで
    あるベースフィールドの中から処理装置ごとに分析の対
    象にしない1以上のフィールドを選択するフィールド選
    択手段と、 前記ベースフィールドに属するデータから、処理装置ご
    とに前記フィールド選択手段によって選択されたフィー
    ルドに属するデータを削除するフィールド削除手段と、 前記ベースフィールドに属するデータと、前記削除後の
    データとについて、処理装置ごとに分析し、予測モデル
    を作成するデータ分析手段と、 前記予測モデルに基づいて予測対象のフィールドのデー
    タを予測するデータ予測手段と、 前記予測結果を比較し、最も分析精度が良い予測モデル
    を用いて予測値とする予測モデル選択手段と、 を有することを特徴とする並列データ分析装置。
  2. 【請求項2】 フィールド間のデータの関連度を計算し
    た計算結果を関連度テーブルとして保持する関連度計算
    手段と、 前記関連度テーブルを参照し、予測対象のフィールドと
    の関連度が低いフィールドから順に1以上のフィールド
    を選択するフィールド選択手段と、 を有することを特徴とする請求項1に記載の並列データ
    分析装置。
  3. 【請求項3】 複数のフィールドからなるデータを複数
    の処理装置に割り当てて並列に分析を行い、予測対象の
    フィールドの予測値を求める並列データ分析装置であっ
    て、 各処理装置に共通に割り当てられる複数のフィールドで
    あるベースフィールド以外のフィールドに処理装置ごと
    に分析の対象にする1以上のフィールドを選択するフィ
    ールド選択手段と、 前記ベースフィールドに属するデータに、処理装置ごと
    に前記フィールド選択手段によって選択されたフィール
    ドに属するデータを追加するフィールド追加手段と、 前記ベースフィールドに属するデータと、前記追加した
    データとについて、処理装置ごとに分析し、予測モデル
    を作成するデータ分析手段と、 前記予測モデルに基づいて予測対象のフィールドのデー
    タを予測するデータ予測手段と、 前記予測結果を比較し、最も分析精度が良い予測モデル
    を用いて予測値とする予測モデル選択手段と、 を有することを特徴とする並列データ分析装置。
  4. 【請求項4】 フィールド間のデータの関連度を計算し
    た計算結果を関連度テーブルとして保持する関連度計算
    手段と、 前記関連度テーブルを参照し、予測対象のフィールドと
    の関連度が高いフィールドから順に1以上のフィールド
    を選択するフィールド選択手段と、 を有することを特徴とする請求項3に記載の並列データ
    分析装置。
  5. 【請求項5】 関連度が高いフィールドの組合せを複数
    選び出し、個々の組合せに対する散布図を作成する散布
    図作成手段を有することを特徴とする請求項2または請
    求項4に記載の並列データ分析装置。
  6. 【請求項6】 入力されたデータを類似したグループに
    分類するクラスタ分割手段を有し、 個々の処理装置において個々のクラスタに属するデータ
    の分析を並列に行うことを特徴とする請求項1乃至請求
    項5に記載の並列データ分析装置。
  7. 【請求項7】 入力されたデータを複数のクラスタに分
    割し、個々の処理装置において個々のクラスタに属する
    データを分析し、クラスタごとに予測モデルを作成する
    並列データ分析装置であって、 未知のデータがどのクラスタに属するかを調べ、クラス
    タごとに作成された予測モデルに基づいて未知のデータ
    のクラス値を予測するデータ予測手段を有することを特
    徴とする並列データ分析装置。
  8. 【請求項8】 欠損値を含むフィールドが複数ある場合
    に欠損値を含むフィールド以外のフィールドのデータか
    ら欠損値を予測し、補間する欠損値補間手段を有するこ
    とを特徴とする請求項1乃至請求7に記載の並列データ
    分析装置。
  9. 【請求項9】 指定された処理時間内に分析するフィー
    ルド数を算出するフィールド数算出手段と、前記フィー
    ルド数算出手段で算出したフィールド数の分のフィール
    ドを選択するフィールド選択手段と、を有することを特
    徴とする請求項1乃至請求8に記載の並列データ分析装
    置。
JP20996498A 1998-07-24 1998-07-24 並列データ分析装置 Pending JP2000040079A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20996498A JP2000040079A (ja) 1998-07-24 1998-07-24 並列データ分析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20996498A JP2000040079A (ja) 1998-07-24 1998-07-24 並列データ分析装置

Publications (1)

Publication Number Publication Date
JP2000040079A true JP2000040079A (ja) 2000-02-08

Family

ID=16581603

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20996498A Pending JP2000040079A (ja) 1998-07-24 1998-07-24 並列データ分析装置

Country Status (1)

Country Link
JP (1) JP2000040079A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002092009A (ja) * 2000-06-12 2002-03-29 Ncr Internatl Inc Sqlベースの分析的アルゴリズムに基づくデータ検索方法及び装置
JP2003122572A (ja) * 2001-10-18 2003-04-25 Fujitsu Ltd データ分析装置及び記録媒体
JP5083320B2 (ja) * 2007-08-22 2012-11-28 富士通株式会社 化合物の物性予測装置、物性予測方法およびその方法を実施するためのプログラム
WO2013125482A1 (ja) * 2012-02-24 2013-08-29 日本電気株式会社 文書評価装置、文書評価方法、及びコンピュータ読み取り可能な記録媒体
US9396250B2 (en) 2011-01-20 2016-07-19 Nec Corporation Flow line detection process data distribution system, flow line detection process data distribution method, and program
JP2018060547A (ja) * 2014-07-04 2018-04-12 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited 指示分析のためのシステムおよび方法
JP2019160256A (ja) * 2018-03-16 2019-09-19 株式会社リコー 学習識別装置および学習識別方法
US11042786B2 (en) 2018-03-30 2021-06-22 Mitsubishi Electric Corporation Learning processing device, data analysis device, analytical procedure selection method, and recording medium

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05159195A (ja) * 1991-12-09 1993-06-25 Matsushita Electric Ind Co Ltd 旅行時間推定予測装置
JPH08305820A (ja) * 1995-04-28 1996-11-22 Fujitsu Ltd 能動的物体認識方法および装置
JPH0996132A (ja) * 1995-10-04 1997-04-08 Shin Nikkei Co Ltd ドア体の把手取付構造
JPH09185595A (ja) * 1996-01-08 1997-07-15 Fujitsu Ltd 砂時計ニューラルネットワークの引き延ばし学習方法および能動的物体認識装置
JPH1055630A (ja) * 1996-08-13 1998-02-24 Sony Corp 復号化装置および復号化方法
JPH1074188A (ja) * 1996-05-23 1998-03-17 Hitachi Ltd データ学習装置およびプラント制御装置
JPH1091608A (ja) * 1996-09-11 1998-04-10 Fujitsu Ltd データ処理装置
JPH10124476A (ja) * 1996-10-23 1998-05-15 Nri & Ncc Co Ltd 階層的予測モデル構築装置及びその方法
JPH10124478A (ja) * 1996-10-23 1998-05-15 Nri & Ncc Co Ltd セグメント生成型予測モデル構築装置及びその方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05159195A (ja) * 1991-12-09 1993-06-25 Matsushita Electric Ind Co Ltd 旅行時間推定予測装置
JPH08305820A (ja) * 1995-04-28 1996-11-22 Fujitsu Ltd 能動的物体認識方法および装置
JPH0996132A (ja) * 1995-10-04 1997-04-08 Shin Nikkei Co Ltd ドア体の把手取付構造
JPH09185595A (ja) * 1996-01-08 1997-07-15 Fujitsu Ltd 砂時計ニューラルネットワークの引き延ばし学習方法および能動的物体認識装置
JPH1074188A (ja) * 1996-05-23 1998-03-17 Hitachi Ltd データ学習装置およびプラント制御装置
JPH1055630A (ja) * 1996-08-13 1998-02-24 Sony Corp 復号化装置および復号化方法
JPH1091608A (ja) * 1996-09-11 1998-04-10 Fujitsu Ltd データ処理装置
JPH10124476A (ja) * 1996-10-23 1998-05-15 Nri & Ncc Co Ltd 階層的予測モデル構築装置及びその方法
JPH10124478A (ja) * 1996-10-23 1998-05-15 Nri & Ncc Co Ltd セグメント生成型予測モデル構築装置及びその方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
松居、岡本: "特徴重みの自己組織化機能を実装した記憶に基づく推論法", 信学技報(ET98-17), vol. 98, no. 76, CSNG199900968005, 23 May 1998 (1998-05-23), pages 33 - 38, ISSN: 0000776154 *
松本 ほか: "並列データマイニングアーキテクチャ", 信学技報(AI97-39), vol. p.33-38, CSNG200201235005, 2 December 1997 (1997-12-02), ISSN: 0000776152 *
毛利: "Nearest Neighbor法と記憶に基づく推論", 人工知能学会誌, vol. 12, no. 2, CSNG199800388002, 1 March 1997 (1997-03-01), pages 188 - 195, ISSN: 0000776153 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002092009A (ja) * 2000-06-12 2002-03-29 Ncr Internatl Inc Sqlベースの分析的アルゴリズムに基づくデータ検索方法及び装置
JP2003122572A (ja) * 2001-10-18 2003-04-25 Fujitsu Ltd データ分析装置及び記録媒体
JP5083320B2 (ja) * 2007-08-22 2012-11-28 富士通株式会社 化合物の物性予測装置、物性予測方法およびその方法を実施するためのプログラム
US8473448B2 (en) 2007-08-22 2013-06-25 Fujitsu Limited Compound property prediction apparatus, property prediction method, and program for implementing the method
US9396250B2 (en) 2011-01-20 2016-07-19 Nec Corporation Flow line detection process data distribution system, flow line detection process data distribution method, and program
WO2013125482A1 (ja) * 2012-02-24 2013-08-29 日本電気株式会社 文書評価装置、文書評価方法、及びコンピュータ読み取り可能な記録媒体
JP5454827B1 (ja) * 2012-02-24 2014-03-26 日本電気株式会社 文書評価装置、文書評価方法、及びプログラム
US9249287B2 (en) 2012-02-24 2016-02-02 Nec Corporation Document evaluation apparatus, document evaluation method, and computer-readable recording medium using missing patterns
JP2018060547A (ja) * 2014-07-04 2018-04-12 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited 指示分析のためのシステムおよび方法
JP2019160256A (ja) * 2018-03-16 2019-09-19 株式会社リコー 学習識別装置および学習識別方法
JP7069898B2 (ja) 2018-03-16 2022-05-18 株式会社リコー 学習識別装置および学習識別方法
US11042786B2 (en) 2018-03-30 2021-06-22 Mitsubishi Electric Corporation Learning processing device, data analysis device, analytical procedure selection method, and recording medium

Similar Documents

Publication Publication Date Title
JP5477297B2 (ja) 能動計量学習装置、能動計量学習方法および能動計量学習プログラム
US11915104B2 (en) Normalizing text attributes for machine learning models
Kamburugamuve et al. Anatomy of machine learning algorithm implementations in MPI, Spark, and Flink
US20130204831A1 (en) Identifying associations in data
CN111930518B (zh) 面向知识图谱表示学习的分布式框架构建方法
US20060235879A1 (en) Techniques for specifying and collecting data aggregations
CN111710364B (zh) 一种菌群标记物的获取方法、装置、终端及存储介质
US20030037025A1 (en) Methods and apparatus for user-centered class supervision
US8005626B2 (en) System and computer readable medium for discovering gene regulatory models and genetic networks using relational fuzzy models
JP2000040079A (ja) 並列データ分析装置
CN117435130A (zh) 金融数据存储方法、装置、计算机设备和存储介质
US20180121811A1 (en) Profiling a population of examples in a precisely descriptive or tendency-based manner
CN111783843A (zh) 一种特征选择方法、装置及计算机系统
CN111708919A (zh) 一种大数据处理方法及系统
WO2023224742A1 (en) Predicting runtime variation in big data analytics
Bar-Or et al. Decision tree induction in high dimensional, hierarchically distributed databases
CN112860531B (zh) 基于深度异构图神经网络的区块链广泛共识性能评测方法
Guidi et al. A new procedure to optimize the selection of groups in a classification tree: Applications for ecological data
Karim et al. Implementation of BiClusO and its comparison with other biclustering algorithms
Betke et al. Classifying temporal characteristics of job i/o using machine learning techniques
JP2022154862A (ja) 情報処理方法、プログラム及び情報処理装置
JP4346531B2 (ja) テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム
CN113934813A (zh) 一种样本数据划分的方法、系统、设备及可读存储介质
Beavers et al. Data Nuggets: A Method for Reducing Big Data While Preserving Data Structure
CN112509640B (zh) 基因本体项名称生成方法、装置及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061113

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070206