JP3636682B2 - Data analysis apparatus and method - Google Patents

Data analysis apparatus and method Download PDF

Info

Publication number
JP3636682B2
JP3636682B2 JP2001265457A JP2001265457A JP3636682B2 JP 3636682 B2 JP3636682 B2 JP 3636682B2 JP 2001265457 A JP2001265457 A JP 2001265457A JP 2001265457 A JP2001265457 A JP 2001265457A JP 3636682 B2 JP3636682 B2 JP 3636682B2
Authority
JP
Japan
Prior art keywords
data
weight
multivariate
analysis apparatus
data analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001265457A
Other languages
Japanese (ja)
Other versions
JP2003075202A (en
Inventor
時彦 丹羽
眞弓 比嘉
一義 田中
健二 藤川
Original Assignee
時彦 丹羽
眞弓 比嘉
株式会社 日立システムアンドサービス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 時彦 丹羽, 眞弓 比嘉, 株式会社 日立システムアンドサービス filed Critical 時彦 丹羽
Priority to JP2001265457A priority Critical patent/JP3636682B2/en
Publication of JP2003075202A publication Critical patent/JP2003075202A/en
Application granted granted Critical
Publication of JP3636682B2 publication Critical patent/JP3636682B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Indicating Measured Values (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の技術分野】
本発明は、多変量データを分析するデータ分析装置に関する。特に、多変量データを、ユーザ操作に従って視覚的に分析することのできるデータ分析装置に関する。
【0002】
【従来の技術および課題】
大量のデータを入力して、データ分析を行うツールとしてデータマイニングツールが知られている。このようなデータマイニングツールを用いてデータ分析を行うことにより、そのデータにおける傾向やデータ間の関係等といった複雑な分析情報を抽出することができる。ユーザは、この分析情報に基づいて、判定や予測などの意志決定を行う。
【0003】
例えば、このようなデータマイニングツールにおいては、多変量データをクラスタ分類し、各クラスタにおけるデータ変量の影響度を様々な角度から視覚的に表示させることができる。
【0004】
しかしながら、この場合のクラスタ分類は、ソフトウェアによってブラックボックス的に行われるため、ユーザにクラスタ分類にかかる専門的な知識がなければ、分析結果として表示された内容を理解することはできない。すなわち、多変量データのどの変量に着目することによって得られた結果であるのかを理解することは容易ではない。
【0005】
また、他の従来技術として、図14に示すようなレーダーチャートによる表示方法がある。レーダーチャートとは、多変量データの各変量を中心から放射状に伸びる数値軸上にプロットし、各プロット点を線で結ぶことにより1つの多変量データを表現したものである。したがって、複数の線が表示された場合に、ほぼ同形状を構成する線同士が、1つのクラスタであると判別できる。
【0006】
しかしながら、レーダーチャートに表示する多変量データの数が増加すると、多変量データを表現する線の重なり部分が増加するため、クラスタの判別が困難になってしまう。
【0007】
本発明は、このような課題を解決するためになされたものであり、多変量データを視覚的に提示して、ユーザ自身の操作においてデータのクラスタ分類を行うことのできるデータ分析装置を提供することを目的とする。さらに、クラスタ分類を行った多変量データに基づいて、当該クラスタをより明瞭に表示することのできるデータ分析装置を提供することを目的とする。
【0008】
【課題を解決するための手段および発明の効果】
(1)(2)(3)この発明にかかるデータ分析装置、データ分析装置をコンピュータを用いて実現するためのプログラムまたはデータ分析装置をコンピュータを用いて実現するためのプログラムを記録した記録媒体においては、与えられた多変量データを構成する各変量データの値およびその重みに基づいて、当該多変量データを座標平面または座標空間に作図する作図手段と、前記各変量データの重みを操作する重み操作手段と、を備えており、前記重み操作手段によって重みを操作することにより、座標平面または座標空間上の各変量データの作図状態を変更して、複数の多変量データを視覚的にグループ化して把握することを容易にすることを特徴としている。
【0009】
したがって、多変量データにおいて特定の変量の重みを変化させる操作を行うことができ、この操作に応じて当該変量が多変量データ全体に与える影響を作図状態の変更から確認することができる。これにより、多変量データのグループ化を視覚的に行うことができる。
【0010】
(4)この発明にかかるデータ分析装置、データ分析装置をコンピュータを用いて実現するためのプログラムまたはデータ分析装置をコンピュータを用いて実現するためのプログラムを記録した記録媒体においては、作図手段は、すでに作図されている多変量データにおける重みを用いて、新たに与えられた多変量データを座標平面または座標空間に作図することを特徴としている。
【0011】
したがって、重み操作を行って視覚的にグループ化された複数の多変量データと、グループが未知である新たに与えられた多変量データを視覚的に比較することができる。これにより、当該新たに与えられた多変量データにかかるグループ属性の判断を容易にすることができる。
【0012】
(5)この発明にかかるデータ分析装置、データ分析装置をコンピュータを用いて実現するためのプログラムまたはデータ分析装置をコンピュータを用いて実現するためのプログラムを記録した記録媒体においては、作図手段は、多変量データを座標平面または座標空間に作図する際の作図要素として、各変量データの値をベクトル角度に対応付け、さらに、その重みをベクトル長に対応付けて、各変量データにかかるベクトルの連結によって得られる最終到達点を代表点として作図することを特徴としている。
【0013】
したがって、多変量データにおける各変量データの値およびその重みに応じて決定される代表点を、座標平面または座標空間に作図することができる。すなわち、1つの代表点が表示されている位置が、一つの多変量データを表していることになる。
【0014】
(6)この発明にかかるデータ分析装置、データ分析装置をコンピュータを用いて実現するためのプログラムまたはデータ分析装置をコンピュータを用いて実現するためのプログラムを記録した記録媒体においては、作図手段は、与えられた多変量データを作図する座標平面として、当該多変量データの代表点を所定の半円内に作図する星座グラフを用いることを特徴としている。
【0015】
したがって、多変量データの最終到達点としての代表点が表示される位置は、星座グラフ上の半円内に限られるので、視覚的にグループ化を把握しやすい。
【0016】
(7)この発明にかかるデータ分析装置、データ分析装置をコンピュータを用いて実現するためのプログラムまたはデータ分析装置をコンピュータを用いて実現するためのプログラムを記録した記録媒体においては、重み操作手段は、与えられた多変量データがどのグループに属するのかを示すグループ情報を取得して、各グループにおける多変量データの代表点の平均点と各代表点との距離、および全多変量データの代表点同士の距離に基づいて、各代表点により構成される各グループが明瞭に分かれて表示されるように、各変量データの重みを決定することを特徴としている。
【0017】
したがって、与えられた多変量データの作図状態において、当該多変量データの代表点が明瞭なグループを構成していなくても、各変量データの重みを調整して明瞭なグループ表示を行うことができる。さらに、決定された各変量データの重みにより、そのグループ化状態における各変量の影響度をより明確にすることができる。
【0018】
(8)この発明にかかるデータ分析装置、データ分析装置をコンピュータを用いて実現するためのプログラムまたはデータ分析装置をコンピュータを用いて実現するためのプログラムを記録した記録媒体においては、重み操作手段は、多変量データの作図状態を受けたユーザによって与えられる情報に基づいて、各変量データの重みを決定することを特徴としている。
【0019】
したがって、与えられた多変量データの作図状態において、ユーザが自由に各変量の重みを入力することができる。これにより、注目している変量が、多変量データ全体に与える影響を視覚的に理解することができる。また、作図状態にある多変量データの代表点を、微調整して表示させることができる。
【0020】
(9)この発明にかかるデータ分析装置、データ分析装置をコンピュータを用いて実現するためのプログラムまたはデータ分析装置をコンピュータを用いて実現するためのプログラムを記録した記録媒体においては、作図手段によって作図された各多変量データの作図状態に基づいて、複数の多変量データを選択することにより、選択された多変量データをグループ化して出力するグループ化手段を備えていることを特徴としている。
【0021】
したがって、与えられた多変量データが属するグループを、作図状態に基づいて、視覚的に決定することができる。例えば、ある代表点の近傍に表示されている代表点を同じグループに属するものとして決定することができる。
【0022】
(10)この発明にかかるデータ分析装置、データ分析装置をコンピュータを用いて実現するためのプログラムまたはデータ分析装置をコンピュータを用いて実現するためのプログラムを記録した記録媒体においては、グループ化手段は、前記作図手段によって作図された各多変量データの作図状態を視覚的に確認したユーザが、当該作図状態に基づいて選択した複数の多変量データをグループ化するものであることを特徴としている。
【0023】
したがって、ユーザは、ディスプレイなどに表示された作図状態を見て、マウスなどのポインティングデバイス等を使用して、多変量データをグループ分けすることができる。
【0024】
(11)この発明にかかるデータ分析装置、データ分析装置をコンピュータを用いて実現するためのプログラムまたはデータ分析装置をコンピュータを用いて実現するためのプログラムを記録した記録媒体においては、グループ化手段は、複数の多変量データが選択される際に、選択された多変量データと他の多変量データとを色分けして表示することを特徴としている。
【0025】
したがって、グループ化を行う際において、選択している代表点を明確に認識することができ、グループ化作業を行いやすい。
【0026】
(12)この発明にかかるデータ分析方法においては、与えられた多変量データを構成する各変量データの値およびその重みに基づいて、当該多変量データを座標平面または座標空間に作図する作図手段と、前記各変量データの重みを操作する重み操作手段と、を備えており、前記重み操作手段によって重みを操作することにより、座標平面または座標空間上の各変量データの作図状態を変更して、複数の多変量データを視覚的にグループ化して把握することを容易にすることを特徴としている。
【0027】
したがって、多変量データにおいて注目すべき変量の重みを変化させる操作を行うことができ、この操作に応じて当該変量が多変量データ全体に与える影響を作図状態の変更から確認することができる。これにより、多変量データのグループ化を視覚的に行うことができる。
【0028】
(13)この発明にかかるデータ分析方法においては、作図手段は、すでに視覚的にグループ化して把握することが容易な状態で作図されている多変量データにおける重みを用いて、新たに与えられた多変量データの作図を行い、当該新たに与えられた多変量データにかかるグループ属性の判断を容易にすることを特徴としている。
【0029】
したがって、重み操作を行って視覚的にグループ化された複数の多変量データと、グループが未知である新たに与えられた多変量データを視覚的に比較することができる。これにより、当該新たに与えられた多変量データにかかるグループ属性の判断を容易にすることができる。
【0030】
この明細書で用いられる用語については、次のように定義する。
【0031】
「重み」とは、多変量データの各変量において、当該変量の他の変量に対する相対的な重要度をいう。
【0032】
「グループ化」とは、複数のデータをまとめた集合を形成することをいう。実施形態では、作図された多変量データの代表点に基づき、代表点が互いに近傍に表示されている多変量データを集合としてグループ化している。
【0033】
【発明の実施の形態】
以下、本発明における実施形態について、図面を参照して説明する。
【0034】
1.第1の実施形態
1−1.機能ブロック図
図1は、本発明にかかるデータ分析装置1の構成を示す機能ブロック図である。
【0035】
この図において、データ分析装置1は、多変量データを入力する入力手段2と、
与えられた多変量データを構成する各変量データの値およびその重みに基づいて、当該多変量データを座標平面または座標空間に作図する作図手段3と、前記各変量データの重みを操作する重み操作手段4と、作図手段によって作図された座標平面または座標空間を出力する出力手段5、を備えている。さらに、作図手段によって作図された各多変量データの作図状態に基づいて、複数の多変量データを選択することにより、選択された多変量データをグループ化して出力するグループ化手段6を備えている。
【0036】
入力手段2は、ユーザが多変量データを入力するコンピュータのキーボード等である。出力手段は、作図手段3によって座標平面または座標空間に作図された情報を、ユーザが視覚的に認識できるようにするディスプレイ装置等である。
【0037】
1−2.ハードウェア構成
図2に、データ分析装置1のハードウェア構成図を示す。この装置は、CPU20、メモリ21、ディスプレイ22、ハードディスク23(記憶装置)、キーボード/マウス24、CD−ROMドライブ25を備えている。
【0038】
なお、ハードディスク23には、データ分析のためのプログラムなどが記録されている。このプログラムは、CD−ROMドライブ25を介して、プログラムが記憶されたCD−ROM26から読み出されてハードディスク23にインストールされたものである。CD−ROM26以外の読み取り可能な記録媒体から、ハードディスクにインストールさせるようにしてもよい。さらに、通信回線を用いて当該プログラムをダウンロードするようにしてもよい。
【0039】
1−3.フローチャート
図3は、当該データ分析装置1にかかるデータ分析プログラムのフローチャートである。
【0040】
ユーザがデータ分析装置1のプログラムを起動すると、ディスプレイ22にはデータ入力画面が表示される(ステップS301)。このデータ入力画面は、本実施形態の初期画面であって、データ分析の対象となる多変量データの入力を要求するものである。この入力画面は、多変量データを特定するためのデータIDを行として、当該データIDの持つ属性(変量)を列として入力するテーブル形式の構造をなしている。
【0041】
図4は、植物のアヤメの観測データを入力データとしてデータ入力画面入力した場合の例を示しており、「がくの長さ」41、「がくの幅」42、「花びらの長さ」43、「花びらの幅」44を属性としている。
【0042】
なお、本実施形態では、多変量データを画面に直接入力するようにしているが、他のコンピュータ装置等で作成した多変量データを読み込むようにしてもよい。この場合は、図4に示す「ファイル読込」45ボタンを押下して対象のデータが記録されているファイルを指定すればよい。
【0043】
データ入力を終えたユーザが、「作図」ボタン46を押下すると、データ分析装置1は、入力された多変量データをメモリ21またはハードディスク23に読み込む(ステップS302)。
【0044】
多変量データを読み込んだデータ分析装置1は、当該多変量データを構成する各変量データの値およびその重みに基づいて、座標平面に作図を行う(ステップS303)。なお、この場合の座標平面には、各多変量データの代表点を所定の半円内に表示する星座グラフを用いる。星座グラフとは、多変量データの各変量によって得られるそれぞれの代表点を、天空高く星のように散らばっているように表示することのできるグラフである。
【0045】
図5は、ステップS303の作図処理の詳細を示すフローチャートである。データ分析装置1のCPU20は、メモリ21またはハードディスク23に読み込んだ全ての多変量データから、各変量毎の最大値および最小値を求める(ステップS501)。例えば、図4の多変量データにおいては、「がくの長さ」41、「がくの幅」42、「花びらの長さ」43、「花びらの幅」44毎に、それぞれの最大値x(2) jおよび最小値x(1) jが決定される。なお、jは変量の番号を表し、例えば、「がくの長さ」41を表す変量では、j=1である。
【0046】
次に、データ分析装置1のCPU20は、多変量データを1レコードずつメモリ21に読み込み(ステップS502)、上記で求めた最大値x(2) jおよび最小値x(1) jを用いて、i番目のレコードのj番目の変量xijに対応する角度θijを求める(ステップS503)。なお、当該角度θijは数式1に示すように、変量xijの値によって一値に決定される。
【0047】
【数1】

Figure 0003636682
次に、読み込んだ1レコードの変量xijに対応するベクトルを(cosθij,sinθij)とし、このベクトルに対して重みwjを付加する。但し、初期表示の場合、重みwjは「1」に固定して処理するものとする。
【0048】
例えば、「がくの長さ」41、「がくの幅」42、「花びらの長さ」43、「花びらの幅」44の変量をそれぞれ、x11、x12、x13、x14とすると、これに対応する角度がそれぞれ、θ11、θ12、θ13、θ14と定まる。
【0049】
したがって、図6のAに示すように、ベクトルx11とx軸のなす角は、θ11と定まり、重みwj(=1)をベクトル長とするベクトルx11の終点を決定する。さらに、ベクトルx12とx軸のなす角をθ12とし、ベクトルx11の終点を始点とするベクトルx12の終点を決定する。
【0050】
同様に、ベクトルx13、x14の終点を決定し、ベクトルx14の終点をプロットする。すなわち、ベクトルx11、x12、x13、x14を連結した最終到達点が「★01」である。
【0051】
また、1レコードにおける各変量の連結ベクトルは、数式2のように定めることができる。
【0052】
【数2】
Figure 0003636682
したがって、数式2で定まるベクトルxiを連結したベクトルの最終到達点をして、半径1の半円の原点を始点とする星座グラフにプロットする(ステップS504)。
【0053】
なお、図6に示すように、各ベクトルの軌跡を星座グラフ上に表示してもよい。この場合、該当するレコードを構成する各変量のベクトルをより明瞭に表現できる。すなわち、代表点「★01」をプロットする際に、各変量がどのような影響を及ぼしているのかがより明瞭になる。
【0054】
さらに、データ分析装置1のCPU20は、読み込んだ多変量データが、最終レコードであるか否かのチェックを行い(ステップS505)、全てのレコードの連結ベクトルの最終到達点がプロットされるまで同様の処理を行う。
【0055】
図6のBは、データID「01」〜「10」の多変量データをプロットした場合の例である。この図は、重みwjが「1」の場合における多変量データのグループ状態を示している。図6のBの右端(1〜2時方向)に示されているように、データIDの代表点「★01」、「★03」、「★09」は、同一グループであると考えられる。
【0056】
しかしながら、代表点「★02」や「★10」は、どのグループに属するのかは、不明瞭である。そこで、重み付与手段により、星座グラフ上における各データの表示位置を修正し、各データがどのようなグループを構成するのかを調整する。すなわち、初期表示の段階において、全ての変量に一律の重み(「1」)を与えた状態から、この重みをユーザが操作することにより、多変量データの各変量データによって決定される連結ベクトルの最終到達点である代表点を調整する。
【0057】
全ての多変量データのレコードを、ディスプレイにプロットすると、データ分析装置1のCPU20は、図7に示す重み操作画面71を表示する。この重み操作画面71は、変量毎に重みを変更できるスライダ72を備えている。ユーザが、このスライダ72をマウスでドラッグしながら上下に操作することで、該当する変量にかかる重みwjを調整することができる。
【0058】
ユーザによって重みが変更されると(ステップS304、YES)、データ分析装置1のCPU20は、該当する変量の重みwjの変更を行い(ステップS305)、再び作図処理を行う(ステップS303)。したがって、ユーザは、作図処理の結果を確認することで、重み操作を行った変量の重みがどの程度影響を与えているのかを視覚的に知ることができる。
【0059】
例えば、「がくの長さ」41の重みw1が変更された場合、図6のAに示す代表点「★01」においては、ベクトルx11の長さがw1倍に変更されベクトルx11の終点が移動する。したがって、ベクトルx12の始点が移動するため、最終到達点である代表点「★01」のプロット位置が移動する。
【0060】
このように、重み操作と作図処理の結果確認を繰り返すことにより、複数の多変量データを、ユーザ任意の重み操作を行いつつ、視覚的な方法によりグループ化することができる。
【0061】
図8に、重みを上手く操作して、グループ化した例を示す。重み操作画面82において、ユーザは、「がくの長さ」、「がくの幅」に比べて、「花びらの長さ」、「花びらの幅」の重みを高く設定している。これにより、グラフ表示画面81に示すように、多変量データのグループが3つ形成されている。すなわち、点線で囲まれた複数のプロット点(★部分)のかたまりが、それぞれのグループを示している。
【0062】
これにより、ユーザは、アヤメの品種を3つのグループに分類することができ、このグループ化に最も影響を及ぼす要因となった変量は、「花びらの幅」であったと推測することができる。
【0063】
2.第2の実施形態
第1の実施形態においては、ユーザが重み操作を行うことにより、複数の多変量データを視覚的にグループ化する例を示した。しかし、本実施形態においては、第1の実施形態や既知の情報等により、グループ化が終了している多変量データを入力して、星座グラフを表示させる方法について説明する。
【0064】
例えば、星座グラフ上に表示させる際において、各データが構成するグループがより明瞭になるように、入力した多変量データにかかる各変量データの重みの最適化を行う。これにより、各変量毎の当該グループ化状態への影響度を知ることができる。
【0065】
2−1.機能ブロック図、ハードウェア構成
第2の実施形態における機能ブロック図、ハードウェア構成は、第1の実施形態の場合と同様である。
【0066】
2−2.フローチャート
図9は、当該データ分析装置1にかかるデータ分析プログラムのフローチャートである。
【0067】
ユーザがデータ分析装置1のプログラムを起動すると、ディスプレイ22にはデータ入力画面が表示され(ステップS901)、ユーザは、分析対象となる植物のアヤメの観測データを入力する。
図10に、データ入力画面100の例を示す。ここでは、入力項目として、「データID」101、「グループID」102、「がくの長さ」103、「がくの幅」104、「花びらの長さ」105、「花びらの幅」106が表示されている。なお、グループIDは、それぞれの観測データが、どの種のアヤメに属するのかをを示すものである。
【0068】
また、グループIDが不明な場合には、データ入力画面100で入力せずに、星座グラフ上に表示された代表点を選択することで、グループ化が可能である。
【0069】
観測データの入力を終えたユーザが「作図」ボタン107を押下すると、データ分析装置1のCPU20は、多変量データである当該観測データを、メモリ21またはハードディスク23に読み込む(ステップS902)。
【0070】
多変量データを読み込んだデータ分析装置1のCPU20は、当該多変量データを構成する各変量データの値およびその重みに基づいて、座標平面に作図を行う(ステップS903)。
【0071】
なお、前記ステップS903の作図処理の詳細は、第1の実施形態に示した図5のフローチャートと同様である。
【0072】
図11のAにステップ903の作図処理において、表示される星座グラフを示す。また、この状態から重み操作画面の重みスライダを操作した結果得られる星座グラフを図11のBに示す(ステップS903〜905の繰り返し)。
【0073】
ユーザは、図11のBの星座グラフ上の各代表点に対して、グループ化手段を用いて、視覚的にグループ化を行うことができる。例えば、グループID入力欄114にグループIDを入力し、マウスのドラッグ等を行うことにより、同一グループとする代表点を選択する。図11のBにおいては、円111、円112、円113でそれぞれ囲まれた代表点(★印)がグループ化されている。また、入力したグループIDは、グループ化情報として、図10に示したデータ入力画面100のグループID列に反映される(ステップS906)。
【0074】
なお、図11のBに示す代表点(★印)をマウスでドラッグして選択する場合において、選択中の代表点(★印)の色を変えて、他の代表点(★印)と区別できる様にしてもよい。例えば、図11のBにおいては、円111の代表点を塗りつぶし、円112の代表点を白抜きにし、円113の代表点を斜線としている。
【0075】
代表点のグループ化が完了すると、ユーザは、図11のBに示す最適化ボタン115を押下する。なお、観測データのグループIDが予め入力されている場合には、図10に示すデータ入力画面の作図ボタン107を押下すればよい。
【0076】
指令を受けて、データ分析装置1のCPU20は、重みの最適化処理を行う(ステップS907)。なお、図12に、重みの最適化処理の詳細フローチャートを示す。
【0077】
この処理において、データ分析装置1のCPU20は、グループ毎に平均点と呼ぶ基準点を求める(ステップS1201)。なお、この平均点の求め方を以下に示す。
【0078】
【数3】
Figure 0003636682
である場合において、
【数4】
Figure 0003636682
であり、
【数5】
Figure 0003636682
である。
【0079】
このとき、グループの個数をnとし、j番目のグループのi番目の代表点の連結ベクトルの終点を
【数6】
Figure 0003636682
と定める。
【0080】
この場合、
【数7】
Figure 0003636682
と求まる。
【0081】
次に、データ分析装置1のCPU20は、代表点全体の平均点を求める(ステップS1202)。なお、この平均点の求め方を以下に示す。
【0082】
【数8】
Figure 0003636682
と求まる。
【0083】
次に、データ分析装置1のCPU20は、グループ内の各代表点と当該グループの平均点との距離の和を求める(ステップS1203)。なお、この距離の和Varj(j=1,2,・・・n)の求め方を以下に示す。
【0084】
数式7により、
【数9】
Figure 0003636682
としたとき、
【数10】
Figure 0003636682
である。
【0085】
次に、データ分析装置1のCPU20は、全体の各代表点と全体のの平均点との距離の和を求める(ステップS1204)。なお、この距離の和Varの求め方を以下に示す。
【0086】
数式8により、
【数11】
Figure 0003636682
としたとき、
【数12】
Figure 0003636682
である。
【0087】
ここで、グループ内における代表点の散らばりを小さくし、グループ間の散らばりを大きくするためには、前記Varjを小さくし、前記Varを大きくすればよい。ここで、判定値Jを次のように定める。
【0088】
【数13】
Figure 0003636682
さらに、全ての重み値の組み合わせについてJを求める(ステップS1205)。
【0089】
すなわち、前記判定値Jを最小にする重み値の組み合わせを求めるために、全ての重み値の組み合わせについて処理するまで(ステップS1207、NO)、各変量毎の重み値の組み合わせを変更して(ステップS1206)、判定値Jを求める処理であるステップS1201〜ステップS1205を繰り返す。
【0090】
データ分析装置1のCPU20は、全ての重み値の組み合わせについて上記の処理を実行すると(ステップS1207、YES)、判定値Jを最小にする時の重み値の組み合わせを採用して、作図処理を行う(ステップS1208)。なお、この作図処理は、図5に示すフローチャートと同様の処理で行われる。
【0091】
図13に、上記の「重みの最適化処理」を行った場合におけるグラフ表示画面131および重み操作画面132の例を示す。
【0092】
グラフ表示画面131においては、図11のBに示すグラフ表示画面に比べて、グループを構成する代表点の表示位置が、よりグループが明瞭になる位置に移動している。また、グループ内においては、代表点同士の距離が小さくなる位置に移動している。
【0093】
この時の、重み操作画面132に示された重み値が、前記「重みの最適化処理」において採用された、重み値の組み合わせである。例えば、今回のグループ分けに大きく寄与している変量は、その値が「4.5」である「花びらの長さ」であったと解釈することができる。
【0094】
このように、「重みの最適化処理」を行うことにより、グループを構成する要因となる変量がいずれであるのかを調べることができる。
【0095】
3.その他
上記実施形態においては、説明の都合上、数十件のデータを用いてデータ分析を行ったが、実際のデータ分析では、観測対象に応じたデータ件数でデータ分析をおこなうことが望ましい。
【0096】
上記実施形態においては、与えられた多変量データのすべてについて、グループ化を行うことを前提としている。しかし、グループ化が完了した状態の重みを用いて、新たに与えられた多変量データの代表点を、既にグループ化された作図状態に重ねて表示するようにしてもよい。これにより、新たに与えられた多変量データが何れのグループに属するのかを、容易に視覚的に判断することができる。なお、このようなグループ化の判断方法は、病気の診断や機械の故障診断などのように様々な分野において応用することができる。
【0097】
第2の実施形態においては、多変量データがグループ分けされていることを前提条件として、「重みの最適化処理」を行っている。しかしながら、大量の多変量データを分析する必要がある場合には、全てのデータをグループ化するのは困難である。
【0098】
そこで、大量の多変量データのうち、少量の多変量データをサンプルとして抽出する。さらに、これらのデータについてのみ第2の実施形態によってグループ化し、「重みの最適化処理」を行う。これにより、当該サンプルを最も明瞭にグループ化するための重み値の組み合わせが求まる。
【0099】
次に、上記で求めた重み値の組み合わせを、大量の多変量データに適用して星座グラフを表示させる。
【0100】
この場合、もし、サンプルについて適切なグループ化が行われていれば、大量の多変量データを入力した場合であっても、星座グラフ内でプロットされる代表点は、明瞭なグループを構成して表示されることになる。なお、明瞭なグループが表示されない場合は、明瞭になるまで、サンプルの抽出から再び同じ処理を繰り返せばよい。
【0101】
このように、本発明は、グループ情報が未知である多変量データのデータ分析においても適用することができる。
【0102】
上記実施形態においては、各変量データの値をベクトル角度に対応付け、さらに、その変量の重みをベクトル長に対応付けて、各変量データ毎のベクトルを連結することにより、代表点のプロット位置を決定したが、逆に、変量の重みをベクトル角度に対応付け、各変量データの値をベクトル長に対応付けるようにしてもよい。
【0103】
また、各変量データおよびその変量の重みを、他の作図要素に対応付けてもよい。例えば、各変量データをX座標、その変量の重みをY座標に対応付けたXY平面座標として表現してもよい。また、円形状、四角形、その他の形状の座標平面または3次元の座標空間等として表現してもよい。
【図面の簡単な説明】
【図1】この発明の一実施形態におけるデータ分析装置の機能ブロック図を示す図である。
【図2】この発明の一実施形態におけるデータ分析装置のハードウェア構成図を示す例である。
【図3】第1の実施形態の「データ分析プログラム」におけるフローチャートを示す図である。
【図4】第1の実施形態の「データ入力画面」におけるデータ分析装置のディスプレイを示す図である。
【図5】「作図処理」におけるフローチャートを示す図である。
【図6】第1の実施形態の「グラフ表示画面」におけるデータ分析装置のディスプレイを示す図である。
【図7】「重み操作画面」におけるデータ分析装置のディスプレイを示す図である。
【図8】第1の実施形態の「グラフ表示画面」および「重み操作画面」におけるデータ分析装置のディスプレイを示す図である。
【図9】第2の実施形態の「データ分析プログラム」におけるフローチャートを示す図である。
【図10】第2の実施形態の「データ入力画面」におけるデータ分析装置のディスプレイを示す図である。
【図11】第2の実施形態の「グラフ表示画面」におけるデータ分析装置のディスプレイを示す図である。
【図12】「重みの最適化処理」におけるフローチャートを示す図である。
【図13】第2の実施形態の「グラフ表示画面」および「重み操作画面」におけるデータ分析装置のディスプレイを示す図である。
【図14】従来技術のレーダーチャートの例を示す図である。
【符号の説明】
1・・・データ入力装置
2・・・入力手段
3・・・作図手段
4・・・重み操作手段
5・・・出力手段
6・・・グループ化手段[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a data analysis apparatus for analyzing multivariate data. In particular, the present invention relates to a data analysis apparatus capable of visually analyzing multivariate data according to a user operation.
[0002]
[Prior art and problems]
A data mining tool is known as a tool for inputting a large amount of data and analyzing the data. By performing data analysis using such a data mining tool, it is possible to extract complicated analysis information such as trends in the data and relationships between the data. The user makes a decision such as determination and prediction based on the analysis information.
[0003]
For example, in such a data mining tool, multivariate data can be classified into clusters, and the influence of the data variables in each cluster can be visually displayed from various angles.
[0004]
However, since the cluster classification in this case is performed in a black box by software, the contents displayed as the analysis result cannot be understood unless the user has specialized knowledge regarding the cluster classification. That is, it is not easy to understand which variable of the multivariate data is the result obtained by paying attention.
[0005]
As another conventional technique, there is a display method using a radar chart as shown in FIG. A radar chart is a representation of one multivariate data by plotting each variable of multivariate data on a numerical axis extending radially from the center and connecting each plot point with a line. Therefore, when a plurality of lines are displayed, it can be determined that the lines constituting substantially the same shape are one cluster.
[0006]
However, when the number of multivariate data displayed on the radar chart increases, the overlapping portion of the lines representing the multivariate data increases, so that it becomes difficult to discriminate clusters.
[0007]
The present invention has been made to solve such a problem, and provides a data analysis apparatus that can visually present multivariate data and perform cluster classification of data in the user's own operation. For the purpose. It is another object of the present invention to provide a data analysis apparatus capable of displaying the cluster more clearly based on the multivariate data subjected to cluster classification.
[0008]
[Means for Solving the Problems and Effects of the Invention]
(1) (2) (3) Data analysis apparatus according to the present invention, a program for realizing the data analysis apparatus using a computer, or a recording medium recording a program for realizing the data analysis apparatus using a computer Is a plotting means for plotting the multivariate data on a coordinate plane or coordinate space based on the value of each variable data constituting the given multivariate data and its weight, and a weight for operating the weight of each of the variable data Operating means, and by operating the weight by the weight operating means, the drawing state of each variable data on the coordinate plane or coordinate space is changed, and a plurality of multivariate data is visually grouped. It is characterized by making it easy to grasp.
[0009]
Therefore, an operation for changing the weight of a specific variable in the multivariate data can be performed, and the influence of the variable on the entire multivariate data can be confirmed from the change in the drawing state according to this operation. Thereby, grouping of multivariate data can be performed visually.
[0010]
(4) In a data analysis apparatus according to the present invention, a program for realizing the data analysis apparatus using a computer or a recording medium recording a program for realizing the data analysis apparatus using a computer, the drawing means includes: It is characterized in that newly given multivariate data is drawn on a coordinate plane or a coordinate space using the weights in the already drawn multivariate data.
[0011]
Therefore, it is possible to visually compare a plurality of multivariate data visually grouped by performing a weight operation and newly provided multivariate data whose group is unknown. Thereby, it is possible to easily determine the group attribute related to the newly given multivariate data.
[0012]
(5) In a data analysis apparatus according to the present invention, a program for realizing the data analysis apparatus using a computer or a recording medium recording a program for realizing the data analysis apparatus using a computer, the drawing means includes: As a plotting element when plotting multivariate data on a coordinate plane or coordinate space, each variable data value is associated with a vector angle, and its weight is associated with a vector length, and the vectors of each variable data are linked. It is characterized in that the final reaching point obtained by the above is drawn as a representative point.
[0013]
Therefore, the representative point determined according to the value of each variable data and the weight thereof in the multivariate data can be plotted on the coordinate plane or the coordinate space. That is, the position where one representative point is displayed represents one multivariate data.
[0014]
(6) In the data analysis apparatus according to the present invention, a program for realizing the data analysis apparatus using a computer or a recording medium recording a program for realizing the data analysis apparatus using a computer, the drawing means includes: As a coordinate plane for plotting the given multivariate data, a constellation graph for plotting representative points of the multivariate data in a predetermined semicircle is used.
[0015]
Therefore, since the position where the representative point as the final arrival point of the multivariate data is displayed is limited to the semicircle on the constellation graph, it is easy to visually grasp the grouping.
[0016]
(7) In the data analysis apparatus according to the present invention, a recording medium storing a program for realizing the data analysis apparatus using a computer or a program for realizing the data analysis apparatus using a computer, the weight operation means is , Get group information indicating which group the given multivariate data belongs to, the distance between the average point of each multivariate data representative point in each group and each representative point, and the representative point of all multivariate data Based on the distance between them, the weight of each variable data is determined so that each group constituted by each representative point is clearly divided and displayed.
[0017]
Therefore, in the drawing state of the given multivariate data, even if the representative point of the multivariate data does not form a clear group, the weight of each variable data can be adjusted and a clear group display can be performed. . Further, the degree of influence of each variable in the grouped state can be further clarified by the determined weight of each variable data.
[0018]
(8) In the data analysis apparatus according to the present invention, a program for realizing the data analysis apparatus using a computer or a recording medium recording a program for realizing the data analysis apparatus using a computer, the weight operation means is The weight of each variable data is determined based on the information given by the user who has received the drawing state of the multivariate data.
[0019]
Therefore, the user can freely input the weight of each variable in the drawing state of the given multivariate data. Thereby, it is possible to visually understand the influence of the variable being noticed on the entire multivariate data. In addition, the representative points of the multivariate data in the drawing state can be finely adjusted and displayed.
[0020]
(9) In the data analysis apparatus according to the present invention, a program for realizing the data analysis apparatus using a computer or a recording medium recording a program for realizing the data analysis apparatus using a computer A grouping means for grouping and outputting the selected multivariate data by selecting a plurality of multivariate data based on the drawing state of each multivariate data is provided.
[0021]
Therefore, the group to which the given multivariate data belongs can be visually determined based on the drawing state. For example, representative points displayed in the vicinity of a certain representative point can be determined as belonging to the same group.
[0022]
(10) In the data analysis apparatus according to the present invention, a program for realizing the data analysis apparatus using a computer or a recording medium recording a program for realizing the data analysis apparatus using a computer, the grouping means is The user who visually confirms the drawing state of each multivariate data drawn by the drawing means groups a plurality of multivariate data selected based on the drawing state.
[0023]
Accordingly, the user can group the multivariate data by using a pointing device such as a mouse while viewing the drawing state displayed on the display or the like.
[0024]
(11) In the data analysis apparatus according to the present invention, a program for realizing the data analysis apparatus using a computer or a recording medium recording a program for realizing the data analysis apparatus using a computer, the grouping means is When a plurality of multivariate data is selected, the selected multivariate data and other multivariate data are displayed in different colors.
[0025]
Therefore, when performing grouping, the selected representative point can be clearly recognized, and the grouping operation can be easily performed.
[0026]
(12) In the data analysis method according to the present invention, a plotting means for plotting the multivariate data on a coordinate plane or coordinate space based on the value of each variable data constituting the given multivariate data and its weight. And a weight operation means for manipulating the weight of each variable data, and by operating the weight by the weight operation means, the drawing state of each variable data on the coordinate plane or coordinate space is changed, It is characterized by facilitating visual grouping of multiple multivariate data.
[0027]
Therefore, it is possible to perform an operation of changing the weight of the variable to be noted in the multivariate data, and according to this operation, the influence of the variable on the entire multivariate data can be confirmed from the change of the drawing state. Thereby, grouping of multivariate data can be performed visually.
[0028]
(13) In the data analysis method according to the present invention, the plotting means is newly given by using the weight in the multivariate data that has already been plotted in a state that can be easily visually grouped and grasped. Plotting multivariate data makes it easy to determine group attributes for the newly given multivariate data.
[0029]
Therefore, it is possible to visually compare a plurality of multivariate data visually grouped by performing a weight operation and newly provided multivariate data whose group is unknown. Thereby, it is possible to easily determine the group attribute related to the newly given multivariate data.
[0030]
The terms used in this specification are defined as follows.
[0031]
“Weight” refers to the relative importance of each variable in the multivariate data relative to other variables.
[0032]
“Grouping” means forming a set of a plurality of data. In the embodiment, based on the representative points of the plotted multivariate data, the multivariate data in which the representative points are displayed near each other is grouped as a set.
[0033]
DETAILED DESCRIPTION OF THE INVENTION
Embodiments of the present invention will be described below with reference to the drawings.
[0034]
1. First embodiment
1-1. Functional block diagram
FIG. 1 is a functional block diagram showing a configuration of a data analysis apparatus 1 according to the present invention.
[0035]
In this figure, the data analysis apparatus 1 includes an input means 2 for inputting multivariate data,
A plotting means 3 for plotting the multivariate data on a coordinate plane or coordinate space based on the value of each variable data constituting the given multivariate data and its weight, and a weight operation for manipulating the weight of each of the variable data Means 4 and output means 5 for outputting the coordinate plane or coordinate space drawn by the drawing means. In addition, grouping means 6 is provided for grouping and outputting the selected multivariate data by selecting a plurality of multivariate data based on the plotting state of each multivariate data plotted by the plotting means. .
[0036]
The input means 2 is a computer keyboard or the like on which a user inputs multivariate data. The output means is a display device or the like that allows the user to visually recognize the information drawn on the coordinate plane or coordinate space by the drawing means 3.
[0037]
1-2. Hardware configuration
FIG. 2 shows a hardware configuration diagram of the data analysis apparatus 1. This apparatus includes a CPU 20, a memory 21, a display 22, a hard disk 23 (storage device), a keyboard / mouse 24, and a CD-ROM drive 25.
[0038]
The hard disk 23 stores a program for data analysis. This program is read from the CD-ROM 26 storing the program via the CD-ROM drive 25 and installed in the hard disk 23. You may make it install in a hard disk from readable recording media other than CD-ROM26. Further, the program may be downloaded using a communication line.
[0039]
1-3. flowchart
FIG. 3 is a flowchart of a data analysis program according to the data analysis apparatus 1.
[0040]
When the user starts the program of the data analysis device 1, a data input screen is displayed on the display 22 (step S301). This data input screen is an initial screen of this embodiment, and requests input of multivariate data to be subjected to data analysis. This input screen has a table format structure in which data IDs for specifying multivariate data are input as rows and attributes (variables) of the data IDs are input as columns.
[0041]
FIG. 4 shows an example of the case where the observation data of the plant iris is input as the input data on the data input screen. The “grab length” 41, the “grab width” 42, the “petal length” 43, “Petal width” 44 is an attribute.
[0042]
In the present embodiment, multivariate data is directly input to the screen, but multivariate data created by another computer device or the like may be read. In this case, a “file read” 45 button shown in FIG. 4 may be pressed to designate a file in which target data is recorded.
[0043]
When the user who has finished inputting data presses the “plot” button 46, the data analysis apparatus 1 reads the input multivariate data into the memory 21 or the hard disk 23 (step S302).
[0044]
The data analysis apparatus 1 that has read the multivariate data draws a coordinate plane based on the value of each variable data constituting the multivariate data and its weight (step S303). In this case, a constellation graph that displays representative points of each multivariate data in a predetermined semicircle is used for the coordinate plane. The constellation graph is a graph that can display each representative point obtained by each variable of the multivariate data so that it is scattered like a star in the sky.
[0045]
FIG. 5 is a flowchart showing details of the drawing process in step S303. The CPU 20 of the data analysis apparatus 1 obtains the maximum value and the minimum value for each variable from all the multivariate data read into the memory 21 or the hard disk 23 (step S501). For example, in the multivariate data in FIG. 4, the maximum value x for each of “card length” 41, “card width” 42, “petal length” 43, and “petal width” 44.(2) jAnd the minimum value x(1) jIs determined. Note that j represents the number of the variable. For example, j = 1 in the variable representing the “length of postcard” 41.
[0046]
Next, the CPU 20 of the data analyzer 1 reads the multivariate data into the memory 21 one record at a time (step S502), and calculates the maximum value x obtained above.(2) jAnd the minimum value x(1) jAnd the j-th variable x of the i-th recordijThe angle θ corresponding toijIs obtained (step S503). The angle θijIs the variable x as shown in Equation 1.ijIt is determined to be one value by the value of.
[0047]
[Expression 1]
Figure 0003636682
Next, the variable x of one record readijThe vector corresponding to (cosθij, Sinθij) And weight w for this vectorjIs added. However, in the initial display, the weight wjIs fixed to “1”.
[0048]
For example, the variables of “the length of the graffiti” 41, “the width of the graffiti” 42, “the length of the petals” 43, and “the width of the petals” 44 are respectively expressed as x11, X12, X13, X14Then the corresponding angles are θ11, Θ12, Θ13, Θ14Is determined.
[0049]
Therefore, as shown in FIG.11And the angle formed by the x axis is θ11And weight wjVector x with (= 1) as vector length11Determine the end point of. Furthermore, the vector x12And the angle between x axis and θ12And the vector x11Vector x starting at the end of12Determine the end point of.
[0050]
Similarly, the vector x13, X14Determine the end point of the vector x14Plot the end point of. That is, the vector x11, X12, X13, X14The final reaching point obtained by concatenating is “★ 01”.
[0051]
In addition, the concatenated vector of each variable in one record can be determined as Equation 2.
[0052]
[Expression 2]
Figure 0003636682
Therefore, the vector x determined by Equation 2iAre plotted on a constellation graph starting from the origin of a semicircle having a radius of 1 (step S504).
[0053]
In addition, as shown in FIG. 6, you may display the locus | trajectory of each vector on a constellation graph. In this case, the vector of each variable constituting the corresponding record can be expressed more clearly. That is, it becomes clearer what influence each variable has when plotting the representative point “★ 01”.
[0054]
Furthermore, the CPU 20 of the data analysis apparatus 1 checks whether or not the read multivariate data is the last record (step S505), and the same process is performed until the final arrival points of the connected vectors of all the records are plotted. Process.
[0055]
B of FIG. 6 is an example when multivariate data with data IDs “01” to “10” are plotted. This figure shows the weight wjIndicates the group state of multivariate data when “1” is “1”. As shown on the right end (1-2 o'clock direction) of B in FIG. 6, the representative points “★ 01”, “★ 03”, and “★ 09” of the data ID are considered to be the same group.
[0056]
However, it is unclear to which group the representative points “★ 02” and “★ 10” belong. Therefore, the display position of each data on the constellation graph is corrected by weighting means to adjust what group each data constitutes. That is, in the initial display stage, a uniform weight (“1”) is given to all the variables, and the user operates the weights so that the concatenated vector determined by each variable data of the multivariate data. Adjust the representative point that is the final destination.
[0057]
When all the multivariate data records are plotted on the display, the CPU 20 of the data analysis apparatus 1 displays the weight operation screen 71 shown in FIG. The weight operation screen 71 includes a slider 72 that can change the weight for each variable. When the user operates the slider 72 up and down while dragging with the mouse, the weight w applied to the corresponding variablejCan be adjusted.
[0058]
When the weight is changed by the user (step S304, YES), the CPU 20 of the data analysis apparatus 1 uses the weight w of the corresponding variable.jIs changed (step S305), and the drawing process is performed again (step S303). Therefore, the user can visually know how much the weight of the variable subjected to the weighting operation has an effect by confirming the result of the drawing process.
[0059]
For example, the weight w of “the length of the letter” 411Is changed, at the representative point “★ 01” shown in FIG.11Length of w1Vector x11The end point of moves. Therefore, the vector x12Therefore, the plot position of the representative point “★ 01”, which is the final arrival point, moves.
[0060]
In this way, by repeating the weighting operation and the result confirmation of the drawing process, a plurality of multivariate data can be grouped by a visual method while performing a user's arbitrary weighting operation.
[0061]
FIG. 8 shows an example in which weights are manipulated successfully and grouped. On the weight operation screen 82, the user sets the weights of “petal length” and “petal width” higher than those of “card length” and “card width”. Thereby, as shown in the graph display screen 81, three groups of multivariate data are formed. That is, a group of a plurality of plot points (★ portions) surrounded by a dotted line indicates each group.
[0062]
Thus, the user can classify the iris varieties into three groups, and it can be inferred that the variable that has the most influence on the grouping is the “petal width”.
[0063]
2. Second embodiment
In the first embodiment, an example has been described in which a plurality of multivariate data is visually grouped by a user performing a weighting operation. However, in the present embodiment, a method of displaying a constellation graph by inputting multivariate data that has been grouped according to the first embodiment, known information, or the like will be described.
[0064]
For example, when displaying on the constellation graph, the weight of each variable data applied to the input multivariate data is optimized so that the group constituted by each data becomes clearer. Thereby, it is possible to know the degree of influence on the grouping state for each variable.
[0065]
2-1. Functional block diagram, hardware configuration
The functional block diagram and hardware configuration in the second embodiment are the same as those in the first embodiment.
[0066]
2-2. flowchart
FIG. 9 is a flowchart of a data analysis program according to the data analysis apparatus 1.
[0067]
When the user starts the program of the data analysis apparatus 1, a data input screen is displayed on the display 22 (step S901), and the user inputs observation data of the iris of the plant to be analyzed.
FIG. 10 shows an example of the data input screen 100. Here, “data ID” 101, “group ID” 102, “card length” 103, “card width” 104, “petal length” 105, and “petal width” 106 are displayed as input items. Has been. The group ID indicates to which type of iris each observation data belongs.
[0068]
When the group ID is unknown, grouping is possible by selecting a representative point displayed on the constellation graph without inputting it on the data input screen 100.
[0069]
When the user who has finished inputting observation data presses the “plot” button 107, the CPU 20 of the data analysis apparatus 1 reads the observation data, which is multivariate data, into the memory 21 or the hard disk 23 (step S902).
[0070]
The CPU 20 of the data analysis apparatus 1 that has read the multivariate data draws a coordinate plane based on the value of each variable data constituting the multivariate data and its weight (step S903).
[0071]
The details of the drawing process in step S903 are the same as those in the flowchart of FIG. 5 described in the first embodiment.
[0072]
FIG. 11A shows a constellation graph that is displayed in the plotting process of step 903. Further, a constellation graph obtained as a result of operating the weight slider on the weight operation screen from this state is shown in FIG. 11B (repetition of steps S903 to 905).
[0073]
The user can visually group each representative point on the constellation graph in B of FIG. 11 using grouping means. For example, by inputting a group ID in the group ID input field 114 and dragging the mouse, representative points for the same group are selected. In B of FIG. 11, representative points (marked by ★) surrounded by a circle 111, a circle 112, and a circle 113 are grouped. The input group ID is reflected as grouping information in the group ID column of the data input screen 100 shown in FIG. 10 (step S906).
[0074]
When the representative point (★ mark) shown in B of FIG. 11 is selected by dragging with the mouse, the color of the selected representative point (★ mark) is changed to distinguish it from other representative points (★ mark). You may make it possible. For example, in FIG. 11B, the representative points of the circle 111 are filled in, the representative points of the circle 112 are outlined, and the representative points of the circle 113 are hatched.
[0075]
When the grouping of representative points is completed, the user presses an optimization button 115 shown in FIG. If the observation data group ID is input in advance, the drawing button 107 on the data input screen shown in FIG. 10 may be pressed.
[0076]
In response to the instruction, the CPU 20 of the data analysis apparatus 1 performs weight optimization processing (step S907). FIG. 12 is a detailed flowchart of the weight optimization process.
[0077]
In this process, the CPU 20 of the data analyzer 1 obtains a reference point called an average point for each group (step S1201). In addition, the method of calculating | requiring this average score is shown below.
[0078]
[Equation 3]
Figure 0003636682
In the case
[Expression 4]
Figure 0003636682
And
[Equation 5]
Figure 0003636682
It is.
[0079]
At this time, the number of groups is n, and the end point of the connected vector of the i-th representative point of the j-th group is
[Formula 6]
Figure 0003636682
It is determined.
[0080]
in this case,
[Expression 7]
Figure 0003636682
It is obtained.
[0081]
Next, the CPU 20 of the data analysis device 1 obtains an average score of all the representative points (step S1202). In addition, how to obtain this average score is shown below.
[0082]
[Equation 8]
Figure 0003636682
It is obtained.
[0083]
Next, the CPU 20 of the data analysis device 1 obtains the sum of the distances between the representative points in the group and the average points of the group (step S1203). This sum of distances VarjThe method for obtaining (j = 1, 2,... N) is shown below.
[0084]
From Equation 7,
[Equation 9]
Figure 0003636682
When
[Expression 10]
Figure 0003636682
It is.
[0085]
Next, the CPU 20 of the data analysis apparatus 1 calculates the sum of the distances between the entire representative points and the overall average points (step S1204). A method for obtaining the sum of distances Var is shown below.
[0086]
From Equation 8,
## EQU11 ##
Figure 0003636682
When
[Expression 12]
Figure 0003636682
It is.
[0087]
Here, in order to reduce the dispersion of the representative points in the group and increase the dispersion between the groups, the Var is used.jMay be reduced and the Var may be increased. Here, the judgment value J is determined as follows.
[0088]
[Formula 13]
Figure 0003636682
Further, J is obtained for all combinations of weight values (step S1205).
[0089]
That is, in order to obtain a combination of weight values that minimizes the judgment value J, the combination of weight values for each variable is changed until all weight value combinations are processed (NO in step S1207) (step S1207). In step S1206, steps S1201 to S1205, which are processes for obtaining the determination value J, are repeated.
[0090]
When the CPU 20 of the data analysis apparatus 1 executes the above processing for all weight value combinations (YES in step S1207), the CPU 20 of the data analysis apparatus 1 adopts the weight value combination when the determination value J is minimized and performs the drawing process. (Step S1208). This drawing process is performed by the same process as the flowchart shown in FIG.
[0091]
FIG. 13 shows an example of the graph display screen 131 and the weight operation screen 132 when the above-described “weight optimization processing” is performed.
[0092]
In the graph display screen 131, the display position of the representative points constituting the group is moved to a position where the group becomes clearer than the graph display screen shown in FIG. 11B. In the group, the distance between the representative points is reduced to a position where the distance is reduced.
[0093]
The weight value displayed on the weight operation screen 132 at this time is a combination of weight values employed in the “weight optimization process”. For example, the variable that greatly contributes to the current grouping can be interpreted as “the length of the petals” whose value is “4.5”.
[0094]
In this way, by performing the “weight optimization process”, it is possible to check which variable is a factor constituting the group.
[0095]
3. Other
In the above embodiment, for the convenience of explanation, data analysis is performed using several tens of data. However, in actual data analysis, it is desirable to perform data analysis with the number of data corresponding to the observation target.
[0096]
In the above embodiment, it is assumed that grouping is performed for all of the given multivariate data. However, the representative points of the newly given multivariate data may be displayed so as to overlap the already grouped drawing state by using the weight of the grouping completed state. Thereby, it is possible to easily visually determine to which group the newly given multivariate data belongs. Such a grouping determination method can be applied in various fields such as disease diagnosis and machine failure diagnosis.
[0097]
In the second embodiment, “weight optimization processing” is performed on the precondition that multivariate data is grouped. However, when it is necessary to analyze a large amount of multivariate data, it is difficult to group all the data.
[0098]
Therefore, a small amount of multivariate data is extracted as a sample from a large amount of multivariate data. Furthermore, only these data are grouped according to the second embodiment, and “weight optimization processing” is performed. Thereby, a combination of weight values for most clearly grouping the samples is obtained.
[0099]
Next, the constellation graph is displayed by applying the combination of the weight values obtained above to a large amount of multivariate data.
[0100]
In this case, if the sample is properly grouped, the representative points plotted in the constellation graph form a clear group even when a large amount of multivariate data is input. Will be displayed. If a clear group is not displayed, the same process may be repeated from the sample extraction until it becomes clear.
[0101]
Thus, the present invention can also be applied to data analysis of multivariate data whose group information is unknown.
[0102]
In the above embodiment, the value of each variable data is associated with the vector angle, the weight of the variable is associated with the vector length, and the vector for each variable data is connected to thereby obtain the plot position of the representative point. However, conversely, the variable weight may be associated with the vector angle, and the value of each variable data may be associated with the vector length.
[0103]
Each variable data and the weight of the variable may be associated with other drawing elements. For example, each variable data may be expressed as an X coordinate, and the weight of the variable is expressed as an XY plane coordinate corresponding to the Y coordinate. Further, it may be expressed as a circular shape, a square shape, a coordinate plane of other shapes, a three-dimensional coordinate space, or the like.
[Brief description of the drawings]
FIG. 1 is a functional block diagram of a data analysis apparatus according to an embodiment of the present invention.
FIG. 2 is an example showing a hardware configuration diagram of a data analysis apparatus according to an embodiment of the present invention.
FIG. 3 is a diagram showing a flowchart in a “data analysis program” of the first embodiment.
FIG. 4 is a diagram showing a display of the data analysis device on the “data input screen” of the first embodiment.
FIG. 5 is a diagram illustrating a flowchart in “plotting processing”;
FIG. 6 is a diagram showing a display of the data analysis apparatus in the “graph display screen” of the first embodiment.
FIG. 7 is a diagram showing a display of the data analysis device in a “weight operation screen”.
FIG. 8 is a diagram showing a display of the data analysis device in the “graph display screen” and the “weight operation screen” of the first embodiment.
FIG. 9 is a diagram showing a flowchart in a “data analysis program” of the second embodiment.
FIG. 10 is a diagram showing a display of the data analysis device on the “data input screen” of the second embodiment.
FIG. 11 is a diagram showing a display of the data analysis apparatus in the “graph display screen” of the second embodiment.
FIG. 12 is a flowchart of “weight optimization processing”.
FIG. 13 is a diagram showing a display of the data analysis device in the “graph display screen” and the “weight operation screen” of the second embodiment.
FIG. 14 is a diagram showing an example of a radar chart according to the prior art.
[Explanation of symbols]
1 ... Data input device
2 ... Input means
3 ... Drawing means
4 ... Weight operation means
5 ... Output means
6 ... Grouping means

Claims (13)

複数の多変量データに基づいてデータを分析するデータ分析装置であって、
与えられた多変量データを構成する各変量データの値およびその重みに基づいて、当該多変量データを座標平面または座標空間に作図する作図手段と、
前記各変量データの重みを操作する重み操作手段と、
を備えており、
前記重み操作手段によって重みを操作することにより、座標平面または座標空間上の各変量データの作図状態を変更して、複数の多変量データを視覚的にグループ化して把握することを容易にするデータ分析装置。
A data analysis device for analyzing data based on a plurality of multivariate data,
A plotting means for plotting the multivariate data on a coordinate plane or a coordinate space based on the value of each variable data constituting the given multivariate data and its weight;
Weight operating means for operating the weight of each of the variable data;
With
Data that makes it easy to visually grasp a plurality of multivariate data by changing the drawing state of each variable data on the coordinate plane or coordinate space by manipulating the weight by the weight manipulation means Analysis equipment.
複数の多変量データに基づいてデータを分析するデータ分析装置をコンピュータを用いて実現するためのプログラムであって、
与えられた多変量データを構成する各変量データの値およびその重みに基づいて、当該多変量データを座標平面または座標空間に作図する作図手段と、
前記各変量データの重みを操作する重み操作手段と、
を備えており、
前記重み操作手段によって重みを操作することにより、座標平面または座標空間上の各変量データの作図状態を変更して、複数の多変量データを視覚的にグループ化して把握することを容易にするデータ分析装置をコンピュータを用いて実現するためのプログラム。
A program for realizing, using a computer, a data analysis device that analyzes data based on a plurality of multivariate data,
A plotting means for plotting the multivariate data on a coordinate plane or a coordinate space based on the value of each variable data constituting the given multivariate data and its weight;
Weight operating means for operating the weight of each of the variable data;
With
Data that makes it easy to visually grasp a plurality of multivariate data by changing the drawing state of each variable data on the coordinate plane or coordinate space by manipulating the weight by the weight manipulation means A program for realizing an analyzer using a computer.
複数の多変量データに基づいてデータを分析するデータ分析装置をコンピュータを用いて実現するためのプログラムを記録した記録媒体であって、
与えられた多変量データを構成する各変量データの値およびその重みに基づいて、当該多変量データを座標平面または座標空間に作図する作図手段と、
前記各変量データの重みを操作する重み操作手段と、
を備えており、
前記重み操作手段によって重みを操作することにより、座標平面または座標空間上の各変量データの作図状態を変更して、複数の多変量データを視覚的にグループ化して把握することを容易にするデータ分析装置をコンピュータを用いて実現するためのプログラムを記録した記録媒体。
A recording medium recording a program for realizing a data analysis device that analyzes data based on a plurality of multivariate data using a computer,
A plotting means for plotting the multivariate data on a coordinate plane or a coordinate space based on the value of each variable data constituting the given multivariate data and its weight;
Weight operating means for operating the weight of each of the variable data;
With
Data that makes it easy to visually grasp a plurality of multivariate data by changing the drawing state of each variable data on the coordinate plane or coordinate space by manipulating the weight by the weight manipulation means A recording medium on which a program for realizing the analysis apparatus using a computer is recorded.
請求項1〜3のいずれかのデータ分析装置、データ分析装置をコンピュータを用いて実現するためのプログラムまたはデータ分析装置をコンピュータを用いて実現するためのプログラムを記録した記録媒体において、
前記作図手段は、すでに作図されている多変量データにおける重みを用いて、新たに与えられた多変量データを座標平面または座標空間に作図すること
を特徴とするもの。
A data analysis apparatus according to any one of claims 1 to 3, a program for realizing the data analysis apparatus using a computer or a recording medium recording a program for realizing the data analysis apparatus using a computer,
The plotting means plots newly given multivariate data on a coordinate plane or a coordinate space using weights in already plotted multivariate data.
請求項1〜4のいずれかのデータ分析装置、データ分析装置をコンピュータを用いて実現するためのプログラムまたはデータ分析装置をコンピュータを用いて実現するためのプログラムを記録した記録媒体において、
前記作図手段は、多変量データを座標平面または座標空間に作図する際の作図要素として、各変量データの値をベクトル角度に対応付け、さらに、その重みをベクトル長に対応付けて、各変量データにかかるベクトルの連結によって得られる最終到達点を代表点として作図すること
を特徴とするもの。
A data analysis apparatus according to any one of claims 1 to 4, a program for realizing the data analysis apparatus using a computer or a recording medium recording a program for realizing the data analysis apparatus using a computer,
The plotting means associates each variable data value with a vector angle as a plotting element when plotting multivariate data on a coordinate plane or a coordinate space, and further associates each weight data with a vector length. The final arrival point obtained by concatenating the vectors is drawn as a representative point.
請求項1〜5のいずれかのデータ分析装置、データ分析装置をコンピュータを用いて実現するためのプログラムまたはデータ分析装置をコンピュータを用いて実現するためのプログラムを記録した記録媒体において、
前記作図手段は、与えられた多変量データを作図する座標平面として、当該多変量データの代表点を所定の半円内に作図する星座グラフを用いること
を特徴とするもの。
A data analysis apparatus according to any one of claims 1 to 5, a program for realizing the data analysis apparatus using a computer or a recording medium recording a program for realizing the data analysis apparatus using a computer,
The plotting means uses a constellation graph that plots representative points of the multivariate data in a predetermined semicircle as a coordinate plane for plotting the given multivariate data.
請求項1〜6のいずれかのデータ分析装置、データ分析装置をコンピュータを用いて実現するためのプログラムまたはデータ分析装置をコンピュータを用いて実現するためのプログラムを記録した記録媒体において、
前記重み操作手段は、与えられた多変量データがどのグループに属するのかを示すグループ情報を取得して、各グループにおける多変量データの代表点の平均点と各代表点との距離、および全多変量データの代表点同士の距離に基づいて、各代表点により構成される各グループが明瞭に分かれて表示されるように、各変量データの重みを決定すること
を特徴とするもの。
A data analysis apparatus according to any one of claims 1 to 6, a program for realizing the data analysis apparatus using a computer or a recording medium recording a program for realizing the data analysis apparatus using a computer,
The weight operation means acquires group information indicating to which group the given multivariate data belongs, the distance between the average point of each representative point of the multivariate data in each group and each representative point, and the total number The weight of each variable data is determined based on the distance between the representative points of the variable data so that each group constituted by each representative point is clearly divided and displayed.
請求項1〜6のいずれかのデータ分析装置、データ分析装置をコンピュータを用いて実現するためのプログラムまたはデータ分析装置をコンピュータを用いて実現するためのプログラムを記録した記録媒体において、
前記重み操作手段は、多変量データの作図状態を受けたユーザによって与えられる情報に基づいて、各変量データの重みを決定すること
を特徴とするもの。
A data analysis apparatus according to any one of claims 1 to 6, a program for realizing the data analysis apparatus using a computer or a recording medium recording a program for realizing the data analysis apparatus using a computer,
The weight operation means determines the weight of each variable data based on information given by a user who has received a drawing state of multivariate data.
請求項1〜8のいずれかのデータ分析装置、データ分析装置をコンピュータを用いて実現するためのプログラムまたはデータ分析装置をコンピュータを用いて実現するためのプログラムを記録した記録媒体において、
前記作図手段によって作図された各多変量データの作図状態に基づいて、複数の多変量データを選択することにより、選択された多変量データをグループ化して出力するグループ化手段を備えていること
を特徴とするもの。
A data analysis apparatus according to any one of claims 1 to 8, a program for realizing the data analysis apparatus using a computer or a recording medium recording a program for realizing the data analysis apparatus using a computer,
Grouping means for grouping and outputting the selected multivariate data by selecting a plurality of multivariate data based on a plotting state of each multivariate data plotted by the plotting means. Features
請求項9のデータ分析装置、データ分析装置をコンピュータを用いて実現するためのプログラムまたはデータ分析装置をコンピュータを用いて実現するためのプログラムを記録した記録媒体において、
前記グループ化手段は、前記作図手段によって作図された各多変量データの作図状態を視覚的に確認したユーザが、当該作図状態に基づいて選択した複数の多変量データをグループ化するものであること
を特徴とするもの。
A data analysis apparatus according to claim 9, a program for realizing the data analysis apparatus using a computer or a recording medium recording a program for realizing the data analysis apparatus using a computer,
The grouping means groups a plurality of multivariate data selected based on the drawing state by a user who visually confirms the drawing state of each multivariate data drawn by the drawing means. It is characterized by.
請求項10のデータ分析装置、データ分析装置をコンピュータを用いて実現するためのプログラムまたはデータ分析装置をコンピュータを用いて実現するためのプログラムを記録した記録媒体において、
前記グループ化手段は、複数の多変量データが選択される際に、選択された多変量データと他の多変量データとを色分けして表示すること
を特徴とするもの。
A data analysis apparatus according to claim 10, a program for realizing the data analysis apparatus using a computer, or a recording medium recording a program for realizing the data analysis apparatus using a computer,
The grouping means displays the selected multivariate data and other multivariate data in different colors when a plurality of multivariate data is selected.
複数の多変量データに基づいてデータを分析するデータ分析方法であって、
与えられた多変量データを構成する各変量データの値およびその重みに基づいて、当該多変量データを座標平面または座標空間に作図する作図手段と、
前記各変量データの重みを操作する重み操作手段と、
を備えており、
前記重み操作手段によって重みを操作することにより、座標平面または座標空間上の各変量データの作図状態を変更して、複数の多変量データを視覚的にグループ化して把握することを容易にするデータ分析方法。
A data analysis method for analyzing data based on a plurality of multivariate data,
A plotting means for plotting the multivariate data on a coordinate plane or a coordinate space based on the value of each variable data constituting the given multivariate data and its weight;
Weight operating means for operating the weight of each of the variable data;
With
Data that makes it easy to visually grasp a plurality of multivariate data by changing the drawing state of each variable data on the coordinate plane or coordinate space by manipulating the weight by the weight manipulation means Analysis method.
請求項12のデータ分析方法において、
前記作図手段は、すでに視覚的にグループ化して把握することが容易な状態で作図されている多変量データにおける重みを用いて、新たに与えられた多変量データの作図を行い、当該新たに与えられた多変量データにかかるグループ属性の判断を容易にすること
を特徴とするもの。
The data analysis method of claim 12,
The plotting means plots the newly given multivariate data using the weight in the multivariate data that has already been plotted in a state that can be easily visually grouped and grasped. Which makes it easy to determine the group attributes of the given multivariate data.
JP2001265457A 2001-09-03 2001-09-03 Data analysis apparatus and method Expired - Fee Related JP3636682B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001265457A JP3636682B2 (en) 2001-09-03 2001-09-03 Data analysis apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001265457A JP3636682B2 (en) 2001-09-03 2001-09-03 Data analysis apparatus and method

Publications (2)

Publication Number Publication Date
JP2003075202A JP2003075202A (en) 2003-03-12
JP3636682B2 true JP3636682B2 (en) 2005-04-06

Family

ID=19091916

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001265457A Expired - Fee Related JP3636682B2 (en) 2001-09-03 2001-09-03 Data analysis apparatus and method

Country Status (1)

Country Link
JP (1) JP3636682B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4738309B2 (en) * 2006-10-11 2011-08-03 株式会社東芝 Plant operation data monitoring device
JP5171087B2 (en) * 2007-03-29 2013-03-27 株式会社中電シーティーアイ Input information analyzer

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2732711B2 (en) * 1990-12-20 1998-03-30 株式会社日立製作所 Multidimensional information display method and apparatus
JP3478967B2 (en) * 1998-03-04 2003-12-15 日本電信電話株式会社 Two-phase data cluster method and apparatus and recording medium recording two-phase data cluster program
JP3472729B2 (en) * 1999-09-06 2003-12-02 株式会社東芝 Multivariate data monitoring device

Also Published As

Publication number Publication date
JP2003075202A (en) 2003-03-12

Similar Documents

Publication Publication Date Title
US10872446B2 (en) Systems and methods for high dimensional 3D data visualization
JP4821000B2 (en) Object display processing device, object display processing method, and object display processing program
US10878619B2 (en) Using perspective to visualize data
US20020164078A1 (en) Information retrieving system and method
JP6334767B1 (en) Information processing apparatus, program, and information processing method
US20180268580A1 (en) Display method, display control device, and recording medium
CN110222641A (en) The method and apparatus of image for identification
JP2005352771A (en) Pattern recognition system by expression profile
JP3636682B2 (en) Data analysis apparatus and method
US20200294292A1 (en) Data processing apparatus, display control system, data processing method, and computer program product
EP3211569A1 (en) Estimation results display system, estimation results display method, and estimation results display program
CN102640099B (en) Object processing device and object selection method
JP2000075977A (en) Information processor equipped with function for displaying visualized data, display method for visualized data, and recording medium where program for its display method is recorded
JP2017016545A (en) Graph display system, graph display method, and graph display program
JP2023070496A (en) data processing system
JP6968241B1 (en) Information processing equipment, information processing methods and programs
CN116009737A (en) Cell image processing system and cell image processing method
JPWO2017098618A1 (en) Display method, display program, and display control apparatus
JP7118194B1 (en) Graph generation device, graph generation method, and computer program
WO2019092778A1 (en) Display program, display method, and display device
WO2012046436A1 (en) Document analysis device, document analysis method, and document analysis program
JP7132459B1 (en) Information processing device, information processing method and program
JP4422317B2 (en) LSI layout data display device
WO2022254583A1 (en) Information processing device, information processing method, and program
US20230289046A1 (en) Information processing device, information processing method, and non-transitory computer readable medium

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050105

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080114

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110114

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110114

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110114

Year of fee payment: 6

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110114

Year of fee payment: 6

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120114

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120114

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130114

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130114

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140114

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees