JP3708724B2 - カテゴライズ利用特徴抽出装置 - Google Patents

カテゴライズ利用特徴抽出装置 Download PDF

Info

Publication number
JP3708724B2
JP3708724B2 JP27107298A JP27107298A JP3708724B2 JP 3708724 B2 JP3708724 B2 JP 3708724B2 JP 27107298 A JP27107298 A JP 27107298A JP 27107298 A JP27107298 A JP 27107298A JP 3708724 B2 JP3708724 B2 JP 3708724B2
Authority
JP
Japan
Prior art keywords
category
data
attribute
partial data
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP27107298A
Other languages
English (en)
Other versions
JP2000099746A (ja
Inventor
寿子 塩原
裕一 飯塚
成二 磯部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP27107298A priority Critical patent/JP3708724B2/ja
Publication of JP2000099746A publication Critical patent/JP2000099746A/ja
Application granted granted Critical
Publication of JP3708724B2 publication Critical patent/JP3708724B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、ユーザの分析の目的属性の指定に応じてデータをカテゴライズし、各カテゴリのデータが基礎統計量や相関係数等の特徴量に関して全体と異なる傾向を示すことを検出し、部分データの示す特徴として抽出するカテゴライズ利用特徴抽出方法および装置とカテゴライズ利用特徴抽出プログラムを記録した記録媒体に関し、更に詳しくは、データベースまたはファイルに蓄積された情報を、視覚化定義を自動生成することにより自動視覚化を実現するような場合に、ユーザが興味対象の属性に関する指定を行った時にその属性に対して何らかの特性を持つ属性群を自動抽出することにより視覚化対象とすべき属性を自動選択し、視覚化定義を自動生成する場合に利用して有効なカテゴライズ利用特徴抽出方法および装置とカテゴライズ利用特徴抽出プログラムを記録した記録媒体に関する。
【0002】
【従来の技術】
従来、自動的に抽出できる特徴はデータ全体に対して高い相関係数を有する等のように全体に現れるもののみであり、部分的に現れる特徴を自動的に抽出して視覚化するものはない。
【0003】
【発明が解決しようとする課題】
上述したように、従来の自動視覚化のための特徴抽出方法では、データ全体に現れる特徴を抽出することはできるが、部分的に現れる特徴、例えば地位の高い力士にのみ当てはまるような特徴を抽出することができないという問題がある。
本発明は、上記に鑑みてなされたもので、その目的とするところは、ユーザの分析の目的属性の指定に応じてデータをカテゴライズし、各カテゴリのデータが示す全体と異なる特徴を抽出するカテゴライズ利用特徴抽出装置を提供することにある。
【0017】
【課題を解決するための手段】
上記目的を達成するため、請求項1記載の本発明は、複数の属性を有するデータに対してユーザが指定した属性および方法によってデータを「値による等分割」「数による等分割」「多次元メッシュ」または「多次元クラスタリング」を含む手法を用いて、複数のデータ群であるカテゴリに分割するカテゴライズを行うカテゴライズ機能部と、前記カテゴライズの結果のそれぞれのカテゴリに対してカテゴライズに利用された属性であるカテゴリ対象属性以外の任意の属性の値の分布がデータ全体の分布と比較して乖離している度合を部分データの平均値と全体の平均値との差分から部分データの正規化された値を求める手順と、この部分データの正規化された値と該部分データのばらつきとを比較し、当該ばらつきが有意性を評価する手順と、部分データの数が少数であるときの統計的補正を行う手順を含み、他の部分データまたは他の属性と相対的に比較可能な数値を算出する評価関数
【数3】
A (nP ,mP ,sP ,mA
={1−1/(nP1/2 }(mP −mA )/sP
(但し、 P は部分データの数、m P は部分データの平均値、m A 全体の平均値、sP は部分データの標準偏差)
によって判定する評価関数計算機能部と、乖離の度合が顕著である属性と対応するカテゴリをそのデータの部分的な特徴として抽出する属性抽出機能部とを有することを要旨とする。
【0018】
請求項1記載の本発明にあっては、複数の属性を有するデータに対し、ユーザ指定の属性および方法によってデータを複数のデータ群であるカテゴリに分割するカテゴライズを行い、カテゴライズの結果のそれぞれのカテゴリに対してカテゴライズに利用された属性であるカテゴリ対象属性以外の属性における特徴を検出する。つまり、分割生成されたカテゴリにおいてカテゴリ対象属性以外の任意の属性の値の分布がデータ全体の分布と比較して、乖離している度合を評価関数によって判定し、乖離の度合が顕著である属性と対応するカテゴリをそのデータの部分的な特徴として抽出するため、該部分的な特徴を利用して、例えばビジュアルマイニング支援のための自動視覚化において大きさ、形、色、座標軸等の視覚化属性にマッピングする属性を決定することができる。
【0020】
請求項2記載の本発明は、複数の属性を有するデータに対し、ユーザが指定した属性および方法によってデータを「値による等分割」「数による等分割」「多次元メッシュ」または「多次元クラスタリング」を含む手法を用いて、複数のデータ群であるカテゴリに分割するカテゴライズを行うカテゴライズ機能部と、前記カテゴライズの結果のそれぞれのカテゴリに対してカテゴライズに利用された属性であるカテゴリ対象属性を除いた任意の2つの属性の相関係数の全体の相関係数との乖離の度合を部分データ自身の相関係数の大きさと全体データの相関係数の大きさとの乖離をこれらの差分により求める手順と、この差分と部分データ自身の相関係数の大きさとの積を求め、該差分と部分データ自身の相関係数の大きさの影響を求める手順と、部分データの数が少数であるときの統計的補正を行う手順とを有して、他属性と比較可能な数値を算出する評価関数
【数4】
B (rA ,rP ,nP ,)
={1−1/(nP1/2 }rP (rP −rA
(但し、 P は部分データの数、r A は全体の相関係数、r P 部分データの相関係数)
によって判定する評価関数計算機能部と、乖離の度合が顕著である属性対と対応するカテゴリをそのデータの部分的な特徴として抽出する属性抽出機能部とを有することを要旨とする。
【0021】
請求項2記載の本発明にあっては、分割生成されたカテゴリに対して、カテゴリ対象属性を除いた任意の2つの属性の相関係数の全体の相関係数との乖離の度合を評価関数によって判定し、乖離の度合が顕著である属性対と対応するカテゴリをそのデータの部分的な特徴として抽出するため、該部分的な特徴を利用して、例えばビジュアルマイニング支援のための自動視覚化において大きさ、形、色、座標軸等の視覚化属性にマッピングする属性を決定することができる。
【0023】
また、請求項3記載の本発明は、前記抽出された特徴および前記評価関数の結果を用いて、特に顕著な特徴を出力する出力手段を有することを要旨とする。
【0024】
請求項3記載の本発明にあっては、抽出された特徴および評価関数の結果を用いて、特に顕著な特徴を出力する。
【0025】
請求項4記載の本発明は、前記カテゴリ対象属性が単一である場合、前記特徴が最も顕著に現れるようなカテゴリの範囲であるカテゴリ区間を前記評価関数により求めるカテゴリ区間最適化手段を有することを要旨とする。
【0026】
請求項4記載の本発明にあっては、カテゴリ対象属性が単一である場合、特徴が最も顕著に現れるようなカテゴリの範囲であるカテゴリ区間を評価関数により求める。
【0027】
請求項5記載の本発明は、前記カテゴリ対象属性が複数である場合、前記特徴が最も顕著に現れるようなカテゴリの範囲であるカテゴリ区間を前記評価関数により求めるカテゴリ区間最適化手段を有することを要旨とする。
【0028】
請求項5記載の本発明にあっては、カテゴリ対象属性が複数である場合、特徴が最も顕著に現れるようなカテゴリの範囲であるカテゴリ区間を評価関数により求める。
【0029】
請求項6記載の本発明は、前記カテゴリ手段および特徴抽出についてプログラミングすることなく、マウスを含む簡易なツールを用いて条件を入力できるグラフィカルユーザインタフェース(GUI)画面を表示する表示手段を有することを要旨とする。
【0030】
請求項6記載の本発明にあっては、カテゴリ処理および特徴抽出についてプログラミングすることなく、マウスを含む簡易なツールを用いて条件を入力できるグラフィカルユーザインタフェース(GUI)画面を表示する。
【0044】
【発明の実施の形態】
以下、図面を用いて本発明の実施の形態について説明する。図1は、本発明の一実施形態に係わるカテゴライズ利用特徴抽出方法を実施するカテゴライズ利用特徴抽出装置の構成を示すブロック図である。同図に示すカテゴライズ利用特徴抽出装置は、例えばマウスやキーボード等からなる外部入力装置1からの入力をユーザインタフェース機能部3で受け取り、これに従って入力データ7および入力スキーマ9等の入力ファイルを読み込み、カテゴライズ機能部5を起動する。カテゴライズ機能部5は、数値演算機能部11と連携を取りつつ、データのカテゴライズを行う。このカテゴライズの結果を受けて、評価関数計算機能部13が起動され、評価関数計算機能部13は、適宜数値演算機能部11を呼び出しながら、評価結果のリストを作成する。なお、数値演算機能部11は、平均、分散、相関関数、多次元クラスタリング、動的メッシュ、因子分析などの演算を行う部分である。
【0045】
次に、評価関数計算機能部13からの評価結果リストを用いて、属性抽出機能部15が起動され、視覚化属性リストを作成する。この視覚化属性リストを基に生成された視覚化定義17を視覚化装置19に入力することにより自動視覚化が行われる。更に、ユーザによって区間最適化が指定されている場合は、区間自動決定機能部21が呼び出される。この区間自動決定機能部21も適宜数値演算機能部11を使用して区間最適化処理を行う。
【0046】
図2は、図1に示したユーザインタフェース機能部3によるGUIの一例を示す図である。同図に示すように、ユーザは、カテゴライズ手法としてカテゴリ内包数指定またはカテゴリ数指定を選択する。但し、カテゴリ内包数指定手法は、カテゴリ対象属性が1つの場合、またはカテゴリ対象が複数で評価式が入力されている場合のみ有効である。選択した手法について、内包数またはカテゴリ数をカウンタウィンドウから指定する。また、分析対象データの属性リストからカテゴライズの対象の属性を指定する。指定されなかった場合は、カテゴリ属性不定の場合のカテゴリ手法が起動される。
【0047】
複数の属性を指定した場合は、複数の属性の場合のカテゴリ手法が起動されるが、評価式が入力される場合は、この評価式を属性群に適用した結果を用いて、単一属性の場合のカテゴリ手法が起動される。特徴抽出手法として、基礎統計量利用手法(式(1)を使用する抽出方式)かまたは相関係数利用手法(式(2)を使用する抽出方式)のどちらか、または両方をチェックボックスにより指定できる。また、詳細設定画面からシステムが利用できる分割手法が指定できる。また、視覚化時にカテゴリ対象属性の主成分を利用したい場合は、詳細設定画面で「主成分計算実行」をチェックする。カテゴリ範囲の最適化を行いたい場合も、同様に「カテゴリ範囲の最適化」をチェックする。
【0048】
次に、図3に示すフローチャートを参照して、図1に示した実施形態の全体の処理について説明する。
【0049】
図3においては、ユーザの指定に従ってカテゴライズ処理が起動される(ステップS11)。このカテゴライズ処理の結果に対して、基礎統計利用の次式(1)に示す評価関数fA を用いた特徴抽出(ステップS13)、または相関係数利用の次式(2)に示す評価関数fB を用いた特徴抽出(ステップS15)、または両方を用いた特徴抽出(ステップS13,15)を行う。
【0050】
基礎統計利用の評価関数fA は、次式の通りである。
【0051】
【数19】
A (nP ,mP ,sP ,mA
={1−1/(nP1/2 }(mP −mA )/sP ・・・(1)
ここで、 P は部分データの数、m P は部分データの平均値、m A は全体の平均値、s P 部分データの標準偏差である。
【0052】
また、相関係数利用の評価関数fB は、次式の通りである。
【0053】
【数20】
Figure 0003708724
ここで、nP は部分データの数、rA は全体の相関係数、rP は部分データの相関係数である。
【0054】
次に、カテゴリ範囲の最適化が指定されているか否かを判断し(ステップS17)、指定されている場合には、カテゴリ最適化処理を行うべく、カテゴリ対象属性数が単数かまたは複数かをチェックする(ステップS19)。単数の場合には、後述する図7に示す最適化手法Iを実行し(ステップS23)、複数の場合には、後述する図8に示す最適化手法IIを実行する(ステップS21)。
【0055】
上述したように、本実施形態では、ユーザに条件を指定させ、このユーザが指定した条件に従ってカテゴライズし、このカテゴライズされたデータおよびデータ全体から平均、分散、相関係数を計算し、この計算結果を用いて、あるカテゴリに属するデータのある属性値の分布が全体に比べてどの程度偏っているかを判定するために評価関数fA を計算し、またあるカテゴリに属するある属性対の間の相関がデータ全体に比べてどの程度高いかを判定するために評価関数f B を計算し、この計算結果を用いて、最も特徴的ないくつかの属性を抽出し、視覚化属性候補として提示している。
【0056】
すなわち、本実施形態では、全データがユーザの指定によりカテゴライズされた各カテゴリにおいて、データ全体が規格化されるように変換した場合に、あるカテゴリ内のデータ分布が全体の分布からどれくらい離れているかを評価し、更に内包データ数が少数の場合の補正を行った評価関数fA を計算するとともに、また相関係数では、カテゴリ内データの相関係数自身の値が大きく、かつ全データの相関係数の差の絶対値が大きな値を有し、更に内包データ数が少数の場合の補正を行った評価関数fB を計算することにより、カテゴライズ対象とならなかったすべての属性についてその値域とデータ数に関わらず比較し、特徴的な属性を抽出している。
【0057】
次に、図4に示すフローチャートを参照して、図3のステップS11のカテゴライズ処理について説明する。
【0058】
図4においては、まずユーザのGUIからの指定に従って適当なカテゴライズ手法が選択される(ステップS31)。このカテゴライズ手法には内包数による分割、値による等分割、数による等分割、多次元動的メッシュ、多次元クラスタリングなどがある。内包数による分割の場合には、内包数が指定され、内包数による分割によりカテゴライズが行われる(ステップS33)。
【0059】
また、その他の場合には、分割数が指定され、カテゴリ属性数が1個であるかまたは複数であるかまたは不定であるかが判断される(ステップS35)。1個の場合には、値による等分割(ステップS41)または数による等分割(ステップS43)によりカテゴライズが行われる。カテゴリ属性数が複数の場合には、評価式があるか否かがチェックされ(ステップS37)、評価式がある場合には、評価式の計算を行い(ステップS39)、この計算結果に基づいて値による等分割(ステップS41)または数による等分割(ステップS43)によりカテゴライズが行われる。
【0060】
更に、カテゴリ属性数が不定である場合には、主成分計算が指定されているか否かをチェックし(ステップS46)、主成分計算が指定されている場合には、主成分計算を行い、多次元動的メッシュ(ステップS55)または多次元クラスタリング(ステップS57)によりカテゴライズが行われる。
【0061】
また、ステップS35の判定において、カテゴリ属性数が不定である場合には、因子分析を用いて、属性のグルーピングを行う(ステップS49)。それから、主成分計算が指定されているか否かをチェックし(ステップS51)、指定されている場合には、第1因子負荷量の計算を行い(ステップS53)、それぞれの因子に関連の高い属性群を用いて、多次元動的メッシュ(ステップS55)または多次元クラスタリング(ステップS57)によりカテゴライズを行う。
【0062】
次に、図5に示すフローチャートを参照して、図3のステップS13の基礎統計利用の評価関数fA を用いた特徴抽出処理について説明する。図5において、評価関数の結果でソートし(ステップS61)、評価結果最大の特徴を取得する(ステップS63)。それから、特徴にフラグを立て(ステップS65)、同じカテゴリ内で次に大きい特徴を取得し(ステップS67)、特徴にフラグを立てる(ステップS69)。そして、この属性対を視覚化属性リストに追加し(ステップS71)、次に評価結果の大きい特徴を取得し(ステップS73)、この評価結果がしきい値より大きいか否かを判定し(ステップS75)、大きい場合には、ステップS65に戻って、同じ処理を評価結果がしきい値より小さくなるまで繰り返す。
【0063】
次に、図6に示すフローチャートを参照して、図3のステップS15の相関係数利用の評価関数fB を用いた特徴抽出処理について説明する。図6において、評価関数の結果でソートし(ステップS81)、評価結果最大の特徴を取得する(ステップS83)。それから、特徴にフラグを立てる(ステップS85)。そして、この属性対を視覚化属性リストに追加し(ステップS87)、次に評価結果の大きい特徴を取得し(ステップS89)、この評価結果がしきい値より大きいか否かを判定し(ステップS90)、大きい場合には、ステップS85に戻って、同じ処理を評価結果がしきい値より小さくなるまで繰り返す。
【0064】
次に、図7に示すフローチャートを参照して、図3のステップS23の最適化手法I(対象属性が1つの場合)について説明する。
【0065】
図7においては、まず抽出された特徴からカテゴリを最適化する特徴、すなわち最適化処理の対象とする特徴を選択する(ステップS111)。そして、データをカテゴリ対象属性の値の昇順にソートする(ステップS113)。カテゴリの最初のデータ番号を変数iとし、カテゴリの最後のデータ番号を変数jとする(ステップS115)。
【0066】
次に、フェーズ1の始まりであり、まず対象となる特徴を持つカテゴリの範囲内で最初のデータのデータ番号をiC とし、最後のデータ番号をjC とすると、これらをそれぞれi,jに代入する(ステップS117)、次に、変数FMに(i,j)=(iC ,jC )における評価関数の計算結果f(i,j)を代入し、変数iM ,jM に現在の値(iC ,jC )を代入する(ステップS119)。なお、評価関数は内包データ数、平均、分散等の関数であるが、実際にはカテゴリ範囲が決まれば決定されるので、ここではカテゴリの始点i、終点jの関数としている。
【0067】
次に、カテゴリの始点を現在の内包数より半分だけ小さい点にとる(ステップS121)。そして、カテゴリの終点をカテゴリ内包データ数が最初と同じになるようにとり、評価関数計算結果f(i,j)を計算する(ステップS123)。それから、評価関数計算結果f(i,j)をFMと比較し(ステップS125)、FMよりも大きい場合には、FMにこの新しい値を代入し、変数iM ,jM に現在の値(i,j)を代入する(ステップS127)。なお、FMよりも小さい場合には、ステップS127をスキップする。次にカテゴリの始点を1つずらす。すなわち、変数iを1だけ大きくする(ステップS129)。
【0068】
それから、カテゴリの始点が元のカテゴリ範囲の中間地点までいっているかどうかを判断する(ステップS131)。中間地点までいっていない場合には、ステップS123に戻って、同じ処理を繰り返すが、中間地点に達している場合には、フェーズ1の終了であり、フェーズ2に進む。
【0069】
フェーズ2の始まりであり、カテゴリの始点iを評価関数結果が最大だった範囲(iM ,jM )の始点iM から内包数の半分だけ小さい点にとる(ステップS133)。それから、カテゴリの終点jを M +j M −iにとり、評価関数f(i,j)を計算する(ステップS135)。この評価関数f(i,j)の結果がFMより大きいか否かをチェックし(ステップS137)、FMよりも大きい場合には、FMにこの値を代入し、変数iM M,jM Mに現在のi,jの値を代入する(ステップS139)。
【0070】
次に、カテゴリの始点を1つずらし(ステップS141)、カテゴリの始点がフェーズ2の最初の地点から元のカテゴリ内包数分の地点まで達しているか否かをチェックし(ステップS143)、達していれば、フェーズ2の終了であるが、達していない場合には、ステップS135に戻って、同じ処理を繰り返す。
【0071】
以上のようにして、(i MM ,j MM をこの特徴における最適のカテゴリとする(ステップS145)。そして、すべての特徴について最適カテゴリの計算を行う(ステップS147)。
【0072】
上述したように、最適化手法1では、最も評価ポイントの高かったカテゴリに対して、カテゴライズ対象の属性のそのカテゴリの始まりのデータ番号をi、終わりをjとすると、カテゴライズ対象でない属性の評価関数結果が最大となる(i,j)=(iC ,jC )を検出する。それから、j−i=nP を保ったまま、iをiC −nP /2からiC +nP /2までふり、評価値が最大となるポイント(i,j)=(iM ,jM )を見つけ、更にi+j=iM +jM を保ったまま、iM をiM −nP /2からiM +nP /2までふり、最大ポイントを見つけるものである。
【0073】
すなわち、カテゴリ区間最適化手法Iでは、iとjで張る平面を考えた場合に、評価関数が直線j=i上の点(i,j)=(0,nA )上で0となり、j=i+aO (0《aO 《n)の付近で極値をとるという性質とユーザ指定のカテゴライズ結果の評価点がaO =nP とした場合の前記直線上の点となることから、これらの点を中心に最適点を探すことにより、データ数に対して1次のオーダで近似的な最適点を求めることができる。
【0074】
次に、図8に示すフローチャートを参照して、図3のステップS21の最適化手法IIについて説明する。図8では、まず抽出された特徴からカテゴリを最適化する特徴を選択する(ステップS151)。それから、ユーザが指定したK個全てのカテゴリの重心を求める(ステップS153)。このK個の重心に対して階層的クラスタリングをかける(ステップS155)。結果としてできるΣK=K(K+1)/2個のクラスタ(カテゴリ)に対して評価関数を計算する(ステップS157)。そして、評価値最大のクラスタによって表現されるカテゴリ範囲(部分空間)CM を得る(ステップS159)。
【0075】
この得られたカテゴリ範囲CM を更にK個のクラスタに分解する(ステップS161)。そして、得られたK個のクラスタの重心を用いて再度階層的クラスタリングを行う(ステップS163)。結果としてできるΣK=K(K+1)/2個のクラスタ(カテゴリ)に対して評価関数を計算する(ステップS165)。評価値最大のクラスタ(カテゴリ範囲)CMMを得る(ステップS167)。このCMMを最適のカテゴリ範囲とする(ステップS169)。
【0076】
上述したように、最適化手法IIでは、複数の属性を対象としたカテゴライズの結果として生成されたユーザ指定数のクラスタのクラスタ核(重心)を求め、これらのクラスタ核を用いて、階層的クラスタリングを行う。階層的クラスタリングの結果のすべてのクラスタに対して評価関数を計算し、ポイント最大のクラスタCM を求める。それから、このCM に対して再度ユーザ指定数のクラスタに分解(階層的クラスタリング)を行い、それぞれのクラスタに対して最大の評価関数結果を有するクラスタCMMを求めるものである。
【0077】
すなわち、カテゴリ区間最適化手法IIでは、カテゴライズ対象である複数属性の張る空間を非階層的クラスタリング手法を用いて、互いに包含関係を持つ複数の部分空間に分解することにより、評価関数が高い値を持つ部分空間(カテゴリ範囲)CM を推定することができる。更に、その空間を非階層クラスタリングによる重心を用いて、再度階層クラスタリングして評価関数を計算することにより、CM の中でも特に評価関数が高い値をもつ部分空間CMMを決定することができる。これをこの空間における近似的な最適部分空間と見なすことができる。
【0078】
図9は、上述した実施形態の適用例を概念的に示した図である。同図では、一例として相撲力士のデータに対して普通に相関係数を計算すると、図9(a)に示すように特に属性間に高い相関は見られないが、図9(b)に示すようにデータを「地位」属性でカテゴライズし、それぞれのデータに対して相関係数を計算すると、図9(c)に示すように、地位の高いカテゴリのデータでは身長と体重の間に高い相関関係が検出される。この結果から、身長と体重を座標軸に地位を大きさにとって視覚化装置19にかけると、大きい図形がほぼ直線上にならび、地位の高い力士の特徴を直観的に把握することができる。
【0079】
図10は、評価関数fA の作用を概念的に示したものである。同図に示すように、データ全体が平均値mA 、標準偏差SA で分布しているとし、あるカテゴリに内包されるデータ(以下、部分データと称する)のある属性の値が平均値mP 、標準偏差SP で分布しているとすると、評価関数はmA −mP が大きく、SP が小さいほど高い値を示す。すなわち、部分データの分布が全体から離れていて、かつ狭い部分に集まっている時に高い値を示す。実際には全体の分布が平均値0,分散1の分布に正規化する関数で部分データを変換し、更に内包データ数が少数のときの補正を行っている。
【0080】
図11は、カテゴリ対象属性が1つの場合の最適化の作用を概念的に示したものである。第1軸をカテゴリの始点iに第2軸を終点jに、評価関数を第3軸にとったグラフが本図である。評価関数はA,Bどちらも、点(i,j)=(0,nA )でゼロで、直線j=i上に向ってゆるやかに大きくなり、カテゴリ内包数がゼロに近付くに連れ、不連続に減少し、直線j=i上では再びゼロになるという特性を持つ。この特性を利用し、この関数が最大値を取るカテゴリ範囲を求めるために、まず直線j=i−iC +jC 上を走査し(処理フローのフェーズ1)、この直線上で関数が最大値をとる地点(iM ,jM )から直線j=−i+iM +jM 上を走査して(処理フローのフェーズ2)いる。
【0081】
図12は、カテゴリ対象属性が複数の場合の最適化の作用を概念的に示したものである。同図はカテゴリ対象となっている属性の張る多次元空間とデータの存在を示す点を示す概念図となっている。最適化処理の前の特徴抽出の過程で行なわれたクラスタリングの結果、データが図のようにカテゴライズ(クラスタリング)され、また処理対象特徴を持つカテゴリ(この場合クラスタ)が、“元のカテゴリ”として示されている部分とする。本処理ではこれらクラスタを用いて階層的クラスタリングを行ない、それぞれの新しいクラスタに対し、評価関数を計算する。この結果、最大の評価関数結果を持つものが、クラスタCM (2つクラスタを1つにしたもの)とすると、こクラスタCM に含まれる全てのデータに対し、再度多次元クラスタリング(非階層クラスタリング手法)を行なう。さらにこの結果として生成されたクラスタに対し、2回目の階層的階層クラスタリングを適用して、結果のクラスタそれぞれに対して再度評価関数を計算する。そしてここで評価関数結果が最大となったクラスタを結果のカテゴリとする。
【0082】
【発明の効果】
以上説明したように、本発明によれば、プログラミング等の複雑な手続きなしに、簡単なグラフィカルインタフェースで統計手法等の数量的結果から自動的に特徴を抽出し、その度合を判断して自動視覚化を支援することができる。また、例えばビジュアルマイニング支援のための自動視覚化において大きさ、形、色、座標軸等の視覚化属性にマッピングする属性を決定するために、部分的な特徴を利用することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係わるカテゴライズ利用特徴抽出方法を実施するカテゴライズ利用特徴抽出装置の構成を示すブロック図である。
【図2】図1に示したユーザインタフェース機能部によるGUIの一例を示す図である。
【図3】図1に示した実施形態の全体の処理を示すフローチャートである。
【図4】図3のステップS11のカテゴライズ処理を示すフローチャートである。
【図5】図3のステップS13の基礎統計利用の評価関数fA を用いた特徴抽出処理を示すフローチャートである。
【図6】図3のステップS15の相関係数利用の評価関数fB を用いた特徴抽出処理を示すフローチャートである。
【図7】図3のステップS23の最適化手法Iを示すフローチャートである。
【図8】図3のステップS21の最適化手法IIを示すフローチャートである。
【図9】図1の実施形態の適用例を概念的に示した図である。
【図10】評価関数fA の作用を概念的に示した図である。
【図11】カテゴリ対象属性が1つの場合の最適化作用を概念的に示した図である。
【図12】カテゴリ対象属性が複数の場合の最適化の作用を概念的に示した図である。
【符号の説明】
1 外部入力装置
3 ユーザインタフェース機能部
5 カテゴライズ機能部
11 数値演算機能部
13 評価関数計算機能部
15 属性抽出機能部
17 視覚化定義
19 視覚化装置
21 区間自動決定機能部

Claims (6)

  1. 複数の属性を有するデータに対してユーザが指定した属性および方法によってデータを「値による等分割」「数による等分割」「多次元メッシュ」または「多次元クラスタリング」を含む手法を用いて、複数のデータ群であるカテゴリに分割するカテゴライズを行うカテゴライズ機能部と、
    前記カテゴライズの結果のそれぞれのカテゴリに対してカテゴライズに利用された属性であるカテゴリ対象属性以外の任意の属性の値の分布がデータ全体の分布と比較して乖離している度合を部分データの平均値と全体の平均値との差分から部分データの正規化された値を求める手順と、この部分データの正規化された値と該部分データのばらつきとを比較し、当該ばらつきが有意性を評価する手順と、部分データの数が少数であるときの統計的補正を行う手順を含み、他の部分データまたは他の属性と相対的に比較可能な数値を算出する評価関数
    Figure 0003708724
    (但し、 P は部分データの数、m P は部分データの平均値、m A 全体の平均値、sP は部分データの標準偏差)
    によって判定する評価関数計算機能部と、
    乖離の度合が顕著である属性と対応するカテゴリをそのデータの部分的な特徴として抽出する属性抽出機能部と
    を有することを特徴とするカテゴライズ利用特徴抽出装置。
  2. 複数の属性を有するデータに対し、ユーザが指定した属性および方法によってデータを「値による等分割」「数による等分割」「多次元メッシュ」または「多次元クラスタリング」を含む手法を用いて、複数のデータ群であるカテゴリに分割するカテゴライズを行うカテゴライズ機能部と、
    前記カテゴライズの結果のそれぞれのカテゴリに対してカテゴライズに利用された属性であるカテゴリ対象属性を除いた任意の2つの属性の相関係数の全体の相関係数との乖離の度合を部分データ自身の相関係数の大きさと全体データの相関係数の大きさとの乖離をこれらの差分により求める手順と、この差分と部分データ自身の相関係数の大きさとの積を求め、該差分と部分データ自身の相関係数の大きさの影響を求める手順と、部分データの数が少数であるときの統計的補正を行う手順とを有して、他属性と比較可能な数値を算出する評価関数
    Figure 0003708724
    (但し、 P は部分データの数、r A は全体の相関係数、r P 部分データの相関係数)
    によって判定する評価関数計算機能部と、
    乖離の度合が顕著である属性対と対応するカテゴリをそのデータの部分的な特徴として抽出する属性抽出機能部と
    を有することを特徴とするカテゴライズ利用特徴抽出装置。
  3. 前記抽出された特徴および前記評価関数の結果を用いて、特に顕著な特徴を出力する出力手段を有することを特徴とする請求項1または2記載のカテゴライズ利用特徴抽出装置。
  4. 前記カテゴリ対象属性が単一である場合、前記特徴が最も顕著に現れるようなカテゴリの範囲であるカテゴリ区間を前記評価関数により求めるカテゴリ区間最適化手段を有することを特徴とする請求項1または2記載のカテゴライズ利用特徴抽出装置。
  5. 前記カテゴリ対象属性が複数である場合、前記特徴が最も顕著に現れるようなカテゴリの範囲であるカテゴリ区間を前記評価関数により求めるカテゴリ区間最適化手段を有することを特徴とする請求項1または2記載のカテゴライズ利用特徴抽出装置。
  6. 前記カテゴリ手段および特徴抽出についてプログラミングすることなく、マウスを含む簡易なツールを用いて条件を入力できるグラフィカルユーザインタフェース(GUI)画面を表示する表示手段を有することを特徴とする請求1乃至3項記載のカテゴライズ利用特徴抽出装置。
JP27107298A 1998-09-25 1998-09-25 カテゴライズ利用特徴抽出装置 Expired - Lifetime JP3708724B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27107298A JP3708724B2 (ja) 1998-09-25 1998-09-25 カテゴライズ利用特徴抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27107298A JP3708724B2 (ja) 1998-09-25 1998-09-25 カテゴライズ利用特徴抽出装置

Publications (2)

Publication Number Publication Date
JP2000099746A JP2000099746A (ja) 2000-04-07
JP3708724B2 true JP3708724B2 (ja) 2005-10-19

Family

ID=17495003

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27107298A Expired - Lifetime JP3708724B2 (ja) 1998-09-25 1998-09-25 カテゴライズ利用特徴抽出装置

Country Status (1)

Country Link
JP (1) JP3708724B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210154418A (ko) * 2020-06-12 2021-12-21 윤정호 오프라인 모임 운영방법 및 시스템

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10196498T1 (de) * 2000-08-09 2003-07-31 Hideo Fujita Informationsverarbeitungsverfahren, zugehöriges Zubehörsystem, und Werkzeuge zum Einsatz bei diesem
WO2004072866A1 (ja) 2003-02-14 2004-08-26 Fujitsu Limited データ解析装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0877010A (ja) * 1994-09-07 1996-03-22 Hitachi Ltd データ分析方法および装置
JP4155363B2 (ja) * 1997-06-19 2008-09-24 富士通株式会社 データ表示装置、データ表示方法、およびデータ表示用プログラムを記録した記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210154418A (ko) * 2020-06-12 2021-12-21 윤정호 오프라인 모임 운영방법 및 시스템
KR102500620B1 (ko) 2020-06-12 2023-02-15 윤정호 오프라인 모임 운영방법 및 시스템

Also Published As

Publication number Publication date
JP2000099746A (ja) 2000-04-07

Similar Documents

Publication Publication Date Title
US11720598B2 (en) Data analysis engine
US7707533B2 (en) Data-mining-based knowledge extraction and visualization of analog/mixed-signal/custom digital circuit design flow
JP4429236B2 (ja) 分類ルール作成支援方法
JPWO2009072466A1 (ja) 画像分類装置および画像分類プログラム
CN109815042B (zh) 异常因素的定位方法、装置、服务器和存储介质
CN113961187B (zh) Rpa组件智能推荐方法及系统
CN108596789B (zh) 一种菜品标准化的方法
CN111126865B (zh) 一种基于科技大数据的技术成熟度判断方法和系统
JP3708724B2 (ja) カテゴライズ利用特徴抽出装置
Nocaj et al. Adaptive disentanglement based on local clustering in small-world network visualization
JP4407272B2 (ja) 文書分類方法、文書分類装置及び文書分類プログラム
JP2020135053A (ja) データ分析装置及びデータ分析方法
JP5045240B2 (ja) データ分割プログラム、該プログラムを記録した記録媒体、データ分割装置、およびデータ分割方法
CN108197183B (zh) 一种基于安卓应用的控件布局推荐方法及其系统
CN115906213A (zh) 一种可视化兵棋评估统计模型的编辑方法及系统
CN111104781A (zh) 图表处理方法和装置
CN113885979A (zh) 一种智能调整用户界面的方法和装置
US11886513B2 (en) Data analysis system, data analysis method, and computer program product
JP2020135054A (ja) データ分析装置及びデータ分析方法
US20230098522A1 (en) Automated categorization of data by generating unity and reliability metrics
CN111475500B (zh) 一种自动发现审计规则和异常数据的方法
Ingram et al. Glint: An MDS Framework for Costly Distance Functions.
JP2017211756A (ja) 予測不可データ判定システム及び予測不可データ判定方法
CN108255583B (zh) 一种应用程序对比方法及装置
Griffin et al. Multi-scale Hierarchical Segmentation.

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20031212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050104

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050307

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050510

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050804

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080812

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090812

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090812

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100812

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100812

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110812

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120812

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130812

Year of fee payment: 8

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term