JP2000099746A - カテゴライズ利用特徴抽出方法および装置とカテゴライズ利用特徴抽出プログラムを記録した記録媒体 - Google Patents

カテゴライズ利用特徴抽出方法および装置とカテゴライズ利用特徴抽出プログラムを記録した記録媒体

Info

Publication number
JP2000099746A
JP2000099746A JP10271072A JP27107298A JP2000099746A JP 2000099746 A JP2000099746 A JP 2000099746A JP 10271072 A JP10271072 A JP 10271072A JP 27107298 A JP27107298 A JP 27107298A JP 2000099746 A JP2000099746 A JP 2000099746A
Authority
JP
Japan
Prior art keywords
category
feature
attribute
data
categorized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10271072A
Other languages
English (en)
Other versions
JP3708724B2 (ja
Inventor
Toshiko Shiobara
寿子 塩原
Yuichi Iizuka
裕一 飯塚
Seiji Isobe
成二 磯部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP27107298A priority Critical patent/JP3708724B2/ja
Publication of JP2000099746A publication Critical patent/JP2000099746A/ja
Application granted granted Critical
Publication of JP3708724B2 publication Critical patent/JP3708724B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 ユーザの分析の目的属性の指定に応じてデー
タをカテゴライズし、各カテゴリのデータが示す全体と
異なる特徴を抽出するカテゴライズ利用特徴抽出方法お
よび装置とカテゴライズ利用特徴抽出プログラムを記録
した記録媒体を提供する。 【解決手段】 外部入力装置1からの入力をユーザイン
タフェース機能部3で受け取り、これに従って入力ファ
イルを読み込み、カテゴライズ機能部5で数値演算機能
部11と連携しつつデータのカテゴライズを行い、カテ
ゴライズ結果を受けて評価関数計算機能部13が起動さ
れ、数値演算機能部11を呼び出しながら評価結果のリ
ストを作成し、評価結果リストを用いて属性抽出機能部
15が起動され視覚化属性リストを作成する。視覚化属
性リストを基に生成された視覚化定義17を視覚化装置
19に入力して自動視覚化が行われる。区間最適化が指
定されている場合は区間自動決定機能部21が呼び出さ
れ区間最適化処理を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ユーザの分析の目
的属性の指定に応じてデータをカテゴライズし、各カテ
ゴリのデータが基礎統計量や相関係数等の特徴量に関し
て全体と異なる傾向を示すことを検出し、部分データの
示す特徴として抽出するカテゴライズ利用特徴抽出方法
および装置とカテゴライズ利用特徴抽出プログラムを記
録した記録媒体に関し、更に詳しくは、データベースま
たはファイルに蓄積された情報を、視覚化定義を自動生
成することにより自動視覚化を実現するような場合に、
ユーザが興味対象の属性に関する指定を行った時にその
属性に対して何らかの特性を持つ属性群を自動抽出する
ことにより視覚化対象とすべき属性を自動選択し、視覚
化定義を自動生成する場合に利用して有効なカテゴライ
ズ利用特徴抽出方法および装置とカテゴライズ利用特徴
抽出プログラムを記録した記録媒体に関する。
【0002】
【従来の技術】従来、自動的に抽出できる特徴はデータ
全体に対して高い相関係数を有する等のように全体に現
れるもののみであり、部分的に現れる特徴を自動的に抽
出して視覚化するものはない。
【0003】
【発明が解決しようとする課題】上述したように、従来
の自動視覚化のための特徴抽出方法では、データ全体に
現れる特徴を抽出することはできるが、部分的に現れる
特徴、例えば地位の高い力士にのみ当てはまるような特
徴を抽出することができないという問題がある。本発明
は、上記に鑑みてなされたもので、その目的とするとこ
ろは、ユーザの分析の目的属性の指定に応じてデータを
カテゴライズし、各カテゴリのデータが示す全体と異な
る特徴を抽出するカテゴライズ利用特徴抽出方法および
装置とカテゴライズ利用特徴抽出プログラムを記録した
記録媒体を提供することにある。
【0004】
【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の本発明は、複数の属性またはカラム
を有するデータに対し、ユーザが指定した属性および方
法によってデータを「値による等分割」「数による等分
割」「多次元メッシュ」または「多次元クラスタリン
グ」を含む手法を用いて、複数のデータ群であるカテゴ
リに分割するカテゴライズを行い、前記カテゴライズの
結果のそれぞれのカテゴリに対してカテゴライズに利用
された属性であるカテゴリ対象属性以外の属性における
特徴を検出することを要旨とする。
【0005】請求項1記載の本発明にあっては、複数の
属性またはカラムを有するデータに対し、ユーザ指定の
属性および方法によってデータを複数のデータ群である
カテゴリに分割するカテゴライズを行い、カテゴライズ
の結果のそれぞれのカテゴリに対してカテゴライズに利
用された属性であるカテゴリ対象属性以外の属性におけ
る特徴を検出する。
【0006】また、請求項2記載の本発明は、請求項1
記載の本発明において、前記カテゴライズ処理で分割生
成されたカテゴリにおいて、前記カテゴリ対象属性以外
の任意の属性の値の分布がデータ全体の分布と比較して
乖離している度合を次の評価関数:
【数7】fA (nP ,mP ,sP ,mA )={1−1/
(nP 1/2 }(mP −mA )/sP ここで、nP は部分データの数、mP は部分データの平
均、mA は全体の平均、sP は部分データの標準偏差で
あり、によって判定し、乖離の度合が顕著である属性と
対応するカテゴリをそのデータの部分的な特徴として抽
出することを要旨とする。
【0007】請求項2記載の本発明にあっては、分割生
成されたカテゴリにおいてカテゴリ対象属性以外の任意
の属性の値の分布がデータ全体の分布と比較して乖離し
ている度合を次の評価関数:
【数8】fA (nP ,mP ,sP ,mA )={1−1/
(nP 1/2 }(mP −mA )/sP によって判定し、乖離の度合が顕著である属性と対応す
るカテゴリをそのデータの部分的な特徴として抽出する
ため、該部分的な特徴を利用して、例えばビジュアルマ
イニング支援のための自動視覚化において大きさ、形、
色、座標軸等の視覚化属性にマッピングする属性を決定
することができる。
【0008】更に、請求項3記載の本発明は、請求項1
記載の本発明において、前記カテゴライズ処理で分割生
成されたカテゴリに対して、前記カテゴリ対象属性を除
いた任意の2つの属性の相関係数の全体の相関係数との
乖離の度合を次の評価関数:
【数9】fB (rA ,rP ,nP ,)={1−1/(n
P 1/2 }rP (rP −rA ) によって判定し、乖離の度合が顕著である属性対と対応
するカテゴリをそのデータの部分的な特徴として抽出す
ることを要旨とする。
【0009】請求項3記載の本発明にあっては、分割生
成されたカテゴリに対して、カテゴリ対象属性を除いた
任意の2つの属性の相関係数の全体の相関係数との乖離
の度合を次の評価関数:
【数10】fB (rA ,rP ,nP ,)={1−1/
(nP 1/2 }rP (rP −rA ) によって判定し、乖離の度合が顕著である属性対と対応
するカテゴリをそのデータの部分的な特徴として抽出す
るため、該部分的な特徴を利用して、例えばビジュアル
マイニング支援のための自動視覚化において大きさ、
形、色、座標軸等の視覚化属性にマッピングする属性を
決定することができる。
【0010】請求項4記載の本発明にあっては、抽出さ
れた特徴および評価関数の結果を用いて、特に顕著な特
徴を出力する。
【0011】また、請求項5記載の本発明は、請求項2
または3記載の本発明において、前記カテゴリ対象属性
が単一である場合、前記特徴が最も顕著に現れるような
カテゴリの範囲であるカテゴリ区間を前記評価関数によ
り求めるカテゴリ区間最適化処理を行うことを要旨とす
る。
【0012】請求項5記載の本発明にあっては、カテゴ
リ対象属性が単一である場合、特徴が最も顕著に現れる
ようなカテゴリの範囲であるカテゴリ区間を評価関数に
より求める。
【0013】更に、請求項6記載の本発明は、請求項2
または3記載の本発明において、前記カテゴリ対象属性
が複数である場合、前記特徴が最も顕著に現れるような
カテゴリの範囲であるカテゴリ区間を前記評価関数によ
り求めるカテゴリ区間最適化処理を行うことを要旨とす
る。
【0014】請求項6記載の本発明にあっては、カテゴ
リ対象属性が複数である場合、特徴が最も顕著に現れる
ようなカテゴリの範囲であるカテゴリ区間を評価関数に
より求める。
【0015】請求項7記載の本発明は、請求項2または
3記載の本発明において、前記カテゴリ処理および特徴
抽出についてプログラミングすることなく、マウスを含
む簡易なツールを用いて条件を入力できるグラフィカル
ユーザインタフェース(GUI)画面を表示することを
要旨とする。
【0016】請求項7記載の本発明にあっては、カテゴ
リ処理および特徴抽出についてプログラミングすること
なく、マウスを含む簡易なツールを用いて条件を入力で
きるグラフィカルユーザインタフェース(GUI)画面
を表示する。
【0017】また、請求項8記載の本発明は、複数の属
性またはカラムを有するデータに対してユーザが指定し
た属性および方法によってデータを「値による等分割」
「数による等分割」「多次元メッシュ」または「多次元
クラスタリング」を含む手法を用いて、複数のデータ群
であるカテゴリに分割するカテゴライズを行うカテゴラ
イズ手段と、前記カテゴライズの結果のそれぞれのカテ
ゴリに対してカテゴライズに利用された属性であるカテ
ゴリ対象属性以外の属性における特徴を検出する特徴検
出手段とを有することを要旨とする。
【0018】請求項8記載の本発明にあっては、複数の
属性またはカラムを有するデータに対し、ユーザ指定の
属性および方法によってデータを複数のデータ群である
カテゴリに分割するカテゴライズを行い、カテゴライズ
の結果のそれぞれのカテゴリに対してカテゴライズに利
用された属性であるカテゴリ対象属性以外の属性におけ
る特徴を検出する。
【0019】更に、請求項9記載の本発明は、請求項8
記載の本発明において、前記カテゴライズ手段で分割生
成されたカテゴリにおいて、前記カテゴリ対象属性以外
の任意の属性の値の分布がデータ全体の分布と比較し
て、乖離している度合を次の評価関数:
【数11】fA (nP ,mP ,sP ,mA )={1−1
/(nP 1/2 }(mP −mA )/sP ここで、nP は部分データの数、mP は部分データの平
均、mA は全体の平均、sP は部分データの標準偏差で
あり、によって判定する判定手段と、該判定手段で判定
した乖離の度合が顕著である属性と対応するカテゴリを
そのデータの部分的な特徴として抽出する抽出手段とを
有することを要旨とする。
【0020】請求項9記載の本発明にあっては、分割生
成されたカテゴリにおいてカテゴリ対象属性以外の任意
の属性の値の分布がデータ全体の分布と比較して、乖離
している度合を次の評価関数:
【数12】fA (nP ,mP ,sP ,mA )={1−1
/(nP 1/2 }(mP −mA )/sP によって判定し、乖離の度合が顕著である属性と対応す
るカテゴリをそのデータの部分的な特徴として抽出する
ため、該部分的な特徴を利用して、例えばビジュアルマ
イニング支援のための自動視覚化において大きさ、形、
色、座標軸等の視覚化属性にマッピングする属性を決定
することができる。
【0021】請求項10記載の本発明は、請求項8記載
の本発明において、前記カテゴライズ手段で分割生成さ
れたカテゴリに対して、前記カテゴリ対象属性を除いた
任意の2つの属性の相関係数の全体の相関係数との乖離
の度合を次の評価関数:
【数13】fB (rA ,rP ,nP ,)={1−1/
(nP 1/2 }rP (rP −rA ) ここで、nP は部分データの数、rA は全体の相関係
数、rP は部分データの相関係数であり、によって判定
する判定手段と、該判定手段で判定した乖離の度合が顕
著である属性対と対応するカテゴリをそのデータの部分
的な特徴として抽出する抽出手段とを有することを要旨
とする。
【0022】請求項10記載の本発明にあっては、分割
生成されたカテゴリに対して、カテゴリ対象属性を除い
た任意の2つの属性の相関係数の全体の相関係数との乖
離の度合を次の評価関数:
【数14】fB (rA ,rP ,nP ,)={1−1/
(nP 1/2 }rP (rP −rA ) によって判定し、乖離の度合が顕著である属性対と対応
するカテゴリをそのデータの部分的な特徴として抽出す
るため、該部分的な特徴を利用して、例えばビジュアル
マイニング支援のための自動視覚化において大きさ、
形、色、座標軸等の視覚化属性にマッピングする属性を
決定することができる。
【0023】また、請求項11記載の本発明は、請求項
9または10記載の本発明において、前記抽出された特
徴および前記評価関数の結果を用いて、特に顕著な特徴
を出力する出力手段を有することを要旨とする。
【0024】請求項11記載の本発明にあっては、抽出
された特徴および評価関数の結果を用いて、特に顕著な
特徴を出力する。
【0025】更に、請求項12記載の本発明は、請求項
9または10記載の本発明において、前記カテゴリ対象
属性が単一である場合、前記特徴が最も顕著に現れるよ
うなカテゴリの範囲であるカテゴリ区間を前記評価関数
により求めるカテゴリ区間最適化手段を有することを要
旨とする。
【0026】請求項12記載の本発明にあっては、カテ
ゴリ対象属性が単一である場合、特徴が最も顕著に現れ
るようなカテゴリの範囲であるカテゴリ区間を評価関数
により求める。
【0027】請求項13記載の本発明は、請求項9また
は10記載の本発明において、前記カテゴリ対象属性が
複数である場合、前記特徴が最も顕著に現れるようなカ
テゴリの範囲であるカテゴリ区間を前記評価関数により
求めるカテゴリ区間最適化手段を有することを要旨とす
る。
【0028】請求項13記載の本発明にあっては、カテ
ゴリ対象属性が複数である場合、特徴が最も顕著に現れ
るようなカテゴリの範囲であるカテゴリ区間を評価関数
により求める。
【0029】また、請求項14記載の本発明は、請求項
9または10記載の本発明において、前記カテゴリ手段
および特徴抽出についてプログラミングすることなく、
マウスを含む簡易なツールを用いて条件を入力できるグ
ラフィカルユーザインタフェース(GUI)画面を表示
する表示手段を有することを要旨とする。
【0030】請求項14記載の本発明にあっては、カテ
ゴリ処理および特徴抽出についてプログラミングするこ
となく、マウスを含む簡易なツールを用いて条件を入力
できるグラフィカルユーザインタフェース(GUI)画
面を表示する。
【0031】更に、請求項15記載の本発明は、複数の
属性またはカラムを有するデータに対してユーザが指定
した属性および方法によってデータを「値による等分
割」「数による等分割」「多次元メッシュ」または「多
次元クラスタリング」を含む手法を用いて、複数のデー
タ群であるカテゴリに分割するカテゴライズを行い、前
記カテゴライズの結果のそれぞれのカテゴリに対してカ
テゴライズに利用された属性であるカテゴリ対象属性以
外の属性における特徴を検出するカテゴライズ利用特徴
抽出プログラムを記録媒体に記録することを要旨とす
る。
【0032】請求項15記載の本発明にあっては、複数
の属性またはカラムを有するデータに対し、ユーザ指定
の属性および方法によってデータを複数のデータ群であ
るカテゴリに分割するカテゴライズを行い、カテゴライ
ズの結果のそれぞれのカテゴリに対してカテゴライズに
利用された属性であるカテゴリ対象属性以外の属性にお
ける特徴を検出するカテゴライズ利用特徴抽出プログラ
ムを記録媒体に記録するため、該記録媒体を用いて、そ
の流通性を高めることができる。
【0033】請求項16記載の本発明は、請求項15記
載の本発明において、前記カテゴライズ処理で分割生成
されたカテゴリにおいて、前記カテゴリ対象属性以外の
任意の属性の値の分布がデータ全体の分布と比較して乖
離している度合を次の評価関数:
【数15】fA (nP ,mP ,sP ,mA )={1−1
/(nP 1/2 }(mP −mA )/sP ここで、nP は部分データの数、mP は部分データの平
均、mA は全体の平均、sP は部分データの標準偏差で
あり、によって判定し、乖離の度合が顕著である属性と
対応するカテゴリをそのデータの部分的な特徴として抽
出するカテゴライズ利用特徴抽出プログラムを記録媒体
に記録することを要旨とする。
【0034】請求項16記載の本発明にあっては、分割
生成されたカテゴリにおいてカテゴリ対象属性以外の任
意の属性の値の分布がデータ全体の分布と比較して乖離
している度合を次の評価関数:
【数16】fA (nP ,mP ,sP ,mA )={1−1
/(nP 1/2 }(mP −mA )/sP によって判定し、乖離の度合が顕著である属性と対応す
るカテゴリをそのデータの部分的な特徴として抽出する
カテゴライズ利用特徴抽出プログラムを記録媒体に記録
するため、該記録媒体を用いて、その流通性を高めるこ
とができる。
【0035】また、請求項17記載の本発明は、請求項
15記載の本発明において、前記カテゴライズ処理で分
割生成されたカテゴリに対して、前記カテゴリ対象属性
を除いた任意の2つの属性の相関係数の全体の相関係数
との乖離の度合を次の評価関数:
【数17】fB (rA ,rP ,nP ,)={1−1/
(nP 1/2 }rP (rP −rA ) ここで、nP は部分データの数、rA は全体の相関係
数、rP は部分データの相関係数であり、によって判定
し、乖離の度合が顕著である属性対と対応するカテゴリ
をそのデータの部分的な特徴として抽出するカテゴライ
ズ利用特徴抽出プログラムを記録媒体に記録することを
要旨とする。
【0036】請求項17記載の本発明にあっては、分割
生成されたカテゴリに対して、カテゴリ対象属性を除い
た任意の2つの属性の相関係数の全体の相関係数との乖
離の度合を次の評価関数:
【数18】fB (rA ,rP ,nP ,)={1−1/
(nP 1/2 }rP (rP −rA ) によって判定し、乖離の度合が顕著である属性対と対応
するカテゴリをそのデータの部分的な特徴として抽出す
るカテゴライズ利用特徴抽出プログラムを記録媒体に記
録するため、該記録媒体を用いて、その流通性を高める
ことができる。
【0037】更に、請求項18記載の本発明は、請求項
16または17記載の本発明において、前記抽出された
特徴および前記評価関数の結果を用いて、特に顕著な特
徴を出力するカテゴライズ利用特徴抽出プログラムを記
録媒体に記録することを要旨とする。
【0038】請求項18記載の本発明にあっては、抽出
された特徴および評価関数の結果を用いて、特に顕著な
特徴を出力するカテゴライズ利用特徴抽出プログラムを
記録媒体に記録するため、該記録媒体を用いて、その流
通性を高めることができる。請求項19記載の本発明
は、請求項16または17記載の本発明において、前記
カテゴリ対象属性が単一である場合、前記特徴が最も顕
著に現れるようなカテゴリの範囲であるカテゴリ区間を
前記評価関数により求めるカテゴリ区間最適化処理を行
うカテゴライズ利用特徴抽出プログラムを記録媒体に記
録することを要旨とする。
【0039】請求項19記載の本発明にあっては、カテ
ゴリ対象属性が単一である場合、特徴が最も顕著に現れ
るようなカテゴリの範囲であるカテゴリ区間を評価関数
により求めるカテゴライズ利用特徴抽出プログラムを記
録媒体に記録するため、該記録媒体を用いて、その流通
性を高めることができる。
【0040】また、請求項20記載の本発明は、請求項
16または17記載の本発明において、前記カテゴリ対
象属性が複数である場合、前記特徴が最も顕著に現れる
ようなカテゴリの範囲であるカテゴリ区間を前記評価関
数により求めるカテゴリ区間最適化処理を行うカテゴラ
イズ利用特徴抽出プログラムを記録媒体に記録すること
を要旨とする。
【0041】請求項20記載の本発明にあっては、カテ
ゴリ対象属性が複数である場合、特徴が最も顕著に現れ
るようなカテゴリの範囲であるカテゴリ区間を評価関数
により求めるカテゴライズ利用特徴抽出プログラムを記
録媒体に記録するため、該記録媒体を用いて、その流通
性を高めることができる。
【0042】更に、請求項21記載の本発明は、請求項
16または17記載の本発明において、前記カテゴリ処
理および特徴抽出についてプログラミングすることな
く、マウスを含む簡易なツールを用いて条件を入力でき
るグラフィカルユーザインタフェース(GUI)画面を
表示するカテゴライズ利用特徴抽出プログラムを記録媒
体に記録することを要旨とする。
【0043】請求項21記載の本発明にあっては、カテ
ゴリ処理および特徴抽出についてプログラミングするこ
となく、マウスを含む簡易なツールを用いて条件を入力
できるグラフィカルユーザインタフェース(GUI)画
面を表示するカテゴライズ利用特徴抽出プログラムを記
録媒体に記録するため、該記録媒体を用いて、その流通
性を高めることができる。
【0044】
【発明の実施の形態】以下、図面を用いて本発明の実施
の形態について説明する。図1は、本発明の一実施形態
に係わるカテゴライズ利用特徴抽出方法を実施するカテ
ゴライズ利用特徴抽出装置の構成を示すブロック図であ
る。同図に示すカテゴライズ利用特徴抽出装置は、例え
ばマウスやキーボード等からなる外部入力装置1からの
入力をユーザインタフェース機能部3で受け取り、これ
に従って入力データ7および入力スキーマ9等の入力フ
ァイルを読み込み、カテゴライズ機能部5を起動する。
カテゴライズ機能部5は、数値演算機能部11と連携を
取りつつ、データのカテゴライズを行う。このカテゴラ
イズの結果を受けて、評価関数計算機能部13が起動さ
れ、評価関数計算機能部13は、適宜数値演算機能部1
1を呼び出しながら、評価結果のリストを作成する。な
お、数値演算機能部11は、平均、分散、相関関数、多
次元クラスタリング、動的メッシュ、因子分析などの演
算を行う部分である。
【0045】次に、評価関数計算機能部13からの評価
結果リストを用いて、属性抽出機能部15が起動され、
視覚化属性リストを作成する。この視覚化属性リストを
基に生成された視覚化定義17を視覚化装置19に入力
することにより自動視覚化が行われる。更に、ユーザに
よって区間最適化が指定されている場合は、区間自動決
定機能部21が呼び出される。この区間自動決定機能部
21も適宜数値演算機能部11を使用して区間最適化処
理を行う。
【0046】図2は、図1に示したユーザインタフェー
ス機能部3によるGUIの一例を示す図である。同図に
示すように、ユーザは、カテゴライズ手法としてカテゴ
リ内包数指定またはカテゴリ数指定を選択する。但し、
カテゴリ内包数指定手法は、カテゴリ対象属性が1つの
場合、またはカテゴリ対象が複数で評価式が入力されて
いる場合のみ有効である。選択した手法について、内包
数またはカテゴリ数をカウンタウィンドウから指定す
る。また、分析対象データの属性リストからカテゴライ
ズの対象の属性を指定する。指定されなかった場合は、
カテゴリ属性不定の場合のカテゴリ手法が起動される。
【0047】複数の属性を指定した場合は、複数の属性
の場合のカテゴリ手法が起動されるが、評価式が入力さ
れる場合は、この評価式を属性群に適用した結果を用い
て、単一属性の場合のカテゴリ手法が起動される。特徴
抽出手法として、基礎統計量利用手法(式(1)を使用
する抽出方式)かまたは相関係数利用手法(式(2)を
使用する抽出方式)のどちらか、または両方をチェック
ボックスにより指定できる。また、詳細設定画面からシ
ステムが利用できる分割手法が指定できる。また、視覚
化時にカテゴリ対象属性の主成分を利用したい場合は、
詳細設定画面で「主成分計算実行」をチェックする。カ
テゴリ範囲の最適化を行いたい場合も、同様に「カテゴ
リ範囲の最適化」をチェックする。
【0048】次に、図3に示すフローチャートを参照し
て、図1に示した実施形態の全体の処理について説明す
る。
【0049】図3においては、ユーザの指定に従ってカ
テゴライズ処理が起動される(ステップS11)。この
カテゴライズ処理の結果に対して、基礎統計利用の次式
(1)に示す評価関数fA を用いた特徴抽出(ステップ
S13)、または相関係数利用の次式(2)に示す評価
関数fB を用いた特徴抽出(ステップS15)、または
両方を用いた特徴抽出(ステップS13,15)を行
う。
【0050】基礎統計利用の評価関数fA は、次式の通
りである。
【0051】
【数19】 fA (nP ,mP ,sP ,mA ) ={1−1/(nP 1/2 }(mP −mA )/sP …(1) ここで、nP は部分データの数、mP は部分データの平
均、mA は全体の平均、sP は部分データの標準偏差で
ある。
【0052】また、相関係数利用の評価関数fB は、次
式の通りである。
【0053】
【数20】 fB (rA ,rP ,nP ,) ={1−1/(nP 1/2 }rP (rP −rA ) …(2) ここで、nP は部分データの数、rA は全体の相関係
数、rP は部分データの相関係数である。
【0054】次に、カテゴリ範囲の最適化が指定されて
いるか否かを判断し(ステップS17)、指定されてい
る場合には、カテゴリ最適化処理を行うべく、カテゴリ
対象属性数が単数かまたは複数かをチェックする(ステ
ップS19)。単数の場合には、後述する図7に示す最
適化手法Iを実行し(ステップS23)、複数の場合に
は、後述する図8に示す最適化手法IIを実行する(ス
テップS21)。
【0055】上述したように、本実施形態では、ユーザ
に条件を指定させ、このユーザが指定した条件に従って
カテゴライズし、このカテゴライズされたデータおよび
データ全体から平均、分散、相関係数を計算し、この計
算結果を用いて、あるカテゴリに属するデータのある属
性値の分布が全体に比べてどの程度偏っているかを判定
するために評価関数fA を計算し、またあるカテゴリに
属するある属性対の間の相関がデータ全体に比べてどの
程度高いかを判定するために評価関数fA を計算し、こ
の計算結果を用いて、最も特徴的ないくつかの属性を抽
出し、視覚化属性候補として提示している。
【0056】すなわち、本実施形態では、全データがユ
ーザの指定によりカテゴライズされた各カテゴリにおい
て、データ全体が規格化されるように変換した場合に、
あるカテゴリ内のデータ分布が全体の分布からどれくら
い離れているかを評価し、更に内包データ数が少数の場
合の補正を行った評価関数fA を計算するとともに、ま
た相関係数では、カテゴリ内データの相関係数自身の値
が大きく、かつ全データの相関係数の差の絶対値が大き
な値を有し、更に内包データ数が少数の場合の補正を行
った評価関数fB を計算することにより、カテゴライズ
対象とならなかったすべての属性についてその値域とデ
ータ数に関わらず比較し、特徴的な属性を抽出してい
る。
【0057】次に、図4に示すフローチャートを参照し
て、図3のステップS11のカテゴライズ処理について
説明する。
【0058】図4においては、まずユーザのGUIから
の指定に従って適当なカテゴライズ手法が選択される
(ステップS31)。このカテゴライズ手法には内包数
による分割、値による等分割、数による等分割、多次元
動的メッシュ、多次元クラスタリングなどがある。内包
数による分割の場合には、内包数が指定され、内包数に
よる分割によりカテゴライズが行われる(ステップS3
3)。
【0059】また、その他の場合には、分割数が指定さ
れ、カテゴリ属性数が1個であるかまたは複数であるか
または不定であるかが判断される(ステップS35)。
1個の場合には、値による等分割(ステップS41)ま
たは数による等分割(ステップS43)によりカテゴラ
イズが行われる。カテゴリ属性数が複数の場合には、評
価式があるか否かがチェックされ(ステップS37)、
評価式がある場合には、評価式の計算を行い(ステップ
S39)、この計算結果に基づいて値による等分割(ス
テップS41)または数による等分割(ステップS4
3)によりカテゴライズが行われる。
【0060】更に、カテゴリ属性数が不定である場合に
は、主成分計算が指定されているか否かをチェックし
(ステップS46)、主成分計算が指定されている場合
には、主成分計算を行い、多次元動的メッシュ(ステッ
プS55)または多次元クラスタリング(ステップS5
7)によりカテゴライズが行われる。
【0061】また、ステップS35の判定において、カ
テゴリ属性数が不定である場合には、因子分析を用い
て、属性のグルーピングを行う(ステップS49)。そ
れから、主成分計算が指定されているか否かをチェック
し(ステップS51)、指定されている場合には、第1
因子負荷量の計算を行い(ステップS53)、それぞれ
の因子に関連の高い属性群を用いて、多次元動的メッシ
ュ(ステップS55)または多次元クラスタリング(ス
テップS57)によりカテゴライズを行う。
【0062】次に、図5に示すフローチャートを参照し
て、図3のステップS13の基礎統計利用の評価関数f
A を用いた特徴抽出処理について説明する。図5におい
て、評価関数の結果でソートし(ステップS61)、評
価結果最大の特徴を取得する(ステップS63)。それ
から、特徴にフラグを立て(ステップS65)、同じカ
テゴリ内で次に大きい特徴を取得し(ステップS6
7)、特徴にフラグを立てる(ステップS69)。そし
て、この属性対を視覚化属性リストに追加し(ステップ
S71)、次に評価結果の大きい特徴を取得し(ステッ
プS73)、この評価結果がしきい値より大きいか否か
を判定し(ステップS75)、大きい場合には、ステッ
プS65に戻って、同じ処理を評価結果がしきい値より
小さくなるまで繰り返す。
【0063】次に、図6に示すフローチャートを参照し
て、図3のステップS15の相関係数利用の評価関数f
B を用いた特徴抽出処理について説明する。図6におい
て、評価関数の結果でソートし(ステップS81)、評
価結果最大の特徴を取得する(ステップS83)。それ
から、特徴にフラグを立てる(ステップS85)。そし
て、この属性対を視覚化属性リストに追加し(ステップ
S87)、次に評価結果の大きい特徴を取得し(ステッ
プS89)、この評価結果がしきい値より大きいか否か
を判定し(ステップS90)、大きい場合には、ステッ
プS85に戻って、同じ処理を評価結果がしきい値より
小さくなるまで繰り返す。
【0064】次に、図7に示すフローチャートを参照し
て、図3のステップS23の最適化手法I(対象属性が
1つの場合)について説明する。
【0065】図7においては、まず抽出された特徴から
カテゴリを最適化する特徴、すなわち最適化処理の対象
とする特徴を選択する(ステップS111)。そして、
データをカテゴリ対象属性の値の昇順にソートする(ス
テップS113)。カテゴリの最初のデータ番号を変数
iとし、カテゴリの最後のデータ番号を変数jとする
(ステップS115)。
【0066】次に、フェーズ1の始まりであり、まず対
象となる特徴を持つカテゴリの範囲内で最初のデータの
データ番号をiC とし、最後のデータ番号をjC とする
と、これらをそれぞれi,jに代入する(ステップS1
17)、次に、変数FMに(i,j)=(iC ,jC
における評価関数の計算結果f(i,j)を代入し、変
数iM ,jM に現在の値(iC ,jC )を代入する(ス
テップS119)。なお、評価関数は内包データ数、平
均、分散等の関数であるが、実際にはカテゴリ範囲が決
まれば決定されるので、ここではカテゴリの始点i、終
点jの関数としている。
【0067】次に、カテゴリの始点を現在の内包数より
半分だけ小さい点にとる(ステップS121)。そし
て、カテゴリの終点をカテゴリ内包データ数が最初と同
じになるようにとり、評価関数計算結果f(i,j)を
計算する(ステップS123)。それから、評価関数計
算結果f(i,j)をFMと比較し(ステップS12
5)、FMよりも大きい場合には、FMにこの新しい値
を代入し、変数iM ,jMに現在の値(i,j)を代入
する(ステップS127)。なお、FMよりも小さい場
合には、ステップS127をスキップする。次にカテゴ
リの始点を1つずらす。すなわち、変数iを1だけ大き
くする(ステップS129)。
【0068】それから、カテゴリの始点が元のカテゴリ
範囲の中間地点までいっているかどうかを判断する(ス
テップS131)。中間地点までいっていない場合に
は、ステップS123に戻って、同じ処理を繰り返す
が、中間地点に達している場合には、フェーズ1の終了
であり、フェーズ2に進む。
【0069】フェーズ2の始まりであり、カテゴリの始
点iを評価関数結果が最大だった範囲(iM ,jM )の
始点iM から内包数の半分だけ小さい点にとる(ステッ
プS133)。それから、カテゴリの終点jをiM +j
M =iにとり、評価関数f(i,j)を計算する(ステ
ップS135)。この評価関数f(i,j)の結果がF
Mより大きいか否かをチェックし(ステップS13
7)、FMよりも大きい場合には、FMにこの値を代入
し、変数iM M,jM Mに現在のi,jの値を代入する
(ステップS139)。
【0070】次に、カテゴリの始点を1つずらし(ステ
ップS141)、カテゴリの始点がフェーズ2の最初の
地点から元の影取り内包数分の地点まで達しているか否
かをチェックし(ステップS143)、達していれば、
フェーズ2の終了であるが、達していない場合には、ス
テップS135に戻って、同じ処理を繰り返す。
【0071】以上のようにして、(iM M,jM M)を
この特徴における最適のカテゴリとする(ステップS1
45)。そして、すべての特徴について最適カテゴリの
計算を行う(ステップS147)。
【0072】上述したように、最適化手法1では、最も
評価ポイントの高かったカテゴリに対して、カテゴライ
ズ対象の属性のそのカテゴリの始まりのデータ番号を
i、終わりをjとすると、カテゴライズ対象でない属性
の評価関数結果が最大となる(i,j)=(iC
C )を検出する。それから、j−i=nP を保ったま
ま、iをiC −nP /2からiC +nP /2までふり、
評価値が最大となるポイント(i,j)=(iM
M )を見つけ、更にi+j=iM +jM を保ったま
ま、iM をiM −nP /2からiM +nP /2までふ
り、最大ポイントを見つけるものである。
【0073】すなわち、カテゴリ区間最適化手法Iで
は、iとjで張る平面を考えた場合に、評価関数が直線
j=i上の点(i,j)=(0,nA )上で0となり、
j=i+aO (0《aO 《n)の付近で極値をとるとい
う性質とユーザ指定のカテゴライズ結果の評価点がaO
=nP とした場合の前記直線上の点となることから、こ
れらの点を中心に最適点を探すことにより、データ数に
対して1次のオーダで近似的な最適点を求めることがで
きる。
【0074】次に、図8に示すフローチャートを参照し
て、図3のステップS21の最適化手法IIについて説
明する。図8では、まず抽出された特徴からカテゴリを
最適化する特徴を選択する(ステップS151)。それ
から、ユーザが指定したK個全てのカテゴリの重心を求
める(ステップS153)。このK個の重心に対して階
層的クラスタリングをかける(ステップS155)。結
果としてできるΣK=K(K+1)/2個のクラスタ
(カテゴリ)に対して評価関数を計算する(ステップS
157)。そして、評価値最大のクラスタによって表現
されるカテゴリ範囲(部分空間)CM を得る(ステップ
S159)。
【0075】この得られたカテゴリ範囲CM を更にK個
のクラスタに分解する(ステップS161)。そして、
得られたK個のクラスタの重心を用いて再度階層的クラ
スタリングを行う(ステップS163)。結果としてで
きるΣK=K(K+1)/2個のクラスタ(カテゴリ)
に対して評価関数を計算する(ステップS165)。評
価値最大のクラスタ(カテゴリ範囲)CMMを得る(ステ
ップS167)。このCMMを最適のカテゴリ範囲とする
(ステップS169)。
【0076】上述したように、最適化手法IIでは、複
数の属性を対象としたカテゴライズの結果として生成さ
れたユーザ指定数のクラスタのクラスタ核(重心)を求
め、これらのクラスタ核を用いて、階層的クラスタリン
グを行う。階層的クラスタリングの結果のすべてのクラ
スタに対して評価関数を計算し、ポイント最大のクラス
タCM を求める。それから、このCM に対して再度ユー
ザ指定数のクラスタに分解(階層的クラスタリング)を
行い、それぞれのクラスタに対して最大の評価関数結果
を有するクラスタCMMを求めるものである。
【0077】すなわち、カテゴリ区間最適化手法IIで
は、カテゴライズ対象である複数属性の張る空間を非階
層的クラスタリング手法を用いて、互いに包含関係を持
つ複数の部分空間に分解することにより、評価関数が高
い値を持つ部分空間(カテゴリ範囲)CM を推定するこ
とができる。更に、その空間を非階層クラスタリングに
よる重心を用いて、再度階層クラスタリングして評価関
数を計算することにより、CM の中でも特に評価関数が
高い値をもつ部分空間CMMを決定することができる。こ
れをこの空間における近似的な最適部分空間と見なすこ
とができる。
【0078】図9は、上述した実施形態の適用例を概念
的に示した図である。同図では、一例として相撲力士の
データに対して普通に相関係数を計算すると、図9
(a)に示すように特に属性間に高い相関は見られない
が、図9(b)に示すようにデータを「地位」属性でカ
テゴライズし、それぞれのデータに対して相関係数を計
算すると、図9(c)に示すように、地位の高いカテゴ
リのデータでは身長と体重の間に高い相関関係が検出さ
れる。この結果から、身長と体重を座標軸に地位を大き
さにとって視覚化装置19にかけると、大きい図形がほ
ぼ直線上にならび、地位の高い力士の特徴を直観的に把
握することができる。
【0079】図10は、評価関数fA の作用を概念的に
示したものである。同図に示すように、データ全体が平
均値mA 、標準偏差SA で分布しているとし、あるカテ
ゴリに内包されるデータ(以下、部分データと称する)
のある属性の値が平均値mP、標準偏差SP で分布して
いるとすると、評価関数はmA −mP が大きく、SP
小さいほど高い値を示す。すなわち、部分データの分布
が全体から離れていて、かつ狭い部分に集まっている時
に高い値を示す。実際には全体の分布が平均値0,分散
1の分布に正規化する関数で部分データを変換し、更に
内包データ数が少数のときの補正を行っている。
【0080】図11は、カテゴリ対象属性が1つの場合
の最適化の作用を概念的に示したものである。第1軸を
カテゴリの始点iに第2軸を終点jに、評価関数を第3
軸にとったグラフが本図である。評価関数はA,Bどち
らも、点(i,j)=(0,nA )でゼロで、直線j=
i上に向ってゆるやかに大きくなり、カテゴリ内包数が
ゼロに近付くに連れ、不連続に減少し、直線j=i上で
は再びゼロになるという特性を持つ。この特性を利用
し、この関数が最大値を取るカテゴリ範囲を求めるため
に、まず直線j=i−iC +jC 上を走査し(処理フロ
ーのフェーズ1)、この直線上で関数が最大値をとる地
点(iM ,jM )から直線j=−i+iM+jM 上を走
査して(処理フローのフェーズ2)いる。
【0081】図12は、カテゴリ対象属性が複数の場合
の最適化の作用を概念的に示したものである。同図はカ
テゴリ対象となっている属性の張る多次元空間とデータ
の存在を示す点を示す概念図となっている。最適化処理
の前の特徴抽出の過程で行なわれたクラスタリングの結
果、データが図のようにカテゴライズ(クラスタリン
グ)され、また処理対象特徴を持つカテゴリ(この場合
クラスタ)が、“元のカテゴリ”として示されている部
分とする。本処理ではこれらクラスタを用いて階層的ク
ラスタリングを行ない、それぞれの新しいクラスタに対
し、評価関数を計算する。この結果、最大の評価関数結
果を持つものが、クラスタCM (2つクラスタを1つに
したもの)とすると、こクラスタCM に含まれる全ての
データに対し、再度多次元クラスタリング(非階層クラ
スタリング手法)を行なう。さらにこの結果として生成
されたクラスタに対し、2回目の階層的階層クラスタリ
ングを適用して、結果のクラスタそれぞれに対して再度
評価関数を計算する。そしてここで評価関数結果が最大
となったクラスタを結果のカテゴリとする。
【0082】
【発明の効果】以上説明したように、本発明によれば、
プログラミング等の複雑な手続きなしに、簡単なグラフ
ィカルインタフェースで統計手法等の数量的結果から自
動的に特徴を抽出し、その度合を判断して自動視覚化を
支援することができる。また、例えばビジュアルマイニ
ング支援のための自動視覚化において大きさ、形、色、
座標軸等の視覚化属性にマッピングする属性を決定する
ために、部分的な特徴を利用することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係わるカテゴライズ利用
特徴抽出方法を実施するカテゴライズ利用特徴抽出装置
の構成を示すブロック図である。
【図2】図1に示したユーザインタフェース機能部によ
るGUIの一例を示す図である。
【図3】図1に示した実施形態の全体の処理を示すフロ
ーチャートである。
【図4】図3のステップS11のカテゴライズ処理を示
すフローチャートである。
【図5】図3のステップS13の基礎統計利用の評価関
数fA を用いた特徴抽出処理を示すフローチャートであ
る。
【図6】図3のステップS15の相関係数利用の評価関
数fB を用いた特徴抽出処理を示すフローチャートであ
る。
【図7】図3のステップS23の最適化手法Iを示すフ
ローチャートである。
【図8】図3のステップS21の最適化手法IIを示す
フローチャートである。
【図9】図1の実施形態の適用例を概念的に示した図で
ある。
【図10】評価関数fA の作用を概念的に示した図であ
る。
【図11】カテゴリ対象属性が1つの場合の最適化作用
を概念的に示した図である。
【図12】カテゴリ対象属性が複数の場合の最適化の作
用を概念的に示した図である。
【符号の説明】
1 外部入力装置 3 ユーザインタフェース機能部 5 カテゴライズ機能部 11 数値演算機能部 13 評価関数計算機能部 15 属性抽出機能部 17 視覚化定義 19 視覚化装置 21 区間自動決定機能部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 磯部 成二 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 Fターム(参考) 5L096 HA09 JA22 MA07

Claims (21)

    【特許請求の範囲】
  1. 【請求項1】 複数の属性またはカラムを有するデータ
    に対し、ユーザが指定した属性および方法によってデー
    タを「値による等分割」「数による等分割」「多次元メ
    ッシュ」または「多次元クラスタリング」を含む手法を
    用いて、複数のデータ群であるカテゴリに分割するカテ
    ゴライズを行い、 前記カテゴライズの結果のそれぞれのカテゴリに対して
    カテゴライズに利用された属性であるカテゴリ対象属性
    以外の属性における特徴を検出することを特徴とするカ
    テゴライズ利用特徴抽出方法。
  2. 【請求項2】 前記カテゴライズ処理で分割生成された
    カテゴリにおいて、前記カテゴリ対象属性以外の任意の
    属性の値の分布がデータ全体の分布と比較して乖離して
    いる度合を次の評価関数: 【数1】fA (nP ,mP ,sP ,mA )={1−1/
    (nP 1/2 }(mP −mA )/sP ここで、nP は部分データの数、mP は部分データの平
    均、mA は全体の平均、sP は部分データの標準偏差で
    あり、によって判定し、乖離の度合が顕著である属性と
    対応するカテゴリをそのデータの部分的な特徴として抽
    出することを特徴とする請求項1記載のカテゴライズ利
    用特徴抽出方法。
  3. 【請求項3】 前記カテゴライズ処理で分割生成された
    カテゴリに対して、前記カテゴリ対象属性を除いた任意
    の2つの属性の相関係数の全体の相関係数との乖離の度
    合を次の評価関数: 【数2】fB (rA ,rP ,nP ,)={1−1/(n
    P 1/2 }rP (rP −rA ) ここで、nP は部分データの数、rA は全体の相関係
    数、rP は部分データの相関係数であり、 によって判定し、乖離の度合が顕著である属性対と対応
    するカテゴリをそのデータの部分的な特徴として抽出す
    ることを特徴とする請求項1記載のカテゴライズ利用特
    徴抽出方法。
  4. 【請求項4】 前記抽出された特徴および前記評価関数
    の結果を用いて、特に顕著な特徴を出力することを特徴
    とする請求項2または3記載のカテゴライズ利用特徴抽
    出方法。
  5. 【請求項5】 前記カテゴリ対象属性が単一である場
    合、前記特徴が最も顕著に現れるようなカテゴリの範囲
    であるカテゴリ区間を前記評価関数により求めるカテゴ
    リ区間最適化処理を行うことを特徴とする請求項2また
    は3記載のカテゴライズ利用特徴抽出方法。
  6. 【請求項6】 前記カテゴリ対象属性が複数である場
    合、前記特徴が最も顕著に現れるようなカテゴリの範囲
    であるカテゴリ区間を前記評価関数により求めるカテゴ
    リ区間最適化処理を行うことを特徴とする請求項2また
    は3記載のカテゴライズ利用特徴抽出方法。
  7. 【請求項7】 前記カテゴリ処理および特徴抽出につい
    てプログラミングすることなく、マウスを含む簡易なツ
    ールを用いて条件を入力できるグラフィカルユーザイン
    タフェース(GUI)画面を表示することを特徴とする
    請求項2または3記載のカテゴライズ利用特徴抽出方
    法。
  8. 【請求項8】 複数の属性またはカラムを有するデータ
    に対してユーザが指定した属性および方法によってデー
    タを「値による等分割」「数による等分割」「多次元メ
    ッシュ」または「多次元クラスタリング」を含む手法を
    用いて、複数のデータ群であるカテゴリに分割するカテ
    ゴライズを行うカテゴライズ手段と、前記カテゴライズ
    の結果のそれぞれのカテゴリに対してカテゴライズに利
    用された属性であるカテゴリ対象属性以外の属性におけ
    る特徴を検出する特徴検出手段とを有することを特徴と
    するカテゴライズ利用特徴抽出装置。
  9. 【請求項9】 前記カテゴライズ手段で分割生成された
    カテゴリにおいて、前記カテゴリ対象属性以外の任意の
    属性の値の分布がデータ全体の分布と比較して、乖離し
    ている度合を次の評価関数: 【数3】fA (nP ,mP ,sP ,mA )={1−1/
    (nP 1/2 }(mP −mA )/sP ここで、nP は部分データの数、mP は部分データの平
    均、mA は全体の平均、sP は部分データの標準偏差で
    あり、によって判定する判定手段と、該判定手段で判定
    した乖離の度合が顕著である属性と対応するカテゴリを
    そのデータの部分的な特徴として抽出する抽出手段とを
    有することを特徴とする請求項8記載のカテゴライズ利
    用特徴抽出装置。
  10. 【請求項10】 前記カテゴライズ手段で分割生成され
    たカテゴリに対して、前記カテゴリ対象属性を除いた任
    意の2つの属性の相関係数の全体の相関係数との乖離の
    度合を次の評価関数: 【数4】fB (rA ,rP ,nP ,)={1−1/(n
    P 1/2 }rP (rP −rA ) ここで、nP は部分データの数、rA は全体の相関係
    数、rP は部分データの相関係数であり、によって判定
    する判定手段と、該判定手段で判定した乖離の度合が顕
    著である属性対と対応するカテゴリをそのデータの部分
    的な特徴として抽出する抽出手段とを有することを特徴
    とする請求項8記載のカテゴライズ利用特徴抽出装置。
  11. 【請求項11】 前記抽出された特徴および前記評価関
    数の結果を用いて、特に顕著な特徴を出力する出力手段
    を有することを特徴とする請求項9または10記載のカ
    テゴライズ利用特徴抽出装置。
  12. 【請求項12】 前記カテゴリ対象属性が単一である場
    合、前記特徴が最も顕著に現れるようなカテゴリの範囲
    であるカテゴリ区間を前記評価関数により求めるカテゴ
    リ区間最適化手段を有することを特徴とする請求項9ま
    たは10記載のカテゴライズ利用特徴抽出装置。
  13. 【請求項13】 前記カテゴリ対象属性が複数である場
    合、前記特徴が最も顕著に現れるようなカテゴリの範囲
    であるカテゴリ区間を前記評価関数により求めるカテゴ
    リ区間最適化手段を有することを特徴とする請求項9ま
    たは10記載のカテゴライズ利用特徴抽出装置。
  14. 【請求項14】 前記カテゴリ手段および特徴抽出につ
    いてプログラミングすることなく、マウスを含む簡易な
    ツールを用いて条件を入力できるグラフィカルユーザイ
    ンタフェース(GUI)画面を表示する表示手段を有す
    ることを特徴とする請求項9または10記載のカテゴラ
    イズ利用特徴抽出装置。
  15. 【請求項15】 複数の属性またはカラムを有するデー
    タに対してユーザが指定した属性および方法によってデ
    ータを「値による等分割」「数による等分割」「多次元
    メッシュ」または「多次元クラスタリング」を含む手法
    を用いて、複数のデータ群であるカテゴリに分割するカ
    テゴライズを行い、前記カテゴライズの結果のそれぞれ
    のカテゴリに対してカテゴライズに利用された属性であ
    るカテゴリ対象属性以外の属性における特徴を検出する
    ことを特徴とするカテゴライズ利用特徴抽出プログラム
    を記録した記録媒体。
  16. 【請求項16】 前記カテゴライズ処理で分割生成され
    たカテゴリにおいて、前記カテゴリ対象属性以外の任意
    の属性の値の分布がデータ全体の分布と比較して乖離し
    ている度合を次の評価関数: 【数5】fA (nP ,mP ,sP ,mA )={1−1/
    (nP 1/2 }(mP −mA )/sP ここで、nP は部分データの数、mP は部分データの平
    均、mA は全体の平均、sP は部分データの標準偏差で
    あり、によって判定し、乖離の度合が顕著である属性と
    対応するカテゴリをそのデータの部分的な特徴として抽
    出することを特徴とする請求項15記載のカテゴライズ
    利用特徴抽出プログラムを記録した記録媒体。
  17. 【請求項17】 前記カテゴライズ処理で分割生成され
    たカテゴリに対して、前記カテゴリ対象属性を除いた任
    意の2つの属性の相関係数の全体の相関係数との乖離の
    度合を次の評価関数: 【数6】fB (rA ,rP ,nP ,)={1−1/(n
    P 1/2 }rP (rP −rA ) ここで、nP は部分データの数、rA は全体の相関係
    数、rP は部分データの相関係数であり、によって判定
    し、乖離の度合が顕著である属性対と対応するカテゴリ
    をそのデータの部分的な特徴として抽出することを特徴
    とする請求項15記載のカテゴライズ利用特徴抽出プロ
    グラムを記録した記録媒体。
  18. 【請求項18】 前記抽出された特徴および前記評価関
    数の結果を用いて、特に顕著な特徴を出力することを特
    徴とする請求項16または17記載のカテゴライズ利用
    特徴抽出プログラムを記録した記録媒体。
  19. 【請求項19】 前記カテゴリ対象属性が単一である場
    合、前記特徴が最も顕著に現れるようなカテゴリの範囲
    であるカテゴリ区間を前記評価関数により求めるカテゴ
    リ区間最適化処理を行うことを特徴とする請求項16ま
    たは17記載のカテゴライズ利用特徴抽出プログラムを
    記録した記録媒体。
  20. 【請求項20】 前記カテゴリ対象属性が複数である場
    合、前記特徴が最も顕著に現れるようなカテゴリの範囲
    であるカテゴリ区間を前記評価関数により求めるカテゴ
    リ区間最適化処理を行うことを特徴とする請求項16ま
    たは17記載のカテゴライズ利用特徴抽出プログラムを
    記録した記録媒体。
  21. 【請求項21】 前記カテゴリ処理および特徴抽出につ
    いてプログラミングすることなく、マウスを含む簡易な
    ツールを用いて条件を入力できるグラフィカルユーザイ
    ンタフェース(GUI)画面を表示することを特徴とす
    る請求項16または17記載のカテゴライズ利用特徴抽
    出プログラムを記録した記録媒体。
JP27107298A 1998-09-25 1998-09-25 カテゴライズ利用特徴抽出装置 Expired - Lifetime JP3708724B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27107298A JP3708724B2 (ja) 1998-09-25 1998-09-25 カテゴライズ利用特徴抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27107298A JP3708724B2 (ja) 1998-09-25 1998-09-25 カテゴライズ利用特徴抽出装置

Publications (2)

Publication Number Publication Date
JP2000099746A true JP2000099746A (ja) 2000-04-07
JP3708724B2 JP3708724B2 (ja) 2005-10-19

Family

ID=17495003

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27107298A Expired - Lifetime JP3708724B2 (ja) 1998-09-25 1998-09-25 カテゴライズ利用特徴抽出装置

Country Status (1)

Country Link
JP (1) JP3708724B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002015067A1 (fr) * 2000-08-09 2002-02-21 Hideo Fujita Procede de traitement d'informations, systeme de support et outil associe
US7346600B2 (en) 2003-02-14 2008-03-18 Fujitsu Limited Data analyzer

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102500620B1 (ko) * 2020-06-12 2023-02-15 윤정호 오프라인 모임 운영방법 및 시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0877010A (ja) * 1994-09-07 1996-03-22 Hitachi Ltd データ分析方法および装置
JPH1115895A (ja) * 1997-06-19 1999-01-22 Fujitsu Ltd データ表示装置、データ表示方法、およびデータ表示用プログラムを記録した記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0877010A (ja) * 1994-09-07 1996-03-22 Hitachi Ltd データ分析方法および装置
JPH1115895A (ja) * 1997-06-19 1999-01-22 Fujitsu Ltd データ表示装置、データ表示方法、およびデータ表示用プログラムを記録した記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002015067A1 (fr) * 2000-08-09 2002-02-21 Hideo Fujita Procede de traitement d'informations, systeme de support et outil associe
JPWO2002015067A1 (ja) * 2000-08-09 2004-01-15 藤田 英夫 情報処理の方法及びその支援システム並びにそれらに用いるツール
JP4812229B2 (ja) * 2000-08-09 2011-11-09 英夫 藤田 情報処理の方法及びその支援システム並びにそれらに用いるツール
US7346600B2 (en) 2003-02-14 2008-03-18 Fujitsu Limited Data analyzer

Also Published As

Publication number Publication date
JP3708724B2 (ja) 2005-10-19

Similar Documents

Publication Publication Date Title
US20230325410A1 (en) Data analysis engine
US7707143B2 (en) Systems, methods, and computer program products that automatically discover metadata objects and generate multidimensional models
JP3888812B2 (ja) 事実データ統合方法および装置
US20130268520A1 (en) Incremental Visualization for Structured Data in an Enterprise-level Data Store
KR101017504B1 (ko) 단순화된 분석 발견법을 이용한 자동화된 차원 모델 정의 및 구축을 위한 데이터 분석 시스템, 방법, 디바이스 및 컴퓨터 판독가능 기록 매체
JP6741216B2 (ja) ログ分析システム、方法およびプログラム
CN107180093A (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
CN109815042B (zh) 异常因素的定位方法、装置、服务器和存储介质
US6675126B2 (en) Method, computer program, and storage medium for estimating randomness of function of representative value of random variable by the use of gradient of same function
CN116662371A (zh) 一种跨域数据融合方法
CN108596789B (zh) 一种菜品标准化的方法
CN114978877B (zh) 一种异常处理方法、装置、电子设备及计算机可读介质
US20030033138A1 (en) Method for partitioning a data set into frequency vectors for clustering
CN111523815A (zh) 一种电网工程评审方法、装置、电子设备和存储介质
CN110737600A (zh) 崩溃统计数据显示方法、装置、计算机设备及存储介质
US7992126B2 (en) Apparatus and method for quantitatively measuring the balance within a balanced scorecard
CN110472659A (zh) 数据处理方法、装置、计算机可读存储介质和计算机设备
JP2000099746A (ja) カテゴライズ利用特徴抽出方法および装置とカテゴライズ利用特徴抽出プログラムを記録した記録媒体
JP5716966B2 (ja) データ分析装置、データ分析方法及びプログラム
JP5045240B2 (ja) データ分割プログラム、該プログラムを記録した記録媒体、データ分割装置、およびデータ分割方法
CN108197183B (zh) 一种基于安卓应用的控件布局推荐方法及其系统
US20210397598A1 (en) Data management method, data management system and program
CN111930967B (zh) 一种基于知识图谱的数据查询方法、装置及存储介质
CN115062133A (zh) 基于数据模型的数据查询方法、装置、计算机设备及介质
CN111949644B (zh) 一种面向电力行业业务系统的数据质量评价方法和设备

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20031212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050104

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050307

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050510

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050804

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080812

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090812

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090812

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100812

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100812

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110812

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120812

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130812

Year of fee payment: 8

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term