JP3049636B2 - データ分析方法 - Google Patents

データ分析方法

Info

Publication number
JP3049636B2
JP3049636B2 JP7100027A JP10002795A JP3049636B2 JP 3049636 B2 JP3049636 B2 JP 3049636B2 JP 7100027 A JP7100027 A JP 7100027A JP 10002795 A JP10002795 A JP 10002795A JP 3049636 B2 JP3049636 B2 JP 3049636B2
Authority
JP
Japan
Prior art keywords
rule
rules
similarity
user
specified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP7100027A
Other languages
English (en)
Other versions
JPH08272825A (ja
Inventor
洋司 谷口
一宏 川嶋
昭憲 石橋
敬士 矢島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP7100027A priority Critical patent/JP3049636B2/ja
Priority to US08/623,903 priority patent/US5764975A/en
Publication of JPH08272825A publication Critical patent/JPH08272825A/ja
Application granted granted Critical
Publication of JP3049636B2 publication Critical patent/JP3049636B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、物理実験あるいはビジ
ネスなどの分野において、大量のレコードからなるデー
タベースから、その中に含まれるレコードの属性間の関
係を導き、それらを利用者にとって有用なルール形式で
表現するデータ分析方法に関する。
【0002】
【従来の技術】計算機技術の進歩により、計算機内に蓄
積されるデータ量は年々増大している。特にネットワー
ク化が進むにつれて、オンラインシステムを中心にこの
傾向はますます顕著になっている。現在ではレコード数
で100万件、データ量でギガ(=10の9乗)バイト
を越えるものも珍しくない。計算機内に蓄積されたデー
タは、それだけでは数値や記号の集まりに過ぎないこと
が多い。そこで、このデータの集まりを利用者にとって
有用な情報に変換し、データの有効活用を図ろうとする
データマイニング技術が提案されている。例えば、Ch
ristopher J.Matheus,et a
l.:Systems for Knowledge
Discovery inDatabases,IEE
E Trans,on Knowledgeand D
ata Engineering, Vol.5, N
o.6,December 1993, pp903−
913では、データベースから知識を抽出するシステム
について論じられている。ここではルールインダクショ
ンと呼ばれる知識獲得手法が用いられている。これは利
用者にとって理解しやすい「もし〜ならば…である」と
いったルール形式に変換して分析結果を出力する方法で
ある。例えば、日立クリエイティブワークステーション
2050 ES/TOOL/W−RI解説/操作マニュ
アルのページ23から31に、データ間に存在する関係
をルールの形で表現する手法が述べられている。ロこの
方法は、蓄積されたデータに含まれている因果関係や規
則性といった特徴を、利用者が発見するという目的に利
用することが可能である。
【0003】
【発明が解決しようとする課題】例を用いて上記マニュ
アルに述べられている方法を説明する。まず、データを
個々の事例の集合と考える。銀行の顧客データベースか
ら顧客の金融商品の購入動向を調べるといった利用方法
では、年齢・預金残高・職業・年収・金融商品購入履歴
といった顧客ごとの情報の組が1つの事例であり、分析
の対象とするデータはこの事例の集まりと見なすことが
できる。上記従来技術によるルール生成の例を説明す
る。例として、ある金融商品(商品Aとする)を購入し
た顧客の部分的特徴を調べることを考える。この場合、
顧客に関するデータの各項目(年齢や預金残高など)の
値から、商品Aを購入した顧客と、購入していない顧客
をできるだけ精度よく分類するルールを生成することが
目的となる。上記従来技術では、項目の値の組合せ(例
えば年齢が40歳以上でかつ預金残高が1000万以
上、など)の中で、顧客を精度よく分類する組合せを選
択する。この場合の精度とは、いくつかの項目が特定の
値(年齢=40歳以上、預金残高=1000万以上な
ど)をもつ顧客の部分集合の中で、商品Aを購入した顧
客の割合が大きければ大きいほど、商品Aを購入した顧
客の特徴を精度良く分類するものと考える。この項目の
特定の値の組合せは、「IF 年齢が40歳以上 AN
D 預金残高が1000万以上 THEN 金融商品A
を購入」というルールの形式で表現することができる。
ここで、「IF 年齢が40歳以上 AND 預金残高
が1000万以上」の部分をルールの条件部、「年齢が
40歳以上」「預金残高が1000万以上」をそれぞれ
条件節と呼ぶ。また、「THEN 金融商品Aを購入」
の部分をルールの結論部と呼ぶ。
【0004】蓄積されたデータに含まれている因果関係
や規則性といった特徴を、利用者が発見し、理解した上
で利用するためには、上記従来技術で生成されるルール
で使用する項目数は少ない方が有用性が高く、経験的に
は3項目程度が望ましい。しかし、銀行の顧客データベ
ースのように各データが多数の項目から成り立っている
場合、項目数の少ないルールを生成すると、同じ顧客の
集団を違った項目で表現したルールが多数生成される可
能性が高くなる。図18を利用して詳しく説明する。こ
こでは、ルールの条件節数を1に制限した場合を考え
る。図18は ルール1:IF 年齢 =30歳以上60歳未満 THEN
商品A購入あり ルール2:IF ローン額=1万円以上2万円未満 THEN
商品A購入あり とし、分析対象とした顧客データを年齢とローン額に関
して散布図表示したものである。1801に示している
ように、黒丸は商品Aを購入した顧客を表し、白丸は購
入しなかった顧客を表す。また、エリア1802はルー
ル1の条件部の表す範囲(年齢=30歳以上60歳未
満)を、エリア1803はルール2の条件部の表す範囲
(ローン額=1万円以上2万円未満)である。ルール
1、ルール2は共にエリア1804内の4人の顧客の特
徴を表現したものであることがわかる。
【0005】上記従来技術では、生成された複数のルー
ルが同じデータのかたまりが持つ特徴を表すものなの
か、別のデータのかたまりが持つ特徴を表すものなのか
が判別できない。従って、分析対象データ中にいくつも
存在している可能性のあるデータのかたまりが持つ特徴
を正確に捕らえることができないという問題があった。
本発明の目的は、蓄積されたデータから生成される複数
のルールを、それぞれに適合するデータの共通性が高い
ルールと、共通性のないルールに区別し、データの中に
別々に存在しているデータのかたまりが持つ特徴を表す
夫々のルールを抽出できるデータ分析方法を提供するこ
とにある。本発明の他の目的は、蓄積されたデータから
生成される複数のルールを、それぞれに適合するデータ
の共通性の高いルール群に分類できるデータ分析方法を
提供することにある。本発明のさらに他の目的は、蓄積
されたデータから生成される複数のルールのそれぞれに
適合するデータの包含関係を明らかにできるデータ分析
方法を提供することにある。
【0006】
【問題を解決するための手段】上記目的を達成するた
め、本発明は、入力装置と、出力装置と、記憶装置を有
する処理装置と、データベースを備えるデータ処理シス
テムにおけるデータベースのレコード項目間の部分的関
係を導くデータ分析方法であり、該データベースの全部
あるいは一部のレコードから、予め定められた特徴を持
つレコードの出現領域を抽出するルールをユーザの入力
装置による指示に基づき1以上のレコード項目を含む条
件部と1つのレコード項目を含む結論部からなるルール
形式でルールの適合度と共にユーザの指示した数だけ生
成し、前記出力装置に表示するステップと、ユーザの入
力装置により指定した指定ルールと他のルールとのルー
ルの類似度を求めるステップと、前記指定ルールと、ユ
ーザの入力装置により指定した最低類似度以上のルール
の類似度を有する前記他のルールとを組にして前記出力
装置に表示するステップと、前記表示されたルールの組
をユーザの入力装置による指示に基づき前記記憶装置あ
るいはデータベースに登録するステップからなるように
している。さらに、ユーザの入力装置による指示に基づ
き前記登録されたルールからルールを選択し、あるいは
新たなルールを生成するステップと、前記選択したルー
ルおよび新たに生成したルールにおける各1対のルール
間の類似度を求め前記出力装置に表示するステップと、
ユーザの入力装置により指定した前記1対のルールの包
含関係を求め前記出力装置に表示するステップをさらに
備えるようにしている。また、前記指定ルールと、ユー
ザの入力装置により指定した最低類似度以上のルールの
類似度を有する前記他のルールとを組にして前記出力装
置に表示する場合、前記最低類似度以上のルールの類似
度を有する前記他のルールを類似度の高い順番に表示す
るようにしている。また、前記1対のルールの包含関係
を、該各ルールの両方に適合するレコードの数からなる
一致数と、各一方のルールのみに適合するレコードの数
からなる各不一致数として求め、該包含関係を前記出力
装置に図形表示するようにしている。
【0007】
【作用】上記手段により、データベースの全部あるいは
一部のレコードから、予め定められた特徴を持つレコー
ドの出現領域を抽出するルールを複数生成でき、生成し
た各ルールと、その適合度を表示でき、生成したルール
の内の指定したルールと他のルールとの類似度を求め、
指定ルールと最低類似度以上のルールの類似度を有する
他のルールとを組にして表示でき、表示したルールの組
を選択的に登録することができる。さらに、登録された
ルールからルールを選択し、あるいは新たなルールを生
成し、該選択したルールおよび新たに生成したルールに
おける各1対のルール間の類似度を求め、表示し、指定
した1対のルールの包含関係を求め、表示することがで
きる。
【0008】
【実施例】以下、図面を用いて本発明の実施例を説明す
る。本実施例では金融商品購入顧客の分析の例を用い
る。図1に本実施例の分析処理の全体構成を示す。ルー
ル生成処理10では、分析対象データベース100から
分析対象データを読み込み、ルールの生成条件設定処理
11を行い、ルール200を複数生成する。類似性評価
処理20では、ルール200を入力として各ルールに適
合する上記分析対象データの一致数および不一致数に基
づき、生成されたルール間の類似関係情報300を出力
する。ルール類似関係表示処理30では、ルール類似関
係情報300を入力とし、複数のルール間の類似関係を
出力装置5に図形表示し、登録する。ユーザはルール間
の類似関係表示を見て判断し、生成されたルールから選
択あるいは新たに定義して複数のルールを入力する。ユ
ーザ指定ルール評価処理40では、入力されたユーザ指
定ルールの適合度・ルール間の類似度を、上記分析対象
データから求め、出力装置5に出力する。
【0009】図2に、以上の分析処理を実行するための
システムのハードウェア構成を示す。上記処理を実行す
るCPU1及びメモリ4、分析対象データベース100
を蓄積する外部記憶装置2、ユーザ定義ルール等を入力
するキーボード及びマウスなどの入力装置3、上記類似
関係、適合度を出力する出力装置5から構成される。
【0010】図3に分析対象データベース100に格納
されている分析対象データの例を示す。ここでは、ある
金融商品の購入に関して、顧客の動向を分析することを
考える。図3のデータには、顧客番号・年齢・性別・地
域コード・預金残高・ローン残高などの情報とともに、
ある金融商品の購入実績が格納されている。このデータ
を分析しようとする利用者は、顧客のどんな属性が金融
商品の購入に影響しているかを分析することにより、ダ
イレクトメールや訪問販売など、その金融商品拡販のた
めの戦略(どのような顧客層にアプローチするのが最適
か、など)を検討することを目的としている。
【0011】図4にルール生成処理10によって生成さ
れるルール200の例を示す。ルール1は「年齢が35
歳以上40歳未満で、預金残高が2000万円以上であ
る顧客の37%(適合度)が金融商品を購入している」
ことを示している。ルール2は「年齢が40歳以上45
歳未満で、性別が男性で、地域コードが3である顧客の
31%(適合度)が金融商品を購入している」ことを示
している。ルール3は「年齢が35歳以上40歳未満
で、ローン残高が100万円未満である顧客の26%
(適合度)が金融商品を購入している」ことを示してい
る。また、ルール1、ルール2、ルール3、・・・は適
合度の高い順番に並んでいる。
【0012】図5に類似性評価処理20によって求めら
れるルール類似関係情報300の例を示す。ルール20
0から1つのルールを指定し、これを特定ルールとし、
それ以外のルールを指定ルールとの類似度順に並べて表
示する時に利用される情報の例である。類似度について
は後述する。これは、表示ルールの最低類似度を0.8
とした場合の例であり、指定ルールとの類似度が0.8
以上のルールはM個検出され、指定ルールとの類似度が
最も高いルールはルール5であり、類似度が0.98で
あることを示している。
【0013】以下、各処理の詳細を図1に従って順に説
明する。図6は、ルール生成処理10の処理フローであ
る。s601では、分析対象データベース100から分
析対象データを読み込む。
【0014】s602では、条件項目、結論項目、最大
条件部数、生成ルール数からなるルール生成条件を設定
する。図7にルール生成条件設定画面を示す。まず分析
対象データ読み込み直後にはいずれの項目も選択されて
おらず、図3の分析対象データの各項目の名称が未使用
項目名リストボックス701に表示されており、条件項
目名リストボックス702、結論項目名リストボックス
703の内容は空である。リストボックス701中の項
目をマウス等の入力装置3を用いて複数選択し、ボタン
704をクリックすることにより、選択中の項目が条件
項目として選択され、リストボックス701からその項
目名が削除され、リストボックス702にその項目名が
追加されて表示される。同様に、リストボックス701
の項目を1つ選択してボタン706をクリックすること
により、結論項目が選択される。リストボックス702
および703の項目を削除するときも同様に、削除項目
を選択してボタン705、707をクリックする。さら
に、テキストエリア708にキーボード等の入力装置3
を用いてルールの最大条件節数を、テキストエリア70
9に生成ルール数を入力する。これらの選択・入力が終
了後、ボタン710をクリックすると、ルール生成条件
設定処理が終了する。またボタン711をクリックする
とその時点でのルール生成条件設定情報を全て破棄す
る。
【0015】s603では、数値項目(年齢、預金残高
など)のカテゴリ化を行う。カテゴリ化とは数値を記号
に変換する処理を表す。図8にカテゴリ値の設定画面を
示す。まず、カテゴリ値設定開始時にリストボックス8
01には、ルール生成条件設定において条件項目あるい
は結論項目に設定された項目の中で、数値項目であるも
のが表示される。この中からカテゴリ値設定する数値項
目をマウス等の入力装置3を用いてクリック選択する。
次にリストボックス802にキーボード等の入力装置3
を用いてカテゴリの範囲、カテゴリ値を入力する。図8
では、カテゴリ値設定する数値項目として「年齢」を選
択し、「年齢」に関して、「0歳以上20歳未満」のカ
テゴリ(範囲)のデータに「未成年」というカテゴリ値
を、「20歳以上30歳未満」のカテゴリ(範囲)のデ
ータに「20〜30」というカテゴリ値を、「30歳以
上」のカテゴリ(範囲)のデータに「30歳以上」とい
うカテゴリ値を設定している。これらの入力が終了後、
ボタン803をクリックすると、年齢に関するカテゴリ
化が行われる。同様に、他の数値項目に関しても行い、
ボタン804をクリックすると、カテゴリ値設定処理が
終了する。またボタン805をクリックするとその時点
でのカテゴリ化設定情報を全て破棄する。
【0016】s604では、数値項目がカテゴリ化され
て、全ての項目が記号で表された分析対象データから、
ルールが導出される。ルールの導出については、前述の
従来技術の項で述べた文献等により公知である。項目の
値の組(例えば年齢が40歳以上でかつ預金残高が10
00万以上、など)の中で、与えられたデータをもっと
も精度よく分類する組が導出される。この場合の精度と
は、特定の値を持つ事例の部分集合の中で、金融商品A
を購入した顧客に対応する事例の割合(適合度)が大き
ければ大きいほど、購入した顧客の特徴を精度良く分類
するものと考える。この値の組は、「IF 年齢が40
歳以上 AND 預金残高が1000万以上 THEN
金融商品Aを購入」というルールの形式で表現され
る。
【0017】s605では、導出されたルールが適合度
の高い順番に出力装置5に表示される。図9に画面表示
例を示す。例えば、901は「年齢が35歳以上40歳
未満で、預金残高が2000万円以上である顧客の37
%(適合度)が金融商品を購入している」ことを表すル
ールを示している。また、901、902、903、・
・・は左からルールの適合度の高い順番に並んでいる。
【0018】図10は、類似性評価処理20からルール
類似関係表示処理30までの処理フローである。s10
01では、指定ルールの表示と共に表示する類似ルール
の最低類似度(Soとする)を入力する。s1002で
は、適合度順に表示されたルールから任意のルール(ル
ールαとする)を指定ルールとしてマウス等の入力装置
3で指定する。
【0019】s1003では、ルールαとそれ以外のル
ールとの間の類似性評価処理20を行う。図11に類似
性評価処理の詳細フローを示す。s1101では、カウ
ンタであるiを初期化し、s1102では、iに1を加
える。s1103ではルールαとα以外のi番目のルー
ルとのルールの類似度Siを計算する。類似度計算には
数1を用いる。 Si=A/B ・・・(数1) 但し、A=(ルールαに適合したデータとルールiに適
合したデータの積集合数) B=(ルールαに適合したデータとルールiに適合した
データの和集合数) s1104ではルールαとそれ以外の全てのルールとの
類似性評価が終了したかを判定し、終了していればs1
105に進み、終了していなければs1102に戻る。
s1105ではルールα以外のルールを類似度の高い順
番にソートし、s1106では類似度SiがSo以上の
ルールを検出し、ルール類似関係情報300を生成す
る。
【0020】s1004では、ルール類似関係情報30
0を利用してルール類似関係表示処理30を行う。図1
2にルール類似関係表示処理30の詳細処理フローを示
す。s1201では指定ルールαと検出された類似ルー
ルを出力装置5に類似度順に表示する。図13に表示例
を示す。指定ルールαを表すエリア1301の下に類似
ルールを表すエリアが類似度の高い順番に3個表示され
ている。これは類似度Soを0.8とした場合の表示例
であり、指定ルールαとの類似度Soが0.8以上であ
ったルールが3件であったことを表している。s120
2ではs1201の表示内容を類似ルール群として類似
関係表示に登録するかどうかをユーザが選択する。登録
する場合にはs1204に進み、登録しない場合は処理
を終了する。s1203ではs1201の表示内容が類
似関係表示として出力装置5の新たなウィンドウに表示
される。以降登録される表示内容はこのウィンドウに追
加表示される。図14に類似関係表示の例を示す。エリ
ア1402に2つめの類似ルール群としてルール5に類
似したルール23、ルール12が表示されている。s1
204ではs1002で表示されている適合度順のルー
ル表示(図9)から、指定ルールαと検出された類似ル
ールを削除し、処理を終了する。
【0021】s1005では、生成された全てのルール
200を類似ルール群として類似関係表示し終わったか
を判定する。全て表示し終わっていればs1006に進
み、表示し終わっていなければs1002に戻る。s1
006では表示ルールの最低類似度Soを変更して類似
性評価をやり直すかどうかを選択し、やり直す場合には
s1001に戻り、やり直さない場合にはユーザ指定ル
ール評価処理40に進む。
【0022】以上の類似性評価処理20および類似関係
表示処理30により、生成された複数のルールの間の類
似度を評価し、類似ルール群に分類できるので、それぞ
れの類似ルール群からルールを選択し、利用者にとって
有用な独立性のあるデータのかたまりを表すルールを抽
出することができる。
【0023】図15は、ユーザ指定ルール評価処理40
の処理フローである。s1501では、ユーザがルール
間の類似関係表示を見て、生成されたルール群から選択
あるいは新たに定義して、複数のルールを入力する。生
成されたルール群からのルールの選択は、マウスクリッ
クにより行う。また、ユーザによる新たなルールの定義
は、if−thenルール形式でキーボードを利用して
行う。ユーザによる新たなルールの定義が必要となるの
は、以下の2つの場合が考えられる。 (1)ルールが合成可能な場合 ルール1:「IF年齢が20歳以上30歳未満THEN
商品購入あり」 ルール2:「IF年齢が30歳以上40歳未満THEN
商品購入あり」 2つのルールの適合度が共に高い場合、以下の合成が考
えられる。 合成後 :「IF年齢が20歳以上40歳未満THEN
商品購入あり」 (2)類似したルールに用いられている条件項目の組合
せにより利用価値の高いルールとなりうる場合 最大条件節数によってルールの条件部に表れる条件項目
数は制限されるが、場合によっては条件項目数を増やす
ことによって利用価値の高いルールとなる可能性があ
る。
【0024】s1502では、入力された複数のルール
間の類似度を数1を用いて計算する。s1503では、
分析対象データを利用して、入力された複数のルールの
適合度を計算する。適合度は、前述した適合度と同じで
あり、ルールの条件部を満足するデータの中で結論部を
満足するデータの割合(%)である。s1504では、
ユーザ指定ルールの評価結果を表示する。図16に表示
例を示す。例えば、ルール1の適合度は70%で、他の
ルールとの類似度はそれぞれルール3が0.1、ルール
5が0.0、ルール9が0.13であることを示してい
る。s1505では、包含関係表示の対象と成る2つの
ルールを指定する。指定は、ユーザ指定ルールの評価結
果の類似度が表示されているテキスト領域をマウスでク
リックすることにより行う。例えば、図16のテキスト
領域161をクリックした場合は、ルール1とルール3
を指定することになる。s1506では、指定された2
つのルールの包含関係を表示する。図17に表示例を示
す。それぞれのルールに適合するデータ件数をベン図上
の対応する図形領域に表示する。すなわち、一方のルー
ルにのみ適合するデータ件数をエリア1701とエリア
1703の2ヵ所に、両方のルールに共通して適合する
データの件数をエリア1702に表示する。(a)は3
つの領域共にデータが満遍なく分布しており、2つのル
ールにはデータ共有性は少ない。(b)はエリア170
6の件数は0でありルール9のみに適合するデータはな
く、ルール1に適合するデータがルール9に適合するデ
ータを含んでいることがわかる。s1507で、別のル
ールを評価する場合にはs1501に戻り、そうでない
場合にはs1506に進む。s1508で、ルールを生
成し直す場合には、s601に戻り、そうでない場合に
は処理を終了する。
【0025】以上のユーザ指定ルール評価処理40によ
り、以下の効果が実現できる。ユーザ指定ルール評価結
果表示により、ユーザが選択あるいは定義した複数のル
ール間の類似関係を一覧できるので、ルールを利用する
上で必要なルールの表すデータのかたまりの独立性を確
認できる。また、(1)ルールが合成可能な場合や
(2)類似したルールに用いられている条件項目の組合
せにより利用価値の高いルールとなりうる場合に、ユー
ザによる新たなルールの定義をして独立性・適合性を評
価できるので、生成されたそのままのルールよりも利用
価値の高いルールを抽出できる。
【0026】
【発明の効果】以上、本実施例で述べた方法によれば次
のような効果を得ることができる。類似性評価処理およ
び類似関係表示処理により、生成された複数のルールの
間の類似度を評価し、類似ルール群に分類できるので、
それぞれの類似ルール群からルールを選択し、利用者に
とって有用な独立性のあるルールを抽出することができ
るという効果がある。ユーザ指定ルール評価処理におい
ては、ユーザ指定ルール評価結果表示により、ユーザが
選択あるいは定義した複数のルール間の類似関係を一覧
できるので、ルールを利用する上で必要なルールの独立
性・適合性を確認できるという効果がある。また、
(1)ルールが合成可能な場合や(2)類似したルール
に用いられている条件項目の組合せにより利用価値の高
いルールとなりうる場合に、ユーザによる新たなルール
の定義をして独立性・適合性を評価できるので、生成さ
れたそのままのルールよりも利用価値の高いルールを抽
出できるという効果がある。
【図面の簡単な説明】
【図1】本実施例のデータ分析処理の全体構成を示す図
である。
【図2】本実施例の分析処理を実行するためのシステム
のハードウェア構成を示す図である。
【図3】分析対象データベースに格納されている分析対
象データの例を示す図である。
【図4】ルール生成処理によって生成されるルールの例
を示す図である。
【図5】類似性評価処理によって求められるルール類似
関係情報の例を示す図である。
【図6】ルール生成処理のフローチャートを示す図であ
る。
【図7】ルール生成条件設定画面の例を示す図である。
【図8】カテゴリ値の設定画面の例を示す図である。
【図9】導出されたルールの画面表示例を示す図であ
る。
【図10】類似性評価処理からルール類似関係表示処理
までのフローチャートを示す図である。
【図11】類似性評価処理の詳細フローチャートを示す
図である。
【図12】ルール類似関係表示処理の詳細フローチャー
トを示す図である。
【図13】指定ルールαと検出された類似ルールの画面
表示例を示す図である。
【図14】類似関係表示の例を示す図である。
【図15】ユーザ指定ルール評価処理のフローチャート
を示す図である。
【図16】ユーザ指定ルールの評価結果の画面表示例を
示す図である。
【図17】指定された2つのルールの包含関係の画面表
示例を示す図である。
【図18】同じ顧客の集団を違った項目で表現した2つ
のルールを説明するための図である。
【符号の説明】
1 CPU 2 外部記憶装置 3 キーボード 4 メモリ 5 出力装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 石橋 昭憲 神奈川県川崎市幸区鹿島田890番地の12 株式会社日立製作所 情報システム事 業部内 (72)発明者 矢島 敬士 神奈川県川崎市麻生区王禅寺1099番地 株式会社日立製作所 システム開発研究 所内 (56)参考文献 特開 平6−162089(JP,A) 特開 平5−101108(JP,A) 芦田他,「データマイニングにおける 特徴的ルール生成方式」情報処理学会50 回(平成7年前期)全国大会 講演論文 集(3),1995(平7−3−15),p. 19−20 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力装置と、出力装置と、記憶装置を有
    する処理装置と、データベースを備えるデータ処理シス
    テムにおけるデータベースのレコード項目間の部分的関
    係を導くデータ分析方法であって、 該データベースの全部あるいは一部のレコードから、予
    め定められた特徴を持つレコードの出現領域を抽出する
    ルールをユーザの入力装置による指示に基づき1以上の
    レコード項目を含む条件部と1つのレコード項目を含む
    結論部からなるルール形式でルールの適合度と共にユー
    ザの指示した数だけ生成し、前記出力装置に表示するス
    テップと、 ユーザの入力装置により指定した指定ルールと他のルー
    ルとのルールの類似度を求めるステップと、 前記指定ルールと、ユーザの入力装置により指定した最
    低類似度以上のルールの類似度を有する前記他のルール
    とを組にして前記出力装置に表示するステップと、 前記表示されたルールの組をユーザの入力装置による指
    示に基づき前記記憶装置あるいはデータベースに登録す
    るステップからなることを特徴とするデータ分析方法。
  2. 【請求項2】 請求項1記載のデータ分析方法におい
    て、 ユーザの入力装置による指示に基づき前記登録されたル
    ールからルールを選択し、あるいは新たなルールを生成
    するステップと、 前記選択したルールおよび新たに生成したルールにおけ
    る各1対のルール間の類似度を求め前記出力装置に表示
    するステップと、 ユーザの入力装置により指定した前記1対のルールの包
    含関係を求め前記出力装置に表示するステップをさらに
    備えることを特徴とするデータ分析方法。
  3. 【請求項3】 請求項1記載のデータ分析方法におい
    て、 前記指定ルールと、ユーザの入力装置により指定した最
    低類似度以上のルールの類似度を有する前記他のルール
    とを組にして前記出力装置に表示する場合、 前記最低類似度以上のルールの類似度を有する前記他の
    ルールを類似度の高い順番に表示することを特徴とする
    データ分析方法。
  4. 【請求項4】 請求項2記載のデータ分析方法におい
    て、 前記1対のルールの包含関係を、該各ルールの両方に適
    合するレコードの数からなる一致数と、各一方のルール
    のみに適合するレコードの数からなる各不一致数として
    求め、該包含関係を前記出力装置に図形表示することを
    特徴とするデータ分析方法。
JP7100027A 1995-03-31 1995-03-31 データ分析方法 Expired - Fee Related JP3049636B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP7100027A JP3049636B2 (ja) 1995-03-31 1995-03-31 データ分析方法
US08/623,903 US5764975A (en) 1995-03-31 1996-03-27 Data mining method and apparatus using rate of common records as a measure of similarity

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7100027A JP3049636B2 (ja) 1995-03-31 1995-03-31 データ分析方法

Publications (2)

Publication Number Publication Date
JPH08272825A JPH08272825A (ja) 1996-10-18
JP3049636B2 true JP3049636B2 (ja) 2000-06-05

Family

ID=14263061

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7100027A Expired - Fee Related JP3049636B2 (ja) 1995-03-31 1995-03-31 データ分析方法

Country Status (2)

Country Link
US (1) US5764975A (ja)
JP (1) JP3049636B2 (ja)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5933821A (en) * 1996-08-30 1999-08-03 Kokusai Denshin Denwa Co., Ltd Method and apparatus for detecting causality
US6185559B1 (en) * 1997-05-09 2001-02-06 Hitachi America, Ltd. Method and apparatus for dynamically counting large itemsets
US5943667A (en) * 1997-06-03 1999-08-24 International Business Machines Corporation Eliminating redundancy in generation of association rules for on-line mining
JP2000011005A (ja) * 1998-06-17 2000-01-14 Hitachi Ltd データ分析方法及び装置及びデータ分析プログラムを記録したコンピュータ読み取り可能な記録媒体
US8321411B2 (en) 1999-03-23 2012-11-27 Microstrategy, Incorporated System and method for management of an automatic OLAP report broadcast system
US6684221B1 (en) * 1999-05-06 2004-01-27 Oracle International Corporation Uniform hierarchical information classification and mapping system
US20020069134A1 (en) * 1999-11-01 2002-06-06 Neal Solomon System, method and apparatus for aggregation of cooperative intelligent agents for procurement in a distributed network
US20030074301A1 (en) * 1999-11-01 2003-04-17 Neal Solomon System, method, and apparatus for an intelligent search agent to access data in a distributed network
US20020055903A1 (en) * 1999-11-01 2002-05-09 Neal Solomon System, method, and apparatus for a cooperative communications network
US20020046157A1 (en) * 1999-11-01 2002-04-18 Neal Solomon System, method and apparatus for demand-initiated intelligent negotiation agents in a distributed network
US7233923B1 (en) 2000-01-14 2007-06-19 Espeed, Inc. Systems and methods for matching desired purchases and sales of mis-matched items
US6671680B1 (en) * 2000-01-28 2003-12-30 Fujitsu Limited Data mining apparatus and storage medium storing therein data mining processing program
WO2001075737A1 (en) * 2000-03-31 2001-10-11 Liquid Engines, Inc. Efficient interface for configuring an electronic market
US7617184B2 (en) 2000-05-18 2009-11-10 Endeca Technologies, Inc. Scalable hierarchical data-driven navigation system and method for information retrieval
US7325201B2 (en) * 2000-05-18 2008-01-29 Endeca Technologies, Inc. System and method for manipulating content in a hierarchical data-driven search and navigation system
US7035864B1 (en) * 2000-05-18 2006-04-25 Endeca Technologies, Inc. Hierarchical data-driven navigation system and method for information retrieval
US7062483B2 (en) * 2000-05-18 2006-06-13 Endeca Technologies, Inc. Hierarchical data-driven search and navigation system and method for information retrieval
US20040220772A1 (en) * 2000-12-20 2004-11-04 Cobble Tara L. Method and system for authoring case bases related to work machines
SG143976A1 (en) 2001-02-16 2008-07-29 Sony Corp Data processing method and its apparatus
JP2002244868A (ja) * 2001-02-16 2002-08-30 Sony Corp データ処理方法、半導体回路およびプログラム
US20020129342A1 (en) * 2001-03-07 2002-09-12 David Kil Data mining apparatus and method with user interface based ground-truth tool and user algorithms
US6970884B2 (en) * 2001-08-14 2005-11-29 International Business Machines Corporation Methods and apparatus for user-centered similarity learning
US7689451B2 (en) * 2001-12-12 2010-03-30 Capital One Financial Corporation Systems and methods for marketing financial products and services
US20040107189A1 (en) * 2002-12-03 2004-06-03 Lockheed Martin Corporation System for identifying similarities in record fields
US7428528B1 (en) 2004-03-31 2008-09-23 Endeca Technologies, Inc. Integrated application for manipulating content in a hierarchical data-driven search and navigation system
JP2006048129A (ja) * 2004-07-30 2006-02-16 Toshiba Corp データ処理装置、データ処理方法及びデータ処理プログラム
US8019752B2 (en) 2005-11-10 2011-09-13 Endeca Technologies, Inc. System and method for information retrieval from object collections with complex interrelationships
US8676802B2 (en) * 2006-11-30 2014-03-18 Oracle Otc Subsidiary Llc Method and system for information retrieval with clustering
US7856434B2 (en) * 2007-11-12 2010-12-21 Endeca Technologies, Inc. System and method for filtering rules for manipulating search results in a hierarchical search and navigation system
US20100287032A1 (en) * 2009-05-07 2010-11-11 Roy Wallace Systems and methods for matching desired purchases and sales of mis-matched items
US8269645B2 (en) * 2009-09-18 2012-09-18 Haas Automation, Inc. Rule based display systems and methods
US8751963B1 (en) 2013-01-23 2014-06-10 Splunk Inc. Real time indication of previously extracted data fields for regular expressions
US9152929B2 (en) 2013-01-23 2015-10-06 Splunk Inc. Real time display of statistics and values for selected regular expressions
US9325733B1 (en) * 2014-10-31 2016-04-26 Emc Corporation Unsupervised aggregation of security rules
CN106294381A (zh) * 2015-05-18 2017-01-04 中兴通讯股份有限公司 大数据计算的方法及系统
WO2020184597A1 (ja) * 2019-03-14 2020-09-17 日本電気株式会社 ルール統合装置、ルール統合方法及びプログラムを記憶する記憶媒体
CN111151858B (zh) * 2020-01-13 2021-10-15 吉利汽车研究院(宁波)有限公司 一种点焊焊接参数应用系统及设置方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5615341A (en) * 1995-05-08 1997-03-25 International Business Machines Corporation System and method for mining generalized association rules in databases
US5664174A (en) * 1995-05-09 1997-09-02 International Business Machines Corporation System and method for discovering similar time sequences in databases
US5668988A (en) * 1995-09-08 1997-09-16 International Business Machines Corporation Method for mining path traversal patterns in a web environment by converting an original log sequence into a set of traversal sub-sequences

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
芦田他,「データマイニングにおける特徴的ルール生成方式」情報処理学会50回(平成7年前期)全国大会 講演論文集(3),1995(平7−3−15),p.19−20

Also Published As

Publication number Publication date
US5764975A (en) 1998-06-09
JPH08272825A (ja) 1996-10-18

Similar Documents

Publication Publication Date Title
JP3049636B2 (ja) データ分析方法
US6643646B2 (en) Analysis of massive data accumulations using patient rule induction method and on-line analytical processing
JP3463010B2 (ja) 情報処理装置および情報処理方法
US7092959B2 (en) Method for dynamic profiling
JP5368665B2 (ja) リンクに重み付けされたアソシエーションルールに戻って転送されるエキスパートデータベース
US5999192A (en) Interactive data exploration apparatus and methods
AU780565B2 (en) Method and apparatus for selecting aggregate levels and cross product levels for a data warehouse
US7925658B2 (en) Methods and apparatus for mapping a hierarchical data structure to a flat data structure for use in generating a report
US6078924A (en) Method and apparatus for performing data collection, interpretation and analysis, in an information platform
US9075859B2 (en) Parameterized database drill-through
US7818286B2 (en) Computer-implemented dimension engine
Hereth et al. Conceptual knowledge discovery and data analysis
US20020022974A1 (en) Display of patent information
US20040088650A1 (en) Methods and apparatus for generating a spreadsheet report template
JP2008522253A (ja) Kストア(KStore)データアナライザ
JPH0877010A (ja) データ分析方法および装置
JP2003345810A (ja) 文書検索方法、文書検索システム及び文書検索結果示方システム
US7194477B1 (en) Optimized a priori techniques
US20190149344A1 (en) Intelligent search system for service cost and method thereof
US9864966B2 (en) Data mining in a business intelligence document
CN113157752A (zh) 一种基于用户画像和情境的科技资源推荐方法及系统
Atzmueller et al. MinerLSD: efficient mining of local patterns on attributed networks
Bernard et al. Contextual and behavioral customer journey discovery using a genetic approach
CN104182226B (zh) 一种通用移动信息系统适配方法与装置
JP3208706B2 (ja) 情報活用システム

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090331

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090331

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100331

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110331

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees