JPH10240747A - データ間結合ルール導出方法及び装置、及び直交凸領域切出方法及び装置 - Google Patents

データ間結合ルール導出方法及び装置、及び直交凸領域切出方法及び装置

Info

Publication number
JPH10240747A
JPH10240747A JP3460597A JP3460597A JPH10240747A JP H10240747 A JPH10240747 A JP H10240747A JP 3460597 A JP3460597 A JP 3460597A JP 3460597 A JP3460597 A JP 3460597A JP H10240747 A JPH10240747 A JP H10240747A
Authority
JP
Japan
Prior art keywords
column
section
region
orthogonal convex
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3460597A
Other languages
English (en)
Other versions
JP3193658B2 (ja
Inventor
Kunikazu Yoda
邦和 依田
Tsuyoshi Fukuda
剛志 福田
Takeshi Tokuyama
豪 徳山
Shinichi Morishita
真一 森下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP3460597A priority Critical patent/JP3193658B2/ja
Priority to KR1019970060883A priority patent/KR100309666B1/ko
Priority to TW086117282A priority patent/TW360825B/zh
Priority to US09/025,536 priority patent/US5991752A/en
Publication of JPH10240747A publication Critical patent/JPH10240747A/ja
Application granted granted Critical
Publication of JP3193658B2 publication Critical patent/JP3193658B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/289Object oriented databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Abstract

(57)【要約】 【課題】2項の数値属性と真偽をとる属性を有するデー
タ間の結合ルールを人間がより把握しやすい形で提示す
ること。 【解決手段】(1)2つの数値属性により平面を構成
し、この平面をピクセルに分割し、各ピクセル内のデー
タ数及び真偽をとる属性が真となったデータの数をカウ
ントする。(2)所定の条件θに従い、平面の2つの軸
に凸な領域である直交凸領域(rectilinear region)を
切り出し、データ間の結合ルールを見い出す。(3)切
り出した直交凸領域が、先に述べたようなサポート最大
化ルール等の条件を満たしていれば、その直交凸領域を
ユーザに提示する。また、データベースからその直交凸
領域に含まれるデータの必要な属性を引き出すことも必
要に応じて行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、データベースにお
けるデータ相関の解析(データマイニングという。)に
関し、より詳しくは2項の数値属性と1項の真偽をとる
属性(真偽をとる条件又は0−1属性ともいう。)を有
するデータ間の相関を見い出す手法に関する。
【0002】
【従来の技術】例えば、銀行の顧客を解析対象とし、流
動性預金残高がいくらくらいで且つ年齢が何歳ぐらいの
人であれば、定期預金残高が200万円以上になる人が
全体の20%となるか、といった問題を実際に解くこと
を考える。この流通性預金残高及び年齢は、整数ではあ
るが連続数値であり、一方定期預金残高200万円以上
というのは、200万円以上か未満かという分類になる
ので、真偽をとる属性を有するものである。真偽をとる
属性は、例えば「顧客がクレジットカードを有している
か」や「顧客が男性であるか」といった問題と置き換え
ることも可能である。このような課題を解決することが
できれば、銀行はどのような人に、例えば新型の金融商
品に関するダイレクトメールを送ればよいか簡単に分か
るので、効率的な営業活動が行える。
【0003】従来、先に述べた真偽をとる属性間の相関
を表現するルール(結合ルール、association rule)を
高速に抽出するような研究は、データマイニングの分野
において行われてきた。例えば、R.Agrawal, T.Imielin
ski, and A.Swami, "Miningassociation rules between
sets of items in large databases" In proceedings
of the ACM SIGMOD Conference on Management of dat
a, May 1993. や、R.Agrawal and R.Srikant, "Fast al
gorithms for mining association rules" InProceedin
gs of the 20th VLDB Conference, 1994. 等がある。
【0004】また、2項の数値データ間のルールを求め
る従来手法には、以下のようなものがある。 1.強い線形相関を見い出すために、平面上の直線で、
点集合を最適近似するものを探す方法。例えば、最小自
乗法、再帰中央法等である。これら方法の欠点は、線形
相関しか分からず、しかも相関係数の絶対値が0.5以
下の場合に線形相関を用いて各データを予測すると精度
が低く、現実にはほとんど役にたたない点にある。 2.弱い大域相関を見い出すために、2次元平面上で正
方形、長方形、又は円、楕円で面積に対して多くのデー
タを含むものを見い出す方法。例えば、計算幾何学アル
ゴリズムを利用するものである。この場合、計算時間が
大きくなってしまうという欠点がある。例えば円の場
合、O(M3)以上の手間が掛かり得る(O(M3)は、
オーダーM3の計算手間がかかることを示す。Mはデー
タ数である。)。また、取り出す相関領域としては決ま
った形をしたものしか扱うことができない。現実には、
決まった形で適切にカバーできる場合は少ない。 3.平面を正方メッシュに分割しておき、たくさんのデ
ータを含むピクセルを取り出す方法。しかし、取り出さ
れたピクセルの集合は連結でなく、バラバラなことが多
いので、ルールとして見い出すのは困難である。
【0005】このような手法を用いると、上記の欠点の
他に、データ間の多くのルールのうちで、意味のあるも
のと無意味なものとの区別が難しいという欠点もある。
通常、相関に実用上の意味があるかどうかは人間の判断
によらないといけないことが多いが、1.や2.では特
殊な相関しか取り出せないので意味ある相関を見逃しや
すく、3では出力を人間が見てルールを見い出せない。
【0006】他の方法としては、平面を正方メッシュに
分割しておき、これらのピクセルに関して連結且つx単
調な領域のうち多くのデータを含む領域を切り出す方法
がある(Takeshi Fukuda, Yasuhiko Morimoto, Shinich
i Morishita and Takeshi Tokuyama,"Data mining usin
g two-dimensional optimized association rules: Sch
eme, algorithms, and visualization," In Proceeding
s of the ACM SIGMODConference on Management of Dat
a, pages 13-23, June 1996 を参照のこと)。x単調と
は、列方向には凸であるが、行方向では凸ではないもの
を言う。この方法は、高速で、一定の意味ある相関を取
り出すことができるが、縦方向に激しく揺れる入り組ん
だ領域を切り出すことが多く、人間が見てどこが強い相
関の部分であるか把握しにくい。また、x単調というこ
とで、切り出される領域の形状が、正方メッシュのメッ
シュの仕方(各ピクセルへのデータの配分の仕方)に大
きく依存するという欠点もある。
【0007】
【発明が解決しようとする課題】本発明は、以上のよう
な点に鑑み、2項以上の数値属性と真偽をとる属性を有
するデータ間の結合ルールを見い出すための一手法を提
供することを目的とする。
【0008】また、データ間の結合ルールを人間がより
把握しやすい形で提示することも目的である。そして、
多くの結合ルールを可視化することにより、使用する人
間の選択の幅を増大させ、より重要な結合ルールを見い
だすこと可能とすることも目的とする。
【0009】また、(1)真偽をとる属性が真であるデ
ータの割合がある定められた値以上であって、含まれる
データ数が最大となるようなルールであるサポート最大
化ルールや、(2)最低限含まれるデータ数が定められ
た場合、真偽をとる属性が真であるデータの割合が最大
となるようなルールであるコンフィデンス最大化ルー
ル、(3)取り出される領域内部と外部との分割を考え
た時に、分割前の情報量と比較した分割後の情報量の増
分を最大化するルールである最適化エントロピ・ルー
ル、(4)領域内外の分割を考えた時に、内外の「標準
化された真偽の割合の平均からのずれ」の二乗和を最大
化するルールである最適化インタクラスバリアンス・ル
ールを満たすような範囲(領域)を導出可能とすること
も目的である。
【0010】さらに、上記のようなデータ間の結合ルー
ルを高速に実行できるような手法を提供することも目的
である。
【0011】
【課題を解決するための手段】通常、解析対象物は多く
の数値属性を有する。この中から2つの数値属性を選
び、また、1つの真偽をとる属性について、以下のステ
ップを行うことにより、上記の目的を達成するものであ
る。すなわち、 (1)2つの数値属性により平面を構成し、この平面を
ピクセルに分割し、各ピクセル内のデータ数及び真偽を
とる属性が真となったデータの数をカウントする。この
ような平面は、データ数が濃淡度、真偽をとる属性が真
となるデータの数が彩度に該当するような、複数のピク
セルを有する平面画像として捉えることもできる。 (2)所定の条件θに従い、平面の2つの軸に凸な領域
である直交凸領域(rectilinear region)を切り出し、
データ間の結合ルールを見い出す。 (3)切り出した直交凸領域が、先に述べたようなサポ
ート最大化ルール等の条件を満たしていれば、その直交
凸領域をユーザに提示する。また、データベースからそ
の直交凸領域に含まれるデータの必要な属性を引き出す
ことも、必要に応じて行う。
【0012】なお、切り出された直交凸領域を、そのま
まユーザに提示したり、複数の直交凸領域を切り出した
場合には、それを動画として可視化することにより、所
望の結合ルールを見い出し易くすることもできる。
【0013】また、一旦直交凸領域を切り出した後に、
それ以外の結合ルールを見出すべく、切り出された直交
凸領域について、彩度を平均化し、再度切り出しステッ
プを実行することも可能である。
【0014】最初に述べたような例の場合、流動性預金
残高の軸と、年齢の軸を設け、その平面を適当なメッシ
ュに分割する。そして、メッシュの各エレメントである
ピクセルについて該当する顧客の数と、定期預金残高2
00万円以上の顧客の数をカウントする。そして、例え
ば顧客全体の20%が入り且つ定期預金残高200万円
以上である顧客の割合が最大となるような直交凸領域で
ある領域の切り出しを行うことにより、コンフィデンス
最大化ルールを得ることができる。
【0015】また、例えば定期預金残高200万円以上
の顧客割合が10%で最大の顧客数を有する直交凸領域
を切り出すことにより、サポート最大化ルールを得るこ
とができる。
【0016】以上述べた事項をまとめると、2種類の数
値属性と、1種類の真偽をとる属性とを含むデータを有
するデータベースにおいて、まず、2種類の数値属性に
対応する2つの軸を有し且つN×M個のピクセルに分割
されている平面の各ピクセルに対応して、当該ピクセル
(i行j列)に属するデータの数u(i,j)及び前記真偽を
とる属性が真であるデータの数v(i,j)を記憶する(平
面構成ステップ)。次に、所定の条件θを入力する。そ
して、
【数16】 を最大にするような、ピクセルの直交凸領域Sを平面か
ら切り出す(領域切出ステップ)。このように直交凸な
形状の領域を切り出すことにより、より人間に結合ルー
ルが把握しやすいようになる。また、先の平面構成ステ
ップからの依存性が小さくできる。最後に、切り出され
た直交凸領域S内に含まれるデータを出力する。このよ
うに、ルールに合致するデータを得ることができる。
【0017】また、入力された条件θとは異なる第2の
条件θ2を入力し、
【数17】 を最大にするようなピクセルの第2の直交凸領域S2
平面から切り出し、さらに、
【数18】 (直交凸領域S2に含まれ且つ真偽をとる属性が真であ
るデータの数をV(S2)、直交凸領域Sに含まれ且つ
真偽をとる属性が真であるデータの数をV(S)、直交
凸領域S2に含まれるデータ数をU(S2)、直交凸領域
Sに含まれるデータ数をU(S)とする。)を第3の条
件として、
【数19】 を最大にするようなピクセルの第3の領域S3を平面か
ら切り出すようにすることも考えられる。このような処
理は、最初の条件θで、初期の目的のルールを導き出せ
なかった場合に有用である。通常先に示したサポート最
大化ルール、コンフィデンス最大化ルール、最適化エン
トロピ・ルール、最適化インタクラスバリアンス・ルー
ルといったルールを求める際には、条件θを適当に変化
させ、上記のような処理を行うことにより求められる。
【0018】さらに、切り出された直交凸領域S内の各
ピクセルのv(i,j)/u(i,j)が、平面全体のデータ数に
対する平面全体の真偽をとる属性が真であるデータ数の
割合に等しくなるようv(i,j)を変更し、当該変更され
たv(i,j)を用いて、入力された条件θ4に従い、
【数20】 を最大にするようなバケットの第4の領域S4を切り出
すようにすることも考えられる。このようにすると、二
次的な相関ルールを導き出すことができる。
【0019】また、先の平面構成ステップは、複数のデ
ータから、X個のデータをランダムサンプリングするス
テップと、サンプリングされたデータを各数値属性につ
いてソートし、X・i/N(i=1,2,・・N)番目
に該当する数値及びX・n/M(n=1,2,・・M)
番目に該当する数値を記憶し、記憶された数値を基準に
して、複数のデータをN×M個のピクセルに入れるよう
にすることも考えられる。このようにすると、各行各列
にデータを高速にまたほぼ均等に割り振ることができ
る。
【0020】領域切出ステップは本発明の主要部分であ
る。ここで、第m列の区間[s,t]が右端列であるよ
うな直交凸領域は、第m−1列から第m列に移行する際
に、第m−1列の区間[x,y]に比して、(1)広が
るか、(2)上昇するか、(3)下降するか、(4)狭
まるかの4つの類型に分けられる。そして、4つの類型
のうち、最も大きい数16の値を有する直交凸領域が求
めたい領域である。よって、それぞれの類型について最
大の数16の値を有する領域を求めるため、以下のよう
なステップが実行される。
【0021】第1の類型のため、第m列の区間[s,
t]が右端列であって第m−1列の区間[x,y]が区
間[s,t]に含まれる直交凸領域、又は第m列の区間
[s,t]のみで構成される直交凸領域のうち、数16
の値が最も大きい直交凸領域Sm W(s,t)の第m−1列の
区間[x,y]又は第m列が左端列であることを示す情
報をm及び[s,t]に対応して記憶手段HWに記憶
し、当該直交凸領域Sm W(s,t)の数16の値を記憶す
る。第2の類型のために、第m列の区間[s,t]が右
端列であって第m−1列の区間[x,y]がs≧x及び
t≧yを満たす直交凸領域、又は第m列の区間[s,
t]のみで構成される直交凸領域のうち、数16の値が
最も大きい直交凸領域Sm U(s,t)の(a)第m−1列の
区間[x,y]及び(b)第m−1列の区間[x,y]
と第m−2列の区間[a,b]との関係、又は第m列が
左端列であることを示す情報をm及び[s,t]に対応
して記憶手段HUに記憶し、当該直交凸領域Sm U(s,t)の
数16の値を記憶する。
【0022】第3の類型のため、第m列の区間[s,
t]が右端列であって第m−1列の区間[x,y]がs
≦x及びy≧tを満たす直交凸領域、又は第m列の区間
[s,t]のみで構成される直交凸領域のうち、数16
の値が最も大きい直交凸領域Sm D(s,t)の(a)第m−
1列の区間[x,y]及び(b)第m−1列の区間
[x,y]と第m−2列の区間[a,b]との関係、又
は第m列が左端列であることを示す情報をm及び[s,
t]に対応して記憶手段HDに記憶し、当該直交凸領域
m D(s,t)の数16の値を記憶する。最後に、第4の類
型のため、第m列の区間[s,t]が右端列であって第
m−1列の区間[x,y]がx≦s及びy≧tを満たす
直交凸領域、又は第m列の区間[s,t]のみで構成さ
れる直交凸領域のうち、数16の値が最も大きい直交凸
領域Sm N(s,t)の(a)第m−1列の区間[x,y]及
び(b)第m−1列の区間[x,y]と第m−2列の区
間[a,b]との関係、又は第m列が左端列であること
を示す情報をm及び[s,t]に対応して記憶手段HN
に記憶し、当該直交凸領域Sm N(s,t)の数16の値を記
憶する。
【0023】各々のステップは、直交凸という性質を考
慮して構成されている。そして、全てのm及び[s,
t]について前記第1乃至第4記憶ステップを実行し、
最も大きい数16の値を有する直交凸領域Sのm及び
[s,t]と、対応する記憶手段HW、HU、HD、又は
Nの値とを用いて、直交凸領域Sを平面から切り出
す。
【0024】なお、第2の類型のための計算は、より詳
しく説明すると、第m列の区間[s,t]が右端列であ
り且つ第m−1列の区間[x,y]がs≧x及びt=y
を満たし且つ第m−2列の区間[a,b]と第m−1列
の区間[x,y]との関係がa≧x及びb≦y又はa≦
x及びb≦yである直交凸領域、第m列の区間[s,
t]が右端列であり且つ第m−1列の区間[x,y]が
s≧x及びs≦y≦t−1を満たし且つ第m−2列の区
間[a,b]と第m−1列の区間[x,y]との関係が
a≧x及びb≦y又はa≦x及びb≦yである直交凸領
域、又は第m列の区間[s,t]のみで構成される直交
凸領域のうち、数16の値が最も大きい直交凸領域Sm U
(s,t)の(a)第m−1列の区間[x,y]及び(b)
第m−1列の区間[x,y]と第m−2列の区間[a,
b]との関係、又は第m列が左端列であることを示す情
報をm及び[s,t]に対応して記憶手段HUに記憶
し、当該直交凸領域Sm U(s,t)の数16の値を記憶す
る、という処理になる。
【0025】また、第3の類型のための計算は、より詳
しく説明すると、第m列の区間[s,t]が右端列であ
り且つ第m−1列の区間[x,y]がs=x及びt≧y
を満たし且つ第m−2列の区間[a,b]と第m−1列
の区間[x,y]との関係がa≧x及びb≦y又はa≧
x及びb≧yである直交凸領域、第m列の区間[s,
t]が右端列であり且つ第m−1列の区間[x,y]が
s+1≦x≦t及びy≧tを満たし且つ第m−2列の区
間[a,b]と第m−1列の区間[x,y]との関係が
a≧x及びb≦y又はa≧x及びb≧yである直交凸領
域、又は第m列の区間[s,t]のみで構成される直交
凸領域のうち、数16の値が最も大きい直交凸領域Sm D
(s,t)の(a)第m−1列の区間[x,y]及び(b)
第m−1列の区間[x,y]と第m−2列の区間[a,
b]との関係、又は第m列が左端列であることを示す情
報をm及び[s,t]に対応して記憶手段HDに記憶
し、当該直交凸領域Sm D(s,t)の数16の値を記憶す
る、という処理になる。
【0026】さらに、第4の類型のための計算は、より
詳しく説明すると、第m列の区間[s,t]が右端列で
あって第m−1列の区間[x,y]が区間[s,t]と
同一である直交凸領域、第m列の区間[s,t]が右端
列であって第m−1列の区間[x,y]がx≦s及びy
≧t+1又はx≦s−1及びy≧tを満たす直交凸領
域、又は第m列の区間[s,t]のみで構成される直交
凸領域のうち、数16の値が最も大きい直交凸領域Sm N
(s,t)の(a)第m−1列の区間[x,y]及び(b)
第m−1列の区間[x,y]と第m−2列の区間[a,
b]との関係、又は第m列が左端列であることを示す情
報をm及び[s,t]に対応して記憶手段HNに記憶
し、当該直交凸領域Sm N(s,t)の数16の値を記憶す
る、という処理になる。
【0027】また、最後に切り出すステップは、最初
に、全てのm及び[s,t]について第1乃至第4記憶
ステップを実行し、計算された数16の値のうち最大の
値を有する直交凸領域Sのm及び[s,t]と、対応す
る記憶手段HW、HU、HD、又はHNとを用いて、第m−
1列の区間[x,y]及び第m−1列と第m−2列との
関係を読み出す(第1関係読出ステップ)。そして、第
m−1列と第m−2列との関係を用いて、記憶手段
W、HU、HD、及びHNから対応する記憶手段を選択し
(選択ステップ)、第m−1列の区間[x,y]を用い
て選択された記憶手段から第m−2列の区間[a,b]
及び第m−2列と第m−3列との関係を読み出す(第2
関係読出ステップ)。最後に選択ステップと第2関係読
出ステップとを、前列との関係が「左端列であることを
示す情報」となるまで繰り返す。
【0028】以下の説明を理解すれば、上述の方法を実
施するような装置を作成すること、またこのような方法
をコンピュータに実施させるプログラムを作成すること
は容易に実施できるであろう。また、上記のようなプロ
グラムを記憶媒体や記憶デバイスに記憶することは、通
常行われることである。
【0029】
【発明の実施の形態】まず、本発明の各ステップがどの
ように実施されるかを示す。 (1)平面構成ステップ 先に述べたように、あるデータの2つの数値属性に2つ
の座標軸(x軸,y軸)をそれぞれ対応させ、これら2
軸の張る平面を考える。この平面を軸ごとにN個のピク
セルに分割し、平面上にN2個のピクセルを作成する。
図1に、この平面構成ステップのフローを示す。ステッ
プ100にて処理が開始し、まずデータ集合Pからデー
タのランダムサンプリングを行う(ステップ110)。
サンプリングされたデータをpk(xk,yk)(k=
1,2,...X。xk,ykはデータの2つの数値属性
の値を、Xはサンプリングされたデータ数をそれぞれ示
す。)と表す。そして、xk,ykごとにソートを行い
(ステップ120)、xk,ykごとに、i・X/N(i
=1,2,...N−1)番目に小さな値を見つけ出す
(ステップ130)。見つけ出された値が、各軸のピク
セルの境界値となる。このようなステップを実施するこ
とにより、平面上の各列及び各行に属するデータの数は
ほぼ均等になる。そして、見つけ出された値を用いて、
ピクセル(i,j)に入るデータpkの数u(i,j)
と、その中で真偽をとる属性が真であるデータpkの数
v(i,j)とをカウントする(ステップ140)。こ
こで、u(i,j)及びv(i,j)は、上記平面上の
i行j列に存在するピクセルのデータを表すので、x軸
方向にj、y軸方向にi進んだ場所にあるピクセルを表
すことになる点に注意する。最後に、カウントされたu
(i,j)及びv(i,j)を各ピクセルごとに記憶す
る(ステップ150)。このようにして、2つのN×N
行列、u(i,j)及びv(i,j)が生成される。
【0030】上述のようにランダムサンプリングを行う
のは、通常全てのデータをソートしていると時間がかか
るからである。但し、ソートしてもよいような場合もあ
る。また、ランダムサンプリングで取り出されるデータ
の数は、30Nから50Nぐらいが好ましい。また、2
軸ともN個に分割する例を示したが、異なる数に分割す
ることも可能である。典型的な例で、Nは20から10
00ぐらいである。
【0031】以上述べたのは一例であって、他の方法を
用いてもよい。例えば、各ピクセルの境界数値について
は予め定めた値を用いても良い。また、データ値に対し
て均等に分割することも、また対数的に分割することも
可能である。
【0032】また、後の処理のため以下のような処理
(図2)を行っておくと、さらに全体の処理が高速化さ
れる。すなわち、u(i,j)とv(i,j)の行数(Ny)と列
数(Nx)を調べる(ステップ210)。そして、先に
求めたu(i,j)とv(i,j)を用いて、新たに以下のような
u'(i,j)とv'(i,j)という行列を作成する(ステップ2
20)。
【数21】
【数22】 これらの計算は、全てのi=0,1,..Ny−1、j
=0,1,...Nx−1について実施する。
【0033】このu'(i,j)とv'(i,j)は、後々数多く計
算することとなる目的関数(以下、ゲインということも
ある)、
【数23】 の和計算を以下のように簡単化するために用意する。
【数24】
【0034】さらに、
【数25】
【数26】 も後によく用いるので用意する。以上のような準備をす
れば、以下の領域切り出しステップが高速になる。
【0035】(2)領域切り出しステップ このステップは直交凸領域を先に作成した平面から切り
出すものである。直交凸領域の例を図3に示す。直交凸
領域は、(1)y軸に平行な線との交わりが必ず連続か
空であって、且つ(2)x軸に平行な線との交わりが必
ず連続か空な領域を言う。図3の左側の領域は、y軸に
平行な、いかなる線との交わりも連続か空であり、且つ
x軸に平行な、いかなる線との交わりも連続か空である
ので直交凸領域であると言える。一方、図3の右側の領
域は、x軸に平行な線との交わりは必ず連続又は空であ
るが、y軸に平行な線でとの交わりは連続でないものを
含んでいる。よって、この領域は直交凸ではない。
【0036】先に示した直交凸領域の条件(1)のみを
満たす領域をx単調な領域と言い、(2)のみを満たす
領域はy単調な領域という。先に示した従来技術では、
x単調な領域を切り出すものであったが、実際に本発明
のようなデータマイニングにおいて当該従来技術を適用
すると、縦に激しく揺れる入り組んだ領域を切り出すこ
とが多く、人間には理解し難い形状となってしまう。ま
た、任意の形状で切り出そうとすると、その問題はNP
困難となってしまう。そこで、本発明では、直交凸領域
で切り出すこととする。
【0037】直交凸領域を切り出す際には、パラメータ
値θ(0以上1以下の実数)を含む数23で表されるゲ
インを領域全体で最大にするような直交凸領域を切り出
す。ここで、パラメータθの説明をしておく。図4に示
すような、横軸が切り出される領域Sに含まれるデータ
数U(S)、縦軸が切り出される領域Sに含まれ且つ真
偽をとる属性が真であるデータの数V(S)であるよう
な平面を考える。データ数と真偽をとる属性が真である
データの数の組み合わせは多数存在するので、この平面
には多数の点が存在することになるが、この点のうち、
凸包を構成する点を特に用いる。すなわち、この凸包を
構成する点をつなぐことにより曲線を構成し、この曲線
に対し傾きθを有する直線を上から下ろして行き、最初
にこの曲線と接する点を求め、この時の領域を出力す
る。凸包上の点は図4では黒丸で表されている。以下、
凸包上の点をフォーカス・イメージという。また、直線
を下ろしていくような方法をハンドプローブという。こ
のように、本発明では傾きθをパラメータとして入力す
るような方法を用いる。
【0038】このように凸包上の点のみ取り扱うのは、
コンフィデンス最大化ルール、サポート最大化ルール
は、凸包上に必ず存在するわけではないが、近似解とし
ては十分な点を出力することができ、また最適化エント
ロピ・ルール及び最適化インタクラスバリアンス・ルー
ルについては、この凸包上に必ず存在するからである。
もし、コンフィデンス最大化ルール及びサポート最大化
ルールの厳密解を解くとすると、実用的な時間には計算
が終了しないので、近似解であっても十分に有効な結果
を出力できる。
【0039】上記のように傾きθの直線を下ろしていく
ということは、直線y=θx+QのY切片であるQを減
少させることであり、言いかえれば、Q=V(S)−θ
U(S)を最大にするU(S)をX座標に有する点を求
める問題となる。よって、
【数27】 と変形される。
【0040】では、この数27をどのように解くかを考
える。最初に、直交凸領域の性質を領域内部のピクセル
同士の関係によって表現する。Sをピクセル平面内の直
交凸領域とする。ml,mrをそれぞれSの左端、右端の
列番号とする。Sの第m列(ml≦m≦mr)の下端及び
上端のピクセル番号をそれぞれs(m),t(m)とす
る。これらの位置関係は図5を参照するとよく分かる。
第m列の区間[s(m),t(m)]の変化傾向を第m
−1列の区間との比較によって次のように定義する。 (a)W−Type:広がり型 (図6左上) s(m−1)≧s(m),t(m−1)≦t(m)の場
合 (b)U−Type:上昇型 (図6右上) s(m−1)≦s(m),t(m−1)≦t(m)の場
合 (c)D−Type:下降型 (図6左下) s(m−1)≧s(m),t(m−1)≧t(m)の場
合 (d)N−Type:狭まり型 (図6右下) s(m−1)≦s(m),t(m−1)≧t(m)の場
【0041】m=mlの列は全変化傾向に属し、上の不
等式の等号が成り立つ場合、その列は複数の変化傾向に
同時に属する。上の定義から直交凸領域内のどの列の区
間も上の4種類のタイプのいずれかに属する。
【0042】また、直交凸領域の性質から、ある変化傾
向の列の左隣の列の変化傾向は次の条件を満たす。すな
わち、 (1)W−Typeの左隣の列はW−Typeである。 (2)U−Typeの左隣の列はW−Type又はU−
Typeである。 (3)D−Typeの左隣の列はW−Type又はD−
Typeである。 (4)N−Typeの左隣の列はW−Type、又はU
−Type、又はD−Type、又はN−Typeであ
る。
【0043】このような条件を満たす領域は逆に言うと
直交凸領域であると言える。これらの条件は、図7に状
態遷移図として示されている。図中のW,U,D,N
は、それぞれW−Type、U−Type、D−Typ
e、N−Typeであり、矢印を1つたどるごとに1つ
右隣の列の状態に遷移する。
【0044】全ての直交凸領域は領域の右端の列の変化
傾向によって先に示した4つの種類に分類できる。ここ
で、4つの種類を総称してXタイプ(X∈{W,U,
D,N})と呼ぶ。列の区間のタイプと同様に、領域の
タイプも複数のタイプに同時に属する場合もある。
【0045】また、右端が第m列の区間[s,t]であ
るXタイプの直交凸領域のゲインの最大値をfm X(s,t)
と表す。そして、4つのタイプ領域のゲインのうち最も
大きいものを、fm(s,t)と表す。すなわち、
【数28】 である。このfm(s,t)をm=0,...Nx−1(∀
(s≦t))について求めて、それらの中で最大のもの
を選びだせば、それが先の平面内の全ての直交凸領域の
ゲインの最大値となる。
【0046】この最大値を求めるために、m=0...
x−1に対して順番に、fm(s,t)(∀(s≦t))を
全て計算するという方針をとる。
【0047】次にm=0、すなわち第1列のf0 X(s,t)
を計算する。この場合、全てのタイプで同一である。こ
れは、
【数29】 で求められる。
【0048】そして、fm-1 X(s,t) (∀X∈{W,U,
D,N},(∀(s≦t)))を求める。以下は、各タ
イプごとに説明する。
【0049】(a)広がり型(W−Type)の場合 第m列の区間[s,t]を最右端とする直交凸領域であ
って第m列がW−Typeである領域のゲインの最大値
m W(s,t)は、以下の式により求められる。
【数30】 ここで、maxを求める時に、s=tの場合は数30の
(1)(2)式だけで比較をし、大きい方の値を用い
る。その他の場合は(1)乃至(4)のすべてから最も
大きい値を用いる。
【0050】数30の(1)式は、第m列の区間[s,
t]だけからなる領域(幅1の縦長の長方形)のゲイン
を表す。また(2)式は、第m−1列がW−Typeで
その区間が[s,t]、且つ第m列も区間[s,t]で
右端となっている領域のうち最大のゲインを表す。これ
は、図8(a)に表したような場合を示す。なお、直交
凸領域の性質から第m列がW−Typeであれば第m−
1列がW−Typeであることは決まる。
【0051】また(3)式は、第m−1列がW−Typ
eであって、その区間[s(m−1),t(m−1)]
が、s(m−1)≧s,t(m−1)≦t−1を満た
し、第m列の区間[s,t]で右端という領域のうち最
大のゲインを示す。これは、図8(b)のような形状を
意味する。第m−1列の上端は、t−1以下であり、下
端はs以上である。(4)式は、第m−1列がW−Ty
peであって、その区間[s(m−1),t(m−
1)]がs(m−1)≧s+1,t(m−1)≦tを満
たし、第m列の区間[s,t]で右端という領域のうち
最大のゲインを表す。これは、図8(c)のような形状
を意味する。第m−1列の上端はt以下であり、下端は
s+1以上である。(2)乃至(4)式は、W−Typ
eの左列はW−Typeしかあり得ないということが考
慮されている。
【0052】以上のfm W(s,t)の計算を一列中の全ての
区間[s,t]に対して行う。この計算は図9のアルゴ
リズムに従う。以上のように、第m列が領域の右端で第
m−1列からの変化傾向がW−Typeという領域のう
ち最大のゲインが得られる。
【0053】(b)上昇型(U−Type)の場合 最初に以下の式の値を求めておく。
【数31】
【数32】 これは、図10のようなアルゴリズムにて実行される。
【0054】以上の計算を用いて、第m列の区間[s,
t]を最右端とする直交凸領域であって第m列がU−T
ypeである領域のゲインの最大値fm U(s,t)は、以下
の式により求められる。
【数33】 (1)乃至(3)式は、s=tの場合に比較に用いら
れ、その際(4)式は用いられない。
【0055】数33の(1)式は、第m列の区間[s,
t]のみからなる領域(幅1の縦長の長方形)のゲイン
を表す。また、(2)式は、第m−1列がW−Type
であって、その区間[s(m−1),t(m−1)]
が、s(m−1)≦s,t(m−1)=tを満たし、第
m列は区間[s,t]で右端という領域のうち最大のゲ
インを表す。これは、図11(a)に示した形状の場合
であって、第m−1列の下端の上限はsである。
【0056】(3)式は、第m−1列がU−Typeで
あって、その区間[s(m−1),t(m−1)]が、
s(m−1)≦s,t(m−1)=tを満たし、第m列
は区間[s,t]で右端という領域のうち最大のゲイン
を表す。これは、図11(b)に示した形状の場合であ
って、第m−1列の下端の上限はsである。(4)式
は、第m−1列がW−Type又はU−Typeであっ
て、その区間[s(m−1),t(m−1)]が、s
(m−1)≦s,s≦t(m−1)≦t−1を満たし、
第m列は区間[s,t]で右端という領域のうち最大の
ゲインを表す。これは、図11(c)に示した形状の場
合であって、第m−1列の下端の上限はsであり、また
上端の範囲はs以上t−1以下である。(2)乃至
(4)式は、U−Typeの左隣列はW−Type又は
U−Typeしかあり得ないということが考慮されてい
る。
【0057】以上のfm U(s,t)の計算を一列中の全ての
区間[s,t]に対して行う。この計算は、図12に示
すアルゴリズムに従う。このように、第m列が領域の右
端でそこの変化傾向がU−Typeという領域のうち最
大のゲインが得られる。
【0058】(c)下降型(D−Type)の場合 最初に以下の式の値を計算しておく。
【数34】
【数35】 これらの計算は、図13に示されたアルゴリズムにより
実行される。(1)乃至(3)式は、s=tの場合に比
較に用いられ、その際(4)式は用いられない。
【0059】以上の計算を用いて、第m列の区間[s,
t]を最右端とする直交凸領域であって第m列がD−T
ypeである領域のゲインの最大値fm D(s,t)は、以下
の式により求められる。
【数36】
【0060】数36の(1)式は、第m列の区間[s,
t]のみからなる領域(幅1の縦長の長方形)のゲイン
を表す。また、(2)式は、第m−1列がW−Type
であって、その区間[s(m−1),t(m−1)]
が、s(m−1)=s,t(m−1)≧tを満たし、第
m列は区間[s,t]で右端という領域のうち最大のゲ
インを表す。これは、図14(a)に示した形状の場合
であって、第m−1列の上端の下限はtである。
【0061】(3)式は、第m−1列がD−Typeで
あって、その区間[s(m−1),t(m−1)]が、
s(m−1)=s,t(m−1)≧tを満たし、第m列
は区間[s,t]で右端という領域のうち最大のゲイン
を表す。これは図14(b)に示した形状の場合であっ
て、第m−1列の上端の下限はtである。(4)式は、
第m−1列がW−Type又はD−Typeであって、
その区間[s(m−1),t(m−1)]が、s+1≦
s(m−1)≦t,t(m−1)≧tを満たし、第m列
は区間[s,t]で右端という領域のうち最大のゲイン
を表す。これは図14(c)に示した形状の場合であっ
て、第m−1列の上端の下限はtであって、下端の範囲
はs+1以上t以下である。(2)乃至(4)式は、D
−Typeの左隣列はW−Type又はD−Typeし
かあり得ないということが考慮されている。
【0062】以上のfm D(s,t)の計算を一列中の全ての
区間[s,t]に対して行う。この計算は図15のアル
ゴリズムに従う。このようにして、第m列が領域の右端
でそこの変化傾向がD−Typeという領域のうち最大
のゲインが得られる。
【0063】(d)狭まり型(N−Type)の場合 第m列の区間[s,t]を最右端とする直交凸領域であ
って第m列がN−Typeである領域のゲインの最大値
m N(s,t)は、以下の式により求められる。
【数37】 ここで、maxを求める時、各式は式の後ろの条件を満
たす場合にのみ用いられる。すなわち、(6)式はt>
y−1を満たす時のみ比較され、(7)式はs>0を
満たす場合にのみ比較に用いられる。
【0064】数37の(1)式は、第m列の区間[s,
t]のみからなる領域(幅1の縦長の長方形)のゲイン
を表す。(2)式は、第m−1列がW−Typeであっ
て、その区間が[s,t]であり、第m列は区間[s,
t]で右端という領域のうち最大のゲインを表す。これ
は図16(a)に示した形状の場合である。(3)式
は、第m−1列の区間[s,t]がU−Typeであっ
て、第m列は区間[s,t]で右端という領域のうち最
大のゲインを表す。これは図16(b)に示した形状の
場合である。(4)式は、第m−1列の区間[s,t]
がD−Typeであって、第m列は区間[s,t]で右
端という領域のうち最大のゲインを表す。これは図16
(c)に示した形状の場合である。(5)式は、第m−
1列の区間[s,t]がN−Typeであって、その区
間[s,t]であり、第m列は区間[s,t]で右端と
いう領域のうち最大のゲインを表す。これは図16
(d)に示した形状の場合である。
【0065】(6)式は、第m−1列がW−Type、
U−Type、D−Type又はN−Typeであっ
て、その区間[s(m−1),t(m−1)]が、s
(m−1)≦s,t(m−1)≧t+1を満たし、第m
列は区間[s,t]で右端という領域のうち最大のゲイ
ンを表す。これは図16(e)に示した形状であって、
第m−1列の上端の下限はt+1であり、下端の上限は
sである。(7)式は、第m−1列がW−Type、U
−Type、D−Type又はN−Typeであって、
その区間[s(m−1),t(m−1)]が、s(m−
1)≦s−1,t(m−1)≧tを満たし、第m列は区
間[s,t]で右端という領域のうち最大のゲインを表
す。これは図16(f)に示した形状であって、第m−
1列の上端の下限はtであり、下端の上限はs−1であ
る。
【0066】以上のfm N(s,t)の計算を一列中の全ての
区間[s,t]に対して行う。この計算は次のアルゴリ
ズムに図17に従う。このようにして、第m列の区間
[s,t]が領域の右端でそこの変化傾向がN−Typ
eという領域のうち最大のゲインが得られる。
【0067】上述の(a)乃至(d)の計算にて各列の
各[s,t]を右端とする領域の最大のゲインを計算す
ることができる訳であるが、それと同時に"領域"自体も
同時に記録しておく必要がある。これは、後の出力ステ
ップでは、この求められた直交凸領域内に含まれるデー
タを取り出すからである。
【0068】ここで、同じ最大値の領域が複数存在する
場合には、それらのうち先に見つかった方を解として取
り扱う。また、領域は縦方向の区間が横に並んだものと
して [s(ml),t(ml)],...[s(mr),t
(mr)] のように表現する。1列はNy行あるので、区間[s,
t](s≦t)の総数はNy(Ny+1)/2個ある。各
区間[s,t]は1つの整数pに一対一対応させる。
【0069】例えば、次の関数h(s,t)によって区
間[s,t]を1つの整数p=h(s,t)に対応させ
ることができる。すなわち、
【数38】 である。
【0070】逆に、区間を表す整数p(0≦p≦N
y(Ny+1)/2)から区間[s,t]は、次のように
求められる。
【数39】
【数40】 但し、このような計算はどの領域が最大のゲインを有す
るのかを決定する際には用いることはない。以後、
[s,t]は1つの整数と同一視して取り扱う。また、
上記数38は一例にすぎず、他の関数を用いても問題な
い。
【0071】次に領域を記憶しておく配列を用意する。
これは、Nx×Ny(Ny+1)/2の整数型2次元配列
であり、W,U,D,N−Typeのそれぞれに対して
1つ用意する。この要素HX(m,[s,t])(0≦m≦Nx
1,0≦[s,t]≦Ny(Ny+1)/2,X∈{W,U,
D,N})と表すこととする。
【0072】この要素HX(m,[s,t])には、ゲインがfm X
(s,t)の領域の第m−1列の区間[x,y]と、第m−
1列の第m−2列からの変化傾向Yを表す数値を記憶す
る。以下、HX(m,[s,t])=Y:[x,y]と表す。例え
ば、このHX(m,[s,t])を整数型32ビットで表現し、Y
の部分を上位2ビット、残りの下位ビットを[x,y]
を表すのに用いる(図18参照)。
【0073】但し、第m列が領域の左端列である場合
に、第m−1列にはつながらないことを表すために、こ
の下位ビットには領域の左端を表す値を入れる。例え
ば、先ほどの数40で区間を表現する例では、この下位
ビットにNy(Ny+1)/2以上の値を入れるか又は2
9ビット目を領域の左端を表すフラグにすればよい。
【0074】では、最終的に最大のゲインを有する直交
凸領域を求める処理を図19を用いて説明する。ステッ
プ1600で開始された処理は、最初にm=0として、
mを初期化する(ステップ1610)。次に、m=Nx
であるか判断する(ステップ1620)。これは、mが
xに達して、全ての列について以下の計算が終了した
かを判断するものである。もし、全ての列mについて計
算が終了していなければ、全ての[s,t]について、
W(m,[s,t])とfm W(s,t)、HU(m,[s,t])とfm U(s,t)、
D(m,[s,t])とfm D(s,t)、HN(m,[s,t])とfm N(s,t)を
計算し、その結果を記憶する。この計算の順番は任意で
ある。そして、各計算中それまでに計算されたゲインの
最大値より大きい値が計算されたならば、その値及びそ
のm,[s,t],Xを記憶しておく(ステップ163
0)。
【0075】ここで、HW(m,[s,t])とfm W(s,t)の計算
は、先に示した数30の計算を実施すればよい。よっ
て、HW(m,[s,t])は、数30の(1)式が最大であれ
ば領域の左端を表す値、(2)式が最大であればW:
[s,t],(3)式が最大であればHW(m,[s,t-1])、
(4)式が最大であればHW(m,[s+1,t])となる。以上の
ように、HW(m,[s,t])のみを考えれば、前列である第m
−1列は、必ずW−Typeであるから、第m−1列の
第m−2列からの変化傾向は記憶する必要ない。
【0076】また、HU(m,[s,t])とfm U(s,t)の計算
は、先に示した数33の計算を実施すればよい。よっ
て、HU(m,[s,t])には、数33の(1)式が最大であれ
ば領域の左端を表す値、(2)式が最大であればW:
[βm-1 W(s,t),t]、(3)式が最大であればU:
[βm-1 U(s,t),t]、(4)式が最大であればHU(m,
[s,t-1])が記憶される。
【0077】HD(m,[s,t])とfm D(s,t)の計算は、先に
示した数36の計算を実施すればよい。よって、HD(m,
[s,t])には、数36の(1)式が最大であれば領域の左
端を表す値、(2)式が最大であればW:[s,τm-1 W
(s,t)]、(3)式が最大であればD:[s,τm-1 D(s,
t)]、(4)式が最大であればHD(m,[s+1,t])が記憶さ
れる。
【0078】最後に、HN(m,[s,t])とfm N(s,t)の計算
は、先に示した数37の計算を実施すればよい。よっ
て、HN(m,[s,t])は、数37の(1)式が最大であれ
ば領域の左端を表す値、(2)式が最大であればW:
[s,t],(3)式が最大であればU:[s,t]、
(4)式が最大であればD:[s,t]、(5)式が最
大であればN:[s,t]、(6)式が最大であればH
N(m,[s,t+1])、(7)式が最大であればHN(m,[s-1,t])
となる。
【0079】ここまでで分かるように、すべてのf
m X(s,t)を記憶しておく必要はない。第m列の計算を実
施している時には、その第m列と第m−1列の計算結果
のみを用いる。よって、W,U,D,N−Typeごと
に2列分の記憶容量があればよい。但し、余裕があれば
全て記憶しておいてもよい。
【0080】図19のステップ1630を終了すると、
mを1インクリメントして(ステップ1640)、ステ
ップ1620に戻る。そして、この処理を全ての列につ
いて実施する。もし、全ての列について実施されたなら
ば、全ての列に関して最大のゲイン値を有していた領域
に関するm,[s,t],Xから、HX(m,[s,t])を参
照し、その値Y:[x,y]を取り出す(ステップ16
50)。ここまでの処理で、最右端列である第m列と、
その列の区間[s,t]、第m−1列とその区間[x,
y]が分かる。
【0081】次に、第m−1列で領域は左端となる場合
もあるので、[x,y]が左端を表す値であるか判断さ
れる(ステップ1660)。左端であれば、ここで処理
は終了する(ステップ1680)。左端でなければ、Y
をXとして、[x,y]を[s,t]として、m−1を
mとし(ステップ1670)、ステップ1650に戻
る。このように、[x,y]が左端を表す値となるま
で、この処理を繰り返せば、最大のゲイン値を有する直
交凸領域の各列の区間を得ることができる。
【0082】(3)出力ステップ 以上のように求まった直交凸領域Sは、前記平面のどの
部分を占めているかは、先のステップによりわかってい
るので、その領域Sに属するデータを取り出すことにな
る。通常各データは、真偽をとる属性及び数値属性のみ
ならず、他の属性も有しているから、例えばダイレクト
メールを送るのであれば、住所氏名といった属性を取り
出すようになる。ここまでくると、取り出すべきデータ
は特定されているから、通常のデータベースの検索に過
ぎないので、これ以上詳しく述べない。当然、一旦直交
凸領域をその外形がよくわかるようにして、ユーザに提
示するようにしてもよい。
【0083】以上のような各ステップを実施すれば、あ
る条件θに対する、データ間結合ルールの1つを求める
ことができる。しかし、この条件θをどのように設定す
るかということは、1つの問題である。通常、ある条件
θ1つでは、問題の解決にならない場合が多い。以上の
各ステップ、特に(2)領域切り出しステップをエンジ
ンとして用い、どのように先に述べた4つの一般的なル
ール及び他のルール等を導き出すかを以下に示す。
【0084】A.ある区間に存在する直交凸領域を求め
る場合 まず、幾つかのθに対応するフォーカス・イメージSを
連続的に示し、動画を作成することにより、切り出され
る領域の大きさ及び形状をユーザの判断により決定させ
る場合を考える。
【0085】この処理を図20に示す。ステップ800
にて開始された処理は、まずθ1を入力することによ
り、上述したプロセスにてフォーカス・イメージS1を
見つけ出す(ステップ810)。また、ユーザにθ2を
入力させ、同様にフォーカス・イメージS2を見つけ出
す(ステップ820)。このようにして2つのフォーカ
ス・イメージが求まると、それぞれに含まれるデータ数
U(S1),U(S2)及び真偽をとる属性が真であるデ
ータの数V(S1),V(S2)とを用いて、その中間に
ある、新たな傾きθ3を計算する(ステップ830)。
【0086】このように新たなθ3が求まれば、さらに
このθ3に対応するフォーカス・イメージS3を求める
ことができる(ステップ840)。ここで、計算された
S3が既に求まっていれば、区間(θ1,θ2)にはこ
れ以上のフォーカス・イメージは凸包上(図4)には存
在しない。よって、処理が終了する(ステップ88
0)。しかし、発見済みでなければ、θ2の代わりにθ
3を用いて、ステップ830以降を実行する(ステップ
860)。すなわち、区間(θ1,θ3)の間にあるフ
ォーカス・イメージを見つけ出す。この場合、次々に中
間の値を計算していくようにすることも可能である。ま
た、ある程度の個数フォーカス・イメージが求まったと
ころで計算を取り止めることもできる。さらに、もう1
つ残った区間(θ3,θ2)についてフォーカス・イメ
ージを計算するために、θ3,θ2についてステップ8
30以降を実行する(ステップ870)。この場合も、
この区間内に存在しているフォーカス・イメージを全て
見つけ出すようにしてもよいし、所定の個数見つけ出し
たところで処理を終了してもよい。
【0087】このようにして、1つ又は複数のフォーカ
ス・イメージを見つけ出すことができた。このように求
まった複数のフォーカス・イメージを連続してユーザに
提示するようなことも可能である。
【0088】B.コンフィデンス最大化ルールの場合
(図21及び図22) この場合には、ルールの定義より最小限度のサポートmi
nsup(全体のデータ数に対する領域に包含されるデータ
数の割合)を入力する(ステップ910)。ここで、U
min=Usum×minsupを計算しておく。ここで図4を見て
みると、最小限度サポートと記された縦の点線がこの値
に対応する。まず、θ=1でフォーカス・イメージS1
を求める(ステップ920)。そして、このS1に含ま
れるデータ数U(S1)が、U(S1)>Uminを満たす
かどうか判断する(ステップ930)。もし成立するな
らば、S1を解として決定し(ステップ950)、処理
を終了する(ステップ990)。成り立たない場合、フ
ォーカス・イメージS2を平面全体を表すイメージとす
る。すなわち、U(S2)=Usum,V(S2)=Vsumと
代入する(ステップ940)。そして、XXを介して図
22に移行する。
【0089】図22では、XXから始まり、新たな条件
θを求め、このθに対するフォーカス・イメージSを計
算する(ステップ1400)。このθは θ=(V(S2)ーV(S1))/(U(S2)−U(S
1)) にて計算される。そして、S1=S又はS2=Sであるな
らば、(S1,S2)の間にはこれ以上フォーカス・イメ
ージは存在しないので、コンフィデンスの高いS2が最
良解として出力され、処理を終了する(ステップ141
0)。また、U(S)≒Uminであるならば、Sを出力
し、処理を終了する。
【0090】ところが、U(S)<Uminであると(ス
テップ1420)、まだ処理が必要なので、S1=Sと
して(ステップ1440)、ステップ1400に戻る。
同様に、U(S)>Uminであるならば、S2=Sとして
(ステップ1430)、ステップ1400に戻る。
【0091】これを繰り返すことにより解が見つけられ
る。図4を参照すると、先に説明した最小限度のサポー
トの右側、濃く塗られた部分に解の存在する範囲があ
る。そして、この図4の場合には、凸包の内部の白丸の
点が厳密解となるが、本発明ではハンド・プローブにて
得られた近似解が出力される。見つけられた解は、ユー
ザに提示されるようにしてもよいし、そのフォーカス・
イメージに属するデータの必要な属性を出力するように
してもよい。
【0092】C.サポート最大化ルールの場合(図2
3,図24) この場合、ルールの定義より、最小限度のコンフィデン
スminconf(直交凸領域に包含されるデータ数に対する
真偽をとる属性が真である割合)を入力する(ステップ
1110)。図4の場合、最小限度のコンフィデンスと
示され、原点から引かれた点線がこれに該当する。ま
ず、フォーカス・イメージS2を平面全体を表すイメー
ジとする。すなわち、U(S2)=Usum,V(S2)=
Vsumと代入する(ステップ1120)。そして、minco
nf≦V(S2)/U(S2)であるかを判断する(ステッ
プ1130)。もしこの条件が成立するならば、S2を
解として決定し(ステップ1160)、処理を終了する
(ステップ1190)。条件が成立しないならば、θ=
1でフォーカス・イメージS1を求める(ステップ11
40)。そして、minconf>V(S1)/U(S1)が成
り立つかどうか判断する(ステップ1150)。もし成
り立つならば、解は存在せず、処理を終了する。成り立
たないならば、Yを介して図24へ移行する。
【0093】図24では、Yから処理が開始され、θ=
(V(S2)−V(S1))/(U(S2)−U(S1))
としてフォーカス・イメージSを求める(ステップ12
00)。この求められたフォーカス・イメージSに対
し、(1)minconf≒V(S)/U(S)が成立する場
合には、このSを出力して処理を終了する(ステップ1
210)。また、S1=S若しくはS2=Sである場合に
は、これ以上S1とS2の間には解は無いので、S1を最
良解として出力し、処理を終了する(ステップ121
0)。これに対し、minconf<V(S)/U(S)であ
る場合には(ステップ1220)、S1=Sとしてステ
ップ1200に戻る(ステップ1230)。また、minc
onf>V(S)/U(S)である場合には、S2=Sとし
てステップ1200に戻る(ステップ1240)。
【0094】以上のようにして、サポート最大化ルール
が求められる。もう一度図4に戻ると、先に説明した最
小限度のコンフィデンスとして示した点線より上の濃く
塗られた範囲に解が存在する。そして、この例では凸包
内の白丸の点が厳密解であるが、このように凸包内部の
点は見つけ出すのに膨大な計算量を必要とするので、凸
包上の点でサポートを最大にする近似解を出力するよう
にしている。先に述べたように、見出された近似解又は
厳密解は、ユーザに提示してもよいし、フォーカス・イ
メージ内に含まれるデータの必要な属性値を出力するよ
うにしてもよい。
【0095】D.最適化エントロピ・ルールの場合 最適化エントロピ・ルールとは、領域の内部と外部との
分割を考えた時、分割前の情報量と比較した分割後の情
報量の増分を最大化するルールである。よって、切り出
された領域と平面全体のエントロピのゲイン(以下の
式)が最大となる領域を発見すればよい。
【数41】 このxはU(S)、yはV(S)、aはUsum、bはVs
umである。このような条件においても、解は凸包上に存
在することが分かったので、上述のステップを用いるこ
とができる。よって、θを変化させ、数41を最大化す
るフォーカス・イメージを求めればよい。
【0096】E.最適化インタクラスバリアンス・ルー
ルの場合 先に述べたように最適化インタクラスバリアンス・ルー
ルとは、領域内外の分割を考えた時、内外の「標準化さ
れた真偽の割合の平均からのずれ」の二乗和を最大化す
るルールである。よって、切り出された領域と平面全体
のインタクラスバリアンス(以下の式)が最大となる領
域を発見すればよい。
【数42】 x,y,a,bは上述したものと同じである。このよう
な条件においても、解は凸包上に存在することが分かっ
たので、上述のステップを用いることができる。よっ
て、θを変化させ、数42を最大化するフォーカス・イ
メージを求めればよい。
【0097】F.その他 以上述べたように、U(S)とV(S)上の凸包上の点
に存在する又は存在すると近似できる場合には、上述し
たステップを用いれば高速にルールに該当する領域を導
き出すことができる。
【0098】G.二次的なルールの抽出 上述のプロセスを用いて1つのルールを見い出した後
に、二次的なルールを見つけ出すことができる。すなわ
ち、切り出した1のフォーカス・イメージに属するv
(i,j)を除去し、v(i,j)/u(i,j)=Vsum/Usumとな
るように、v(i,j)を変更し、それから新たに領域切り
出しステップを行うのである。
【0099】以上、本発明における処理のプロセスを説
明した。このような処理プロセスは、コンピュータ・プ
ログラムによって実現し、実行するようにしてもよい。
例えば、図25のような通常のコンピュータ・システム
において実行できるようなプログラムにすることもでき
る。処理プログラムは、HDD1050に格納され、実
行時にはメインメモリ1020にロードされ、CPU1
010によって処理される。また、HDD1050はデ
ータベースをも含んでおり、処理プログラムはそのデー
タベースに対するアクセスを行う。最初の平面やフォー
カス・イメージは、表示装置1060によってユーザに
提示される。ユーザは、入力装置1070にてフォーカ
ス・イメージの選択や、データ出力の命令を入力する。
このような入力装置には、キーボードやマウス、ポイン
ティング・デバイスやディジタイザを含む。さらに、出
力結果を補助記憶装置であるFDD1030のフロッピ
ー・ディスクに記憶したり、また新たなデータをFDD
1030から入力することもできる。さらに、CD−R
OMドライブ1040を用いて、データを入力すること
もできる。
【0100】さらに、本発明の処理プロセスを実現した
コンピュータ・プログラムは、フロッピー・ディスクや
CD−ROMといった記憶媒体に記憶して、持ち運ぶこ
とができる。この場合、通常のデータベース検索プログ
ラムのデータ取り出し部分や、表示装置1060に表示
するだけの処理を行うプログラムは、すでにHDD10
50に記憶されている場合もある。よって、それ以外の
部分が、上記のような記憶媒体にて流通することは通常
行われる事項である。また、図示されていない通信装置
がバス1080に接続されており、遠隔地にあるデータ
ベースを用いて処理したり、処理結果を遠隔地に送信す
るようにしてもよい。
【0101】また、本発明の処理を実施する特別の装置
を設けてもよい。例えば、図26のような装置が考えら
れる。平面構成装置1310は、データベース1300
及び切出装置1320に接続されており、制御装置13
40からの命令を受付ける。また、切出装置1320
は、出力デバイス1330及び表示装置1350に接続
されており、制御装置1340からの命令を受付ける。
また、切出装置1130はデータベースにも接続を有し
ている。制御装置1340は、入力デバイス1360に
接続され、入力デバイス1360により指示された処理
の種類により平面構成装置1310及び切出装置132
0を制御する。
【0102】この装置の簡単な動作を説明する。平面構
成装置1310は、先に説明した平面構成ステップを実
行する部分である。このように平面構成装置1110
は、データベースに記憶されたデータを用いて先に示し
た平面を構成し、切出装置1320に出力する。切出装
置1320は、制御装置1340からの命令に従って、
切り出しのためのパラメータであるθをセットする。セ
ットされたθに従って切出装置1320は、先に述べた
切出ステップを行い、フォーカス・イメージを切り出
す。そして、表示装置1140に出力し、ユーザに命令
されれば、切り出されたフォーカス・イメージ内に属す
るデータをデータベース1300から取り出し、出力デ
バイス1330に引き渡す。出力デバイス1330は、
適当な形式でユーザ所望のデータを出力する。また、ユ
ーザは、例えば入力デバイス1360からコンフィデン
ス最大化ルールを解くように命じ、最小限度のサポート
を入力する。すると、制御装置1340は先に示した処
理Bを行うように、条件θを設定し、切出装置1320
に出力する。そして、命じられたコンフィデンス最大化
ルールに合致するような領域を解くべく、条件θを変化
させる等の処理を行う。先に述べたサポート最大化ルー
ル(処理C)や、最適化エントロピ・ルール(処理
D)、最適化インタクラスバリアンス・ルール(処理
E)、その他凸包上に位置する領域を切出す処理Fに適
した条件θを切出装置1320に渡す処理を制御装置1
340は行う。ユーザは入力デバイス1360から処理
の種類や、先に述べたような条件(θのみならず、minc
onf,minsupも)を入力する。また、制御装置1340
は、上述の処理Gを行うために平面構成装置1310
に、切り出したフォーカス・イメージのV(i,j)を除去
する等の処理を命じる。
【0103】以上、本発明を特別の装置にする一例を示
したが、本発明はこれに限定されるものではない。例え
ば、切出装置1320の出力は、出力制御装置を介して
出力デバイス1160及び表示装置1140に出力され
るようにしてもよいし、この場合出力制御装置からデー
タベースを参照してデータを取り出すようにしてもよ
い。
【0104】以上は、通常データが有するK個の数値属
性のうち2項を選択し、それらの数値属性間の壮観を見
つける処理であったが、数23を目的関数とし、n次元
空間の領域を切り出すことができれば、n次元の探索に
拡張することができる。
【0105】
【効果】2項以上の数値属性と真偽をとる属性を有する
データ間の結合ルールを見い出すための一手法を提供す
ることができた。
【0106】また、データ間の結合ルールを人間がより
把握しやすい形で提示することもできた。そして、多く
の結合ルールを可視化することにより、使用する人間の
選択の幅を増大させ、より重要な結合ルールを見いだす
こと可能とすることもできた。
【0107】さらに、(1)サポート最大化ルールや、
(2)コンフィデンス最大化ルール、(3)最適化エン
トロピ・ルール、(4)最適化インタクラスバリアンス
・ルールを満たすような範囲(領域)を導出可能とする
こともできた。
【0108】また、上記のようなデータ間の結合ルール
を高速に実行できるような手法を提供することもでき
た。
【0109】例えば、ある割合以上で、例えばアウトド
アスポーツに興味を示す(真偽をとる属性に相当す
る)、できるだけまとまった領域に入る顧客を知ること
ができるので、その条件に合致する多くの顧客に知って
もらいたいダイレクトメールの宛て先を知るのに用いる
ことができる。(サポート最大化ルール)
【0110】一定数以上の顧客を含む、例えば定期預金
残高200万円以上の顧客割合が最も高いところを知る
ことができるので、顧客を絞りこみつつ、有効な宣伝活
動等を行うことができる。(コンフィデンス最大化ルー
ル)
【図面の簡単な説明】
【図1】平面構成ステップのフローを示す図である。
【図2】領域切り出しステップのための前準備のフロー
を示す図である。
【図3】直交凸領域を説明するための図である。
【図4】U(S),V(S)平面の説明をするための図
である。
【図5】領域切り出しステップにおける表記を説明する
ための図である。
【図6】第m−1列から第m列への変化傾向を説明する
ための図である。
【図7】直交凸領域の各列の状態遷移を表す図である。
【図8】W−Typeにおける第m列と第m−1列の関
係を説明するため図であって、(a)は数30の(2)
式、(b)は(3)式、(c)は(4)式を説明するた
めの図である。
【図9】fm W(s,t)の計算順番を示した図である。
【図10】U−Typeの計算に用いる前処理のアルゴ
リズムを説明するための図である。
【図11】U−Typeにおける第m列と第m−1列の
関係を説明するための図であって、(a)は数33の
(2)式、(b)は(3)式、(c)は(4)式を説明
するための図である。
【図12】fm U(s,t)の計算順番を示した図である。
【図13】D−Typeの計算に用いる前処理のアルゴ
リズムを説明するための図である。
【図14】D−Typeにおける第m列と第m−1列の
関係を説明するための図であって、(a)は数36の
(2)式、(b)は(3)式、(c)は(4)式を説明
するための図である。
【図15】fm D(s,t)の計算順番を示した図である。
【図16】N−Typeにおける第m列と第m−1列の
関係を説明するための図であって、(a)は数37の
(1)式、(b)は(3)式、(c)は(4)式、
(d)は(5)式、(e)は(6)式、(f)は(7)
式を説明するための図である。
【図17】fm N(s,t)の計算順番を示した図である。
【図18】HX(m,[s,t])のデータ構造を示すための図で
ある。
【図19】領域切り出しステップの処理フローを表す図
である。
【図20】複数のフォーカス・イメージを見つけ出す処
理のフローを示す図である。
【図21】コンフィデンス最大化ルールを導出するため
の処理の一部を示すための図である。
【図22】コンフィデンス最大化ルールを導出するため
の処理の一部を示すための図である。
【図23】サポート最大化ルールの導出するための処理
の一部を示すための図である。
【図24】サポート最大化ルールの導出するための処理
の一部を示すための図である。
【図25】通常のコンピュータ・システムで本発明を実
施した場合の装置構成の一例を示す図である。
【図26】本発明を専用の装置で実施した場合のブロッ
ク図である。
【符号の説明】
1010 CPU 1020 メインメモリ 1030 FDD 1040 CD−ROMドライブ 1050 HDD 1060 表示装置 1070 入力デバイス 1310 平面構成装置 1300 データベース 1320 切出装置 1350 表示装置 1130 入力デバイス 1330 出力デバイス 1340 制御デバイス
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成9年10月7日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0018
【補正方法】変更
【補正内容】
【0018】さらに、切り出された直交凸領域S内の各
ピクセルのv(i,j)/u(i,j)が、平面全体のデータ数に
対する平面全体の真偽をとる属性が真であるデータ数の
割合に等しくなるようv(i,j)を変更し、当該変更され
たv(i,j)を用いて、入力された条件θ4に従い、
【数20】 を最大にするようなピクセルの第4の領域S4を切り出
すようにすることも考えられる。このようにすると、二
次的な相関ルールを導き出すことができる。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0019
【補正方法】変更
【補正内容】
【0019】また、先の平面構成ステップは、複数のデ
ータから、X個のデータをランダムサンプリングし、サ
ンプリングされたデータを各数値属性についてソート
し、X・i/N(i=1,2,・・N)番目に該当する
数値及びX・n/M(n=1,2,・・M)番目に該当
する数値を記憶し、記憶された数値を基準にして、複数
のデータをN×M個のピクセルに入れるようにすること
も考えられる。このようにすると、各行各列にデータを
高速にまたほぼ均等に割り振ることができる。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0071
【補正方法】変更
【補正内容】
【0071】次に領域を記憶しておく配列を用意する。
これは、Nx×Ny(Ny+1)/2の整数型2次元配列
であり、W,U,D,N−Typeのそれぞれに対して
1つ用意する。この要素をHX(m,[s,t])(0≦m≦Nx
−1,0≦[s,t]≦Ny(Ny+1)/2,X∈{W,
U,D,N})と表すこととする。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0104
【補正方法】変更
【補正内容】
【0104】以上は、通常データが有するK個の数値属
性のうち2項を選択し、それらの数値属性間の相関を見
つける処理であったが、数23を目的関数とし、n次元
空間の領域を切り出すことができれば、n次元の探索に
拡張することができる。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 福田 剛志 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 東京基礎研究所 内 (72)発明者 徳山 豪 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 東京基礎研究所 内 (72)発明者 森下 真一 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 東京基礎研究所 内

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】2種類の数値属性と、1種類の真偽をとる
    属性とを含むデータを有するデータベースにおいて、 データ間の結合ルールを導き出す方法であって、 前記2種類の数値属性に対応する2つの軸を有し且つN
    ×M個のピクセルに分割されている平面の各ピクセルに
    対応して、当該ピクセル(i行j列)に属するデータの数
    u(i,j)及び前記真偽をとる属性が真であるデータの数
    v(i,j)を記憶する平面構成ステップと、 条件θを入力するステップと、 【数1】 を最大にするような前記ピクセルの直交凸領域Sを前記
    平面から切り出す領域切出ステップと、 切り出された前記直交凸領域S内に含まれるデータを出
    力するステップとを含むデータ間結合ルール導出方法。
  2. 【請求項2】入力された前記条件θとは異なる第2の条
    件θ2を入力するステップと、 【数2】 を最大にするような前記ピクセルの第2の直交凸領域S
    2を前記平面から切り出すステップと、 【数3】 (前記直交凸領域S2に含まれ且つ前記真偽をとる属性
    が真であるデータの数をV(S2)、前記直交凸領域S
    に含まれ且つ前記真偽をとる属性が真であるデータの数
    をV(S)、前記直交凸領域S2に含まれるデータ数を
    U(S2)、前記直交凸領域Sに含まれるデータ数をU
    (S)とする。)を第3の条件として、 【数4】 を最大にするような前記ピクセルの第3の直交凸領域S
    3を前記平面から切り出すステップとをさらに含む請求
    項1記載のデータ間結合ルール導出方法。
  3. 【請求項3】前記切り出された直交凸領域S内の各ピク
    セルのv(i,j)/u(i,j)が、前記平面全体のデータ数に
    対する前記平面全体の前記真偽をとる属性が真であるデ
    ータ数の割合に等しくなるようv(i,j)を変更するステ
    ップと、 当該変更されたv(i,j)を用いて、入力された条件θ4
    従い、 【数5】 を最大にするような前記ピクセルの第4の直交凸領域S
    4を切り出すステップとをさらに含む請求項1記載のデ
    ータ間結合ルール導出方法。
  4. 【請求項4】前記平面構成ステップが、 複数の前記データから、X個のデータをランダムサンプ
    リングするステップと、 サンプリングされたデータを各前記数値属性についてソ
    ートし、X・i/N(i=1,2,・・N)番目に該当
    する数値及びX・n/M(n=1,2,・・M)番目に
    該当する数値を記憶するステップと、 記憶された前記数値を基準にして、前記複数のデータの
    各々がN×M個の前記ピクセルのいずれに含まれるか判
    断し、各ピクセルにおける数を計数するステップとを含
    む請求項1記載のデータ間結合ルール導出方法。
  5. 【請求項5】前記領域切出ステップが、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]が前記区間[s,t]に含まれる直交凸
    領域、又は前記第m列の区間[s,t]のみで構成され
    る直交凸領域のうち、前記数1の値が最も大きい直交凸
    領域Sm W(s,t)の前記第m−1列の区間[x,y]又は
    第m列が左端列であることを示す情報をm及び[s,
    t]に対応して記憶手段HWに記憶し、当該直交凸領域
    m W(s,t)の数1の値を記憶する第1記憶ステップと、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]がs≧x及びt≧yを満たす直交凸領
    域、又は前記第m列の区間[s,t]のみで構成される
    直交凸領域のうち、前記数1の値が最も大きい直交凸領
    域Sm U(s,t)の(a)前記第m−1列の区間[x,y]
    及び(b)前記第m−1列の区間[x,y]と第m−2
    列の区間[a,b]との関係、又は第m列が左端列であ
    ることを示す情報をm及び[s,t]に対応して記憶手
    段HUに記憶し、当該直交凸領域Sm U(s,t)の数1の値を
    記憶する第2記憶ステップと、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]がs≦x及びy≧tを満たす直交凸領
    域、又は前記第m列の区間[s,t]のみで構成される
    直交凸領域のうち、前記数1の値が最も大きい直交凸領
    域Sm D(s,t)の(a)前記第m−1列の区間[x,y]
    及び(b)前記第m−1列の区間[x,y]と第m−2
    列の区間[a,b]との関係、又は第m列が左端列であ
    ることを示す情報をm及び[s,t]に対応して記憶手
    段HDに記憶し、当該直交凸領域Sm D(s,t)の数1の値を
    記憶する第3記憶ステップと、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]がx≦s及びy≧tを満たす直交凸領
    域、又は前記第m列の区間[s,t]のみで構成される
    直交凸領域のうち、前記数1の値が最も大きい直交凸領
    域Sm N(s,t)の(a)前記第m−1列の区間[x,y]
    及び(b)前記第m−1列の区間[x,y]と第m−2
    列の区間[a,b]との関係、又は第m列が左端列であ
    ることを示す情報をm及び[s,t]に対応して記憶手
    段HNに記憶し、当該直交凸領域Sm N(s,t)の数1の値を
    記憶する第4記憶ステップと、 全てのm及び[s,t]について前記第1乃至第4記憶
    ステップを実行し、最も大きい数1の値を有する直交凸
    領域Sのm及び[s,t]と、対応する記憶手段HW
    U、HD、又はHNの値とを用いて、直交凸領域Sを前
    記平面から切り出すステップとを含む請求項1記載のデ
    ータ間結合ルール導出方法。
  6. 【請求項6】各々内部に含まれるポイントの数u(i,j)
    及び所定の条件を満たしたポイントの数v(i,j)を記憶
    した複数のセルを含む平面から、 【数6】 を最大とする直交凸領域Sを切り出す方法であって、 θを入力するステップと、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]が前記区間[s,t]に含まれる直交凸
    領域、又は前記第m列の区間[s,t]のみで構成され
    る直交凸領域のうち、前記数6の値が最も大きい直交凸
    領域Sm W(s,t)の前記第m−1列の区間[x,y]又は
    第m列が左端列であることを示す情報をm及び[s,
    t]に対応して記憶手段HWに記憶し、当該直交凸領域
    m W(s,t)の数6の値を記憶する第1記憶ステップと、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]がs≧x及びt≧yを満たす直交凸領
    域、又は前記第m列の区間[s,t]のみで構成される
    直交凸領域のうち、前記数6の値が最も大きい直交凸領
    域Sm U(s,t)の(a)前記第m−1列の区間[x,y]
    及び(b)前記第m−1列の区間[x,y]と第m−2
    列の区間[a,b]との関係、又は第m列が左端列であ
    ることを示す情報をm及び[s,t]に対応して記憶手
    段HUに記憶し、当該直交凸領域Sm U(s,t)の数6の値を
    記憶する第2記憶ステップと、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]がs≦x及びy≧tを満たす直交凸領
    域、又は前記第m列の区間[s,t]のみで構成される
    直交凸領域のうち、前記数6の値が最も大きい直交凸領
    域Sm D(s,t)の(a)前記第m−1列の区間[x,y]
    及び(b)前記第m−1列の区間[x,y]と第m−2
    列の区間[a,b]との関係、又は第m列が左端列であ
    ることを示す情報をm及び[s,t]に対応して記憶手
    段HDに記憶し、当該直交凸領域Sm D(s,t)の数6の値を
    記憶する第3記憶ステップと、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]がx≦s及びy≧tを満たす直交凸領
    域、又は前記第m列の区間[s,t]のみで構成される
    直交凸領域のうち、前記数6の値が最も大きい直交凸領
    域Sm N(s,t)の(a)前記第m−1列の区間[x,y]
    及び(b)前記第m−1列の区間[x,y]と第m−2
    列の区間[a,b]との関係、又は第m列が左端列であ
    ることを示す情報をm及び[s,t]に対応して記憶手
    段HNに記憶し、当該直交凸領域Sm N(s,t)の数6の値を
    記憶する第4記憶ステップと、 全てのm及び[s,t]について前記第1乃至第4記憶
    ステップを実行し、最も大きい数6の値を有する直交凸
    領域Sのm及び[s,t]と、対応する記憶手段HW
    U、HD、又はHNの値とを用いて、直交凸領域Sを前
    記平面から切り出すステップとを含む直交凸領域切出方
    法。
  7. 【請求項7】前記第2記憶ステップが、 第m列の区間[s,t]が右端列であり且つ第m−1列
    の区間[x,y]がs≧x及びt=yを満たし且つ第m
    −2列の区間[a,b]と前記第m−1列の区間[x,
    y]との関係がa≧x及びb≦y又はa≦x及びb≦y
    である直交凸領域、第m列の区間[s,t]が右端列で
    あり且つ第m−1列の区間[x,y]がs≧x及びs≦
    y≦t−1を満たし且つ第m−2列の区間[a,b]と
    前記第m−1列の区間[x,y]との関係がa≧x及び
    b≦y又はa≦x及びb≦yである直交凸領域、又は前
    記第m列の区間[s,t]のみで構成される直交凸領域
    のうち、前記数6の値が最も大きい直交凸領域Sm U(s,
    t)の(a)前記第m−1列の区間[x,y]及び(b)
    前記第m−1列の区間[x,y]と第m−2列の区間
    [a,b]との関係、又は第m列が左端列であることを
    示す情報をm及び[s,t]に対応して記憶手段HU
    記憶し、当該直交凸領域Sm U(s,t)の数6の値を記憶す
    ることを特徴とする請求項6記載の直交凸領域切出方
    法。
  8. 【請求項8】前記第3記憶ステップが、 第m列の区間[s,t]が右端列であり且つ第m−1列
    の区間[x,y]がs=x及びt≧yを満たし且つ第m
    −2列の区間[a,b]と前記第m−1列の区間[x,
    y]との関係がa≧x及びb≦y又はa≧x及びb≧y
    である直交凸領域、第m列の区間[s,t]が右端列で
    あり且つ第m−1列の区間[x,y]がs+1≦x≦t
    及びy≧tを満たし且つ第m−2列の区間[a,b]と
    前記第m−1列の区間[x,y]との関係がa≧x及び
    b≦y又はa≧x及びb≧yである直交凸領域、又は前
    記第m列の区間[s,t]のみで構成される直交凸領域
    のうち、前記数6の値が最も大きい直交凸領域Sm D(s,
    t)の(a)前記第m−1列の区間[x,y]及び(b)
    前記第m−1列の区間[x,y]と第m−2列の区間
    [a,b]との関係、又は第m列が左端列であることを
    示す情報をm及び[s,t]に対応して記憶手段HD
    記憶し、当該直交凸領域Sm D(s,t)の数6の値を記憶す
    ることを特徴とする請求項6記載の直交凸領域切出方
    法。
  9. 【請求項9】前記第4記憶ステップが、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]が前記区間[s,t]と同一である直交
    凸領域、第m列の区間[s,t]が右端列であって第m
    −1列の区間[x,y]がx≦s及びy≧t+1又はx
    ≦s−1及びy≧tを満たす直交凸領域、又は前記第m
    列の区間[s,t]のみで構成される直交凸領域のう
    ち、前記数6の値が最も大きい直交凸領域Sm N(s,t)の
    (a)前記第m−1列の区間[x,y]及び(b)前記
    第m−1列の区間[x,y]と第m−2列の区間[a,
    b]との関係、又は第m列が左端列であることを示す情
    報をm及び[s,t]に対応して記憶手段HNに記憶
    し、当該直交凸領域Sm N(s,t)の数6の値を記憶するこ
    とを特徴とする請求項6記載の直交凸領域切出方法。
  10. 【請求項10】前記直交凸領域Sを前記平面から切り出
    すステップが、 全てのm及び[s,t]について前記第1乃至第4記憶
    ステップを実行するステップと、 計算された数6の値のうち最大の値を有する直交凸領域
    Sのm及び[s,t]と、対応する記憶手段HW、HU
    D、又はHNとを用いて、第m−1列の区間[x,y]
    及び前記第m−1列と第m−2列との関係を読み出す第
    1関係読出ステップと、 前記第m−1列と第m−2列との関係を用いて、前記記
    憶手段HW、HU、HD、及びHNから対応する記憶手段を
    選択する選択ステップと、 前記第m−1列の区間[x,y]を用いて選択された記
    憶手段から第m−2列の区間[a,b]及び第m−2列
    と第m−3列との関係を読み出す第2関係読出ステップ
    と、 前記選択ステップと前記第2関係読出ステップとを、前
    列との関係が前記左端列であることを示す情報となるま
    で繰り返すステップとを含む請求項6記載の直交凸領域
    切出方法。
  11. 【請求項11】2種類の数値属性と、1種類の真偽をと
    る属性を含むデータを有するデータベースにおいて、 データ間の結合ルールを導き出す装置であって、 前記2種類の数値属性に対応する2つの軸を有し且つN
    ×M個のピクセルに分割されている平面の各ピクセルに
    対応して、当該ピクセル(i行j列)に属するデータの数
    u(i,j)及び前記真偽をとる属性が真であるデータの数
    v(i,j)を記憶する平面構成装置と、 条件θを入力する入力デバイスと、 【数7】 を最大にするような前記ピクセルの直交凸領域Sを前記
    平面から切り出す領域切出装置と、 切り出された前記領域S内に含まれるデータを出力する
    デバイスとを有するデータ間結合ルール導出装置。
  12. 【請求項12】前記入力デバイスにより、前記条件θと
    は異なる第2の条件θ2を入力し、前記領域切出装置に
    より、前記第2の条件θ2に対応する第2の直交凸領域
    2を前記平面から切り出した場合に、 【数8】 (前記直交凸領域S2に含まれ且つ前記真偽をとる属性
    が真であるデータの数をV(S2)、前記直交凸領域S
    に含まれ且つ前記真偽をとる属性が真であるデータの数
    をV(S)、前記直交凸領域S2に含まれるデータ数を
    U(S2)、前記直交凸領域Sに含まれるデータ数をU
    (S)とする。)を第3の条件として前記領域切出装置
    に出力する手段とをさらに有する請求項11記載のデー
    タ間結合ルール導出装置。
  13. 【請求項13】前記切り出された直交凸領域S内の各ピ
    クセルのv(i,j)/u(i,j)が、前記平面全体のデータ数
    に対する前記平面全体の前記真偽をとる属性が真である
    データ数の割合に等しくなるようv(i,j)を変更する手
    段と、 当該変更されたv(i,j)及び入力された条件θ4でもっ
    て、前記領域切出装置が動作するように命令する手段と
    を有する請求項11記載のデータ間結合ルール導出装
    置。
  14. 【請求項14】前記平面構成装置が、 複数の前記データから、X個のデータをランダムサンプ
    リングする手段と、 サンプリングされたデータを各前記数値属性についてソ
    ートし、X・i/N(i=1,2,・・N)番目に該当
    する数値及びX・n/M(n=1,2,・・M)番目に
    該当する数値を記憶する手段と、 記憶された前記数値を基準にして、前記複数のデータの
    各々がN×M個の前記ピクセルのいずれに含まれるか判
    断し、各ピクセルにおける数を計数する手段とを含む請
    求項11記載のデータ間結合ルール導出装置。
  15. 【請求項15】各々内部に含まれるポイントの数u(i,
    j)及び所定の条件を満たしたポイントの数v(i,j)を記
    憶した複数のセルを含む平面から、 【数9】 を最大とする直交凸領域Sを切り出す装置であって、 θを入力する手段と、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]が前記区間[s,t]に含まれる直交凸
    領域、又は前記第m列の区間[s,t]のみで構成され
    る直交凸領域のうち、前記数9の値が最も大きい直交凸
    領域Sm W(s,t)の前記第m−1列の区間[x,y]又は
    第m列が左端列であることを示す情報をm及び[s,
    t]に対応して記憶手段HWに記憶し、当該直交凸領域
    m W(s,t)の数9の値を記憶する第1記憶手段と、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]がs≧x及びt≧yを満たす直交凸領
    域、又は前記第m列の区間[s,t]のみで構成される
    直交凸領域のうち、前記数9の値が最も大きい直交凸領
    域Sm U(s,t)の(a)前記第m−1列の区間[x,y]
    及び(b)前記第m−1列の区間[x,y]と第m−2
    列の区間[a,b]との関係、又は第m列が左端列であ
    ることを示す情報をm及び[s,t]に対応して記憶手
    段HUに記憶し、当該直交凸領域Sm U(s,t)の数9の値を
    記憶する第2記憶手段と、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]がs≦x及びy≧tを満たす直交凸領
    域、又は前記第m列の区間[s,t]のみで構成される
    直交凸領域のうち、前記数9の値が最も大きい直交凸領
    域Sm D(s,t)の(a)前記第m−1列の区間[x,y]
    及び(b)前記第m−1列の区間[x,y]と第m−2
    列の区間[a,b]との関係、又は第m列が左端列であ
    ることを示す情報をm及び[s,t]に対応して記憶手
    段HDに記憶し、当該直交凸領域Sm D(s,t)の数9の値を
    記憶する第3記憶手段と、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]がx≦s及びy≧tを満たす直交凸領
    域、又は前記第m列の区間[s,t]のみで構成される
    直交凸領域のうち、前記数9の値が最も大きい直交凸領
    域Sm N(s,t)の(a)前記第m−1列の区間[x,y]
    及び(b)前記第m−1列の区間[x,y]と第m−2
    列の区間[a,b]との関係、又は第m列が左端列であ
    ることを示す情報をm及び[s,t]に対応して記憶手
    段HNに記憶し、当該直交凸領域Sm N(s,t)の数9の値を
    記憶する第4記憶手段と、 全てのm及び[s,t]について前記第1乃至第4記憶
    手段を動作させ、最も大きい数9の値を有する直交凸領
    域Sのm及び[s,t]と、対応する記憶手段HW
    U、HD、又はHNの値とを用いて、直交凸領域Sを前
    記平面から切り出す手段とを有する直交凸領域切出装
    置。
  16. 【請求項16】2種類の数値属性と、1種類の真偽をと
    る属性を含むデータを有するデータベースにおいて、コ
    ンピュータにデータ間の結合ルールを導き出させるプロ
    グラムを記憶した記憶デバイスであって、 前記プログラムは、 前記2種類の数値属性に対応する2つの軸を有し且つN
    ×M個のバケットに分割されている平面の各ピクセルに
    対応して、当該ピクセル(i行j列)に属するデータの数
    u(i,j)及び前記真偽をとる属性が真であるデータの数
    v(i,j)を記憶する平面構成ステップと、 条件θを入力する入力ステップと、 【数10】 を最大にするような前記ピクセルの直交凸領域Sを前記
    平面から切り出す領域切出ステップとをコンピュータに
    実行させる、記憶デバイス。
  17. 【請求項17】前記プログラムが、 前記条件θとは異なる第2の条件θ2を入力するステッ
    プと、 【数11】 を最大とするような前記ピクセルの第2の直交凸領域S
    2を前記平面から切り出すステップと、 【数12】 (前記直交凸領域S2に含まれ且つ前記真偽をとる属性
    が真であるデータの数をV(S2)、前記直交凸領域S
    に含まれ且つ前記真偽をとる属性が真であるデータの数
    をV(S)、前記直交凸領域S2に含まれるデータ数を
    U(S2)、前記直交凸領域Sに含まれるデータ数をU
    (S)とする。)を第3の条件として、 【数13】 を最大にするような前記ピクセルの第3の直交凸領域S
    3を前記平面から切り出すステップとをコンピュータに
    実行させる、請求項16記載の記憶デバイス。
  18. 【請求項18】前記プログラムが、 前記切り出された直交凸領域S内の各ピクセルのv(i,
    j)/u(i,j)が、前記平面全体のデータ数に対する前記
    平面全体の前記真偽をとる属性のデータ数の割合に等し
    くなるようv(i,j)を変更するステップと、 当該変更されたv(i,j)及び入力された条件θ4に従い、 【数14】 を最大にするような前記ピクセルの第4の直交凸領域S
    4を切り出すステップとをコンピュータに実行させる、
    請求項16記載の記憶デバイス。
  19. 【請求項19】前記平面構成ステップが、 複数の前記データから、X個のデータをランダムサンプ
    リングするステップと、 サンプリングされたデータを各前記数値属性についてソ
    ートし、X・i/N(i=1,2,・・N)番目に該当
    する数値及びX・n/M(n=1,2,・・M)番目に
    該当する数値を記憶するステップと、 記憶された前記数値を基準にして、前記複数のデータの
    各々がN×M個の前記ピクセルのいずれに含まれるか判
    断し、各ピクセルにおける数を計数するステップとを含
    む請求項16記載の記憶デバイス。
  20. 【請求項20】各々内部に含まれるポイントの数u(i,
    j)及び所定の条件を満たしたポイントの数v(i,j)を記
    憶した複数のセルを含む平面から、 【数15】 を最大とする直交凸領域Sを切り出すプログラムを格納
    した記憶媒体であって、 前記プログラムは、 θを入力するステップと、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]が前記区間[s,t]に含まれる直交凸
    領域、又は前記第m列の区間[s,t]のみで構成され
    る直交凸領域のうち、前記数15の値が最も大きい直交
    凸領域Sm W(s,t)の前記第m−1列の区間[x,y]又
    は第m列が左端列であることを示す情報をm及び[s,
    t]に対応して記憶手段HWに記憶し、当該直交凸領域
    m W(s,t)の数15の値を記憶する第1記憶ステップ
    と、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]がs≧x及びt≧yを満たす直交凸領
    域、又は前記第m列の区間[s,t]のみで構成される
    直交凸領域のうち、前記数15の値が最も大きい直交凸
    領域Sm U(s,t)の(a)前記第m−1列の区間[x,
    y]及び(b)前記第m−1列の区間[x,y]と第m
    −2列の区間[a,b]との関係、又は第m列が左端列
    であることを示す情報をm及び[s,t]に対応して記
    憶手段HUに記憶し、当該直交凸領域Sm U(s,t)の数15
    の値を記憶する第2記憶ステップと、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]がs≦x及びy≧tを満たす直交凸領
    域、又は前記第m列の区間[s,t]のみで構成される
    直交凸領域のうち、前記数15の値が最も大きい直交凸
    領域Sm D(s,t)の(a)前記第m−1列の区間[x,
    y]及び(b)前記第m−1列の区間[x,y]と第m
    −2列の区間[a,b]との関係、又は第m列が左端列
    であることを示す情報をm及び[s,t]に対応して記
    憶手段HDに記憶し、当該直交凸領域Sm D(s,t)の数15
    の値を記憶する第3記憶ステップと、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]がx≦s及びy≧tを満たす直交凸領
    域、又は前記第m列の区間[s,t]のみで構成される
    直交凸領域のうち、前記数15の値が最も大きい直交凸
    領域Sm N(s,t)の(a)前記第m−1列の区間[x,
    y]及び(b)前記第m−1列の区間[x,y]と第m
    −2列の区間[a,b]との関係、又は第m列が左端列
    であることを示す情報をm及び[s,t]に対応して記
    憶手段HNに記憶し、当該直交凸領域Sm N(s,t)の数15
    の値を記憶する第4記憶ステップと、 全てのm及び[s,t]について前記第1乃至第4記憶
    ステップを実行し、最も大きい数15の値を有する直交
    凸領域Sのm及び[s,t]と、対応する記憶手段
    W、HU、HD、又はHNの値とを用いて、直交凸領域S
    を前記平面から切り出すステップとをコンピュータに実
    行させる、記憶媒体。
JP3460597A 1997-02-19 1997-02-19 データ間結合ルール導出方法及び装置、及び直交凸領域切出方法及び装置 Expired - Fee Related JP3193658B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP3460597A JP3193658B2 (ja) 1997-02-19 1997-02-19 データ間結合ルール導出方法及び装置、及び直交凸領域切出方法及び装置
KR1019970060883A KR100309666B1 (ko) 1997-02-19 1997-11-18 데이터간결합룰도출방법및장치와,직교볼록영역분리추출방법및장치
TW086117282A TW360825B (en) 1997-02-19 1997-11-19 Method and apparatus for deriving association rule between data, and method and apparatus for segmenting rectilinear region
US09/025,536 US5991752A (en) 1997-02-19 1998-02-18 Method and apparatus for deriving association rules from data and for segmenting rectilinear regions

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3460597A JP3193658B2 (ja) 1997-02-19 1997-02-19 データ間結合ルール導出方法及び装置、及び直交凸領域切出方法及び装置

Publications (2)

Publication Number Publication Date
JPH10240747A true JPH10240747A (ja) 1998-09-11
JP3193658B2 JP3193658B2 (ja) 2001-07-30

Family

ID=12419001

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3460597A Expired - Fee Related JP3193658B2 (ja) 1997-02-19 1997-02-19 データ間結合ルール導出方法及び装置、及び直交凸領域切出方法及び装置

Country Status (4)

Country Link
US (1) US5991752A (ja)
JP (1) JP3193658B2 (ja)
KR (1) KR100309666B1 (ja)
TW (1) TW360825B (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001337956A (ja) * 2000-05-24 2001-12-07 Internatl Business Mach Corp <Ibm> 領域算出方法、空間データマイニング装置、地図情報表示装置、空間データマイニングシステム、および記憶媒体
JP2002183432A (ja) * 2000-12-14 2002-06-28 Ibm Japan Ltd データ抽出方法、データ操作方法、債権情報抽出方法、データベースシステム、債権商品化処理装置、記憶媒体及びコンピュータプログラム
WO2006090638A1 (ja) * 2005-02-22 2006-08-31 Ginza Stefany Keshouhin Kabushiki Kaisha クラブフェイス上の打点位置を推定するゴルフクラブ
WO2013046435A1 (ja) * 2011-09-30 2013-04-04 富士通株式会社 観測情報処理装置、観測情報処理プログラムおよび観測情報処理方法
JPWO2013046747A1 (ja) * 2011-09-30 2015-03-26 富士通株式会社 観測情報処理装置、観測情報処理プログラムおよび観測情報処理方法
CN111504963A (zh) * 2020-04-10 2020-08-07 上海蓝长自动化科技有限公司 一种应用于叶绿素、蓝绿藻荧光检测的数据时空融合方法

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115842A (ja) * 1997-06-24 1999-01-22 Mitsubishi Electric Corp データマイニング装置
JPH11328186A (ja) * 1997-11-11 1999-11-30 Mitsubishi Electric Corp 相関ルール生成方法および相関ルール生成装置
US6182070B1 (en) * 1998-08-21 2001-01-30 International Business Machines Corporation System and method for discovering predictive association rules
US6278997B1 (en) * 1999-02-05 2001-08-21 International Business Machines Corporation System and method for constraint-based rule mining in large, dense data-sets
US7539677B1 (en) 2000-10-09 2009-05-26 Battelle Memorial Institute Sequential pattern data mining and visualization
US6711577B1 (en) 2000-10-09 2004-03-23 Battelle Memorial Institute Data mining and visualization techniques
JP2002351898A (ja) * 2001-05-23 2002-12-06 Internatl Business Mach Corp <Ibm> グラフ構造データの処理方法、処理システムおよびプログラム
US6765578B2 (en) * 2001-08-30 2004-07-20 Micron Technology, Inc. Graphics resampling system and method for use thereof
US20040205064A1 (en) * 2003-04-11 2004-10-14 Nianjun Zhou Adaptive search employing entropy based quantitative information measurement
US7480593B2 (en) * 2005-08-03 2009-01-20 Suresh Gopalan Methods and systems for high confidence utilization of datasets
US8819078B2 (en) * 2012-07-13 2014-08-26 Hewlett-Packard Development Company, L. P. Event processing for graph-structured data
US20140035924A1 (en) * 2012-08-01 2014-02-06 Apollo Group, Inc. Trend highlighting
US9600894B2 (en) * 2015-04-07 2017-03-21 Toshiba Tec Kabushiki Kaisha Image processing apparatus and computer-readable storage medium

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3118181B2 (ja) * 1995-10-26 2000-12-18 インターナショナル・ビジネス・マシーンズ・コーポレ−ション データ間結合ルール導出方法及び装置
JPH09134365A (ja) * 1995-11-01 1997-05-20 Internatl Business Mach Corp <Ibm> 最適化結合ルール導出方法及び装置
US5724573A (en) * 1995-12-22 1998-03-03 International Business Machines Corporation Method and system for mining quantitative association rules in large relational tables

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001337956A (ja) * 2000-05-24 2001-12-07 Internatl Business Mach Corp <Ibm> 領域算出方法、空間データマイニング装置、地図情報表示装置、空間データマイニングシステム、および記憶媒体
US7010564B2 (en) 2000-05-24 2006-03-07 International Business Machines Corporation Region calculation method, spatial data mining apparatus, geographical information display apparatus, spatial data mining system and storage medium
JP2002183432A (ja) * 2000-12-14 2002-06-28 Ibm Japan Ltd データ抽出方法、データ操作方法、債権情報抽出方法、データベースシステム、債権商品化処理装置、記憶媒体及びコンピュータプログラム
WO2006090638A1 (ja) * 2005-02-22 2006-08-31 Ginza Stefany Keshouhin Kabushiki Kaisha クラブフェイス上の打点位置を推定するゴルフクラブ
WO2013046435A1 (ja) * 2011-09-30 2013-04-04 富士通株式会社 観測情報処理装置、観測情報処理プログラムおよび観測情報処理方法
WO2013046747A1 (ja) * 2011-09-30 2013-04-04 富士通株式会社 観測情報処理装置、観測情報処理プログラムおよび観測情報処理方法
JPWO2013046747A1 (ja) * 2011-09-30 2015-03-26 富士通株式会社 観測情報処理装置、観測情報処理プログラムおよび観測情報処理方法
US9519697B2 (en) 2011-09-30 2016-12-13 Fujitsu Limited Observation information processing apparatus, non-transitory computer-readable recording medium, and observation information processing method
CN111504963A (zh) * 2020-04-10 2020-08-07 上海蓝长自动化科技有限公司 一种应用于叶绿素、蓝绿藻荧光检测的数据时空融合方法
CN111504963B (zh) * 2020-04-10 2023-07-07 上海蓝长自动化科技有限公司 一种应用于叶绿素、蓝绿藻荧光检测的数据时空融合方法

Also Published As

Publication number Publication date
TW360825B (en) 1999-06-11
KR19980070101A (ko) 1998-10-26
JP3193658B2 (ja) 2001-07-30
US5991752A (en) 1999-11-23
KR100309666B1 (ko) 2001-11-17

Similar Documents

Publication Publication Date Title
JP3118181B2 (ja) データ間結合ルール導出方法及び装置
JP3193658B2 (ja) データ間結合ルール導出方法及び装置、及び直交凸領域切出方法及び装置
JP3072708B2 (ja) データベース検索方法及び装置
Keim et al. Visualization techniques for mining large databases: A comparison
US6564212B2 (en) Method of processing queries in a database system, and database system and software product for implementing such method
US7246129B2 (en) System and method for identifying relationships between database records
US8725734B2 (en) Sorting multiple records of data using ranges of key values
US20020095421A1 (en) Methods of organizing data and processing queries in a database system, and database system and software product for implementing such methods
US7010564B2 (en) Region calculation method, spatial data mining apparatus, geographical information display apparatus, spatial data mining system and storage medium
US8606779B2 (en) Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof
EP0877324A2 (en) Association rule generation and group-by processing system
US7734567B2 (en) Document data analysis apparatus, method of document data analysis, computer readable medium and computer data signal
US6970884B2 (en) Methods and apparatus for user-centered similarity learning
US20060155662A1 (en) Sentence classification device and method
JP3277142B2 (ja) リグレッション・ツリー作成方法及び装置
Azgomi et al. A Solution for Calculating the False Positive and False Negative in LSH Method to Find Similar Documents
JPH11345124A (ja) データベース内のルール決定方法及び装置
US20060293945A1 (en) Method and device for building and using table of reduced profiles of paragons and corresponding computer program
JPH09134365A (ja) 最適化結合ルール導出方法及び装置
CN106682173A (zh) 一种社保大数据olap预处理方法及在线分析查询方法
JP3675682B2 (ja) クラスター分析処理方法、装置、およびクラスター分析プログラムを記録した記録媒体
Schulz et al. A framework for visual data mining of structures
Charalampopoulos et al. Computing covers of 2D-strings
GB2586226A (en) Processing and storage of location data
EP3896619A1 (en) Method and system for keyword search over a knowledge graph

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees