JP3193658B2 - データ間結合ルール導出方法及び装置、及び直交凸領域切出方法及び装置 - Google Patents

データ間結合ルール導出方法及び装置、及び直交凸領域切出方法及び装置

Info

Publication number
JP3193658B2
JP3193658B2 JP3460597A JP3460597A JP3193658B2 JP 3193658 B2 JP3193658 B2 JP 3193658B2 JP 3460597 A JP3460597 A JP 3460597A JP 3460597 A JP3460597 A JP 3460597A JP 3193658 B2 JP3193658 B2 JP 3193658B2
Authority
JP
Japan
Prior art keywords
column
section
region
orthogonal convex
orthogonal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3460597A
Other languages
English (en)
Other versions
JPH10240747A (ja
Inventor
邦和 依田
剛志 福田
豪 徳山
真一 森下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP3460597A priority Critical patent/JP3193658B2/ja
Priority to KR1019970060883A priority patent/KR100309666B1/ko
Priority to TW086117282A priority patent/TW360825B/zh
Priority to US09/025,536 priority patent/US5991752A/en
Publication of JPH10240747A publication Critical patent/JPH10240747A/ja
Application granted granted Critical
Publication of JP3193658B2 publication Critical patent/JP3193658B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/289Object oriented databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Character Input (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、データベースにお
けるデータ相関の解析(データマイニングという。)に
関し、より詳しくは2項の数値属性と1項の真偽をとる
属性(真偽をとる条件又は0−1属性ともいう。)を有
するデータ間の相関を見い出す手法に関する。
【0002】
【従来の技術】例えば、銀行の顧客を解析対象とし、流
動性預金残高がいくらくらいで且つ年齢が何歳ぐらいの
人であれば、定期預金残高が200万円以上になる人が
全体の20%となるか、といった問題を実際に解くこと
を考える。この流通性預金残高及び年齢は、整数ではあ
るが連続数値であり、一方定期預金残高200万円以上
というのは、200万円以上か未満かという分類になる
ので、真偽をとる属性を有するものである。真偽をとる
属性は、例えば「顧客がクレジットカードを有している
か」や「顧客が男性であるか」といった問題と置き換え
ることも可能である。このような課題を解決することが
できれば、銀行はどのような人に、例えば新型の金融商
品に関するダイレクトメールを送ればよいか簡単に分か
るので、効率的な営業活動が行える。
【0003】従来、先に述べた真偽をとる属性間の相関
を表現するルール(結合ルール、association rule)を
高速に抽出するような研究は、データマイニングの分野
において行われてきた。例えば、R.Agrawal, T.Imielin
ski, and A.Swami, "Miningassociation rules between
sets of items in large databases" In proceedings
of the ACM SIGMOD Conference on Management of dat
a, May 1993. や、R.Agrawal and R.Srikant, "Fast al
gorithms for mining association rules" InProceedin
gs of the 20th VLDB Conference, 1994. 等がある。
【0004】また、2項の数値データ間のルールを求め
る従来手法には、以下のようなものがある。1.強い線
形相関を見い出すために、平面上の直線で、点集合を最
適近似するものを探す方法。例えば、最小自乗法、再帰
中央法等である。これら方法の欠点は、線形相関しか分
からず、しかも相関係数の絶対値が0.5以下の場合に
線形相関を用いて各データを予測すると精度が低く、現
実にはほとんど役にたたない点にある。2.弱い大域相
関を見い出すために、2次元平面上で正方形、長方形、
又は円、楕円で面積に対して多くのデータを含むものを
見い出す方法。例えば、計算幾何学アルゴリズムを利用
するものである。この場合、計算時間が大きくなってし
まうという欠点がある。例えば円の場合、O(M3)以
上の手間が掛かり得る(O(M3)は、オーダーM3の計
算手間がかかることを示す。Mはデータ数である。)。
また、取り出す相関領域としては決まった形をしたもの
しか扱うことができない。現実には、決まった形で適切
にカバーできる場合は少ない。3.平面を正方メッシュ
に分割しておき、たくさんのデータを含むピクセルを取
り出す方法。しかし、取り出されたピクセルの集合は連
結でなく、バラバラなことが多いので、ルールとして見
い出すのは困難である。
【0005】このような手法を用いると、上記の欠点の
他に、データ間の多くのルールのうちで、意味のあるも
のと無意味なものとの区別が難しいという欠点もある。
通常、相関に実用上の意味があるかどうかは人間の判断
によらないといけないことが多いが、1.や2.では特
殊な相関しか取り出せないので意味ある相関を見逃しや
すく、3では出力を人間が見てルールを見い出せない。
【0006】他の方法としては、平面を正方メッシュに
分割しておき、これらのピクセルに関して連結且つx単
調な領域のうち多くのデータを含む領域を切り出す方法
がある(Takeshi Fukuda, Yasuhiko Morimoto, Shinich
i Morishita and Takeshi Tokuyama,"Data mining usin
g two-dimensional optimized association rules: Sch
eme, algorithms, and visualization," In Proceeding
s of the ACM SIGMODConference on Management of Dat
a, pages 13-23, June 1996 を参照のこと)。x単調と
は、列方向には凸であるが、行方向では凸ではないもの
を言う。この方法は、高速で、一定の意味ある相関を取
り出すことができるが、縦方向に激しく揺れる入り組ん
だ領域を切り出すことが多く、人間が見てどこが強い相
関の部分であるか把握しにくい。また、x単調というこ
とで、切り出される領域の形状が、正方メッシュのメッ
シュの仕方(各ピクセルへのデータの配分の仕方)に大
きく依存するという欠点もある。
【0007】
【発明が解決しようとする課題】本発明は、以上のよう
な点に鑑み、2項以上の数値属性と真偽をとる属性を有
するデータ間の結合ルールを見い出すための一手法を提
供することを目的とする。
【0008】また、データ間の結合ルールを人間がより
把握しやすい形で提示することも目的である。そして、
多くの結合ルールを可視化することにより、使用する人
間の選択の幅を増大させ、より重要な結合ルールを見い
だすこと可能とすることも目的とする。
【0009】また、(1)真偽をとる属性が真であるデ
ータの割合がある定められた値以上であって、含まれる
データ数が最大となるようなルールであるサポート最大
化ルールや、(2)最低限含まれるデータ数が定められ
た場合、真偽をとる属性が真であるデータの割合が最大
となるようなルールであるコンフィデンス最大化ルー
ル、(3)取り出される領域内部と外部との分割を考え
た時に、分割前の情報量と比較した分割後の情報量の増
分を最大化するルールである最適化エントロピ・ルー
ル、(4)領域内外の分割を考えた時に、内外の「標準
化された真偽の割合の平均からのずれ」の二乗和を最大
化するルールである最適化インタクラスバリアンス・ル
ールを満たすような範囲(領域)を導出可能とすること
も目的である。
【0010】さらに、上記のようなデータ間の結合ルー
ルを高速に実行できるような手法を提供することも目的
である。
【0011】
【課題を解決するための手段】通常、解析対象物は多く
の数値属性を有する。この中から2つの数値属性を選
び、また、1つの真偽をとる属性について、以下のステ
ップを行うことにより、上記の目的を達成するものであ
る。すなわち、 (1)2つの数値属性により平面を構成し、この平面を
ピクセルに分割し、各ピクセル内のデータ数及び真偽を
とる属性が真となったデータの数をカウントする。この
ような平面は、データ数が濃淡度、真偽をとる属性が真
となるデータの数が彩度に該当するような、複数のピク
セルを有する平面画像として捉えることもできる。 (2)所定の条件θに従い、平面の2つの軸に凸な領域
である直交凸領域(rectilinear region)を切り出し、
データ間の結合ルールを見い出す。 (3)切り出した直交凸領域が、先に述べたようなサポ
ート最大化ルール等の条件を満たしていれば、その直交
凸領域をユーザに提示する。また、データベースからそ
の直交凸領域に含まれるデータの必要な属性を引き出す
ことも、必要に応じて行う。
【0012】なお、切り出された直交凸領域を、そのま
まユーザに提示したり、複数の直交凸領域を切り出した
場合には、それを動画として可視化することにより、所
望の結合ルールを見い出し易くすることもできる。
【0013】また、一旦直交凸領域を切り出した後に、
それ以外の結合ルールを見出すべく、切り出された直交
凸領域について、彩度を平均化し、再度切り出しステッ
プを実行することも可能である。
【0014】最初に述べたような例の場合、流動性預金
残高の軸と、年齢の軸を設け、その平面を適当なメッシ
ュに分割する。そして、メッシュの各エレメントである
ピクセルについて該当する顧客の数と、定期預金残高2
00万円以上の顧客の数をカウントする。そして、例え
ば顧客全体の20%が入り且つ定期預金残高200万円
以上である顧客の割合が最大となるような直交凸領域で
ある領域の切り出しを行うことにより、コンフィデンス
最大化ルールを得ることができる。
【0015】また、例えば定期預金残高200万円以上
の顧客割合が10%で最大の顧客数を有する直交凸領域
を切り出すことにより、サポート最大化ルールを得るこ
とができる。
【0016】以上述べた事項をまとめると、2種類の数
値属性と、1種類の真偽をとる属性とを含むデータを有
するデータベースにおいて、まず、2種類の数値属性に
対応する2つの軸を有し且つN×M個のピクセルに分割
されている平面の各ピクセルに対応して、当該ピクセル
(i行j列)に属するデータの数u(i,j)及び前記真偽を
とる属性が真であるデータの数v(i,j)を記憶する(平
面構成ステップ)。次に、所定の条件θを入力する。そ
して、
【数6】 を最大にするような、ピクセルの直交凸領域Sを平面か
ら切り出す(領域切出ステップ)。このように直交凸な
形状の領域を切り出すことにより、より人間に結合ルー
ルが把握しやすいようになる。また、先の平面構成ステ
ップからの依存性が小さくできる。最後に、切り出され
た直交凸領域S内に含まれるデータを出力する。このよ
うに、ルールに合致するデータを得ることができる。
【0017】また、入力された条件θとは異なる第2の
条件θ2を入力し、
【数7】 を最大にするようなピクセルの第2の直交凸領域S2
平面から切り出し、さらに、
【数8】 (直交凸領域S2に含まれ且つ真偽をとる属性が真であ
るデータの数をV(S2)、直交凸領域Sに含まれ且つ
真偽をとる属性が真であるデータの数をV(S)、直交
凸領域S2に含まれるデータ数をU(S2)、直交凸領域
Sに含まれるデータ数をU(S)とする。)を第3の条
件として、
【数9】 を最大にするようなピクセルの第3の領域S3を平面か
ら切り出すようにすることも考えられる。このような処
理は、最初の条件θで、初期の目的のルールを導き出せ
なかった場合に有用である。通常先に示したサポート最
大化ルール、コンフィデンス最大化ルール、最適化エン
トロピ・ルール、最適化インタクラスバリアンス・ルー
ルといったルールを求める際には、条件θを適当に変化
させ、上記のような処理を行うことにより求められる。
【0018】さらに、切り出された直交凸領域S内の各
ピクセルのv(i,j)/u(i,j)が、平面全体のデータ数に
対する平面全体の真偽をとる属性が真であるデータ数の
割合に等しくなるようv(i,j)を変更し、当該変更され
たv(i,j)を用いて、入力された条件θ4に従い、
【数10】 を最大にするようなピクセルの第4の領域S4を切り出
すようにすることも考えられる。このようにすると、二
次的な相関ルールを導き出すことができる。
【0019】また、先の平面構成ステップは、複数のデ
ータから、X個のデータをランダムサンプリングし、サ
ンプリングされたデータを各数値属性についてソート
し、X・i/N(i=1,2,・・N)番目に該当する
数値及びX・n/M(n=1,2,・・M)番目に該当
する数値を記憶し、記憶された数値を基準にして、複数
のデータをN×M個のピクセルに入れるようにすること
も考えられる。このようにすると、各行各列にデータを
高速にまたほぼ均等に割り振ることができる。
【0020】領域切出ステップは本発明の主要部分であ
る。ここで、第m列の区間[s,t]が右端列であるよ
うな直交凸領域は、第m−1列から第m列に移行する際
に、第m−1列の区間[x,y]に比して、(1)広が
るか、(2)上昇するか、(3)下降するか、(4)狭
まるかの4つの類型に分けられる。そして、4つの類型
のうち、最も大きい数6の値を有する直交凸領域が求め
たい領域である。よって、それぞれの類型について最大
の数6の値を有する領域を求めるため、以下のようなス
テップが実行される。
【0021】第1の類型のため、第m列の区間[s,
t]が右端列であって第m−1列の区間[x,y]が区
間[s,t]に含まれる直交凸領域、又は第m列の区間
[s,t]のみで構成される直交凸領域のうち、数6の
値が最も大きい直交凸領域Sm W(s,t)の第m−1列の区
間[x,y]又は第m列が左端列であることを示す情報
をm及び[s,t]に対応して記憶手段HWに記憶し、
当該直交凸領域Sm W(s,t)の数6の値を記憶する。第2
の類型のために、第m列の区間[s,t]が右端列であ
って第m−1列の区間[x,y]がs≧x及びt≧yを
満たす直交凸領域、又は第m列の区間[s,t]のみで
構成される直交凸領域のうち、数6の値が最も大きい直
交凸領域Sm U(s,t)の(a)第m−1列の区間[x,
y]及び(b)第m−1列の区間[x,y]と第m−2
列の区間[a,b]との関係、又は第m列が左端列であ
ることを示す情報をm及び[s,t]に対応して記憶手
段HUに記憶し、当該直交凸領域Sm U(s,t)の数6の値を
記憶する。
【0022】第3の類型のため、第m列の区間[s,
t]が右端列であって第m−1列の区間[x,y]がs
≦x及びy≧tを満たす直交凸領域、又は第m列の区間
[s,t]のみで構成される直交凸領域のうち、数6の
値が最も大きい直交凸領域Sm D(s,t)の(a)第m−1
列の区間[x,y]及び(b)第m−1列の区間[x,
y]と第m−2列の区間[a,b]との関係、又は第m
列が左端列であることを示す情報をm及び[s,t]に
対応して記憶手段HDに記憶し、当該直交凸領域Sm D(s,
t)の数6の値を記憶する。最後に、第4の類型のため、
第m列の区間[s,t]が右端列であって第m−1列の
区間[x,y]がx≦s及びy≧tを満たす直交凸領
域、又は第m列の区間[s,t]のみで構成される直交
凸領域のうち、数6の値が最も大きい直交凸領域S
m N(s,t)の(a)第m−1列の区間[x,y]及び
(b)第m−1列の区間[x,y]と第m−2列の区間
[a,b]との関係、又は第m列が左端列であることを
示す情報をm及び[s,t]に対応して記憶手段HN
記憶し、当該直交凸領域Sm N(s,t)の数6の値を記憶す
る。
【0023】各々のステップは、直交凸という性質を考
慮して構成されている。そして、全てのm及び[s,
t]について前記第1乃至第4記憶ステップを実行し、
最も大きい数6の値を有する直交凸領域Sのm及び
[s,t]と、対応する記憶手段HW、HU、HD、又は
Nの値とを用いて、直交凸領域Sを平面から切り出
す。
【0024】なお、第2の類型のための計算は、より詳
しく説明すると、第m列の区間[s,t]が右端列であ
り且つ第m−1列の区間[x,y]がs≧x及びt=y
を満たし且つ第m−2列の区間[a,b]と第m−1列
の区間[x,y]との関係がa≧x及びb≦y又はa≦
x及びb≦yである直交凸領域、第m列の区間[s,
t]が右端列であり且つ第m−1列の区間[x,y]が
s≧x及びs≦y≦t−1を満たし且つ第m−2列の区
間[a,b]と第m−1列の区間[x,y]との関係が
a≧x及びb≦y又はa≦x及びb≦yである直交凸領
域、又は第m列の区間[s,t]のみで構成される直交
凸領域のうち、数6の値が最も大きい直交凸領域S
m U(s,t)の(a)第m−1列の区間[x,y]及び
(b)第m−1列の区間[x,y]と第m−2列の区間
[a,b]との関係、又は第m列が左端列であることを
示す情報をm及び[s,t]に対応して記憶手段HU
記憶し、当該直交凸領域Sm U(s,t)の数6の値を記憶す
る、という処理になる。
【0025】また、第3の類型のための計算は、より詳
しく説明すると、第m列の区間[s,t]が右端列であ
り且つ第m−1列の区間[x,y]がs=x及びt≧y
を満たし且つ第m−2列の区間[a,b]と第m−1列
の区間[x,y]との関係がa≧x及びb≦y又はa≧
x及びb≧yである直交凸領域、第m列の区間[s,
t]が右端列であり且つ第m−1列の区間[x,y]が
s+1≦x≦t及びy≧tを満たし且つ第m−2列の区
間[a,b]と第m−1列の区間[x,y]との関係が
a≧x及びb≦y又はa≧x及びb≧yである直交凸領
域、又は第m列の区間[s,t]のみで構成される直交
凸領域のうち、数6の値が最も大きい直交凸領域S
m D(s,t)の(a)第m−1列の区間[x,y]及び
(b)第m−1列の区間[x,y]と第m−2列の区間
[a,b]との関係、又は第m列が左端列であることを
示す情報をm及び[s,t]に対応して記憶手段HD
記憶し、当該直交凸領域Sm D(s,t)の数6の値を記憶す
る、という処理になる。
【0026】さらに、第4の類型のための計算は、より
詳しく説明すると、第m列の区間[s,t]が右端列で
あって第m−1列の区間[x,y]が区間[s,t]と
同一である直交凸領域、第m列の区間[s,t]が右端
列であって第m−1列の区間[x,y]がx≦s及びy
≧t+1又はx≦s−1及びy≧tを満たす直交凸領
域、又は第m列の区間[s,t]のみで構成される直交
凸領域のうち、数6の値が最も大きい直交凸領域S
m N(s,t)の(a)第m−1列の区間[x,y]及び
(b)第m−1列の区間[x,y]と第m−2列の区間
[a,b]との関係、又は第m列が左端列であることを
示す情報をm及び[s,t]に対応して記憶手段HN
記憶し、当該直交凸領域Sm N(s,t)の数6の値を記憶す
る、という処理になる。
【0027】また、最後に切り出すステップは、最初
に、全てのm及び[s,t]について第1乃至第4記憶
ステップを実行し、計算された数6の値のうち最大の値
を有する直交凸領域Sのm及び[s,t]と、対応する
記憶手段HW、HU、HD、又はHNとを用いて、第m−1
列の区間[x,y]及び第m−1列と第m−2列との関
係を読み出す(第1関係読出ステップ)。そして、第m
−1列と第m−2列との関係を用いて、記憶手段HW
U、HD、及びHNから対応する記憶手段を選択し(選
択ステップ)、第m−1列の区間[x,y]を用いて選
択された記憶手段から第m−2列の区間[a,b]及び
第m−2列と第m−3列との関係を読み出す(第2関係
読出ステップ)。最後に選択ステップと第2関係読出ス
テップとを、前列との関係が「左端列であることを示す
情報」となるまで繰り返す。
【0028】以下の説明を理解すれば、上述の方法を実
施するような装置を作成すること、またこのような方法
をコンピュータに実施させるプログラムを作成すること
は容易に実施できるであろう。また、上記のようなプロ
グラムを記憶媒体や記憶デバイスに記憶することは、通
常行われることである。
【0029】
【発明の実施の形態】まず、本発明の各ステップがどの
ように実施されるかを示す。 (1)平面構成ステップ 先に述べたように、あるデータの2つの数値属性に2つ
の座標軸(x軸,y軸)をそれぞれ対応させ、これら2
軸の張る平面を考える。この平面を軸ごとにN個のピク
セルに分割し、平面上にN2個のピクセルを作成する。
図1に、この平面構成ステップのフローを示す。ステッ
プ100にて処理が開始し、まずデータ集合Pからデー
タのランダムサンプリングを行う(ステップ110)。
サンプリングされたデータをpk(xk,yk)(k=
1,2,...X。xk,ykはデータの2つの数値属性
の値を、Xはサンプリングされたデータ数をそれぞれ示
す。)と表す。そして、xk,ykごとにソートを行い
(ステップ120)、xk,ykごとに、i・X/N(i
=1,2,...N−1)番目に小さな値を見つけ出す
(ステップ130)。見つけ出された値が、各軸のピク
セルの境界値となる。このようなステップを実施するこ
とにより、平面上の各列及び各行に属するデータの数は
ほぼ均等になる。そして、見つけ出された値を用いて、
ピクセル(i,j)に入るデータpkの数u(i,j)
と、その中で真偽をとる属性が真であるデータpkの数
v(i,j)とをカウントする(ステップ140)。こ
こで、u(i,j)及びv(i,j)は、上記平面上の
i行j列に存在するピクセルのデータを表すので、x軸
方向にj、y軸方向にi進んだ場所にあるピクセルを表
すことになる点に注意する。最後に、カウントされたu
(i,j)及びv(i,j)を各ピクセルごとに記憶す
る(ステップ150)。このようにして、2つのN×N
行列、u(i,j)及びv(i,j)が生成される。
【0030】上述のようにランダムサンプリングを行う
のは、通常全てのデータをソートしていると時間がかか
るからである。但し、ソートしてもよいような場合もあ
る。また、ランダムサンプリングで取り出されるデータ
の数は、30Nから50Nぐらいが好ましい。また、2
軸ともN個に分割する例を示したが、異なる数に分割す
ることも可能である。典型的な例で、Nは20から10
00ぐらいである。
【0031】以上述べたのは一例であって、他の方法を
用いてもよい。例えば、各ピクセルの境界数値について
は予め定めた値を用いても良い。また、データ値に対し
て均等に分割することも、また対数的に分割することも
可能である。
【0032】また、後の処理のため以下のような処理
(図2)を行っておくと、さらに全体の処理が高速化さ
れる。すなわち、u(i,j)とv(i,j)の行数(Ny)と列
数(Nx)を調べる(ステップ210)。そして、先に
求めたu(i,j)とv(i,j)を用いて、新たに以下のような
u'(i,j)とv'(i,j)という行列を作成する(ステップ2
20)。
【数11】
【数12】 これらの計算は、全てのi=0,1,..Ny−1、j
=0,1,...Nx−1について実施する。
【0033】このu'(i,j)とv'(i,j)は、後々数多く計
算することとなる目的関数(以下、ゲインということも
ある)、
【数13】 の和計算を以下のように簡単化するために用意する。
【数14】
【0034】さらに、
【数15】
【数16】 も後によく用いるので用意する。以上のような準備をす
れば、以下の領域切り出しステップが高速になる。
【0035】(2)領域切り出しステップ このステップは直交凸領域を先に作成した平面から切り
出すものである。直交凸領域の例を図3に示す。直交凸
領域は、(1)y軸に平行な線との交わりが必ず連続か
空であって、且つ(2)x軸に平行な線との交わりが必
ず連続か空な領域を言う。図3の左側の領域は、y軸に
平行な、いかなる線との交わりも連続か空であり、且つ
x軸に平行な、いかなる線との交わりも連続か空である
ので直交凸領域であると言える。一方、図3の右側の領
域は、x軸に平行な線との交わりは必ず連続又は空であ
るが、y軸に平行な線でとの交わりは連続でないものを
含んでいる。よって、この領域は直交凸ではない。
【0036】先に示した直交凸領域の条件(1)のみを
満たす領域をx単調な領域と言い、(2)のみを満たす
領域はy単調な領域という。先に示した従来技術では、
x単調な領域を切り出すものであったが、実際に本発明
のようなデータマイニングにおいて当該従来技術を適用
すると、縦に激しく揺れる入り組んだ領域を切り出すこ
とが多く、人間には理解し難い形状となってしまう。ま
た、任意の形状で切り出そうとすると、その問題はNP
困難となってしまう。そこで、本発明では、直交凸領域
で切り出すこととする。
【0037】直交凸領域を切り出す際には、パラメータ
値θ(0以上1以下の実数)を含む数13で表されるゲ
インを領域全体で最大にするような直交凸領域を切り出
す。ここで、パラメータθの説明をしておく。図4に示
すような、横軸が切り出される領域Sに含まれるデータ
数U(S)、縦軸が切り出される領域Sに含まれ且つ真
偽をとる属性が真であるデータの数V(S)であるよう
な平面を考える。データ数と真偽をとる属性が真である
データの数の組み合わせは多数存在するので、この平面
には多数の点が存在することになるが、この点のうち、
凸包を構成する点を特に用いる。すなわち、この凸包を
構成する点をつなぐことにより曲線を構成し、この曲線
に対し傾きθを有する直線を上から下ろして行き、最初
にこの曲線と接する点を求め、この時の領域を出力す
る。凸包上の点は図4では黒丸で表されている。以下、
凸包上の点をフォーカス・イメージという。また、直線
を下ろしていくような方法をハンドプローブという。こ
のように、本発明では傾きθをパラメータとして入力す
るような方法を用いる。
【0038】このように凸包上の点のみ取り扱うのは、
コンフィデンス最大化ルール、サポート最大化ルール
は、凸包上に必ず存在するわけではないが、近似解とし
ては十分な点を出力することができ、また最適化エント
ロピ・ルール及び最適化インタクラスバリアンス・ルー
ルについては、この凸包上に必ず存在するからである。
もし、コンフィデンス最大化ルール及びサポート最大化
ルールの厳密解を解くとすると、実用的な時間には計算
が終了しないので、近似解であっても十分に有効な結果
を出力できる。
【0039】上記のように傾きθの直線を下ろしていく
ということは、直線y=θx+QのY切片であるQを減
少させることであり、言いかえれば、Q=V(S)−θ
U(S)を最大にするU(S)をX座標に有する点を求
める問題となる。よって、
【数17】 と変形される。
【0040】では、この数17をどのように解くかを考
える。最初に、直交凸領域の性質を領域内部のピクセル
同士の関係によって表現する。Sをピクセル平面内の直
交凸領域とする。ml,mrをそれぞれSの左端、右端の
列番号とする。Sの第m列(ml≦m≦mr)の下端及び
上端のピクセル番号をそれぞれs(m),t(m)とす
る。これらの位置関係は図5を参照するとよく分かる。
第m列の区間[s(m),t(m)]の変化傾向を第m
−1列の区間との比較によって次のように定義する。 (a)W−Type:広がり型 (図6左上) s(m−1)≧s(m),t(m−1)≦t(m)の場合 (b)U−Type:上昇型 (図6右上) s(m−1)≦s(m),t(m−1)≦t(m)の場合 (c)D−Type:下降型 (図6左下) s(m−1)≧s(m),t(m−1)≧t(m)の場合 (d)N−Type:狭まり型 (図6右下) s(m−1)≦s(m),t(m−1)≧t(m)の場合
【0041】m=mlの列は全変化傾向に属し、上の不
等式の等号が成り立つ場合、その列は複数の変化傾向に
同時に属する。上の定義から直交凸領域内のどの列の区
間も上の4種類のタイプのいずれかに属する。
【0042】また、直交凸領域の性質から、ある変化傾
向の列の左隣の列の変化傾向は次の条件を満たす。すな
わち、 (1)W−Typeの左隣の列はW−Typeである。 (2)U−Typeの左隣の列はW−Type又はU−
Typeである。 (3)D−Typeの左隣の列はW−Type又はD−
Typeである。 (4)N−Typeの左隣の列はW−Type、又はU
−Type、又はD−Type、又はN−Typeであ
る。
【0043】このような条件を満たす領域は逆に言うと
直交凸領域であると言える。これらの条件は、図7に状
態遷移図として示されている。図中のW,U,D,N
は、それぞれW−Type、U−Type、D−Typ
e、N−Typeであり、矢印を1つたどるごとに1つ
右隣の列の状態に遷移する。
【0044】全ての直交凸領域は領域の右端の列の変化
傾向によって先に示した4つの種類に分類できる。ここ
で、4つの種類を総称してXタイプ(X∈{W,U,
D,N})と呼ぶ。列の区間のタイプと同様に、領域の
タイプも複数のタイプに同時に属する場合もある。
【0045】また、右端が第m列の区間[s,t]であ
るXタイプの直交凸領域のゲインの最大値をfm X(s,t)
と表す。そして、4つのタイプ領域のゲインのうち最も
大きいものを、fm(s,t)と表す。すなわち、
【数18】 である。このfm(s,t)をm=0,...Nx−1(∀
(s≦t))について求めて、それらの中で最大のもの
を選びだせば、それが先の平面内の全ての直交凸領域の
ゲインの最大値となる。
【0046】この最大値を求めるために、m=0...
x−1に対して順番に、fm(s,t)(∀(s≦t))を
全て計算するという方針をとる。
【0047】次にm=0、すなわち第1列のf0 X(s,t)
を計算する。この場合、全てのタイプで同一である。こ
れは、
【数19】 で求められる。
【0048】そして、fm-1 X(s,t) (∀X∈{W,U,
D,N},(∀(s≦t)))を求める。以下は、各タ
イプごとに説明する。
【0049】(a)広がり型(W−Type)の場合 第m列の区間[s,t]を最右端とする直交凸領域であ
って第m列がW−Typeである領域のゲインの最大値
m W(s,t)は、以下の式により求められる。
【数20】 ここで、maxを求める時に、s=tの場合は数20の
(1)(2)式だけで比較をし、大きい方の値を用い
る。その他の場合は(1)乃至(4)のすべてから最も
大きい値を用いる。
【0050】数20の(1)式は、第m列の区間[s,
t]だけからなる領域(幅1の縦長の長方形)のゲイン
を表す。また(2)式は、第m−1列がW−Typeで
その区間が[s,t]、且つ第m列も区間[s,t]で
右端となっている領域のうち最大のゲインを表す。これ
は、図8(a)に表したような場合を示す。なお、直交
凸領域の性質から第m列がW−Typeであれば第m−
1列がW−Typeであることは決まる。
【0051】また(3)式は、第m−1列がW−Typ
eであって、その区間[s(m−1),t(m−1)]
が、s(m−1)≧s,t(m−1)≦t−1を満た
し、第m列の区間[s,t]で右端という領域のうち最
大のゲインを示す。これは、図8(b)のような形状を
意味する。第m−1列の上端は、t−1以下であり、下
端はs以上である。(4)式は、第m−1列がW−Ty
peであって、その区間[s(m−1),t(m−
1)]がs(m−1)≧s+1,t(m−1)≦tを満
たし、第m列の区間[s,t]で右端という領域のうち
最大のゲインを表す。これは、図8(c)のような形状
を意味する。第m−1列の上端はt以下であり、下端は
s+1以上である。(2)乃至(4)式は、W−Typ
eの左列はW−Typeしかあり得ないということが考
慮されている。
【0052】以上のfm W(s,t)の計算を一列中の全ての
区間[s,t]に対して行う。この計算は図9のアルゴ
リズムに従う。以上のように、第m列が領域の右端で第
m−1列からの変化傾向がW−Typeという領域のう
ち最大のゲインが得られる。
【0053】(b)上昇型(U−Type)の場合 最初に以下の式の値を求めておく。
【数21】
【数22】 これは、図10のようなアルゴリズムにて実行される。
【0054】以上の計算を用いて、第m列の区間[s,
t]を最右端とする直交凸領域であって第m列がU−T
ypeである領域のゲインの最大値fm U(s,t)は、以下
の式により求められる。
【数23】 (1)乃至(3)式は、s=tの場合に比較に用いら
れ、その際(4)式は用いられない。
【0055】数23の(1)式は、第m列の区間[s,
t]のみからなる領域(幅1の縦長の長方形)のゲイン
を表す。また、(2)式は、第m−1列がW−Type
であって、その区間[s(m−1),t(m−1)]
が、s(m−1)≦s,t(m−1)=tを満たし、第
m列は区間[s,t]で右端という領域のうち最大のゲ
インを表す。これは、図11(a)に示した形状の場合
であって、第m−1列の下端の上限はsである。
【0056】(3)式は、第m−1列がU−Typeで
あって、その区間[s(m−1),t(m−1)]が、
s(m−1)≦s,t(m−1)=tを満たし、第m列
は区間[s,t]で右端という領域のうち最大のゲイン
を表す。これは、図11(b)に示した形状の場合であ
って、第m−1列の下端の上限はsである。(4)式
は、第m−1列がW−Type又はU−Typeであっ
て、その区間[s(m−1),t(m−1)]が、s
(m−1)≦s,s≦t(m−1)≦t−1を満たし、
第m列は区間[s,t]で右端という領域のうち最大の
ゲインを表す。これは、図11(c)に示した形状の場
合であって、第m−1列の下端の上限はsであり、また
上端の範囲はs以上t−1以下である。(2)乃至
(4)式は、U−Typeの左隣列はW−Type又は
U−Typeしかあり得ないということが考慮されてい
る。
【0057】以上のfm U(s,t)の計算を一列中の全ての
区間[s,t]に対して行う。この計算は、図12に示
すアルゴリズムに従う。このように、第m列が領域の右
端でそこの変化傾向がU−Typeという領域のうち最
大のゲインが得られる。
【0058】 (c)下降型(D−Type)の場合 最初に以下の式の値を計算しておく。
【数24】
【数25】 これらの計算は、図13に示されたアルゴリズムにより
実行される。(1)乃至(3)式は、s=tの場合に比
較に用いられ、その際(4)式は用いられない。
【0059】以上の計算を用いて、第m列の区間[s,
t]を最右端とする直交凸領域であって第m列がD−T
ypeである領域のゲインの最大値fm D(s,t)は、以下
の式により求められる。
【数26】
【0060】数26の(1)式は、第m列の区間[s,
t]のみからなる領域(幅1の縦長の長方形)のゲイン
を表す。また、(2)式は、第m−1列がW−Type
であって、その区間[s(m−1),t(m−1)]
が、s(m−1)=s,t(m−1)≧tを満たし、第
m列は区間[s,t]で右端という領域のうち最大のゲ
インを表す。これは、図14(a)に示した形状の場合
であって、第m−1列の上端の下限はtである。
【0061】(3)式は、第m−1列がD−Typeで
あって、その区間[s(m−1),t(m−1)]が、
s(m−1)=s,t(m−1)≧tを満たし、第m列
は区間[s,t]で右端という領域のうち最大のゲイン
を表す。これは図14(b)に示した形状の場合であっ
て、第m−1列の上端の下限はtである。(4)式は、
第m−1列がW−Type又はD−Typeであって、
その区間[s(m−1),t(m−1)]が、s+1≦
s(m−1)≦t,t(m−1)≧tを満たし、第m列
は区間[s,t]で右端という領域のうち最大のゲイン
を表す。これは図14(c)に示した形状の場合であっ
て、第m−1列の上端の下限はtであって、下端の範囲
はs+1以上t以下である。(2)乃至(4)式は、D
−Typeの左隣列はW−Type又はD−Typeし
かあり得ないということが考慮されている。
【0062】以上のfm D(s,t)の計算を一列中の全ての
区間[s,t]に対して行う。この計算は図15のアル
ゴリズムに従う。このようにして、第m列が領域の右端
でそこの変化傾向がD−Typeという領域のうち最大
のゲインが得られる。
【0063】(d)狭まり型(N−Type)の場合 第m列の区間[s,t]を最右端とする直交凸領域であ
って第m列がN−Typeである領域のゲインの最大値
m N(s,t)は、以下の式により求められる。
【数27】 ここで、maxを求める時、各式は式の後ろの条件を満
たす場合にのみ用いられる。すなわち、(6)式はt>
y−1を満たす時のみ比較され、(7)式はs>0を
満たす場合にのみ比較に用いられる。
【0064】数27の(1)式は、第m列の区間[s,
t]のみからなる領域(幅1の縦長の長方形)のゲイン
を表す。(2)式は、第m−1列がW−Typeであっ
て、その区間が[s,t]であり、第m列は区間[s,
t]で右端という領域のうち最大のゲインを表す。これ
は図16(a)に示した形状の場合である。(3)式
は、第m−1列の区間[s,t]がU−Typeであっ
て、第m列は区間[s,t]で右端という領域のうち最
大のゲインを表す。これは図16(b)に示した形状の
場合である。(4)式は、第m−1列の区間[s,t]
がD−Typeであって、第m列は区間[s,t]で右
端という領域のうち最大のゲインを表す。これは図16
(c)に示した形状の場合である。(5)式は、第m−
1列の区間[s,t]がN−Typeであって、その区
間[s,t]であり、第m列は区間[s,t]で右端と
いう領域のうち最大のゲインを表す。これは図16
(d)に示した形状の場合である。
【0065】(6)式は、第m−1列がW−Type、
U−Type、D−Type又はN−Typeであっ
て、その区間[s(m−1),t(m−1)]が、s
(m−1)≦s,t(m−1)≧t+1を満たし、第m
列は区間[s,t]で右端という領域のうち最大のゲイ
ンを表す。これは図16(e)に示した形状であって、
第m−1列の上端の下限はt+1であり、下端の上限は
sである。(7)式は、第m−1列がW−Type、U
−Type、D−Type又はN−Typeであって、
その区間[s(m−1),t(m−1)]が、s(m−
1)≦s−1,t(m−1)≧tを満たし、第m列は区
間[s,t]で右端という領域のうち最大のゲインを表
す。これは図16(f)に示した形状であって、第m−
1列の上端の下限はtであり、下端の上限はs−1であ
る。
【0066】以上のfm N(s,t)の計算を一列中の全ての
区間[s,t]に対して行う。この計算は次のアルゴリ
ズムに図17に従う。このようにして、第m列の区間
[s,t]が領域の右端でそこの変化傾向がN−Typ
eという領域のうち最大のゲインが得られる。
【0067】上述の(a)乃至(d)の計算にて各列の
各[s,t]を右端とする領域の最大のゲインを計算す
ることができる訳であるが、それと同時に"領域"自体も
同時に記録しておく必要がある。これは、後の出力ステ
ップでは、この求められた直交凸領域内に含まれるデー
タを取り出すからである。
【0068】ここで、同じ最大値の領域が複数存在する
場合には、それらのうち先に見つかった方を解として取
り扱う。また、領域は縦方向の区間が横に並んだものと
して[s(ml),t(ml)],...[s(mr),
t(mr)]のように表現する。1列はNy行あるので、
区間[s,t](s≦t)の総数はNy(Ny+1)/2
個ある。各区間[s,t]は1つの整数pに一対一対応
させる。
【0069】例えば、次の関数h(s,t)によって区
間[s,t]を1つの整数p=h(s,t)に対応させ
ることができる。すなわち、
【数28】 である。
【0070】逆に、区間を表す整数p(0≦p≦N
y(Ny+1)/2)から区間[s,t]は、次のように
求められる。
【数29】
【数30】 但し、このような計算はどの領域が最大のゲインを有す
るのかを決定する際には用いることはない。以後、
[s,t]は1つの整数と同一視して取り扱う。また、
上記数28は一例にすぎず、他の関数を用いても問題な
い。
【0071】次に領域を記憶しておく配列を用意する。
これは、Nx×Ny(Ny+1)/2の整数型2次元配列
であり、W,U,D,N−Typeのそれぞれに対して
1つ用意する。この要素をHX(m,[s,t])(0≦m≦Nx
−1,0≦[s,t]≦Ny(Ny+1)/2,X∈{W,
U,D,N})と表すこととする。
【0072】この要素HX(m,[s,t])には、ゲインがfm X
(s,t)の領域の第m−1列の区間[x,y]と、第m−
1列の第m−2列からの変化傾向Yを表す数値を記憶す
る。以下、HX(m,[s,t])=Y:[x,y]と表す。例え
ば、このHX(m,[s,t])を整数型32ビットで表現し、Y
の部分を上位2ビット、残りの下位ビットを[x,y]
を表すのに用いる(図18参照)。
【0073】但し、第m列が領域の左端列である場合
に、第m−1列にはつながらないことを表すために、こ
の下位ビットには領域の左端を表す値を入れる。例え
ば、先ほどの数30で区間を表現する例では、この下位
ビットにNy(Ny+1)/2以上の値を入れるか又は2
9ビット目を領域の左端を表すフラグにすればよい。
【0074】では、最終的に最大のゲインを有する直交
凸領域を求める処理を図19を用いて説明する。ステッ
プ1600で開始された処理は、最初にm=0として、
mを初期化する(ステップ1610)。次に、m=Nx
であるか判断する(ステップ1620)。これは、mが
xに達して、全ての列について以下の計算が終了した
かを判断するものである。もし、全ての列mについて計
算が終了していなければ、全ての[s,t]について、
W(m,[s,t])とfm W(s,t)、HU(m,[s,t])とfm U(s,t)、
D(m,[s,t])とfm D(s,t)、HN(m,[s,t])とfm N(s,t)を
計算し、その結果を記憶する。この計算の順番は任意で
ある。そして、各計算中それまでに計算されたゲインの
最大値より大きい値が計算されたならば、その値及びそ
のm,[s,t],Xを記憶しておく(ステップ163
0)。
【0075】ここで、HW(m,[s,t])とfm W(s,t)の計算
は、先に示した数20の計算を実施すればよい。よっ
て、HW(m,[s,t])は、数20の(1)式が最大であれ
ば領域の左端を表す値、(2)式が最大であればW:
[s,t],(3)式が最大であればHW(m,[s,t-1])、
(4)式が最大であればHW(m,[s+1,t])となる。以上の
ように、HW(m,[s,t])のみを考えれば、前列である第m
−1列は、必ずW−Typeであるから、第m−1列の
第m−2列からの変化傾向は記憶する必要ない。
【0076】また、HU(m,[s,t])とfm U(s,t)の計算
は、先に示した数23の計算を実施すればよい。よっ
て、HU(m,[s,t])には、数23の(1)式が最大であれ
ば領域の左端を表す値、(2)式が最大であればW:
[βm-1 W(s,t),t]、(3)式が最大であればU:
[βm-1 U(s,t),t]、(4)式が最大であればHU(m,
[s,t-1])が記憶される。
【0077】HD(m,[s,t])とfm D(s,t)の計算は、先に
示した数26の計算を実施すればよい。よって、HD(m,
[s,t])には、数26の(1)式が最大であれば領域の左
端を表す値、(2)式が最大であればW:[s,τm-1 W
(s,t)]、(3)式が最大であればD:[s,τm-1 D(s,
t)]、(4)式が最大であればHD(m,[s+1,t])が記憶さ
れる。
【0078】最後に、HN(m,[s,t])とfm N(s,t)の計算
は、先に示した数27の計算を実施すればよい。よっ
て、HN(m,[s,t])は、数27の(1)式が最大であれ
ば領域の左端を表す値、(2)式が最大であればW:
[s,t],(3)式が最大であればU:[s,t]、
(4)式が最大であればD:[s,t]、(5)式が最
大であればN:[s,t]、(6)式が最大であればH
N(m,[s,t+1])、(7)式が最大であればHN(m,[s-1,t])
となる。
【0079】ここまでで分かるように、すべてのf
m X(s,t)を記憶しておく必要はない。第m列の計算を実
施している時には、その第m列と第m−1列の計算結果
のみを用いる。よって、W,U,D,N−Typeごと
に2列分の記憶容量があればよい。但し、余裕があれば
全て記憶しておいてもよい。
【0080】図19のステップ1630を終了すると、
mを1インクリメントして(ステップ1640)、ステ
ップ1620に戻る。そして、この処理を全ての列につ
いて実施する。もし、全ての列について実施されたなら
ば、全ての列に関して最大のゲイン値を有していた領域
に関するm,[s,t],Xから、HX(m,[s,t])を参
照し、その値Y:[x,y]を取り出す(ステップ16
50)。ここまでの処理で、最右端列である第m列と、
その列の区間[s,t]、第m−1列とその区間[x,
y]が分かる。
【0081】次に、第m−1列で領域は左端となる場合
もあるので、[x,y]が左端を表す値であるか判断さ
れる(ステップ1660)。左端であれば、ここで処理
は終了する(ステップ1680)。左端でなければ、Y
をXとして、[x,y]を[s,t]として、m−1を
mとし(ステップ1670)、ステップ1650に戻
る。このように、[x,y]が左端を表す値となるま
で、この処理を繰り返せば、最大のゲイン値を有する直
交凸領域の各列の区間を得ることができる。
【0082】(3)出力ステップ 以上のように求まった直交凸領域Sは、前記平面のどの
部分を占めているかは、先のステップによりわかってい
るので、その領域Sに属するデータを取り出すことにな
る。通常各データは、真偽をとる属性及び数値属性のみ
ならず、他の属性も有しているから、例えばダイレクト
メールを送るのであれば、住所氏名といった属性を取り
出すようになる。ここまでくると、取り出すべきデータ
は特定されているから、通常のデータベースの検索に過
ぎないので、これ以上詳しく述べない。当然、一旦直交
凸領域をその外形がよくわかるようにして、ユーザに提
示するようにしてもよい。
【0083】以上のような各ステップを実施すれば、あ
る条件θに対する、データ間結合ルールの1つを求める
ことができる。しかし、この条件θをどのように設定す
るかということは、1つの問題である。通常、ある条件
θ1つでは、問題の解決にならない場合が多い。以上の
各ステップ、特に(2)領域切り出しステップをエンジ
ンとして用い、どのように先に述べた4つの一般的なル
ール及び他のルール等を導き出すかを以下に示す。
【0084】A.ある区間に存在する直交凸領域を求め
る場合まず、幾つかのθに対応するフォーカス・イメー
ジSを連続的に示し、動画を作成することにより、切り
出される領域の大きさ及び形状をユーザの判断により決
定させる場合を考える。
【0085】この処理を図20に示す。ステップ800
にて開始された処理は、まずθ1を入力することによ
り、上述したプロセスにてフォーカス・イメージS1を
見つけ出す(ステップ810)。また、ユーザにθ2を
入力させ、同様にフォーカス・イメージS2を見つけ出
す(ステップ820)。このようにして2つのフォーカ
ス・イメージが求まると、それぞれに含まれるデータ数
U(S1),U(S2)及び真偽をとる属性が真であるデ
ータの数V(S1),V(S2)とを用いて、その中間に
ある、新たな傾きθ3を計算する(ステップ830)。
【0086】このように新たなθ3が求まれば、さらに
このθ3に対応するフォーカス・イメージS3を求める
ことができる(ステップ840)。ここで、計算された
S3が既に求まっていれば、区間(θ1,θ2)にはこ
れ以上のフォーカス・イメージは凸包上(図4)には存
在しない。よって、処理が終了する(ステップ88
0)。しかし、発見済みでなければ、θ2の代わりにθ
3を用いて、ステップ830以降を実行する(ステップ
860)。すなわち、区間(θ1,θ3)の間にあるフ
ォーカス・イメージを見つけ出す。この場合、次々に中
間の値を計算していくようにすることも可能である。ま
た、ある程度の個数フォーカス・イメージが求まったと
ころで計算を取り止めることもできる。さらに、もう1
つ残った区間(θ3,θ2)についてフォーカス・イメ
ージを計算するために、θ3,θ2についてステップ8
30以降を実行する(ステップ870)。この場合も、
この区間内に存在しているフォーカス・イメージを全て
見つけ出すようにしてもよいし、所定の個数見つけ出し
たところで処理を終了してもよい。
【0087】このようにして、1つ又は複数のフォーカ
ス・イメージを見つけ出すことができた。このように求
まった複数のフォーカス・イメージを連続してユーザに
提示するようなことも可能である。
【0088】B.コンフィデンス最大化ルールの場合
(図21及び図22) この場合には、ルールの定義より最小限度のサポートmi
nsup(全体のデータ数に対する領域に包含されるデータ
数の割合)を入力する(ステップ910)。ここで、U
min=Usum×minsupを計算しておく。ここで図4を見て
みると、最小限度サポートと記された縦の点線がこの値
に対応する。まず、θ=1でフォーカス・イメージS1
を求める(ステップ920)。そして、このS1に含ま
れるデータ数U(S1)が、U(S1)>Uminを満たす
かどうか判断する(ステップ930)。もし成立するな
らば、S1を解として決定し(ステップ950)、処理
を終了する(ステップ990)。成り立たない場合、フ
ォーカス・イメージS2を平面全体を表すイメージとす
る。すなわち、U(S2)=Usum,V(S2)=Vsumと
代入する(ステップ940)。そして、XXを介して図
22に移行する。
【0089】図22では、XXから始まり、新たな条件
θを求め、このθに対するフォーカス・イメージSを計
算する(ステップ1400)。このθは θ=(V(S2)ーV(S1))/(U(S2)−U(S
1)) にて計算される。そして、S1=S又はS2=Sであるな
らば、(S1,S2)の間にはこれ以上フォーカス・イメ
ージは存在しないので、コンフィデンスの高いS2が最
良解として出力され、処理を終了する(ステップ141
0)。また、U(S)≒Uminであるならば、Sを出力
し、処理を終了する。
【0090】ところが、U(S)<Uminであると(ス
テップ1420)、まだ処理が必要なので、S1=Sと
して(ステップ1440)、ステップ1400に戻る。
同様に、U(S)>Uminであるならば、S2=Sとして
(ステップ1430)、ステップ1400に戻る。
【0091】これを繰り返すことにより解が見つけられ
る。図4を参照すると、先に説明した最小限度のサポー
トの右側、濃く塗られた部分に解の存在する範囲があ
る。そして、この図4の場合には、凸包の内部の白丸の
点が厳密解となるが、本発明ではハンド・プローブにて
得られた近似解が出力される。見つけられた解は、ユー
ザに提示されるようにしてもよいし、そのフォーカス・
イメージに属するデータの必要な属性を出力するように
してもよい。
【0092】C.サポート最大化ルールの場合(図2
3,図24) この場合、ルールの定義より、最小限度のコンフィデン
スminconf(直交凸領域に包含されるデータ数に対する
真偽をとる属性が真である割合)を入力する(ステップ
1110)。図4の場合、最小限度のコンフィデンスと
示され、原点から引かれた点線がこれに該当する。ま
ず、フォーカス・イメージS2を平面全体を表すイメー
ジとする。すなわち、U(S2)=Usum,V(S2)=
Vsumと代入する(ステップ1120)。そして、minco
nf≦V(S2)/U(S2)であるかを判断する(ステッ
プ1130)。もしこの条件が成立するならば、S2を
解として決定し(ステップ1160)、処理を終了する
(ステップ1190)。条件が成立しないならば、θ=
1でフォーカス・イメージS1を求める(ステップ11
40)。そして、minconf>V(S1)/U(S1)が成
り立つかどうか判断する(ステップ1150)。もし成
り立つならば、解は存在せず、処理を終了する。成り立
たないならば、Yを介して図24へ移行する。
【0093】図24では、Yから処理が開始され、θ=
(V(S2)−V(S1))/(U(S2)−U(S1))
としてフォーカス・イメージSを求める(ステップ12
00)。この求められたフォーカス・イメージSに対
し、(1)minconf≒V(S)/U(S)が成立する場
合には、このSを出力して処理を終了する(ステップ1
210)。また、S1=S若しくはS2=Sである場合に
は、これ以上S1とS2の間には解は無いので、S1を最
良解として出力し、処理を終了する(ステップ121
0)。これに対し、minconf<V(S)/U(S)であ
る場合には(ステップ1220)、S1=Sとしてステ
ップ1200に戻る(ステップ1230)。また、minc
onf>V(S)/U(S)である場合には、S2=Sとし
てステップ1200に戻る(ステップ1240)。
【0094】以上のようにして、サポート最大化ルール
が求められる。もう一度図4に戻ると、先に説明した最
小限度のコンフィデンスとして示した点線より上の濃く
塗られた範囲に解が存在する。そして、この例では凸包
内の白丸の点が厳密解であるが、このように凸包内部の
点は見つけ出すのに膨大な計算量を必要とするので、凸
包上の点でサポートを最大にする近似解を出力するよう
にしている。先に述べたように、見出された近似解又は
厳密解は、ユーザに提示してもよいし、フォーカス・イ
メージ内に含まれるデータの必要な属性値を出力するよ
うにしてもよい。
【0095】D.最適化エントロピ・ルールの場合 最適化エントロピ・ルールとは、領域の内部と外部との
分割を考えた時、分割前の情報量と比較した分割後の情
報量の増分を最大化するルールである。よって、切り出
された領域と平面全体のエントロピのゲイン(以下の
式)が最大となる領域を発見すればよい。
【数31】 このxはU(S)、yはV(S)、aはUsum、bはVs
umである。このような条件においても、解は凸包上に存
在することが分かったので、上述のステップを用いるこ
とができる。よって、θを変化させ、数31を最大化す
るフォーカス・イメージを求めればよい。
【0096】E.最適化インタクラスバリアンス・ルー
ルの場合 先に述べたように最適化インタクラスバリアンス・ルー
ルとは、領域内外の分割を考えた時、内外の「標準化さ
れた真偽の割合の平均からのずれ」の二乗和を最大化す
るルールである。よって、切り出された領域と平面全体
のインタクラスバリアンス(以下の式)が最大となる領
域を発見すればよい。
【数32】 x,y,a,bは上述したものと同じである。このよう
な条件においても、解は凸包上に存在することが分かっ
たので、上述のステップを用いることができる。よっ
て、θを変化させ、数32を最大化するフォーカス・イ
メージを求めればよい。
【0097】F.その他 以上述べたように、U(S)とV(S)上の凸包上の点
に存在する又は存在すると近似できる場合には、上述し
たステップを用いれば高速にルールに該当する領域を導
き出すことができる。
【0098】G.二次的なルールの抽出 上述のプロセスを用いて1つのルールを見い出した後
に、二次的なルールを見つけ出すことができる。すなわ
ち、切り出した1のフォーカス・イメージに属するv
(i,j)を除去し、v(i,j)/u(i,j)=Vsum/Usumとな
るように、v(i,j)を変更し、それから新たに領域切り
出しステップを行うのである。
【0099】以上、本発明における処理のプロセスを説
明した。このような処理プロセスは、コンピュータ・プ
ログラムによって実現し、実行するようにしてもよい。
例えば、図25のような通常のコンピュータ・システム
において実行できるようなプログラムにすることもでき
る。処理プログラムは、HDD1050に格納され、実
行時にはメインメモリ1020にロードされ、CPU1
010によって処理される。また、HDD1050はデ
ータベースをも含んでおり、処理プログラムはそのデー
タベースに対するアクセスを行う。最初の平面やフォー
カス・イメージは、表示装置1060によってユーザに
提示される。ユーザは、入力装置1070にてフォーカ
ス・イメージの選択や、データ出力の命令を入力する。
このような入力装置には、キーボードやマウス、ポイン
ティング・デバイスやディジタイザを含む。さらに、出
力結果を補助記憶装置であるFDD1030のフロッピ
ー・ディスクに記憶したり、また新たなデータをFDD
1030から入力することもできる。さらに、CD−R
OMドライブ1040を用いて、データを入力すること
もできる。
【0100】さらに、本発明の処理プロセスを実現した
コンピュータ・プログラムは、フロッピー・ディスクや
CD−ROMといった記憶媒体に記憶して、持ち運ぶこ
とができる。この場合、通常のデータベース検索プログ
ラムのデータ取り出し部分や、表示装置1060に表示
するだけの処理を行うプログラムは、すでにHDD10
50に記憶されている場合もある。よって、それ以外の
部分が、上記のような記憶媒体にて流通することは通常
行われる事項である。また、図示されていない通信装置
がバス1080に接続されており、遠隔地にあるデータ
ベースを用いて処理したり、処理結果を遠隔地に送信す
るようにしてもよい。
【0101】また、本発明の処理を実施する特別の装置
を設けてもよい。例えば、図26のような装置が考えら
れる。平面構成装置1310は、データベース1300
及び切出装置1320に接続されており、制御装置13
40からの命令を受付ける。また、切出装置1320
は、出力デバイス1330及び表示装置1350に接続
されており、制御装置1340からの命令を受付ける。
また、切出装置1130はデータベースにも接続を有し
ている。制御装置1340は、入力デバイス1360に
接続され、入力デバイス1360により指示された処理
の種類により平面構成装置1310及び切出装置132
0を制御する。
【0102】この装置の簡単な動作を説明する。平面構
成装置1310は、先に説明した平面構成ステップを実
行する部分である。このように平面構成装置1110
は、データベースに記憶されたデータを用いて先に示し
た平面を構成し、切出装置1320に出力する。切出装
置1320は、制御装置1340からの命令に従って、
切り出しのためのパラメータであるθをセットする。セ
ットされたθに従って切出装置1320は、先に述べた
切出ステップを行い、フォーカス・イメージを切り出
す。そして、表示装置1140に出力し、ユーザに命令
されれば、切り出されたフォーカス・イメージ内に属す
るデータをデータベース1300から取り出し、出力デ
バイス1330に引き渡す。出力デバイス1330は、
適当な形式でユーザ所望のデータを出力する。また、ユ
ーザは、例えば入力デバイス1360からコンフィデン
ス最大化ルールを解くように命じ、最小限度のサポート
を入力する。すると、制御装置1340は先に示した処
理Bを行うように、条件θを設定し、切出装置1320
に出力する。そして、命じられたコンフィデンス最大化
ルールに合致するような領域を解くべく、条件θを変化
させる等の処理を行う。先に述べたサポート最大化ルー
ル(処理C)や、最適化エントロピ・ルール(処理
D)、最適化インタクラスバリアンス・ルール(処理
E)、その他凸包上に位置する領域を切出す処理Fに適
した条件θを切出装置1320に渡す処理を制御装置1
340は行う。ユーザは入力デバイス1360から処理
の種類や、先に述べたような条件(θのみならず、minc
onf,minsupも)を入力する。また、制御装置1340
は、上述の処理Gを行うために平面構成装置1310
に、切り出したフォーカス・イメージのV(i,j)を除去
する等の処理を命じる。
【0103】以上、本発明を特別の装置にする一例を示
したが、本発明はこれに限定されるものではない。例え
ば、切出装置1320の出力は、出力制御装置を介して
出力デバイス1160及び表示装置1140に出力され
るようにしてもよいし、この場合出力制御装置からデー
タベースを参照してデータを取り出すようにしてもよ
い。
【0104】以上は、通常データが有するK個の数値属
性のうち2項を選択し、それらの数値属性間の相関を見
つける処理であったが、数13を目的関数とし、n次元
空間の領域を切り出すことができれば、n次元の探索に
拡張することができる。
【0105】
【効果】2項以上の数値属性と真偽をとる属性を有する
データ間の結合ルールを見い出すための一手法を提供す
ることができた。
【0106】また、データ間の結合ルールを人間がより
把握しやすい形で提示することもできた。そして、多く
の結合ルールを可視化することにより、使用する人間の
選択の幅を増大させ、より重要な結合ルールを見いだす
こと可能とすることもできた。
【0107】さらに、(1)サポート最大化ルールや、
(2)コンフィデンス最大化ルール、(3)最適化エン
トロピ・ルール、(4)最適化インタクラスバリアンス
・ルールを満たすような範囲(領域)を導出可能とする
こともできた。
【0108】また、上記のようなデータ間の結合ルール
を高速に実行できるような手法を提供することもでき
た。
【0109】例えば、ある割合以上で、例えばアウトド
アスポーツに興味を示す(真偽をとる属性に相当す
る)、できるだけまとまった領域に入る顧客を知ること
ができるので、その条件に合致する多くの顧客に知って
もらいたいダイレクトメールの宛て先を知るのに用いる
ことができる。(サポート最大化ルール)
【0110】一定数以上の顧客を含む、例えば定期預金
残高200万円以上の顧客割合が最も高いところを知る
ことができるので、顧客を絞りこみつつ、有効な宣伝活
動等を行うことができる。(コンフィデンス最大化ルー
ル)
【図面の簡単な説明】
【図1】平面構成ステップのフローを示す図である。
【図2】領域切り出しステップのための前準備のフロー
を示す図である。
【図3】直交凸領域を説明するための図である。
【図4】U(S),V(S)平面の説明をするための図
である。
【図5】領域切り出しステップにおける表記を説明する
ための図である。
【図6】第m−1列から第m列への変化傾向を説明する
ための図である。
【図7】直交凸領域の各列の状態遷移を表す図である。
【図8】W−Typeにおける第m列と第m−1列の関
係を説明するため図であって、(a)は数20の(2)
式、(b)は(3)式、(c)は(4)式を説明するた
めの図である。
【図9】fm W(s,t)の計算順番を示した図である。
【図10】U−Typeの計算に用いる前処理のアルゴ
リズムを説明するための図である。
【図11】U−Typeにおける第m列と第m−1列の
関係を説明するための図であって、(a)は数23の
(2)式、(b)は(3)式、(c)は(4)式を説明
するための図である。
【図12】fm U(s,t)の計算順番を示した図である。
【図13】D−Typeの計算に用いる前処理のアルゴ
リズムを説明するための図である。
【図14】D−Typeにおける第m列と第m−1列の
関係を説明するための図であって、(a)は数26の
(2)式、(b)は(3)式、(c)は(4)式を説明
するための図である。
【図15】fm D(s,t)の計算順番を示した図である。
【図16】N−Typeにおける第m列と第m−1列の
関係を説明するための図であって、(a)は数27の
(1)式、(b)は(3)式、(c)は(4)式、
(d)は(5)式、(e)は(6)式、(f)は(7)
式を説明するための図である。
【図17】fm N(s,t)の計算順番を示した図である。
【図18】HX(m,[s,t])のデータ構造を示すための図で
ある。
【図19】領域切り出しステップの処理フローを表す図
である。
【図20】複数のフォーカス・イメージを見つけ出す処
理のフローを示す図である。
【図21】コンフィデンス最大化ルールを導出するため
の処理の一部を示すための図である。
【図22】コンフィデンス最大化ルールを導出するため
の処理の一部を示すための図である。
【図23】サポート最大化ルールの導出するための処理
の一部を示すための図である。
【図24】サポート最大化ルールの導出するための処理
の一部を示すための図である。
【図25】通常のコンピュータ・システムで本発明を実
施した場合の装置構成の一例を示す図である。
【図26】本発明を専用の装置で実施した場合のブロッ
ク図である。
【符号の説明】
1010 CPU 1020 メインメモリ 1030 FDD 1040 CD−ROMドライブ 1050 HDD 1060 表示装置 1070 入力デバイス 1310 平面構成装置 1300 データベース 1320 切出装置 1350 表示装置 1130 入力デバイス 1330 出力デバイス 1340 制御デバイス
───────────────────────────────────────────────────── フロントページの続き (72)発明者 福田 剛志 神奈川県大和市下鶴間1623番地14 日本 アイ・ビー・エム株式会社 東京基礎研 究所内 (72)発明者 徳山 豪 神奈川県大和市下鶴間1623番地14 日本 アイ・ビー・エム株式会社 東京基礎研 究所内 (72)発明者 森下 真一 神奈川県大和市下鶴間1623番地14 日本 アイ・ビー・エム株式会社 東京基礎研 究所内 (56)参考文献 特開 平9−179883(JP,A) 徳山「最適化の数理 データマイニン グに使われる最適化の数理」応用数理, Vol.6,No.4,p.303−313, 1996(平8−12−16) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 G06F 19/00 JICSTファイル(JOIS)

Claims (11)

    (57)【特許請求の範囲】
  1. 【請求項1】2種類の数値属性と、1種類の真偽をとる
    属性とを含むデータを有するデータベースにおいて、 データ間の結合ルールを導き出す方法であって、 前記2種類の数値属性に対応する2つの軸を有し且つN
    ×M個のピクセルに分割されている平面の各ピクセルに
    対応して、当該ピクセル(i行j列)に属するデータの数
    u(i,j)及び前記真偽をとる属性が真であるデータの数
    v(i,j)を記憶する平面構成ステップと、 条件θを入力するステップと、 【数1】 を最大にするような前記ピクセルの直交凸領域Sを前記
    平面から切り出す領域切出ステップと、 切り出された前記直交凸領域S内に含まれるデータを出
    力するステップとを含み、前記領域切出ステップが、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]が前記区間[s,t]に含まれる直交凸
    領域、又は前記第m列の区間[s,t]のみで構成され
    る直交凸領域のうち、前記数1の値が最も大きい直交凸
    領域Sm W(s,t)の前記第m−1列の区間[x,y]又は
    第m列が左端列であることを示す情報をm及び[s,
    t]に対応して記憶手段HWに記憶し、当該直交凸領域
    m W(s,t)の数1の値を記憶する第1記憶ステップと、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]がs≧x及びt≧yを満たす直交凸領
    域、又は前記第m列の区間[s,t]のみで構成される
    直交凸領域のうち、前記数1の値が最も大きい直交凸領
    域Sm U(s,t)の(a)前記第m−1列の区間[x,y]
    及び(b)前記第m−1列の区間[x,y]と第m−2
    列の区間[a,b]との関係、又は第m列が左端列であ
    ることを示す情報をm及び[s,t]に対応して記憶手
    段HUに記憶し、当該直交凸領域Sm U(s,t)の数1の値を
    記憶する第2記憶ステップと、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]がs≦x及びy≧tを満たす直交凸領
    域、又は前記第m列の区間[s,t]のみで構成される
    直交凸領域のうち、前記数1の値が最も大きい直交凸領
    域Sm D(s,t)の(a)前記第m−1列の区間[x,y]
    及び(b)前記第m−1列の区間[x,y]と第m−2
    列の区間[a,b]との関係、又は第m列が左端列であ
    ることを示す情報をm及び[s,t]に対応して記憶手
    段HDに記憶し、当該直交凸領域Sm D(s,t)の数1の値を
    記憶する第3記憶ステップと、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]がx≦s及びy≧tを満たす直交凸領
    域、又は前記第m列の区間[s,t]のみで構成される
    直交凸領域のうち、前記数1の値が最も大きい直交凸領
    域Sm N(s,t)の(a)前記第m−1列の区間[x,y]
    及び(b)前記第m−1列の区間[x,y]と第m−2
    列の区間[a,b]との関係、又は第m列が左端列であ
    ることを示す情報をm及び[s,t]に対応して記憶手
    段HNに記憶し、当該直交凸領域Sm N(s,t)の数1の値を
    記憶する第4記憶ステップと、 全てのm及び[s,t]について前記第1乃至第4記憶
    ステップを実行し、最も大きい数1の値を有する直交凸
    領域Sのm及び[s,t]と、対応する記憶手段HW
    U、HD、又はHNの値とを用いて、直交凸領域Sを前
    記平面から切り出すステップとを含むデータ間結合ルー
    ル導出方法。
  2. 【請求項2】各々内部に含まれるポイントの数u(i,j)
    及び所定の条件を満たしたポイントの数v(i,j)を記憶
    した複数のセルを含む平面から、 【数2】 を最大とする直交凸領域Sを切り出す方法であって、 θを入力するステップと、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]が前記区間[s,t]に含まれる直交凸
    領域、又は前記第m列の区間[s,t]のみで構成され
    る直交凸領域のうち、前記数2の値が最も大きい直交凸
    領域Sm W(s,t)の前記第m−1列の区間[x,y]又は
    第m列が左端列であることを示す情報をm及び[s,
    t]に対応して記憶手段HWに記憶し、当該直交凸領域
    m W(s,t)の数2の値を記憶する第1記憶ステップと、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]がs≧x及びt≧yを満たす直交凸領
    域、又は前記第m列の区間[s,t]のみで構成される
    直交凸領域のうち、前記数2の値が最も大きい直交凸領
    域Sm U(s,t)の(a)前記第m−1列の区間[x,y]
    及び(b)前記第m−1列の区間[x,y]と第m−2
    列の区間[a,b]との関係、又は第m列が左端列であ
    ることを示す情報をm及び[s,t]に対応して記憶手
    段HUに記憶し、当該直交凸領域Sm U(s,t)の数2の値を
    記憶する第2記憶ステップと、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]がs≦x及びy≧tを満たす直交凸領
    域、又は前記第m列の区間[s,t]のみで構成される
    直交凸領域のうち、前記数2の値が最も大きい直交凸領
    域Sm D(s,t)の(a)前記第m−1列の区間[x,y]
    及び(b)前記第m−1列の区間[x,y]と第m−2
    列の区間[a,b]との関係、又は第m列が左端列であ
    ることを示す情報をm及び[s,t]に対応して記憶手
    段HDに記憶し、当該直交凸領域Sm D(s,t)の数2の値を
    記憶する第3記憶ステップと、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]がx≦s及びy≧tを満たす直交凸領
    域、又は前記第m列の区間[s,t]のみで構成される
    直交凸領域のうち、前記数2の値が最も大きい直交凸領
    域Sm N(s,t)の(a)前記第m−1列の区間[x,y]
    及び(b)前記第m−1列の区間[x,y]と第m−2
    列の区間[a,b]との関係、又は第m列が左端列であ
    ることを示す情報をm及び[s,t]に対応して記憶手
    段HNに記憶し、当該直交凸領域Sm N(s,t)の数2の値を
    記憶する第4記憶ステップと、 全てのm及び[s,t]について前記第1乃至第4記憶
    ステップを実行し、最も大きい数2の値を有する直交凸
    領域Sのm及び[s,t]と、対応する記憶手段HW
    U、HD、又はHNの値とを用いて、直交凸領域Sを前
    記平面から切り出すステップとを含む直交凸領域切出方
    法。
  3. 【請求項3】前記第2記憶ステップが、 第m列の区間[s,t]が右端列であり且つ第m−1列
    の区間[x,y]がs≧x及びt=yを満たし且つ第m
    −2列の区間[a,b]と前記第m−1列の区間[x,
    y]との関係がa≧x及びb≦y又はa≦x及びb≦y
    である直交凸領域、第m列の区間[s,t]が右端列で
    あり且つ第m−1列の区間[x,y]がs≧x及びs≦
    y≦t−1を満たし且つ第m−2列の区間[a,b]と
    前記第m−1列の区間[x,y]との関係がa≧x及び
    b≦y又はa≦x及びb≦yである直交凸領域、又は前
    記第m列の区間[s,t]のみで構成される直交凸領域
    のうち、前記数2の値が最も大きい直交凸領域Sm U(s,
    t)の(a)前記第m−1列の区間[x,y]及び(b)
    前記第m−1列の区間[x,y]と第m−2列の区間
    [a,b]との関係、又は第m列が左端列であることを
    示す情報をm及び[s,t]に対応して記憶手段HU
    記憶し、当該直交凸領域Sm U(s,t)の数2の値を記憶す
    ることを特徴とする請求項2記載の直交凸領域切出方
    法。
  4. 【請求項4】前記第3記憶ステップが、 第m列の区間[s,t]が右端列であり且つ第m−1列
    の区間[x,y]がs=x及びt≧yを満たし且つ第m
    −2列の区間[a,b]と前記第m−1列の区間[x,
    y]との関係がa≧x及びb≦y又はa≧x及びb≧y
    である直交凸領域、第m列の区間[s,t]が右端列で
    あり且つ第m−1列の区間[x,y]がs+1≦x≦t
    及びy≧tを満たし且つ第m−2列の区間[a,b]と
    前記第m−1列の区間[x,y]との関係がa≧x及び
    b≦y又はa≧x及びb≧yである直交凸領域、又は前
    記第m列の区間[s,t]のみで構成される直交凸領域
    のうち、前記数2の値が最も大きい直交凸領域Sm D(s,
    t)の(a)前記第m−1列の区間[x,y]及び(b)
    前記第m−1列の区間[x,y]と第m−2列の区間
    [a,b]との関係、又は第m列が左端列であることを
    示す情報をm及び[s,t]に対応して記憶手段HD
    記憶し、当該直交凸領域Sm D(s,t)の数2の値を記憶す
    ることを特徴とする請求項2記載の直交凸領域切出方
    法。
  5. 【請求項5】前記第4記憶ステップが、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]が前記区間[s,t]と同一である直交
    凸領域、第m列の区間[s,t]が右端列であって第m
    −1列の区間[x,y]がx≦s及びy≧t+1又はx
    ≦s−1及びy≧tを満たす直交凸領域、又は前記第m
    列の区間[s,t]のみで構成される直交凸領域のう
    ち、前記数2の値が最も大きい直交凸領域Sm N(s,t)の
    (a)前記第m−1列の区間[x,y]及び(b)前記
    第m−1列の区間[x,y]と第m−2列の区間[a,
    b]との関係、又は第m列が左端列であることを示す情
    報をm及び[s,t]に対応して記憶手段HNに記憶
    し、当該直交凸領域Sm N(s,t)の数2の値を記憶するこ
    とを特徴とする請求項2記載の直交凸領域切出方法。
  6. 【請求項6】前記直交凸領域Sを前記平面から切り出す
    ステップが、 全てのm及び[s,t]について前記第1乃至第4記憶
    ステップを実行するステップと、 計算された数2の値のうち最大の値を有する直交凸領域
    Sのm及び[s,t]と、対応する記憶手段HW、HU
    D、又はHNとを用いて、第m−1列の区間[x,y]
    及び前記第m−1列と第m−2列との関係を読み出す第
    1関係読出ステップと、 前記第m−1列と第m−2列との関係を用いて、前記記
    憶手段HW、HU、HD、及びHNから対応する記憶手段を
    選択する選択ステップと、 前記第m−1列の区間[x,y]を用いて選択された記
    憶手段から第m−2列の区間[a,b]及び第m−2列
    と第m−3列との関係を読み出す第2関係読出ステップ
    と、 前記選択ステップと前記第2関係読出ステップとを、前
    列との関係が前記左端列であることを示す情報となるま
    で繰り返すステップとを含む請求項2記載の直交凸領域
    切出方法。
  7. 【請求項7】2種類の数値属性と、1種類の真偽をとる
    属性を含むデータを有するデータベースにおいて、 データ間の結合ルールを導き出す装置であって、 前記2種類の数値属性に対応する2つの軸を有し且つN
    ×M個のピクセルに分割されている平面の各ピクセルに
    対応して、当該ピクセル(i行j列)に属するデータの数
    u(i,j)及び前記真偽をとる属性が真であるデータの数
    v(i,j)を記憶する平面構成装置と、 条件θを入力する入力デバイスと、 【数3】 を最大にするような前記ピクセルの直交凸領域Sを前記
    平面から切り出す領域切出装置と、 切り出された前記領域S内に含まれるデータを出力する
    デバイスとを有するデータ間結合ルール導出装置。
  8. 【請求項8】前記入力デバイスにより、前記条件θとは
    異なる第2の条件θ2を入力し、前記領域切出装置によ
    り、前記第2の条件θ2に対応する第2の直交凸領域S2
    を前記平面から切り出した場合に、 【数4】 (前記直交凸領域S2に含まれ且つ前記真偽をとる属性
    が真であるデータの数をV(S2)、前記直交凸領域S
    に含まれ且つ前記真偽をとる属性が真であるデータの数
    をV(S)、前記直交凸領域S2に含まれるデータ数を
    U(S2)、前記直交凸領域Sに含まれるデータ数をU
    (S)とする。)を第3の条件として前記領域切出装置
    に出力する手段とをさらに有する請求項7記載のデータ
    間結合ルール導出装置。
  9. 【請求項9】前記切り出された直交凸領域S内の各ピク
    セルのv(i,j)/u(i,j)が、前記平面全体のデータ数に
    対する前記平面全体の前記真偽をとる属性が真であるデ
    ータ数の割合に等しくなるようv(i,j)を変更する手段
    と、 当該変更されたv(i,j)及び入力された条件θ4でもっ
    て、前記領域切出装置が動作するように命令する手段と
    を有する請求項7記載のデータ間結合ルール導出装置。
  10. 【請求項10】前記平面構成装置が、 複数の前記データから、X個のデータをランダムサンプ
    リングする手段と、 サンプリングされたデータを各前記数値属性についてソ
    ートし、X・i/N(i=1,2,・・N)番目に該当
    する数値及びX・n/M(n=1,2,・・M)番目に
    該当する数値を記憶する手段と、 記憶された前記数値を基準にして、前記複数のデータの
    各々がN×M個の前記ピクセルのいずれに含まれるか判
    断し、各ピクセルにおける数を計数する手段とを含む請
    求項7記載のデータ間結合ルール導出装置。
  11. 【請求項11】各々内部に含まれるポイントの数u(i,
    j)及び所定の条件を満たしたポイントの数v(i,j)を記
    憶した複数のセルを含む平面から、 【数5】 を最大とする直交凸領域Sを切り出す装置であって、 θを入力する手段と、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]が前記区間[s,t]に含まれる直交凸
    領域、又は前記第m列の区間[s,t]のみで構成され
    る直交凸領域のうち、前記数5の値が最も大きい直交凸
    領域Sm W(s,t)の前記第m−1列の区間[x,y]又は
    第m列が左端列であることを示す情報をm及び[s,
    t]に対応して記憶手段HWに記憶し、当該直交凸領域
    m W(s,t)の数5の値を記憶する第1記憶手段と、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]がs≧x及びt≧yを満たす直交凸領
    域、又は前記第m列の区間[s,t]のみで構成される
    直交凸領域のうち、前記数5の値が最も大きい直交凸領
    域Sm U(s,t)の(a)前記第m−1列の区間[x,y]
    及び(b)前記第m−1列の区間[x,y]と第m−2
    列の区間[a,b]との関係、又は第m列が左端列であ
    ることを示す情報をm及び[s,t]に対応して記憶手
    段HUに記憶し、当該直交凸領域Sm U(s,t)の数5の値を
    記憶する第2記憶手段と、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]がs≦x及びy≧tを満たす直交凸領
    域、又は前記第m列の区間[s,t]のみで構成される
    直交凸領域のうち、前記数5の値が最も大きい直交凸領
    域Sm D(s,t)の(a)前記第m−1列の区間[x,y]
    及び(b)前記第m−1列の区間[x,y]と第m−2
    列の区間[a,b]との関係、又は第m列が左端列であ
    ることを示す情報をm及び[s,t]に対応して記憶手
    段HDに記憶し、当該直交凸領域Sm D(s,t)の数5の値を
    記憶する第3記憶手段と、 第m列の区間[s,t]が右端列であって第m−1列の
    区間[x,y]がx≦s及びy≧tを満たす直交凸領
    域、又は前記第m列の区間[s,t]のみで構成される
    直交凸領域のうち、前記数5の値が最も大きい直交凸領
    域Sm N(s,t)の(a)前記第m−1列の区間[x,y]
    及び(b)前記第m−1列の区間[x,y]と第m−2
    列の区間[a,b]との関係、又は第m列が左端列であ
    ることを示す情報をm及び[s,t]に対応して記憶手
    段HNに記憶し、当該直交凸領域Sm N(s,t)の数5の値を
    記憶する第4記憶手段と、 全てのm及び[s,t]について前記第1乃至第4記憶
    手段を動作させ、最も大きい数5の値を有する直交凸領
    域Sのm及び[s,t]と、対応する記憶手段HW
    U、HD、又はHNの値とを用いて、直交凸領域Sを前
    記平面から切り出す手段とを有する直交凸領域切出装
    置。
JP3460597A 1997-02-19 1997-02-19 データ間結合ルール導出方法及び装置、及び直交凸領域切出方法及び装置 Expired - Fee Related JP3193658B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP3460597A JP3193658B2 (ja) 1997-02-19 1997-02-19 データ間結合ルール導出方法及び装置、及び直交凸領域切出方法及び装置
KR1019970060883A KR100309666B1 (ko) 1997-02-19 1997-11-18 데이터간결합룰도출방법및장치와,직교볼록영역분리추출방법및장치
TW086117282A TW360825B (en) 1997-02-19 1997-11-19 Method and apparatus for deriving association rule between data, and method and apparatus for segmenting rectilinear region
US09/025,536 US5991752A (en) 1997-02-19 1998-02-18 Method and apparatus for deriving association rules from data and for segmenting rectilinear regions

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3460597A JP3193658B2 (ja) 1997-02-19 1997-02-19 データ間結合ルール導出方法及び装置、及び直交凸領域切出方法及び装置

Publications (2)

Publication Number Publication Date
JPH10240747A JPH10240747A (ja) 1998-09-11
JP3193658B2 true JP3193658B2 (ja) 2001-07-30

Family

ID=12419001

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3460597A Expired - Fee Related JP3193658B2 (ja) 1997-02-19 1997-02-19 データ間結合ルール導出方法及び装置、及び直交凸領域切出方法及び装置

Country Status (4)

Country Link
US (1) US5991752A (ja)
JP (1) JP3193658B2 (ja)
KR (1) KR100309666B1 (ja)
TW (1) TW360825B (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115842A (ja) * 1997-06-24 1999-01-22 Mitsubishi Electric Corp データマイニング装置
JPH11328186A (ja) * 1997-11-11 1999-11-30 Mitsubishi Electric Corp 相関ルール生成方法および相関ルール生成装置
US6182070B1 (en) * 1998-08-21 2001-01-30 International Business Machines Corporation System and method for discovering predictive association rules
US6278997B1 (en) * 1999-02-05 2001-08-21 International Business Machines Corporation System and method for constraint-based rule mining in large, dense data-sets
JP3629514B2 (ja) * 2000-05-24 2005-03-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 領域算出方法、空間データマイニング装置、地図情報表示装置、空間データマイニングシステム、および記憶媒体
US7539677B1 (en) 2000-10-09 2009-05-26 Battelle Memorial Institute Sequential pattern data mining and visualization
US6711577B1 (en) 2000-10-09 2004-03-23 Battelle Memorial Institute Data mining and visualization techniques
JP2002183432A (ja) * 2000-12-14 2002-06-28 Ibm Japan Ltd データ抽出方法、データ操作方法、債権情報抽出方法、データベースシステム、債権商品化処理装置、記憶媒体及びコンピュータプログラム
JP2002351898A (ja) * 2001-05-23 2002-12-06 Internatl Business Mach Corp <Ibm> グラフ構造データの処理方法、処理システムおよびプログラム
US6765578B2 (en) * 2001-08-30 2004-07-20 Micron Technology, Inc. Graphics resampling system and method for use thereof
US20040205064A1 (en) * 2003-04-11 2004-10-14 Nianjun Zhou Adaptive search employing entropy based quantitative information measurement
WO2006090638A1 (ja) * 2005-02-22 2006-08-31 Ginza Stefany Keshouhin Kabushiki Kaisha クラブフェイス上の打点位置を推定するゴルフクラブ
US7480593B2 (en) * 2005-08-03 2009-01-20 Suresh Gopalan Methods and systems for high confidence utilization of datasets
WO2013046435A1 (ja) * 2011-09-30 2013-04-04 富士通株式会社 観測情報処理装置、観測情報処理プログラムおよび観測情報処理方法
JP5704249B2 (ja) * 2011-09-30 2015-04-22 富士通株式会社 観測情報処理装置、観測情報処理プログラムおよび観測情報処理方法
US8819078B2 (en) * 2012-07-13 2014-08-26 Hewlett-Packard Development Company, L. P. Event processing for graph-structured data
US20140035924A1 (en) * 2012-08-01 2014-02-06 Apollo Group, Inc. Trend highlighting
US9600894B2 (en) * 2015-04-07 2017-03-21 Toshiba Tec Kabushiki Kaisha Image processing apparatus and computer-readable storage medium
CN111504963B (zh) * 2020-04-10 2023-07-07 上海蓝长自动化科技有限公司 一种应用于叶绿素、蓝绿藻荧光检测的数据时空融合方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3118181B2 (ja) * 1995-10-26 2000-12-18 インターナショナル・ビジネス・マシーンズ・コーポレ−ション データ間結合ルール導出方法及び装置
JPH09134365A (ja) * 1995-11-01 1997-05-20 Internatl Business Mach Corp <Ibm> 最適化結合ルール導出方法及び装置
US5724573A (en) * 1995-12-22 1998-03-03 International Business Machines Corporation Method and system for mining quantitative association rules in large relational tables

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徳山「最適化の数理 データマイニングに使われる最適化の数理」応用数理,Vol.6,No.4,p.303−313,1996(平8−12−16)

Also Published As

Publication number Publication date
JPH10240747A (ja) 1998-09-11
US5991752A (en) 1999-11-23
KR100309666B1 (ko) 2001-11-17
KR19980070101A (ko) 1998-10-26
TW360825B (en) 1999-06-11

Similar Documents

Publication Publication Date Title
JP3118181B2 (ja) データ間結合ルール導出方法及び装置
JP3193658B2 (ja) データ間結合ルール導出方法及び装置、及び直交凸領域切出方法及び装置
JP3072708B2 (ja) データベース検索方法及び装置
Keim et al. Visualization techniques for mining large databases: A comparison
Chávez et al. Effective proximity retrieval by ordering permutations
US7113958B1 (en) Three-dimensional display of document set
EP0947937B1 (en) Image search apparatus and method
US8725734B2 (en) Sorting multiple records of data using ranges of key values
EP1136918A1 (en) Method and apparatus for retrieving, accumulating, and sorting table-formatted data
US8606779B2 (en) Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof
JP3629514B2 (ja) 領域算出方法、空間データマイニング装置、地図情報表示装置、空間データマイニングシステム、および記憶媒体
CN112597284B (zh) 公司名称的匹配方法、装置、计算机设备及存储介质
US20030037015A1 (en) Methods and apparatus for user-centered similarity learning
Arge et al. External-memory algorithms for processing line segments in geographic information systems
US20020123987A1 (en) Nearest neighbor data method and system
Islam et al. Implementation of image segmentation for natural images using clustering methods
CN112906865A (zh) 神经网络架构搜索方法、装置、电子设备及存储介质
JP3277142B2 (ja) リグレッション・ツリー作成方法及び装置
US6317735B1 (en) Method and apparatus for determining rule in database
US5870748A (en) Method and apparatus for deriving an optimized confidence rule
US20030126138A1 (en) Computer-implemented column mapping system and method
JP3938815B2 (ja) ノード作成方法、画像検索方法及び記録媒体
Li Fast Hough Transform for multidimensional signal processing
Schulz et al. A framework for visual data mining of structures
CN113312029B (zh) 一种界面推荐方法、装置、电子设备及介质

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees