JP3193658B2

JP3193658B2 - データ間結合ルール導出方法及び装置、及び直交凸領域切出方法及び装置

Info

Publication number: JP3193658B2
Application number: JP3460597A
Authority: JP
Inventors: 邦和依田; 剛志福田; 豪徳山; 真一森下
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1997-02-19
Filing date: 1997-02-19
Publication date: 2001-07-30
Anticipated expiration: 2017-02-19
Also published as: JPH10240747A; US5991752A; KR100309666B1; KR19980070101A; TW360825B

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、データベースにお
けるデータ相関の解析（データマイニングという。）に
関し、より詳しくは２項の数値属性と１項の真偽をとる
属性（真偽をとる条件又は０−１属性ともいう。）を有
するデータ間の相関を見い出す手法に関する。

【０００２】

【従来の技術】例えば、銀行の顧客を解析対象とし、流
動性預金残高がいくらくらいで且つ年齢が何歳ぐらいの
人であれば、定期預金残高が２００万円以上になる人が
全体の２０％となるか、といった問題を実際に解くこと
を考える。この流通性預金残高及び年齢は、整数ではあ
るが連続数値であり、一方定期預金残高２００万円以上
というのは、２００万円以上か未満かという分類になる
ので、真偽をとる属性を有するものである。真偽をとる
属性は、例えば「顧客がクレジットカードを有している
か」や「顧客が男性であるか」といった問題と置き換え
ることも可能である。このような課題を解決することが
できれば、銀行はどのような人に、例えば新型の金融商
品に関するダイレクトメールを送ればよいか簡単に分か
るので、効率的な営業活動が行える。

【０００３】従来、先に述べた真偽をとる属性間の相関
を表現するルール（結合ルール、association rule）を
高速に抽出するような研究は、データマイニングの分野
において行われてきた。例えば、R.Agrawal, T.Imielin
ski, and A.Swami, "Miningassociation rules between
sets of items in large databases" In proceedings
of the ACM SIGMOD Conference on Management of dat
a, May 1993. や、R.Agrawal and R.Srikant, "Fast al
gorithms for mining association rules" InProceedin
gs of the 20th VLDB Conference, 1994. 等がある。

【０００４】また、２項の数値データ間のルールを求め
る従来手法には、以下のようなものがある。１．強い線
形相関を見い出すために、平面上の直線で、点集合を最
適近似するものを探す方法。例えば、最小自乗法、再帰
中央法等である。これら方法の欠点は、線形相関しか分
からず、しかも相関係数の絶対値が０．５以下の場合に
線形相関を用いて各データを予測すると精度が低く、現
実にはほとんど役にたたない点にある。２．弱い大域相
関を見い出すために、２次元平面上で正方形、長方形、
又は円、楕円で面積に対して多くのデータを含むものを
見い出す方法。例えば、計算幾何学アルゴリズムを利用
するものである。この場合、計算時間が大きくなってし
まうという欠点がある。例えば円の場合、Ｏ（Ｍ³）以
上の手間が掛かり得る（Ｏ（Ｍ³）は、オーダーＭ³の計
算手間がかかることを示す。Ｍはデータ数である。）。
また、取り出す相関領域としては決まった形をしたもの
しか扱うことができない。現実には、決まった形で適切
にカバーできる場合は少ない。３．平面を正方メッシュ
に分割しておき、たくさんのデータを含むピクセルを取
り出す方法。しかし、取り出されたピクセルの集合は連
結でなく、バラバラなことが多いので、ルールとして見
い出すのは困難である。

【０００５】このような手法を用いると、上記の欠点の
他に、データ間の多くのルールのうちで、意味のあるも
のと無意味なものとの区別が難しいという欠点もある。
通常、相関に実用上の意味があるかどうかは人間の判断
によらないといけないことが多いが、１．や２．では特
殊な相関しか取り出せないので意味ある相関を見逃しや
すく、３では出力を人間が見てルールを見い出せない。

【０００６】他の方法としては、平面を正方メッシュに
分割しておき、これらのピクセルに関して連結且つｘ単
調な領域のうち多くのデータを含む領域を切り出す方法
がある（Takeshi Fukuda, Yasuhiko Morimoto, Shinich
i Morishita and Takeshi Tokuyama,"Data mining usin
g two-dimensional optimized association rules: Sch
eme, algorithms, and visualization," In Proceeding
s of the ACM SIGMODConference on Management of Dat
a, pages 13-23, June 1996 を参照のこと）。ｘ単調と
は、列方向には凸であるが、行方向では凸ではないもの
を言う。この方法は、高速で、一定の意味ある相関を取
り出すことができるが、縦方向に激しく揺れる入り組ん
だ領域を切り出すことが多く、人間が見てどこが強い相
関の部分であるか把握しにくい。また、ｘ単調というこ
とで、切り出される領域の形状が、正方メッシュのメッ
シュの仕方（各ピクセルへのデータの配分の仕方）に大
きく依存するという欠点もある。

【０００７】

【発明が解決しようとする課題】本発明は、以上のよう
な点に鑑み、２項以上の数値属性と真偽をとる属性を有
するデータ間の結合ルールを見い出すための一手法を提
供することを目的とする。

【０００８】また、データ間の結合ルールを人間がより
把握しやすい形で提示することも目的である。そして、
多くの結合ルールを可視化することにより、使用する人
間の選択の幅を増大させ、より重要な結合ルールを見い
だすこと可能とすることも目的とする。

【０００９】また、（１）真偽をとる属性が真であるデ
ータの割合がある定められた値以上であって、含まれる
データ数が最大となるようなルールであるサポート最大
化ルールや、（２）最低限含まれるデータ数が定められ
た場合、真偽をとる属性が真であるデータの割合が最大
となるようなルールであるコンフィデンス最大化ルー
ル、（３）取り出される領域内部と外部との分割を考え
た時に、分割前の情報量と比較した分割後の情報量の増
分を最大化するルールである最適化エントロピ・ルー
ル、（４）領域内外の分割を考えた時に、内外の「標準
化された真偽の割合の平均からのずれ」の二乗和を最大
化するルールである最適化インタクラスバリアンス・ル
ールを満たすような範囲（領域）を導出可能とすること
も目的である。

【００１０】さらに、上記のようなデータ間の結合ルー
ルを高速に実行できるような手法を提供することも目的
である。

【００１１】

【課題を解決するための手段】通常、解析対象物は多く
の数値属性を有する。この中から２つの数値属性を選
び、また、１つの真偽をとる属性について、以下のステ
ップを行うことにより、上記の目的を達成するものであ
る。すなわち、（１）２つの数値属性により平面を構成し、この平面を
ピクセルに分割し、各ピクセル内のデータ数及び真偽を
とる属性が真となったデータの数をカウントする。この
ような平面は、データ数が濃淡度、真偽をとる属性が真
となるデータの数が彩度に該当するような、複数のピク
セルを有する平面画像として捉えることもできる。（２）所定の条件θに従い、平面の２つの軸に凸な領域
である直交凸領域（rectilinear region）を切り出し、
データ間の結合ルールを見い出す。（３）切り出した直交凸領域が、先に述べたようなサポ
ート最大化ルール等の条件を満たしていれば、その直交
凸領域をユーザに提示する。また、データベースからそ
の直交凸領域に含まれるデータの必要な属性を引き出す
ことも、必要に応じて行う。

【００１２】なお、切り出された直交凸領域を、そのま
まユーザに提示したり、複数の直交凸領域を切り出した
場合には、それを動画として可視化することにより、所
望の結合ルールを見い出し易くすることもできる。

【００１３】また、一旦直交凸領域を切り出した後に、
それ以外の結合ルールを見出すべく、切り出された直交
凸領域について、彩度を平均化し、再度切り出しステッ
プを実行することも可能である。

【００１４】最初に述べたような例の場合、流動性預金
残高の軸と、年齢の軸を設け、その平面を適当なメッシ
ュに分割する。そして、メッシュの各エレメントである
ピクセルについて該当する顧客の数と、定期預金残高２
００万円以上の顧客の数をカウントする。そして、例え
ば顧客全体の２０％が入り且つ定期預金残高２００万円
以上である顧客の割合が最大となるような直交凸領域で
ある領域の切り出しを行うことにより、コンフィデンス
最大化ルールを得ることができる。

【００１５】また、例えば定期預金残高２００万円以上
の顧客割合が１０％で最大の顧客数を有する直交凸領域
を切り出すことにより、サポート最大化ルールを得るこ
とができる。

【００１６】以上述べた事項をまとめると、２種類の数
値属性と、１種類の真偽をとる属性とを含むデータを有
するデータベースにおいて、まず、２種類の数値属性に
対応する２つの軸を有し且つＮ×Ｍ個のピクセルに分割
されている平面の各ピクセルに対応して、当該ピクセル
（i行j列）に属するデータの数ｕ(i,j)及び前記真偽を
とる属性が真であるデータの数ｖ(i,j)を記憶する（平
面構成ステップ）。次に、所定の条件θを入力する。そ
して、

【数６】を最大にするような、ピクセルの直交凸領域Ｓを平面か
ら切り出す（領域切出ステップ）。このように直交凸な
形状の領域を切り出すことにより、より人間に結合ルー
ルが把握しやすいようになる。また、先の平面構成ステ
ップからの依存性が小さくできる。最後に、切り出され
た直交凸領域Ｓ内に含まれるデータを出力する。このよ
うに、ルールに合致するデータを得ることができる。

【００１７】また、入力された条件θとは異なる第２の
条件θ₂を入力し、

【数７】を最大にするようなピクセルの第２の直交凸領域Ｓ₂を
平面から切り出し、さらに、

【数８】（直交凸領域Ｓ₂に含まれ且つ真偽をとる属性が真であ
るデータの数をＶ（Ｓ₂）、直交凸領域Ｓに含まれ且つ
真偽をとる属性が真であるデータの数をＶ（Ｓ）、直交
凸領域Ｓ₂に含まれるデータ数をＵ（Ｓ₂）、直交凸領域
Ｓに含まれるデータ数をＵ（Ｓ）とする。）を第３の条
件として、

【数９】を最大にするようなピクセルの第３の領域Ｓ₃を平面か
ら切り出すようにすることも考えられる。このような処
理は、最初の条件θで、初期の目的のルールを導き出せ
なかった場合に有用である。通常先に示したサポート最
大化ルール、コンフィデンス最大化ルール、最適化エン
トロピ・ルール、最適化インタクラスバリアンス・ルー
ルといったルールを求める際には、条件θを適当に変化
させ、上記のような処理を行うことにより求められる。

【００１８】さらに、切り出された直交凸領域Ｓ内の各
ピクセルのｖ(i,j)／ｕ(i,j)が、平面全体のデータ数に
対する平面全体の真偽をとる属性が真であるデータ数の
割合に等しくなるようｖ(i,j)を変更し、当該変更され
たｖ(i,j)を用いて、入力された条件θ₄に従い、

【数１０】を最大にするようなピクセルの第４の領域Ｓ₄を切り出
すようにすることも考えられる。このようにすると、二
次的な相関ルールを導き出すことができる。

【００１９】また、先の平面構成ステップは、複数のデ
ータから、Ｘ個のデータをランダムサンプリングし、サ
ンプリングされたデータを各数値属性についてソート
し、Ｘ・ｉ／Ｎ（ｉ＝１，２，・・Ｎ）番目に該当する
数値及びＸ・ｎ／Ｍ（ｎ＝１，２，・・Ｍ）番目に該当
する数値を記憶し、記憶された数値を基準にして、複数
のデータをＮ×Ｍ個のピクセルに入れるようにすること
も考えられる。このようにすると、各行各列にデータを
高速にまたほぼ均等に割り振ることができる。

【００２０】領域切出ステップは本発明の主要部分であ
る。ここで、第ｍ列の区間［ｓ，ｔ］が右端列であるよ
うな直交凸領域は、第ｍ−１列から第ｍ列に移行する際
に、第ｍ−１列の区間［ｘ，ｙ］に比して、（１）広が
るか、（２）上昇するか、（３）下降するか、（４）狭
まるかの４つの類型に分けられる。そして、４つの類型
のうち、最も大きい数６の値を有する直交凸領域が求め
たい領域である。よって、それぞれの類型について最大
の数６の値を有する領域を求めるため、以下のようなス
テップが実行される。

【００２１】第１の類型のため、第ｍ列の区間［ｓ，
ｔ］が右端列であって第ｍ−１列の区間［ｘ，ｙ］が区
間［ｓ，ｔ］に含まれる直交凸領域、又は第ｍ列の区間
［ｓ，ｔ］のみで構成される直交凸領域のうち、数６の
値が最も大きい直交凸領域Ｓ_m ^W(s,t)の第ｍ−１列の区
間［ｘ，ｙ］又は第ｍ列が左端列であることを示す情報
をｍ及び［ｓ，ｔ］に対応して記憶手段Ｈ^Wに記憶し、
当該直交凸領域Ｓ_m ^W(s,t)の数６の値を記憶する。第２
の類型のために、第ｍ列の区間［ｓ，ｔ］が右端列であ
って第ｍ−１列の区間［ｘ，ｙ］がｓ≧ｘ及びｔ≧ｙを
満たす直交凸領域、又は第ｍ列の区間［ｓ，ｔ］のみで
構成される直交凸領域のうち、数６の値が最も大きい直
交凸領域Ｓ_m ^U(s,t)の（ａ）第ｍ−１列の区間［ｘ，
ｙ］及び（ｂ）第ｍ−１列の区間［ｘ，ｙ］と第ｍ−２
列の区間［ａ，ｂ］との関係、又は第ｍ列が左端列であ
ることを示す情報をｍ及び［ｓ，ｔ］に対応して記憶手
段Ｈ^Uに記憶し、当該直交凸領域Ｓ_m ^U(s,t)の数６の値を
記憶する。

【００２２】第３の類型のため、第ｍ列の区間［ｓ，
ｔ］が右端列であって第ｍ−１列の区間［ｘ，ｙ］がｓ
≦ｘ及びｙ≧ｔを満たす直交凸領域、又は第ｍ列の区間
［ｓ，ｔ］のみで構成される直交凸領域のうち、数６の
値が最も大きい直交凸領域Ｓ_m ^D(s,t)の（ａ）第ｍ−１
列の区間［ｘ，ｙ］及び（ｂ）第ｍ−１列の区間［ｘ，
ｙ］と第ｍ−２列の区間［ａ，ｂ］との関係、又は第ｍ
列が左端列であることを示す情報をｍ及び［ｓ，ｔ］に
対応して記憶手段Ｈ^Dに記憶し、当該直交凸領域Ｓ_m ^D(s,
t)の数６の値を記憶する。最後に、第４の類型のため、
第ｍ列の区間［ｓ，ｔ］が右端列であって第ｍ−１列の
区間［ｘ，ｙ］がｘ≦ｓ及びｙ≧ｔを満たす直交凸領
域、又は第ｍ列の区間［ｓ，ｔ］のみで構成される直交
凸領域のうち、数６の値が最も大きい直交凸領域Ｓ
_m ^N(s,t)の（ａ）第ｍ−１列の区間［ｘ，ｙ］及び
（ｂ）第ｍ−１列の区間［ｘ，ｙ］と第ｍ−２列の区間
［ａ，ｂ］との関係、又は第ｍ列が左端列であることを
示す情報をｍ及び［ｓ，ｔ］に対応して記憶手段Ｈ^Nに
記憶し、当該直交凸領域Ｓ_m ^N(s,t)の数６の値を記憶す
る。

【００２３】各々のステップは、直交凸という性質を考
慮して構成されている。そして、全てのｍ及び［ｓ，
ｔ］について前記第１乃至第４記憶ステップを実行し、
最も大きい数６の値を有する直交凸領域Ｓのｍ及び
［ｓ，ｔ］と、対応する記憶手段Ｈ^W、Ｈ^U、Ｈ^D、又は
Ｈ^Nの値とを用いて、直交凸領域Ｓを平面から切り出
す。

【００２４】なお、第２の類型のための計算は、より詳
しく説明すると、第ｍ列の区間［ｓ，ｔ］が右端列であ
り且つ第ｍ−１列の区間［ｘ，ｙ］がｓ≧ｘ及びｔ＝ｙ
を満たし且つ第ｍ−２列の区間［ａ，ｂ］と第ｍ−１列
の区間［ｘ，ｙ］との関係がａ≧ｘ及びｂ≦ｙ又はａ≦
ｘ及びｂ≦ｙである直交凸領域、第ｍ列の区間［ｓ，
ｔ］が右端列であり且つ第ｍ−１列の区間［ｘ，ｙ］が
ｓ≧ｘ及びｓ≦ｙ≦ｔ−１を満たし且つ第ｍ−２列の区
間［ａ，ｂ］と第ｍ−１列の区間［ｘ，ｙ］との関係が
ａ≧ｘ及びｂ≦ｙ又はａ≦ｘ及びｂ≦ｙである直交凸領
域、又は第ｍ列の区間［ｓ，ｔ］のみで構成される直交
凸領域のうち、数６の値が最も大きい直交凸領域Ｓ
_m ^U(s,t)の（ａ）第ｍ−１列の区間［ｘ，ｙ］及び
（ｂ）第ｍ−１列の区間［ｘ，ｙ］と第ｍ−２列の区間
［ａ，ｂ］との関係、又は第ｍ列が左端列であることを
示す情報をｍ及び［ｓ，ｔ］に対応して記憶手段Ｈ^Uに
記憶し、当該直交凸領域Ｓ_m ^U(s,t)の数６の値を記憶す
る、という処理になる。

【００２５】また、第３の類型のための計算は、より詳
しく説明すると、第ｍ列の区間［ｓ，ｔ］が右端列であ
り且つ第ｍ−１列の区間［ｘ，ｙ］がｓ＝ｘ及びｔ≧ｙ
を満たし且つ第ｍ−２列の区間［ａ，ｂ］と第ｍ−１列
の区間［ｘ，ｙ］との関係がａ≧ｘ及びｂ≦ｙ又はａ≧
ｘ及びｂ≧ｙである直交凸領域、第ｍ列の区間［ｓ，
ｔ］が右端列であり且つ第ｍ−１列の区間［ｘ，ｙ］が
ｓ＋１≦ｘ≦ｔ及びｙ≧ｔを満たし且つ第ｍ−２列の区
間［ａ，ｂ］と第ｍ−１列の区間［ｘ，ｙ］との関係が
ａ≧ｘ及びｂ≦ｙ又はａ≧ｘ及びｂ≧ｙである直交凸領
域、又は第ｍ列の区間［ｓ，ｔ］のみで構成される直交
凸領域のうち、数６の値が最も大きい直交凸領域Ｓ
_m ^D(s,t)の（ａ）第ｍ−１列の区間［ｘ，ｙ］及び
（ｂ）第ｍ−１列の区間［ｘ，ｙ］と第ｍ−２列の区間
［ａ，ｂ］との関係、又は第ｍ列が左端列であることを
示す情報をｍ及び［ｓ，ｔ］に対応して記憶手段Ｈ^Dに
記憶し、当該直交凸領域Ｓ_m ^D(s,t)の数６の値を記憶す
る、という処理になる。

【００２６】さらに、第４の類型のための計算は、より
詳しく説明すると、第ｍ列の区間［ｓ，ｔ］が右端列で
あって第ｍ−１列の区間［ｘ，ｙ］が区間［ｓ，ｔ］と
同一である直交凸領域、第ｍ列の区間［ｓ，ｔ］が右端
列であって第ｍ−１列の区間［ｘ，ｙ］がｘ≦ｓ及びｙ
≧ｔ＋１又はｘ≦ｓ−１及びｙ≧ｔを満たす直交凸領
域、又は第ｍ列の区間［ｓ，ｔ］のみで構成される直交
凸領域のうち、数６の値が最も大きい直交凸領域Ｓ
_m ^N(s,t)の（ａ）第ｍ−１列の区間［ｘ，ｙ］及び
（ｂ）第ｍ−１列の区間［ｘ，ｙ］と第ｍ−２列の区間
［ａ，ｂ］との関係、又は第ｍ列が左端列であることを
示す情報をｍ及び［ｓ，ｔ］に対応して記憶手段Ｈ^Nに
記憶し、当該直交凸領域Ｓ_m ^N(s,t)の数６の値を記憶す
る、という処理になる。

【００２７】また、最後に切り出すステップは、最初
に、全てのｍ及び［ｓ，ｔ］について第１乃至第４記憶
ステップを実行し、計算された数６の値のうち最大の値
を有する直交凸領域Ｓのｍ及び［ｓ，ｔ］と、対応する
記憶手段Ｈ^W、Ｈ^U、Ｈ^D、又はＨ^Nとを用いて、第ｍ−１
列の区間［ｘ，ｙ］及び第ｍ−１列と第ｍ−２列との関
係を読み出す（第１関係読出ステップ）。そして、第ｍ
−１列と第ｍ−２列との関係を用いて、記憶手段Ｈ^W、
Ｈ^U、Ｈ^D、及びＨ^Nから対応する記憶手段を選択し（選
択ステップ）、第ｍ−１列の区間［ｘ，ｙ］を用いて選
択された記憶手段から第ｍ−２列の区間［ａ，ｂ］及び
第ｍ−２列と第ｍ−３列との関係を読み出す（第２関係
読出ステップ）。最後に選択ステップと第２関係読出ス
テップとを、前列との関係が「左端列であることを示す
情報」となるまで繰り返す。

【００２８】以下の説明を理解すれば、上述の方法を実
施するような装置を作成すること、またこのような方法
をコンピュータに実施させるプログラムを作成すること
は容易に実施できるであろう。また、上記のようなプロ
グラムを記憶媒体や記憶デバイスに記憶することは、通
常行われることである。

【００２９】

【発明の実施の形態】まず、本発明の各ステップがどの
ように実施されるかを示す。（１）平面構成ステップ先に述べたように、あるデータの２つの数値属性に２つ
の座標軸（ｘ軸，ｙ軸）をそれぞれ対応させ、これら２
軸の張る平面を考える。この平面を軸ごとにＮ個のピク
セルに分割し、平面上にＮ²個のピクセルを作成する。
図１に、この平面構成ステップのフローを示す。ステッ
プ１００にて処理が開始し、まずデータ集合Ｐからデー
タのランダムサンプリングを行う（ステップ１１０）。
サンプリングされたデータをｐk（ｘk，ｙk）（ｋ＝
１，２，．．．Ｘ。ｘk，ｙkはデータの２つの数値属性
の値を、Ｘはサンプリングされたデータ数をそれぞれ示
す。）と表す。そして、ｘk，ｙkごとにソートを行い
（ステップ１２０）、ｘk，ｙkごとに、ｉ・Ｘ／Ｎ（ｉ
＝１，２，．．．Ｎ−１）番目に小さな値を見つけ出す
（ステップ１３０）。見つけ出された値が、各軸のピク
セルの境界値となる。このようなステップを実施するこ
とにより、平面上の各列及び各行に属するデータの数は
ほぼ均等になる。そして、見つけ出された値を用いて、
ピクセル（ｉ，ｊ）に入るデータｐkの数ｕ（ｉ，ｊ）
と、その中で真偽をとる属性が真であるデータｐkの数
ｖ（ｉ，ｊ）とをカウントする（ステップ１４０）。こ
こで、ｕ（ｉ，ｊ）及びｖ（ｉ，ｊ）は、上記平面上の
ｉ行ｊ列に存在するピクセルのデータを表すので、ｘ軸
方向にｊ、ｙ軸方向にｉ進んだ場所にあるピクセルを表
すことになる点に注意する。最後に、カウントされたｕ
（ｉ，ｊ）及びｖ（ｉ，ｊ）を各ピクセルごとに記憶す
る（ステップ１５０）。このようにして、２つのＮ×Ｎ
行列、ｕ（ｉ，ｊ）及びｖ（ｉ，ｊ）が生成される。

【００３０】上述のようにランダムサンプリングを行う
のは、通常全てのデータをソートしていると時間がかか
るからである。但し、ソートしてもよいような場合もあ
る。また、ランダムサンプリングで取り出されるデータ
の数は、３０Ｎから５０Ｎぐらいが好ましい。また、２
軸ともＮ個に分割する例を示したが、異なる数に分割す
ることも可能である。典型的な例で、Ｎは２０から１０
００ぐらいである。

【００３１】以上述べたのは一例であって、他の方法を
用いてもよい。例えば、各ピクセルの境界数値について
は予め定めた値を用いても良い。また、データ値に対し
て均等に分割することも、また対数的に分割することも
可能である。

【００３２】また、後の処理のため以下のような処理
（図２）を行っておくと、さらに全体の処理が高速化さ
れる。すなわち、ｕ(i,j)とｖ(i,j)の行数（Ｎ_y）と列
数（Ｎ_x）を調べる（ステップ２１０）。そして、先に
求めたｕ(i,j)とｖ(i,j)を用いて、新たに以下のような
ｕ'(i,j)とｖ'(i,j)という行列を作成する（ステップ２
２０）。

【数１１】

【数１２】これらの計算は、全てのｉ＝０，１，．．Ｎ_y−１、ｊ
＝０，１，．．．Ｎ_x−１について実施する。

【００３３】このｕ'(i,j)とｖ'(i,j)は、後々数多く計
算することとなる目的関数（以下、ゲインということも
ある）、

【数１３】の和計算を以下のように簡単化するために用意する。

【数１４】

【００３４】さらに、

【数１５】

【数１６】も後によく用いるので用意する。以上のような準備をす
れば、以下の領域切り出しステップが高速になる。

【００３５】（２）領域切り出しステップこのステップは直交凸領域を先に作成した平面から切り
出すものである。直交凸領域の例を図３に示す。直交凸
領域は、（１）ｙ軸に平行な線との交わりが必ず連続か
空であって、且つ（２）ｘ軸に平行な線との交わりが必
ず連続か空な領域を言う。図３の左側の領域は、ｙ軸に
平行な、いかなる線との交わりも連続か空であり、且つ
ｘ軸に平行な、いかなる線との交わりも連続か空である
ので直交凸領域であると言える。一方、図３の右側の領
域は、ｘ軸に平行な線との交わりは必ず連続又は空であ
るが、ｙ軸に平行な線でとの交わりは連続でないものを
含んでいる。よって、この領域は直交凸ではない。

【００３６】先に示した直交凸領域の条件（１）のみを
満たす領域をｘ単調な領域と言い、（２）のみを満たす
領域はｙ単調な領域という。先に示した従来技術では、
ｘ単調な領域を切り出すものであったが、実際に本発明
のようなデータマイニングにおいて当該従来技術を適用
すると、縦に激しく揺れる入り組んだ領域を切り出すこ
とが多く、人間には理解し難い形状となってしまう。ま
た、任意の形状で切り出そうとすると、その問題はＮＰ
困難となってしまう。そこで、本発明では、直交凸領域
で切り出すこととする。

【００３７】直交凸領域を切り出す際には、パラメータ
値θ（０以上１以下の実数）を含む数１３で表されるゲ
インを領域全体で最大にするような直交凸領域を切り出
す。ここで、パラメータθの説明をしておく。図４に示
すような、横軸が切り出される領域Ｓに含まれるデータ
数Ｕ（Ｓ）、縦軸が切り出される領域Ｓに含まれ且つ真
偽をとる属性が真であるデータの数Ｖ（Ｓ）であるよう
な平面を考える。データ数と真偽をとる属性が真である
データの数の組み合わせは多数存在するので、この平面
には多数の点が存在することになるが、この点のうち、
凸包を構成する点を特に用いる。すなわち、この凸包を
構成する点をつなぐことにより曲線を構成し、この曲線
に対し傾きθを有する直線を上から下ろして行き、最初
にこの曲線と接する点を求め、この時の領域を出力す
る。凸包上の点は図４では黒丸で表されている。以下、
凸包上の点をフォーカス・イメージという。また、直線
を下ろしていくような方法をハンドプローブという。こ
のように、本発明では傾きθをパラメータとして入力す
るような方法を用いる。

【００３８】このように凸包上の点のみ取り扱うのは、
コンフィデンス最大化ルール、サポート最大化ルール
は、凸包上に必ず存在するわけではないが、近似解とし
ては十分な点を出力することができ、また最適化エント
ロピ・ルール及び最適化インタクラスバリアンス・ルー
ルについては、この凸包上に必ず存在するからである。
もし、コンフィデンス最大化ルール及びサポート最大化
ルールの厳密解を解くとすると、実用的な時間には計算
が終了しないので、近似解であっても十分に有効な結果
を出力できる。

【００３９】上記のように傾きθの直線を下ろしていく
ということは、直線ｙ＝θｘ＋ＱのＹ切片であるＱを減
少させることであり、言いかえれば、Ｑ＝Ｖ（Ｓ）−θ
Ｕ（Ｓ）を最大にするＵ（Ｓ）をＸ座標に有する点を求
める問題となる。よって、

【数１７】と変形される。

【００４０】では、この数１７をどのように解くかを考
える。最初に、直交凸領域の性質を領域内部のピクセル
同士の関係によって表現する。Ｓをピクセル平面内の直
交凸領域とする。ｍ_l，ｍ_rをそれぞれＳの左端、右端の
列番号とする。Ｓの第ｍ列（ｍ_l≦ｍ≦ｍ_r）の下端及び
上端のピクセル番号をそれぞれｓ（ｍ），ｔ（ｍ）とす
る。これらの位置関係は図５を参照するとよく分かる。
第ｍ列の区間［ｓ（ｍ），ｔ（ｍ）］の変化傾向を第ｍ
−１列の区間との比較によって次のように定義する。（ａ）Ｗ−Ｔｙｐｅ：広がり型（図６左上）ｓ（ｍ−１）≧ｓ（ｍ），ｔ（ｍ−１）≦ｔ（ｍ）の場合（ｂ）Ｕ−Ｔｙｐｅ：上昇型（図６右上）ｓ（ｍ−１）≦ｓ（ｍ），ｔ（ｍ−１）≦ｔ（ｍ）の場合（ｃ）Ｄ−Ｔｙｐｅ：下降型（図６左下）ｓ（ｍ−１）≧ｓ（ｍ），ｔ（ｍ−１）≧ｔ（ｍ）の場合（ｄ）Ｎ−Ｔｙｐｅ：狭まり型（図６右下）ｓ（ｍ−１）≦ｓ（ｍ），ｔ（ｍ−１）≧ｔ（ｍ）の場合

【００４１】ｍ＝ｍ_lの列は全変化傾向に属し、上の不
等式の等号が成り立つ場合、その列は複数の変化傾向に
同時に属する。上の定義から直交凸領域内のどの列の区
間も上の４種類のタイプのいずれかに属する。

【００４２】また、直交凸領域の性質から、ある変化傾
向の列の左隣の列の変化傾向は次の条件を満たす。すな
わち、（１）Ｗ−Ｔｙｐｅの左隣の列はＷ−Ｔｙｐｅである。（２）Ｕ−Ｔｙｐｅの左隣の列はＷ−Ｔｙｐｅ又はＵ−
Ｔｙｐｅである。（３）Ｄ−Ｔｙｐｅの左隣の列はＷ−Ｔｙｐｅ又はＤ−
Ｔｙｐｅである。（４）Ｎ−Ｔｙｐｅの左隣の列はＷ−Ｔｙｐｅ、又はＵ
−Ｔｙｐｅ、又はＤ−Ｔｙｐｅ、又はＮ−Ｔｙｐｅであ
る。

【００４３】このような条件を満たす領域は逆に言うと
直交凸領域であると言える。これらの条件は、図７に状
態遷移図として示されている。図中のＷ，Ｕ，Ｄ，Ｎ
は、それぞれＷ−Ｔｙｐｅ、Ｕ−Ｔｙｐｅ、Ｄ−Ｔｙｐ
ｅ、Ｎ−Ｔｙｐｅであり、矢印を１つたどるごとに１つ
右隣の列の状態に遷移する。

【００４４】全ての直交凸領域は領域の右端の列の変化
傾向によって先に示した４つの種類に分類できる。ここ
で、４つの種類を総称してＸタイプ（Ｘ∈｛Ｗ，Ｕ，
Ｄ，Ｎ｝）と呼ぶ。列の区間のタイプと同様に、領域の
タイプも複数のタイプに同時に属する場合もある。

【００４５】また、右端が第ｍ列の区間［ｓ，ｔ］であ
るＸタイプの直交凸領域のゲインの最大値をｆ_m ^X(s,t)
と表す。そして、４つのタイプ領域のゲインのうち最も
大きいものを、ｆ_m(s,t)と表す。すなわち、

【数１８】である。このｆ_m(s,t)をｍ＝０，．．．Ｎ_x−１（∀
（ｓ≦ｔ））について求めて、それらの中で最大のもの
を選びだせば、それが先の平面内の全ての直交凸領域の
ゲインの最大値となる。

【００４６】この最大値を求めるために、ｍ＝０．．．
Ｎ_x−１に対して順番に、ｆ_m(s,t)（∀（ｓ≦ｔ））を
全て計算するという方針をとる。

【００４７】次にｍ＝０、すなわち第１列のｆ₀ ^X(s,t)
を計算する。この場合、全てのタイプで同一である。こ
れは、

【数１９】で求められる。

【００４８】そして、ｆ_m-1 ^X(s,t) （∀Ｘ∈｛Ｗ，Ｕ，
Ｄ，Ｎ｝，（∀（ｓ≦ｔ）））を求める。以下は、各タ
イプごとに説明する。

【００４９】（ａ）広がり型（Ｗ−Ｔｙｐｅ）の場合第ｍ列の区間［ｓ，ｔ］を最右端とする直交凸領域であ
って第ｍ列がＷ−Ｔｙｐｅである領域のゲインの最大値
ｆ_m ^W(s,t)は、以下の式により求められる。

【数２０】ここで、ｍａｘを求める時に、ｓ＝ｔの場合は数２０の
（１）（２）式だけで比較をし、大きい方の値を用い
る。その他の場合は（１）乃至（４）のすべてから最も
大きい値を用いる。

【００５０】数２０の（１）式は、第ｍ列の区間［ｓ，
ｔ］だけからなる領域（幅１の縦長の長方形）のゲイン
を表す。また（２）式は、第ｍ−１列がＷ−Ｔｙｐｅで
その区間が［ｓ，ｔ］、且つ第ｍ列も区間［ｓ，ｔ］で
右端となっている領域のうち最大のゲインを表す。これ
は、図８（ａ）に表したような場合を示す。なお、直交
凸領域の性質から第ｍ列がＷ−Ｔｙｐｅであれば第ｍ−
１列がＷ−Ｔｙｐｅであることは決まる。

【００５１】また（３）式は、第ｍ−１列がＷ−Ｔｙｐ
ｅであって、その区間［ｓ（ｍ−１），ｔ（ｍ−１）］
が、ｓ（ｍ−１）≧ｓ，ｔ（ｍ−１）≦ｔ−１を満た
し、第ｍ列の区間［ｓ，ｔ］で右端という領域のうち最
大のゲインを示す。これは、図８（ｂ）のような形状を
意味する。第ｍ−１列の上端は、ｔ−１以下であり、下
端はｓ以上である。（４）式は、第ｍ−１列がＷ−Ｔｙ
ｐｅであって、その区間［ｓ（ｍ−１），ｔ（ｍ−
１）］がｓ（ｍ−１）≧ｓ＋１，ｔ（ｍ−１）≦ｔを満
たし、第ｍ列の区間［ｓ，ｔ］で右端という領域のうち
最大のゲインを表す。これは、図８（ｃ）のような形状
を意味する。第ｍ−１列の上端はｔ以下であり、下端は
ｓ＋１以上である。（２）乃至（４）式は、Ｗ−Ｔｙｐ
ｅの左列はＷ−Ｔｙｐｅしかあり得ないということが考
慮されている。

【００５２】以上のｆ_m ^W(s,t)の計算を一列中の全ての
区間［ｓ，ｔ］に対して行う。この計算は図９のアルゴ
リズムに従う。以上のように、第ｍ列が領域の右端で第
ｍ−１列からの変化傾向がＷ−Ｔｙｐｅという領域のう
ち最大のゲインが得られる。

【００５３】（ｂ）上昇型（Ｕ−Ｔｙｐｅ）の場合最初に以下の式の値を求めておく。

【数２１】

【数２２】これは、図１０のようなアルゴリズムにて実行される。

【００５４】以上の計算を用いて、第ｍ列の区間［ｓ，
ｔ］を最右端とする直交凸領域であって第ｍ列がＵ−Ｔ
ｙｐｅである領域のゲインの最大値ｆ_m ^U(s,t)は、以下
の式により求められる。

【数２３】（１）乃至（３）式は、ｓ＝ｔの場合に比較に用いら
れ、その際（４）式は用いられない。

【００５５】数２３の（１）式は、第ｍ列の区間［ｓ，
ｔ］のみからなる領域（幅１の縦長の長方形）のゲイン
を表す。また、（２）式は、第ｍ−１列がＷ−Ｔｙｐｅ
であって、その区間［ｓ（ｍ−１），ｔ（ｍ−１）］
が、ｓ（ｍ−１）≦ｓ，ｔ（ｍ−１）＝ｔを満たし、第
ｍ列は区間［ｓ，ｔ］で右端という領域のうち最大のゲ
インを表す。これは、図１１（ａ）に示した形状の場合
であって、第ｍ−１列の下端の上限はｓである。

【００５６】（３）式は、第ｍ−１列がＵ−Ｔｙｐｅで
あって、その区間［ｓ（ｍ−１），ｔ（ｍ−１）］が、
ｓ（ｍ−１）≦ｓ，ｔ（ｍ−１）＝ｔを満たし、第ｍ列
は区間［ｓ，ｔ］で右端という領域のうち最大のゲイン
を表す。これは、図１１（ｂ）に示した形状の場合であ
って、第ｍ−１列の下端の上限はｓである。（４）式
は、第ｍ−１列がＷ−Ｔｙｐｅ又はＵ−Ｔｙｐｅであっ
て、その区間［ｓ（ｍ−１），ｔ（ｍ−１）］が、ｓ
（ｍ−１）≦ｓ，ｓ≦ｔ（ｍ−１）≦ｔ−１を満たし、
第ｍ列は区間［ｓ，ｔ］で右端という領域のうち最大の
ゲインを表す。これは、図１１（ｃ）に示した形状の場
合であって、第ｍ−１列の下端の上限はｓであり、また
上端の範囲はｓ以上ｔ−１以下である。（２）乃至
（４）式は、Ｕ−Ｔｙｐｅの左隣列はＷ−Ｔｙｐｅ又は
Ｕ−Ｔｙｐｅしかあり得ないということが考慮されてい
る。

【００５７】以上のｆ_m ^U(s,t)の計算を一列中の全ての
区間［ｓ，ｔ］に対して行う。この計算は、図１２に示
すアルゴリズムに従う。このように、第ｍ列が領域の右
端でそこの変化傾向がＵ−Ｔｙｐｅという領域のうち最
大のゲインが得られる。

【００５８】（ｃ）下降型（Ｄ−Ｔｙｐｅ）の場合最初に以下の式の値を計算しておく。

【数２４】

【数２５】これらの計算は、図１３に示されたアルゴリズムにより
実行される。（１）乃至（３）式は、ｓ＝ｔの場合に比
較に用いられ、その際（４）式は用いられない。

【００５９】以上の計算を用いて、第ｍ列の区間［ｓ，
ｔ］を最右端とする直交凸領域であって第ｍ列がＤ−Ｔ
ｙｐｅである領域のゲインの最大値ｆ_m ^D(s,t)は、以下
の式により求められる。

【数２６】

【００６０】数２６の（１）式は、第ｍ列の区間［ｓ，
ｔ］のみからなる領域（幅１の縦長の長方形）のゲイン
を表す。また、（２）式は、第ｍ−１列がＷ−Ｔｙｐｅ
であって、その区間［ｓ（ｍ−１），ｔ（ｍ−１）］
が、ｓ（ｍ−１）＝ｓ，ｔ（ｍ−１）≧ｔを満たし、第
ｍ列は区間［ｓ，ｔ］で右端という領域のうち最大のゲ
インを表す。これは、図１４（ａ）に示した形状の場合
であって、第ｍ−１列の上端の下限はｔである。

【００６１】（３）式は、第ｍ−１列がＤ−Ｔｙｐｅで
あって、その区間［ｓ（ｍ−１），ｔ（ｍ−１）］が、
ｓ（ｍ−１）＝ｓ，ｔ（ｍ−１）≧ｔを満たし、第ｍ列
は区間［ｓ，ｔ］で右端という領域のうち最大のゲイン
を表す。これは図１４（ｂ）に示した形状の場合であっ
て、第ｍ−１列の上端の下限はｔである。（４）式は、
第ｍ−１列がＷ−Ｔｙｐｅ又はＤ−Ｔｙｐｅであって、
その区間［ｓ（ｍ−１），ｔ（ｍ−１）］が、ｓ＋１≦
ｓ（ｍ−１）≦ｔ，ｔ（ｍ−１）≧ｔを満たし、第ｍ列
は区間［ｓ，ｔ］で右端という領域のうち最大のゲイン
を表す。これは図１４（ｃ）に示した形状の場合であっ
て、第ｍ−１列の上端の下限はｔであって、下端の範囲
はｓ＋１以上ｔ以下である。（２）乃至（４）式は、Ｄ
−Ｔｙｐｅの左隣列はＷ−Ｔｙｐｅ又はＤ−Ｔｙｐｅし
かあり得ないということが考慮されている。

【００６２】以上のｆ_m ^D(s,t)の計算を一列中の全ての
区間［ｓ，ｔ］に対して行う。この計算は図１５のアル
ゴリズムに従う。このようにして、第ｍ列が領域の右端
でそこの変化傾向がＤ−Ｔｙｐｅという領域のうち最大
のゲインが得られる。

【００６３】（ｄ）狭まり型（Ｎ−Ｔｙｐｅ）の場合第ｍ列の区間［ｓ，ｔ］を最右端とする直交凸領域であ
って第ｍ列がＮ−Ｔｙｐｅである領域のゲインの最大値
ｆ_m ^N(s,t)は、以下の式により求められる。

【数２７】ここで、ｍａｘを求める時、各式は式の後ろの条件を満
たす場合にのみ用いられる。すなわち、（６）式はｔ＞
Ｎ_y−１を満たす時のみ比較され、（７）式はｓ＞０を
満たす場合にのみ比較に用いられる。

【００６４】数２７の（１）式は、第ｍ列の区間［ｓ，
ｔ］のみからなる領域（幅１の縦長の長方形）のゲイン
を表す。（２）式は、第ｍ−１列がＷ−Ｔｙｐｅであっ
て、その区間が［ｓ，ｔ］であり、第ｍ列は区間［ｓ，
ｔ］で右端という領域のうち最大のゲインを表す。これ
は図１６（ａ）に示した形状の場合である。（３）式
は、第ｍ−１列の区間［ｓ，ｔ］がＵ−Ｔｙｐｅであっ
て、第ｍ列は区間［ｓ，ｔ］で右端という領域のうち最
大のゲインを表す。これは図１６（ｂ）に示した形状の
場合である。（４）式は、第ｍ−１列の区間［ｓ，ｔ］
がＤ−Ｔｙｐｅであって、第ｍ列は区間［ｓ，ｔ］で右
端という領域のうち最大のゲインを表す。これは図１６
（ｃ）に示した形状の場合である。（５）式は、第ｍ−
１列の区間［ｓ，ｔ］がＮ−Ｔｙｐｅであって、その区
間［ｓ，ｔ］であり、第ｍ列は区間［ｓ，ｔ］で右端と
いう領域のうち最大のゲインを表す。これは図１６
（ｄ）に示した形状の場合である。

【００６５】（６）式は、第ｍ−１列がＷ−Ｔｙｐｅ、
Ｕ−Ｔｙｐｅ、Ｄ−Ｔｙｐｅ又はＮ−Ｔｙｐｅであっ
て、その区間［ｓ（ｍ−１），ｔ（ｍ−１）］が、ｓ
（ｍ−１）≦ｓ，ｔ（ｍ−１）≧ｔ＋１を満たし、第ｍ
列は区間［ｓ，ｔ］で右端という領域のうち最大のゲイ
ンを表す。これは図１６（ｅ）に示した形状であって、
第ｍ−１列の上端の下限はｔ＋１であり、下端の上限は
ｓである。（７）式は、第ｍ−１列がＷ−Ｔｙｐｅ、Ｕ
−Ｔｙｐｅ、Ｄ−Ｔｙｐｅ又はＮ−Ｔｙｐｅであって、
その区間［ｓ（ｍ−１），ｔ（ｍ−１）］が、ｓ（ｍ−
１）≦ｓ−１，ｔ（ｍ−１）≧ｔを満たし、第ｍ列は区
間［ｓ，ｔ］で右端という領域のうち最大のゲインを表
す。これは図１６（ｆ）に示した形状であって、第ｍ−
１列の上端の下限はｔであり、下端の上限はｓ−１であ
る。

【００６６】以上のｆ_m ^N(s,t)の計算を一列中の全ての
区間［ｓ，ｔ］に対して行う。この計算は次のアルゴリ
ズムに図１７に従う。このようにして、第ｍ列の区間
［ｓ，ｔ］が領域の右端でそこの変化傾向がＮ−Ｔｙｐ
ｅという領域のうち最大のゲインが得られる。

【００６７】上述の（ａ）乃至（ｄ）の計算にて各列の
各［ｓ，ｔ］を右端とする領域の最大のゲインを計算す
ることができる訳であるが、それと同時に"領域"自体も
同時に記録しておく必要がある。これは、後の出力ステ
ップでは、この求められた直交凸領域内に含まれるデー
タを取り出すからである。

【００６８】ここで、同じ最大値の領域が複数存在する
場合には、それらのうち先に見つかった方を解として取
り扱う。また、領域は縦方向の区間が横に並んだものと
して［ｓ（ｍ_l），ｔ（ｍ_l）］，．．．［ｓ（ｍ_r），
ｔ（ｍ_r）］のように表現する。１列はＮ_y行あるので、
区間［ｓ，ｔ］（ｓ≦ｔ）の総数はＮ_y（Ｎ_y＋１）／２
個ある。各区間［ｓ，ｔ］は１つの整数ｐに一対一対応
させる。

【００６９】例えば、次の関数ｈ（ｓ，ｔ）によって区
間［ｓ，ｔ］を１つの整数ｐ＝ｈ（ｓ，ｔ）に対応させ
ることができる。すなわち、

【数２８】である。

【００７０】逆に、区間を表す整数ｐ（０≦ｐ≦Ｎ
_y（Ｎ_y＋１）／２）から区間［ｓ，ｔ］は、次のように
求められる。

【数２９】

【数３０】但し、このような計算はどの領域が最大のゲインを有す
るのかを決定する際には用いることはない。以後、
［ｓ，ｔ］は１つの整数と同一視して取り扱う。また、
上記数２８は一例にすぎず、他の関数を用いても問題な
い。

【００７１】次に領域を記憶しておく配列を用意する。
これは、Ｎ_x×Ｎ_y（Ｎ_y＋１）／２の整数型２次元配列
であり、Ｗ，Ｕ，Ｄ，Ｎ−Ｔｙｐｅのそれぞれに対して
１つ用意する。この要素をＨ^X(m,[s,t])（０≦ｍ≦Ｎ_x
−１，０≦[s,t]≦Ｎ_y（Ｎ_y＋１）／２，Ｘ∈｛Ｗ，
Ｕ，Ｄ，Ｎ｝）と表すこととする。

【００７２】この要素Ｈ^X(m,[s,t])には、ゲインがｆ_m ^X
(s,t)の領域の第ｍ−１列の区間［ｘ，ｙ］と、第ｍ−
１列の第ｍ−２列からの変化傾向Ｙを表す数値を記憶す
る。以下、Ｈ^X(m,[s,t])＝Ｙ：［ｘ，ｙ］と表す。例え
ば、このＨ^X(m,[s,t])を整数型３２ビットで表現し、Ｙ
の部分を上位２ビット、残りの下位ビットを［ｘ，ｙ］
を表すのに用いる（図１８参照）。

【００７３】但し、第ｍ列が領域の左端列である場合
に、第ｍ−１列にはつながらないことを表すために、こ
の下位ビットには領域の左端を表す値を入れる。例え
ば、先ほどの数３０で区間を表現する例では、この下位
ビットにＮ_y（Ｎ_y＋１）／２以上の値を入れるか又は２
９ビット目を領域の左端を表すフラグにすればよい。

【００７４】では、最終的に最大のゲインを有する直交
凸領域を求める処理を図１９を用いて説明する。ステッ
プ１６００で開始された処理は、最初にｍ＝０として、
ｍを初期化する（ステップ１６１０）。次に、ｍ＝Ｎ_x
であるか判断する（ステップ１６２０）。これは、ｍが
Ｎ_xに達して、全ての列について以下の計算が終了した
かを判断するものである。もし、全ての列ｍについて計
算が終了していなければ、全ての［ｓ，ｔ］について、
Ｈ^W(m,[s,t])とｆ_m ^W(s,t)、Ｈ^U(m,[s,t])とｆ_m ^U(s,t)、
Ｈ^D(m,[s,t])とｆ_m ^D(s,t)、Ｈ^N(m,[s,t])とｆ_m ^N(s,t)を
計算し、その結果を記憶する。この計算の順番は任意で
ある。そして、各計算中それまでに計算されたゲインの
最大値より大きい値が計算されたならば、その値及びそ
のｍ，［ｓ，ｔ］，Ｘを記憶しておく（ステップ１６３
０）。

【００７５】ここで、Ｈ^W(m,[s,t])とｆ_m ^W(s,t)の計算
は、先に示した数２０の計算を実施すればよい。よっ
て、Ｈ^W(m,[s,t]）は、数２０の（１）式が最大であれ
ば領域の左端を表す値、（２）式が最大であればＷ：
［ｓ，ｔ］，（３）式が最大であればＨ^W(m,[s,t-1])、
（４）式が最大であればＨ^W(m,[s+1,t])となる。以上の
ように、Ｈ^W(m,[s,t])のみを考えれば、前列である第ｍ
−１列は、必ずＷ−Ｔｙｐｅであるから、第ｍ−１列の
第ｍ−２列からの変化傾向は記憶する必要ない。

【００７６】また、Ｈ^U(m,[s,t])とｆ_m ^U(s,t)の計算
は、先に示した数２３の計算を実施すればよい。よっ
て、Ｈ^U(m,[s,t])には、数２３の（１）式が最大であれ
ば領域の左端を表す値、（２）式が最大であればＷ：
［β_m-1 ^W(s,t)，ｔ］、（３）式が最大であればＵ：
［β_m-1 ^U(s,t)，ｔ］、（４）式が最大であればＨ^U(m,
[s,t-1])が記憶される。

【００７７】Ｈ^D(m,[s,t])とｆ_m ^D(s,t)の計算は、先に
示した数２６の計算を実施すればよい。よって、Ｈ^D(m,
[s,t])には、数２６の（１）式が最大であれば領域の左
端を表す値、（２）式が最大であればＷ：［ｓ，τ_m-1 ^W
(s,t)］、（３）式が最大であればＤ：［ｓ，τ_m-1 ^D(s,
t)］、（４）式が最大であればＨ^D(m,[s+1,t])が記憶さ
れる。

【００７８】最後に、Ｈ^N(m,[s,t])とｆ_m ^N(s,t)の計算
は、先に示した数２７の計算を実施すればよい。よっ
て、Ｈ^N(m,[s,t]）は、数２７の（１）式が最大であれ
ば領域の左端を表す値、（２）式が最大であればＷ：
［ｓ，ｔ］，（３）式が最大であればＵ：［ｓ，ｔ］、
（４）式が最大であればＤ：［ｓ，ｔ］、（５）式が最
大であればＮ：［ｓ，ｔ］、（６）式が最大であればＨ
^N(m,[s,t+1])、（７）式が最大であればＨ^N(m,[s-1,t])
となる。

【００７９】ここまでで分かるように、すべてのｆ
_m ^X(s,t)を記憶しておく必要はない。第ｍ列の計算を実
施している時には、その第ｍ列と第ｍ−１列の計算結果
のみを用いる。よって、Ｗ，Ｕ，Ｄ，Ｎ−Ｔｙｐｅごと
に２列分の記憶容量があればよい。但し、余裕があれば
全て記憶しておいてもよい。

【００８０】図１９のステップ１６３０を終了すると、
ｍを１インクリメントして（ステップ１６４０）、ステ
ップ１６２０に戻る。そして、この処理を全ての列につ
いて実施する。もし、全ての列について実施されたなら
ば、全ての列に関して最大のゲイン値を有していた領域
に関するｍ，［ｓ，ｔ］，Ｘから、Ｈ^X(m,[s,t]）を参
照し、その値Ｙ：［ｘ，ｙ］を取り出す（ステップ１６
５０）。ここまでの処理で、最右端列である第ｍ列と、
その列の区間［ｓ，ｔ］、第ｍ−１列とその区間［ｘ，
ｙ］が分かる。

【００８１】次に、第ｍ−１列で領域は左端となる場合
もあるので、［ｘ，ｙ］が左端を表す値であるか判断さ
れる（ステップ１６６０）。左端であれば、ここで処理
は終了する（ステップ１６８０）。左端でなければ、Ｙ
をＸとして、［ｘ，ｙ］を［ｓ，ｔ］として、ｍ−１を
ｍとし（ステップ１６７０）、ステップ１６５０に戻
る。このように、［ｘ，ｙ］が左端を表す値となるま
で、この処理を繰り返せば、最大のゲイン値を有する直
交凸領域の各列の区間を得ることができる。

【００８２】（３）出力ステップ以上のように求まった直交凸領域Ｓは、前記平面のどの
部分を占めているかは、先のステップによりわかってい
るので、その領域Ｓに属するデータを取り出すことにな
る。通常各データは、真偽をとる属性及び数値属性のみ
ならず、他の属性も有しているから、例えばダイレクト
メールを送るのであれば、住所氏名といった属性を取り
出すようになる。ここまでくると、取り出すべきデータ
は特定されているから、通常のデータベースの検索に過
ぎないので、これ以上詳しく述べない。当然、一旦直交
凸領域をその外形がよくわかるようにして、ユーザに提
示するようにしてもよい。

【００８３】以上のような各ステップを実施すれば、あ
る条件θに対する、データ間結合ルールの１つを求める
ことができる。しかし、この条件θをどのように設定す
るかということは、１つの問題である。通常、ある条件
θ１つでは、問題の解決にならない場合が多い。以上の
各ステップ、特に（２）領域切り出しステップをエンジ
ンとして用い、どのように先に述べた４つの一般的なル
ール及び他のルール等を導き出すかを以下に示す。

【００８４】Ａ．ある区間に存在する直交凸領域を求め
る場合まず、幾つかのθに対応するフォーカス・イメー
ジＳを連続的に示し、動画を作成することにより、切り
出される領域の大きさ及び形状をユーザの判断により決
定させる場合を考える。

【００８５】この処理を図２０に示す。ステップ８００
にて開始された処理は、まずθ１を入力することによ
り、上述したプロセスにてフォーカス・イメージＳ１を
見つけ出す（ステップ８１０）。また、ユーザにθ２を
入力させ、同様にフォーカス・イメージＳ２を見つけ出
す（ステップ８２０）。このようにして２つのフォーカ
ス・イメージが求まると、それぞれに含まれるデータ数
Ｕ（Ｓ1），Ｕ（Ｓ2）及び真偽をとる属性が真であるデ
ータの数Ｖ（Ｓ1），Ｖ（Ｓ2）とを用いて、その中間に
ある、新たな傾きθ３を計算する（ステップ８３０）。

【００８６】このように新たなθ３が求まれば、さらに
このθ３に対応するフォーカス・イメージＳ３を求める
ことができる（ステップ８４０）。ここで、計算された
Ｓ３が既に求まっていれば、区間（θ１，θ２）にはこ
れ以上のフォーカス・イメージは凸包上（図４）には存
在しない。よって、処理が終了する（ステップ８８
０）。しかし、発見済みでなければ、θ２の代わりにθ
３を用いて、ステップ８３０以降を実行する（ステップ
８６０）。すなわち、区間（θ１，θ３）の間にあるフ
ォーカス・イメージを見つけ出す。この場合、次々に中
間の値を計算していくようにすることも可能である。ま
た、ある程度の個数フォーカス・イメージが求まったと
ころで計算を取り止めることもできる。さらに、もう１
つ残った区間（θ３，θ２）についてフォーカス・イメ
ージを計算するために、θ３，θ２についてステップ８
３０以降を実行する（ステップ８７０）。この場合も、
この区間内に存在しているフォーカス・イメージを全て
見つけ出すようにしてもよいし、所定の個数見つけ出し
たところで処理を終了してもよい。

【００８７】このようにして、１つ又は複数のフォーカ
ス・イメージを見つけ出すことができた。このように求
まった複数のフォーカス・イメージを連続してユーザに
提示するようなことも可能である。

【００８８】Ｂ．コンフィデンス最大化ルールの場合
（図２１及び図２２）この場合には、ルールの定義より最小限度のサポートmi
nsup（全体のデータ数に対する領域に包含されるデータ
数の割合）を入力する（ステップ９１０）。ここで、Ｕ
min＝Ｕsum×minsupを計算しておく。ここで図４を見て
みると、最小限度サポートと記された縦の点線がこの値
に対応する。まず、θ＝１でフォーカス・イメージＳ1
を求める（ステップ９２０）。そして、このＳ1に含ま
れるデータ数Ｕ（Ｓ1）が、Ｕ（Ｓ1）＞Ｕminを満たす
かどうか判断する（ステップ９３０）。もし成立するな
らば、Ｓ1を解として決定し（ステップ９５０）、処理
を終了する（ステップ９９０）。成り立たない場合、フ
ォーカス・イメージＳ2を平面全体を表すイメージとす
る。すなわち、Ｕ（Ｓ2)＝Ｕsum，Ｖ（Ｓ2）＝Ｖsumと
代入する（ステップ９４０）。そして、ＸＸを介して図
２２に移行する。

【００８９】図２２では、ＸＸから始まり、新たな条件
θを求め、このθに対するフォーカス・イメージＳを計
算する（ステップ１４００）。このθは θ＝（Ｖ（Ｓ2）ーＶ（Ｓ1））／（Ｕ（Ｓ2）−Ｕ（Ｓ
1））にて計算される。そして、Ｓ1＝Ｓ又はＳ2＝Ｓであるな
らば、（Ｓ1，Ｓ2）の間にはこれ以上フォーカス・イメ
ージは存在しないので、コンフィデンスの高いＳ2が最
良解として出力され、処理を終了する（ステップ１４１
０）。また、Ｕ（Ｓ）≒Ｕminであるならば、Ｓを出力
し、処理を終了する。

【００９０】ところが、Ｕ（Ｓ）＜Ｕminであると（ス
テップ１４２０）、まだ処理が必要なので、Ｓ1＝Ｓと
して（ステップ１４４０）、ステップ１４００に戻る。
同様に、Ｕ（Ｓ）＞Ｕminであるならば、Ｓ2＝Ｓとして
（ステップ１４３０）、ステップ１４００に戻る。

【００９１】これを繰り返すことにより解が見つけられ
る。図４を参照すると、先に説明した最小限度のサポー
トの右側、濃く塗られた部分に解の存在する範囲があ
る。そして、この図４の場合には、凸包の内部の白丸の
点が厳密解となるが、本発明ではハンド・プローブにて
得られた近似解が出力される。見つけられた解は、ユー
ザに提示されるようにしてもよいし、そのフォーカス・
イメージに属するデータの必要な属性を出力するように
してもよい。

【００９２】Ｃ．サポート最大化ルールの場合（図２
３，図２４）この場合、ルールの定義より、最小限度のコンフィデン
スminconf（直交凸領域に包含されるデータ数に対する
真偽をとる属性が真である割合）を入力する（ステップ
１１１０）。図４の場合、最小限度のコンフィデンスと
示され、原点から引かれた点線がこれに該当する。ま
ず、フォーカス・イメージＳ2を平面全体を表すイメー
ジとする。すなわち、Ｕ（Ｓ2）＝Ｕsum，Ｖ（Ｓ2）＝
Ｖsumと代入する（ステップ１１２０）。そして、minco
nf≦Ｖ（Ｓ2）／Ｕ（Ｓ2）であるかを判断する（ステッ
プ１１３０）。もしこの条件が成立するならば、Ｓ2を
解として決定し（ステップ１１６０）、処理を終了する
（ステップ１１９０）。条件が成立しないならば、θ＝
１でフォーカス・イメージＳ1を求める（ステップ１１
４０）。そして、minconf＞Ｖ（Ｓ1）／Ｕ（Ｓ1）が成
り立つかどうか判断する（ステップ１１５０）。もし成
り立つならば、解は存在せず、処理を終了する。成り立
たないならば、Ｙを介して図２４へ移行する。

【００９３】図２４では、Ｙから処理が開始され、θ＝
（Ｖ（Ｓ2）−Ｖ（Ｓ1））／（Ｕ（Ｓ2）−Ｕ（Ｓ1））
としてフォーカス・イメージＳを求める（ステップ１２
００）。この求められたフォーカス・イメージＳに対
し、（１）minconf≒Ｖ（Ｓ）／Ｕ（Ｓ）が成立する場
合には、このＳを出力して処理を終了する（ステップ１
２１０）。また、Ｓ1＝Ｓ若しくはＳ2＝Ｓである場合に
は、これ以上Ｓ1とＳ2の間には解は無いので、Ｓ1を最
良解として出力し、処理を終了する（ステップ１２１
０）。これに対し、minconf＜Ｖ（Ｓ）／Ｕ（Ｓ）であ
る場合には（ステップ１２２０）、Ｓ1＝Ｓとしてステ
ップ１２００に戻る（ステップ１２３０）。また、minc
onf＞Ｖ（Ｓ）／Ｕ（Ｓ）である場合には、Ｓ2＝Ｓとし
てステップ１２００に戻る（ステップ１２４０）。

【００９４】以上のようにして、サポート最大化ルール
が求められる。もう一度図４に戻ると、先に説明した最
小限度のコンフィデンスとして示した点線より上の濃く
塗られた範囲に解が存在する。そして、この例では凸包
内の白丸の点が厳密解であるが、このように凸包内部の
点は見つけ出すのに膨大な計算量を必要とするので、凸
包上の点でサポートを最大にする近似解を出力するよう
にしている。先に述べたように、見出された近似解又は
厳密解は、ユーザに提示してもよいし、フォーカス・イ
メージ内に含まれるデータの必要な属性値を出力するよ
うにしてもよい。

【００９５】Ｄ．最適化エントロピ・ルールの場合最適化エントロピ・ルールとは、領域の内部と外部との
分割を考えた時、分割前の情報量と比較した分割後の情
報量の増分を最大化するルールである。よって、切り出
された領域と平面全体のエントロピのゲイン（以下の
式）が最大となる領域を発見すればよい。

【数３１】このｘはＵ（Ｓ）、ｙはＶ（Ｓ）、ａはＵsum、ｂはＶs
umである。このような条件においても、解は凸包上に存
在することが分かったので、上述のステップを用いるこ
とができる。よって、θを変化させ、数３１を最大化す
るフォーカス・イメージを求めればよい。

【００９６】Ｅ．最適化インタクラスバリアンス・ルー
ルの場合先に述べたように最適化インタクラスバリアンス・ルー
ルとは、領域内外の分割を考えた時、内外の「標準化さ
れた真偽の割合の平均からのずれ」の二乗和を最大化す
るルールである。よって、切り出された領域と平面全体
のインタクラスバリアンス（以下の式）が最大となる領
域を発見すればよい。

【数３２】ｘ，ｙ，ａ，ｂは上述したものと同じである。このよう
な条件においても、解は凸包上に存在することが分かっ
たので、上述のステップを用いることができる。よっ
て、θを変化させ、数３２を最大化するフォーカス・イ
メージを求めればよい。

【００９７】Ｆ．その他以上述べたように、Ｕ（Ｓ）とＶ（Ｓ）上の凸包上の点
に存在する又は存在すると近似できる場合には、上述し
たステップを用いれば高速にルールに該当する領域を導
き出すことができる。

【００９８】Ｇ．二次的なルールの抽出上述のプロセスを用いて１つのルールを見い出した後
に、二次的なルールを見つけ出すことができる。すなわ
ち、切り出した１のフォーカス・イメージに属するｖ
(i,j)を除去し、ｖ(i,j)／ｕ(i,j)＝Ｖsum／Ｕsumとな
るように、ｖ(i,j)を変更し、それから新たに領域切り
出しステップを行うのである。

【００９９】以上、本発明における処理のプロセスを説
明した。このような処理プロセスは、コンピュータ・プ
ログラムによって実現し、実行するようにしてもよい。
例えば、図２５のような通常のコンピュータ・システム
において実行できるようなプログラムにすることもでき
る。処理プログラムは、ＨＤＤ１０５０に格納され、実
行時にはメインメモリ１０２０にロードされ、ＣＰＵ１
０１０によって処理される。また、ＨＤＤ１０５０はデ
ータベースをも含んでおり、処理プログラムはそのデー
タベースに対するアクセスを行う。最初の平面やフォー
カス・イメージは、表示装置１０６０によってユーザに
提示される。ユーザは、入力装置１０７０にてフォーカ
ス・イメージの選択や、データ出力の命令を入力する。
このような入力装置には、キーボードやマウス、ポイン
ティング・デバイスやディジタイザを含む。さらに、出
力結果を補助記憶装置であるＦＤＤ１０３０のフロッピ
ー・ディスクに記憶したり、また新たなデータをＦＤＤ
１０３０から入力することもできる。さらに、ＣＤ−Ｒ
ＯＭドライブ１０４０を用いて、データを入力すること
もできる。

【０１００】さらに、本発明の処理プロセスを実現した
コンピュータ・プログラムは、フロッピー・ディスクや
ＣＤ−ＲＯＭといった記憶媒体に記憶して、持ち運ぶこ
とができる。この場合、通常のデータベース検索プログ
ラムのデータ取り出し部分や、表示装置１０６０に表示
するだけの処理を行うプログラムは、すでにＨＤＤ１０
５０に記憶されている場合もある。よって、それ以外の
部分が、上記のような記憶媒体にて流通することは通常
行われる事項である。また、図示されていない通信装置
がバス１０８０に接続されており、遠隔地にあるデータ
ベースを用いて処理したり、処理結果を遠隔地に送信す
るようにしてもよい。

【０１０１】また、本発明の処理を実施する特別の装置
を設けてもよい。例えば、図２６のような装置が考えら
れる。平面構成装置１３１０は、データベース１３００
及び切出装置１３２０に接続されており、制御装置１３
４０からの命令を受付ける。また、切出装置１３２０
は、出力デバイス１３３０及び表示装置１３５０に接続
されており、制御装置１３４０からの命令を受付ける。
また、切出装置１１３０はデータベースにも接続を有し
ている。制御装置１３４０は、入力デバイス１３６０に
接続され、入力デバイス１３６０により指示された処理
の種類により平面構成装置１３１０及び切出装置１３２
０を制御する。

【０１０２】この装置の簡単な動作を説明する。平面構
成装置１３１０は、先に説明した平面構成ステップを実
行する部分である。このように平面構成装置１１１０
は、データベースに記憶されたデータを用いて先に示し
た平面を構成し、切出装置１３２０に出力する。切出装
置１３２０は、制御装置１３４０からの命令に従って、
切り出しのためのパラメータであるθをセットする。セ
ットされたθに従って切出装置１３２０は、先に述べた
切出ステップを行い、フォーカス・イメージを切り出
す。そして、表示装置１１４０に出力し、ユーザに命令
されれば、切り出されたフォーカス・イメージ内に属す
るデータをデータベース１３００から取り出し、出力デ
バイス１３３０に引き渡す。出力デバイス１３３０は、
適当な形式でユーザ所望のデータを出力する。また、ユ
ーザは、例えば入力デバイス１３６０からコンフィデン
ス最大化ルールを解くように命じ、最小限度のサポート
を入力する。すると、制御装置１３４０は先に示した処
理Ｂを行うように、条件θを設定し、切出装置１３２０
に出力する。そして、命じられたコンフィデンス最大化
ルールに合致するような領域を解くべく、条件θを変化
させる等の処理を行う。先に述べたサポート最大化ルー
ル（処理Ｃ）や、最適化エントロピ・ルール（処理
Ｄ）、最適化インタクラスバリアンス・ルール（処理
Ｅ）、その他凸包上に位置する領域を切出す処理Ｆに適
した条件θを切出装置１３２０に渡す処理を制御装置１
３４０は行う。ユーザは入力デバイス１３６０から処理
の種類や、先に述べたような条件（θのみならず、minc
onf，minsupも）を入力する。また、制御装置１３４０
は、上述の処理Ｇを行うために平面構成装置１３１０
に、切り出したフォーカス・イメージのＶ(i,j)を除去
する等の処理を命じる。

【０１０３】以上、本発明を特別の装置にする一例を示
したが、本発明はこれに限定されるものではない。例え
ば、切出装置１３２０の出力は、出力制御装置を介して
出力デバイス１１６０及び表示装置１１４０に出力され
るようにしてもよいし、この場合出力制御装置からデー
タベースを参照してデータを取り出すようにしてもよ
い。

【０１０４】以上は、通常データが有するＫ個の数値属
性のうち２項を選択し、それらの数値属性間の相関を見
つける処理であったが、数１３を目的関数とし、ｎ次元
空間の領域を切り出すことができれば、ｎ次元の探索に
拡張することができる。

【０１０５】

【効果】２項以上の数値属性と真偽をとる属性を有する
データ間の結合ルールを見い出すための一手法を提供す
ることができた。

【０１０６】また、データ間の結合ルールを人間がより
把握しやすい形で提示することもできた。そして、多く
の結合ルールを可視化することにより、使用する人間の
選択の幅を増大させ、より重要な結合ルールを見いだす
こと可能とすることもできた。

【０１０７】さらに、（１）サポート最大化ルールや、
（２）コンフィデンス最大化ルール、（３）最適化エン
トロピ・ルール、（４）最適化インタクラスバリアンス
・ルールを満たすような範囲（領域）を導出可能とする
こともできた。

【０１０８】また、上記のようなデータ間の結合ルール
を高速に実行できるような手法を提供することもでき
た。

【０１０９】例えば、ある割合以上で、例えばアウトド
アスポーツに興味を示す（真偽をとる属性に相当す
る）、できるだけまとまった領域に入る顧客を知ること
ができるので、その条件に合致する多くの顧客に知って
もらいたいダイレクトメールの宛て先を知るのに用いる
ことができる。（サポート最大化ルール）

【０１１０】一定数以上の顧客を含む、例えば定期預金
残高２００万円以上の顧客割合が最も高いところを知る
ことができるので、顧客を絞りこみつつ、有効な宣伝活
動等を行うことができる。（コンフィデンス最大化ルー
ル）

【図面の簡単な説明】

【図１】平面構成ステップのフローを示す図である。

【図２】領域切り出しステップのための前準備のフロー
を示す図である。

【図３】直交凸領域を説明するための図である。

【図４】Ｕ（Ｓ），Ｖ（Ｓ）平面の説明をするための図
である。

【図５】領域切り出しステップにおける表記を説明する
ための図である。

【図６】第ｍ−１列から第ｍ列への変化傾向を説明する
ための図である。

【図７】直交凸領域の各列の状態遷移を表す図である。

【図８】Ｗ−Ｔｙｐｅにおける第ｍ列と第ｍ−１列の関
係を説明するため図であって、（ａ）は数２０の（２）
式、（ｂ）は（３）式、（ｃ）は（４）式を説明するた
めの図である。

【図９】ｆ_m ^W(s,t)の計算順番を示した図である。

【図１０】Ｕ−Ｔｙｐｅの計算に用いる前処理のアルゴ
リズムを説明するための図である。

【図１１】Ｕ−Ｔｙｐｅにおける第ｍ列と第ｍ−１列の
関係を説明するための図であって、（ａ）は数２３の
（２）式、（ｂ）は（３）式、（ｃ）は（４）式を説明
するための図である。

【図１２】ｆ_m ^U(s,t)の計算順番を示した図である。

【図１３】Ｄ−Ｔｙｐｅの計算に用いる前処理のアルゴ
リズムを説明するための図である。

【図１４】Ｄ−Ｔｙｐｅにおける第ｍ列と第ｍ−１列の
関係を説明するための図であって、（ａ）は数２６の
（２）式、（ｂ）は（３）式、（ｃ）は（４）式を説明
するための図である。

【図１５】ｆ_m ^D(s,t)の計算順番を示した図である。

【図１６】Ｎ−Ｔｙｐｅにおける第ｍ列と第ｍ−１列の
関係を説明するための図であって、（ａ）は数２７の
（１）式、（ｂ）は（３）式、（ｃ）は（４）式、
（ｄ）は（５）式、（ｅ）は（６）式、（ｆ）は（７）
式を説明するための図である。

【図１７】ｆ_m ^N(s,t)の計算順番を示した図である。

【図１８】Ｈ^X(m,[s,t])のデータ構造を示すための図で
ある。

【図１９】領域切り出しステップの処理フローを表す図
である。

【図２０】複数のフォーカス・イメージを見つけ出す処
理のフローを示す図である。

【図２１】コンフィデンス最大化ルールを導出するため
の処理の一部を示すための図である。

【図２２】コンフィデンス最大化ルールを導出するため
の処理の一部を示すための図である。

【図２３】サポート最大化ルールの導出するための処理
の一部を示すための図である。

【図２４】サポート最大化ルールの導出するための処理
の一部を示すための図である。

【図２５】通常のコンピュータ・システムで本発明を実
施した場合の装置構成の一例を示す図である。

【図２６】本発明を専用の装置で実施した場合のブロッ
ク図である。

【符号の説明】

１０１０ＣＰＵ１０２０メインメモリ１０３０ＦＤＤ１０４０ＣＤ−ＲＯＭドライブ１０５０ＨＤＤ１０６０表示装置１０７０入力デバイス１３１０平面構成装置１３００データベース１３２０切出装置１３５０表示装置１１３０入力デバイス１３３０出力デバイス１３４０制御デバイス

───────────────────────────────────────────────────── フロントページの続き (72)発明者福田剛志神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内 (72)発明者徳山豪神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内 (72)発明者森下真一神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内 (56)参考文献特開平９−179883（ＪＰ，Ａ) 徳山「最適化の数理データマイニングに使われる最適化の数理」応用数理, Ｖｏｌ．６，Ｎｏ．４，ｐ．303−313, 1996（平８−12−16) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 G06F 19/00 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】２種類の数値属性と、１種類の真偽をとる
属性とを含むデータを有するデータベースにおいて、データ間の結合ルールを導き出す方法であって、前記２種類の数値属性に対応する２つの軸を有し且つＮ
×Ｍ個のピクセルに分割されている平面の各ピクセルに
対応して、当該ピクセル（i行j列）に属するデータの数
ｕ(i,j)及び前記真偽をとる属性が真であるデータの数
ｖ(i,j)を記憶する平面構成ステップと、条件θを入力するステップと、【数１】を最大にするような前記ピクセルの直交凸領域Ｓを前記
平面から切り出す領域切出ステップと、切り出された前記直交凸領域Ｓ内に含まれるデータを出
力するステップとを含み、前記領域切出ステップが、第ｍ列の区間［ｓ，ｔ］が右端列であって第ｍ−１列の
区間［ｘ，ｙ］が前記区間［ｓ，ｔ］に含まれる直交凸
領域、又は前記第ｍ列の区間［ｓ，ｔ］のみで構成され
る直交凸領域のうち、前記数１の値が最も大きい直交凸
領域Ｓ_m ^W(s,t)の前記第ｍ−１列の区間［ｘ，ｙ］又は
第ｍ列が左端列であることを示す情報をｍ及び［ｓ，
ｔ］に対応して記憶手段Ｈ^Wに記憶し、当該直交凸領域
Ｓ_m ^W(s,t)の数１の値を記憶する第１記憶ステップと、第ｍ列の区間［ｓ，ｔ］が右端列であって第ｍ−１列の
区間［ｘ，ｙ］がｓ≧ｘ及びｔ≧ｙを満たす直交凸領
域、又は前記第ｍ列の区間［ｓ，ｔ］のみで構成される
直交凸領域のうち、前記数１の値が最も大きい直交凸領
域Ｓ_m ^U(s,t)の（ａ）前記第ｍ−１列の区間［ｘ，ｙ］
及び（ｂ）前記第ｍ−１列の区間［ｘ，ｙ］と第ｍ−２
列の区間［ａ，ｂ］との関係、又は第ｍ列が左端列であ
ることを示す情報をｍ及び［ｓ，ｔ］に対応して記憶手
段Ｈ^Uに記憶し、当該直交凸領域Ｓ_m ^U(s,t)の数１の値を
記憶する第２記憶ステップと、第ｍ列の区間［ｓ，ｔ］が右端列であって第ｍ−１列の
区間［ｘ，ｙ］がｓ≦ｘ及びｙ≧ｔを満たす直交凸領
域、又は前記第ｍ列の区間［ｓ，ｔ］のみで構成される
直交凸領域のうち、前記数１の値が最も大きい直交凸領
域Ｓ_m ^D(s,t)の（ａ）前記第ｍ−１列の区間［ｘ，ｙ］
及び（ｂ）前記第ｍ−１列の区間［ｘ，ｙ］と第ｍ−２
列の区間［ａ，ｂ］との関係、又は第ｍ列が左端列であ
ることを示す情報をｍ及び［ｓ，ｔ］に対応して記憶手
段Ｈ^Dに記憶し、当該直交凸領域Ｓ_m ^D(s,t)の数１の値を
記憶する第３記憶ステップと、第ｍ列の区間［ｓ，ｔ］が右端列であって第ｍ−１列の
区間［ｘ，ｙ］がｘ≦ｓ及びｙ≧ｔを満たす直交凸領
域、又は前記第ｍ列の区間［ｓ，ｔ］のみで構成される
直交凸領域のうち、前記数１の値が最も大きい直交凸領
域Ｓ_m ^N(s,t)の（ａ）前記第ｍ−１列の区間［ｘ，ｙ］
及び（ｂ）前記第ｍ−１列の区間［ｘ，ｙ］と第ｍ−２
列の区間［ａ，ｂ］との関係、又は第ｍ列が左端列であ
ることを示す情報をｍ及び［ｓ，ｔ］に対応して記憶手
段Ｈ^Nに記憶し、当該直交凸領域Ｓ_m ^N(s,t)の数１の値を
記憶する第４記憶ステップと、全てのｍ及び［ｓ，ｔ］について前記第１乃至第４記憶
ステップを実行し、最も大きい数１の値を有する直交凸
領域Ｓのｍ及び［ｓ，ｔ］と、対応する記憶手段Ｈ^W、
Ｈ^U、Ｈ^D、又はＨ^Nの値とを用いて、直交凸領域Ｓを前
記平面から切り出すステップとを含むデータ間結合ルー
ル導出方法。
【請求項２】各々内部に含まれるポイントの数ｕ(i,j)
及び所定の条件を満たしたポイントの数ｖ(i,j)を記憶
した複数のセルを含む平面から、【数２】を最大とする直交凸領域Ｓを切り出す方法であって、 θを入力するステップと、第ｍ列の区間［ｓ，ｔ］が右端列であって第ｍ−１列の
区間［ｘ，ｙ］が前記区間［ｓ，ｔ］に含まれる直交凸
領域、又は前記第ｍ列の区間［ｓ，ｔ］のみで構成され
る直交凸領域のうち、前記数２の値が最も大きい直交凸
領域Ｓ_m ^W(s,t)の前記第ｍ−１列の区間［ｘ，ｙ］又は
第ｍ列が左端列であることを示す情報をｍ及び［ｓ，
ｔ］に対応して記憶手段Ｈ^Wに記憶し、当該直交凸領域
Ｓ_m ^W(s,t)の数２の値を記憶する第１記憶ステップと、第ｍ列の区間［ｓ，ｔ］が右端列であって第ｍ−１列の
区間［ｘ，ｙ］がｓ≧ｘ及びｔ≧ｙを満たす直交凸領
域、又は前記第ｍ列の区間［ｓ，ｔ］のみで構成される
直交凸領域のうち、前記数２の値が最も大きい直交凸領
域Ｓ_m ^U(s,t)の（ａ）前記第ｍ−１列の区間［ｘ，ｙ］
及び（ｂ）前記第ｍ−１列の区間［ｘ，ｙ］と第ｍ−２
列の区間［ａ，ｂ］との関係、又は第ｍ列が左端列であ
ることを示す情報をｍ及び［ｓ，ｔ］に対応して記憶手
段Ｈ^Uに記憶し、当該直交凸領域Ｓ_m ^U(s,t)の数２の値を
記憶する第２記憶ステップと、第ｍ列の区間［ｓ，ｔ］が右端列であって第ｍ−１列の
区間［ｘ，ｙ］がｓ≦ｘ及びｙ≧ｔを満たす直交凸領
域、又は前記第ｍ列の区間［ｓ，ｔ］のみで構成される
直交凸領域のうち、前記数２の値が最も大きい直交凸領
域Ｓ_m ^D(s,t)の（ａ）前記第ｍ−１列の区間［ｘ，ｙ］
及び（ｂ）前記第ｍ−１列の区間［ｘ，ｙ］と第ｍ−２
列の区間［ａ，ｂ］との関係、又は第ｍ列が左端列であ
ることを示す情報をｍ及び［ｓ，ｔ］に対応して記憶手
段Ｈ^Dに記憶し、当該直交凸領域Ｓ_m ^D(s,t)の数２の値を
記憶する第３記憶ステップと、第ｍ列の区間［ｓ，ｔ］が右端列であって第ｍ−１列の
区間［ｘ，ｙ］がｘ≦ｓ及びｙ≧ｔを満たす直交凸領
域、又は前記第ｍ列の区間［ｓ，ｔ］のみで構成される
直交凸領域のうち、前記数２の値が最も大きい直交凸領
域Ｓ_m ^N(s,t)の（ａ）前記第ｍ−１列の区間［ｘ，ｙ］
及び（ｂ）前記第ｍ−１列の区間［ｘ，ｙ］と第ｍ−２
列の区間［ａ，ｂ］との関係、又は第ｍ列が左端列であ
ることを示す情報をｍ及び［ｓ，ｔ］に対応して記憶手
段Ｈ^Nに記憶し、当該直交凸領域Ｓ_m ^N(s,t)の数２の値を
記憶する第４記憶ステップと、全てのｍ及び［ｓ，ｔ］について前記第１乃至第４記憶
ステップを実行し、最も大きい数２の値を有する直交凸
領域Ｓのｍ及び［ｓ，ｔ］と、対応する記憶手段Ｈ^W、
Ｈ^U、Ｈ^D、又はＨ^Nの値とを用いて、直交凸領域Ｓを前
記平面から切り出すステップとを含む直交凸領域切出方
法。
【請求項３】前記第２記憶ステップが、第ｍ列の区間［ｓ，ｔ］が右端列であり且つ第ｍ−１列
の区間［ｘ，ｙ］がｓ≧ｘ及びｔ＝ｙを満たし且つ第ｍ
−２列の区間［ａ，ｂ］と前記第ｍ−１列の区間［ｘ，
ｙ］との関係がａ≧ｘ及びｂ≦ｙ又はａ≦ｘ及びｂ≦ｙ
である直交凸領域、第ｍ列の区間［ｓ，ｔ］が右端列で
あり且つ第ｍ−１列の区間［ｘ，ｙ］がｓ≧ｘ及びｓ≦
ｙ≦ｔ−１を満たし且つ第ｍ−２列の区間［ａ，ｂ］と
前記第ｍ−１列の区間［ｘ，ｙ］との関係がａ≧ｘ及び
ｂ≦ｙ又はａ≦ｘ及びｂ≦ｙである直交凸領域、又は前
記第ｍ列の区間［ｓ，ｔ］のみで構成される直交凸領域
のうち、前記数２の値が最も大きい直交凸領域Ｓ_m ^U(s,
t)の（ａ）前記第ｍ−１列の区間［ｘ，ｙ］及び（ｂ）
前記第ｍ−１列の区間［ｘ，ｙ］と第ｍ−２列の区間
［ａ，ｂ］との関係、又は第ｍ列が左端列であることを
示す情報をｍ及び［ｓ，ｔ］に対応して記憶手段Ｈ^Uに
記憶し、当該直交凸領域Ｓ_m ^U(s,t)の数２の値を記憶す
ることを特徴とする請求項２記載の直交凸領域切出方
法。
【請求項４】前記第３記憶ステップが、第ｍ列の区間［ｓ，ｔ］が右端列であり且つ第ｍ−１列
の区間［ｘ，ｙ］がｓ＝ｘ及びｔ≧ｙを満たし且つ第ｍ
−２列の区間［ａ，ｂ］と前記第ｍ−１列の区間［ｘ，
ｙ］との関係がａ≧ｘ及びｂ≦ｙ又はａ≧ｘ及びｂ≧ｙ
である直交凸領域、第ｍ列の区間［ｓ，ｔ］が右端列で
あり且つ第ｍ−１列の区間［ｘ，ｙ］がｓ＋１≦ｘ≦ｔ
及びｙ≧ｔを満たし且つ第ｍ−２列の区間［ａ，ｂ］と
前記第ｍ−１列の区間［ｘ，ｙ］との関係がａ≧ｘ及び
ｂ≦ｙ又はａ≧ｘ及びｂ≧ｙである直交凸領域、又は前
記第ｍ列の区間［ｓ，ｔ］のみで構成される直交凸領域
のうち、前記数２の値が最も大きい直交凸領域Ｓ_m ^D(s,
t)の（ａ）前記第ｍ−１列の区間［ｘ，ｙ］及び（ｂ）
前記第ｍ−１列の区間［ｘ，ｙ］と第ｍ−２列の区間
［ａ，ｂ］との関係、又は第ｍ列が左端列であることを
示す情報をｍ及び［ｓ，ｔ］に対応して記憶手段Ｈ^Dに
記憶し、当該直交凸領域Ｓ_m ^D(s,t)の数２の値を記憶す
ることを特徴とする請求項２記載の直交凸領域切出方
法。
【請求項５】前記第４記憶ステップが、第ｍ列の区間［ｓ，ｔ］が右端列であって第ｍ−１列の
区間［ｘ，ｙ］が前記区間［ｓ，ｔ］と同一である直交
凸領域、第ｍ列の区間［ｓ，ｔ］が右端列であって第ｍ
−１列の区間［ｘ，ｙ］がｘ≦ｓ及びｙ≧ｔ＋１又はｘ
≦ｓ−１及びｙ≧ｔを満たす直交凸領域、又は前記第ｍ
列の区間［ｓ，ｔ］のみで構成される直交凸領域のう
ち、前記数２の値が最も大きい直交凸領域Ｓ_m ^N(s,t)の
（ａ）前記第ｍ−１列の区間［ｘ，ｙ］及び（ｂ）前記
第ｍ−１列の区間［ｘ，ｙ］と第ｍ−２列の区間［ａ，
ｂ］との関係、又は第ｍ列が左端列であることを示す情
報をｍ及び［ｓ，ｔ］に対応して記憶手段Ｈ^Nに記憶
し、当該直交凸領域Ｓ_m ^N(s,t)の数２の値を記憶するこ
とを特徴とする請求項２記載の直交凸領域切出方法。
【請求項６】前記直交凸領域Ｓを前記平面から切り出す
ステップが、全てのｍ及び［ｓ，ｔ］について前記第１乃至第４記憶
ステップを実行するステップと、計算された数２の値のうち最大の値を有する直交凸領域
Ｓのｍ及び［ｓ，ｔ］と、対応する記憶手段Ｈ^W、Ｈ^U、
Ｈ^D、又はＨ^Nとを用いて、第ｍ−１列の区間［ｘ，ｙ］
及び前記第ｍ−１列と第ｍ−２列との関係を読み出す第
１関係読出ステップと、前記第ｍ−１列と第ｍ−２列との関係を用いて、前記記
憶手段Ｈ^W、Ｈ^U、Ｈ^D、及びＨ^Nから対応する記憶手段を
選択する選択ステップと、前記第ｍ−１列の区間［ｘ，ｙ］を用いて選択された記
憶手段から第ｍ−２列の区間［ａ，ｂ］及び第ｍ−２列
と第ｍ−３列との関係を読み出す第２関係読出ステップ
と、前記選択ステップと前記第２関係読出ステップとを、前
列との関係が前記左端列であることを示す情報となるま
で繰り返すステップとを含む請求項２記載の直交凸領域
切出方法。
【請求項７】２種類の数値属性と、１種類の真偽をとる
属性を含むデータを有するデータベースにおいて、データ間の結合ルールを導き出す装置であって、前記２種類の数値属性に対応する２つの軸を有し且つＮ
×Ｍ個のピクセルに分割されている平面の各ピクセルに
対応して、当該ピクセル（i行j列）に属するデータの数
ｕ(i,j)及び前記真偽をとる属性が真であるデータの数
ｖ(i,j)を記憶する平面構成装置と、条件θを入力する入力デバイスと、【数３】を最大にするような前記ピクセルの直交凸領域Ｓを前記
平面から切り出す領域切出装置と、切り出された前記領域Ｓ内に含まれるデータを出力する
デバイスとを有するデータ間結合ルール導出装置。
【請求項８】前記入力デバイスにより、前記条件θとは
異なる第２の条件θ₂を入力し、前記領域切出装置によ
り、前記第２の条件θ₂に対応する第２の直交凸領域Ｓ₂
を前記平面から切り出した場合に、【数４】（前記直交凸領域Ｓ₂に含まれ且つ前記真偽をとる属性
が真であるデータの数をＶ（Ｓ₂）、前記直交凸領域Ｓ
に含まれ且つ前記真偽をとる属性が真であるデータの数
をＶ（Ｓ）、前記直交凸領域Ｓ₂に含まれるデータ数を
Ｕ（Ｓ₂）、前記直交凸領域Ｓに含まれるデータ数をＵ
（Ｓ）とする。）を第３の条件として前記領域切出装置
に出力する手段とをさらに有する請求項７記載のデータ
間結合ルール導出装置。
【請求項９】前記切り出された直交凸領域Ｓ内の各ピク
セルのｖ(i,j)／ｕ(i,j)が、前記平面全体のデータ数に
対する前記平面全体の前記真偽をとる属性が真であるデ
ータ数の割合に等しくなるようｖ(i,j)を変更する手段
と、当該変更されたｖ(i,j)及び入力された条件θ₄でもっ
て、前記領域切出装置が動作するように命令する手段と
を有する請求項７記載のデータ間結合ルール導出装置。
【請求項１０】前記平面構成装置が、複数の前記データから、Ｘ個のデータをランダムサンプ
リングする手段と、サンプリングされたデータを各前記数値属性についてソ
ートし、Ｘ・ｉ／Ｎ（ｉ＝１，２，・・Ｎ）番目に該当
する数値及びＸ・ｎ／Ｍ（ｎ＝１，２，・・Ｍ）番目に
該当する数値を記憶する手段と、記憶された前記数値を基準にして、前記複数のデータの
各々がＮ×Ｍ個の前記ピクセルのいずれに含まれるか判
断し、各ピクセルにおける数を計数する手段とを含む請
求項７記載のデータ間結合ルール導出装置。
【請求項１１】各々内部に含まれるポイントの数ｕ(i,
j)及び所定の条件を満たしたポイントの数ｖ(i,j)を記
憶した複数のセルを含む平面から、【数５】を最大とする直交凸領域Ｓを切り出す装置であって、 θを入力する手段と、第ｍ列の区間［ｓ，ｔ］が右端列であって第ｍ−１列の
区間［ｘ，ｙ］が前記区間［ｓ，ｔ］に含まれる直交凸
領域、又は前記第ｍ列の区間［ｓ，ｔ］のみで構成され
る直交凸領域のうち、前記数５の値が最も大きい直交凸
領域Ｓ_m ^W(s,t)の前記第ｍ−１列の区間［ｘ，ｙ］又は
第ｍ列が左端列であることを示す情報をｍ及び［ｓ，
ｔ］に対応して記憶手段Ｈ^Wに記憶し、当該直交凸領域
Ｓ_m ^W(s,t)の数５の値を記憶する第１記憶手段と、第ｍ列の区間［ｓ，ｔ］が右端列であって第ｍ−１列の
区間［ｘ，ｙ］がｓ≧ｘ及びｔ≧ｙを満たす直交凸領
域、又は前記第ｍ列の区間［ｓ，ｔ］のみで構成される
直交凸領域のうち、前記数５の値が最も大きい直交凸領
域Ｓ_m ^U(s,t)の（ａ）前記第ｍ−１列の区間［ｘ，ｙ］
及び（ｂ）前記第ｍ−１列の区間［ｘ，ｙ］と第ｍ−２
列の区間［ａ，ｂ］との関係、又は第ｍ列が左端列であ
ることを示す情報をｍ及び［ｓ，ｔ］に対応して記憶手
段Ｈ^Uに記憶し、当該直交凸領域Ｓ_m ^U(s,t)の数５の値を
記憶する第２記憶手段と、第ｍ列の区間［ｓ，ｔ］が右端列であって第ｍ−１列の
区間［ｘ，ｙ］がｓ≦ｘ及びｙ≧ｔを満たす直交凸領
域、又は前記第ｍ列の区間［ｓ，ｔ］のみで構成される
直交凸領域のうち、前記数５の値が最も大きい直交凸領
域Ｓ_m ^D(s,t)の（ａ）前記第ｍ−１列の区間［ｘ，ｙ］
及び（ｂ）前記第ｍ−１列の区間［ｘ，ｙ］と第ｍ−２
列の区間［ａ，ｂ］との関係、又は第ｍ列が左端列であ
ることを示す情報をｍ及び［ｓ，ｔ］に対応して記憶手
段Ｈ^Dに記憶し、当該直交凸領域Ｓ_m ^D(s,t)の数５の値を
記憶する第３記憶手段と、第ｍ列の区間［ｓ，ｔ］が右端列であって第ｍ−１列の
区間［ｘ，ｙ］がｘ≦ｓ及びｙ≧ｔを満たす直交凸領
域、又は前記第ｍ列の区間［ｓ，ｔ］のみで構成される
直交凸領域のうち、前記数５の値が最も大きい直交凸領
域Ｓ_m ^N(s,t)の（ａ）前記第ｍ−１列の区間［ｘ，ｙ］
及び（ｂ）前記第ｍ−１列の区間［ｘ，ｙ］と第ｍ−２
列の区間［ａ，ｂ］との関係、又は第ｍ列が左端列であ
ることを示す情報をｍ及び［ｓ，ｔ］に対応して記憶手
段Ｈ^Nに記憶し、当該直交凸領域Ｓ_m ^N(s,t)の数５の値を
記憶する第４記憶手段と、全てのｍ及び［ｓ，ｔ］について前記第１乃至第４記憶
手段を動作させ、最も大きい数５の値を有する直交凸領
域Ｓのｍ及び［ｓ，ｔ］と、対応する記憶手段Ｈ^W、
Ｈ^U、Ｈ^D、又はＨ^Nの値とを用いて、直交凸領域Ｓを前
記平面から切り出す手段とを有する直交凸領域切出装
置。