JPH11345124A

JPH11345124A - データベース内のルール決定方法及び装置

Info

Publication number: JPH11345124A
Application number: JP10149790A
Authority: JP
Inventors: Yasuhiko Morimoto; 康彦森本
Original assignee: IBM Japan Ltd
Current assignee: IBM Japan Ltd
Priority date: 1998-05-29
Filing date: 1998-05-29
Publication date: 1999-12-14
Also published as: US6317735B1

Abstract

(57)【要約】【課題】データの２つの述語数値属性に対応する２本の
軸により張られる平面からその境界が滑らかな領域を切
り出し、その領域をデータの目的属性の予想に利用でき
るようにすること。【解決の手段】データベース内のデータの目的属性に関
連し且つあるデータの目的属性値を予測するためのルー
ルを決定する際には、データベース内のデータの第１及
び第２の述語数値属性に対応する２つの軸を有し且つＮ
×Ｍ個のバケットに分割されている平面の各バケットに
対応して、当該バケットに属するデータに関する値を記
憶するステップと、平面から、所定の条件を満たすバケ
ットの領域を切り出す領域切出ステップと、切り出され
たバケットの領域の境界にスムージング処理を施すステ
ップと、スムージング処理後の領域により、あるデータ
の目的属性値を予測するためのルールを決定するルール
決定ステップとを含む。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、あるデータの目的
属性の値の予測に関し、より詳しくは、決定木又はリグ
レッション・ツリーを用いた、あるデータの目的属性の
値の予測に関する。なお、決定木とは、あるデータの真
偽をとる属性値の真偽を予測するために構成されるツリ
ーであり、リグレッション・ツリーとは、あるデータの
数値属性の値を予測するために構成されるツリーであ
る。

【０００２】

【従来の技術】特開平９−１７９８８３号公報は、デー
タベース内のデータの２つの述語数値属性に対応する２
本の軸を有し且つ複数の矩形バケットに分割された平面
を用意し、各バケットに対応して当該バケットに含まれ
るデータの数及びバケットに含まれるデータの、真偽を
とる属性が真であるデータの数を記憶し、所定の条件に
従って、平面の１つの軸に対し凸な、バケットの領域を
平面から切り出し、切り出された領域を用いてデータ間
結合ルールを導出する方法を開示している。本公報は、
データベース内のデータ間の結合ルールを導出するのが
目的であり、連結したバケット群により領域が構成され
るため、領域の形状は角張っている。

【０００３】また、文献１（K.Yoda, T.Fukuda, Y.Mori
moto, S.Morishita, and T.Tokuyama, "Computing Opti
mized Rectilinear Regions for Association Rules,"
KDD-97 Proceedings Third International Conference
on Knowledge Discovery andData Mining, pp96-103, T
he AAAI Press, ISBN 0-1-57735-027-8）は、上記公報
とは異なり、所定の条件に従って、直交凸な、矩形バケ
ットの領域を平面から切り出す方法を開示している。本
論文においても、データベース内のデータ間の結合ルー
ルを導出するのが目的であり、連結した矩形バケット群
により領域が構成されるため、領域の形状は角張ってい
る。

【０００４】さらに、文献２（Y.Morimoto, H.Ishii, a
nd S.Morishita, "Efficient Constructioni of Regres
sion Trees with Range and Region Splitting," Proce
edings of the Twenty-third International Conferenc
e on Very Large Data Bases, pp166-175, Aug. 1997）
は、リグレッション・ツリーにおいて、データベース内
のデータの２つの述語数値属性に対応する２本の軸を有
し且つ複数の矩形バケットに分割された平面を用意し、
各バケットに対応して当該バケットに含まれるデータの
数及びバケットに含まれるデータの目的数値属性の値の
和を記憶し、目的数値属性の値の平均自乗誤差を最小化
するようなバケットの領域を平面から切り出し、切り出
された領域内に含まれるデータに関するノード及び領域
外のデータに関するノードを作成する方法を開示してい
る。リグレッション・ツリー自体は、未知のデータにお
ける数値属性値を予測するのに用いることができる。但
し、目的数値属性の値の平均自乗誤差を最小化するよう
なバケットの領域は、先に示した平面の一つの軸に対し
て凸な領域又は直交凸な領域であって、連結した矩形バ
ケット群により構成されるため、領域は角張った形をし
ている。

【０００５】

【発明が解決しようとする課題】以上の従来技術では、
領域切り出しアルゴリズムの性質のため、切り出された
領域は矩形バケットの集合で角張った形をしていた。し
かし、平面の二本の軸に対応する２つの数値属性の値は
連続値であって、予測対象のデータの対応する２つの数
値属性の値も連続値として与えられるのにもかかわら
ず、領域を矩形バケット単位で切り出しているので、そ
の領域の境界線は予測を行うのに十分な信頼性を有して
いるか不明である。このため、予測の結果が異なってく
る場合も考えられる。さらに、決定木又はリグレッショ
ン・ツリーでは、木が成長していくごとに、ノードに含
まれるデータの数は減少していくので、１つの矩形バケ
ットの大きさが大きくなっていく。そうすると、切り出
される領域もいびつな領域が切り出されるようになる。
この場合も領域の境界線の妥当性には疑問がある。但
し、上記のような平面から滑らかな曲線による領域を直
接切り出すことは計算量からして不可能である。

【０００６】以上から、本発明の目的は、データの２つ
の述語数値属性に対応する２本の軸により張られる平面
からその境界が滑らかな領域を切り出し、その領域をデ
ータの目的属性の予想に利用できるようにすることであ
る。

【０００７】また、切り出された領域により、決定木又
はリグレッション・ツリーのノードを構成することも目
的である。

【０００８】さらに、予測精度の向上を図ることも目的
である。

【０００９】

【課題を解決するための手段】本発明は、データベース
内のデータの目的属性に関連し且つあるデータの目的属
性値を予測するためのルールを決定する方法であって、
データベース内のデータの第１及び第２の述語数値属性
に対応する２つの軸を有し且つＮ×Ｍ個のバケットに分
割されている平面の各バケットに対応して、当該バケッ
トに属するデータに関する値を記憶するステップと、平
面から、所定の条件を満たすバケットの領域を切り出す
領域切出ステップと、切り出されたバケットの領域の境
界にスムージング処理を施すステップと、スムージング
処理後の領域により、あるデータの目的属性値を予測す
るためのルールを決定するルール決定ステップとを含
む。よって、スムージング処理を施した後のバケットの
領域により、あるデータの目的属性値を予測することが
できる。

【００１０】上で述べた「バケットに属するデータに関
する値」は、バケットに属するデータの数及び当該バケ
ットに属するデータの目的属性に関する値とすることも
考えられる。

【００１１】なお、目的属性が数値属性である場合（リ
グレッション・ツリーの場合）には、上述の「目的属性
に関する値」は、バケットに属するデータの目的属性の
数値の和であり、目的属性が真偽をとる属性である場合
（決定木の場合）には、上述の「目的属性に関する値」
は、バケットに属するデータであってその目的属性値が
真であるデータの個数とすることもできる。

【００１２】領域切出ステップにおける「所定の条件」
には、（ａ）目的属性の値の平均自乗誤差を最小にする
こと（又はインタークラス・バリアンスを最大化するこ
と）、（ｂ）目的属性の離散値のエントロピー・ゲイン
を最大化すること，（ｃ）目的属性の離散値のＧＩＮＩ
インデックス関数値を最大化すること、（ｄ）目的属性
の離散値のカイ（χ）２乗値を最大化すること、（ｅ）
目的属性が真偽をとる属性であって、目的属性が真であ
るデータの割合がある定められた値以上であって、含ま
れるデータ数が最大となること、又は（ｆ）最低限含ま
れるデータ数が定められた場合、目的属性が真であるデ
ータの割合が最大となること、という条件が考えられ
る。なお、リグレッション・ツリーにおいては（ａ）の
条件を用いることが好ましい。

【００１３】上で述べたスムージング処理は、領域の境
界のスプライン曲線化処理とすることも考えられる。ま
た、スムージング処理において、領域を第１の述語数値
属性に対応する軸に平行なＮ本の重複のないストライプ
の、第２の述語数値に対応する軸に平行な辺内に制御ポ
イントを設定するステップを含むようにすることも考え
られる。この際、さらに、制御ポイントを通過する曲線
を設定するステップ（例えば図１１）、又は隣接する制
御ポイントを結ぶ直線の中点を通過する曲線を設定する
ステップ（例えば図１２）を実施するようにすることも
考えられる。境界をスプライン曲線にすることにより、
予測精度が上げられる。

【００１４】また、上述のルール決定ステップは、スム
ージング処理後の領域内部のデータに関するノードと、
領域外部のデータに関するノードとを追加したツリーを
作成するステップを含むようにすることも考えられる。
リグレッション・ツリー又は決定木の場合、このように
してノードを作成していく。但し、本発明は、ツリーの
ノードが１つであるような場合にも用いることができ
る。

【００１５】以上本発明の処理のフローを説明したが、
本発明はこれらの処理を実施する装置や、コンピュータ
にこれらの処理を実施させるプログラムの形態によって
も実施可能である。このプログラムを、フロッピー・デ
ィスクやＣＤ−ＲＯＭ等の記憶媒体又は他の形態の記憶
装置に格納することは、当業者が通常行う事項である。

【００１６】

【発明の実施の形態】リグレッション・ツリー（例えば
図２のようなツリーで、Ｒｅｇは図３のような領域であ
る。Ａｇｅは年齢、Years Employed は勤続年数、ｎは
データ数、ｍは給与額。給与額の平均値の最小自乗誤差
が小さくなるようにツリーを構築する例）を構築するた
めの大きな処理の流れを図１に示す。最初に、データ集
合Ｄのデータが終端条件を満たしているか検査する（ス
テップ１０２）。データ集合Ｄが初期データ集合であれ
ば、終端条件を満たしていないので、次のステップに進
む。一方、以下説明する処理を何回も実行した結果のデ
ータ集合であれば、ユーザの決めた所定の終端条件を満
たす場合もある。この終端条件を満たす場合は、処理を
終了する（ステップ１１０）。

【００１７】次に、インタークラス・バリアンスを最大
化するルールＲ（より一般的には所定の条件を満たすル
ールＲ）を、述語数値属性の組み合わせについて計算す
る（ステップ１０４）。リグレッション・ツリーを構築
する場合には、平均自乗誤差を最小化する最適な分割ル
ールを算出する必要がある。しかし、文献２で示されて
いるように、平均自乗誤差を最小化するということはイ
ンタークラス・バリアンスを最大化するということと等
価であって、計算コストなどの観点からインタークラス
・バリアンスを最大化する領域を見つけ出すようにす
る。特に問題がなければ、全ての組み合わせについて計
算する。また、ここでは初めから２つの数値属性から分
割ルールＲを構築することを目的としているため、述語
数値属性の組み合わせについて実行するとしている。し
かし、場合によっては、１つの述語属性についての分割
ルールＲを用いて、データ集合を分割できる場合もあ
る。これは、他の属性と相関の小さい１つの述語属性で
あれば可能である。よって、ステップ１０４では、その
ような１つの述語属性についてルールを求めるようにし
てもよい。

【００１８】そして、導出されたルールの中で最もイン
タークラス・バリアンスが大きいルール（より一般的に
は、所定の条件を満たす最適な述語数値属性の組み合わ
せについてのルール）でもって、データ集合ＤをＤ1及
びＤ2に分割する（ステップ１０６）。ステップ１０４
で述べたように、１つの述語属性について求めたルール
についても、インタークラス・バリアンス（より一般的
には所定の条件）を計算すれば、このステップ１０６で
比較を実行することができる。そして、データ集合Ｄを
Ｄ1又はＤ2として、上記のステップを実行する（ステッ
プ１０８）。

【００１９】１つの述語属性についての処理は従来技術
どおりであるから、以下、２つの述語数値属性について
インタークラス・バリアンスを最大化するルールＲの構
築方法について述べる。

【００２０】最初に図４で、処理の概要を説明する。最
初に、２つの述語数値属性に対応する平面を構成し、当
該平面をメッシングする（ステップ１２２。図５参照の
こと）。各メッシュ・エレメントは、データ集合Ｄのう
ち、当該メッシュに属するタップルの数、及び当該メッ
シュ・エレメントに属するタップルの目的数値属性の和
（後に述べる目的属性が真偽をとる属性の場合、目的属
性値が真であるタップル数）を格納している。図５のよ
うなメッシュされた平面の構成方法は任意である。例え
ば、データ集合Ｄから適当な数のデータをサンプリング
して、そのサンプリングされたデータを各数値属性ごと
にソートし、そのソートの結果を用いてメッシュ・エレ
メントの境界値を求め、全てのデータを各メッシュ・エ
レメントに分類する方法も考えられる。また、全てのデ
ータをソートして、そのソートの結果を用いてメッシュ
・エレメントの境界値を決定してもよい。また、最初に
メッシュ・エレメントの境界値を決定して、全てのデー
タを境界値に従って分類することも可能である。メッシ
ュ・エレメントのことをバケットと呼ぶ。

【００２１】そして、この平面から切り出される領域Ｒ
の形状を指定する（ステップ１２４）。このステップ
は、最初に実行されるようにしてもよい。切り出される
領域Ｒの形状には、ｘ単調、直交凸、ベース単調があ
る。これについては後に述べる。但し、他の形状にする
ことも考えられる。最後に、プロービング・パラメータ
θを変化させて、インタークラス・バリアンスを最大化
する領域Ｒ（より一般的には所定の条件を満たす領域
Ｒ）を平面から切り出す（ステップ１２６）。この領域
Ｒを分割ルールＲとするものである。

【００２２】この領域切り出しの方法は、ハンドプロー
ブという手法によって行われる。この手法は、領域Ｒ内
のタップル数ｘ（Ｒ）と、領域Ｒ内のタップルの目的数
値属性の和（後に述べる目的属性が真偽をとる属性の場
合には、タップルの真偽をとる目的属性値が真であるタ
ップル数）ｙ（Ｒ）とを２軸とする平面（図６）におい
て、全ての領域族Ｒに対する（ｘ（Ｒ），ｙ（Ｒ））か
らなる点集合をＰ（図６の白及び黒丸）とし、Ｐの凸包
をｃｏｎｖ（Ｐ）（図６の黒丸）とした時に、凸包ｃｏ
ｎｖ（Ｐ）上の点を幾何学的手法で高速に計算する方法
である。このハンド・ブローブは、タッチング・オラク
ル（Touching Oracle）、即ち「傾きθを持つ直線ｙ＝
θｘ＋Ａを仮定し、その直線が凸包ｃｏｎｖ（Ｐ）に接
するようＹ切片Ａを最大化（又は最小化）させ、凸包と
の接点を求める」ことにより、凸包を求める方法であ
る。プロービング・パラメータθはこの傾きθを意味す
る。

【００２３】求めようとするインタークラス・バリアン
スを最大化する点は、図６のような平面上の凸包ｃｏｎ
ｖ（Ｐ）上に存在する。インタークラス・バリアンス
は、ある分割ルールＲに対して、Ｖ(Ｒ)＝|Ｄ^true|(μ(Ｄ^true)−μ(Ｄ))²＋|Ｄ^false|
(μ(Ｄ^false)−μ(Ｄ))² なお、あるデータ集合Ｄに対し、ルールを満足するデー
タ集合Ｄ^true、ルールを満足しないデータ集合をＤ
^false、｜Ｄ｜をデータ集合Ｄにおけるデータ数、μ
（Ｄ）をデータ集合Ｄにおける目的数値属性の平均値と
している。このインタークラス・バリアンスＶ（Ｒ）
は、図５のメッシングされた平面Ｇ上の全てのデータ数
をＮ、全データの目的数値属性の値の和をｙ（Ｇ）とし
た場合、以下の式に変形される。

【数１】ここで、ｘ（Ｒ）＝ｘ，ｙ（Ｒ）＝ｙとし、簡単のため
平面Ｇ上の全データの目的数値属性の平均ｙ（Ｇ）／Ｎ
＝０であると仮定すると、Ｎ≠０の時ｙ（Ｇ）＝０とな
り、このインタークラス・バリアンス関数Ｖ（ｘ，ｙ）
＝ｆ（ｘ，ｙ）は以下のように表される。

【数２】

【００２４】そして、インタークラス・バリアンス関数
の凸関数性から、次の事項が導き出される。２つのプロ
ービング・パラメータ値でプロービングして得られた２
つの頂点（接点）をそれぞれＩ(left)，Ｉ(right)とす
る（図７）。この２つを得るために利用した２つの接線
の交点Ｑ（Ｉ）のインタークラス・バリアンス値が、検
索における現時点までに発見された最大のインタークラ
ス・バリアンス値より大きくない場合、凸包上でＩ(lef
t)とＩ(right)の２つの頂点間の頂点に対応するいかな
る分割も最大インタークラス・バリアンスを与えない。
すなわち、Ｑ（Ｉ）のインタークラス・バリアンス値
は、Ｉ(left)とＩ(right)の間の凸包上の全ての点のイ
ンタークラス・バリアンス値よりも大きく、アッパー・
バウンドと呼ばれる。そして、Ｑ（Ｉ）がそれまでに発
見された最大のインタークラス・バリアンス値より大き
くない場合には、このＩ(left)とＩ(right)の間はもは
や探索する必要がないということである。

【００２５】インタークラス・バリアンス関数の凸関数
性及び上記の性質より、図６及び図７の平面において、
効率よくインタークラス・バリアンス値を最大化する凸
包上の点を見出すことができる。次に、このインターク
ラス・バリアンス値を最大化する凸包上の点を見出すた
めに、θの設定方法の一例を図８乃至図１０を用いて述
べる。

【００２６】図８はメイン（ＭＡＩＮ）のフローを示す
図である。最初に、θ＝−∞＋ε（垂直）としてＩ(rig
ht)を、θ＝∞−ε（垂直）としてＩ(left)を計算する
（ステップ１３２）。但し、εは凸包の左右の端点を求
めるのに十分小さな実数とする。このＩ(right)の図７
における座標（ｘ，ｙ）をインタークラス・バリアンス
関数ｆ（ｘ，ｙ）（数１の変形）に入力したものをｆ
（Ｉ(right)）とし、同様にＩ(left)の場合にはｆ（Ｉ
(left)）とする。この２つのインタークラス・バリアン
ス値のうち大きい方をｆ_maxに入れる（ステップ１３
４）。そして、このＩ(right)及びＩ(left)のアッパー
バウンドＱ（Ｉ）のインタークラス・バリアンス値ｆ
（Ｑ(Ｉ)）を∞とし、且つこのｆ（Ｑ(Ｉ)）をＢ_maxと
いう変数に入れる（ステップ１３６）。そして、Ｉ(rig
ht)とＩ(left)の区間をＩとして、区間の集合Ｓに入れ
る（ステップ１３８）。

【００２７】ここで、区間の集合Ｓに含まれるＩのアッ
パーバウンドのインタークラス・バリアンス値ｆ（Ｑ
(Ｉ)）の中で最大のものをＢ_maxに入れる（ステップ１
４０）。最初の繰り返しでは、Ｉは１つでｆ（Ｑ(Ｉ)）
＝∞であるから、この値が再度Ｂ_maxに入れられる。そ
して、繰り返しの終了条件である、ｆ_max≧Ｂ_max又はＳ
が空集合かどうかを検査する（ステップ１４２）。最初
の条件ｆ_max≧Ｂ_maxは、これまでに求められた凸包上の
点のインタークラス・バリアンスの最大値ｆ_maxより大
きいアッパーバウンドのインタークラス・バリアンスの
最大値Ｂ_maxが存在しないということを表す。もし、こ
の条件が満たされた場合には、ｆ_maxである領域Ｒが求
めるべきルールＲを表すので、この領域Ｒを出力する
（ステップ１４４）。一方、終了条件を満たさない場合
には、SEARCH&PRUNE処理を呼び出す（ステップ１４
８）。

【００２８】このSEARCH&PRUNE処理を図９に示す。この
処理では最初に、ｆ（Ｑ(I)）がＢ_m _axとなるＩを取り出
し、このＩについて処理する（ステップ１５２）。最初
の繰り返しではＩ(right)とＩ(left)の区間Ｉがそのま
ま取り出される。そして、Ｓｐｌｉｔ処理が呼び出され
る（ステップ１５４）。このＳｐｌｉｔ処理は、区間Ｉ
を分割する処理であって、図１０を用いて後に説明す
る。そして、Ｓｐｌｉｔ処理が終了した後に、区間の集
合Ｓ内に含まれる区間のうち、ｆ_max≧ｆ（Ｑ(I)）であ
る区間Ｉを取り除く（ステップ１５８）。このｆ_max≧
ｆ（Ｑ(I)）は、ｆ _maxより区間Ｉのアッパーバウンドの
インタークラス・バリアンスｆ（Ｑ(I)）が大きくなけ
れば、その区間Ｉは探索しても、求めるべき凸包上の点
はないからである。

【００２９】では、Ｓｐｌｉｔ処理を説明する（図１
０）。ある区間Ｉを分割するため、その区間Ｉを区間の
集合Ｓから除去する（ステップ１６２）。θをＩ(left)
及びＩ(right)を接続する線の傾きにセットする（ステ
ップ１６４）。そしてθに対する接点Ｉ(mid)を計算す
る（ステップ１６６）。もし、Ｉ(mid)がＩ(right)及び
Ｉ(left)を接続する線上に存在する場合には（ステップ
１６８）、このＩ(left)及びＩ(right)の間にはもはや
凸包上の点はないので、SEARCH&PRUNEに戻る（ステップ
１７８）。

【００３０】一方、Ｉ(left)及びＩ(right)を接続する
線より上側にＩ(mid)が存在する場合には、ｆ_maxとｆ
（Ｉ(mid)）のうち大きい方をｆ_maxに入れる（ステップ
１７０）。そして、ＩをＩ₁＝［Ｉ(left)，Ｉ(mid)］と
Ｉ₂＝［Ｉ(mid)，Ｉ(right)］に分割する（ステップ１
７２）。さらに、ｆ（Ｑ(Ｉ₁)）及びｆ（Ｑ(Ｉ₂)）を計
算する（ステップ１７４）。最後に、Ｉ₁及びＩ₂を区間
の集合Ｓに追加する（ステップ１７６）。その後、SEAR
CH&PRUNE処理に戻る（ステップ１７８）。

【００３１】以上の処理を実施すると、探索不要の区間
が早い段階で枝刈りできるので、高速に所望の凸包上の
点を求めることができる。但し、図８乃至図１０は、凸
包の上側のみを扱うため、下側については、以下に述べ
る数３に示す式のθに対する最大化を最小化に置き換え
ることで同様に行うことができる。また、凸包の下側が
上側で求まったインタークラス・バリアンスより大きく
なければ採用する意味がないので、上側で求まったイン
タークラス・バリアンスの値を、下側の枝刈に用いると
より高速に処理できるようになる。

【数３】

【００３２】以上は、図４のステップ１２６におけるプ
ロービング・パラメータθの決定の方法であるが、図８
乃至図１０の処理において明らかなように、１つのθに
ついて、インタークラス・バリアンス値や図６上の座標
値（（ｘ，ｙ），数１ではｘ（Ｒ），ｙ（Ｒ））を求め
るためには、図５の平面における具体的な領域切り出し
が必要である。ＡｐｐｅｎｄｉｘＡに、１つのθが決
められた時の、ｘ単調な領域（ベース単調も含む）の領
域切り出しアルゴリズム、ＡｐｐｅｎｄｉｘＢに、１つ
のθが決められた時の、直交凸領域の領域切り出しアル
ゴリズムについて説明する。

【００３３】そして、ステップ１２６において切り出さ
れた領域Ｒの境界をスムージングする（ステップ１２
７）。まず、切り出された領域Ｒの例を図１１及び図１
２に示す。ハッチングが付された領域がステップ１２６
にて切り出された領域である。切り出された領域の境界
を、同じく図１１及び図１２に示されているように、ス
プライン曲線化する。図１５に第１のスプライン曲線
（図１１）を求めるためにどのような処理を行うかを示
す。まず、制御ポイントを決定する（ステップ１８
３）。制御ポイントは、図１１及び図１２に示すよう
に、縦軸に平行な重複のない、バケットのストライプの
横軸に平行な辺の中点である。すなわち、ストライプの
ｘ座標（横軸方向）がａ₁＜ｘ＜ａ₂で、ｙ座標（縦軸方
向）がｂ₁＜ｙ＜ｂ₂である場合には、（（ａ₁＋ａ₂）／
２，ｂ₁）及び（（ａ₁＋ａ₂）／２，ｂ₂）の点である。
但し、このような点に制限される分けではなく、（ａ₁
＋ａ₂）／２はａ₁からａ₂の間で設定できる。

【００３４】そして、ｆ_i(ｘ）は制御ポイントｘ_i及び
ｘ_i+1を通過し、ｆ_i'(ｘ_i+1）＝ｆ_i+ ₁'(ｘ_i+1）(ｘ_i+1
で一階微分が同一）、且つｆ_i''(ｘ_i+1）＝ｆ_i+1''(ｘ
_i+1）（ｘ_i+1でニ階微分が同一）であるｆ_i（ｘ）をす
べてのｉについて決定する（ステップ１８５）。図１３
に示すように、制御ポイントｘ₁からｘ₂までの区間がｆ
₁(ｘ）で、ｘ₂からｘ₃までの区間がｆ₂(ｘ）であり、ｆ
₁及びｆ₂は（ｘ₂，ｆ₁(ｘ₂））（ｘ₂，ｆ₂(ｘ₂））を通
過している。滑らかに接続するため、ｆ₁及びｆ₂の一階
及びニ階微分はｘ₂で同一値でなければならない。な
お、ｆ_i(ｘ）は三次多項式をここでは想定している。こ
のようにして決定されたｆ_i(ｘ）により、各区間の領域
境界を変更する（ステップ１８７）。

【００３５】また、図１２は、制御ポイントを通過しな
いスプライン曲線（Ｂスプラインの場合もある）を設定
するものである。この場合、制御ポイントを設定するの
は図１５と同じである（図１６：ステップ１９３）。そ
して、図１４に示すように、隣接する各制御ポイントを
結ぶ直線の中点間が１つの区間であり、この中点をｆ
_i(ｘ）は通過する。すなわち、（ｘ_i＋ｘ_i+1)／２から
（ｘ_i+1＋ｘ_i+2)／２が１つの区間であって、これらの
点をｆ_iは通過する。図１４のｆ₁は、（（ｘ₁＋ｘ₂)／
２，ｆ₁(（ｘ₁＋ｘ₂)／２））及び（（ｘ₂＋ｘ₃)／２，
ｆ₁(（ｘ₂＋ｘ₃)／２））を通過する。さらに、隣接す
る制御ポイントの中点では、一階微分が同一値を有す
る。すなわち、ｆ_i'(（ｘ_i+1＋ｘ_i+2)／２）＝ｆ_i+1'
(（ｘ_i+1＋ｘ_i+2)／２）＝（ｙ_i+2−ｙ_i+1）／（ｘ_i+2
−ｘ_i+1）である。これらの条件を満たすｆ_i(ｘ）をす
べてのｉについて求める（ステップ１９５）。そして、
各区間をｆ_i(ｘ）により変更する（ステップ１９７）。

【００３６】なお、図１１及び図１２を参照すれば分か
るように、切り出された領域の右端及び左端のストライ
プについては、それぞれ右端の縦軸に平行な辺の中点、
左端の縦軸に平行な辺の中点にも制御点を設けている。
但し、必ずしも中点である必要はない。また、制御ポイ
ントは、領域の境界を上端のみではなく、下端にも設
け、同じような処理を実施する。図１１及び図１２の場
合には、後に述べるベース単調な領域が切り出されてい
るので、角を円くするためには、右端及び左端のストラ
イプについてのみ領域の下端に制御ポイントを設けてい
る。ｘ単調及び直交凸な領域については、全てのストラ
イプについて上下に制御ポイントを生成し、例えばスプ
ライン曲線化する。

【００３７】以上のようにすれば、図１１及び１２のよ
うなスプライン曲線に、切り出された領域の境界を変更
することができ、図４における処理を終了する（ステッ
プ１２８）。

【００３８】以上はリグレッション・ツリーを生成する
場合の例であった。次に、決定木を生成する場合の処理
について説明する。決定木の場合、目的属性は、数値属
性ではなく、例えば真偽をとる属性（より一般的にはｊ
個の離散値をとる）となる。よって、以下のような条件
を用いる。

【００３９】（１）コンフィデンス最大化ルールの場合コンフィデンス最大化ルールとは、最低限含まれるデー
タ数が定められた場合、真偽をとる属性が真であるデー
タの割合が最大となるようなルールである。切り出され
た領域Ｒ内に含まれるデータ数はサポートと呼ばれ、最
小限度のサポートminsupは全体のデータ数に対する領域
Ｒに含まれるデータ数の割合を表す。ある領域Ｒに含ま
れるデータ数をｘ（Ｒ）とし、その領域Ｓに含まれるデ
ータのうち目的属性（真偽をとる属性）の値が真である
データの数をｙ（Ｒ）とし、平面（図５）全体のデータ
数をＵsumとし、平面全体のデータでその目的属性の値
が真であるデータ数をＶsumとすると、以下の手順でコ
ンフィデンスを最大化するルールを導き出すことができ
る。

【００４０】まず、最小限度のサポートminsupを入力す
る（図１８：ステップ９１０）。ここで、Ｕmin＝Ｕsum
×minsupを計算しておく。ここで図１７を見てみると、
最小限度サポートと記された縦の点線がこの値に対応す
る。まず、θ＝１で領域Ｓ1を求める（ステップ９２
０）。そして、このＳ1に含まれるデータ数ｘ（Ｓ1）
が、ｘ（Ｓ1）＞Ｕminを満たすかどうか判断する（ステ
ップ９３０）。もし成立するならば、Ｓ1を解として決
定し（ステップ９５０）、処理を終了する（ステップ９
９０）。成り立たない場合、領域Ｓ2を平面全体を表す
イメージとする。すなわち、ｘ（Ｓ2)＝Ｕsum，ｙ（Ｓ
2）＝Ｖsumと代入する（ステップ９４０）。そして、Ｘ
Ｘを介して図１９に移行する。

【００４１】図１９では、ＸＸから始まり、新たな条件
θを求め、このθに対する領域Ｓを計算する（ステップ
１４００）。このθは θ＝（ｙ（Ｓ2）−ｙ（Ｓ1））／（ｘ（Ｓ2）−ｘ（Ｓ
1））にて計算される。そして、Ｓ1＝Ｓ又はＳ2＝Ｓであるな
らば、（Ｓ1，Ｓ2）の間にはこれ以上凸包上の点は存在
しないので、コンフィデンスの高いＳ2が最良解として
出力され、処理を終了する（ステップ１４１０）。ま
た、ｘ（Ｓ）≒Ｕminであるならば、Ｓを出力し、処理
を終了する。

【００４２】ところが、ｘ（Ｓ）＜Ｕminであると（ス
テップ１４２０）、まだ処理が必要なので、Ｓ1＝Ｓと
して（ステップ１４４０）、ステップ１４００に戻る。
同様に、ｘ（Ｓ）＞Ｕminであるならば、Ｓ2＝Ｓとして
（ステップ１４３０）、ステップ１４００に戻る。

【００４３】これを繰り返すことにより解が見つけられ
る。図１７を参照すると、先に説明した最小限度のサポ
ートの右側、濃く塗られた部分に解の存在する範囲があ
る。そして、この図１７の場合には、凸包の内部の白丸
の点が厳密解となるが、本発明ではハンド・プローブに
て得られた近似解が出力される。

【００４４】（２）サポート最大化ルールの場合真偽をとる目的属性の値が真であるデータの割合がある
定められた値以上であって、含まれるデータ数（サポー
ト）が最大となるようなルールである。まず、ルールの
定義より、最小限度のコンフィデンスminconf（領域Ｒ
に包含されるデータ数に対する真偽をとる属性が真であ
るデータ数の割合）を入力する（図２０：ステップ１１
１０）。図１７の場合、最小限度のコンフィデンスと示
され、原点から引かれた点線がこれに該当する。まず、
領域Ｓ2を平面全体を表すものとする。すなわち、ｘ
（Ｓ2）＝Ｕsum，ｙ（Ｓ2）＝Ｖsumと代入する（ステッ
プ１１２０）。そして、minconf≦ｙ（Ｓ2）／ｘ（Ｓ
2）であるかを判断する（ステップ１１３０）。もしこ
の条件が成立するならば、Ｓ2を解として決定し（ステ
ップ１１６０）、処理を終了する（ステップ１１９
０）。条件が成立しないならば、θ＝１で領域Ｓ1を求
める（ステップ１１４０）。そして、minconf＞ｙ（Ｓ
1）／ｘ（Ｓ1）が成り立つかどうか判断する（ステップ
１１５０）。もし成り立つならば、解は存在せず、処理
を終了する。成り立たないならば、Ｙを介して図２４へ
移行する。

【００４５】図２１では、Ｙから処理が開始され、θ＝
（ｙ（Ｓ2）−ｙ（Ｓ1））／（ｘ（Ｓ2）−ｘ（Ｓ1））
として領域Ｓを求める（ステップ１２００）。この求め
られた領域Ｓに対し、（１）minconf≒ｙ（Ｓ）／ｘ
（Ｓ）が成立する場合には、このＳを出力して処理を終
了する（ステップ１２１０）。また、Ｓ1＝Ｓ若しくは
Ｓ2＝Ｓである場合には、これ以上Ｓ1とＳ2の間には解
は無いので、Ｓ1を最良解として出力し、処理を終了す
る（ステップ１２１０）。これに対し、minconf＜ｙ
（Ｓ）／ｘ（Ｓ）である場合には（ステップ１２２
０）、Ｓ1＝Ｓとしてステップ１２００に戻る（ステッ
プ１２３０）。また、minconf＞ｙ（Ｓ）／ｘ（Ｓ）で
ある場合には、Ｓ2＝Ｓとしてステップ１２００に戻る
（ステップ１２４０）。

【００４６】以上のようにして、サポート最大化ルール
が求められる。もう一度図１７に戻ると、先に説明した
最小限度のコンフィデンスとして示した点線より上の濃
く塗られた範囲に解が存在する。そして、この例では凸
包内の白丸の点が厳密解であるが、このように凸包内部
の点は見つけ出すのに膨大な計算量を必要とするので、
凸包上の点でサポートを最大にする近似解を出力するよ
うにしている。また、目的属性が数値属性である場合で
も、サポート最大化ルールを採用する場合もある。その
場合に、ｙ（Ｒ）には、領域Ｒに含まれるデータの目的
数値属性の値の和を用いる。

【００４７】（３）最適化エントロピ・ルールの場合最適化エントロピ・ルールとは、領域の内部と外部との
分割を考えた時、分割前の情報量と比較した分割後の情
報量の増分を最大化するルールである。よって、切り出
された領域と平面全体のエントロピのゲイン（以下の
式）が最大となる領域を発見すればよい。

【数４】このｘはｘ（Ｒ）、ｙはｙ（Ｒ）、ａはＵsum、ｂはＶs
umである。このような条件も、解は凸包上に存在するこ
とが分かったので、上述と同じような処理を用いること
ができる。よって、θを変化させ、数４を最大化する領
域を求めればよい。

【００４８】以下の条件（及び最適化エントロピー・ル
ール）はいずれも、領域Ｒ（＝ルールＲ）により分離さ
れるデータ集合における目的属性の値の分布が、元のデ
ータの分布といかに異なるのかを数値化したものであ
る。ここでは、ルールＲがデータ集合ＳをＳ₁とＳ₂（＝
Ｓ−Ｓ₁）に分割するとする。また、目的属性がｊ個の
離散的な値をとり、集合Ｓ内にｉ番目の値を有するデー
タがそれぞれｘ_i(Ｓ）個（ｉ＝１，．．．ｊ）存在する
とした場合、集合Ｓはｊ次元空間上のベクトルｘ（Ｓ）
で表わすことができる。同様に、ルールＲも同じｊ次元
空間上のベクトルｘ(Ｓ₁）で表わすことができ、以下、
データの分布を評価する評価関数はこれらのベクトルを
用いて表現する。なお、部分集合Ｓ₁内のｉ番目の値の
分布比率をｐ_i(Ｓ₁）＝ｘ_i(Ｓ₁）／｜Ｓ₁｜としてい
る。

【００４９】（４）ＧＩＮＩインデックス関数の最大化データ集合をあるルールＲで分割したとき、２つの値を
とる目的属性値の誤り率を最小化するために用いられ
る。評価関数の形式は以下のとおりである。

【数５】このようなＧＩＮＩインデックス関数を最大化する領域
Ｒは、図５に示したような平面において、インタークラ
スバリアンスを最大化するときと同じように、ハンドプ
ローブを行えばよい。すなわち、１つのプロービング・
パラメータθについて領域Ｒを計算し、その領域内外の
データについて数５の評価値を計算する。そしてθを変
化させて、数５の評価値が最大になるまで繰り返す。

【００５０】（５）カイ（χ）二乗関数の最大化データをあるルールＲで分割した時、元のデータ集合で
の、２値属性である目的属性値のデータ分布と分割後の
データ集合の目的属性の値データ分布に有意な差がな
い、という統計学でいう帰無仮説を最も強く否定するた
めに用いられる。評価関数の形式は以下のとおりであ
る。

【数６】この場合にも、プローピング・パラメータθを変化させ
て、各θごとに領域Ｒを切り出して、数６を最大化する
領域Ｒを見つけ出す。

【００５１】（６）インタークラス・バリアンス最大化目的属性が真偽をとる属性の場合でも、インタークラス
・バリアンスを最大化するルールを採用する場合があ
る。

【００５２】以上のような条件に従う領域ＲをルールＲ
として、決定木及びリグレッション・ツリーにおけるノ
ードを作成することができる。以下に、あるプロービン
グ・パラメータθが決まった時に領域Ｒを切り出すため
に行われる処理について説明する。

【００５３】ＡｐｐｅｎｄｉｘＡｘ単調な領域の切り
出しアルゴリズム図５に示したステップ１２２の平面の構成まで終了して
いるものとする。なお、各メッシュ・エレメントは、デ
ータ集合Ｄのうち、当該メッシュ・エレメント（ｉ，
ｊ）に属するタップルの数ｕ(i,j)（データ数とも言
う）、及び当該メッシュ・エレメントに属するタップル
の目的数値属性の和（目的属性が数値属性の場合）又各
メッシュ・エレメントに属するタップルの真偽をとる属
性の値が真であるタップルの総数（目的属性が真偽をと
る属性の場合）ｖ(i,j)のデータを格納している。な
お、図５の平面において、ｉは縦軸方向の座標値、ｊは
横軸方向の座標値を示していることに注意する。

【００５４】最初に、ｘ単調の領域について説明してお
く。図２２の左には、幅１のＹ軸方向に伸びる帯で切る
と必ず連結している例を示しており、このような領域を
ｘ単調な領域という。右には、先の帯で切ると連結して
いない例が示されており、これはｘ単調とは言えない。
このようなｘ単調の領域を切り出す問題は、Ｙ軸方向に
伸びる帯は必ず連結しているので、ダイナミックプログ
ラミングを用いて、それらを順々に連結していけば解く
ことができる。

【００５５】上で述べたようにハンドプローブを用いて
傾きθの直線を下ろしていくということは、直線ｙ＝θ
ｘ＋ＡのＹ切片であるＡを減少させることであり、言い
かえれば、図６の平面においてＡ＝ｙ（Ｒ）−θｘ
（Ｒ）を最大にするｘ（Ｒ）をＸ座標に有する点を求め
る問題となる。よって、

【数７】と変形される。但し、

【数８】ｇ（ｉ，ｊ）＝ｖ（ｉ，ｊ）−θｕ（ｉ，ｊ）

【００５６】では、この数７をどのように解くかを考え
る。基本的には先に述べたダイナミック・プログラミン
グを用いた手法を用いる。まず、ｍ列目より左のバケッ
トからなり、（ｍ，ｔ）の位置のバケットを含む領域を
考え、この中で目的関数である数８を最大化したものを
ｆ（ｍ，ｔ）とすると、以下の条件を満たす。すなわ
ち、

【数９】この数９のＡは、ｔ，ｌを含む連続区間（範囲）全体で
数９のＢを最大化する連続区間（範囲）Ｉを見つけるこ
とを意味する（図２３参照。図５と同じ平面）。

【００５７】このＩをｃｏｖｅｒ（ｔ，ｌ）と記述する
こととする。いま、ｔ≦ｌを仮定すると、次の定義され
るｌｏｗ（ｔ），ｈｉｇｈ（ｌ）を用いれば、

【数１０】となる。但し、ｌｏｗ（ｔ）は連続区間［ｉ，ｔ］全体
で数９のＢが最大となるｉであり、ｈｉｇｈ（ｌ）は連
続区間［ｌ，ｊ］全体で数９のＢが最大となるｊを言
う。

【００５８】このｌｏｗ（ｔ）やｈｉｇｈ（ｌ）はダイ
ナミック・プログラミング中では何度も用いられるの
で、ｌｏｗ（ｔ）やｈｉｇｈ（ｌ）を高速に求めること
ができれば有効である。このため、連続区間［ｉ，ｊ］
中の数９のＢが要素Ｋ（ｉ，ｊ）に入る行列Ｋを作る。
但し、ｉ＞ｊの場合にはＫ（ｉ，ｊ）＝（ｉ−ｊ）ｘ
（ｘは十分、その絶対値が大きい負の数。例えば、ｕ
（i,j)を全体について加算した値より絶対値が大きいな
らば十分である。）としておく。すると行番号ｌにおい
て最大値を有する列の列番号がｈｉｇｈ（ｌ）となる。
よって、すべてのｌ∈［１，Ｎ］についてｈｉｇｈ
（ｌ）を求める問題は、Ｋの各行の最大値の列番号を求
める問題となる。このような計算は、Ｏ（Ｎ）の計算量
で行える。最大値の列番号を求める場合に最大値かど
うかを判断するための行列の要素の比較を行う。

【００５９】このＫで各行の最大値に注目すると、行番
号が大きくなるにつれて最大値の列番号は単調に増加す
る。但し、同じ行に最大値が複数個ある時には、左端の
みを考える。このような行列を「単調な行列」と呼ぶ。
証明は省略するがこの行列Ｋは「完全単調な行列」（任
意の部分行列が単調行列であるような行列。）でもあ
る。単調な行列の全ての行の最大値を有する列番号を計
算するにはＯ（ＮｌｏｇＮ）の計算量が必要である。こ
の完全単調な行列の各行の最大値の列番号を求めるアル
ゴリズムは周知であり、例えば、「計算幾何学」浅野哲
夫著，朝倉書店，１９９０年９月の第４章「計算幾何学
の基本的技法」に記載されている。

【００６０】同様にしてｌｏｗ（ｔ）を計算する場合に
は、連続区間［ｉ，ｊ］中の数９のＢが要素Ｌ（ｊ，
ｉ）に入る行列Ｌを作り、行番号ｔにおける最大値を有
する列の列番号を求めれば、ｌｏｗ（ｔ）になる。今度
は上三角部分（ｉ＞ｊ）を−∞とする。このような行列
も完全単調な行列である。

【００６１】このようにして求めたｌｏｗ（ｔ）及びｈ
ｉｇｈ（ｌ）を用いれば、ｃｏｖｅｒ（ｔ，ｌ）が求ま
り、数９の変形である以下の式が計算可能となる。

【数１１】

【００６２】ｆ（ｍ，ｔ）を最大にするような、領域を
見い出すには、ｆ（ｍ，ｔ）の計算をＸ軸（図２３参
照。Ｘ，Ｙは２種類の数値属性に対応する軸）に垂直な
帯について順に行い、その帯を記憶しておき、それらを
連結すれば求まる。

【００６３】さらに高速化するには、

【数１２】を要素として有する行列Ｍを作り、行番号ｔの最大値が
ｆ（ｍ，ｔ）となる。Ｍは先に説明した完全単調な行列
であり、すべてのｔについてｆ（ｍ，ｔ）はＯ（Ｎ）で
計算することができる。よって、すべてのｍについてｆ
（ｍ，ｔ）を計算するには、Ｏ（Ｎ²）の計算量が必要
となる。

【００６４】以上詳細を述べたが、必要なステップを以
下に示しておく。（１）全てのＸ軸に垂直な帯についてｌｏｗ（ｔ），ｈ
ｉｇｈ（ｌ）を計算しておく。（２）ｌｏｗ（ｔ），ｈｉｇｈ（ｌ）によりｃｏｖｅｒ
（ｔ，ｌ）が求まるので、数１２を要素とする行列Ｍを
計算する。（３）行列Ｍの各行の最大値を求め、その値をｆ（ｍ，
ｔ）として記憶する。（４）切り出されるべき領域全体を把握するために、行
列Ｍの各行の列番号ｌをｓ（ｍ，ｔ）に入力する。（５）ｆ（ｍ，ｔ）を最大にするｍ，ｔを求め、（４）
で作ったｓ（ｍ，ｔ）及びｓ（ｍ，ｔ）に記憶されてい
るｌを用いて前列のｌｏｗ（ｔ），ｈｉｇｈ（ｌ）でも
って、領域を把握する。

【００６５】なお、ここではインタークラス・バリアン
ス値（又はその他の条件に当たる評価値）も求めなけれ
ばならないので、ｘ（Ｒ）及びｙ（Ｒ）（数１３及び数
１４参照）も必要である。この計算は、領域全体を求め
てから行ってもよいし、計算途中で途中経過を保持して
おくことも可能である。

【数１３】

【数１４】

【００６６】以上のステップを図２４及び図２５に示
す。ステップ６１０で開始した処理は、ステップ６２０
においてｍ＝１の初期化を行う。そしてｍ＝Ｎx＋１で
あるかを判断する（ステップ６３０）。これはループを
Ｎx回繰り返すためであり、Ｎxはｕ(i,j)とｖ(i,j)の列
数である。

【００６７】この後に、

【数１５】を計算しておき、この行列の各行の最大値を求め、その
列番号ｊをｈｉｇｈ（ｍ，ｉ）とする（ステップ６４
０）。これにより、前記平面（図２３）のｍ列目のｈｉ
ｇｈ（ｉ）が求まった。

【００６８】また、

【数１６】を計算しておき、この行列の各行の最大値を求め、その
列番号ｊをｌｏｗ（ｍ，ｉ）＝ｊとする（ステップ６５
０）。これにより、前記平面（図２３）のｍ列目のｌｏ
ｗ（ｉ）が求まった。

【００６９】その後にｍを１インクメントして（ステッ
プ６６０）、ステップ６３０に戻る。このように、まず
ｌｏｗとｈｉｇｈを最初にすべて計算しておく。図２５
の計算を実行するごとに必要なｌｏｗとｈｉｇｈを計算
するようにしてもよいが、この例のように一度に計算し
てしまってもよい。上述のように一度に計算した後に処
理はＸを介して図２５に進む。

【００７０】図２５においてＸから、ｆ（ｍ，ｔ）を計
算する。まず、図２３のような前記平面の一番左の列に
ついて処理する。すなわち、

【数１７】をｔ＝１からＮyについて計算する（ステップ７１
０）。Ｎyはｕ(i,j)とｖ(i,j)の行数である。このよう
にすると、数１２の第１項の初期値となるものが計算さ
れたこととなる。

【００７１】また、ｓ（１，ｔ）＝−１としておく、こ
れは、最初の列であるから、これ以上前の列には連結が
あり得ないことを明示するためである。

【００７２】そして、ｍ＝２以降の値を計算するため
に、ｍ＝２とし（ステップ７２０）、以下のループをＮ
x−１回まわすため、ｍ＝Ｎx＋１かどうか判断する（ス
テップ７３０）。もし、ｍ＝Ｎx＋１でなければ、ｆ
（ｍ−１，ｉ）（１≦ｉ≦Ｎ_y）に負の値が一つでもあ
る場合には、ｔ＝１からＮ_yまで、

【数１８】を計算する（ステップ７４２）。ここで、ｃｏｖｅｒ_m
（ｔ，ｔ）は、ｍ列目のｃｏｖｅｒ（ｔ，ｔ）の意味で
ある。そして、

【数１９】この行列Ｍの各行の最大値の列番号を求める（ステップ
７４４）。但し、その列ｉの最大値とｆ'（ｍ，ｉ）と
比較して大きい方をｆ（ｍ，ｉ）とする。そして、ｓ
（ｍ，ｔ）には、ｆ'（ｍ，ｔ）がＭのｔ行の最大値よ
りも小さいときにはｌを、そうでなければ−１を入れ
る。これは、前列までの連結を保存した方が切り出され
る領域の目的関数の値が大きくなるか、それとも前列ま
での連結を放棄した方が目的関数の値が大きくなるかと
いう判断をしているのである。

【００７３】このようにｓ（ｍ，ｔ）は連結状態を保存
するためにあるので、ある（ｍ，ｔ）が決まれば、ｓ
（ｍ，ｔ）を手繰って遡り、領域がどのように連結する
ものかを後にみることができる。

【００７４】この後に、ｍを１インクリメントし（ステ
ップ７５０）、ステップ７３０に戻る。繰り返しが全て
終われば、ｆ（ｍ，ｔ）を最大とするｍ，ｔが求まる。
ｆ（ｍ，ｔ）を作りながら、常に最大となるｍ，ｔを保
持しておき、新たに作成された部分につき保持している
ｍ，ｔより大きな点を見い出した場合には更新するよう
にしていけばよい。このｍ，ｔを用いて、ｓ（ｍ，ｔ）
から、前列のｌが求まる。このｌとｔのうち小さい方を
ｌｏｗに大きい方をｈｉｇｈに入力する。例えば、ｔの
方が小さければ、ｌｏｗ（ｍ，ｔ），ｈｉｇｈ（ｍ，
ｌ）が求まる。また、ｓ（ｍ−１，ｌ）から、さらに前
列のｌ'が求まるので、ｌｏｗ（ｍ−１，ｌ），ｈｉｇ
ｈ（ｍ−１，ｌ'）を求める。（ここでは、ｌの方がｌ'
より小さい。）これを繰り返していくと、イメージＳの
全体が分かる（ステップ７６０）。あるｓ（ｍ，ｔ）に
て−１が得られれば、その領域は終了する。これにて、
傾きθを入力した場合に、そのθに対応するｘ単調な領
域Ｒを得ることができたので、処理を終了する（ステッ
プ７７０）。

【００７５】なお、ベース単調の場合には、ｌｏｗ
（ｔ）（又はｈｉｇｈ（ｌ））を常に所定の値に固定す
れば、同様の処理にて求められる。

【００７６】ＡｐｐｅｎｄｉｘＢ直交凸領域の切り出しアルゴリズムこの処理は直交凸領域を先に作成した平面から切り出す
ものである。直交凸領域の例を図２６に示す。直交凸領
域は、（１）ｙ軸に平行な線との交わりが必ず連続か空
であって、且つ（２）ｘ軸に平行な線との交わりが必ず
連続か空な領域を言う。図２６の上側の領域は、ｙ軸に
平行な、いかなる線との交わりも連続か空であり、且つ
ｘ軸に平行な、いかなる線との交わりも連続か空である
ので直交凸領域であると言える。一方、図２６の下側の
領域は、ｘ軸に平行な線との交わりは必ず連続又は空で
あるが、ｙ軸に平行な線でとの交わりは連続でないもの
を含んでいる。よって、この領域は直交凸ではない。

【００７７】ｘ単調な領域の切り出しと前提は同じであ
るから、数７を解くことになる。ここでは、最初に、直
交凸領域の性質を領域内部のバケット同士の関係によっ
て表現する。Ｒをピクセル平面内の直交凸領域とする。
ｍ_l，ｍ_rをそれぞれＲの左端、右端の列番号とする。Ｒ
の第ｍ列（ｍ_l≦ｍ≦ｍ_r）の下端及び上端のピクセル番
号をそれぞれｓ（ｍ），ｔ（ｍ）とする。これらの位置
関係は図２７を参照するとよく分かる。第ｍ列の区間
［ｓ（ｍ），ｔ（ｍ）］の変化傾向を第ｍ−１列の区間
との比較によって次のように定義する。（ａ）Ｗ−Ｔｙｐｅ：広がり型（図２８左上）ｓ（ｍ−１）≧ｓ（ｍ），ｔ（ｍ−１）≦ｔ（ｍ）の場
合（ｂ）Ｕ−Ｔｙｐｅ：上昇型（図２８右上）ｓ（ｍ−１）≦ｓ（ｍ），ｔ（ｍ−１）≦ｔ（ｍ）の場
合（ｃ）Ｄ−Ｔｙｐｅ：下降型（図２８左下）ｓ（ｍ−１）≧ｓ（ｍ），ｔ（ｍ−１）≧ｔ（ｍ）の場
合（ｄ）Ｎ−Ｔｙｐｅ：狭まり型（図２８右下）ｓ（ｍ−１）≦ｓ（ｍ），ｔ（ｍ−１）≧ｔ（ｍ）の場
合

【００７８】ｍ＝ｍ_lの列は全変化傾向に属し、上の不
等式の等号が成り立つ場合、その列は複数の変化傾向に
同時に属する。上の定義から直交凸領域内のどの列の区
間も上の４種類のタイプのいずれかに属する。

【００７９】また、直交凸領域の性質から、ある変化傾
向の列の左隣の列の変化傾向は次の条件を満たす。すな
わち、（１）Ｗ−Ｔｙｐｅの左隣の列はＷ−Ｔｙｐｅである。（２）Ｕ−Ｔｙｐｅの左隣の列はＷ−Ｔｙｐｅ又はＵ−
Ｔｙｐｅである。（３）Ｄ−Ｔｙｐｅの左隣の列はＷ−Ｔｙｐｅ又はＤ−
Ｔｙｐｅである。（４）Ｎ−Ｔｙｐｅの左隣の列はＷ−Ｔｙｐｅ、又はＵ
−Ｔｙｐｅ、又はＤ−Ｔｙｐｅ、又はＮ−Ｔｙｐｅであ
る。

【００８０】このような条件を満たす領域は逆に言うと
直交凸領域であると言える。これらの条件は、図２９に
状態遷移図として示されている。図中のＷ，Ｕ，Ｄ，Ｎ
は、それぞれＷ−Ｔｙｐｅ、Ｕ−Ｔｙｐｅ、Ｄ−Ｔｙｐ
ｅ、Ｎ−Ｔｙｐｅであり、矢印を１つたどるごとに１つ
右隣の列の状態に遷移する。

【００８１】全ての直交凸領域は領域の右端の列の変化
傾向によって先に示した４つの種類に分類できる。ここ
で、４つの種類を総称してＸタイプ（Ｘ∈｛Ｗ，Ｕ，
Ｄ，Ｎ｝）と呼ぶ。列の区間のタイプと同様に、領域の
タイプも複数のタイプに同時に属する場合もある。

【００８２】また、右端が第ｍ列の区間［ｓ，ｔ］であ
るＸタイプの直交凸領域のゲインの最大値をｆ_m ^X(s,t)
と表す。そして、４つのタイプ領域のゲインのうち最も
大きいものを、ｆ_m(s,t)と表す。すなわち、

【数２０】である。このｆ_m(s,t)をｍ＝０，．．．Ｎ_x−１（∀
（ｓ≦ｔ））について求めて、それらの中で最大のもの
を選びだせば、それが先の平面内の全ての直交凸領域の
ゲインの最大値となる。

【００８３】この最大値を求めるために、ｍ＝０．．．
Ｎ_x−１に対して順番に、ｆ_m(s,t)（∀（ｓ≦ｔ））を
全て計算するという方針をとる。

【００８４】次にｍ＝０、すなわち第１列のｆ₀ ^X(s,t)
を計算する。この場合、全てのタイプで同一である。こ
れは、

【数２１】で求められる。

【００８５】そして、ｆ_m-1 ^X(s,t) （∀Ｘ∈｛Ｗ，Ｕ，
Ｄ，Ｎ｝，（∀（ｓ≦ｔ）））を求める。以下は、各タ
イプごとに説明する。

【００８６】（ａ）広がり型（Ｗ−Ｔｙｐｅ）の場合第ｍ列の区間［ｓ，ｔ］を最右端とする直交凸領域であ
って第ｍ列がＷ−Ｔｙｐｅである領域のゲインの最大値
ｆ_m ^W(s,t)は、以下の式により求められる。

【数２２】ここで、ｍａｘを求める時に、ｓ＝ｔの場合は数２２の
（１）（２）式だけで比較をし、大きい方の値を用い
る。その他の場合は（１）乃至（４）のすべてから最も
大きい値を用いる。

【００８７】数２２の（１）式は、第ｍ列の区間［ｓ，
ｔ］だけからなる領域（幅１の縦長の長方形）のゲイン
を表す。また（２）式は、第ｍ−１列がＷ−Ｔｙｐｅで
その区間が［ｓ，ｔ］、且つ第ｍ列も区間［ｓ，ｔ］で
右端となっている領域のうち最大のゲインを表す。これ
は、図３０（ａ）に表したような場合を示す。なお、直
交凸領域の性質から第ｍ列がＷ−Ｔｙｐｅであれば第ｍ
−１列がＷ−Ｔｙｐｅであることは決まる。

【００８８】また（３）式は、第ｍ−１列がＷ−Ｔｙｐ
ｅであって、その区間［ｓ（ｍ−１），ｔ（ｍ−１）］
が、ｓ（ｍ−１）≧ｓ，ｔ（ｍ−１）≦ｔ−１を満た
し、第ｍ列の区間［ｓ，ｔ］で右端という領域のうち最
大のゲインを示す。これは、図３０（ｂ）のような形状
を意味する。第ｍ−１列の上端は、ｔ−１以下であり、
下端はｓ以上である。（４）式は、第ｍ−１列がＷ−Ｔ
ｙｐｅであって、その区間［ｓ（ｍ−１），ｔ（ｍ−
１）］がｓ（ｍ−１）≧ｓ＋１，ｔ（ｍ−１）≦ｔを満
たし、第ｍ列の区間［ｓ，ｔ］で右端という領域のうち
最大のゲインを表す。これは、図３０（ｃ）のような形
状を意味する。第ｍ−１列の上端はｔ以下であり、下端
はｓ＋１以上である。（２）乃至（４）式は、Ｗ−Ｔｙ
ｐｅの左列はＷ−Ｔｙｐｅしかあり得ないということが
考慮されている。

【００８９】以上のｆ_m ^W(s,t)の計算を一列中の全ての
区間［ｓ，ｔ］に対して行う。この計算は図３１のアル
ゴリズムに従う。以上のように、第ｍ列が領域の右端で
第ｍ−１列からの変化傾向がＷ−Ｔｙｐｅという領域の
うち最大のゲインが得られる。

【００９０】（ｂ）上昇型（Ｕ−Ｔｙｐｅ）の場合最初に以下の式の値を求めておく。

【数２３】

【数２４】これは、図３２のようなアルゴリズムにて実行される。

【００９１】以上の計算を用いて、第ｍ列の区間［ｓ，
ｔ］を最右端とする直交凸領域であって第ｍ列がＵ−Ｔ
ｙｐｅである領域のゲインの最大値ｆ_m ^U(s,t)は、以下
の式により求められる。

【数２５】（１）乃至（３）式は、ｓ＝ｔの場合に比較に用いら
れ、その際（４）式は用いられない。

【００９２】数２５の（１）式は、第ｍ列の区間［ｓ，
ｔ］のみからなる領域（幅１の縦長の長方形）のゲイン
を表す。また、（２）式は、第ｍ−１列がＷ−Ｔｙｐｅ
であって、その区間［ｓ（ｍ−１），ｔ（ｍ−１）］
が、ｓ（ｍ−１）≦ｓ，ｔ（ｍ−１）＝ｔを満たし、第
ｍ列は区間［ｓ，ｔ］で右端という領域のうち最大のゲ
インを表す。これは、図３３（ａ）に示した形状の場合
であって、第ｍ−１列の下端の上限はｓである。

【００９３】（３）式は、第ｍ−１列がＵ−Ｔｙｐｅで
あって、その区間［ｓ（ｍ−１），ｔ（ｍ−１）］が、
ｓ（ｍ−１）≦ｓ，ｔ（ｍ−１）＝ｔを満たし、第ｍ列
は区間［ｓ，ｔ］で右端という領域のうち最大のゲイン
を表す。これは、図３３（ｂ）に示した形状の場合であ
って、第ｍ−１列の下端の上限はｓである。（４）式
は、第ｍ−１列がＷ−Ｔｙｐｅ又はＵ−Ｔｙｐｅであっ
て、その区間［ｓ（ｍ−１），ｔ（ｍ−１）］が、ｓ
（ｍ−１）≦ｓ，ｓ≦ｔ（ｍ−１）≦ｔ−１を満たし、
第ｍ列は区間［ｓ，ｔ］で右端という領域のうち最大の
ゲインを表す。これは、図３３（ｃ）に示した形状の場
合であって、第ｍ−１列の下端の上限はｓであり、また
上端の範囲はｓ以上ｔ−１以下である。（２）乃至
（４）式は、Ｕ−Ｔｙｐｅの左隣列はＷ−Ｔｙｐｅ又は
Ｕ−Ｔｙｐｅしかあり得ないということが考慮されてい
る。

【００９４】以上のｆ_m ^U(s,t)の計算を一列中の全ての
区間［ｓ，ｔ］に対して行う。この計算は、図３４に示
すアルゴリズムに従う。このように、第ｍ列が領域の右
端でそこの変化傾向がＵ−Ｔｙｐｅという領域のうち最
大のゲインが得られる。

【００９５】（ｃ）下降型（Ｄ−Ｔｙｐｅ）の場合最初に以下の式の値を計算しておく。

【数２６】

【数２７】これらの計算は、図３５に示されたアルゴリズムにより
実行される。（１）乃至（３）式は、ｓ＝ｔの場合に比
較に用いられ、その際（４）式は用いられない。

【００９６】以上の計算を用いて、第ｍ列の区間［ｓ，
ｔ］を最右端とする直交凸領域であって第ｍ列がＤ−Ｔ
ｙｐｅである領域のゲインの最大値ｆ_m ^D(s,t)は、以下
の式により求められる。

【数２８】

【００９７】数２８の（１）式は、第ｍ列の区間［ｓ，
ｔ］のみからなる領域（幅１の縦長の長方形）のゲイン
を表す。また、（２）式は、第ｍ−１列がＷ−Ｔｙｐｅ
であって、その区間［ｓ（ｍ−１），ｔ（ｍ−１）］
が、ｓ（ｍ−１）＝ｓ，ｔ（ｍ−１）≧ｔを満たし、第
ｍ列は区間［ｓ，ｔ］で右端という領域のうち最大のゲ
インを表す。これは、図３７（ａ）に示した形状の場合
であって、第ｍ−１列の上端の下限はｔである。

【００９８】（３）式は、第ｍ−１列がＤ−Ｔｙｐｅで
あって、その区間［ｓ（ｍ−１），ｔ（ｍ−１）］が、
ｓ（ｍ−１）＝ｓ，ｔ（ｍ−１）≧ｔを満たし、第ｍ列
は区間［ｓ，ｔ］で右端という領域のうち最大のゲイン
を表す。これは図３７（ｂ）に示した形状の場合であっ
て、第ｍ−１列の上端の下限はｔである。（４）式は、
第ｍ−１列がＷ−Ｔｙｐｅ又はＤ−Ｔｙｐｅであって、
その区間［ｓ（ｍ−１），ｔ（ｍ−１）］が、ｓ＋１≦
ｓ（ｍ−１）≦ｔ，ｔ（ｍ−１）≧ｔを満たし、第ｍ列
は区間［ｓ，ｔ］で右端という領域のうち最大のゲイン
を表す。これは図３７（ｃ）に示した形状の場合であっ
て、第ｍ−１列の上端の下限はｔであって、下端の範囲
はｓ＋１以上ｔ以下である。（２）乃至（４）式は、Ｄ
−Ｔｙｐｅの左隣列はＷ−Ｔｙｐｅ又はＤ−Ｔｙｐｅし
かあり得ないということが考慮されている。

【００９９】以上のｆ_m ^D(s,t)の計算を一列中の全ての
区間［ｓ，ｔ］に対して行う。この計算は図３５のアル
ゴリズムに従う。このようにして、第ｍ列が領域の右端
でそこの変化傾向がＤ−Ｔｙｐｅという領域のうち最大
のゲインが得られる。

【０１００】（ｄ）狭まり型（Ｎ−Ｔｙｐｅ）の場合第ｍ列の区間［ｓ，ｔ］を最右端とする直交凸領域であ
って第ｍ列がＮ−Ｔｙｐｅである領域のゲインの最大値
ｆ_m ^N(s,t)は、以下の式により求められる。

【数２９】ここで、ｍａｘを求める時、各式は式の後ろの条件を満
たす場合にのみ用いられる。すなわち、（６）式はｔ＞
Ｎ_y−１を満たす時のみ比較され、（７）式はｓ＞０を
満たす場合にのみ比較に用いられる。

【０１０１】数２９の（１）式は、第ｍ列の区間［ｓ，
ｔ］のみからなる領域（幅１の縦長の長方形）のゲイン
を表す。（２）式は、第ｍ−１列がＷ−Ｔｙｐｅであっ
て、その区間が［ｓ，ｔ］であり、第ｍ列は区間［ｓ，
ｔ］で右端という領域のうち最大のゲインを表す。これ
は図３８（ａ）に示した形状の場合である。（３）式
は、第ｍ−１列の区間［ｓ，ｔ］がＵ−Ｔｙｐｅであっ
て、第ｍ列は区間［ｓ，ｔ］で右端という領域のうち最
大のゲインを表す。これは図３８（ｂ）に示した形状の
場合である。（４）式は、第ｍ−１列の区間［ｓ，ｔ］
がＤ−Ｔｙｐｅであって、第ｍ列は区間［ｓ，ｔ］で右
端という領域のうち最大のゲインを表す。これは図３８
（ｃ）に示した形状の場合である。（５）式は、第ｍ−
１列の区間［ｓ，ｔ］がＮ−Ｔｙｐｅであって、その区
間［ｓ，ｔ］であり、第ｍ列は区間［ｓ，ｔ］で右端と
いう領域のうち最大のゲインを表す。これは図３８
（ｄ）に示した形状の場合である。

【０１０２】（６）式は、第ｍ−１列がＷ−Ｔｙｐｅ、
Ｕ−Ｔｙｐｅ、Ｄ−Ｔｙｐｅ又はＮ−Ｔｙｐｅであっ
て、その区間［ｓ（ｍ−１），ｔ（ｍ−１）］が、ｓ
（ｍ−１）≦ｓ，ｔ（ｍ−１）≧ｔ＋１を満たし、第ｍ
列は区間［ｓ，ｔ］で右端という領域のうち最大のゲイ
ンを表す。これは図３８（ｅ）に示した形状であって、
第ｍ−１列の上端の下限はｔ＋１であり、下端の上限は
ｓである。（７）式は、第ｍ−１列がＷ−Ｔｙｐｅ、Ｕ
−Ｔｙｐｅ、Ｄ−Ｔｙｐｅ又はＮ−Ｔｙｐｅであって、
その区間［ｓ（ｍ−１），ｔ（ｍ−１）］が、ｓ（ｍ−
１）≦ｓ−１，ｔ（ｍ−１）≧ｔを満たし、第ｍ列は区
間［ｓ，ｔ］で右端という領域のうち最大のゲインを表
す。これは図３８（ｆ）に示した形状であって、第ｍ−
１列の上端の下限はｔであり、下端の上限はｓ−１であ
る。

【０１０３】以上のｆ_m ^N(s,t)の計算を一列中の全ての
区間［ｓ，ｔ］に対して行う。この計算は次のアルゴリ
ズムに図３９に従う。このようにして、第ｍ列の区間
［ｓ，ｔ］が領域の右端でそこの変化傾向がＮ−Ｔｙｐ
ｅという領域のうち最大のゲインが得られる。

【０１０４】上述の（ａ）乃至（ｄ）の計算にて各列の
各［ｓ，ｔ］を右端とする領域の最大のゲインを計算す
ることができる訳であるが、それと同時に"領域"自体も
同時に記録しておく必要がある。これは、後の出力ステ
ップでは、この求められた直交凸領域内に含まれるデー
タを取り出すからである。

【０１０５】ここで、同じ最大値の領域が複数存在する
場合には、それらのうち先に見つかった方を解として取
り扱う。また、領域は縦方向の区間が横に並んだものと
して［ｓ（ｍ_l），ｔ（ｍ_l）］，．．．［ｓ（ｍ_r），ｔ
（ｍ_r）］のように表現する。１列はＮ_y行あるので、区間［ｓ，
ｔ］（ｓ≦ｔ）の総数はＮ_y（Ｎ_y＋１）／２個ある。各
区間［ｓ，ｔ］は１つの整数ｐに一対一対応させる。

【０１０６】例えば、次の関数ｈ（ｓ，ｔ）によって区
間［ｓ，ｔ］を１つの整数ｐ＝ｈ（ｓ，ｔ）に対応させ
ることができる。すなわち、

【数３０】である。

【０１０７】逆に、区間を表す整数ｐ（０≦ｐ≦Ｎ
_y（Ｎ_y＋１）／２）から区間［ｓ，ｔ］は、次のように
求められる。

【数３１】

【数３２】但し、このような計算はどの領域が最大のゲインを有す
るのかを決定する際には用いることはない。以後、
［ｓ，ｔ］は１つの整数と同一視して取り扱う。また、
上記数３０は一例にすぎず、他の関数を用いても問題な
い。

【０１０８】次に領域を記憶しておく配列を用意する。
これは、Ｎ_x×Ｎ_y（Ｎ_y＋１）／２の整数型２次元配列
であり、Ｗ，Ｕ，Ｄ，Ｎ−Ｔｙｐｅのそれぞれに対して
１つ用意する。この要素Ｈ^X(m,[s,t])（０≦ｍ≦Ｎ_x−
１，０≦[s,t]≦Ｎ_y（Ｎ_y＋１）／２，Ｘ∈｛Ｗ，Ｕ，
Ｄ，Ｎ｝）と表すこととする。

【０１０９】この要素Ｈ^X(m,[s,t])には、ゲインがｆ_m ^X
(s,t)の領域の第ｍ−１列の区間［ｘ，ｙ］と、第ｍ−
１列の第ｍ−２列からの変化傾向Ｙを表す数値を記憶す
る。以下、Ｈ^X(m,[s,t])＝Ｙ：［ｘ，ｙ］と表す。例え
ば、このＨ^X(m,[s,t])を整数型３２ビットで表現し、Ｙ
の部分を上位２ビット、残りの下位ビットを［ｘ，ｙ］
を表すのに用いる（図４０参照）。

【０１１０】但し、第ｍ列が領域の左端列である場合
に、第ｍ−１列にはつながらないことを表すために、こ
の下位ビットには領域の左端を表す値を入れる。例え
ば、先ほどの数３２で区間を表現する例では、この下位
ビットにＮ_y（Ｎ_y＋１）／２以上の値を入れるか又は２
９ビット目を領域の左端を表すフラグにすればよい。

【０１１１】では、最終的に最大のゲインを有する直交
凸領域を求める処理を図４１を用いて説明する。ステッ
プ１６００で開始された処理は、最初にｍ＝０として、
ｍを初期化する（ステップ１６１０）。次に、ｍ＝Ｎ_x
であるか判断する（ステップ１６２０）。これは、ｍが
Ｎ_xに達して、全ての列について以下の計算が終了した
かを判断するものである。もし、全ての列ｍについて計
算が終了していなければ、全ての［ｓ，ｔ］について、
Ｈ^W(m,[s,t])とｆ_m ^W(s,t)、Ｈ^U(m,[s,t])とｆ_m ^U(s,t)、
Ｈ^D(m,[s,t])とｆ_m ^D(s,t)、Ｈ^N(m,[s,t])とｆ_m ^N(s,t)を
計算し、その結果を記憶する。この計算の順番は任意で
ある。そして、各計算中それまでに計算されたゲインの
最大値より大きい値が計算されたならば、その値及びそ
のｍ，［ｓ，ｔ］，Ｘを記憶しておく（ステップ１６３
０）。

【０１１２】ここで、Ｈ^W(m,[s,t])とｆ_m ^W(s,t)の計算
は、先に示した数２２の計算を実施すればよい。よっ
て、Ｈ^W(m,[s,t]）は、数２２の（１）式が最大であれ
ば領域の左端を表す値、（２）式が最大であればＷ：
［ｓ，ｔ］，（３）式が最大であればＨ^W(m,[s,t-1])、
（４）式が最大であればＨ^W(m,[s+1,t])となる。以上の
ように、Ｈ^W(m,[s,t])のみを考えれば、前列である第ｍ
−１列は、必ずＷ−Ｔｙｐｅであるから、第ｍ−１列の
第ｍ−２列からの変化傾向は記憶する必要ない。

【０１１３】また、Ｈ^U(m,[s,t])とｆ_m ^U(s,t)の計算
は、先に示した数２５の計算を実施すればよい。よっ
て、Ｈ^U(m,[s,t])には、数２５の（１）式が最大であれ
ば領域の左端を表す値、（２）式が最大であればＷ：
［β_m-1 ^W(s,t)，ｔ］、（３）式が最大であればＵ：
［β_m-1 ^U(s,t)，ｔ］、（４）式が最大であればＨ^U(m,
[s,t-1])が記憶される。

【０１１４】Ｈ^D(m,[s,t])とｆ_m ^D(s,t)の計算は、先に
示した数２８の計算を実施すればよい。よって、Ｈ^D(m,
[s,t])には、数２８の（１）式が最大であれば領域の左
端を表す値、（２）式が最大であればＷ：［ｓ，τ_m-1 ^W
(s,t)］、（３）式が最大であればＤ：［ｓ，τ_m-1 ^D(s,
t)］、（４）式が最大であればＨ^D(m,[s+1,t])が記憶さ
れる。

【０１１５】最後に、Ｈ^N(m,[s,t])とｆ_m ^N(s,t)の計算
は、先に示した数２９の計算を実施すればよい。よっ
て、Ｈ^N(m,[s,t]）は、数２９の（１）式が最大であれ
ば領域の左端を表す値、（２）式が最大であればＷ：
［ｓ，ｔ］，（３）式が最大であればＵ：［ｓ，ｔ］、
（４）式が最大であればＤ：［ｓ，ｔ］、（５）式が最
大であればＮ：［ｓ，ｔ］、（６）式が最大であればＨ
^N(m,[s,t+1])、（７）式が最大であればＨ^N(m,[s-1,t])
となる。

【０１１６】ここまでで分かるように、すべてのｆ
_m ^X(s,t)を記憶しておく必要はない。第ｍ列の計算を実
施している時には、その第ｍ列と第ｍ−１列の計算結果
のみを用いる。よって、Ｗ，Ｕ，Ｄ，Ｎ−Ｔｙｐｅごと
に２列分の記憶容量があればよい。但し、余裕があれば
全て記憶しておいてもよい。

【０１１７】図４１のステップ１６３０を終了すると、
ｍを１インクリメントして（ステップ１６４０）、ステ
ップ１６２０に戻る。そして、この処理を全ての列につ
いて実施する。もし、全ての列について実施されたなら
ば、全ての列に関して最大のゲイン値を有していた領域
に関するｍ，［ｓ，ｔ］，Ｘから、Ｈ^X(m,[s,t]）を参
照し、その値Ｙ：［ｘ，ｙ］を取り出す（ステップ１６
５０）。ここまでの処理で、最右端列である第ｍ列と、
その列の区間［ｓ，ｔ］、第ｍ−１列とその区間［ｘ，
ｙ］が分かる。

【０１１８】次に、第ｍ−１列で領域は左端となる場合
もあるので、［ｘ，ｙ］が左端を表す値であるか判断さ
れる（ステップ１６６０）。左端であれば、ここで処理
は終了する（ステップ１６８０）。左端でなければ、Ｙ
をＸとして、［ｘ，ｙ］を［ｓ，ｔ］として、ｍ−１を
ｍとし（ステップ１６７０）、ステップ１６５０に戻
る。このように、［ｘ，ｙ］が左端を表す値となるま
で、この処理を繰り返せば、最大のゲイン値を有する直
交凸領域の各列の区間を得ることができる。

【０１１９】直交凸領域についてのインタークラス・バ
リアンス（又は他の条件に関する評価値）も、領域が求
まってから計算してもよいし、領域を求める途中で計算
結果を保持しておくようにすることも可能である。 #d ＡｐｐｅｎｄｉｘＣなお、データ数が少ない場合には、バケットの数を少な
くして、しらみつぶしに数３を最大化するような領域を
見つけだすことも可能である。

【０１２０】以上述べたアルゴリズムにて、平面から所
望の形状の領域Ｒを切り出すことができ、そして、その
領域ＲにてルールＲが構成できる。なお、以上の説明
は、図６の平面の上側の凸包についての処理であり、下
側の凸包については、先に述べたように数３で示した式
を最大化する代わりに最小化を行うことにより同様に求
めることができる。

【０１２１】以上、本発明における処理のプロセスを説
明した。このような処理プロセスは、コンピュータ・プ
ログラムによって実現し、実行するようにしてもよい。
例えば、図４２のような通常のコンピュータ・システム
において実行できるようなプログラムにすることもでき
る。処理プログラムは、ＨＤＤ１０５０に格納され、実
行時にはメインメモリ１０２０にロードされ、ＣＰＵ１
０１０によって処理される。また、ＨＤＤ１０５０はデ
ータベースをも含んでおり、処理プログラムはそのデー
タベースに対するアクセスを行う。図５の平面や切り出
された領域Ｒ，またリグレッション・ツリー又は決定木
は、表示装置１０６０によってユーザに提示される。ユ
ーザは、入力装置１０７０にてツリーの構成命令又は条
件決定や、データ出力の命令を入力する。このような入
力装置には、キーボードやマウス、ポインティング・デ
バイスやディジタイザを含む。さらに、出力結果を補助
記憶装置であるＦＤＤ１０３０のフロッピー・ディスク
に記憶したり、また新たなデータをＦＤＤ１０３０から
入力することもできる。さらに、ＣＤ−ＲＯＭドライブ
１０４０を用いて、データを入力することもできる。

【０１２２】さらに、本発明の処理プロセスを実現した
コンピュータ・プログラムは、フロッピー・ディスクや
ＣＤ−ＲＯＭといった記憶媒体に記憶して、持ち運ぶこ
とができる。この場合、通常のデータベース検索プログ
ラムのデータ取り出し部分や、表示装置１０６０に表示
するだけの処理を行うプログラムは、すでにＨＤＤ１０
５０に記憶されている場合もある。よって、それ以外の
部分が、上記のような記憶媒体にて流通することは通常
行われる事項である。また、図示されていない通信装置
がバス１０８０に接続されており、遠隔地にあるデータ
ベースを用いて処理したり、処理結果を遠隔地に送信す
るようにしてもよい。

【０１２３】また、本発明の処理プロセスを実行する特
別の装置を構成するようにしてもよい。その一例を図４
３に示す。この装置のツリー構成モジュール４００は、
データベース４０２及びハンド・プローブ・コントロー
ラ４０４に接続されている。ハンド・プローブ・コント
ローラ４０４は、平面構成モジュール４０６及び領域切
出モジュール１乃至３（４０８、４１０、４１２）に接
続されている。平面構成モジュール４０６は、領域切出
モジュール１乃至３に接続されている。

【０１２４】ツリー構成モジュール４００は、リグレッ
ション・ツリー又は決定木の構築に必要な全体的な処理
を実施する。そして、データベース４０２から必要なデ
ータと取り出し、ハンド・プローブ・コントローラ４０
４に出力する。また、ユーザからの評価関数等の条件の
指定も受信する。例えば、インタークラス・バリアンス
を最大化する、ＧＩＮＩインデックス関数を最大化する
等、上述した評価関数を指定する。ハンド・プローブ・
コントローラ４０４は、ハンド・プローブに必要なθの
設定等を実施する。さらに、形状指示を通じてユーザが
切り出そうとする形状の指定を受ける。ここでは、ｘ単
調な領域（領域切出モジュール１が担当）、ベース単調
な領域（領域切出モジュール２が担当）、直交凸領域
（領域切出モジュール３が担当）を選択することがで
き、ハンド・プローブ・コントローラ４０４が起動する
領域切出モジュールを指定する。平面構成モジュール４
０６は、ハンド・プローブ・コントローラ４０４からの
データを用いて、図５のような平面を構成し、各領域切
出モジュールに出力する。

【０１２５】以上の構成は一例であって、図４３のよう
なモジュール分けを必ず実施しなければならないわけで
はない。上述した処理を実施するようなモジュールを、
必要に応じて分けたり、統合したりすることができる。

【０１２６】

【効果】データの２つの述語数値属性に対応する２本の
軸により張られる平面からその境界が滑らかな領域を切
り出し、その領域をデータの目的属性の予想に利用でき
るようになった。

【０１２７】また、切り出された領域により、決定木又
はリグレッション・ツリーのノードを構成することもで
きた。

【０１２８】以下に実験結果を示す。表１がｘ単調な領
域切出アルゴリズムを使用した場合、表２が直交凸領域
切出アルゴリズムを使用した場合の結果を示す。そし
て、各表では、バケット単位で切り出した場合、図１１
の曲線化を使用した場合、図１２の曲線化を使用した場
合、の誤差Ｅｒｒ及びサイズＳｉｚｅ（ツリーの終端ノ
ードの数）を示している。誤差Ｅｒｒは、予想した値と
実際の値の平均自乗誤差を予測する値の分散で正規化し
た値である。これを見ると、図１２の曲線を用いると誤
差Ｅｒｒが小さくなっていることがわかる。よって、予
測精度の向上を図ることもできた。

【表１】

【表２】

【図面の簡単な説明】

【図１】リグレッション・ツリー構築処理の高レベルの
フローを示す図である。

【図２】リグレッション・ツリーの一例である。

【図３】２つの数値属性を取り扱う場合の分割ルールの
例である。

【図４】２次元領域切出しを実行する場合の高レベルの
フローを示す図である。

【図５】２つの数値属性により張られた平面を示す図で
ある。

【図６】ｘ（Ｒ）ｙ（Ｒ）平面を表す図である。

【図７】図６の平面上で凸包上の点を高速に求める方法
を説明するための図である。

【図８】図６の平面上で凸包上の点を高速に求める方法
の一例を示す図である。

【図９】図６の平面上で凸包上の点を高速に求める方法
の一例を示す図である。

【図１０】図６の平面上で凸包上の点を高速に求める方
法の一例を示す図である。

【図１１】スプライン曲線化の第１の例である。

【図１２】スプライン曲線化の第２の例である。

【図１３】スプライン曲線化の第１の例の特徴を説明す
るための図である。

【図１４】スプライン曲線化の第２の例の特徴を説明す
るための図である。

【図１５】スプライン曲線化の第１の例に関する処理フ
ローを説明するための図である。

【図１６】スプライン曲線化の第２の例に関する処理フ
ローを説明するための図である。

【図１７】ｘ（Ｒ），ｙ（Ｒ）平面の説明をするための
図である。

【図１８】コンフィデンス最大化ルールを導出するため
の処理の一部を示すための図である。

【図１９】コンフィデンス最大化ルールを導出するため
の処理の一部を示すための図である。

【図２０】サポート最大化ルールの導出するための処理
の一部を示すための図である。

【図２１】サポート最大化ルールの導出するための処理
の一部を示すための図である。

【図２２】ｘ単調な領域を説明するための図である。

【図２３】ｘ単調な領域を連結性を保ちつつ求める方法
を説明するための図である。

【図２４】ｘ単調な領域を切出すための方法の一例を示
す図である。

【図２５】ｘ単調な領域を切出すための方法の一例を示
す図である。

【図２６】直交凸領域を説明するための図である。

【図２７】直交凸領域の性質を説明するための図であ
る。

【図２８】直交凸領域の性質を説明するための図であ
る。

【図２９】直交凸領域の各列の状態遷移を表す図であ
る。

【図３０】Ｗ−Ｔｙｐｅにおける第ｍ列と第ｍ−１列の
関係を説明するため図であって、（ａ）は数２２の
（２）式、（ｂ）は（３）式、（ｃ）は（４）式を説明
するための図である。

【図３１】ｆ_m ^W(s,t)の計算順番を示した図である。

【図３２】Ｕ−Ｔｙｐｅの計算に用いる前処理のアルゴ
リズムを説明するための図である。

【図３３】Ｕ−Ｔｙｐｅにおける第ｍ列と第ｍ−１列の
関係を説明するための図であって、（ａ）は数２５の
（２）式、（ｂ）は（３）式、（ｃ）は（４）式を説明
するための図である。

【図３４】ｆ_m ^U(s,t)の計算順番を示した図である。

【図３５】Ｄ−Ｔｙｐｅの計算に用いる前処理のアルゴ
リズムを説明するための図である。

【図３６】Ｄ−Ｔｙｐｅにおける第ｍ列と第ｍ−１列の
関係を説明するための図であって、（ａ）は数２８
（２）式、（ｂ）は（３）式、（ｃ）は（４）式を説明
するための図である。

【図３７】ｆ_m ^D(s,t)の計算順番を示した図である。

【図３８】Ｎ−Ｔｙｐｅにおける第ｍ列と第ｍ−１列の
関係を説明するための図であって、（ａ）は数２９の
（１）式、（ｂ）は（３）式、（ｃ）は（４）式、
（ｄ）は（５）式、（ｅ）は（６）式、（ｆ）は（７）
式を説明するための図である。

【図３９】ｆ_m ^N(s,t)の計算順番を示した図である。

【図４０】Ｈ^X(m,[s,t])のデータ構造を示すための図で
ある。

【図４１】直交凸領域切り出しステップの処理フローを
表す図である。

【図４２】通常のコンピュータ・システムで本発明を実
施した場合の装置構成の一例を示す図である。

【図４３】本発明を専用の装置で実施した場合の機能ブ
ロック図の一例である。

【符号の説明】

１０１０ＣＰＵ１０２０メインメモリ１０３０ＦＤＤ１０４０ＣＤ−ＲＯＭドライブ１０５０ＨＤＤ１０６０表示装置１０７０入力デバイス４００ツリー構成モジュール４０２データベース４０４ハンド・プローブ・コントローラ４０６平面構成モジュール４０８領域切出モジュール１４１０領域切出モジュール２４１２領域切出モジュール３

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成１０年９月３０日

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】請求項９

【補正方法】変更

【補正内容】

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】請求項１１

【補正方法】変更

【補正内容】

【手続補正３】

【補正対象書類名】明細書

【補正対象項目名】００１３

【補正方法】変更

【補正内容】

【００１３】上で述べたスムージング処理は、領域の境
界のスプライン曲線化処理とすることも考えられる。ま
た、スムージング処理において、領域内の、第１の述語
数値属性に対応する軸に平行なストライプの、第２の述
語数値に対応する軸に平行な辺内に制御ポイントを設定
するステップを含むようにすることも考えられる。この
際、さらに、制御ポイントを通過する曲線を設定するス
テップ（例えば図１１）、又は隣接する制御ポイントを
結ぶ直線の中点を通過する曲線を設定するステップ（例
えば図１２）を実施するようにすることも考えられる。
境界をスプライン曲線にすることにより、予測精度が上
げられる。

【手続補正４】

【補正対象書類名】明細書

【補正対象項目名】００２２

【補正方法】変更

【補正内容】

【００２２】この領域切り出しの方法は、ハンドプロー
ブという手法によって行われる。この手法は、領域Ｒ内
のタップル数ｘ（Ｒ）と、領域Ｒ内のタップルの目的数
値属性の和（後に述べる目的属性が真偽をとる属性の場
合には、真偽をとる目的属性の値が真であるタップル
数）ｙ（Ｒ）とを２軸とする平面（図６）において、全
ての領域族Ｒに対する（ｘ（Ｒ），ｙ（Ｒ））からなる
点集合をＰ（図６の白及び黒丸）とし、Ｐの凸包をｃｏ
ｎｖ（Ｐ）（図６の黒丸）とした時に、凸包ｃｏｎｖ
（Ｐ）上の点を幾何学的手法で高速に計算する方法であ
る。このハンド・ブローブは、タッチング・オラクル
（Touching Oracle）、即ち「傾きθを持つ直線ｙ＝θ
ｘ＋Ａを仮定し、その直線が凸包ｃｏｎｖ（Ｐ）に接す
るようＹ切片Ａを最大化（又は最小化）させ、凸包との
接点を求める」ことにより、凸包を求める方法である。
プロービング・パラメータθはこの傾きθを意味する。

Claims

【特許請求の範囲】

【請求項１】データベース内のデータの目的属性に関連
し且つあるデータの前記目的属性値を予測するためのル
ールを決定する方法であって、前記データベース内のデータの第１及び第２の述語数値
属性に対応する２つの軸を有し且つＮ×Ｍ個のバケット
に分割されている平面の各バケットに対応して、当該バ
ケットに属するデータに関する値を記憶するステップ
と、前記平面から、所定の条件を満たす前記バケットの領域
を切り出す領域切出ステップと、切り出された前記バケットの領域の境界にスムージング
処理を施すステップと、前記スムージング処理後の領域により、前記あるデータ
の前記目的属性値を予測するためのルールを決定するル
ール決定ステップと、を含むルール決定方法。
【請求項２】前記バケットに属するデータに関する値
が、前記バケットに属するデータの数及び当該バケット
に属するデータの前記目的属性に関する値である請求項
１記載のルール決定方法。
【請求項３】前記目的属性が数値属性であり、前記目的属性に関する値が、前記バケットに属するデー
タの前記目的属性の数値の和である請求項２記載のルー
ル決定方法。
【請求項４】前記目的属性が真偽をとる属性であり、前記目的属性に関する値が、前記バケットに属するデー
タであって前記目的属性値が真であるデータの個数であ
る請求項２記載のルール決定方法。
【請求項５】前記所定の条件が、インタークラス・バリ
アンスを最大化することである請求項１記載のルール決
定方法。
【請求項６】前記所定の条件が、前記目的属性の離散値
のエントロピー・ゲインを最大化することである請求項
１記載のルール決定方法。
【請求項７】前記所定の条件が、前記目的属性の離散値
のＧＩＮＩインデックス関数値を最大化することである
請求項１記載のルール決定方法。
【請求項８】前記所定の条件が、前記目的属性の離散値
のカイ２乗値を最大化することである請求項１記載のル
ール決定方法。
【請求項９】前記目的属性が真偽をとる属性であり、前記所定の条件が、前記目的属性が真であるデータの割
合がある定められた値以上であって且つ含まれるデータ
数が最大となるように、又は最低限含まれるデータ数が
定められた場合に前記目的属性が真であるデータの割合
が最大となるように、することある請求項１記載のルー
ル決定方法。
【請求項１０】前記スムージング処理が、前記領域の境
界のスプライン曲線化処理である請求項１記載のルール
決定方法。
【請求項１１】前記スムージング処理が、前記領域を前記第１の述語数値属性に対応する軸に平行
な前記Ｎ本の重複のないストライプの、前記第２の述語
数値属性に対応する軸に平行な辺内に制御ポイントを設
定するステップと、を含む請求項１記載のルール決定方
法。
【請求項１２】前記スムージング処理が、前記制御ポイントを通過する曲線を設定するステップを
さらに含む請求項１１記載のルール決定方法。
【請求項１３】前記スムージング処理が、隣接する前記制御ポイントを結ぶ直線の中点を通過する
曲線を設定するステップをさらに含む請求項１１記載の
ルール決定方法。
【請求項１４】前記ルール決定ステップが、前記スムージング処理後の領域内部のデータに関するノ
ードと、前記領域外部のデータに関するノードとを追加
したツリーを作成するステップを含む請求項１記載のル
ール決定方法。
【請求項１５】データベース内のデータの目的属性に関
連し且つあるデータの前記目的属性値を予測するための
ルールを決定する装置であって、前記データベース内のデータの第１及び第２の述語数値
属性に対応する２つの軸を有し且つＮ×Ｍ個のバケット
に分割されている平面の各バケットに対応して、当該バ
ケットに属するデータに関する値を記憶する手段と、前記平面から、所定の条件を満たす前記バケットの領域
を切り出す手段と、切り出された前記バケットの領域の境界にスムージング
処理を施す手段と、前記スムージング処理後の領域により、前記あるデータ
の前記目的属性値を予測するためのルールを決定する手
段と、を含むルール決定装置。
【請求項１６】データベース内のデータの目的属性に関
連し且つあるデータの前記目的属性値を予測するための
ルールをコンピュータに決定させるプログラムを格納し
た記憶媒体であって、前記プログラムは、前記コンピュータに、前記データベース内のデータの第１及び第２の述語数値
属性に対応する２つの軸を有し且つＮ×Ｍ個のバケット
に分割されている平面の各バケットに対応して、当該バ
ケットに属するデータに関する値を記憶するステップ
と、前記平面から、所定の条件を満たす前記バケットの領域
を切り出すステップと、切り出された前記バケットの領域の境界にスムージング
処理を施すステップと、前記スムージング処理後の領域により、前記あるデータ
の前記目的属性値を予測するためのルールを決定するル
ール決定ステップと、を実行させる、記憶媒体。
【請求項１７】前記バケットに属するデータに関する値
が、前記バケットに属するデータの数及び当該バケット
に属するデータの前記目的属性に関する値である請求項
１６記載の記憶媒体。
【請求項１８】前記スムージング処理が、前記領域の境
界のスプライン曲線化処理である請求項１６記載の記憶
媒体。
【請求項１９】前記ルール決定ステップが、前記スムージング処理後の領域内部のデータに関するノ
ードと、前記領域外部のデータに関するノードとを追加
したツリーを作成するステップを含む請求項１６記載の
記憶媒体。