JP2003076937A

JP2003076937A - 結合ルールの抽出方法、抽出システムおよび結合ルール抽出プログラム

Info

Publication number: JP2003076937A
Application number: JP2001269895A
Authority: JP
Inventors: Shinichi Morishita; 真一森下; Jun Seze; 潤瀬々
Original assignee: Individual
Current assignee: Individual
Priority date: 2001-09-06
Filing date: 2001-09-06
Publication date: 2003-03-14

Abstract

(57)【要約】【課題】著しく高速に、相関している結合ルールを見
出す。【解決手段】各々がトランザクションに対応するアイ
テムセット間に形成される、条件と結論との間の結合ル
ールから、相関の高い結合ルールを抽出する方法におい
て、まず、トランザクション集合が空集合となるような
アイテムセットを抽出対象から除外して、探索空間を縮
小する。次いで、段階的に要素が追加されるようにアイ
テムセットが生成され、その際に、結合ルールの相関を
評価するためのニ変数の凸関数である評価関数ｆ（ｘ，
ｙ）を利用した上界値ｍａｘ｛ｆ（ｙ（Ｉ），ｙ
（Ｉ）），ｆ（ｘ（Ｉ）−ｙ（Ｉ），０）｝と閾値とを
比較することにより、当該アイテムセットと目的となる
アイテムセットとの間の相関が十分ありアイテムセット
が有意なものであるか否かが判断される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、データマイニング
に関し、特に、処理の高速化を図ったデータマイニング
手法に関する。

【０００２】

【従来の技術】結合ルール（アソシエーションルール）
は、近年非常に研究が盛んになっている。特に、結合ル
ールの自然科学、特に、遺伝子解析への適用が試みられ
ている。遺伝子解析のデータに対して結合ルールを適用
する場合に、２つの問題点がある。一点は、データが大
量になることである。たとえば、ヒト個々を特徴付ける
ＤＮＡ上の置換は、数百万個程度、ヒトの細胞数は６０
億にも達する。もう一点は、「サポート」、「コンフィ
デンス」といった指標が必ずしも最適とはいえない解を
導出してしまうことである。

【０００３】

【発明が解決しようとする課題】上記問題点を鑑みて、
本出願人らは、観測値と期待値との間のズレ具合を表す
指標であるχ^２値（ｃｈｉ（ｘ，ｙ））の上界を求め、
上界に満たないアイテムセットのスーパーセットを、結
合ルールの抽出対象から除外することにより枝刈りを実
現し、これにより、探索空間を小さくすることで処理時
間を短縮するという要請と、適切な解を求めることがで
きるという要請とを両立される手法を見出し（特願２０
００−３４６４５４）、これをApriori SMP（演繹的SM
P）と名付けた。このApriori SMPは、ＮＰ困難が示され
ている最適化問題にも現実的な時間で解答できるという
特徴を有する。

【０００４】しかしながら、Apriori SMPでは、探索空
間自体を小さくすることに関しては満足のいく結果が得
られたが、処理自体の高速化は容易ではないという問題
点があった。これは、統計値の非単調性に由来する。本
発明は、著しく高速に、相関している結合ルールを見出
すことができるシステムを提供することを目的とする。

【０００５】

【課題を解決するための手段】本発明の目的は、各々が
トランザクションに対応するアイテムセット間に形成さ
れる、条件と結論との間の結合ルールから、相関の高い
結合ルールを抽出する方法であって、１つのアイテムを
要素とするアイテムセットに関するトランザクションの
集合を生成するトランザクション生成ステップと、前記
トランザクション集合のうち、空集合を見出して、トラ
ンザクション集合が空集合となるようなアイテムセット
を、結合ルールの抽出対象から除外する第1の枝刈りス
テップと、前記アイテムセットに関して、結合ルールの
相関を評価するためのニ変数の凸関数である評価関数ｆ
（ｘ，ｙ）を利用して（ただし、ｘは、条件を満たすよ
うなトランザクションの数、ｙは結論を満たすようなト
ランザクションの数）、ｆ（ｙ（Ｉ），ｙ（Ｉ））およ
びｆ（ｘ（Ｉ）−ｙ（Ｉ），０）（ただし、Ｉは生成さ
れた新たなアイテムセット）を算出して、これらのうち
大きいものを上界値として取得する第1の評価関数演算
ステップと、前記上界値と所定の閾値とを比較する第1
の比較ステップと、前記上界値が所定の閾値よりも小さ
い場合に、前記アイテムセットを、結合ルールの抽出対
象から除外する第２の枝刈りステップと、アイテムセッ
トに関するトランザクションの集合を利用して、一方の
アイテムセットの要素に、他の１つのアイテムを要素と
するアイテムセットの要素を加えたような新たなアイテ
ムセットに関して、前記評価関数ｆ（ｘ，ｙ）を利用し
て、ｆ（ｙ（Ｉ），ｙ（Ｉ））およびｆ（ｘ（Ｉ）−ｙ
（Ｉ），０）（ただし、Ｉは生成された新たなアイテム
セット）を算出して、これらのうち大きいものを上界値
として取得する第２の評価関数演算ステップと、当該上
界値と所定の閾値とを比較する第２の比較ステップと、
前記上界値が所定の閾値より小さい場合に、前記新たな
アイテムセット、および、当該アイテムセットの要素
に、他のアイテムセットを加えたような全てのアイテム
セットを、前記結合ルールの抽出対象から除外する第３
の枝刈りステップと、前記第１の枝刈りステップ、前記
アイテムセット生成ステップ、第２の評価関数演算ステ
ップ、第２の比較ステップ、および、第３の枝刈りステ
ップを繰り返すことにより、前記閾値を超えた上界値を
もつようなアイテムセットを取得するステップと、前記
アイテムセットを条件とする結合ルールを、相関の高い
結合ルールとして出力するステップとを備えたことを特
徴とする結合ルールの抽出方法により達成される。

【０００６】本発明によれば、まずトランザクション集
合が空集合となるようなアイテムセットを抽出対象から
除外することにより、探索空間を縮小している。さら
に、段階的に要素が追加されるようにアイテムセットが
生成され、その際に、評価関数を利用した上界値と閾値
とを比較することにより、当該アイテムセットと目的と
なるアイテムセットとの間の相関が十分ありアイテムセ
ットが有意なものであるか否かが判断される。したがっ
て、アイテムセットを含む探索空間全体の走査を要する
ことなく、有意なものを見出すことができる。これによ
り、結合ルールにおける条件をなすアイテムセットのう
ち、適切なものを、著しく高速に見出すことが可能とな
る。

【０００７】好ましい実施態様においては、さらに、前
記閾値と、前記アイテムセットに関する評価関数ｆ（ｘ
（Ｉ），ｙ（Ｉ））の値である評価関数値とを比較する
ステップと、前記評価関数値が前記閾値よりも大きい場
合に、前記閾値として前記評価関数値を用いるステップ
とを備えている。このように、閾値を更新して行くこと
により、最も有意なアイテムセットを取り出すことがで
きる。また、処理にともなって閾値が大きくなることか
ら、探索空間をより小さくすることができ、これによ
り、処理時間をより短縮することが可能となる。

【０００８】より好ましい実施態様においては、前記第
1の評価関数演算ステップが、前記１つのアイテムを要
素とするアイテムセットＩについて、ｘ(Ｉ)＝｜ｔ(Ｉ)｜，ｙ(Ｉ)＝｜ｔ_ｐｏｓ(Ｉ)｜（ただし、ｔ(Ｉ)は、Ｉのトランザクション、ｔ_ｐｏｓ
(Ｉ)は、トランザクションに結論のアイテムが含まれて
いることを示す、正のトランザクション）を算出するス
テップと、前記算出された｜ｔ(Ｉ)｜および｜ｔ_ｐｏｓ
(Ｉ)｜を利用して評価関数値を算出するステップとを有
している。

【０００９】また、別の好ましい実施態様においては、
前記第２の評価関数演算ステップが、Ｑ（ただし、Ｑ
は、ｋ個のアイテムを要素とするアイテムセット）と、
Ｂ（ただし、Ｂは、１個のアイテムを要素とするアイテ
ムセット）に関して、ｔａｉｌ(Ｑ)＜ｈｅａｄ(Ｂ) （ここで、ｔａｉｌ(Ｑ)は、Ｑの末尾の要素、ｈｅａｄ
(Ｂ)は、Ｂの先頭の要素）を演算するステップと、前記
Ｂに関して、必要に応じて評価関数ｆ（ｘ，ｙ）を利用
して、ｆ（ｙ(Ｂ)，ｙ(Ｂ)）およびｆ(ｘ(Ｂ)−ｙ
(Ｂ)，０)を算出して、これらのうち大きいものを上界
値として取得するステップと、当該上界値と所定の閾値
とを比較するステップとを有し、前記上界値が所定の閾
値よりも大きい場合に、前記アイテムセットＱの要素
に、アイテムセットＢの要素を加えたような新たなアイ
テムセットに関して、所定の演算が実行され、その一
方、前記上界値が所定の閾値以下である場合には、アイ
テムセットＢを、第２の評価関数演算ステップにおける
処理対象から除外する。これは、セット枚挙木に沿って
段階的にアイテムセットを生成していくことを実現して
いる。

【００１０】また、さらに好ましい実施態様において
は、前記第２の評価関数演算ステップが、Ｑ（ただし、
Ｑは、ｋ個のアイテムを要素とするアイテムセット）
と、Ｂ（ただし、Ｂは、１個のアイテムを要素とするア
イテムセット）に関して、ｔ_ｐｏｓ(Ｎ)＝ｔ_ｐｏｓ(Ｂ)∩ｔ_ｐｏｓ(Ｑ) ｔ_ｎｅｇ(Ｎ)＝ｔ_ｎｅｇ(Ｂ)∩ｔ_ｎｅｇ(Ｑ) （ただし、Ｎ＝Ｑ∪Ｂ）を算出するステップと、上記演
算結果に基づき、アイテムセットＮに関して、評価関数
ｆ（ｘ，ｙ）を利用して、ｆ（ｙ(Ｎ)，ｙ(Ｎ)）および
ｆ(ｘ(Ｎ)−ｙ(Ｎ)，０)を算出して、これらのうち大き
いものを上界値として取得するステップと、当該上界値
と所定の閾値とを比較するステップと、前記上界値が所
定の閾値よりも大きい場合に、前記アイテムセットＮ
を、ｋ個のアイテムからなるアイテムセットとして登録
するステップとを有する。これにより、演繹的に、所望
のアイテムセットに関する上界値を算出することが可能
となる。また、本発明の目的は、上記ステップをコンピ
ュータに実行させることを特徴とするプログラムによっ
ても達成される。

【００１１】さらに、本発明の目的は、各々がトランザ
クションに対応するアイテムセット間に形成される、条
件と結論との間の結合ルールから、相関の高い結合ルー
ルを抽出するシステムであって、前記アイテムセットを
記憶するアイテムセット記憶手段と、前記アイテムセッ
ト記憶手段に記憶されたアイテムセットのうち、１つの
アイテムを要素とするアイテムセットを抽出して、当該
アイテムセットに関するトランザクションの集合を生成
するトランザクション生成手段と、前記トランザクショ
ン集合のうち、空集合を見出して、トランザクション集
合が空集合となるようなアイテムセットを、結合ルール
の抽出対象から除外する第1の枝刈り手段と、前記アイ
テムセットに関して、結合ルールの相関を評価するため
のニ変数の凸関数である評価関数ｆ（ｘ，ｙ）を利用し
て（ただし、ｘは、条件を満たすようなトランザクショ
ンの数、ｙは結論を満たすようなトランザクションの
数）、ｆ（ｙ（Ｉ），ｙ（Ｉ））およびｆ（ｘ（Ｉ）−
ｙ（Ｉ），０）（ただし、Ｉは生成された新たなアイテ
ムセット）を算出して、これらのうち大きいものを上界
値として取得する第1の評価関数演算手段と、前記上界
値と所定の閾値とを比較する第1の比較手段と、前記上
界値が所定の閾値よりも小さい場合に、前記アイテムセ
ットを、結合ルールの抽出対象から除外する第２の枝刈
り手段と、アイテムセットに関するトランザクションの
集合を利用して、一方のアイテムセットの要素に、他の
１つのアイテムを要素とするアイテムセットの要素を加
えたような新たなアイテムセットに関して、前記評価関
数ｆ（ｘ，ｙ）を利用して、ｆ（ｙ（Ｉ），ｙ（Ｉ））
およびｆ（ｘ（Ｉ）−ｙ（Ｉ），０）（ただし、Ｉは生
成された新たなアイテムセット）を算出して、これらの
うち大きいものを上界値として取得する第２の評価関数
演算手段と、当該上界値と所定の閾値とを比較する第２
の比較手段と、前記上界値が所定の閾値より小さい場合
に、前記新たなアイテムセット、および、当該アイテム
セットの要素に、他のアイテムセットを加えたような全
てのアイテムセットを、前記結合ルールの抽出対象から
除外する第３の枝刈り手段と、前記第１の枝刈り手段、
前記アイテムセット生成手段、第２の評価関数演算手
段、第２の比較手段、および、第３の枝刈り手段による
処理を繰り返すことにより取得された、前記閾値を超え
た上界値をもつようなアイテムセットを記憶する結果記
憶手段と、前記結果記憶手段に記憶されたアイテムセッ
トに基づき、当該アイテムセットを条件とする結合ルー
ルを、相関の高い結合ルールとして出力する出力手段と
を備えたことを特徴とするシステムによっても達成され
る。

【００１２】

【発明の実施の形態】［本発明の原理］以下、添付図面
を参照して本発明の実施の形態につき説明を加える。ま
ず、本発明による原理を簡単に説明する。まず、結合ル
ールおよびχ^２値について、図１を参照して説明する。
図１（ａ）は、ある結合ルールである「パン（ブレッ
ド）とバターの両方を購入した顧客は電池（バッテリ
ー）も購入する」の条件部、結合部、および、それぞれ
の否定を満たす顧客数、列および行の顧客の和を示す表
である。この表に基づき、サポートやコンフィデンス
や、このルールに対するχ^２値を算出することができ
る。

【００１３】χ^２値は、観測値と期待値との間のズレ具
合を表す指標である。ｙ（Ｉ）およびｘ（Ｉ）は、図１
（ｂ）のように定義され、χ^２値（ｃｈｉ（ｘ，ｙ））
は、（１）式、（２）式にしたがって求められる。

【数１】

【数２】

【００１４】本件出願人らは、任意のアイテムセットＩ
およびＪ（Ｊ⊇Ｉ）に関して、ｃｈｉ(ｘ(Ｊ)，ｙ(Ｊ)) ≦ｍａｘ｛ｃｈｉ(ｙ(Ｉ)，ｙ(Ｉ))，ｃｈｉ(ｘ(Ｉ)−ｙ(Ｉ)，０)｝・・・・・（３）が成立することを見出し、この知見に基づくアルゴリズ
ムであるApriori SMPを考案し、既に特許出願している
（特願２０００−３４６４５４）。本願では、より高速
な処理を目指して、ｃｈｉ（ｘ(Ｊ)，ｙ(Ｊ)）の上界を
利用しつつ、新たなアルゴリズムを考案した。

【００１５】まず、ＤＢ中に記憶されるデータの走査コ
ストを削減するための記憶構造につき説明を加える。こ
こで、結合ルール「Ｉ→Ｃ」において、固定した結論Ｃ
を、オブジェクティブ・アイテムと称し、これを「ｏｂ
ｊ」と表記する。したがって、上記結合ルールは、「Ｉ
→｛ｏｂｊ｝」と表すことができる。たとえば、図１
（ａ）の例では、「バッテリーを購入したこと（バッテ
リー＝１）」がオブジェクティブ・アイテムとなる。ま
た、図１（ａ）の例において、各消費者が、「ブレッ
ド」、「バター」のうち何を購入したかを示す情報が、
それぞれ、トランザクションとなる。

【００１６】図２（ａ）〜図２（ｃ）は、個々のトラン
ザクションに関するデータベースの構造例を示す図であ
る。ここでは、トランザクションＩＤにて特定される個
々の消費者が購入した商品（アイテム）が示されてい
る。図２（ａ）は、ビット−ベクトルレイアウトにて、
各トランザクションＩＤにて特定される消費者が購入し
た商品のＩＤ、および、オブジェクティブ・アイテムの
（購入の）有無が示されている。図２（ｂ）は、水平レ
イアウト（Horizontal Layout）の例であり、各トラン
ザクションＩＤにて特定される消費者が購入した商品
を、アイテムセットにて表している。ビット−ベクトル
レイアウトは、購入の有無を１／０のビットにて表して
いるため、データがスパースになる傾向がある。

【００１７】本発明においては、図２（ｃ）に示す垂直
レイアウト（Vertical Layout）を採用している。ここ
では、商品つまりアイテムごとの、購入した消費者のト
ランザクションＩＤの集合（トランザクションセット）
が表されている。たとえば、アイテムＩＤ「ａ」のトラ
ンザクションセットは、｛２，４，５｝となる。これに
対して、アイテムＩＤ「ｂ」に関しては、購入者がいな
いため、トランザクションセットは｛｝（空集合）とな
る。以下、ｔがトランザクションセットを表しているも
のとし、あるアイテムセットＩが含まれるトランザクシ
ョンセットを、ｔ（Ｉ）と表すと、ｔ（Ｉ）は、以下の
ように表すことができる。

【００１８】ｔ（Ｉ）＝｛Ｔ｜Ｔはトランザクション、かつ、Ｉ⊆Ｔ｝・・・（４）また、あるトランザクションｔに、結論となるアイテム
である「ｏｂｊ」が含まれているときに、このトランザ
クションが正であると称し、含まれていない場合には、
負であると称する。つまり、ｔ_ｐｏｓ＝｛Ｔ∈ｔ｜Ｔは正のトランザクション｝・・・（５）ｔ_ｎｅｇ＝｛Ｔ∈ｔ｜Ｔは負のトランザクション｝・・・（６）

【００１９】上記定義を用いると、Ｔ_ｐｏｓは、Ｉ∪
｛ｏｂｊ｝に対応する。よって、アイテムセットＩに対
するｘ（Ｉ）およびｙ（Ｉ）は、以下のように表すこと
ができる。ｘ（Ｉ）＝｜ｔ（Ｉ）｜，ｙ（Ｉ）＝｜ｔ_ｐｏｓ（Ｉ）｜・・・（７）たとえば、図２（ｃ）において、ｔ＝｛１，２，３，
４，５｝とすると、ｔ（｛ａ｝）＝｛２，４，５｝、ｔ
_ｐｏｓ（｛ａ｝）＝｛２，４｝、Ｔ_ｎｅｇ（｛ａ｝）＝
｛５｝となる。

【００２０】ここで、ｔ（Ｉ）が空集合であるときに、
ｘ（Ｉ）およびｙ（Ｉ）について、ｘ（Ｉ）＝｜ｔ（Ｉ）｜＝０，ｙ（Ｉ）｜ｔ_ｐｏｓ（Ｉ）｜＝０・・・（８）である。ところで、ｃｈｉ（０，０）は、任意のｘ、ｙ
に関して、ｃｈｉ（０，０）≦ｃｈｉ（ｘ，ｙ）である
から、アイテムセットＩに関して、ｔ（Ｉ）が空集合で
あるなら、当該アイテムセットＩに関する結合ルールＩ
→Ｃは、有意ではないと考えることができ、アイテムセ
ットＩを削除することができる。

【００２１】本発明においては、ｔ（Ｉ）が空集合のア
イテムセットが作成されたときに（図２（ｃ）の符号２
０１、２０２参照）、これを削除するようなアルゴリズ
ムを採用している。

【００２２】次に、垂直レイアウトにおけるアイテムセ
ットの作成につき説明を加える。ここでは、アイテムセ
ットＩ_１、Ｉ_２について、ｔ（Ｉ_１）およびｔ（Ｉ_２）
が得られている場合のｔ（Ｉ_１∪Ｉ_２）を求める点を説
明する。Iをアイテムセットとすると、ｔ（Ｉ）＝ｔ_ｐｏｓ（Ｉ）∪ｔ_ｎｅｇ（Ｉ）ｔ_ｐｏｓ（Ｉ）＝ｔ（Ｉ）∪ｔ_ｐｏｓ（Ｉ）ｔ_ｎｅｇ（Ｉ）＝ｔ（Ｉ）−ｔ_ｐｏｓ（Ｉ）・・・（９）が成立する。

【００２３】図３は、段階的なアイテムセットを説明す
るための図である。図３（ａ）において、ｔ＝｛１，
２，３，４，５｝として、アイテムセット｛ａ｝に着目
する。式（９）にしたがって、以下の式が成り立つ。ｔ（｛ａ｝）＝ｔ_ｐｏｓ（｛ａ｝）∪ｔ_ｎｅｇ（｛ａ｝）＝｛２，４，５｝ｔ_ｐｏｓ（｛ａ｝）＝｛２，４，５｝∪｛２，４｝ｔ_ｎｅｇ（｛ａ｝）＝｛２，４，５｝−｛２，４｝＝｛５｝次に、ｔ_ｐｏｓ（Ｉ_１∪Ｉ_２）を考える。ｔ_ｐｏｓ（Ｉ_１∪Ｉ_２）＝｛Ｔ∈ｔ_ｐｏｓ｜（Ｉ_１∪Ｉ_２）⊆Ｔ｝＝｛Ｔ∈ｔ_ｐｏｓ｜Ｉ_１∈Ｔ｝∩｛Ｔ∈ｔ_ｐｏｓ｜Ｉ_２⊆Ｔ｝＝ｔ_ｐｏｓ（Ｉ_１）∩ｔ_ｐｏｓ（Ｉ_２）・・・（１０）同様に、ｔ_ｎｅｇ（Ｉ_１∪Ｉ_２）についても、ｔ_ｎｅｇ（Ｉ_１∪Ｉ_２）＝ｔ_ｎｅｇ（Ｉ_１）∩ｔ_ｎｅｇ（Ｉ_２）・・・（１１）が成り立つ。

【００２４】たとえば、図３（ｂ）に示すように、
｛ａ｝および｛ｃ｝に関して、アイテムセットが得られ
ている状態であれば、図３（ｃ）に示すように、｛ａ，
ｃ｝に関するアイテムセットを以下のように得ることが
できる。ｔ_ｐｏｓ（｛ａ，ｃ｝）＝ｔ_ｐｏｓ（｛ａ｝）∩ｔ
_ｐｏｓ（｛ｃ｝）＝｛２，４｝∩｛２，４｝＝｛２，
４｝ｔ_ｎｅｇ（｛ａ，ｃ｝）＝ｔ_ｎｅｇ（｛ａ｝）∩ｔ
_ｎｅｇ（｛ｃ｝）＝｛５｝∩｛１｝＝｛｝このようにして、Ｉ_１およびＩ_２に基づき、Ｉ_１∪Ｉ_２
を求めることができる。したがって、要素が１つのアイ
テムセットを求めておけば、演繹的に、全てのアイテム
セットが計算され得ることが理解できるであろう。

【００２５】また、本発明においては、セット枚挙木(S
et-Enumeration Tree)を利用して、全てのアイテムセッ
トを枚挙する手法を採用している。あるアイテムセット
Ｂ＝｛｛ａ｝，｛ｂ｝，｛ｃ｝，｛ｄ｝｝を考える。Ｂ
の各アイテムが順序付きの集合であるとする。まず、木
の根として空集合｛｝を用意する。あるセット枚挙木中
のノード（アイテムセット）Ｎに対して、Ｂ中のあるア
イテムを追加し、その子ノードを作る。ただし、追加す
るアイテムは、Ｎ中の最大アイテムより大きいものを追
加する。

【００２６】たとえば、図４に示すように、アイテムセ
ット｛ａ，ｂ，ｃ｝を作る際に、空集合｛｝から始ま
り、子ノード｛ａ｝が作られ、これに要素「ｂ」が加え
られて、｛ａ，ｂ｝が作られ、さらに、これに要素
「ｃ」が加えられて、アイテムセット｛ａ，ｂ，ｃ｝が
得られる。つまり、セット枚挙木においては、木の根か
ら始まり、全てのノードには、それに至るまでの道が一
意的に決まる。上述したように、｛ａ，ｂ，ｃ｝を作り
出すために、一意的な道筋が決まっている。したがっ
て、｛ａ，ｂ｝および｛ａ，ｃ｝からも、｛ａ，ｂ｝と
｛ｂ，ｃ｝からもアイテムセット｛ａ，ｂ，ｃ｝が作ら
れるという自体が生じ得ない。したがって、より簡単な
操作で、全てのアイテムセットを作成することが可能と
なる。

【００２７】次に、枝刈りの原理について説明を加え
る。ここで、アイテムセットのアイテムが全順序で並ん
でいるとする。また、Ｉをｍ−アイテムセットとする。
ここに、ｍ−アイテムセットとは、ｍ個のアイテムを含
んだアイテムセットをいう。たとえば、２−アイテムセ
ットは、｛ａ，ｂ｝であり、３−アイテムセットは、
｛ａ，ｂ，ｃ｝である。また、ｂｒａｎｃｈ（Ｉ）を、
以下のように定義する。ｂｒａｎｃｈ（Ｉ）＝｛ｍ−アイテムセットＩと始めの
ｍ個のアイテムが一致するアイテムセット｝このｂｒａｎｃｈ（Ｉ）を、Ｉを根とする枝と称する。

【００２８】図４の例においては、ｂｒａｎｃｈ（｛ａ，ｂ｝）＝｛｛ａ，ｂ｝，｛ａ，
ｂ，ｃ｝，｛ａ，ｂ，ｃ，ｄ｝，｛ａ，ｂ，ｄ｝｝となる。ここで、ｂｒａｎｃｈ（Ｉ）は、Ｉのスーパー
セットではないことに注意されたい。たとえば、｛ａ，
ｂ｝は、ｂｒａｎｃｈ｛ａ｝に含まれるが、ｂｒａｎｃ
ｈ｛ｂ｝には含まれない。さて、（３）式に示すよう
に、任意のアイテムセットに関して、ｃｈｉ（ｘ
（Ｊ），ｙ（Ｊ））（ただし、Ｊ⊇Ｉ）が成立すること
は先に述べた。したがって、ｕ（Ｉ）＝ｍａｘ｛ｃｈｉ(ｙ(Ｉ)，ｙ(Ｉ))，ｃｈｉ(ｘ(Ｉ)−ｙ(Ｉ)，０)｝・・・（１２）を定義すると、全てのＪ（⊇Ｉ）に関して、ｃｈｉ（ｘ
（Ｊ），ｙ（Ｊ））が、ｕ（Ｉ）で押さえられることが
わかる。

【００２９】本発明においては、（１２）式を利用し
て、セット枚挙木を作りながら枝刈りを行っている。

【００３０】いま、アイテムセットＩを根にして作られ
るｂｒａｎｃｈ（Ｉ）に含まれるアイテムセットＪを考
える。Ｊ⊇Ｉであるから、もしある閾値τについて、τ
＞ｕ（Ｊ）が成り立つなら、全てのＪに関して、τ＞ｕ
（Ｉ）が成立する。図５において、１−アイテムセット
である｛ａ｝、｛ｂ｝、｛ｃ｝および｛ｄ｝を作成した
後に、｛ａ，ｃ｝を作成しようとした際に、τ＞ｕ
（ｃ）となっていたとする。この場合には、｛ｃ｝（符
号５０１参照）が削除され、同様に、ｂｒａｎｃｈ
（｛ｃ｝）（符号５０２参照）も削除される。さらに、
τ＞ｕ（｛ｃ｝）≧ｕ（｛ａ，ｃ｝）であるため、
｛ａ，ｃ｝およびｂｒａｎｃｈ（｛ａ，ｃ｝）も同様に
削除することができる（符号５０３、５０４参照）。こ
のようにして、セット枚挙木の作成および枝刈りを行う
ことにより、探索空間のサイズを著しく小さくすること
ができ、これにより、処理時間を飛躍的に減少すること
ができた。

【００３１】［システム構成］以下、上記原理を適用し
た結合ルールシステムにつき、より詳細に説明を加え
る。図６は、本実施の形態にかかる結合ルール抽出シス
テムの構成を示すブロックダイヤグラムである。図６に
示すように、結合ルール抽出システム１０は、入力装置
１２と、結合ルールを抽出する処理をシステムに実行さ
せるためのプログラムを記憶したプログラム記憶部１４
と、プログラムにしたがって、各構成部分の作動を制御
する制御部１６と、処理対象となるデータを蓄積したデ
ータベース（ＤＢ）１８と、垂直レイアウトにしたがっ
た初期的データを生成する初期的データ生成部２０と、
セット枚挙木にしたがったアイテムセットを生成すると
ともに枝刈りを実行するアイテムセット生成／枝刈り処
理部２２と、枝刈りの結果にしたがって有意なルールを
見出すルール抽出／出力部２６と、得られたルールを蓄
積するルール記憶部２８と、表示装置３０と、プリンタ
３２とを有している。

【００３２】上記結合ルール抽出システム１０は、たと
えば、パーソナルコンピュータに、ＣＤ−ＲＯＭやＤＶ
Ｄ−ＲＯＭに収容されたプログラムを読み込むことによ
り、或いは、インターネットなどを介して外部のサーバ
から、プログラムをダウンロードすることにより実現さ
れる。

【００３３】図７は、上記結合ルール抽出システム１０
における処理の概略を示すフローチャートである。結合
ルール抽出システム１０の初期的データ生成部２０は、
まず、χ^２値の上界を示す閾値τを初期化（τ＝０）と
ともに、演算処理に用いるパラメータｋを初期化（ｋ＝
１）する（ステップ７０１）。次いで、不要なアイテム
セットの削除を含めた１−アイテムセットが生成される
（ステップ７０２）。

【００３４】図８は、ステップ７０２の処理をより詳細
に示すフローチャートである。図８に示すように、初期
的データ生成部２０は、ＤＢ１８から、１−アイテムセ
ットであり、かつ、空でないようなＩの集合｛Ｉ｜Ｉ：
１アイテムセット、かつ、ｔ（Ｉ）≠φ｝から、ある要
素Ｎを抽出し（ステップ８０１）、そのトランザクショ
ンであるｔ_ｐｏｓ（Ｎ）およびｔ_ｎｅｇ（Ｎ）を算出す
る（ステップ８０２）。

【００３５】本発明の原理で述べた例（以下、単に「先
の例」と称する。）において、Ｎ∈｛｛ａ｝，｛ｂ｝，
｛ｃ｝｝であり、たとえば、｛ａ｝が抽出され、ｔ
_ｐｏｓ（｛ａ｝）＝｛２，４｝およびｔ
_ｎｅｇ（｛ａ｝）＝｛５｝が算出される。次いで、（１
２）式にしたがったｕ（Ｎ）が算出される（ステップ８
０３）。ｕ（Ｎ）＝ｍａｘ｛ｃｈｉ(ｙ(Ｎ)，ｙ(Ｎ))，ｃｈｉ
(ｘ(Ｎ)−ｙ(Ｎ)，０)｝ここでは、（７）式にしたがって、ｘ(Ｎ)＝｜ｔ(Ｎ)｜、ｙ(Ｎ)＝｜ｔ_ｐｏｓ(Ｎ)｜が利用される。

【００３６】次いで、初期的データ生成部２０は、算出
されたｕ（Ｎ）が、閾値τ以上であり、かつ、正である
か否かを判断する（ステップ８０４）。ステップ８０４
においてイエス(Yes)と判断された場合には、Ｎがアイ
テムセットＱ_１の要素に追加される（ステップ８０
５）。また、閾値τと、ｃｈｉ(ｘ(Ｎ)，ｙ(Ｎ))とが比
較され、後者が大きい場合には、閾値τがその値に更新
される（ステップ８０６）。上記ステップ８０１〜８０
６の処理は、全てのＮ∈｛Ｉ｝について実行される。

【００３７】この処理により、垂直レイアウトにおける
ｔ(Ｉ)＝｛｝であるようなアイテムセットが除去され、
また、ｕ(Ｎ)が閾値τ以下であるようなアイテムセット
の枝刈りも実現できる。

【００３８】先の例において、Ｎ∈｛｛ａ｝，｛ｃ｝，
｛ｅ｝｝である。ｔ(｛ｂ｝)＝ｔ(｛ｄ｝)＝｛｝であ
り、これらは、ステップ８０１において抽出されるアイ
テムセットから除外される。また、Ｎ＝｛ａ｝に関し
て、ｔ≦ｕ（Ｎ）かつ０＜ｕ（Ｎ）を満たすことを確認
した上で、Ｎ＝｛ａ｝を、Ｑ_１の要素とする。これによ
り、Ｑ_１＝｛｛ａ｝｝となる。

【００３９】また、Ｎ＝｛ｃ｝に関しても、同様に、ｔ
_ｐｏｓ（｛ｃ｝）＝｛２，４｝およびｔ
_ｎｅｇ（｛ｃ｝）＝｛１｝が算出された後、ｕ（Ｎ）が
算出され、ステップ８０４にてｕ（Ｎ）と閾値等とが比
較される。ここでも、τ≦ｕ（Ｎ）かつ０＜ｕ（Ｎ）を
満たすため、Ｑ_１＝｛｛ａ｝，｛ｃ｝｝となる。Ｎ＝
｛ｅ｝に関しても、同様に、ｔ_ｐｏｓ（｛ｅ｝）＝｛｝
およびｔ_ｎｅｇ（｛ｅ｝）＝｛１，３｝が算出された
後、ｕ（Ｎ）が算出され、ステップ８０４にてｕ（Ｎ）
と閾値等とが比較される。しかしながら、ここでは、τ
≦ｕ（Ｎ）かつ０＜ｕ（Ｎ）という条件を満たさないた
め、最終的に、Ｑ_１＝｛｛ａ｝，｛ｃ｝｝が得られる。

【００４０】このようにして、アイテムセットＱ_１およ
び閾値τからなる初期的データの組（Ｑ_１，τ）が得ら
れると、これがデータ一時記憶部２４に記憶される。次
いで、アイテムセット生成／枝刈り処理部２２が起動さ
れ、データの組（Ｑ_１，τ）を利用して、アイテムセッ
トの生成および枝刈りが実行される。アイテムセット生
成／枝刈り処理部２２は、パラメータｋ＝１に設定する
とともに、枝刈りのために用いるアイテムセットＢ
_１を、初期的にＱ_１に設定する。次いで、パラメータｋ
に関して、アイテムセットの生成および枝刈り処理が実
行される（ステップ７０４）。図９は、ステップ７０４
をより詳細に示すフローチャートである。ここでは、ま
ず、ｔａｉｌ（Ｑ）＜ｈｅａｄ（Ｂ）であるような、Ｑ
∈Ｑ_ｋ，Ｂ∈Ｂ_１が抽出される（ステップ９０１）。こ
れは、アイテムセットを生成する際に、セット枚挙木に
したがったアイテムセットの生成を実現するためのステ
ップであり、これにより、｛｛ｂ｝，｛ｃ｝｝というア
イテムセットから、｛｛ａ｝，｛ｂ｝，｛ｃ｝｝という
アイテムセットが作られることを防止できる。

【００４１】次いで、アイテムセット生成／枝刈り処理
部２２は、Ｂに関して、ｕ（Ｂ）＝ｍａｘ｛ｃｈｉ(ｙ(Ｂ)，ｙ(Ｂ))，ｃｈｉ
(ｘ(Ｂ)−ｙ(Ｂ)，０)｝を算出し、閾値τがｕ（Ｂ）より大きいか否かを判断す
る（ステップ９０２）。このステップ９０２にてイエス
(Yes)、つまり、閾値τがｕ（Ｂ）以上である場合に
は、当該Ｂを、アイテムセットであるＢ_１から削除す
る。

【００４２】これに対して、ステップ９０２でノー、つ
まり、閾値τがｕ（Ｂ）より小さい場合には、（１０）
式および（１１）式にしたがって、ｔ_ｐｏｓ（Ｎ）およ
びｔ _ｎｅｇ（Ｎ）が算出される。ここで、Ｎ（Ｎ⊇Ｑ）
は、Ｑの要素に、Ｂの要素を追加したような、(ｋ＋
１）−アイテムセットである。ｔ_ｐｏｓ（Ｎ）＝ｔ_ｐｏｓ（Ｂ）∩ｔ_ｐｏｓ（Ｑ）ｔ_ｎｅｇ（Ｎ）＝ｔ_ｎｅｇ（Ｂ）∩ｔ_ｎｅｇ（Ｑ）

【００４３】上記ｔ_ｐｏｓ（Ｎ）およびｔ_ｎｅｇ（Ｎ）
は、以下のｕ（Ｎ）を算出するために用いられる。つま
り、ｕ（Ｎ）＝｛ｃｈｉ(ｙ(Ｎ)，ｙ(Ｎ))，ｃｈｉ(ｘ
(Ｎ)−ｙ(Ｎ)，０)｝において、ｘ（Ｎ）＝｜ｔ（Ｎ）｜＝｜ｔ_ｐｏｓ（Ｎ）∪ｔ_ｎｅｇ
（Ｎ）｜ｙ（Ｎ）＝｜ｔ_ｐｏｓ（Ｎ）｜となるからである。

【００４４】アイテムセット生成／枝刈り処理部２２
は、ｕ（Ｎ）がτより大きいか否かを判断する（ステッ
プ９０５）。このステップ９０５でイエス(Yes)と判断
された場合には、Ｎが、Ｑ_ｋ＋１の要素に追加される
（ステップ９０６）。ここでは、ｕ（Ｎ）が、τより大
きければ、Ｎ＝Ｑ∪Ｂは「有意」なアイテムセットであ
ると判断され得るからである。その一方、ｕ（Ｎ）＝ｍａｘ｛ｃｈｉ（ｙ(Ｎ)，ｙ(Ｎ)），ｃｈｉ
（ｘ(Ｎ)−ｙ(Ｎ)，０）｝ ≧ｃｈｉ（ｘ(Ｍ)，ｙ(Ｍ)）（Ｍ⊇Ｎ）であるから、ｕ（Ｎ）≦τであれば、Ｍは有意なアイテ
ムセットではないことになり、枝刈りの対象となる。ま
た、Ｎは、ｋ−アイテムセットであるＱ_ｋと１−アイテ
ムセットであるＢ_１との和集合であるから、これは、
(ｋ＋１)−アイテムセットであるＱ_ｋ＋１の要素とな
る。

【００４５】このような処理の後、閾値τと、ｃｈｉ
(ｘ(Ｎ)，ｙ(Ｎ))とが比較され、後者が大きい場合に
は、閾値τがその値に更新される（ステップ９０７）。
ステップ９０１〜９０７の処理がＱ、Ｂについて繰り返
し実行される。たとえば、あるＱ∈Ｑ_ｋを固定して、Ｂ
_１の要素であるそれぞれのＢについて、ステップ９０１
〜９０７を実行し、次いで、Ｑ∈Ｑ_ｋを変更して、同様
の処理を繰り返せば良い。このようにして、すべてのＱ
∈Ｑ_ｋおよびＢ∈Ｂ_１に関して、ステップ９０１〜９０
７の処理を実行することができる。

【００４６】ｋ＝１、つまり、１−アイテムセットであ
るＱ_１についてステップ７０４の処理が終了すると、ｋ
がインクリメントされ（ステップ７０６）、２−アイテ
ムセットであるＱ_２についてステップ７０４の処理が実
行される。このような処理が、Ｑ_ｋ＝φとなるまで繰り
返される（ステップ７０５）。なお、処理で得られたＱ
_ｋやτは、データ一時記憶部２４に記憶される。

【００４７】次いで、ルール抽出／出力部２６が、閾値
τおよびτを導き出したアイテムセットＱ_ｋをデータ一
時記憶部２４から読み出す（ステップ２６）。このアイ
テムセットＱｋに示されるルールが最も「相関してい
る」ものと考えられる。ルール抽出／出力部２６は、上
記τおよび関連するアイテムセットをルール記憶部２８
に記憶するとともに、必要に応じて、ルール抽出結果を
表示装置２８やプリンタ３０に出力する。

【００４８】本実施の形態よれば、セット枚挙木にした
がってアイテムセットの候補を作成し、作成の際に、当
該アイテムセットの候補が有意であるか否かを判断して
いる。したがって、全てのアイテムセットを走査する必
要が無く、これにより、探索空間を小さくすることがで
き、その結果、処理時間を著しく短縮することが可能と
なる。

【００４９】次に、本発明の第２の実施の形態につき説
明を加える。第１の実施の形態においては、閾値τを更
新して、最も「有意な」アイテムセットを見出すように
構成していたが、第２の実施の形態においては、予め閾
値τを固定値として与え、アイテムセットＩについて、
ｕ（Ｉ）≧τであり、「有意」と考えられるようなアイ
テムセットＩの集合を求めている。図１０は、第２の実
施の形態にかかる結合ルール抽出システムにおける処理
の概略を示すフローチャートである。図１０において、
ステップ１００１および１００４は、それぞれ、図７の
ステップ７０１および７０３に対応する。この実施の形
態においては、オペレータが入力装置（図示せず）を操
作することなどにより、閾値τが設定される（ステップ
１００２）。

【００５０】また、初期的データＱ_１の生成（ステップ
１００３）は、図８の処理と、一部を除き略同一であ
る。第２の実施の形態においては、τの更新ステップ
（図８のステップ８０６）が省略される。アイテムセッ
トの生成および枝刈り（ステップ１００５）も、図９の
処理と、一部を除き略同一である。第２の実施の形態に
おいては、τの更新ステップ（ステップ９０７）が省略
される。このような処理が繰り返された後（ステップ１
００６、１００７参照）、各Ｑｋ（ｋ＝１，２，・・
・）に含まれるアイテムセットが取り出される。

【００５１】第２の実施の形態は、第１の実施の形態に
比較して枝刈りの効率は悪くなるが、有意と考えられる
アイテムセットの集合を得られるという利点もある。

【００５２】［産業上の利用可能性］本発明にかかる走
査／枝刈りを利用すると、以下のような分野において、
「相関している」結合ルールを高速に見出すことが可能
である。ウェブページに同時に表れるキーワードの組、
特に、相関の大きなキーワードの組を高速に枚挙し、精
度の高い検索エンジンを構築することが可能となる。

【００５３】遺伝子やタンパク質の変異と疾患との相関
関係を調べ、疾患に関連する遺伝子などの組み合わせを
見つけることが可能となる。また、薬剤の副作用情報と
遺伝子の発現情報との相関関係を見つけることが可能と
なる。ビジネスにおいて、顧客の危険度を評価するため
に有効なチェック項目を見出し、或いは、顧客のロイヤ
リティを特定するために利用することができる。

【００５４】本発明は、以上の実施の形態に限定される
ことなく、特許請求の範囲に記載された発明の範囲内
で、種々の変更が可能であり、それらも本発明の範囲内
に包含されるものであることは言うまでもない。前記実
施の形態においては、関連を調べるためにχ^２値を利用
しているが、これに限定されるものではなく、任意の二
変数の凸関数に適用することができる。たとえば、エン
トロピー、ｇｉｎｉｉｎｄｅｘ、相関係数(correlati
on coefficient)などに、上記枝刈りを適用することも
できる。

【００５５】また、本発明は、単独で用いられて関連を
調べるだけでなく、他の方法と組み合わせることによ
り、より強力な関連を高速に調べることができる。たと
えば、図１１に示すように、あるデータに対して、Ａ、
Ｂ、ＣおよびＤの４つに分割する条件を求めるとする。
この際に、利用される決定木を作成する際に、各ノード
（たとえば符号１１０１、１１０２参照）における分岐
決定するステップの各々において、本発明を適用するこ
とも可能である。また、本明細書において、一つの手段
の機能が、二つ以上の物理的手段により実現されても、
若しくは、二つ以上の手段の機能が、一つの物理的手段
により実現されてもよい。

【００５６】

【発明の効果】本発明によれば、著しく高速に、相関し
ている結合ルールを見出すことができるシステムを提供
することが可能となる。

【図面の簡単な説明】

【図１】図１は、結合ルールおよびχ^２値を説明する
ための図である。

【図２】図２は、個々のトランザクションに関するデ
ータベースの構造例を示す図である。

【図３】図３は、段階的なアイテムセットを説明する
ための図である。

【図４】図４は、セット枚挙木によるアイテムセット
の構造例を示す図である。

【図５】図５は、本発明にしたがった枝刈りの原理を
説明するための図である。

【図６】図６は、本実施の形態にかかる結合ルール抽
出システムの構成を示すブロックダイヤグラムである。

【図７】図７は、本実施の形態にかかる結合ルール抽
出システムにおける処理の概略を示すフローチャートで
ある。

【図８】図８は、ステップ７０２の処理をより詳細に
示すフローチャートである。

【図９】図９は、ステップ７０４をより詳細に示すフ
ローチャートである。

【図１０】図１０は、第２の実施の形態にかかる結合
ルール抽出システムにおける処理の概略を示すフローチ
ャートである。

【図１１】図１１は、本発明の他の応用例を説明する
ための図である。

【符号の説明】

１０結合ルール抽出システム１２入力装置１４プログラム記憶部１６制御部１８データベース２０初期的データ生成部２２アイテムセット生成／枝刈り処理部２４データ一時記憶部２６ルール抽出／出力部２８ルール記憶部

───────────────────────────────────────────────────── フロントページの続き (72)発明者瀬々潤東京都北区豊島８−15−24−304 Ｆターム(参考） 5B075 PQ02 PQ03 PQ05 QP01

Claims

【特許請求の範囲】

【請求項１】各々がトランザクションに対応するアイ
テムセット間に形成される、条件と結論との間の結合ル
ールから、相関の高い結合ルールを抽出する方法であっ
て、１つのアイテムを要素とするアイテムセットに関するト
ランザクションの集合を生成するトランザクション生成
ステップと、前記トランザクション集合のうち、空集合を見出して、
トランザクション集合が空集合となるようなアイテムセ
ットを、結合ルールの抽出対象から除外する第1の枝刈
りステップと、前記アイテムセットに関して、結合ルールの相関を評価
するためのニ変数の凸関数である評価関数ｆ（ｘ，ｙ）
を利用して（ただし、ｘは、条件を満たすようなトラン
ザクションの数、ｙは結論を満たすようなトランザクシ
ョンの数）、ｆ（ｙ（Ｉ），ｙ（Ｉ））およびｆ（ｘ
（Ｉ）−ｙ（Ｉ），０）（ただし、Ｉは生成された新た
なアイテムセット）を算出して、これらのうち大きいも
のを上界値として取得する第1の評価関数演算ステップ
と、前記上界値と所定の閾値とを比較する第1の比較ステッ
プと、前記上界値が所定の閾値よりも小さい場合に、前記アイ
テムセットを、結合ルールの抽出対象から除外する第２
の枝刈りステップと、アイテムセットに関するトランザクションの集合を利用
して、一方のアイテムセットの要素に、他の１つのアイ
テムを要素とするアイテムセットの要素を加えたような
新たなアイテムセットに関して、前記評価関数ｆ（ｘ，
ｙ）を利用して、ｆ（ｙ（Ｉ），ｙ（Ｉ））およびｆ
（ｘ（Ｉ）−ｙ（Ｉ），０）（ただし、Ｉは生成された
新たなアイテムセット）を算出して、これらのうち大き
いものを上界値として取得する第２の評価関数演算ステ
ップと、当該上界値と所定の閾値とを比較する第２の比較ステッ
プと、前記上界値が所定の閾値より小さい場合に、前記新たな
アイテムセット、および、当該アイテムセットの要素
に、他のアイテムセットを加えたような全てのアイテム
セットを、前記結合ルールの抽出対象から除外する第３
の枝刈りステップと、前記第1の枝刈りステップ、アイテムセット生成ステッ
プ、第２の評価関数演算ステップ、第２の比較ステッ
プ、および、第３の枝刈りステップを繰り返すことによ
り、前記閾値を超えた上界値をもつようなアイテムセッ
トを取得するステップと、前記アイテムセットを条件とする結合ルールを、相関の
高い結合ルールとして出力するステップとを備えたこと
を特徴とする結合ルールの抽出方法。
【請求項２】さらに、前記閾値と、前記アイテムセッ
トに関する評価関数ｆ（ｘ（Ｉ），ｙ（Ｉ））の値であ
る評価関数値とを比較するステップと、前記評価関数値が前記閾値よりも大きい場合に、前記閾
値として前記評価関数値を用いるステップとを備えたこ
とを特徴とする請求項１に記載の結合ルールの抽出方
法。
【請求項３】前記第1の評価関数演算ステップが、前記１つのアイテムを要素とするアイテムセットＩにつ
いて、ｘ(Ｉ)＝｜ｔ(Ｉ)｜，ｙ(Ｉ)＝｜ｔ_ｐｏｓ(Ｉ)｜（ただし、ｔ(Ｉ)は、Ｉのトランザクション、ｔ_ｐｏｓ
(Ｉ)は、トランザクションに結論のアイテムが含まれて
いることを示す、正のトランザクション）を算出するス
テップと、前記算出された｜ｔ(Ｉ)｜および｜ｔ_ｐｏｓ(Ｉ)｜を利
用して評価関数値を算出するステップとを有することを
特徴とする請求項１または２に記載の結合ルールの抽出
方法。
【請求項４】前記第２の評価関数演算ステップが、Ｑ（ただし、Ｑは、ｋ個のアイテムを要素とするアイテ
ムセット）と、Ｂ（ただし、Ｂは、１個のアイテムを要
素とするアイテムセット）に関して、ｔａｉｌ(Ｑ)＜ｈｅａｄ(Ｂ) （ここで、ｔａｉｌ(Ｑ)は、Ｑの末尾の要素、ｈｅａｄ
(Ｂ)は、Ｂの先頭の要素）を演算するステップと、前記Ｂに関して、必要に応じて評価関数ｆ（ｘ，ｙ）を
利用して、ｆ（ｙ(Ｂ)，ｙ(Ｂ)）およびｆ(ｘ(Ｂ)−ｙ
(Ｂ)，０)を算出して、これらのうち大きいものを上界
値として取得するステップと、当該上界値と所定の閾値とを比較するステップとを有
し、前記上界値が所定の閾値よりも大きい場合に、前記アイ
テムセットＱの要素に、アイテムセットＢの要素を加え
たような新たなアイテムセットに関して、所定の演算が
実行され、その一方、前記上界値が所定の閾値以下であ
る場合には、アイテムセットＢを、第２の評価関数演算
ステップにおける処理対象から除外することを特徴とす
る請求項１ないし３の何れか一項に記載の結合ルールの
抽出方法。
【請求項５】前記第２の評価関数演算ステップが、Ｑ（ただし、Ｑは、ｋ個のアイテムを要素とするアイテ
ムセット）と、Ｂ（ただし、Ｂは、１個のアイテムを要
素とするアイテムセット）に関して、ｔ_ｐｏｓ(Ｎ)＝ｔ_ｐｏｓ(Ｂ)∩ｔ_ｐｏｓ(Ｑ) ｔ_ｎｅｇ(Ｎ)＝ｔ_ｎｅｇ(Ｂ)∩ｔ_ｎｅｇ(Ｑ) （ただし、Ｎ＝Ｑ∪Ｂ）を算出するステップと、上記演算結果に基づき、アイテムセットＮに関して、評
価関数ｆ（ｘ，ｙ）を利用して、ｆ（ｙ(Ｎ)，ｙ(Ｎ)）
およびｆ(ｘ(Ｎ)−ｙ(Ｎ)，０)を算出して、これらのう
ち大きいものを上界値として取得するステップと、当該上界値と所定の閾値とを比較するステップと、前記上界値が所定の閾値よりも大きい場合に、前記アイ
テムセットＮを、ｋ個のアイテムからなるアイテムセッ
トとして登録するステップとを有することを特徴とする
請求項１ないし４の何れか一項に記載の結合ルールの抽
出方法。
【請求項６】各々がトランザクションに対応するアイ
テムセット間に形成される、条件と結論との間の結合ル
ールから、相関の高い結合ルールを抽出するシステムで
あって、前記アイテムセットを記憶するアイテムセット記憶手段
と、前記アイテムセット記憶手段に記憶されたアイテムセッ
トのうち、１つのアイテムを要素とするアイテムセット
を抽出して、当該アイテムセットに関するトランザクシ
ョンの集合を生成するトランザクション生成手段と、前記トランザクション集合のうち、空集合を見出して、
トランザクション集合が空集合となるようなアイテムセ
ットを、結合ルールの抽出対象から除外する第1の枝刈
り手段と、前記アイテムセットに関して、結合ルールの相関を評価
するためのニ変数の凸関数である評価関数ｆ（ｘ，ｙ）
を利用して（ただし、ｘは、条件を満たすようなトラン
ザクションの数、ｙは結論を満たすようなトランザクシ
ョンの数）、ｆ（ｙ（Ｉ），ｙ（Ｉ））およびｆ（ｘ
（Ｉ）−ｙ（Ｉ），０）（ただし、Ｉは生成された新た
なアイテムセット）を算出して、これらのうち大きいも
のを上界値として取得する第1の評価関数演算手段と、前記上界値と所定の閾値とを比較する第1の比較手段
と、前記上界値が所定の閾値よりも小さい場合に、前記アイ
テムセットを、結合ルールの抽出対象から除外する第２
の枝刈り手段と、アイテムセットに関するトランザクションの集合を利用
して、一方のアイテムセットの要素に、他の１つのアイ
テムを要素とするアイテムセットの要素を加えたような
新たなアイテムセットに関して、前記評価関数ｆ（ｘ，
ｙ）を利用して、ｆ（ｙ（Ｉ），ｙ（Ｉ））およびｆ
（ｘ（Ｉ）−ｙ（Ｉ），０）（ただし、Ｉは生成された
新たなアイテムセット）を算出して、これらのうち大き
いものを上界値として取得する第２の評価関数演算手段
と、当該上界値と所定の閾値とを比較する第２の比較手段
と、前記上界値が所定の閾値より小さい場合に、前記新たな
アイテムセット、および、当該アイテムセットの要素
に、他のアイテムセットを加えたような全てのアイテム
セットを、前記結合ルールの抽出対象から除外する第３
の枝刈り手段と、前記第1の枝刈り手段、前記アイテムセット生成手段、
第２の評価関数演算手段、第２の比較手段、および、第
３の枝刈り手段による処理を繰り返すことにより取得さ
れた、前記閾値を超えた上界値をもつようなアイテムセ
ットを記憶する結果記憶手段と、前記結果記憶手段に記憶されたアイテムセットに基づ
き、当該アイテムセットを条件とする結合ルールを、相
関の高い結合ルールとして出力する出力手段とを備えた
ことを特徴とするシステム。
【請求項７】さらに、前記閾値と、前記アイテムセッ
トに関する評価関数ｆ（ｘ（Ｉ），ｙ（Ｉ））の値であ
る評価関数値とを比較し、前記評価関数値が前記閾値よ
りも大きい場合に、前記閾値として前記評価関数値を用
いるように、前記閾値を更新する閾値更新手段を備えた
ことを特徴とする請求項６に記載のシステム。
【請求項８】前記第1の評価関数演算手段が、前記１つのアイテムを要素とするアイテムセットＩにつ
いて、ｘ(Ｉ)＝｜ｔ(Ｉ)｜，ｙ(Ｉ)＝｜ｔ_ｐｏｓ(Ｉ)｜（ただし、ｔ(Ｉ)は、Ｉのトランザクション、ｔ_ｐｏｓ
(Ｉ)は、トランザクションに結論のアイテムが含まれて
いることを示す、正のトランザクション）を算出し、か
つ、前記算出された｜ｔ(Ｉ)｜および｜ｔ_ｐｏｓ(Ｉ)｜を利
用して評価関数値を算出するように構成されたことを特
徴とする請求項６または７に記載のシステム。
【請求項９】前記第２の評価関数演算手段が、Ｑ（ただし、Ｑは、ｋ個のアイテムを要素とするアイテ
ムセット）と、Ｂ（ただし、Ｂは、１個のアイテムを要
素とするアイテムセット）に関して、ｔａｉｌ(Ｑ)＜ｈｅａｄ(Ｂ) （ここで、ｔａｉｌ(Ｑ)は、Ｑの末尾の要素、ｈｅａｄ
(Ｂ)は、Ｂの先頭の要素）を演算し、前記Ｂに関して、必要に応じて評価関数ｆ（ｘ，ｙ）を
利用して、ｆ（ｙ(Ｂ)，ｙ(Ｂ)）およびｆ(ｘ(Ｂ)−ｙ
(Ｂ)，０)を算出して、これらのうち大きいものを上界
値として取得し、かつ、当該上界値と所定の閾値とを比較して、前記上界値が所
定の閾値よりも大きい場合に、前記アイテムセットＱの
要素に、アイテムセットＢの要素を加えたような新たな
アイテムセットに関して、所定の演算が実行され、その
一方、前記上界値が所定の閾値以下である場合には、ア
イテムセットＢを、第２の評価関数演算ステップにおけ
る処理対象から除外するように構成されたことを特徴と
する請求項６ないし８の何れか一項に記載のシステム。
【請求項１０】前記第２の評価関数演算手段が、Ｑ（ただし、Ｑは、ｋ個のアイテムを要素とするアイテ
ムセット）と、Ｂ（ただし、Ｂは、１個のアイテムを要
素とするアイテムセット）に関して、ｔ_ｐｏｓ(Ｎ)＝ｔ_ｐｏｓ(Ｂ)∩ｔ_ｐｏｓ(Ｑ) ｔ_ｎｅｇ(Ｎ)＝ｔ_ｎｅｇ(Ｂ)∩ｔ_ｎｅｇ(Ｑ) （ただし、Ｎ＝Ｑ∪Ｂ）を算出し、上記演算結果に基づき、アイテムセットＮに関して、評
価関数ｆ（ｘ，ｙ）を利用して、ｆ（ｙ(Ｎ)，ｙ(Ｎ)）
およびｆ(ｘ(Ｎ)−ｙ(Ｎ)，０)を算出して、これらのう
ち大きいものを上界値として取得し、かつ、当該上界値と所定の閾値とを比較して、前記上界値が所
定の閾値よりも大きい場合に、前記アイテムセットＮ
を、ｋ個のアイテムからなるアイテムセットとするよう
に構成されたことを特徴とする請求項６ないし９の何れ
か一項に記載のシステム。
【請求項１１】各々がトランザクションに対応するア
イテムセット間に形成される、条件と結論との間の結合
ルールから、相関の高い結合ルールを抽出するためにコ
ンピュータを作動させるプログラムであって、１つのアイテムを要素とするアイテムセットに関するト
ランザクションの集合を生成するトランザクション生成
ステップと、前記トランザクション集合のうち、空集合を見出して、
トランザクション集合が空集合となるようなアイテムセ
ットを、結合ルールの抽出対象から除外する第1の枝刈
りステップと、前記アイテムセットに関して、結合ルールの相関を評価
するためのニ変数の凸関数である評価関数ｆ（ｘ，ｙ）
を利用して（ただし、ｘは、条件を満たすようなトラン
ザクションの数、ｙは結論を満たすようなトランザクシ
ョンの数）、ｆ（ｙ（Ｉ），ｙ（Ｉ））およびｆ（ｘ
（Ｉ）−ｙ（Ｉ），０）（ただし、Ｉは生成された新た
なアイテムセット）を算出して、これらのうち大きいも
のを上界値として取得する第1の評価関数演算ステップ
と、前記上界値と所定の閾値とを比較する第1の比較ステッ
プと、前記上界値が所定の閾値よりも小さい場合に、前記アイ
テムセットを、結合ルールの抽出対象から除外する第２
の枝刈りステップと、アイテムセットに関するトランザクションの集合を利用
して、一方のアイテムセットの要素に、他の１つのアイ
テムを要素とするアイテムセットの要素を加えたような
新たなアイテムセットに関して、前記評価関数ｆ（ｘ，
ｙ）を利用して、ｆ（ｙ（Ｉ），ｙ（Ｉ））およびｆ
（ｘ（Ｉ）−ｙ（Ｉ），０）（ただし、Ｉは生成された
新たなアイテムセット）を算出して、これらのうち大き
いものを上界値として取得する第２の評価関数演算ステ
ップと、当該上界値と所定の閾値とを比較する第２の比較ステッ
プと、前記上界値が所定の閾値より小さい場合に、前記新たな
アイテムセット、および、当該アイテムセットの要素
に、他のアイテムセットを加えたような全てのアイテム
セットを、前記結合ルールの抽出対象から除外する第３
の枝刈りステップと、前記第１の枝刈りステップ、前記アイテムセット生成ス
テップ、第２の評価関数演算ステップ、第２の比較ステ
ップ、および、第３の枝刈りステップを繰り返すことに
より、前記閾値を超えた上界値をもつようなアイテムセ
ットを取得するステップと、前記アイテムセットを条件とする結合ルールを、相関の
高い結合ルールとして出力するステップとを、前記コン
ピュータに実行させることを特徴とするプログラム。
【請求項１２】さらに、前記閾値と、前記アイテムセ
ットに関する評価関数ｆ（ｘ（Ｉ），ｙ（Ｉ））の値で
ある評価関数値とを比較するステップと、前記評価関数値が前記閾値よりも大きい場合に、前記閾
値として前記評価関数値を用いるステップとを、前記コ
ンピュータに実行させることを特徴とする請求項１１に
記載のプログラム。
【請求項１３】前記第1の評価関数演算ステップにお
いて、前記１つのアイテムを要素とするアイテムセットＩにつ
いて、ｘ(Ｉ)＝｜ｔ(Ｉ)｜，ｙ(Ｉ)＝｜ｔ_ｐｏｓ(Ｉ)｜（ただし、ｔ(Ｉ)は、Ｉのトランザクション、ｔ_ｐｏｓ
(Ｉ)は、トランザクションに結論のアイテムが含まれて
いることを示す、正のトランザクション）を算出するス
テップと、前記算出された｜ｔ(Ｉ)｜および｜ｔ_ｐｏｓ(Ｉ)｜を利
用して評価関数値を算出するステップとを、前記コンピ
ュータに実行させることを特徴とする請求項１１または
１２に記載のプログラム。
【請求項１４】前記第２の評価関数演算ステップにお
いて、Ｑ（ただし、Ｑは、ｋ個のアイテムを要素とするアイテ
ムセット）と、Ｂ（ただし、Ｂは、１個のアイテムを要
素とするアイテムセット）に関して、ｔａｉｌ(Ｑ)＜ｈｅａｄ(Ｂ) （ここで、ｔａｉｌ(Ｑ)は、Ｑの末尾の要素、ｈｅａｄ
(Ｂ)は、Ｂの先頭の要素）を演算するステップと、前記Ｂに関して、必要に応じて評価関数ｆ（ｘ，ｙ）を
利用して、ｆ（ｙ(Ｂ)，ｙ(Ｂ)）およびｆ(ｘ(Ｂ)−ｙ
(Ｂ)，０)を算出して、これらのうち大きいものを上界
値として取得するステップと、当該上界値と所定の閾値とを比較するステップとを前記
コンピュータに実行させ、前記上界値が所定の閾値よりも大きい場合に、前記アイ
テムセットＱの要素に、アイテムセットＢの要素を加え
たような新たなアイテムセットに関して、所定の演算を
実行し、その一方、前記上界値が所定の閾値以下である
場合には、アイテムセットＢを、第２の評価関数演算ス
テップにおける処理対象から除外するように前記コンピ
ュータを作動させることを特徴とする請求項１１ないし
１３の何れか一項に記載の結合ルールの抽出方法。
【請求項１５】前記第２の評価関数演算ステップにお
いて、Ｑ（ただし、Ｑは、ｋ個のアイテムを要素とするアイテ
ムセット）と、Ｂ（ただし、Ｂは、１個のアイテムを要
素とするアイテムセット）に関して、ｔ_ｐｏｓ(Ｎ)＝ｔ_ｐｏｓ(Ｂ)∩ｔ_ｐｏｓ(Ｑ) ｔ_ｎｅｇ(Ｎ)＝ｔ_ｎｅｇ(Ｂ)∩ｔ_ｎｅｇ(Ｑ) （ただし、Ｎ＝Ｑ∪Ｂ）を算出するステップと、上記演算結果に基づき、アイテムセットＮに関して、評
価関数ｆ（ｘ，ｙ）を利用して、ｆ（ｙ(Ｎ)，ｙ(Ｎ)）
およびｆ(ｘ(Ｎ)−ｙ(Ｎ)，０)を算出して、これらのう
ち大きいものを上界値として取得するステップと、当該上界値と所定の閾値とを比較するステップと、前記上界値が所定の閾値よりも大きい場合に、前記アイ
テムセットＮを、ｋ個のアイテムからなるアイテムセッ
トとして登録するステップとを、前記コンピュータに実
行させることを特徴とする請求項１１ないし１４の何れ
か一項に記載のプログラム。