JP2003076937A - 結合ルールの抽出方法、抽出システムおよび結合ルール抽出プログラム - Google Patents

結合ルールの抽出方法、抽出システムおよび結合ルール抽出プログラム

Info

Publication number
JP2003076937A
JP2003076937A JP2001269895A JP2001269895A JP2003076937A JP 2003076937 A JP2003076937 A JP 2003076937A JP 2001269895 A JP2001269895 A JP 2001269895A JP 2001269895 A JP2001269895 A JP 2001269895A JP 2003076937 A JP2003076937 A JP 2003076937A
Authority
JP
Japan
Prior art keywords
item set
item
value
evaluation function
upper bound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001269895A
Other languages
English (en)
Inventor
Shinichi Morishita
真一 森下
Jun Seze
潤 瀬々
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2001269895A priority Critical patent/JP2003076937A/ja
Publication of JP2003076937A publication Critical patent/JP2003076937A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】 著しく高速に、相関している結合ルールを見
出す。 【解決手段】 各々がトランザクションに対応するアイ
テムセット間に形成される、条件と結論との間の結合ル
ールから、相関の高い結合ルールを抽出する方法におい
て、まず、トランザクション集合が空集合となるような
アイテムセットを抽出対象から除外して、探索空間を縮
小する。次いで、段階的に要素が追加されるようにアイ
テムセットが生成され、その際に、結合ルールの相関を
評価するためのニ変数の凸関数である評価関数f(x,
y)を利用した上界値max{f(y(I),y
(I)),f(x(I)−y(I),0)}と閾値とを
比較することにより、当該アイテムセットと目的となる
アイテムセットとの間の相関が十分ありアイテムセット
が有意なものであるか否かが判断される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、データマイニング
に関し、特に、処理の高速化を図ったデータマイニング
手法に関する。
【0002】
【従来の技術】結合ルール(アソシエーションルール)
は、近年非常に研究が盛んになっている。特に、結合ル
ールの自然科学、特に、遺伝子解析への適用が試みられ
ている。遺伝子解析のデータに対して結合ルールを適用
する場合に、2つの問題点がある。一点は、データが大
量になることである。たとえば、ヒト個々を特徴付ける
DNA上の置換は、数百万個程度、ヒトの細胞数は60
億にも達する。もう一点は、「サポート」、「コンフィ
デンス」といった指標が必ずしも最適とはいえない解を
導出してしまうことである。
【0003】
【発明が解決しようとする課題】上記問題点を鑑みて、
本出願人らは、観測値と期待値との間のズレ具合を表す
指標であるχ値(chi(x,y))の上界を求め、
上界に満たないアイテムセットのスーパーセットを、結
合ルールの抽出対象から除外することにより枝刈りを実
現し、これにより、探索空間を小さくすることで処理時
間を短縮するという要請と、適切な解を求めることがで
きるという要請とを両立される手法を見出し(特願20
00−346454)、これをApriori SMP(演繹的SM
P)と名付けた。このApriori SMPは、NP困難が示され
ている最適化問題にも現実的な時間で解答できるという
特徴を有する。
【0004】しかしながら、Apriori SMPでは、探索空
間自体を小さくすることに関しては満足のいく結果が得
られたが、処理自体の高速化は容易ではないという問題
点があった。これは、統計値の非単調性に由来する。本
発明は、著しく高速に、相関している結合ルールを見出
すことができるシステムを提供することを目的とする。
【0005】
【課題を解決するための手段】本発明の目的は、各々が
トランザクションに対応するアイテムセット間に形成さ
れる、条件と結論との間の結合ルールから、相関の高い
結合ルールを抽出する方法であって、1つのアイテムを
要素とするアイテムセットに関するトランザクションの
集合を生成するトランザクション生成ステップと、前記
トランザクション集合のうち、空集合を見出して、トラ
ンザクション集合が空集合となるようなアイテムセット
を、結合ルールの抽出対象から除外する第1の枝刈りス
テップと、前記アイテムセットに関して、結合ルールの
相関を評価するためのニ変数の凸関数である評価関数f
(x,y)を利用して(ただし、xは、条件を満たすよ
うなトランザクションの数、yは結論を満たすようなト
ランザクションの数)、f(y(I),y(I))およ
びf(x(I)−y(I),0)(ただし、Iは生成さ
れた新たなアイテムセット)を算出して、これらのうち
大きいものを上界値として取得する第1の評価関数演算
ステップと、前記上界値と所定の閾値とを比較する第1
の比較ステップと、前記上界値が所定の閾値よりも小さ
い場合に、前記アイテムセットを、結合ルールの抽出対
象から除外する第2の枝刈りステップと、アイテムセッ
トに関するトランザクションの集合を利用して、一方の
アイテムセットの要素に、他の1つのアイテムを要素と
するアイテムセットの要素を加えたような新たなアイテ
ムセットに関して、前記評価関数f(x,y)を利用し
て、f(y(I),y(I))およびf(x(I)−y
(I),0)(ただし、Iは生成された新たなアイテム
セット)を算出して、これらのうち大きいものを上界値
として取得する第2の評価関数演算ステップと、当該上
界値と所定の閾値とを比較する第2の比較ステップと、
前記上界値が所定の閾値より小さい場合に、前記新たな
アイテムセット、および、当該アイテムセットの要素
に、他のアイテムセットを加えたような全てのアイテム
セットを、前記結合ルールの抽出対象から除外する第3
の枝刈りステップと、前記第1の枝刈りステップ、前記
アイテムセット生成ステップ、第2の評価関数演算ステ
ップ、第2の比較ステップ、および、第3の枝刈りステ
ップを繰り返すことにより、前記閾値を超えた上界値を
もつようなアイテムセットを取得するステップと、前記
アイテムセットを条件とする結合ルールを、相関の高い
結合ルールとして出力するステップとを備えたことを特
徴とする結合ルールの抽出方法により達成される。
【0006】本発明によれば、まずトランザクション集
合が空集合となるようなアイテムセットを抽出対象から
除外することにより、探索空間を縮小している。さら
に、段階的に要素が追加されるようにアイテムセットが
生成され、その際に、評価関数を利用した上界値と閾値
とを比較することにより、当該アイテムセットと目的と
なるアイテムセットとの間の相関が十分ありアイテムセ
ットが有意なものであるか否かが判断される。したがっ
て、アイテムセットを含む探索空間全体の走査を要する
ことなく、有意なものを見出すことができる。これによ
り、結合ルールにおける条件をなすアイテムセットのう
ち、適切なものを、著しく高速に見出すことが可能とな
る。
【0007】好ましい実施態様においては、さらに、前
記閾値と、前記アイテムセットに関する評価関数f(x
(I),y(I))の値である評価関数値とを比較する
ステップと、前記評価関数値が前記閾値よりも大きい場
合に、前記閾値として前記評価関数値を用いるステップ
とを備えている。このように、閾値を更新して行くこと
により、最も有意なアイテムセットを取り出すことがで
きる。また、処理にともなって閾値が大きくなることか
ら、探索空間をより小さくすることができ、これによ
り、処理時間をより短縮することが可能となる。
【0008】より好ましい実施態様においては、前記第
1の評価関数演算ステップが、前記1つのアイテムを要
素とするアイテムセットIについて、 x(I)=|t(I)|,y(I)=|tpos(I)| (ただし、t(I)は、Iのトランザクション、tpos
(I)は、トランザクションに結論のアイテムが含まれて
いることを示す、正のトランザクション)を算出するス
テップと、前記算出された|t(I)|および|tpos
(I)|を利用して評価関数値を算出するステップとを有
している。
【0009】また、別の好ましい実施態様においては、
前記第2の評価関数演算ステップが、Q(ただし、Q
は、k個のアイテムを要素とするアイテムセット)と、
B(ただし、Bは、1個のアイテムを要素とするアイテ
ムセット)に関して、 tail(Q)<head(B) (ここで、tail(Q)は、Qの末尾の要素、head
(B)は、Bの先頭の要素)を演算するステップと、前記
Bに関して、必要に応じて評価関数f(x,y)を利用
して、f(y(B),y(B))およびf(x(B)−y
(B),0)を算出して、これらのうち大きいものを上界
値として取得するステップと、当該上界値と所定の閾値
とを比較するステップとを有し、前記上界値が所定の閾
値よりも大きい場合に、前記アイテムセットQの要素
に、アイテムセットBの要素を加えたような新たなアイ
テムセットに関して、所定の演算が実行され、その一
方、前記上界値が所定の閾値以下である場合には、アイ
テムセットBを、第2の評価関数演算ステップにおける
処理対象から除外する。これは、セット枚挙木に沿って
段階的にアイテムセットを生成していくことを実現して
いる。
【0010】また、さらに好ましい実施態様において
は、前記第2の評価関数演算ステップが、Q(ただし、
Qは、k個のアイテムを要素とするアイテムセット)
と、B(ただし、Bは、1個のアイテムを要素とするア
イテムセット)に関して、 tpos(N)=tpos(B)∩tpos(Q) tneg(N)=tneg(B)∩tneg(Q) (ただし、N=Q∪B)を算出するステップと、上記演
算結果に基づき、アイテムセットNに関して、評価関数
f(x,y)を利用して、f(y(N),y(N))および
f(x(N)−y(N),0)を算出して、これらのうち大き
いものを上界値として取得するステップと、当該上界値
と所定の閾値とを比較するステップと、前記上界値が所
定の閾値よりも大きい場合に、前記アイテムセットN
を、k個のアイテムからなるアイテムセットとして登録
するステップとを有する。これにより、演繹的に、所望
のアイテムセットに関する上界値を算出することが可能
となる。また、本発明の目的は、上記ステップをコンピ
ュータに実行させることを特徴とするプログラムによっ
ても達成される。
【0011】さらに、本発明の目的は、各々がトランザ
クションに対応するアイテムセット間に形成される、条
件と結論との間の結合ルールから、相関の高い結合ルー
ルを抽出するシステムであって、前記アイテムセットを
記憶するアイテムセット記憶手段と、前記アイテムセッ
ト記憶手段に記憶されたアイテムセットのうち、1つの
アイテムを要素とするアイテムセットを抽出して、当該
アイテムセットに関するトランザクションの集合を生成
するトランザクション生成手段と、前記トランザクショ
ン集合のうち、空集合を見出して、トランザクション集
合が空集合となるようなアイテムセットを、結合ルール
の抽出対象から除外する第1の枝刈り手段と、前記アイ
テムセットに関して、結合ルールの相関を評価するため
のニ変数の凸関数である評価関数f(x,y)を利用し
て(ただし、xは、条件を満たすようなトランザクショ
ンの数、yは結論を満たすようなトランザクションの
数)、f(y(I),y(I))およびf(x(I)−
y(I),0)(ただし、Iは生成された新たなアイテ
ムセット)を算出して、これらのうち大きいものを上界
値として取得する第1の評価関数演算手段と、前記上界
値と所定の閾値とを比較する第1の比較手段と、前記上
界値が所定の閾値よりも小さい場合に、前記アイテムセ
ットを、結合ルールの抽出対象から除外する第2の枝刈
り手段と、アイテムセットに関するトランザクションの
集合を利用して、一方のアイテムセットの要素に、他の
1つのアイテムを要素とするアイテムセットの要素を加
えたような新たなアイテムセットに関して、前記評価関
数f(x,y)を利用して、f(y(I),y(I))
およびf(x(I)−y(I),0)(ただし、Iは生
成された新たなアイテムセット)を算出して、これらの
うち大きいものを上界値として取得する第2の評価関数
演算手段と、当該上界値と所定の閾値とを比較する第2
の比較手段と、前記上界値が所定の閾値より小さい場合
に、前記新たなアイテムセット、および、当該アイテム
セットの要素に、他のアイテムセットを加えたような全
てのアイテムセットを、前記結合ルールの抽出対象から
除外する第3の枝刈り手段と、前記第1の枝刈り手段、
前記アイテムセット生成手段、第2の評価関数演算手
段、第2の比較手段、および、第3の枝刈り手段による
処理を繰り返すことにより取得された、前記閾値を超え
た上界値をもつようなアイテムセットを記憶する結果記
憶手段と、前記結果記憶手段に記憶されたアイテムセッ
トに基づき、当該アイテムセットを条件とする結合ルー
ルを、相関の高い結合ルールとして出力する出力手段と
を備えたことを特徴とするシステムによっても達成され
る。
【0012】
【発明の実施の形態】[本発明の原理]以下、添付図面
を参照して本発明の実施の形態につき説明を加える。ま
ず、本発明による原理を簡単に説明する。まず、結合ル
ールおよびχ値について、図1を参照して説明する。
図1(a)は、ある結合ルールである「パン(ブレッ
ド)とバターの両方を購入した顧客は電池(バッテリ
ー)も購入する」の条件部、結合部、および、それぞれ
の否定を満たす顧客数、列および行の顧客の和を示す表
である。この表に基づき、サポートやコンフィデンス
や、このルールに対するχ値を算出することができ
る。
【0013】χ値は、観測値と期待値との間のズレ具
合を表す指標である。y(I)およびx(I)は、図1
(b)のように定義され、χ値(chi(x,y))
は、(1)式、(2)式にしたがって求められる。
【数1】
【数2】
【0014】本件出願人らは、任意のアイテムセットI
およびJ(J⊇I)に関して、 chi(x(J),y(J)) ≦max{chi(y(I),y(I)),chi(x(I)−y(I),0)} ・・・・・(3) が成立することを見出し、この知見に基づくアルゴリズ
ムであるApriori SMPを考案し、既に特許出願している
(特願2000−346454)。本願では、より高速
な処理を目指して、chi(x(J),y(J))の上界を
利用しつつ、新たなアルゴリズムを考案した。
【0015】まず、DB中に記憶されるデータの走査コ
ストを削減するための記憶構造につき説明を加える。こ
こで、結合ルール「I→C」において、固定した結論C
を、オブジェクティブ・アイテムと称し、これを「ob
j」と表記する。したがって、上記結合ルールは、「I
→{obj}」と表すことができる。たとえば、図1
(a)の例では、「バッテリーを購入したこと(バッテ
リー=1)」がオブジェクティブ・アイテムとなる。ま
た、図1(a)の例において、各消費者が、「ブレッ
ド」、「バター」のうち何を購入したかを示す情報が、
それぞれ、トランザクションとなる。
【0016】図2(a)〜図2(c)は、個々のトラン
ザクションに関するデータベースの構造例を示す図であ
る。ここでは、トランザクションIDにて特定される個
々の消費者が購入した商品(アイテム)が示されてい
る。図2(a)は、ビット−ベクトルレイアウトにて、
各トランザクションIDにて特定される消費者が購入し
た商品のID、および、オブジェクティブ・アイテムの
(購入の)有無が示されている。図2(b)は、水平レ
イアウト(Horizontal Layout)の例であり、各トラン
ザクションIDにて特定される消費者が購入した商品
を、アイテムセットにて表している。ビット−ベクトル
レイアウトは、購入の有無を1/0のビットにて表して
いるため、データがスパースになる傾向がある。
【0017】本発明においては、図2(c)に示す垂直
レイアウト(Vertical Layout)を採用している。ここ
では、商品つまりアイテムごとの、購入した消費者のト
ランザクションIDの集合(トランザクションセット)
が表されている。たとえば、アイテムID「a」のトラ
ンザクションセットは、{2,4,5}となる。これに
対して、アイテムID「b」に関しては、購入者がいな
いため、トランザクションセットは{}(空集合)とな
る。以下、tがトランザクションセットを表しているも
のとし、あるアイテムセットIが含まれるトランザクシ
ョンセットを、t(I)と表すと、t(I)は、以下の
ように表すことができる。
【0018】 t(I)={T|Tはトランザクション、かつ、I⊆T} ・・・(4) また、あるトランザクションtに、結論となるアイテム
である「obj」が含まれているときに、このトランザ
クションが正であると称し、含まれていない場合には、
負であると称する。つまり、 tpos={T∈t|Tは正のトランザクション} ・・・(5) tneg={T∈t|Tは負のトランザクション} ・・・(6)
【0019】上記定義を用いると、Tposは、I∪
{obj}に対応する。よって、アイテムセットIに対
するx(I)およびy(I)は、以下のように表すこと
ができる。 x(I)=|t(I)|,y(I)=|tpos(I)| ・・・(7) たとえば、図2(c)において、t={1,2,3,
4,5}とすると、t({a})={2,4,5}、t
pos({a})={2,4}、Tneg({a})=
{5}となる。
【0020】ここで、t(I)が空集合であるときに、
x(I)およびy(I)について、 x(I)=|t(I)|=0,y(I)|tpos(I)|=0 ・・・(8 ) である。ところで、chi(0,0)は、任意のx、y
に関して、chi(0,0)≦chi(x,y)である
から、アイテムセットIに関して、t(I)が空集合で
あるなら、当該アイテムセットIに関する結合ルールI
→Cは、有意ではないと考えることができ、アイテムセ
ットIを削除することができる。
【0021】本発明においては、t(I)が空集合のア
イテムセットが作成されたときに(図2(c)の符号2
01、202参照)、これを削除するようなアルゴリズ
ムを採用している。
【0022】次に、垂直レイアウトにおけるアイテムセ
ットの作成につき説明を加える。ここでは、アイテムセ
ットI、Iについて、t(I)およびt(I
が得られている場合のt(I∪I)を求める点を説
明する。Iをアイテムセットとすると、 t(I)=tpos(I)∪tneg(I) tpos(I)=t(I)∪tpos(I) tneg(I)=t(I)−tpos(I) ・・・(9) が成立する。
【0023】図3は、段階的なアイテムセットを説明す
るための図である。図3(a)において、t={1,
2,3,4,5}として、アイテムセット{a}に着目
する。式(9)にしたがって、以下の式が成り立つ。 t({a})=tpos({a})∪tneg({a})={2,4,5} tpos({a})={2,4,5}∪{2,4} tneg({a})={2,4,5}−{2,4}={5} 次に、tpos(I∪I)を考える。 tpos(I∪I)={T∈tpos|(I∪I)⊆T} ={T∈tpos|I∈T}∩{T∈tpos|I⊆T} =tpos(I)∩tpos(I) ・・・(10) 同様に、tneg(I∪I)についても、 tneg(I∪I)=tneg(I)∩tneg(I) ・・・(11) が成り立つ。
【0024】たとえば、図3(b)に示すように、
{a}および{c}に関して、アイテムセットが得られ
ている状態であれば、図3(c)に示すように、{a,
c}に関するアイテムセットを以下のように得ることが
できる。 tpos({a,c})=tpos({a})∩t
pos({c})={2,4}∩{2,4}={2,
4} tneg({a,c})=tneg({a})∩t
neg({c})={5}∩{1}={} このようにして、IおよびIに基づき、I∪I
を求めることができる。したがって、要素が1つのアイ
テムセットを求めておけば、演繹的に、全てのアイテム
セットが計算され得ることが理解できるであろう。
【0025】また、本発明においては、セット枚挙木(S
et-Enumeration Tree)を利用して、全てのアイテムセッ
トを枚挙する手法を採用している。あるアイテムセット
B={{a},{b},{c},{d}}を考える。B
の各アイテムが順序付きの集合であるとする。まず、木
の根として空集合{}を用意する。あるセット枚挙木中
のノード(アイテムセット)Nに対して、B中のあるア
イテムを追加し、その子ノードを作る。ただし、追加す
るアイテムは、N中の最大アイテムより大きいものを追
加する。
【0026】たとえば、図4に示すように、アイテムセ
ット{a,b,c}を作る際に、空集合{}から始ま
り、子ノード{a}が作られ、これに要素「b」が加え
られて、{a,b}が作られ、さらに、これに要素
「c」が加えられて、アイテムセット{a,b,c}が
得られる。つまり、セット枚挙木においては、木の根か
ら始まり、全てのノードには、それに至るまでの道が一
意的に決まる。上述したように、{a,b,c}を作り
出すために、一意的な道筋が決まっている。したがっ
て、{a,b}および{a,c}からも、{a,b}と
{b,c}からもアイテムセット{a,b,c}が作ら
れるという自体が生じ得ない。したがって、より簡単な
操作で、全てのアイテムセットを作成することが可能と
なる。
【0027】次に、枝刈りの原理について説明を加え
る。ここで、アイテムセットのアイテムが全順序で並ん
でいるとする。また、Iをm−アイテムセットとする。
ここに、m−アイテムセットとは、m個のアイテムを含
んだアイテムセットをいう。たとえば、2−アイテムセ
ットは、{a,b}であり、3−アイテムセットは、
{a,b,c}である。また、branch(I)を、
以下のように定義する。 branch(I)={m−アイテムセットIと始めの
m個のアイテムが一致するアイテムセット} このbranch(I)を、Iを根とする枝と称する。
【0028】図4の例においては、 branch({a,b})={{a,b},{a,
b,c},{a,b,c,d},{a,b,d}} となる。ここで、branch(I)は、Iのスーパー
セットではないことに注意されたい。たとえば、{a,
b}は、branch{a}に含まれるが、branc
h{b}には含まれない。さて、(3)式に示すよう
に、任意のアイテムセットに関して、chi(x
(J),y(J))(ただし、J⊇I)が成立すること
は先に述べた。したがって 、 u(I)=max{chi(y(I),y(I)),chi(x(I)−y(I),0)} ・・・(12) を定義すると、全てのJ(⊇I)に関して、chi(x
(J),y(J))が、u(I)で押さえられることが
わかる。
【0029】本発明においては、(12)式を利用し
て、セット枚挙木を作りながら枝刈りを行っている。
【0030】いま、アイテムセットIを根にして作られ
るbranch(I)に含まれるアイテムセットJを考
える。J⊇Iであるから、もしある閾値τについて、τ
>u(J)が成り立つなら、全てのJに関して、τ>u
(I)が成立する。図5において、1−アイテムセット
である{a}、{b}、{c}および{d}を作成した
後に、{a,c}を作成しようとした際に、τ>u
(c)となっていたとする。この場合には、{c}(符
号501参照)が削除され、同様に、branch
({c})(符号502参照)も削除される。さらに、
τ>u({c})≧u({a,c})であるため、
{a,c}およびbranch({a,c})も同様に
削除することができる(符号503、504参照)。こ
のようにして、セット枚挙木の作成および枝刈りを行う
ことにより、探索空間のサイズを著しく小さくすること
ができ、これにより、処理時間を飛躍的に減少すること
ができた。
【0031】[システム構成]以下、上記原理を適用し
た結合ルールシステムにつき、より詳細に説明を加え
る。図6は、本実施の形態にかかる結合ルール抽出シス
テムの構成を示すブロックダイヤグラムである。図6に
示すように、結合ルール抽出システム10は、入力装置
12と、結合ルールを抽出する処理をシステムに実行さ
せるためのプログラムを記憶したプログラム記憶部14
と、プログラムにしたがって、各構成部分の作動を制御
する制御部16と、処理対象となるデータを蓄積したデ
ータベース(DB)18と、垂直レイアウトにしたがっ
た初期的データを生成する初期的データ生成部20と、
セット枚挙木にしたがったアイテムセットを生成すると
ともに枝刈りを実行するアイテムセット生成/枝刈り処
理部22と、枝刈りの結果にしたがって有意なルールを
見出すルール抽出/出力部26と、得られたルールを蓄
積するルール記憶部28と、表示装置30と、プリンタ
32とを有している。
【0032】上記結合ルール抽出システム10は、たと
えば、パーソナルコンピュータに、CD−ROMやDV
D−ROMに収容されたプログラムを読み込むことによ
り、或いは、インターネットなどを介して外部のサーバ
から、プログラムをダウンロードすることにより実現さ
れる。
【0033】図7は、上記結合ルール抽出システム10
における処理の概略を示すフローチャートである。結合
ルール抽出システム10の初期的データ生成部20は、
まず、χ値の上界を示す閾値τを初期化(τ=0)と
ともに、演算処理に用いるパラメータkを初期化(k=
1)する(ステップ701)。次いで、不要なアイテム
セットの削除を含めた1−アイテムセットが生成される
(ステップ702)。
【0034】図8は、ステップ702の処理をより詳細
に示すフローチャートである。図8に示すように、初期
的データ生成部20は、DB18から、1−アイテムセ
ットであり、かつ、空でないようなIの集合{I|I:
1アイテムセット、かつ、t(I)≠φ}から、ある要
素Nを抽出し(ステップ801)、そのトランザクショ
ンであるtpos(N)およびtneg(N)を算出す
る(ステップ802)。
【0035】本発明の原理で述べた例(以下、単に「先
の例」と称する。)において、N∈{{a},{b},
{c}}であり、たとえば、{a}が抽出され、t
pos({a})={2,4}およびt
neg({a})={5}が算出される。次いで、(1
2)式にしたがったu(N)が算出される(ステップ8
03)。 u(N)=max{chi(y(N),y(N)),chi
(x(N)−y(N),0)} ここでは、(7)式にしたがって、 x(N)=|t(N)|、y(N)=|tpos(N)| が利用される。
【0036】次いで、初期的データ生成部20は、算出
されたu(N)が、閾値τ以上であり、かつ、正である
か否かを判断する(ステップ804)。ステップ804
においてイエス(Yes)と判断された場合には、Nがアイ
テムセットQの要素に追加される(ステップ80
5)。また、閾値τと、chi(x(N),y(N))とが比
較され、後者が大きい場合には、閾値τがその値に更新
される(ステップ806)。上記ステップ801〜80
6の処理は、全てのN∈{I}について実行される。
【0037】この処理により、垂直レイアウトにおける
t(I)={}であるようなアイテムセットが除去され、
また、u(N)が閾値τ以下であるようなアイテムセット
の枝刈りも実現できる。
【0038】先の例において、N∈{{a},{c},
{e}}である。t({b})=t({d})={}であ
り、これらは、ステップ801において抽出されるアイ
テムセットから除外される。また、N={a}に関し
て、t≦u(N)かつ0<u(N)を満たすことを確認
した上で、N={a}を、Qの要素とする。これによ
り、Q={{a}}となる。
【0039】また、N={c}に関しても、同様に、t
pos({c})={2,4}およびt
neg({c})={1}が算出された後、u(N)が
算出され、ステップ804にてu(N)と閾値等とが比
較される。ここでも、τ≦u(N)かつ0<u(N)を
満たすため、Q={{a},{c}}となる。N=
{e}に関しても、同様に、tpos({e})={}
およびtneg({e})={1,3}が算出された
後、u(N)が算出され、ステップ804にてu(N)
と閾値等とが比較される。しかしながら、ここでは、τ
≦u(N)かつ0<u(N)という条件を満たさないた
め、最終的に、Q={{a},{c}}が得られる。
【0040】このようにして、アイテムセットQおよ
び閾値τからなる初期的データの組(Q,τ)が得ら
れると、これがデータ一時記憶部24に記憶される。次
いで、アイテムセット生成/枝刈り処理部22が起動さ
れ、データの組(Q,τ)を利用して、アイテムセッ
トの生成および枝刈りが実行される。アイテムセット生
成/枝刈り処理部22は、パラメータk=1に設定する
とともに、枝刈りのために用いるアイテムセットB
を、初期的にQに設定する。次いで、パラメータk
に関して、アイテムセットの生成および枝刈り処理が実
行される(ステップ704)。図9は、ステップ704
をより詳細に示すフローチャートである。ここでは、ま
ず、tail(Q)<head(B)であるような、Q
∈Q,B∈Bが抽出される(ステップ901)。こ
れは、アイテムセットを生成する際に、セット枚挙木に
したがったアイテムセットの生成を実現するためのステ
ップであり、これにより、{{b},{c}}というア
イテムセットから、{{a},{b},{c}}という
アイテムセットが作られることを防止できる。
【0041】次いで、アイテムセット生成/枝刈り処理
部22は、Bに関して、 u(B)=max{chi(y(B),y(B)),chi
(x(B)−y(B),0)} を算出し、閾値τがu(B)より大きいか否かを判断す
る(ステップ902)。このステップ902にてイエス
(Yes)、つまり、閾値τがu(B)以上である場合に
は、当該Bを、アイテムセットであるBから削除す
る。
【0042】これに対して、ステップ902でノー、つ
まり、閾値τがu(B)より小さい場合には、(10)
式および(11)式にしたがって、tpos(N)およ
びt neg(N)が算出される。ここで、N(N⊇Q)
は、Qの要素に、Bの要素を追加したような、(k+
1)−アイテムセットである。 tpos(N)=tpos(B)∩tpos(Q) tneg(N)=tneg(B)∩tneg(Q)
【0043】上記tpos(N)およびtneg(N)
は、以下のu(N)を算出するために用いられる。つま
り、u(N)={chi(y(N),y(N)),chi(x
(N)−y(N),0)}において、 x(N)=|t(N)|=|tpos(N)∪tneg
(N)| y(N)=|tpos(N)| となるからである。
【0044】アイテムセット生成/枝刈り処理部22
は、u(N)がτより大きいか否かを判断する(ステッ
プ905)。このステップ905でイエス(Yes)と判断
された場合には、Nが、Qk+1の要素に追加される
(ステップ906)。ここでは、u(N)が、τより大
きければ、N=Q∪Bは「有意」なアイテムセットであ
ると判断され得るからである。その一方、 u(N)=max{chi(y(N),y(N)),chi
(x(N)−y(N),0)} ≧chi(x(M),y(M))(M⊇N) であるから、u(N)≦τであれば、Mは有意なアイテ
ムセットではないことになり、枝刈りの対象となる。ま
た、Nは、k−アイテムセットであるQと1−アイテ
ムセットであるBとの和集合であるから、これは、
(k+1)−アイテムセットであるQk+1の要素とな
る。
【0045】このような処理の後、閾値τと、chi
(x(N),y(N))とが比較され、後者が大きい場合に
は、閾値τがその値に更新される(ステップ907)。
ステップ901〜907の処理がQ、Bについて繰り返
し実行される。たとえば、あるQ∈Qを固定して、B
の要素であるそれぞれのBについて、ステップ901
〜907を実行し、次いで、Q∈Qを変更して、同様
の処理を繰り返せば良い。このようにして、すべてのQ
∈QおよびB∈Bに関して、ステップ901〜90
7の処理を実行することができる。
【0046】k=1、つまり、1−アイテムセットであ
るQについてステップ704の処理が終了すると、k
がインクリメントされ(ステップ706)、2−アイテ
ムセットであるQについてステップ704の処理が実
行される。このような処理が、Q=φとなるまで繰り
返される(ステップ705)。なお、処理で得られたQ
やτは、データ一時記憶部24に記憶される。
【0047】次いで、ルール抽出/出力部26が、閾値
τおよびτを導き出したアイテムセットQをデータ一
時記憶部24から読み出す(ステップ26)。このアイ
テムセットQkに示されるルールが最も「相関してい
る」ものと考えられる。ルール抽出/出力部26は、上
記τおよび関連するアイテムセットをルール記憶部28
に記憶するとともに、必要に応じて、ルール抽出結果を
表示装置28やプリンタ30に出力する。
【0048】本実施の形態よれば、セット枚挙木にした
がってアイテムセットの候補を作成し、作成の際に、当
該アイテムセットの候補が有意であるか否かを判断して
いる。したがって、全てのアイテムセットを走査する必
要が無く、これにより、探索空間を小さくすることがで
き、その結果、処理時間を著しく短縮することが可能と
なる。
【0049】次に、本発明の第2の実施の形態につき説
明を加える。第1の実施の形態においては、閾値τを更
新して、最も「有意な」アイテムセットを見出すように
構成していたが、第2の実施の形態においては、予め閾
値τを固定値として与え、アイテムセットIについて、
u(I)≧τであり、「有意」と考えられるようなアイ
テムセットIの集合を求めている。図10は、第2の実
施の形態にかかる結合ルール抽出システムにおける処理
の概略を示すフローチャートである。図10において、
ステップ1001および1004は、それぞれ、図7の
ステップ701および703に対応する。この実施の形
態においては、オペレータが入力装置(図示せず)を操
作することなどにより、閾値τが設定される(ステップ
1002)。
【0050】また、初期的データQの生成(ステップ
1003)は、図8の処理と、一部を除き略同一であ
る。第2の実施の形態においては、τの更新ステップ
(図8のステップ806)が省略される。アイテムセッ
トの生成および枝刈り(ステップ1005)も、図9の
処理と、一部を除き略同一である。第2の実施の形態に
おいては、τの更新ステップ(ステップ907)が省略
される。このような処理が繰り返された後(ステップ1
006、1007参照)、各Qk(k=1,2,・・
・)に含まれるアイテムセットが取り出される。
【0051】第2の実施の形態は、第1の実施の形態に
比較して枝刈りの効率は悪くなるが、有意と考えられる
アイテムセットの集合を得られるという利点もある。
【0052】[産業上の利用可能性]本発明にかかる走
査/枝刈りを利用すると、以下のような分野において、
「相関している」結合ルールを高速に見出すことが可能
である。ウェブページに同時に表れるキーワードの組、
特に、相関の大きなキーワードの組を高速に枚挙し、精
度の高い検索エンジンを構築することが可能となる。
【0053】遺伝子やタンパク質の変異と疾患との相関
関係を調べ、疾患に関連する遺伝子などの組み合わせを
見つけることが可能となる。また、薬剤の副作用情報と
遺伝子の発現情報との相関関係を見つけることが可能と
なる。ビジネスにおいて、顧客の危険度を評価するため
に有効なチェック項目を見出し、或いは、顧客のロイヤ
リティを特定するために利用することができる。
【0054】本発明は、以上の実施の形態に限定される
ことなく、特許請求の範囲に記載された発明の範囲内
で、種々の変更が可能であり、それらも本発明の範囲内
に包含されるものであることは言うまでもない。前記実
施の形態においては、関連を調べるためにχ値を利用
しているが、これに限定されるものではなく、任意の二
変数の凸関数に適用することができる。たとえば、エン
トロピー、gini index、相関係数(correlati
on coefficient)などに、上記枝刈りを適用することも
できる。
【0055】また、本発明は、単独で用いられて関連を
調べるだけでなく、他の方法と組み合わせることによ
り、より強力な関連を高速に調べることができる。たと
えば、図11に示すように、あるデータに対して、A、
B、CおよびDの4つに分割する条件を求めるとする。
この際に、利用される決定木を作成する際に、各ノード
(たとえば符号1101、1102参照)における分岐
決定するステップの各々において、本発明を適用するこ
とも可能である。また、本明細書において、一つの手段
の機能が、二つ以上の物理的手段により実現されても、
若しくは、二つ以上の手段の機能が、一つの物理的手段
により実現されてもよい。
【0056】
【発明の効果】本発明によれば、著しく高速に、相関し
ている結合ルールを見出すことができるシステムを提供
することが可能となる。
【図面の簡単な説明】
【図1】 図1は、結合ルールおよびχ値を説明する
ための図である。
【図2】 図2は、個々のトランザクションに関するデ
ータベースの構造例を示す図である。
【図3】 図3は、段階的なアイテムセットを説明する
ための図である。
【図4】 図4は、セット枚挙木によるアイテムセット
の構造例を示す図である。
【図5】 図5は、本発明にしたがった枝刈りの原理を
説明するための図である。
【図6】 図6は、本実施の形態にかかる結合ルール抽
出システムの構成を示すブロックダイヤグラムである。
【図7】 図7は、本実施の形態にかかる結合ルール抽
出システムにおける処理の概略を示すフローチャートで
ある。
【図8】 図8は、ステップ702の処理をより詳細に
示すフローチャートである。
【図9】 図9は、ステップ704をより詳細に示すフ
ローチャートである。
【図10】 図10は、第2の実施の形態にかかる結合
ルール抽出システムにおける処理の概略を示すフローチ
ャートである。
【図11】 図11は、本発明の他の応用例を説明する
ための図である。
【符号の説明】
10 結合ルール抽出システム 12 入力装置 14 プログラム記憶部 16 制御部 18 データベース 20 初期的データ生成部 22 アイテムセット生成/枝刈り処理部 24 データ一時記憶部 26 ルール抽出/出力部 28 ルール記憶部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 瀬々 潤 東京都北区豊島8−15−24−304 Fターム(参考) 5B075 PQ02 PQ03 PQ05 QP01

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 各々がトランザクションに対応するアイ
    テムセット間に形成される、条件と結論との間の結合ル
    ールから、相関の高い結合ルールを抽出する方法であっ
    て、 1つのアイテムを要素とするアイテムセットに関するト
    ランザクションの集合を生成するトランザクション生成
    ステップと、 前記トランザクション集合のうち、空集合を見出して、
    トランザクション集合が空集合となるようなアイテムセ
    ットを、結合ルールの抽出対象から除外する第1の枝刈
    りステップと、 前記アイテムセットに関して、結合ルールの相関を評価
    するためのニ変数の凸関数である評価関数f(x,y)
    を利用して(ただし、xは、条件を満たすようなトラン
    ザクションの数、yは結論を満たすようなトランザクシ
    ョンの数)、f(y(I),y(I))およびf(x
    (I)−y(I),0)(ただし、Iは生成された新た
    なアイテムセット)を算出して、これらのうち大きいも
    のを上界値として取得する第1の評価関数演算ステップ
    と、 前記上界値と所定の閾値とを比較する第1の比較ステッ
    プと、 前記上界値が所定の閾値よりも小さい場合に、前記アイ
    テムセットを、結合ルールの抽出対象から除外する第2
    の枝刈りステップと、 アイテムセットに関するトランザクションの集合を利用
    して、一方のアイテムセットの要素に、他の1つのアイ
    テムを要素とするアイテムセットの要素を加えたような
    新たなアイテムセットに関して、前記評価関数f(x,
    y)を利用して、f(y(I),y(I))およびf
    (x(I)−y(I),0)(ただし、Iは生成された
    新たなアイテムセット)を算出して、これらのうち大き
    いものを上界値として取得する第2の評価関数演算ステ
    ップと、 当該上界値と所定の閾値とを比較する第2の比較ステッ
    プと、 前記上界値が所定の閾値より小さい場合に、前記新たな
    アイテムセット、および、当該アイテムセットの要素
    に、他のアイテムセットを加えたような全てのアイテム
    セットを、前記結合ルールの抽出対象から除外する第3
    の枝刈りステップと、 前記第1の枝刈りステップ、アイテムセット生成ステッ
    プ、第2の評価関数演算ステップ、第2の比較ステッ
    プ、および、第3の枝刈りステップを繰り返すことによ
    り、前記閾値を超えた上界値をもつようなアイテムセッ
    トを取得するステップと、 前記アイテムセットを条件とする結合ルールを、相関の
    高い結合ルールとして出力するステップとを備えたこと
    を特徴とする結合ルールの抽出方法。
  2. 【請求項2】 さらに、前記閾値と、前記アイテムセッ
    トに関する評価関数f(x(I),y(I))の値であ
    る評価関数値とを比較するステップと、 前記評価関数値が前記閾値よりも大きい場合に、前記閾
    値として前記評価関数値を用いるステップとを備えたこ
    とを特徴とする請求項1に記載の結合ルールの抽出方
    法。
  3. 【請求項3】 前記第1の評価関数演算ステップが、 前記1つのアイテムを要素とするアイテムセットIにつ
    いて、 x(I)=|t(I)|,y(I)=|tpos(I)| (ただし、t(I)は、Iのトランザクション、tpos
    (I)は、トランザクションに結論のアイテムが含まれて
    いることを示す、正のトランザクション)を算出するス
    テップと、 前記算出された|t(I)|および|tpos(I)|を利
    用して評価関数値を算出するステップとを有することを
    特徴とする請求項1または2に記載の結合ルールの抽出
    方法。
  4. 【請求項4】 前記第2の評価関数演算ステップが、 Q(ただし、Qは、k個のアイテムを要素とするアイテ
    ムセット)と、B(ただし、Bは、1個のアイテムを要
    素とするアイテムセット)に関して、 tail(Q)<head(B) (ここで、tail(Q)は、Qの末尾の要素、head
    (B)は、Bの先頭の要素)を演算するステップと、 前記Bに関して、必要に応じて評価関数f(x,y)を
    利用して、f(y(B),y(B))およびf(x(B)−y
    (B),0)を算出して、これらのうち大きいものを上界
    値として取得するステップと、 当該上界値と所定の閾値とを比較するステップとを有
    し、 前記上界値が所定の閾値よりも大きい場合に、前記アイ
    テムセットQの要素に、アイテムセットBの要素を加え
    たような新たなアイテムセットに関して、所定の演算が
    実行され、その一方、前記上界値が所定の閾値以下であ
    る場合には、アイテムセットBを、第2の評価関数演算
    ステップにおける処理対象から除外することを特徴とす
    る請求項1ないし3の何れか一項に記載の結合ルールの
    抽出方法。
  5. 【請求項5】 前記第2の評価関数演算ステップが、 Q(ただし、Qは、k個のアイテムを要素とするアイテ
    ムセット)と、B(ただし、Bは、1個のアイテムを要
    素とするアイテムセット)に関して、 tpos(N)=tpos(B)∩tpos(Q) tneg(N)=tneg(B)∩tneg(Q) (ただし、N=Q∪B)を算出するステップと、 上記演算結果に基づき、アイテムセットNに関して、評
    価関数f(x,y)を利用して、f(y(N),y(N))
    およびf(x(N)−y(N),0)を算出して、これらのう
    ち大きいものを上界値として取得するステップと、 当該上界値と所定の閾値とを比較するステップと、 前記上界値が所定の閾値よりも大きい場合に、前記アイ
    テムセットNを、k個のアイテムからなるアイテムセッ
    トとして登録するステップとを有することを特徴とする
    請求項1ないし4の何れか一項に記載の結合ルールの抽
    出方法。
  6. 【請求項6】 各々がトランザクションに対応するアイ
    テムセット間に形成される、条件と結論との間の結合ル
    ールから、相関の高い結合ルールを抽出するシステムで
    あって、 前記アイテムセットを記憶するアイテムセット記憶手段
    と、 前記アイテムセット記憶手段に記憶されたアイテムセッ
    トのうち、1つのアイテムを要素とするアイテムセット
    を抽出して、当該アイテムセットに関するトランザクシ
    ョンの集合を生成するトランザクション生成手段と、 前記トランザクション集合のうち、空集合を見出して、
    トランザクション集合が空集合となるようなアイテムセ
    ットを、結合ルールの抽出対象から除外する第1の枝刈
    り手段と、 前記アイテムセットに関して、結合ルールの相関を評価
    するためのニ変数の凸関数である評価関数f(x,y)
    を利用して(ただし、xは、条件を満たすようなトラン
    ザクションの数、yは結論を満たすようなトランザクシ
    ョンの数)、f(y(I),y(I))およびf(x
    (I)−y(I),0)(ただし、Iは生成された新た
    なアイテムセット)を算出して、これらのうち大きいも
    のを上界値として取得する第1の評価関数演算手段と、 前記上界値と所定の閾値とを比較する第1の比較手段
    と、 前記上界値が所定の閾値よりも小さい場合に、前記アイ
    テムセットを、結合ルールの抽出対象から除外する第2
    の枝刈り手段と、 アイテムセットに関するトランザクションの集合を利用
    して、一方のアイテムセットの要素に、他の1つのアイ
    テムを要素とするアイテムセットの要素を加えたような
    新たなアイテムセットに関して、前記評価関数f(x,
    y)を利用して、f(y(I),y(I))およびf
    (x(I)−y(I),0)(ただし、Iは生成された
    新たなアイテムセット)を算出して、これらのうち大き
    いものを上界値として取得する第2の評価関数演算手段
    と、 当該上界値と所定の閾値とを比較する第2の比較手段
    と、 前記上界値が所定の閾値より小さい場合に、前記新たな
    アイテムセット、および、当該アイテムセットの要素
    に、他のアイテムセットを加えたような全てのアイテム
    セットを、前記結合ルールの抽出対象から除外する第3
    の枝刈り手段と、 前記第1の枝刈り手段、前記アイテムセット生成手段、
    第2の評価関数演算手段、第2の比較手段、および、第
    3の枝刈り手段による処理を繰り返すことにより取得さ
    れた、前記閾値を超えた上界値をもつようなアイテムセ
    ットを記憶する結果記憶手段と、 前記結果記憶手段に記憶されたアイテムセットに基づ
    き、当該アイテムセットを条件とする結合ルールを、相
    関の高い結合ルールとして出力する出力手段とを備えた
    ことを特徴とするシステム。
  7. 【請求項7】 さらに、前記閾値と、前記アイテムセッ
    トに関する評価関数f(x(I),y(I))の値であ
    る評価関数値とを比較し、前記評価関数値が前記閾値よ
    りも大きい場合に、前記閾値として前記評価関数値を用
    いるように、前記閾値を更新する閾値更新手段を備えた
    ことを特徴とする請求項6に記載のシステム。
  8. 【請求項8】 前記第1の評価関数演算手段が、 前記1つのアイテムを要素とするアイテムセットIにつ
    いて、 x(I)=|t(I)|,y(I)=|tpos(I)| (ただし、t(I)は、Iのトランザクション、tpos
    (I)は、トランザクションに結論のアイテムが含まれて
    いることを示す、正のトランザクション)を算出し、か
    つ、 前記算出された|t(I)|および|tpos(I)|を利
    用して評価関数値を算出するように構成されたことを特
    徴とする請求項6または7に記載のシステム。
  9. 【請求項9】 前記第2の評価関数演算手段が、 Q(ただし、Qは、k個のアイテムを要素とするアイテ
    ムセット)と、B(ただし、Bは、1個のアイテムを要
    素とするアイテムセット)に関して、 tail(Q)<head(B) (ここで、tail(Q)は、Qの末尾の要素、head
    (B)は、Bの先頭の要素)を演算し、 前記Bに関して、必要に応じて評価関数f(x,y)を
    利用して、f(y(B),y(B))およびf(x(B)−y
    (B),0)を算出して、これらのうち大きいものを上界
    値として取得し、かつ、 当該上界値と所定の閾値とを比較して、前記上界値が所
    定の閾値よりも大きい場合に、前記アイテムセットQの
    要素に、アイテムセットBの要素を加えたような新たな
    アイテムセットに関して、所定の演算が実行され、その
    一方、前記上界値が所定の閾値以下である場合には、ア
    イテムセットBを、第2の評価関数演算ステップにおけ
    る処理対象から除外するように構成されたことを特徴と
    する請求項6ないし8の何れか一項に記載のシステム。
  10. 【請求項10】 前記第2の評価関数演算手段が、 Q(ただし、Qは、k個のアイテムを要素とするアイテ
    ムセット)と、B(ただし、Bは、1個のアイテムを要
    素とするアイテムセット)に関して、 tpos(N)=tpos(B)∩tpos(Q) tneg(N)=tneg(B)∩tneg(Q) (ただし、N=Q∪B)を算出し、 上記演算結果に基づき、アイテムセットNに関して、評
    価関数f(x,y)を利用して、f(y(N),y(N))
    およびf(x(N)−y(N),0)を算出して、これらのう
    ち大きいものを上界値として取得し、かつ、 当該上界値と所定の閾値とを比較して、前記上界値が所
    定の閾値よりも大きい場合に、前記アイテムセットN
    を、k個のアイテムからなるアイテムセットとするよう
    に構成されたことを特徴とする請求項6ないし9の何れ
    か一項に記載のシステム。
  11. 【請求項11】 各々がトランザクションに対応するア
    イテムセット間に形成される、条件と結論との間の結合
    ルールから、相関の高い結合ルールを抽出するためにコ
    ンピュータを作動させるプログラムであって、 1つのアイテムを要素とするアイテムセットに関するト
    ランザクションの集合を生成するトランザクション生成
    ステップと、 前記トランザクション集合のうち、空集合を見出して、
    トランザクション集合が空集合となるようなアイテムセ
    ットを、結合ルールの抽出対象から除外する第1の枝刈
    りステップと、 前記アイテムセットに関して、結合ルールの相関を評価
    するためのニ変数の凸関数である評価関数f(x,y)
    を利用して(ただし、xは、条件を満たすようなトラン
    ザクションの数、yは結論を満たすようなトランザクシ
    ョンの数)、f(y(I),y(I))およびf(x
    (I)−y(I),0)(ただし、Iは生成された新た
    なアイテムセット)を算出して、これらのうち大きいも
    のを上界値として取得する第1の評価関数演算ステップ
    と、 前記上界値と所定の閾値とを比較する第1の比較ステッ
    プと、 前記上界値が所定の閾値よりも小さい場合に、前記アイ
    テムセットを、結合ルールの抽出対象から除外する第2
    の枝刈りステップと、 アイテムセットに関するトランザクションの集合を利用
    して、一方のアイテムセットの要素に、他の1つのアイ
    テムを要素とするアイテムセットの要素を加えたような
    新たなアイテムセットに関して、前記評価関数f(x,
    y)を利用して、f(y(I),y(I))およびf
    (x(I)−y(I),0)(ただし、Iは生成された
    新たなアイテムセット)を算出して、これらのうち大き
    いものを上界値として取得する第2の評価関数演算ステ
    ップと、 当該上界値と所定の閾値とを比較する第2の比較ステッ
    プと、 前記上界値が所定の閾値より小さい場合に、前記新たな
    アイテムセット、および、当該アイテムセットの要素
    に、他のアイテムセットを加えたような全てのアイテム
    セットを、前記結合ルールの抽出対象から除外する第3
    の枝刈りステップと、 前記第1の枝刈りステップ、前記アイテムセット生成ス
    テップ、第2の評価関数演算ステップ、第2の比較ステ
    ップ、および、第3の枝刈りステップを繰り返すことに
    より、前記閾値を超えた上界値をもつようなアイテムセ
    ットを取得するステップと、 前記アイテムセットを条件とする結合ルールを、相関の
    高い結合ルールとして出力するステップとを、前記コン
    ピュータに実行させることを特徴とするプログラム。
  12. 【請求項12】 さらに、前記閾値と、前記アイテムセ
    ットに関する評価関数f(x(I),y(I))の値で
    ある評価関数値とを比較するステップと、 前記評価関数値が前記閾値よりも大きい場合に、前記閾
    値として前記評価関数値を用いるステップとを、前記コ
    ンピュータに実行させることを特徴とする請求項11に
    記載のプログラム。
  13. 【請求項13】 前記第1の評価関数演算ステップにお
    いて、 前記1つのアイテムを要素とするアイテムセットIにつ
    いて、 x(I)=|t(I)|,y(I)=|tpos(I)| (ただし、t(I)は、Iのトランザクション、tpos
    (I)は、トランザクションに結論のアイテムが含まれて
    いることを示す、正のトランザクション)を算出するス
    テップと、 前記算出された|t(I)|および|tpos(I)|を利
    用して評価関数値を算出するステップとを、前記コンピ
    ュータに実行させることを特徴とする請求項11または
    12に記載のプログラム。
  14. 【請求項14】 前記第2の評価関数演算ステップにお
    いて、 Q(ただし、Qは、k個のアイテムを要素とするアイテ
    ムセット)と、B(ただし、Bは、1個のアイテムを要
    素とするアイテムセット)に関して、 tail(Q)<head(B) (ここで、tail(Q)は、Qの末尾の要素、head
    (B)は、Bの先頭の要素)を演算するステップと、 前記Bに関して、必要に応じて評価関数f(x,y)を
    利用して、f(y(B),y(B))およびf(x(B)−y
    (B),0)を算出して、これらのうち大きいものを上界
    値として取得するステップと、 当該上界値と所定の閾値とを比較するステップとを前記
    コンピュータに実行させ、 前記上界値が所定の閾値よりも大きい場合に、前記アイ
    テムセットQの要素に、アイテムセットBの要素を加え
    たような新たなアイテムセットに関して、所定の演算を
    実行し、その一方、前記上界値が所定の閾値以下である
    場合には、アイテムセットBを、第2の評価関数演算ス
    テップにおける処理対象から除外するように前記コンピ
    ュータを作動させることを特徴とする請求項11ないし
    13の何れか一項に記載の結合ルールの抽出方法。
  15. 【請求項15】 前記第2の評価関数演算ステップにお
    いて、 Q(ただし、Qは、k個のアイテムを要素とするアイテ
    ムセット)と、B(ただし、Bは、1個のアイテムを要
    素とするアイテムセット)に関して、 tpos(N)=tpos(B)∩tpos(Q) tneg(N)=tneg(B)∩tneg(Q) (ただし、N=Q∪B)を算出するステップと、 上記演算結果に基づき、アイテムセットNに関して、評
    価関数f(x,y)を利用して、f(y(N),y(N))
    およびf(x(N)−y(N),0)を算出して、これらのう
    ち大きいものを上界値として取得するステップと、 当該上界値と所定の閾値とを比較するステップと、 前記上界値が所定の閾値よりも大きい場合に、前記アイ
    テムセットNを、k個のアイテムからなるアイテムセッ
    トとして登録するステップとを、前記コンピュータに実
    行させることを特徴とする請求項11ないし14の何れ
    か一項に記載のプログラム。
JP2001269895A 2001-09-06 2001-09-06 結合ルールの抽出方法、抽出システムおよび結合ルール抽出プログラム Pending JP2003076937A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001269895A JP2003076937A (ja) 2001-09-06 2001-09-06 結合ルールの抽出方法、抽出システムおよび結合ルール抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001269895A JP2003076937A (ja) 2001-09-06 2001-09-06 結合ルールの抽出方法、抽出システムおよび結合ルール抽出プログラム

Publications (1)

Publication Number Publication Date
JP2003076937A true JP2003076937A (ja) 2003-03-14

Family

ID=19095632

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001269895A Pending JP2003076937A (ja) 2001-09-06 2001-09-06 結合ルールの抽出方法、抽出システムおよび結合ルール抽出プログラム

Country Status (1)

Country Link
JP (1) JP2003076937A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7584187B2 (en) 2005-07-08 2009-09-01 International Business Machines Corporation System, detecting method and program
JP2012084062A (ja) * 2010-10-14 2012-04-26 Internatl Business Mach Corp <Ibm> 意味のある頻出アイテムセットを抽出するシステム、方法及びプログラム
WO2012169137A1 (ja) 2011-06-08 2012-12-13 株式会社東芝 パターン抽出装置及び方法
CN110348669A (zh) * 2019-05-23 2019-10-18 中国平安财产保险股份有限公司 智能规则生成方法、装置、计算机设备及存储介质
CN113590180A (zh) * 2021-08-03 2021-11-02 北京奇艺世纪科技有限公司 一种检测策略生成方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7584187B2 (en) 2005-07-08 2009-09-01 International Business Machines Corporation System, detecting method and program
JP2012084062A (ja) * 2010-10-14 2012-04-26 Internatl Business Mach Corp <Ibm> 意味のある頻出アイテムセットを抽出するシステム、方法及びプログラム
US8954468B2 (en) 2010-10-14 2015-02-10 International Business Machines Corporation Extracting a meaningful frequent itemset
WO2012169137A1 (ja) 2011-06-08 2012-12-13 株式会社東芝 パターン抽出装置及び方法
US9569835B2 (en) 2011-06-08 2017-02-14 Kabushiki Kaisha Toshiba Pattern extracting apparatus and method
CN110348669A (zh) * 2019-05-23 2019-10-18 中国平安财产保险股份有限公司 智能规则生成方法、装置、计算机设备及存储介质
CN110348669B (zh) * 2019-05-23 2023-08-22 中国平安财产保险股份有限公司 智能规则生成方法、装置、计算机设备及存储介质
CN113590180A (zh) * 2021-08-03 2021-11-02 北京奇艺世纪科技有限公司 一种检测策略生成方法及装置
CN113590180B (zh) * 2021-08-03 2023-07-28 北京奇艺世纪科技有限公司 一种检测策略生成方法及装置

Similar Documents

Publication Publication Date Title
EP2994858B1 (en) Inferring entity attribute values
US20150310167A1 (en) Systems and methods for using paired-end data in directed acyclic structure
Youngs et al. Parametric Bayesian priors and better choice of negative examples improve protein function prediction
KR101426765B1 (ko) 협업 파트너 검색 서비스를 제공하는 시스템 및 방법
JP6155833B2 (ja) 伝達情報変動検知方法、伝達情報変動検知装置および伝達情報変動検知プログラム
Wu An algorithm for constructing parsimonious hybridization networks with multiple phylogenetic trees
US9747616B2 (en) Generating apparatus, generation method, information processing method and program
CN110247805B (zh) 一种基于k壳分解的识别传播关键节点的方法及装置
Alon et al. Dominance solvability in random games
JP2003076937A (ja) 結合ルールの抽出方法、抽出システムおよび結合ルール抽出プログラム
El Zahab et al. Minimisation of the wall shear stress gradients in bypass grafts anastomoses using meshless CFD and genetic algorithms optimisation
JP5622880B2 (ja) アイテム推薦システム、アイテム推薦方法およびアイテム推薦プログラム
WO2022183889A1 (zh) 贝叶斯网络结构的生成方法、装置、电子设备和存储介质
JP2011100208A (ja) 行動推定装置、行動推定方法および行動推定プログラム
JP2014228975A (ja) 検索装置、検索方法および検索プログラム
JP2003256435A (ja) 配列データ統合処理方法、配列データ統合処理装置及び配列データ統合処理プログラム
US20050112577A1 (en) Rna sequence analyzer, and rna sequence analysis method, program and recording medium
CN109710812A (zh) 一种网络表征算法稳定性度量方法
Maddulapalli et al. Sensitivity analysis for product design selection with an implicit value function
JP6326940B2 (ja) 中間言語の語句を評価する方法及び装置並びに機械翻訳方法及び装置
US20140164100A1 (en) System and method for providing recommendations
Gamage et al. Phylogenetic Tree Construction Using K-Mer Forest-Based Distance Calculation
US11972335B2 (en) System and method for improving classification in adversarial machine learning
JP4126166B2 (ja) モデル変換型データ分析装置、記録媒体及びプログラム
Sołtys et al. Boosting algorithms for uplift modeling