JP2002351898A

JP2002351898A - グラフ構造データの処理方法、処理システムおよびプログラム

Info

Publication number: JP2002351898A
Application number: JP2001154686A
Authority: JP
Inventors: Akihiro Inoguchi; 明博猪口
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-05-23
Filing date: 2001-05-23
Publication date: 2002-12-06
Also published as: US6985890B2; US20030225743A1

Abstract

(57)【要約】【課題】ＡＧＭアルゴリズムの効率性をさらに向上す
る。【解決手段】グラフ構造データからなるグラフデータ
ベースから最小支持度以上の支持度を持つグラフデータ
（多頻度グラフ）を効率的に抽出できるＡＧＭアルゴリ
ズムにおいて、グラフの頂点ラベルおよび辺ラベルの順
序付けを行う関数「relabel」を実行する（ステップ
１）。また、大きさｋの多頻度グラフの隣接行列集合Ｆ
_ｋから大きさｋ＋１の多頻度グラフ候補の隣接行列集合
Ｃ_ｋ+１を生成する関数「Newjoin」において、ＡＧＭア
ルゴリズムの３つの条件に加えて、第１生成行列が正準
形の場合にのみ第２生成行列と結合するという第４の条
件を付加する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、グラフ構造を持つ
データの処理方法、処理システムおよびプログラムに関
する。特に、グラフ構造データのデータベースからユー
ザが指定する最小支持度以上の支持度を持つグラフを効
率的に抽出する技術に適用して有効なものである。

【０００２】

【従来の技術】たとえば、特開平０９−２９７６８６号
公報には、リレーショナルデータベースの中から、その
データに含まれる属性間に存在する規則性を相関ルール
として抽出するバスケット分析の技術が記載されてい
る。この技術は、小売店において、客が同時にバスケッ
ト（買い物かご）に入れる商品の相関関係を求めるもの
であり、同時購入分析とも呼ばれる。たとえば、「パン
を買う客は、同時に牛乳も購入する」という相関ルール
は、「パン→牛乳」をいう形式で表現される。これらの
ルールはマーケティング戦略を練るのに用いられてい
る。

【０００３】バスケット分析では、相関ルールの候補と
して、全商品の組み合わせを列挙し、これが成り立って
いるかどうかを実際の商品購買データベースに検索して
一つずつ調べる必要がある。しかし、全ての相関ルール
の候補を調べるのは、意味のない相関ルールも調べるこ
とになる。相関ルールの中には、１人の客にしか適用で
いないような相関ルールも含まれ、このような相関ルー
ルを考慮することはマーケティング戦略を練るのには意
味がない。たとえば、小売店に１０，０００種類の商品
が存在した場合、考え得る組合せは２^{１００００}にもな
る。この全ての組合せの中には前記したような意味のな
い組合せも含まれるため、全ての商品の組み合わせを考
慮したのでは効率が悪く、しかも膨大な計算時間を要し
現実的でない。

【０００４】そこで前記公報記載の技術では、支持度と
確信度という基準を用いた枝狩りを行っている。また、
支持度の性質を利用して、高速に頻出する商品の組み合
わせを抽出するアプリオリアルゴリズムという手法が既
に提案されている。アプリオリアルゴリズムについて
は、たとえば、「R.Agrwal and R.Srikant, First algo
rithms for mining association rules, In Proceeding
s of the 20th VLDB Conference, pp.487-499, 1994.」
（文献１）に記載されている。前記公報や文献１の手法
は、スーパーマーケットのマーケット戦略以外にも、工
場での品質管理、膨大なカルテからの知識抽出など様々
なデータ処理に用いられている。

【０００５】ところで、前記公報や文献１の手法は、複
数の集合に頻出する部分集合を高速に抽出する手法であ
る。しかし、複数集合が複数のグラフ構造として与えら
れた場合には、上記手法では、複数のグラフ構造から、
効率よく頻繁に出現する部分構造を取り出すことはでき
ない。そのような場合には、グラフ構造からなるデータ
ベースから効率よくグラフパターンを抽出する手法が必
要になる。このような手法として、たとえば、本発明者
の提案によるＡＧＭアルゴリズム（Apriori-based Grap
h Miningアルゴリズム）がある。ＡＧＭアルゴリズムに
つては、「猪口明博，鷲尾隆，元田浩：多頻度パターン
抽出方法の有機塩素化合物への適用，第39 回人工知能
学基礎論研究会,1999.No. 6, pp.1052-1063,1994.」
（文献２）、「A. Inokuchi, T. Washio, T. Okada and
H. Motoda: Applying Algebraic Mining Method of Gr
aph Substructures to Mutagenesis Data Analysis, Pr
oc. ofInternational Workshop KDD Challenge on Real
-world Data, pp.41-46, PAKDD-2000 (2000).」（文献
３）、「A. Inokuchi, T. Washio and H. Motoda: An A
priori-based Algorithm for Mining Frequent Substru
ctures from Graph Data, Proc. of the 4th European
Conference on Principles and Practice of Knowledge
Discovery in Databases , pp.13-23, (2000).」（文
献４）あるいは「猪口明博，鷲尾隆，元田浩：多頻度グ
ラフパターンの完全な高速マイニング手法，人工知能学
会誌，Vol. 15, No. 6, pp.1052-1063,1994.」（文献
５）に記載されている。

【０００６】ＡＧＭアルゴリズムの手法は、たとえば、
化学構造と生理活性などが与えられたときに、構造と活
性の相関関係を求めるのに用いることができる。たとえ
ば前記文献３では、複数のニトロ有機化合物とガンの原
因となる変異原活性を示すデータが与えられたときに、
変異原活性を増幅する可能性のある相関ルールや抑制す
る可能性がある相関ルールが抽出されている。

【０００７】

【発明が解決しようとする課題】前記ＡＧＭアルゴリズ
ムでは、全探索空間のうち探索が不必要な探索空間を早
い段階で枝狩りすることによって効率化を図っている。
ＡＧＭアルゴリズムは効率よく多頻度グラフパターンを
抽出することができるが、効率的であるのは全探索に比
べ効率的であって、設定する支持度によっては膨大な計
算時間を要する問題がある。

【０００８】本発明の目的は、ＡＧＭアルゴリズムの効
率性をさらに向上することにある。すなわち、不必要な
検索空間の枝狩りの完全性を保ちながら、さらに効率よ
くグラフデータベースから多頻度グラフパターンを抽出
する手法を提供することにある。

【０００９】

【課題を解決するための手段】本発明の概要を説明すれ
ば以下の通りである。すなわち、本発明のデータ処理方
法は、グラフ構造データの集合であるグラフデータベー
スから、最小支持度以上の支持度を持つ多頻度グラフを
抽出するグラフ構造データの処理方法であって、大きさ
がｋ（ｋは自然数である）の多頻度グラフの隣接行列の
集合Ｆ_ｋから大きさがｋ＋１の多頻度グラフ候補の隣接
行列ｃ_ｋ+１の集合Ｃ_ｋ+１を生成する第１ステップと、
多頻度グラフ候補のうち、大きさがｋの誘導部分グラフ
として多頻度グラフでないグラフを含む多頻度グラフ候
補の隣接行列ｃ_ｋ+１を、集合Ｃ _ｋ+１から削除する第２
ステップと、隣接行列ｃ_ｋ+１のうち、同一のグラフを
表現する隣接行列の部分集合から唯一の隣接行列ｃ^'
_ｋ+１を選択する第３ステップと、隣接行列ｃ^' _ｋ+１に
ついてグラフデータベースをスキャンし、多頻度グラフ
である場合は、隣接行列ｃ^' _ｋ+１および隣接行列ｃ^'
_ｋ+１が表現するグラフと同一の構造を表す隣接行列ｃ
_ｋ+１を、大きさｋ＋１の多頻度グラフの隣接行列の集
合Ｆ_ｋ+１に追加する第４ステップと、を有し、第１ス
テップにおける隣接行列ｃ_ｋ+１の生成において、生成
の基礎となる多頻度グラフの隣接行列Ｘ_ｋとＹ _ｋの第ｋ
行ｋ列以外の要素が等しい第１の条件、および、隣接行
列Ｘ_ｋおよびＹ _ｋが各々表すグラフＧ（Ｘ_ｋ）およびＧ
（Ｙ_ｋ）の、第ｋ頂点以外の頂点ラベルが各々等しく、
かつ、グラフＧ（Ｘ_ｋ）の第ｋ頂点のラベルの順序がグ
ラフＧ（Ｙ_ｋ）の第ｋ頂点のラベルの順序以下である第
２の条件、および、グラフＧ（Ｘ _ｋ）およびＧ（Ｙ_ｋ）
の第ｋ頂点の頂点ラベルが等しく、かつ、隣接行列Ｘ_ｋ
のコードが隣接行列Ｙ_ｋのコード以下である第３の条
件、および、隣接行列Ｘ_ｋが正準形である第４の条件、
の全ての条件を満たしたときに隣接行列Ｘ_ｋおよびＹ _ｋ
を結合するものである。

【００１０】このようなグラフ構造データの処理方法に
よって、最小支持度以上の多頻度グラフをグラフデータ
ベースから効果的に抽出できる。特に前記第４条件を付
加することによって、従来技術のＡＧＭアルゴリズムの
完全性を損なうこと無く、さらに高速に、かつ少ないメ
モリ容量で、計算を実行できる。

【００１１】なお、前記第２ステップには、多頻度グラ
フ候補の隣接行列から誘導部分グラフの隣接行列を生成
するステップと、誘導部分グラフの隣接行列を正規化す
るステップと、を含み、正規化ステップには、正規化対
象の隣接行列Ｘ_ｋにおいて、ｍ≠ｋである自然数ｍにつ
き、Ｘ_mが正規形であるかを判断するステップと、判断
が真の場合は、隣接行列Ｘ_mを正準形に変換する変換行
列Ｓ_mを用いて隣接行列Ｘ_ｋを正準形に変換し、さらに
ｍを１増加するステップと、判断が偽の場合は、隣接行
列Ｘ_ｋのｍ−１行およびｍ−１列をｍ行およびｍ列と入
れ替え、さらにｍを１減ずるステップと、を含む。前記
第４条件を付加したことを考慮した正規化手段を提供で
きる。

【００１２】また、前記第１乃至第４ステップに加え
て、グラフ構造データの頂点ラベルまたは辺ラベルの順
序を入れ替えるステップを有することができる。頂点ラ
ベルの入れ替えは、各頂点ラベルがトランザクションに
出現する頻度の平均値の昇順に順序付けることができ
る。また、辺ラベルの入れ替えステップには、辺ラベル
がトランザクションに出現する頻度の平均値と辺が存在
しない場合の出現頻度の平均値とを比較し、平均値の少
ない方のラベルを低く順序づけるステップと、各辺ラベ
ルがトランザクションに出現する頻度の平均値の昇順に
順序付けるステップと、を有することができる。このよ
うなラベル入れ替えによって、計算速度が向上するよう
にラベルの順序づけを行うことができる。これにより、
計算効率の向上とメモリの節約を図ることができる。

【００１３】なお、上記方法の発明は、システムの発明
あるいはプログラムの発明として把握することも可能で
ある。

【００１４】

【発明の実施の形態】以下、本発明の実施の形態を図面
に基づいて詳細に説明する。ただし、本発明は多くの異
なる態様で実施することが可能であり、本実施の形態の
記載内容に限定して解釈すべきではない。なお、実施の
形態の全体を通して同じ要素には同じ番号を付するもの
とする。

【００１５】１．定義本実施の形態のＡＧＭアルゴリズムで用いる概念を以下
のように定義する。

【００１６】（定義１：ラベル付きグラフ）頂点の集合
Ｖ（Ｇ）、辺の集合Ｅ（Ｇ）、頂点ラベルの集合Ｌ（Ｖ
（Ｇ））、辺ラベルの集合Ｌ（Ｅ（Ｇ））が数１〜数４
のように与えられたとき、グラフＧは数５のように表現
される。

【００１７】

【数１】

【００１８】

【数２】

【００１９】

【数３】

【００２０】

【数４】

【００２１】

【数５】

【００２２】なお、頂点の数｜Ｖ（Ｇ）｜を、グラフＧ
の大きさとする。

【００２３】（定義２：隣接行列）定義１のようにグラ
フが与えられたとき、グラフの構造を行列形式で表現で
きる。本明細書では、このようなグラフを表現する行列
を隣接行列と称する。隣接行列の行および列に数１の各
頂点を割り当て、数２の各辺を行列の各要素に割り当て
る。数５のようにグラフＧが与えられたとき、その隣接
行列Ｘの（ｉ，ｊ）要素ｘ_ｉｊは数６のようになる。

【００２４】

【数６】

【００２５】ここで、ｎｕｍ（ｌｂ）はラベルｌｂに割
り当てられた正の値である。また、隣接行列Ｘが表すグ
ラフ構造をＧ（Ｘ）とする。

【００２６】（定義３：ラベル間順序関係）定義２のよ
うにあるグラフＧの隣接行列を定義する場合、グラフの
各頂点を行列の何れの行（列）に割り当てるかによって
行列が相違する。すなわち、１つのグラフは複数の隣接
行列で表現でき、逆に１つの隣接行列表現から必ず１つ
のグラフ構造が導出されるが、複数の隣接行列によって
同一のグラフ構造を表現している場合がある。そこで隣
接行列によるグラフの表現数を減らすために、頂点のラ
ベル間に数７に示すような順序関係を設ける。

【００２７】

【数７】

【００２８】さらに、グラフＧの隣接行列Ｘ_ｋは数８の
関係を満たす。

【数８】

【００２９】なお、隣接行列の第ｉ行（ｉ列）に相当す
る頂点を第ｉ頂点と呼ぶ。

【００３０】（定義４：隣接行列のコード）後述する多
頻度グラフ候補の数を小さくするため、隣接行列のコー
ドを定義する。コードは隣接行列の大小関係を識別する
ためのものであり、隣接行列Ｘ_ｋの要素ｘ_ｉｊを用いて
表現する。無向グラフ、有向グラフに対して各々数９、
数１０のように定義する。

【００３１】

【数９】

【００３２】

【数１０】

【００３３】（定義５：誘導部分グラフ）数５のように
グラフＧが与えられたとき、Ｇの誘導部分グラフＧ_ｓは
数１１のように定義される。そして、Ｇ_ｓは数１２およ
び数１３の条件を満たす。

【００３４】

【数１１】

【００３５】

【数１２】

【００３６】

【数１３】

【００３７】（定義６：支持度）本実施の形態のＡＧＭ
アルゴリズムは、グラフ構造データベースＧＤが与えら
れたとき、それらの中にある閾値以上の頻度で誘導部分
グラフとして含まれるグラフ構造を効率よく抽出するア
ルゴリズムである。このため、グラフデータベースＧＤ
からグラフを抽出するか否かの判断指標として支持度を
定義する。すなわち、グラフＧが与えられたとき、グラ
フＧの支持度ｓｕｐは数１４のように定義される。

【００３８】

【数１４】

【００３９】２．本実施の形態のＡＧＭアルゴリズム本実施の形態のＡＧＭアルゴリズムでは従来技術で説明
したアプリオリアルゴリズムと同様に、ユーザが最小支
持度を設定して、最小支持度以上の支持度をもつグラフ
構造のみを抽出する。最小支持度以上の支持度を有する
グラフを多頻度グラフと呼ぶ。

【００４０】多頻度グラフの抽出には、以下の性質を利
用する。すなわち、最小支持度に満たない支持度のグラ
フを誘導部分グラフとして含むグラフの支持度は最小支
持度以上になることはない。この性質は数１４の定義か
ら明らかである。この性質を利用すれば、大きさ１の多
頻度グラフから順次大きな多頻度グラフの候補を生成す
るアルゴリズムを採用することによって、早い段階で不
要なグラフ候補を削除できる。

【００４１】２．１本実施の形態のＡＧＭアルゴリズ
ムの概要まず、大きさ１のグラフから処理を開始する。大きさ
１、つまり頂点の数が１のグラフを生成する。グラフは
頂点ラベルの数だけ生成されることになる。この大きさ
１のグラフが多頻度グラフであるかはグラフデータベー
スを参照することにより判断することになる。グラフ毎
に多頻度グラフであるかを判断し、多頻度グラフの集合
を生成する。

【００４２】大きさ１の多頻度グラフの集合から、頂点
数が１つ増えた大きさ２の多頻度グラフ候補を生成す
る。ただし、この候補生成の処理は、後に説明するよう
に隣接行列表現を用いる。また後に説明する４つの条件
を満足するように処理する。なお、本明細書では、この
段階で生成された多頻度グラフ候補に相当する隣接行列
を正規形と称する。

【００４３】次に、生成した多頻度グラフ候補の誘導部
分グラフが多頻度グラフであるかを判断する。多頻度グ
ラフでないグラフを誘導部分グラフとして含む候補はこ
の段階で削除される。前記したとおり、多頻度グラフで
ないグラフを誘導部分グラフに含むグラフは多頻度グラ
フではないので、以後このグラフに基づく探索操作（候
補の生成）を行う必要がない。これにより膨大な探索空
間のうち、探索する必要がない空間を確定することがで
き、探索空間の一部を探索することによって、全ての候
補を抽出することが可能になる。なお、多頻度グラフ候
補よりも大きさが１つ小さい多頻度グラフは既に求めら
れているため、その誘導部分グラフが多頻度グラフであ
るかの判断は既に求められている多頻度グラフを参照し
て行えばよく、グラフデータベースを参照する必要がな
い。ただし、多頻度グラフ候補の誘導部分グラフの隣接
行列が正規形でない可能性があるので、正規化する必要
がある。

【００４４】次に、生成された多頻度グラフ候補の隣接
行列が重複して同一のグラフ構造を表現している可能性
があるので、同一のグラフ構造を表す複数の隣接行列が
ある場合には、そのうち最もコードの小さな行列を選択
する。このように選択された行列を本明細書では正準形
と称する。

【００４５】次に、正準形の隣接行列に相当するグラフ
候補について、実際にグラフデータベースを検索し、多
頻度グラフであるかを検査する。多頻度グラフである場
合には多頻度グラフ候補を多頻度グラフとする。

【００４６】上記操作をグラフの大きさｋを１つずつ順
次増加して行い、多頻度グラフが抽出されない大きさｋ
まで処理を続ける。このようなアルゴリズムによって、
探索空間の一部を探索することによりグラフデータベー
スから全ての多頻度グラフを抽出することが可能にな
る。

【００４７】２．２多頻度グラフ候補の生成前記した通り、大きさｋの多頻度グラフから、大きさｋ
＋１の多頻度グラフの候補を生成する。生成処理には隣
接行列表現を用い、以下の条件１〜条件４に従う。

【００４８】（条件１）大きさがｋの多頻度グラフを２
つ考る。その隣接行列を数１５、数１６に示すようなＸ
_ｋ，Ｙ_ｋとする。

【００４９】

【数１５】

【００５０】

【数１６】

【００５１】Ｘ_ｋ，Ｙ_ｋのｋ行及びｋ列以外の要素が全
て等しいとき、すなわち各々第ｋ頂点を除いて構造が等
しいとき、数１７のようにＸ_ｋ，Ｙ_ｋを結合し、Ｚ
_ｋ+１を生成する。

【００５２】

【数１７】

【００５３】ここで、Ｘ_ｋ-１は大きさｋ−１のグラフ
の隣接行列、ｘ_１，ｘ_２，ｙ_１，ｙ _２は（ｋ−１）×１
の縦ベクトルである。Ｘ_ｋ，Ｙ_ｋをそれぞれＺ_ｋ+１の
第１生成行列、第２生成行列と呼ぶ。

【００５４】（条件２）生成されるＺ_ｋ+１の頂点は数
１８の関係がある。

【００５５】

【数１８】

【００５６】ただし、隣接行列Ｚ_ｋ+１の（ｋ，ｋ＋
１）要素、（ｋ＋１，ｋ）要素の値をＸ_ｋ，Ｙ_ｋから決
めることはできない。Ｚ_ｋ+１のグラフ構造の可能性と
して、無向グラフの場合、各ラベルを持つ辺が存在する
場合と、辺が存在しない場合が考えられる．そこで、｜
Ｌ（Ｅ（Ｇ））｜＋１個の隣接行列を生成する。有向グ
ラフの場合も同様に考える。

【００５７】（条件３）ここでグラフ構造Ｇ（Ｘ_ｋ），
Ｇ（Ｙ_ｋ）の第ｋ頂点のラベルが等しい場合、Ｙ_ｋ，Ｘ
_ｋをそれぞれ第１生成行列、第２生成行列として、２つ
の隣接行列を結合した場合、この隣接行列は冗長であ
る。このような冗長な生成をさけるため、数１９の関係
にある場合にのみ隣接行列を結合する。

【００５８】

【数１９】

【００５９】（条件４）前記条件１〜３に加えて、以下
の条件を付加する。すなわち、第１生成行列となる隣接
行列Ｘ_ｋが正準形である場合のみ、第２生成行列Ｙ_ｋと
結合をする。

【００６０】このような条件は、以下のような性質（定
理１）を利用することに基づく。（定理１）「正準形の第１生成行列は正準形である」（証明）ある正準形をＸ_ｋ、その第１生成行列、第
２生成行列をそれぞれＸ _ｋ-１，Ｙ_ｋ-１とする。もし、
Ｘ_ｋ-１が正準形でないと仮定すると、構造がＧ（Ｘ
_ｋ-１）と等しく、コードがｃｏｄｅ（Ｘ_ｋ-１）より小
さな隣接行列Ｘ_ｃ, _ｋ-１が存在する。このとき、隣接行
列Ｘ_ｃ,ｋ-１と結合の条件を満たし、構造がＧ（Ｙ
_ｋ-１）と等しい隣接行列をＹ^' _ｋ-１とすると、Ｘ
_ｃ,ｋ-１とＹ^' _ｋ-１を結合してできる隣接行列Ｘ^' _ｋの
コードはＸ_ｋのコードより小さくなる。これはＸ_ｋが正
準形であることに矛盾する。

【００６１】以上の４つの条件に従うように隣接行列を
生成する。このように生成された隣接行列は正規形であ
る。

【００６２】２．３誘導部分グラフのチェック結合してできた隣接行列のグラフ構造Ｇ（Ｚ_ｋ+１）が
多頻度グラフであるための必要条件はグラフＧ（Ｚ
_ｋ+１）の全ての誘導部分グラフが多頻度グラフである
ことである。そこで、Ｇ（Ｚ_ｋ+１）の第ｉ頂点（１≦
ｉ≦ｋ−１）を除去した誘導部分グラフの隣接行列が全
て多頻度グラフを表す隣接行列であれば、それを多頻度
グラフの候補とする。このアルゴリズムでは正規形の隣
接行列しか探索生成しないために、第ｉ頂点を除去した
グラフの隣接行列が正規形でなければ、それが多頻度グ
ラフであるかを過去の探索から容易にチェックする事が
できない。よって、非正規形の隣接行列に対して正規化
する手法が必要である。正規化の具体例は後に説明す
る。

【００６３】２．４正準形全ての多頻度グラフの候補を取り出した後、実際にデー
タベースをスキャンする事によって頻度を求める。しか
し、正規形の中にも同じグラフを表す隣接行列が存在す
る。頻度の計算の前に、どの隣接行列が同じグラフを表
す行列であるかを知る必要がある。そこで、以下のよう
に正準形を定める。

【００６４】（定義７）グラフＧを表現する正規形の集
合ＮＦ（Ｇ）が与えられたとき、ＮＦ（Ｇ）の中で最小
のコードを持つ隣接行列Ｘ_ｃを本明細書では正準形とよ
ぶ。Ｘ_ｃは数２０のように定義される。

【００６５】

【数２０】

【００６６】またＸ_ｋとＹ_ｋのグラフが等しいとき、Ｘ
_ｋからＹ_ｋへの変換行列Ｓ_ｋを考える。Ｓ_ｋの要素ｓ
_ｉ，ｊは数２１のようになる。

【００６７】

【数２１】

【００６８】よって、Ｙ_ｋは隣接行列Ｘ_ｋと変換行列Ｓ
_ｋを用いて数２２のように表される。

【００６９】

【数２２】

【００７０】なお、右肩の添字「Ｔ」は転置行列である
ことを示す。

【００７１】次に正準形への変換行列の効率的な探し方
が必要である。全ての隣接行列は正準形への変換行列を
持ち、Ｘ_ｋの正準形とそれへの変換行列を探す際に、大
きさがｋ−１の多頻度グラフの正準形への変換行列は全
て既知であるとする。Ｇ（Ｘ _ｋ）の第ｍ頂点（１≦ｍ≦
ｋ）を除去し、その隣接行列を正規化する。正規形への
変換行列をＴ^ｍ _ｋ-１とする。正規化された隣接行列の
正準形への変換行列をＳ^ｍ _ｋ-１とする。Ｘ_ｋの変換行
列Ｓ^ｍ _ｋ，Ｔ^ｍ _ｋをＳ^ｍ _ｋ-１，Ｔ^ｍ _ｋ-１から生成す
る。

【００７２】

【数２３】

【００７３】

【数２４】

【００７４】ここで、ｓ_ｉ，ｊ，ｓ^ｍ _ｉ，ｊ，
ｔ_ｉ，ｊ，ｔ^ｍ _ｉ，ｊはそれぞれＳ^ｍ _ｋ，Ｓ ^ｍ _ｋ-１，
Ｔ^ｍ _ｋ，Ｔ^ｍ _ｋ-１の要素である。Ｘ_ｋに対する正準形
のコードは、数２５で与えられ、正準形への変換行列は
上記の式を最小にするＴ^ｍ _ｋＳ^ｍ _ｋである。

【００７５】

【数２５】

【００７６】しかし、式の計算途中で正準形への変換行
列Ｓ^' _ｋが既知である隣接行列（Ｔ ^ｍ _ｋＳ^ｍ _ｋ）^ＴＸ_ｋ
（Ｔ^ｍ _ｋＳ^ｍ _ｋ）が見つかれば、Ｘ_ｋの正準形は数２６
のように与えられ、全てのｋについて計算する必要がな
い。

【００７７】

【数２６】

【００７８】但し、上記の手法では正準形を見つけるこ
とができない場合がある。このときはＸ_ｋの各頂点の順
列を取り正準形とその変換行列を探索する。

【００７９】２．５ラベルの順序関係定義３で頂点ラベル間に順序関係を設けることを説明し
た。しかし、この順序付けにより生成される正規形の数
が異なる。例えば、データベースに含まれる頂点ラベル
がＡとＢの２種類であるとする。さらに、数２７で示す
隣接行列が表すグラフ構造のみが多頻度グラフでないと
する。

【００８０】

【数２７】

【００８１】頂点ラベルの順序関係がＡ＜Ｂである場
合、大きさ３の正規形の隣接行列は１７個となる。一
方、Ｂ＜Ａである場合には、大きさ３の正規形の隣接行
列は１８個となる。つまり頂点ラベルの順序付けによっ
て正規形の数が異なる。ここでは大きさ３の正規形のみ
を考えているので、頂点ラベルの順序付けによる差は１
個であるが、さらに大きな隣接行列を考えていくと、そ
の差は指数的に増加する。

【００８２】生成される正規形を少なくするためには、
多頻度グラフでないグラフに多く含まれる頂点ラベルか
ら順に順序付けをすると良いと考えられる。そこで、数
２８のように、各ラベルがトランザクションに含まれる
数の平均値の昇順に順序関係を割り当てる。ａｖｇ（ｌ
ｂ_ｉ）はラベルｌｂ_ｉがトランザクションに含まれる数
の平均値である。

【００８３】

【数２８】

【００８４】辺ラベルの場合も、同様に各辺ラベルがト
ランザクションに含まれる数の平均値の昇順に割り当て
る。しかし、疎グラフ（sparce graph）である場合、各
トランザクションを表す隣接隣接行列には、頂点間に辺
がないことを示す「０」が各辺ラベル以上に存在する。
そこで、０以上の整数値を返す関数ｆを考え、隣接行列
の各要素の値を数２９のように再度割り当てる。ここで
ａｖｇ（０）は、トランザクションを示す隣接行列に含
まれる「０」の数の平均値である。

【００８５】

【数２９】

【００８６】さらに、隣接行列のコードは数３０のよう
になる。

【００８７】

【数３０】

【００８８】３．処理フローおよび疑似プログラムコー
ド前記したアルゴリズムに基づく処理フローの一例を以
下に説明する。図１は、本実施の形態のＡＧＭアルゴリ
ズムの処理フローの一例を示したフローチャートであ
る。また、ＡＧＭアルゴリズムの疑似プログラムコード
の一例を以下に示す。なお、疑似コードに右側に示す括
弧内の数字は行番号である（以下同様である）。ＡＧＭ
プログラムの関数名は「AGM+」である。関数「AGM+」に
は、引数として最小支持度(mim_sup)が渡され、戻り値
は多頻度グラフである。

【００８９】 (101) AGM+(min_sup) (102) { (103) relabel(); (104) F1={大きさ1の多頻度グラフ} (105) for(k=1;Fk≠Null;k++) (106) Ck+1=Newjoin(Fk); (107) Ck+1=Newckeck(Ck+1,Fk); (108) C'k+1=canonical(Ck+1); (109) forall c'∈C'k+1 (110) forall データベース中のグラフ構造g (111) if gがc'を誘導部分グラフとして含んでいる (112) c'.count++; (113) end (114) end (115) end (116) Fk+1={c∈Ck+1| c'∈C'k+1, G(c)=G(c'), c'.count≧min_sup} (117) end (118) return ∪k Fk (119) }

【００９０】ＡＧＭプログラムの関数名は「AGM+」であ
る。関数「AGM+」には、引数として最小支持度(mim_su
p)が渡され(行番号１０１)、戻り値は多頻度グラフであ
る(行番号１１８)。Fkは大きさkの多頻度グラフを表す
隣接行列の集合であり、Ckは多頻度グラフの候補を表す
隣接行列の集合である。また、C'kは多頻度グラフの候
補を表す正準形の集合である。cはCkの要素、すなわち
隣接行列であり、G(c)はそのグラフ構造を示している。

【００９１】行番号１０３の関数「relabel」は頂点ラ
ベルの順序付け、辺ラベルの順序付けを変更するための
関数である。行番号１０６の関数「Newjoin」は前記し
た４つの条件に合致する大きさkの隣接行列を結合し
て、多頻度グラフの候補を表す隣接行列の集合を返す関
数である。行番号１０７の関数「Newcheck」は大きさk
の多頻度グラフの候補に含まれるk個の誘導部分グラフ
が多頻度グラフであるかどうかチェックする関数であ
る。戻り値として、誘導部分グラフが全て多頻度グラフ
である多頻度グラフの候補を表す隣接行列の集合を返
す。行番号１０８の関数「canonical」は大きさkの多頻
度グラフの候補を表す隣接行列のうち，正準形であるも
のを返す関数である。

【００９２】関数「relabel」の実行後（行番号１０
３，ステップ１）、大きさ１の多頻度グラフからはじめ
（行番号１０４，ステップ２）、順次大きな多頻度グラ
フを抽出する（ステップ４〜ステップ１６、行番号１０
５〜１１７）。処理は、関数「Newjoin」（行番号１０
６，ステップ５），関数「Newcheck」（行番号１０７，
ステップ６），関数「canonical」（行番号１０８，ス
テップ７）を経て残った多頻度グラフの候補について、
実際にデータベースをスキャンし（行番号１０９〜１１
５，ステップ８〜１３）、実際の多頻度グラフを抽出す
る（行番号１１８，ステップ１４）。

【００９３】以下、前記各関数を詳細に説明する。図２
は、ラベル順序化の一例を示したフローチャートであ
る。また、関数「relabel」の疑似プログラムコードの
一例を以下に示す。

【００９４】 (201) relabel() (202) { (203) データベースをスキャンし，各ラベルの出現頻度を数え上げる; (204) forall 頂点ラベルL1 (205) forall 頂点ラベル L2 (206) if L1≠L2 (207) if avg(L1)<avg(L2) (208) L1<L2という順序付けをする (209) else (210) L2<L1という順序付けをする (211) end (212) end (213) end (214) end (215) forall 辺ラベルL1 (216) if avg(L1)<avg(0) (217) f(L1)<f(0)となる数値を割り当てる (218) esle (219) f(0)<f(L1)となる数値を割り当てる (220) end (221) forall 辺ラベル L2 (222) if L1≠L2 (223) if avg(L1)<avg(L2) (224) f(L1)<f(L2)となる数値を割り当てる (225) else (226) f(L2)<f(L1)となる数値を割り当てる (227) end (228) end (229) end (230) end (231) }

【００９５】まず、データベースをスキャンし、各頂点
ラベルおよび辺ラベルの出現頻度を数え上げる（行番号
２０３，ステップ２０）。

【００９６】次に全ての頂点ラベルＬ１について、ステ
ップ２１からステップ２８の間の以下の処理を繰り返す
（行番号２０４〜２１４）。全ての頂点ラベルＬ２につ
いて（行番号２０５〜２１３，ステップ２２〜２７）、
Ｌ１と相違するかを判断し（行番号２０６，ステップ２
３）、相違する場合にはその出現頻度の平均値を比較す
る（行番号２０７，ステップ２４）。Ｌ１の平均値の方
がＬ２の平均値より小さい時にはＬ１＜Ｌ２という順序
付けを行い（行番号２０８，ステップ２５）、大きい場
合にはＬ２＜Ｌ１という順序づけを行う（行番号２１
０，ステップ２６）。これにより頂点ラベルの順序化が
行われる。

【００９７】次に全ての辺ラベルＬ１について、ステッ
プ２９からステップ３９の間の以下の処理を繰り返す
（行番号２１５〜行番号２３０）。まず、辺ラベルＬ１
の出現頻度の平均値と辺が無い場合（「０」の時）の出
現頻度の平均値を比較し（ステップ３０，行番号２１
６）、Ｌ１の出現頻度の平均値が０の出現頻度の平均値
より小さいとき、ｆ（Ｌ１）＜ｆ（０）となる数値を割
り当てる（ステップ３１，行番号２１７）。Ｌ１の出現
頻度の平均値が０の出現頻度の平均値より大きいとき
は、ｆ（Ｌ１）＞ｆ（０）となる数値を割り当てる（ス
テップ３２，行番号２１９）。次に、全ての辺ラベルＬ
２について（ステップ３３〜３８、行番号２２１〜２２
９）、Ｌ１と相違するかを判断し（行番号２２２，ステ
ップ３４）、相違する場合にはその出現頻度の平均値を
比較する（行番号２２３，ステップ３５）。Ｌ１の平均
値の方がＬ２の平均値より小さい時にはｆ（Ｌ１）＜ｆ
（Ｌ２）となる数値を割り当て（行番号２２４，ステッ
プ３６）、大きい場合にはｆ（Ｌ２）＜ｆ（Ｌ１）とな
る数値を割り当てる（行番号２２６，ステップ３７）。
これにより、辺ラベルの順序化が行える。なお、ここで
の関数ｆは、０以上の整数値を返す任意の関数である。

【００９８】図３は、関数「Newjoin」の処理フローの
一例を示したフローチャートである。また、関数「Newj
oin」の疑似プログラムコードの一例を以下に示す。引
数は大きさkの多頻度グラフを表す隣接行列の集合であ
り、戻り値は大きさk+1の多頻度グラフの候補を表す隣
接行列の集合である。

【００９９】 (301) Newjoin(Fk) (302) { (303) Ck+1=NULL; (304) forall Xk∈Fk (305) forall Yk∈Fk (306) if Xk-1=Yk-1 (307) if lb(vi;vi∈V(G(Xk)))= lb(vi;vi∈V(G(Yk))) (308) & lb(vk;vk∈V(G(Xk)))≦lb(vk;vk∈V(G(Yk))) (309) if (lb(vk;vk∈V(G(Xk)))<lb(vk;vk∈V(G(Yk)))) || (310) (lb(vk;vk∈V(G(Xk)))=lb(vk;vk∈V(G(Yk))) & code(Xk)< code(Yk)) (311) if Xkが正準形 (312) Z k+1=JOIN(Xk,Yk); (313) C k+1= C k+1∪Zk+1; (314) end (315) end (316) end (317) end (318) end (319) end (320) return Ck+1; (321) }

【０１００】前記プログラムコードにおいて、たとえば
行番号３０４の「forall」コマンドは、前記したプログ
ラムコードの場合と同様である。よって以下の説明で
は、その主要部についてのみ説明を行う。

【０１０１】関数「Newjoin」は前記した４つの条件に
合致する大きさkの多頻度グラフの2つを結合して、多頻
度グラフの候補として返す関数である。Xk-1，Yk-1はそ
れぞれXk，Ykの第k行k列を除いた隣接行列を表す。関数
「JOIN」は実際に隣接行列Xkと隣接行列Ykを結合して大
きさk+1の隣接行列を生成する。行番号３０６のｉｆ文
が前記条件１であり（ステップ４３）、行番号３０７，
３０８のｉｆ文が前記条件２を示す（ステップ４４）。
また、行番号３０９，３１０のｉｆ文が前記条件３であ
り（ステップ４５）、行番号３１１のｉｆ文が前記条件
４である（ステップ４６）。これら条件の全てを満たし
た場合に、関数「JOIN」が実行され（行番号３１２，ス
テップ４７）、集合Ck+1に追加される（行番号３１３，
ステップ４８）。

【０１０２】図４は、関数「Newcheck」の処理フローの
一例を示したフローチャートである。また、関数「Newc
heck」の疑似プログラムコードの一例を以下に示す。関
数「Newcheck」の引数は多頻度グラフの候補を表す隣接
行列の集合であり、戻り値は部分グラフが全て多頻度グ
ラフである多頻度グラフを表す隣接行列の集合である。

【０１０３】 (401) NewCheck(Ck) (402) { (403) forall Xk ∈Ck (404) for(m=1;m≦k;m++) (405) Xkの第m行，及び第m列を除いた大きさm-1の隣接行列をXk-1(m)とする． (406) X'k-1=Newnormal(Xk-1(m)); (407) If X'k-1がFk-1に含まれない． (408) XkをCkから削除 (409) break; (410) end (411) end (412) end (413) }

【０１０４】関数「check」は大きさkの多頻度グラフの
候補に含まれるk個の誘導部分グラフが多頻度グラフで
あるかどうかチェックする。誘導部分グラフは隣接行列
の第m行及び第m列を取り除いた行列であり、ここではXk
-1(m)とする（行番号４０５，ステップ５５）。Fk-1に
は正規形の隣接行列しか含まれていないため、Xk-1(m)
が正規形でない場合にはそれが多頻度グラフを表す隣接
行列であるかどうか容易にチェックすることができな
い。このため関数「Newnormal」で正規化を行う（行番
号４０６，ステップ５６）。正規化されたX'k-1が多頻
度グラフを表す隣接行列でなければG(Xk)は多頻度グラ
フではないのでXkをCkから削除する（行番号４０７，４
０８，ステップ５７〜５９）。

【０１０５】図５は、関数「Newnormal」の処理フロー
の一例を示したフローチャートである。また、以下に関
数「Newnormal」の疑似プログラムコードを示す。関数
「Newnormal」の引数は隣接行列であり、戻り値は引数
と同じグラフ構造を表す正規形の隣接行列である。

【０１０６】 (501) Newnormal(Xk) (502) { (503) m=1; (504) while(m≠k) (505) if Xmが正規形 (506) Xmを正準形に変換する変換行列をSmとする． (507) Xk=f(Sm)TXkf(Sm) (508) m++; (509) else (510) m-1行(m-1列)とm行(m列)を入れ替え (511) m--； (512) end (513) end (514) return Xk; (515) }

【０１０７】関数「Newnormal」は、Xkを正規化するた
めの関数である。ここで用いている正規形は、前記４つ
の条件を満たす条件下で生成された隣接行列である。Xm
が正規形であるかを判断し（行番号５０５，ステップ６
４）、正規形の場合は、Xmを正準形に変換する変換行列
をSmとし、Xk=f(Sm)TXkf(Sm)とする（行番号５０６，５
０７，ステップ６５，６６）。その後カウンタを１つ増
加する（行番号５０８，ステップ６７）。ここで，f(S
m)は数３１の式で表される行列で、Inは大きさnの単位
行列である。

【０１０８】

【数３１】

【０１０９】一方、正規形でなければ、m-1行(m-1列)と
m行(m列)を入れ替え（行番号５１０，ステップ６９）、
カウンタを１つ減ずる（行番号５１１，ステップ７
０）。

【０１１０】図６は、関数「canonical」の処理フロー
の一例を示したフローチャートである。また、以下に関
数「canonical」の疑似プログラムコードの一例を示
す。関数「canonical」の引数は多頻度グラフの候補を
表す隣接行列の集合であり、戻り値は多頻度グラフの候
補の正準形である。

【０１１１】 (601) canonical(Ck) (602) { (603) forall Xk ∈Ck (604) X'k=Xk; (605) for(m=1;m≦k;m++) (606) if(lb(vm;vm∈V(G(Xk)))= (lb(vk;vk∈V(G(Xk))) (607) if(code(X'k)>code((Tk(m)Sk(m))TXk(Tk(m)Sk(m))) (608) X'k=(Tk(m)Sk(m))TXk(Tk(m)Sk(m)); (609) If X'kの正準形が既知 (610) X'k=S'TkX'kS'k; (611) break; (612) end (613) end (614) end (615) end (616) If Xk=X'k; (617) X' k=permutation(Xk); (618) end (619) if Xk≠X'k (620) Xkを正準形とする隣接行列が存在すれば，その正準形をX'kに変更 (621) end (622) end (623) }

【０１１２】関数「canonical」は大きさkの多頻度グラ
フの候補を表す隣接行列のうち、正準形であるものを返
す。隣接行列Xkから第m行及びm列を除いた隣接行列をXk
-1(m)とし、Xk-1(m)を正規形に変換する変換行列をTk-1
(m)、その正規形を正準形の変換する変換行列をSk-1(m)
とする。Xk-1(m)の正規化は関数Newnormalで求めること
ができる。変換行列Tk-1(m)，Sk-1(m)から変換行列Tk
(m)，Sk(m)を前記した２．４の方法で生成する。また、
関数permutationは頂点の順列で正準形を求める関数で
あり、G(Xk)の正準形を返す。

【０１１３】以上のような処理によって、最小支持度以
上の支持度を持つグラフ構造データを効率的に抽出する
ことができる。なお、前記実施の形態において、たとえ
ば関数relabelの処理は必須ではない。また、関数relab
elの処理において、頂点ラベルのみの順序化あるいは辺
ラベルのみの順序化も効果的である。

【０１１４】４．具体的な適用例以下、化学の構造相関に本発明を適用した具体例を説明
する。たとえば製薬会社などでは、新規化学物質が次々
と合成されているが、実際に薬となって市場に出回るの
はほんの一部である。それは、合成された物質が身体対
しに有害である、化学物質を処方して身体の目的部位に
到達する前に分解されてしまう、土壌を汚染していまい
自然には分解されないなどの理由からである。新規化学
物質が合成されたときは、その物質の生物に対する毒
性、大気・水・土壌など自然環境における蓄積性、濃縮
性など、評価実験をする必要がある。しかし、実験には
長い月日と膨大な資金が必要となり、全ての有害性デー
タを実験的に測定することは時間的、経済的に困難であ
る。例えば、慢性毒性のデータを動物試験で実験するた
めには１物質あたり１億円以上の費用と１年以上の期間
が必要とされる。そこで、すでに実験が終わった物質か
ら知識（構造活性相関）を抽出し、新規に合成された化
学物質の毒性を予測できれば有用である。近年のゲノム
技術の進歩で、コンピューター上で薬をデザインしよう
とする試みがあるが、本発明は重要な役割を果たすこと
ができる。

【０１１５】具体的の実データの解析例について述べ
る．本解析では、ＣＰＵがＰｅｎｔｉｕｍ−ＩＩＩ−６
６７ＭＨｚ（ペンティアムはインテルコーポレーション
の商標）及びメモリが１９６ＭＢのパーソナル・コンピ
ュータを用いて評価実験を行った。用いたデータは国際
会議PAKDD2000 Workshop(KDD Challenge 2000)で提供さ
れた変異原性のデータである（http://www.slab.dnj.yn
u.ac.jp/challenge2000/）。データは化学構造と変異原
活性の数値属性を含み、２３０種のデータからなる。変
異原活性以外の変異原活性はInactive(activity=-99)、
Low(-99<activity<0.0)、Medium(0.0< activity<3.0)、
High(activity> 3.0)と４つにカテゴリー化して、化学
構造とは連結しない頂点として各グラフに付け加えた。
さらに、頂点間の距離が２から６の頂点間に仮想的な辺
を付け加えた。すなわち、各トランザクションの頂点は
炭素（Ｃ）、水素（Ｈ）、酸素（Ｏ）、活性：無（Inac
tive）などのラベルをもつ頂点からなり、それらの間に
は単結合、２重結合、芳香族結合、距離２などのラベル
を持つ辺が存在するグラフからなる。

【０１１６】図７は、最小支持度を変化させたときの正
準形の数と正規形の数の比を示すグラフである。１に近
いほうが望ましい。「ＡＧＭ」は前記文献２〜５に記載
のＡＧＭアルゴリズムであり、「ＡＧＭ＋頂点ラベル」
は頂点ラベルの順序付けを行ってＡＧＭアルゴリズムを
実行させたときの結果である。「ＡＧＭ＋辺ラベル」は
辺ラベルに割り当てられた整数値を一度割り当て直して
実行させたときの結果であり、「ＡＧＭ＋条件４」はＡ
ＧＭアルゴリズムに条件４を加えた時の結果である。
「ＡＧＭ＋」は頂点、辺のラベル付け、条件４をＡＧＭ
に取り入れて（以下、ＡＧＭ＋アルゴリズムと呼ぶ）実
行した結果である。ＡＧＭ＋アルゴリズムの結果は１に
近く、正準形を求めるのに冗長な正規形を生成しなかっ
たことを示している。

【０１１７】図８は最小支持度を変化させたときのＡＧ
Ｍアルゴリズムとの計算時間の比を示したグラフであ
る。ＡＧＭ＋アルゴリズムは、ＡＧＭアルゴリズムに比
べ計算時間を３５％〜６５％削減しているのが分かる。
最小支持度が大きい場合、「ＡＧＭ＋頂点ラベル」は正
規形の数、計算時間の両面で効果があらわれるが、最小
支持度を下げていくと、正規形の数をあまり小さくでき
なくなる。一方、「ＡＧＭ＋条件４」は「ＡＧＭ＋頂点
ラベル」に比べ計算時間の面で効果が小さくなるが、正
規形の数は最小支持度を小さくしても、最小支持度が大
きいときと変わらない。ＡＧＭ＋アルゴリズムは、計算
時間の面で頂点ラベルの順序付けの効果を、正規形の数
で条件４による効果を持ち合わせているといえる。

【０１１８】以上、本発明者によってなされた発明を発
明の実施の形態に基づき具体的に説明したが、本発明は
前記実施の形態に限定されるものではなく、その要旨を
逸脱しない範囲で種々変更可能であることは言うまでも
ない。

【０１１９】

【発明の効果】本願で開示される発明のうち、代表的な
ものによって得られる効果は、以下の通りである。すな
わち、ＡＧＭアルゴリズムの効率性をさらに向上するこ
とができ、不必要な検索空間の枝狩りの完全性を保ちな
がら、さらに効率よくグラフデータベースから多頻度グ
ラフパターンを抽出することができる。

【図面の簡単な説明】

【図１】本発明の一実施の形態であるＡＧＭアルゴリズ
ムの処理フローの一例を示したフローチャートである。

【図２】ラベル順序化の一例を示したフローチャートで
ある。

【図３】関数「Newjoin」の処理フローの一例を示した
フローチャートである。

【図４】関数「Newcheck」の処理フローの一例を示した
フローチャートである。

【図５】関数「Newnormal」の処理フローの一例を示し
たフローチャートである。

【図６】関数「canonical」の処理フローの一例を示し
たフローチャートである。

【図７】最小支持度を変化させたときの正準形の数と正
規形の数の比を示すグラフである。

【図８】最小支持度を変化させたときのＡＧＭアルゴリ
ズムとの計算時間の比を示したグラフである。

【符号の説明】

Ｃ_ｋ…多頻度グラフ候補の隣接行列集合、Ｆ_ｋ…多頻度
グラフの隣接行列集合、Ｇ…グラフ、ＧＤ…グラフデー
タベース、Ｇ_ｓ…誘導部分グラフ、Ｓ_ｍ…変換行列、Ｘ
_ｋ…第１生成行列、Ｙ_ｋ…第２生成行列、ｌｂ…ラベ
ル、ｓｕｐ…支持度。

───────────────────────────────────────────────────── フロントページの続き (72)発明者猪口明博神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内Ｆターム(参考） 5B056 BB21 BB42 HH00 5B075 ND20 NS10 PR06 QS20 UU40

Claims

【特許請求の範囲】

【請求項１】グラフ構造データの集合であるグラフデ
ータベースから、最小支持度以上の支持度を持つ多頻度
グラフを抽出するグラフ構造データの処理方法であっ
て、大きさがｋ（ｋは自然数である）の多頻度グラフの隣接
行列の集合Ｆ_ｋから大きさがｋ＋１の多頻度グラフ候補
の隣接行列ｃ_ｋ+１の集合Ｃ_ｋ+１を生成する第１ステッ
プと、前記多頻度グラフ候補のうち、大きさがｋの誘導部分グ
ラフとして多頻度グラフでないグラフを含む多頻度グラ
フ候補の隣接行列ｃ_ｋ+１を、前記集合Ｃ_ｋ+１から削除
する第２ステップと、前記隣接行列ｃ_ｋ+１のうち、同一のグラフを表現する
隣接行列の部分集合から唯一の隣接行列ｃ^' _ｋ+１を選択
する第３ステップと、前記隣接行列ｃ^' _ｋ+１について前記グラフデータベース
をスキャンし、多頻度グラフである場合は、前記隣接行
列ｃ^' _ｋ+１および前記隣接行列ｃ^' _ｋ+１が表現するグラ
フと同一の構造を表す隣接行列ｃ_ｋ+１を、大きさｋ＋
１の多頻度グラフの隣接行列の集合Ｆ_ｋ+１に追加する
第４ステップと、を有し、前記第１ステップにおける前記隣接行列ｃ_ｋ+１の生成
において、前記生成の基礎となる多頻度グラフの隣接行列Ｘ_ｋとＹ
_ｋの第ｋ行ｋ列以外の要素が等しい第１の条件、およ
び、前記隣接行列Ｘ_ｋおよびＹ_ｋが各々表すグラフＧ
（Ｘ_ｋ）およびＧ（Ｙ_ｋ）の、第ｋ頂点以外の頂点ラベ
ルが各々等しく、かつ、グラフＧ（Ｘ_ｋ）の第ｋ頂点の
ラベルの順序がグラフＧ（Ｙ_ｋ）の第ｋ頂点のラベルの
順序以下である第２の条件、および、前記グラフＧ（Ｘ_ｋ）およびＧ（Ｙ_ｋ）の第ｋ頂点の頂
点ラベルが等しく、かつ、前記隣接行列Ｘ_ｋのコードが
前記隣接行列Ｙ_ｋのコード以下である第３の条件、およ
び、前記隣接行列Ｘ_ｋが正準形である第４の条件、の全ての条件を満たしたときに前記隣接行列Ｘ_ｋおよび
Ｙ_ｋを結合するグラフ構造データの処理方法。
【請求項２】前記第２ステップには、前記多頻度グラ
フ候補の隣接行列から前記誘導部分グラフの隣接行列を
生成するステップと、前記誘導部分グラフの隣接行列を正規化するステップ
と、を含み、前記正規化ステップには、正規化対象の隣接行列Ｘ_ｋにおいて、ｍ≠ｋである自然
数ｍにつき、Ｘ_mが正規形であるかを判断するステップ
と、前記判断が真の場合は、前記隣接行列Ｘ_mを正準形に変
換する変換行列Ｓ_mを用いて前記隣接行列Ｘ_ｋを正準形
に変換し、さらにｍを１増加するステップと、前記判断が偽の場合は、前記隣接行列Ｘ_ｋのｍ−１行お
よびｍ−１列をｍ行およびｍ列と入れ替え、さらにｍを
１減ずるステップと、を含む請求項１記載のグラフ構造データの処理方法。
【請求項３】前記第１乃至第４ステップに加えて、前記グラフ構造データの頂点ラベルまたは辺ラベルの順
序を入れ替えるステップを有する請求項１記載のグラフ
構造データの処理方法。
【請求項４】前記頂点ラベルの入れ替えは、前記各頂
点ラベルがトランザクションに出現する頻度の平均値の
昇順に順序付ける請求項３記載のグラフ構造データの処
理方法。
【請求項５】前記辺ラベルの入れ替えステップには、前記辺ラベルがトランザクションに出現する頻度の平均
値と前記辺が存在しない場合の出現頻度の平均値とを比
較し、平均値の少ない方のラベルを低く順序づけるステ
ップと、前記各辺ラベルがトランザクションに出現する頻度の平
均値の昇順に順序付けるステップと、を有する請求項３記載のグラフ構造データの処理方法。
【請求項６】グラフ構造データの集合であるグラフデ
ータベースから、最小支持度以上の支持度を持つ多頻度
グラフを抽出するグラフ構造データの処理システムであ
って、大きさがｋ（ｋは自然数である）の多頻度グラフの隣接
行列の集合Ｆ_ｋから大きさがｋ＋１の多頻度グラフ候補
の隣接行列ｃ_ｋ+１の集合Ｃ_ｋ+１を生成する第１手段
と、前記多頻度グラフ候補のうち、大きさがｋの誘導部分グ
ラフとして多頻度グラフでないグラフを含む多頻度グラ
フ候補の隣接行列ｃ_ｋ+１を、前記集合Ｃ_ｋ+１から削除
する第２手段と、前記隣接行列ｃ_ｋ+１のうち、同一のグラフを表現する
隣接行列の部分集合から唯一の隣接行列ｃ^' _ｋ+１を選択
する第３手段と、前記隣接行列ｃ^' _ｋ+１について前記グラフデータベース
をスキャンし、多頻度グラフである場合は、前記隣接行
列ｃ^' _ｋ+１および前記隣接行列ｃ^' _ｋ+１が表現するグラ
フと同一の構造を表す隣接行列ｃ_ｋ+１を、大きさｋ＋
１の多頻度グラフの隣接行列の集合Ｆ_ｋ+１に追加する
第４手段と、を有し、前記第１手段における前記隣接行列ｃ_ｋ+１の生成にお
いて、前記生成の基礎となる多頻度グラフの隣接行列Ｘ_ｋとＹ
_ｋの第ｋ行ｋ列以外の要素が等しい第１の条件、およ
び、前記隣接行列Ｘ_ｋおよびＹ_ｋが各々表すグラフＧ
（Ｘ_ｋ）およびＧ（Ｙ_ｋ）の、第ｋ頂点以外の頂点ラベ
ルが各々等しく、かつ、グラフＧ（Ｘ_ｋ）の第ｋ頂点の
ラベルの順序がグラフＧ（Ｙ_ｋ）の第ｋ頂点のラベルの
順序以下である第２の条件、および、前記グラフＧ（Ｘ_ｋ）およびＧ（Ｙ_ｋ）の第ｋ頂点の頂
点ラベルが等しく、かつ、前記隣接行列Ｘ_ｋのコードが
前記隣接行列Ｙ_ｋのコード以下である第３の条件、およ
び、前記隣接行列Ｘ_ｋが正準形である第４の条件、の全ての条件を満たしたときに前記隣接行列Ｘ_ｋおよび
Ｙ_ｋを結合するグラフ構造データの処理システム。
【請求項７】前記第２手段には、前記多頻度グラフ候
補の隣接行列から前記誘導部分グラフの隣接行列を生成
する手段と、前記誘導部分グラフの隣接行列を正規化する手段と、を
含み、前記正規化手段には、正規化対象の隣接行列Ｘ_ｋにおいて、ｍ≠ｋである自然
数ｍにつき、Ｘ_mが正規形であるかを判断する手段と、前記判断が真の場合は、前記隣接行列Ｘ_mを正準形に変
換する変換行列Ｓ_mを用いて前記隣接行列Ｘ_ｋを正準形
に変換し、さらにｍを１増加する手段と、前記判断が偽の場合は、前記隣接行列Ｘ_ｋのｍ−１行お
よびｍ−１列をｍ行およびｍ列と入れ替え、さらにｍを
１減ずる手段と、を含む請求項６記載のグラフ構造データの処理システ
ム。
【請求項８】前記第１乃至第４手段に加えて、前記グラフ構造データの頂点ラベルまたは辺ラベルの順
序を入れ替える手段を有する請求項６記載のグラフ構造
データの処理システム。
【請求項９】前記頂点ラベルの入れ替えは、前記各頂
点ラベルがトランザクションに出現する頻度の平均値の
昇順に順序付ける請求項８記載のグラフ構造データの処
理システム。
【請求項１０】前記辺ラベルの入れ替え手段には、前記辺ラベルがトランザクションに出現する頻度の平均
値と前記辺が存在しない場合の出現頻度の平均値とを比
較し、平均値の少ない方のラベルを低く順序づける手段
と、前記各辺ラベルがトランザクションに出現する頻度の平
均値の昇順に順序付ける手段と、を有する請求項８記載のグラフ構造データの処理システ
ム。
【請求項１１】グラフ構造データの集合であるグラフ
データベースから、最小支持度以上の支持度を持つ多頻
度グラフを抽出する機能をコンピュータに実現させるた
めのプログラムであって、大きさがｋ（ｋは自然数である）の多頻度グラフの隣接
行列の集合Ｆ_ｋから大きさがｋ＋１の多頻度グラフ候補
の隣接行列ｃ_ｋ+１の集合Ｃ_ｋ+１を生成する第１の機能
と、前記多頻度グラフ候補のうち、大きさがｋの誘導部分グ
ラフとして多頻度グラフでないグラフを含む多頻度グラ
フ候補の隣接行列ｃ_ｋ+１を、前記集合Ｃ_ｋ+１から削除
する第２の機能と、前記隣接行列ｃ_ｋ+１のうち、同一のグラフを表現する
隣接行列の部分集合から唯一の隣接行列ｃ^' _ｋ+１を選択
する第３の機能と、前記隣接行列ｃ^' _ｋ+１について前記グラフデータベース
をスキャンし、多頻度グラフである場合は、前記隣接行
列ｃ^' _ｋ+１および前記隣接行列ｃ^' _ｋ+１が表現するグラ
フと同一の構造を表す隣接行列ｃ_ｋ+１を、大きさｋ＋
１の多頻度グラフの隣接行列の集合Ｆ_ｋ+１に追加する
第４の機能と、を有し、前記第１の機能における前記隣接行列ｃ_ｋ+１の生成に
おいて、前記生成の基礎となる多頻度グラフの隣接行列Ｘ_ｋとＹ
_ｋの第ｋ行ｋ列以外の要素が等しい第１の条件、およ
び、前記隣接行列Ｘ_ｋおよびＹ_ｋが各々表すグラフＧ
（Ｘ_ｋ）およびＧ（Ｙ_ｋ）の、第ｋ頂点以外の頂点ラベ
ルが各々等しく、かつ、グラフＧ（Ｘ_ｋ）の第ｋ頂点の
ラベルの順序がグラフＧ（Ｙ_ｋ）の第ｋ頂点のラベルの
順序以下である第２の条件、および、前記グラフＧ（Ｘ_ｋ）およびＧ（Ｙ_ｋ）の第ｋ頂点の頂
点ラベルが等しく、かつ、前記隣接行列Ｘ_ｋのコードが
前記隣接行列Ｙ_ｋのコード以下である第３の条件、およ
び、前記隣接行列Ｘ_ｋが正準形である第４の条件、の全ての条件を満たしたときに前記隣接行列Ｘ_ｋおよび
Ｙ_ｋを結合する、コンピュータが実行可能なプログラ
ム。