JP5032374B2

JP5032374B2 - 情報処理装置及び方法

Info

Publication number: JP5032374B2
Application number: JP2008064594A
Authority: JP
Inventors: 茂明櫻井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-03-13
Filing date: 2008-03-13
Publication date: 2012-09-26
Anticipated expiration: 2028-03-13
Also published as: JP2009223415A

Description

本発明は、複数の属性によって特徴付けられるレコードを複数含み当該属性の値を示す属性値と当該レコードとが２次元の表構造により表されるデータから、属性値の特徴や属性値間の特徴的な関係を検出する情報処理装置及び方法に関する。

従来より、例えば、複数の属性によって特徴付けられたレコードを複数含み、当該属性値とレコードとが２次元の表構造に表されるデータが多数存在している。このようなデータには、例えば、疾病や個人の身体的特性を記述したデータや地域の特性を記述したデータなどがある。これらのデータの中には、予防医療やマーケティングなどの分野において利用可能である有益な知見が埋もれていると考えられている。このため、これらデータを分析することにより、複数の属性値間の関係を検出し、新たな知見を得ることが求められている。このような属性値間の関係を検出するには、表構造の各マス目に属性値が示されていることが必要となる。しかし、実際のデータにおいては、特定の属性におけるデータ収集の困難さやデータの部分的な破損などによって、一部の属性値が欠損することがある。このため、このような属性値が欠損した欠損値を含んだデータを扱う方法が求められている。

例えば、特許文献１において提案されているデータマイニング装置では、欠損値の処理方法を利用者が指定することにより、欠損値を補完したデータから相関ルールを検出している。しかし、この装置では、欠損値の補完は必ずしも正しい補完を行えることが保障されている訳ではない。このため、誤った補完に基づいた相関ルールが検出される危険性があった。

また、特許文献２において提案されているデ―タ分析方法および装置では、欠損値の部分に特定の記号を入力することにより、欠損値の補完を行うとともに、個々のデータ項目（属性）ごとに特定の記号を利用するかどうかを利用者が判定して、相関ルールの学習を行っている。この装置では、特定の記号を利用した相関ルールが生成される可能性がある。しかし、このような相関ルールは必ずしも分析者にとって有効な相関ルールとなっていない可能性があった。また、特定の記号を利用しない場合には、当該属性を含むデータが十分に活用されない可能性があった。

更に、非特許文献１に記載されているひとつの方法では、欠損していない属性値の分布によって欠損している属性値を補間している。この方法の場合、補間した値は推定値に過ぎずないため、必ずしも妥当な補間が行われない可能性があった。また、欠損値を補間するには、多数の他の属性値を参照する必要があるため、その補間に時間がかかるといった問題があった。

尚、最も簡単な方法として、欠損値を含む対象のデータを削除し、欠損値を含まない対象のデータだけを用いる方法も利用されている。

特開平１１−２５００８４号公報特開２０００−４００００号公報 John Ross Quinlan: "Induction of decision trees", Machine learning vol. 1, no. 1, pp. 81-166(1986)

しかしながら、この方法の場合、利用可能な一部の属性値を廃棄することになる。このため、与えられたデータを有効に活用した分析を行っているとは必ずしもいえなかった。

本発明は、上記に鑑みてなされたものであって、複数の属性によって特徴付けられるレコードを複数含み当該属性の値を示す属性値と当該レコードとが２次元の表構造により表されるデータが欠損値を含む場合であっても、データに含まれる属性値を有効に活用して、与えられたデータを的確に反映した特徴的なパターンとして、属性値の特徴や属性値間の特徴的な関係を検出可能な情報処理装置及び方法を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、情報処理装置であって、複数の属性によって特徴付けられるレコードを複数含み当該属性の値を示す属性値と当該レコードとが２次元の表構造により表されるデータを取得する取得部と、前記属性及び当該属性の値を示す前記属性値を含むアイテムを、前記データから前記属性を抽出する抽出部と、抽出された前記アイテムを格納する第一格納部と、前記アイテムを候補アイテム集合として順に選択する選択部と、前記候補アイテム集合のうち、所定の判定条件を満たした前記候補アイテム集合を、当該候補アイテム集合に対して算出される複数の評価値の大小に応じて定まる状態と対応付けて格納する第二格納部と、格納された前記候補アイテム集合に基づいて、含まれるアイテムの数がより大きい新たな候補アイテム集合を、前記第二格納部に新たに格納される候補として生成する集合生成部と、前記候補アイテム集合を構成する前記アイテムに含まれる前記属性を少なくとも１つ含む属性集合及び前記データに含まれる属性を含む属性集合のそれぞれについて、いずれの属性値も欠損していないレコードが前記データにおいて出現する頻度を第一の出現頻度として各々算出する第一頻度算出部と、前記属性集合及び当該属性集合に対応する前記第一の出現頻度を各々対応付けて格納する第三格納部と、前記候補アイテム集合が前記データにおいて出現する頻度を第二の出現頻度として算出する第二頻度算出部と、前記候補アイテム集合について、前記第二の出現頻度及び前記第一の出現頻度に基づいて、単調性を有する複数の評価値を算出する評価値算出部と、前記複数の評価値に基づいて、前記所定の判定条件を満たしているかを判定することにより、前記候補アイテム集合を前記第二格納部に格納するか否かを判定すると共に、当該候補アイテム集合の前記状態を判定する評価値判定部と、前記第二格納部に前記状態と対応付けられて格納されている前記候補アイテム集合を、当該状態に応じて出力する出力部とを備えることを特徴とする。

また、本発明は、取得部と、抽出部と、格納制御部と、第一格納部と、選択部と、第二格納部と、集合生成部と、第一頻度算出部と、第三格納部と、第二頻度算出部と、評価値算出部と、評価値判定部と、出力部とを備える情報処理装置で実行される情報処理方法であって、前記取得部が、複数の属性によって特徴付けられるレコードを複数含み当該属性の値を示す属性値と当該レコードとが２次元の表構造により表されるデータを取得する取得ステップと、前記抽出部が、前記属性及び当該属性の値を示す前記属性値を含むアイテムを、前記データから前記属性を抽出する抽出ステップと、前記格納制御部が、抽出された前記アイテムを前記第一格納部に格納する第一格納ステップと、前記選択部が、前記アイテムを候補アイテム集合として順に選択する選択ステップと、前記第一頻度算出部が、前記データに含まれる属性を含む属性集合のそれぞれについて、いずれの属性値も欠損していないレコードが前記データにおいて出現する頻度を第一の出現頻度として各々算出する第一頻度算出ステップと、前記格納制御部が、前記属性集合及び当該属性集合に対応する前記第一の出現頻度を各々対応付けて前記第三格納部に格納する第二格納ステップと、前記格納制御部が、前記候補アイテム集合のうち、所定の判定条件を満たした前記候補アイテム集合を、当該候補アイテム集合に対して算出される複数の評価値の大小に応じて定まる状態と対応付けて前記第二格納部に格納する第三格納ステップと、前記集合生成部が、格納された前記候補アイテム集合に基づいて、含まれるアイテムの数がより大きい新たな候補アイテム集合を、前記第二格納部に新たに格納される候補として生成する集合生成ステップと、前記第一頻度算出部が、前記候補アイテム集合を構成する前記アイテムに含まれる前記属性を少なくとも１つ含む属性集合のそれぞれについて、いずれの属性値も欠損していないレコードが前記データにおいて出現する頻度を第一の出現頻度として各々算出する第二頻度算出ステップと、前記格納制御部が、前記属性集合及び当該属性集合に対応する前記第一の出現頻度を各々対応付けて前記第三格納部に格納する第四格納ステップと、前記第二頻度算出部が、前記候補アイテム集合が前記データにおいて出現する頻度を第二の出現頻度として算出する第三頻度算出ステップと、前記評価値算出部が、前記候補アイテム集合について、前記第二の出現頻度及び前記第一の出現頻度に基づいて、単調性を有する複数の評価値を算出する評価値算出ステップと、前記評価値判定部が、前記複数の評価値に基づいて、前記所定の判定条件を満たしているかを判定することにより、前記候補アイテム集合を前記第二格納部に格納するか否かを判定すると共に、当該候補アイテム集合の前記状態を判定する評価値判定ステップと、前記出力部が、前記第二格納部に前記状態と対応付けられて格納されている前記候補アイテム集合を、当該状態に応じて出力する出力ステップとを含むことを特徴とする。

本発明によれば、複数の属性によって特徴付けられるレコードを複数含み当該属性の値を示す属性値と当該レコードとが２次元の表構造により表されるデータが欠損値を含む場合であっても、データに含まれる属性値を有効に活用して、与えられたデータを的確に反映した特徴的なパターンとして、属性値の特徴や属性値間の特徴的な関係を検出可能である。

以下に添付図面を参照して、この発明にかかる情報処理装置及び方法の最良な実施の形態を詳細に説明する。

（１）構成
本実施の形態にかかる情報処理装置５０のハードウェア構成について説明する。情報処理装置５０は、ＣＰＵ（Central Processing Unit）と、各種プログラムや画像などの各種データを記憶するＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）などから構成される記憶部と、通信部と、これらを接続するバス（いずれも図示せず）とを備え、表示装置及びキーボードやマウス等の入力装置（いずれも図示せず）が接続された構成となっている。表示装置は、ＣＲＴ（Cathode Ray Tube）や液晶モニタなどである。操作装置は、ユーザからの操作が入力される操作キーや操作ボタン、マウスなどを備える。

次に、本実施の形態にかかる情報処理装置の内部構成について説明する。図１は、本実施の形態にかかる情報処理装置５０の内部構成を例示する図である。情報処理装置５０は、データ格納部５１と、基本データ抽出部５２と、基本データ格納部５３と、候補アイテム選択部５４と、属性集合頻度算出部５５と、属性集合頻度格納部５６と、候補アイテム集合頻度算出部５７と、候補アイテム集合評価値算出部５８と、候補アイテム集合評価値判定部５９と、アイテム集合格納部６０と、候補アイテム集合生成部６１と、パターン出力部６２とを有する。このうち、基本データ抽出部５２と、候補アイテム選択部５４と、属性集合頻度算出部５５と、候補アイテム集合頻度算出部５７と、候補アイテム集合評価値算出部５８と、候補アイテム集合評価値判定部５９と、候補アイテム集合生成部６１と、パターン出力部６２とは、情報処理装置５０のＣＰＵが記憶部に記憶された各種プログラムを実行することにより実現される。データ格納部５１と、基本データ格納部５３と、属性集合頻度格納部５６と、アイテム集合格納部６０とは、記憶部により実現される。

データ格納部５１には、処理対象のデータが少なくとも１つ格納される。本実施の形態において処理対象のデータとは、複数の属性によって特徴付けられる事例（レコード）を複数含み、当該属性の値を示す属性と当該事例とが２次元の表構造により表されるデータである。図２は、本実施の形態にかかる処理対象のデータを例示する図である。同図においては、各行が各事例ｔ１〜ｔ１０を示しており、各列が各属性Ａ１〜Ａ３を示している。このように事例と各属性の値を示す属性値との２次元の表構造において、各欄に属性値が示される。ここでは、属性値として、「○」又は「×」が示されている。空欄となっているものは、その属性値が欠損していることを示しており、即ち、これが欠損値となる。同図においては、事例ｔ３の属性Ａ２，Ａ３の各々の属性値と、事例ｔ８の属性Ａ３の属性値とがそれぞれ欠損値となる。

基本データ抽出部５２は、データ格納部５１に格納されたデータから事例を１つずつ読み出し、当該事例から、属性と属性値との組からなるアイテムを１つ抽出すると共に、当該アイテムの属性を抽出する。そして、基本データ抽出部５２は、抽出したアイテムを基本データ格納部５３に格納する。候補アイテム選択部５４は、基本データ格納部５３に格納されているアイテムの中から１つのアイテムを候補アイテム集合として選択する。属性集合頻度算出部５５は、候補アイテム集合を構成するアイテムに含まれる属性の組み合わせを属性集合として抽出し、属性集合毎に、欠損値を含まない事例の個数を算出する。即ち、属性集合頻度算出部５５は、候補アイテム集合を構成するアイテムに含まれる属性を少なくとも１つ含む属性集合及び処理対象のデータに含まれる全ての属性を含む属性集合のそれぞれについて、いずれの属性値も欠損していない事例の出現頻度を、非欠損事例数として算出する。尚、全ての属性を含む属性集合について算出された出現頻度は、非欠損事例数とし、その他の属性集合について算出された出現頻度は、属性集合非欠損事例数とする。属性集合頻度算出部５５は、非欠損事例数又は属性集合非欠損事例数と属性集合との組を属性集合頻度格納部５６に格納する。候補アイテム集合頻度算出部５７は、候補アイテム集合を含んでいる事例の個数を当該候補アイテム集合の出現頻度として算出する。

候補アイテム集合生成部６１は、候補アイテム選択部５４が選択した候補アイテム集合及び後述する候補アイテム集合評価値判定部５９がアイテム集合格納部６０に格納した候補アイテム集合のうち少なくとも一方に基づいて、候補アイテム集合の対を選択して、当該候補アイテム集合の対に基づいて、新たな候補アイテム集合を生成する。候補アイテム集合評価値算出部５８は、属性集合頻度算出部５５が算出した属性集合非欠損事例数及び候補アイテム集合頻度算出部５７が算出した出現頻度を用いて、候補アイテム選択部５４が選択した候補アイテム集合又は候補アイテム集合生成部６１が生成した候補アイテム集合の評価値を算出する。候補アイテム集合評価値判定部５９は、候補アイテム集合評価値算出部５８が算出した評価値に基づいて、所定の判定条件を満たすか否かを判定することにより、当該候補アイテム集合をアイテム集合格納部６０に格納するか否かを判定する。そして、候補アイテム集合評価値判定部５９は、当該判定結果に応じて、当該候補アイテム集合を、評価値の大小に応じて定まる状態と共にアイテム集合格納部６０に格納する。パターン出力部６２は、アイテム集合格納部６０に格納された候補アイテム集合のうちその状態が所定の状態である候補アイテム集合を、特徴的なパターンとして出力する。

（２）動作
次に、本実施の形態にかかる情報処理装置５０の行うパターン検出処理の手順について図３を用いて説明する。情報処理装置５０の基本データ抽出部５２は、データ格納部５１に格納されている処理対象の１つのデータから１つの事例を抽出する。このとき、基本データ抽出部５２は、事例を抽出できたか否か、即ち、抽出する事例が存在するか否かを判定する（ステップＳａ１）。抽出する事例が存在しない場合には（ステップＳａ１：ＮＯ）、ステップＳａ５へと進む。抽出する事例が存在する場合には（ステップＳａ１：ＹＥＳ）、ステップＳａ２へと進む。

例えば、図２に示すデータがデータ格納部５１に格納されている場合、基本データ抽出部５２は、ステップＳａ１毎に、事例ｔ１〜ｔ１０の順に事例を順次抽出するとする。この場合、基本データ抽出部５２は、ステップＳａ１で事例ｔ１０を抽出して、後述のステップＳａ２〜Ｓａ４の処理を行った後に再度ステップＳａ１を行うことになったとき、抽出する事例は存在しないことになる。この場合、ステップＳａ５へと進むことになる。一方、事例ｔ１０を抽出し終わるまでは、ステップＳａ１の判定結果は肯定的となり、ステップＳａ２へと進むことになる。

ステップＳａ２では、基本データ抽出部５２は、抽出した事例の中から属性と属性値との組からなるアイテムをひとつ抽出すると共に、当該アイテムの属性を抽出する。このとき、当該アイテムを抽出できたか否か、即ち、当該アイテムが存在するか否かを判定する。抽出するアイテムが存在しない場合には（ステップＳａ２：ＮＯ）、ステップＳａ１へと戻る。抽出するアイテムが存在する場合には（ステップＳａ２：ＹＥＳ）、ステップＳａ３へと進む。尚、基本データ抽出部５２は、抽出した各アイテムに対して例えば辞書順のような順序を設定し、基本データ格納部５３は、各アイテムを順序と対応付けて格納するものとする。

例えば、ステップＳａ１で、基本データ抽出部５２は、事例ｔ１を抽出しているとする。このとき、基本データ抽出部５２は、ステップＳａ２毎に、事例ｔ１の属性Ａ１〜Ａ３の順にアイテムを順次抽出するとする。このとき、基本データ抽出部５２は、ステップＳａ２では、例えば、属性Ａ１について、｛Ａ１:○｝をアイテムとして抽出し、当該アイテムの属性として「Ａ１」を抽出する。このようにして、基本データ抽出部５２は、ステップＳａ２毎に、属性Ａ１〜Ａ３に対応するアイテムを順次抽出する。そして、基本データ抽出部５２は、属性Ａ３に対応するアイテムを抽出して、後述のステップＳａ３〜Ｓａ４の処理を行った後に再度ステップＳａ２を行うことになったとき、抽出するアイテムが存在しないことになる。この場合、ステップＳａ１へと戻る。一方、１つの事例から属性Ａ３を抽出し終わるまでは、抽出するアイテムは存在しているので、ステップＳａ３へと進む。

ステップＳａ３では、基本データ抽出部５２は、抽出したアイテムが基本データ格納部５３に格納されているか否かを判定する。このとき、基本データ格納部５３に当該のアイテムが格納されている場合には、ステップＳａ２へと戻る。当該のアイテムが格納されていない場合には、ステップＳａ４へと進む。ステップＳａ４では、基本データ格納部５３は、抽出したアイテムを基本データ格納部５３に格納して、ステップＳａ２へと戻る。

例えば、基本データ抽出部５２は、ステップＳａ３で、図２に示した事例ｔ１からアイテム｛Ａ１:○｝を抽出したとする。このとき、基本データ抽出部５２は、処理対象のデータについて、ステップＳａ１の開始以降、ステップＳａ３の処理を初めて行ったことになる。このため、基本データ格納部５３には、まだどのアイテムも格納されていないことになる。この場合に、ステップＳａ３の判定結果が否定的となり、ステップＳａ４へと進むことになる。そして、基本データ抽出部５２は、ステップＳａ２で抽出したアイテム｛Ａ１:○｝を基本データ格納部５３に格納することになる。一方、ステップＳａ３で、基本データ抽出部５２は、例えば、事例ｔ２からアイテム｛Ａ１:○｝を抽出したとき、当該アイテムは事例ｔ１において１度抽出されているため、基本データ格納部５３に格納されていることになる。この場合、ステップＳａ３の判定結果は否定的となる。この場合、ステップＳａ２へと戻ることになる。このようにして、ステップＳａ１〜Ｓａ４の処理が事例ｔ１〜ｔ６について順次行われた結果、図４に例示されるように、アイテムＩ１〜Ｉ６が基本データ格納部５３に格納されることになる。

そして、事例ｔ１〜ｔ６から各アイテムの抽出が終了すると、次いで、抽出した各アイテムを用いた処理を行うことになる。図３のステップＳａ５では、属性集合頻度算出部５５が、基本データ抽出部５２によって抽出された全属性に従って、データ格納部５１に格納されている処理対象のデータに含まれる全事例を調査することにより、欠損値を含まない事例の個数(非欠損事例数)を算出する。そして、属性集合頻度算出部５５は、算出した非欠損事例数を、全属性を含む属性集合と組にして属性集合頻度格納部５６に格納する。

例えば、図２の例の場合、事例ｔ３,ｔ８以外の事例は欠損値を含まない。このため、ステップＳａ５では、属性集合頻度算出部５５は、非欠損事例数は「８」と算出する。そして、属性集合頻度算出部５５は、図５に示されるように、全属性を含む属性集合{Ａ１,Ａ２,Ａ３}と非欠損事例数「８」とを組にして、属性集合頻度格納部５６に格納する。

次いで、ステップＳａ６では、候補アイテム選択部５４は、基本データ格納部５３に格納されているアイテムの中から１つのアイテムを抽出する。ここでは、各アイテムは順序と対応付けられて基本データ格納部５３に格納されているため、その順序に従って各アイテムを候補アイテム選択部５４は抽出する。そして、このとき、候補アイテム選択部５４は、アイテムを抽出できたか否か、即ち、抽出するアイテムが存在するか否かを判定する。抽出するアイテムが存在しない場合には（ステップＳａ６：ＮＯ）、ステップＳａ８へと進む。抽出するアイテムが存在する場合には（ステップＳａ６：ＹＥＳ）、候補アイテム選択部５４は、抽出したアイテムを候補アイテム集合とみなしてステップＳａ７へと進む。

例えば、候補アイテム選択部５４は、ステップＳａ６毎に、図４に例示したアイテムＩ１〜Ｉ６の順にアイテムを順次抽出するとする。このとき、候補アイテム選択部５４は、アイテムＩ６を抽出した後再度ステップＳａ６の処理を行うことになったとき、抽出するアイテムは存在しないことになる。この場合、ステップＳａ６の判定結果が否定的となり、ステップＳａ８へと進むことになる。一方、アイテムＩ６を抽出し終わるまでは、ステップＳａ６の判定結果は肯定的となるので、ステップＳａ７へと進むことになる。

ステップＳａ７では、情報処理装置５０は、アイテム集合決定処理を行う。図６は、アイテム集合決定処理の詳細な手順を示すフローチャートである。ステップＳｂ１では、属性集合頻度算出部５５が、候補アイテム集合を構成するアイテムに含まれる属性の組み合わせを属性集合として抽出する。また、属性集合頻度算出部５５は、当該属性集合について、欠損値を含まない事例の個数(属性集合非欠損事例数)が属性集合頻度格納部５６に格納されているか否かを判定する。当該属性集合非欠損事例数が属性集合頻度格納部５６に格納されている場合には（ステップＳｂ１：ＹＥＳ）、ステップＳｂ４へと進む。当該属性集合非欠損事例数が属性集合頻度格納部５６に格納されていない場合には（ステップＳｂ１：ＮＯ）、ステップＳｂ２へと進む。ステップＳｂ２では、属性集合頻度算出部５５が、候補アイテム集合に対応する属性集合において、当該属性集合の属性集合非欠損事例数を算出する。

例えば、属性集合頻度算出部５５は、ステップＳｂ１で属性集合として｛Ａ２｝を抽出しているとする。このとき、図２に示した事例ｔ３以外の事例には、当該属性集合の属性値が各々設定されているので、属性集合頻度算出部５５は、属性集合非欠損事例数として「９」を算出する。

また、例えば、属性集合頻度算出部５５は、ステップＳｂ１で属性集合として{Ａ２:○, Ａ３:○}を抽出しているとする。このとき、図２に示した事例ｔ３，ｔ８以外の事例には、当該属性集合の属性値が各々設定されているので、属性集合頻度算出部５５は、属性集合非欠損事例数として「８」を算出する。

ステップＳｂ３では、属性集合頻度算出部５５が、属性集合と、それに対して算出した属性集合非欠損事例数とを組にして属性集合頻度格納部５６に格納する。

例えば、図７〜８に示すように、属性集合とその属性集合非欠損事例数との組を属性集合頻度格納部５６に属性集合頻度算出部５５は格納する。

このようにして、属性集合頻度算出部５５は、各属性集合に対して属性集合非欠損事例数を各々算出してこれらの各組を属性集合頻度格納部５６に重複なく格納する。例えば、図７に示すように、属性集合とその属性集合非欠損事例数との組が属性集合頻度格納部５６に格納されているとき、属性集合頻度算出部５５が、候補アイテム集合{Ａ３:×}について処理を行う場合、ステップＳｂ１では以下のように処理を行う。この場合、当該候補アイテム集合を構成するアイテムに含まれる属性の組み合わせは、{Ａ３}のみとなる。従って、属性集合頻度算出部５５は、{Ａ３}を属性集合として抽出する。当該属性集合{Ａ３}に対しては、同図に示されるように、属性集合非欠損事例数「８」が属性集合頻度格納部５６に格納されている。このため、この場合、ステップＳｂ４へと進むことになる。

また、例えば、図７に示すように、属性集合とその属性集合非欠損事例数との組が属性集合頻度格納部５６に格納されているとき、属性集合頻度算出部５５が、候補アイテム集合{Ａ２:○,Ａ３:○}について処理を行う場合、ステップＳｂ１では以下のように処理を行う。この場合、当該候補アイテム集合を構成するアイテムに含まれる属性の組み合わせは、{Ａ２,Ａ３}となる。従って、属性集合頻度算出部５５は、{Ａ２,Ａ３}を属性集合として抽出する。しかし、同図に示されるように、当該属性集合については、属性集合非欠損事例数との組が属性集合頻度格納部５６に格納されていない。従って、この場合、ステップＳｂ２へと進むことになる。

図６に戻り、ステップＳｂ４では、候補アイテム集合頻度算出部５７が、候補アイテム集合を含んでいる事例の個数を当該候補アイテム集合の出現頻度として算出する。

例えば、候補アイテム集合頻度算出部５７は、候補アイテム集合｛Ａ１:○｝に対して処理を行うものとする。図２に示されるように、当該候補アイテム集合を含む事例は、事例ｔ１〜ｔ２，ｔ５〜ｔ７，ｔ１０であり、６個ある。このため、候補アイテム集合頻度算出部５７は、当該候補アイテム集合の出現頻度を「６」と算出する。また、例えば、候補アイテム集合頻度算出部５７は、候補アイテム集合{Ａ１:○,Ａ２:○}に対して処理を行うものとする。図２に示されるように、当該候補アイテム集合を含む事例は、事例ｔ１〜ｔ２，ｔ５〜ｔ７，ｔ１０であり、６個ある。このため、候補アイテム集合頻度算出部５７は、当該候補アイテム集合の出現頻度を「６」と算出する。

ステップＳｂ５では、候補アイテム集合評価値判定部５９が、第一の評価値として、当該候補アイテム集合の特徴支持度を式(１)により算出する。尚、ここでは、候補アイテム集合評価値判定部５９は、単調性を有するように第一の評価値を算出する。

例えば、候補アイテム集合｛Ａ１:○｝については、その出現頻度が「６」と算出され、対応する属性集合｛Ａ１｝の属性集合非欠損事例数が「１０」と算出されている。このため、候補アイテム集合評価値判定部５９は、当該候補アイテム集合の特徴支持度を式（１）により「０．６」と算出する。また、例えば、候補アイテム集合{Ａ１:○,Ａ２:○}については、その出現頻度が「６」と算出され、対応する属性集合｛Ａ１，Ａ２｝の属性集合非欠損事例数が「９」と算出されている。このため、候補アイテム集合評価値判定部５９は、当該候補アイテム集合の特徴支持度を式（１）により「０．６７」と算出する。

ステップＳｂ６では、候補アイテム集合評価値判定部５９が、候補アイテム集合に対して算出した特徴支持度と、予め設定されている最小支持度（所定の閾値）とを比較することにより、所定の第一判定条件を満たすか否かを判定する。このとき、特徴支持度が最小支持度以上となる場合には（ステップＳｂ６：ＹＥＳ）、所定の第一判定条件を満たすとして、ステップＳｂ７へと進む。特徴支持度が最小支持度未満になる場合には（ステップＳｂ６：ＮＯ）、所定の第二判定条件を満たさないとして、ステップＳｂ８へと進む。

例えば、最小支持度として「０．６５」が予め設定されているとする。この場合、候補アイテム集合｛Ａ１:○｝については、その特徴支持度は「０．６」であるから、最小支持度未満となる。従って、この場合、ステップＳｂ８へと進むことになる。一方、候補アイテム集合｛Ａ１:○,Ａ２:○}については、その特徴支持度は「０.６７」であるから、最小支持度以上となる。従って、この場合、ステップＳｂ７へと進むことになる。

ステップＳｂ７では、候補アイテム集合評価値判定部５９が、特徴支持度が最小支持度以上となった候補アイテム集合について、その状態を「特徴」と判定する。そして、候補アイテム集合評価値判定部５９は、図９に示すように、当該候補アイテム集合を「特徴」とラベル付けしてアイテム集合格納部６０に格納する。

例えば、候補アイテム集合｛Ａ１:○,Ａ２:○}については、図９に示すように、「特徴」とラベル付けしてアイテム集合格納部６０に候補アイテム集合評価値判定部５９は格納する。

ステップＳｂ８では、候補アイテム集合評価値算出部５８が、第二の評価値として、当該候補アイテム集合の可能性支持度を式(２)により算出する。尚、ここでも、候補アイテム集合評価値判定部５９は、単調性を有するように第二の評価値を算出する。

例えば、候補アイテム集合｛Ａ１:○｝については、その出現頻度が「６」と算出され、非欠損事例数が「８」と算出されている。このため、候補アイテム集合評価値判定部５９は、当該候補アイテム集合の特徴支持度を式（１）により「０．７５」と算出する。

ステップＳｂ９では、候補アイテム集合評価値判定部５９が、候補アイテム集合に対して算出した可能性支持度と、予め設定された最小支持度とを比較することにより、所定の第二判定条件を満たすか否かを判定する。このとき、特徴支持度が最小支持度以上となる場合には（ステップＳｂ９：ＹＥＳ）、所定の第二判定条件を満たすとして、ステップＳｂ１０へと進む。特徴支持度が最小支持度未満になる場合には（ステップＳｂ９：ＮＯ）、所定の第二判定条件を満たさないとして、当該アイテム集合決定処理を終了する。

例えば、最小支持度として「０．６５」が予め設定されているとする。この場合、候補アイテム集合｛Ａ１:○｝については、その可能性支持度は「０．７５」であるから、最小支持度以上となる。従って、この場合、ステップＳｂ１０へと進むことになる。一方、候補アイテム集合｛Ａ１:×}については、その特徴支持度は「０.５」であるから、最小支持度未満となる。従って、この場合、当該アイテム集合決定処理を終了することになる。

ステップＳｂ１０では、候補アイテム集合評価値判定部５９が、可能性支持度が最小支持度以上となった候補アイテム集合について、その状態を「可能性」と判定する。そして、候補アイテム集合評価値判定部５９は、当該候補アイテム集合を、「可能性」とラベル付けしてアイテム集合格納部６０に格納する。そして、当該アイテム集合決定処理を終了する。

例えば、候補アイテム集合{Ａ１:○}については、図１０に示すように「可能性」とラベル付けしてアイテム集合格納部６０に候補アイテム集合評価値判定部５９は格納する。

次に、図３に戻り、ステップＳａ８以降では、情報処理装置５０は、アイテム集合格納部６０に格納された各候補アイテム集合に対して以下のように処理を行う。ステップＳａ８では、候補アイテム集合生成部６１が、アイテム数として「１」を設定する。ステップＳａ９では、候補アイテム集合生成部６１が、アイテム集合格納部６０に格納されている候補アイテム集合の中から、候補アイテム集合を構成するアイテム数が、設定されたアイテム数と同数であると共に、設定されたアイテム数より「１」少ない数のアイテム（部分アイテム集合）を候補アイテム集合から抽出した場合に、当該部分アイテム集合を構成するアイテムが一致する２つの候補アイテム集合を対として選択する。尚、候補アイテム集合生成部６１は、候補アイテム集合において、各アイテムに設定された順序にアイテムを配列するものとする。このとき、候補アイテム集合生成部６１は、候補アイテム集合の対を選択できるか否か、即ち、選択する候補アイテム集合の対が存在するか否かを判定する。選択する候補アイテム集合の対が存在しない場合には、ステップＳａ１２へと進む。選択する候補アイテム集合の対が存在する場合には、ステップＳａ１０へと進む。

例えば、図４に示されるアイテムＩ１〜Ｉ６に対して、その順に順序が設定されているとする。アイテム数が「１」に設定されているとき、アイテム集合格納部６０に図１０に示される候補アイテム集合Ｉ１＿１，Ｉ１＿２，Ｉ１＿３が格納されているとする。アイテム数が「１」に設定されている場合、設定されたアイテム数より「１」少ないアイテムの数は「０」となる。即ち、部分アイテム集合に含まれるアイテムの数は「０」となる。この場合、候補アイテム集合の対を抽出するための条件は常に成立していることになる。即ち、任意の２つの候補アイテム集合について、部分アイテム集合を構成するアイテムが一致することになる。従って、候補アイテム集合生成部６１は、候補アイテム集合Ｉ１＿１と候補アイテム集合Ｉ１＿２との対、候補アイテム集合Ｉ１＿１と候補アイテム集合Ｉ１＿３との対及び候補アイテム集合Ｉ１＿２と候補アイテム集合Ｉ１＿３との対を選択することが可能である。この場合、候補アイテム集合生成部６１は、当該３対を全て選択した後には、ステップＳａ１２へと進むことになる。一方、当該３対の全てを選択し終えていない場合には、ステップＳａ１０へと進むことになる。

また、例えば、アイテム数が「２」に設定されているとき、アイテム集合格納部６０に図９に示す候補アイテム集合Ｉ２＿１，Ｉ２＿２が格納されているとする。アイテム数が「２」の場合、設定されたアイテム数より「１」少ないアイテム数の数は「１」となる。即ち、部分アイテム集合に含まれるアイテムの数は「１」となる。この場合、候補アイテム集合生成部６１は、２つの候補アイテム集合について、部分アイテム集合として先頭のアイテムが一致しているか否かを判定する。図９の例の場合、格納されている２つの候補アイテム集合の先頭のアイテムは各々、「Ａ１:○」、「Ａ２:○」であり、これらは一致していない。このため、候補アイテム集合生成部６１は、これらの２つの候補アイテム集合を対として抽出することはできない。この場合、抽出する候補アイテム集合の対が存在しないため、ステップＳａ１２へと進むことになる。もし、仮に、図９の候補アイテム集合Ｉ２＿１，Ｉ２＿２に加えて、アイテム集合格納部６０に候補アイテム集合Ｉ２＿３として{Ａ１:○,Ａ３:○ }といった候補アイテム集合が格納されている場合には、候補アイテム集合Ｉ２＿１，Ｉ２＿３とが、条件を満たす候補アイテム集合の対となる。この場合、ステップＳａ１０へと進むことになる。但し、本例においては、上述のステップＳａ７のアイテム集合決定処理で説明した最小支持度が「０．６５」である場合には、候補アイテム集合Ｉ２＿３がアイテム集合格納部６０に格納されることはない。

ステップＳａ１０では、候補アイテム集合生成部６１は、抽出された候補アイテム集合の対を組み合わせることにより、抽出された候補アイテム集合に含まれるアイテムの数より１つ多くのアイテムを含む候補アイテム集合を生成する。即ち、候補アイテム集合生成部６１は、アイテム数より「１」小さい数のアイテムを含み２つの候補アイテム集合に共通する部分アイテム集合に、各候補アイテム集合の部分アイテム集合に含まれない残りの各アイテムを付け加えることにより、候補アイテム集合を新たに生成する。このとき、候補アイテム集合生成部６１は、新たに生成する候補アイテム集合においても、各アイテムに設定された順序に従って、２つの残りのアイテムを配列する。具体的には、候補アイテム集合生成部６１は、２つの残りのアイテムの順序を比較し、より小さい順序が設定されているアイテムを、共通する部分アイテム集合の次に配列し、より大きい順序が設定されているアイテムを最後に配列する。

例えば、候補アイテム集合の対として、図１０に示した候補アイテム集合Ｉ１＿１，Ｉ１＿２が抽出されているとする。このとき、これらの候補アイテム集合アイテムＩ１＿１,Ｉ１＿２のアイテム数は「１」であるので、これらに共通する部分アイテム集合は存在していない。このため、候補アイテム集合生成部６１は、各候補アイテム集合に含まれている各アイテムに設定された順序を比較し、{Ａ１:○, Ａ２:○ }といった候補アイテム集合を生成する。

また、候補アイテム集合の対として、仮に、図９に示した候補アイテム集合Ｉ２＿２と、上述で説明した候補アイテム集合Ｉ２＿３とが選択されているとする。このとき、これらの候補アイテム集合Ｉ２＿２,Ｉ２＿３のアイテム数は「２」であるので、部分アイテム集合として先頭のアイテムが共通している。そして、２つの残りのアイテムは、｛Ａ２:○｝，｛Ａ３:○｝となる。このうち、前者の方が後者よりも順序が先になるため、候補アイテム集合生成部６１は、{Ａ１:○, Ａ２:○, Ａ３:○ }といった候補アイテム集合を生成する。但し、本例においては、上述のステップＳａ７のアイテム集合決定処理で説明した最小支持度が「０．６５」である場合には、候補アイテム集合Ｉ２＿３がアイテム集合格納部６０に格納されることはないため、候補アイテム集合Ｉ２＿２，Ｉ２＿３が対として選択されることはない。

ステップＳａ１１では、情報処理装置５０は、アイテム集合決定処理を行う。このアイテム集合決定処理の詳細についてはステップＳａ７の場合と同様に後述するが、この処理の概要は以下の通りである。候補アイテム集合評価値算出部５８が、候補アイテム集合の評価値を特徴支持度又は可能性支持度として計算する。そして、候補アイテム集合評価値判定部５９が、算出された評価値に基づいて、上述の所定の第一判定条件又は第二判定条件を満たすか否かを判定することにより、当該候補アイテム集合をアイテム集合格納部６０に格納するか否かを判定すると共に、当該判定結果に応じて、当該候補アイテム集合の状態を判定する。そして、当該判定結果に応じて、候補アイテム集合評価値判定部５９は、当該候補アイテム集合をその状態と共にアイテム集合格納部６０に格納する。

ステップＳａ１２では、候補アイテム集合生成部６１が、２つ以上の候補アイテム集合であり且つそれらの候補アイテム集合に、現在設定されているアイテム数より「１」大きい数の種類を含むものがアイテム集合格納部６０に格納されているか否かを判定する。このとき、該当の候補アイテム集合が格納されている場合には（ステップＳａ１２：ＹＥＳ）、ステップＳａ１３へと進む。該当の候補アイテム集合が格納されていない場合には（ステップＳａ１２：ＮＯ）、ステップＳａ１４へと進む。

例えば、アイテム数が「１」と設定されている場合に、図１０に示される候補アイテム集合Ｉ１＿１〜Ｉ１＿３がアイテム集合格納部６０に格納されている場合には、これらの候補アイテム集合Ｉ１＿１〜Ｉ１＿３の少なくとも１つに含まれるアイテムの種類は、「Ａ１」，「Ａ２」，「Ａ３」であり、当該種類の数は、「３」となる。従って、これらの２つ以上の候補アイテム集合には、少なくとも、現在設定されているアイテム数「１」より「１」大きい２種類のアイテムが少なくとも含まれるということになる。この場合、ステップＳａ１３へと進むことになる。また、アイテム数が「２」と設定されている場合に、図９に示される候補アイテム集合がアイテム集合格納部６０に格納されている場合にも、これらの２つの候補アイテム集合Ｉ２＿１〜Ｉ２＿２の少なくとも１つに含まれるアイテムの種類の数は、「３」となる。従って、この場合も、ステップＳａ１３へと進むことになる。一方、アイテム数が「３」と設定された場合、ここでは、アイテム集合格納部６０に格納されている候補アイテム集合のうち、２つ以上の候補アイテム集合に４種類のアイテムが含まれないことになる。この場合、ステップＳａ１４へと進むことになる。

ステップＳａ１３では、候補アイテム集合生成部６１が、現在設定されているアイテム数を「１」大きくする。ステップＳａ１４では、パターン出力部６２が、アイテム集合格納部６０に格納されている候補アイテム集合のうち、「特徴」という状態がラベル付けされている候補アイテム集合を、「特徴」という状態であるとして出力する。即ち、パターン出力部６２は、当該候補アイテム集合を特徴的なパターンとして出力する。

例えば、図６及び図７に示す候補アイテム集合がアイテム集合格納部６０に格納されている場合には、パターン出力部６２は、｛Ａ２:○｝、{Ａ１:○,Ａ２:○}、{Ａ２:○,Ａ３:○}の各候補アイテム集合を、特徴的なパターンとして出力する。

以上のように、複数の属性によって特徴付けられる事例を複数含み、当該属性の値を示す属性値と当該事例とが２次元の表構造により表されるデータが欠損値を含む場合であっても、欠損値を含む事例を削除することなしに、現存する属性値を有効に活用して、属性値間の特徴的な関係を検出することができる。このため、欠損値を含む事例を削除した場合よりも、与えられたデータを的確に反映した特徴的なパターンとして、属性の特徴や属性値間の特徴的な関係を検出することができる。

例えば、従来技術の１つとして、欠損値を含む事例を削除する方法を利用した場合、図４に示した事例ｔ３,ｔ８が削除されることになる。このとき、候補アイテム集合の評価値を、支持度として式(３)により算出するとする。

この場合、候補アイテム集合｛Ａ１:○｝については、支持度が「０．７５」と算出され、候補アイテム集合｛Ａ２:○｝については、支持度が「１．０」と算出され、候補アイテム集合｛Ａ３:○｝については、支持度が「０．７５」と算出され、候補アイテム集合{Ａ１:○,Ａ２:○}については、支持度が「０．７５」と算出され、候補アイテム集合{Ａ１:○,Ａ３:○}については、支持度が「０．５」と算出され、候補アイテム集合{Ａ２:○,Ａ３:○}については、支持度が「０．７５」と算出される。最小支持度が「０．６５」と設定されている場合には、算出された支持度と、最小支持度とが比較された結果、その状態が「特徴」としてラベル付けされるものは、候補アイテム集合｛Ａ１:○,Ａ２:○,Ａ３:○｝、{Ａ１:○,Ａ２:○}、{Ａ２:○,Ａ３:○ }となる。従って、本実施の形態とは異なり、与えられたデータを的確に反映していないパターンが出力される恐れがある。また、パターンとして｛Ａ１:○｝、｛Ａ３:○｝も検出されることになる。一方、実世界にある事例では、属性の数及び事例の数はより大規模なものになっているため、この違いはより顕著なものとなる。このため、本実施の形態においては、データを的確に反映した特徴的なパターンの検出が困難であるという従来の問題点を解決することが可能になる。

また、本実施の形態によれば、アイテム数を１つずつ増やして、より多くのアイテムを含む新たな候補アイテムス集合を徐々に生成することにより、属性の数及び事例の数はより大規模なものであっても、より的確に特徴的なパターンを検出することができる。

また、本実施の形態によれば、欠損していない他の属性値に基づいて欠損値を推定する必要がない。このため、データが欠損値を含む場合であっても、属性値の特徴や属性値間の特徴的な関係の検出を高速に行うことができる。

[変形例]
なお、本発明は前記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。また、以下に例示するような種々の変形が可能である。

上述した実施の形態において、情報処理装置５０で実行される各種プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、当該各種プログラムを、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成しても良い。

上述した実施の形態において、候補アイテム集合評価値算出部５８は、特徴支持度に基づいた評価値を算出したが、以下の参考文献に記載の系列興味度に基づいて評価値を算出するようにしても良い。
（参考文献）Shigeaki Sakurai, Yoichi Kitahara, and Ryohei Orihara: “Sequential Mining Method based on a New Criterion”, Proceedings of the 10th IASTED International Conference on Artificial Intelligence and Soft Computing, 544-045 (2006)

上述した実施の形態において、各属性の属性値として「○」又は「×」の２値を取り扱ったが、これに限らず、例えば、属性値は２値以外を取りえるようにしても良いし、属性毎に各々異なる数の属性値を取りえるようにしても良いし、各属性における属性値の表す値やその種類が異なっていても良い。

上述した実施の形態において、属性の個数は、「３」としたが、これに限らない。

上述した実施の形態においては、データ格納部５１に予め格納されたデータを処理対象としたが、これに限らず、例えば、コンピュータで読取り可能な記憶媒体に格納されたデータを処理対象としても良い。また、情報処理装置５０は、他の情報処理装置と通信するための通信部を更に備え、当該他の情報処理装置から受信したデータを処理対象としても良い。

上述の実施の形態のステップＳａ７，Ｓａ１１のアイテム集合決定処理においては、第一の評価値との比較に用いる最小支持度と、第二の評価値との比較に用いる最小支持度とは同じ値としたが、これらは異なる値であっても良いし。また、これらの値は、上述の値に限らない。

上述した実施の形態においては、アイテム集合格納部６０に格納された候補アイテム集合のうち、その状態が「可能性」とラベル付けされた候補アイテム集合についても、その状態と共に出力するようにしても良い。

一実施の形態にかかる情報処理装置５０の内部構成を例示する図である。同実施の形態にかかる処理対象のデータを例示する図である。同実施の形態にかかる情報処理装置５０の行うパターン検出処理の手順を示すフローチャートである。同実施の形態にかかる基本データ格納部５３に格納されるアイテムを例示する図である。同実施の形態にかかる属性集合頻度格納部５６に格納する非欠損事例数及び属性集合を例示する図である。同実施の形態にかかるアイテム集合決定処理の詳細な手順を示すフローチャートである。同実施の形態にかかる属性集合頻度格納部５６に格納される属性集合非欠損事例数及び属性集合を例示する図である。同実施の形態にかかる属性集合頻度格納部５６に格納される属性集合非欠損事例数及び属性集合を例示する図である。同実施の形態にかかるアイテム集合格納部６０に候補アイテム集合及びその状態を例示する図である。同実施の形態にかかるアイテム集合格納部６０に候補アイテム集合及びその状態を例示する図である。

符号の説明

５０情報処理装置
５１データ格納部
５２基本データ抽出部（抽出部）
５３基本データ格納部（第一格納部）
５４候補アイテム選択部（選択部）
５５属性集合頻度算出部（第一頻度算出部）
５６属性集合頻度格納部（第三格納部）
５７候補アイテム集合頻度算出部（第二頻度算出部）
５８候補アイテム集合評価値算出部（評価値算出部）
５９候補アイテム集合評価値判定部（評価値判定部）
６０アイテム集合格納部（第二格納部）
６１候補アイテム集合生成部（集合生成部）
６２パターン出力部（出力部）

Claims

複数の属性によって特徴付けられるレコードを複数含み当該属性の値を示す属性値と当該レコードとが２次元の表構造により表されるデータを取得する取得部と、
前記属性及び当該属性の値を示す前記属性値を含むアイテムを、前記データから前記属性を抽出する抽出部と、
抽出された前記アイテムを格納する第一格納部と、
前記アイテムを候補アイテム集合として順に選択する選択部と、
前記候補アイテム集合のうち、所定の判定条件を満たした前記候補アイテム集合を、当該候補アイテム集合に対して算出される複数の評価値の大小に応じて定まる状態と対応付けて格納する第二格納部と、
格納された前記候補アイテム集合に基づいて、含まれるアイテムの数がより大きい新たな候補アイテム集合を、前記第二格納部に新たに格納される候補として生成する集合生成部と、
前記候補アイテム集合を構成する前記アイテムに含まれる前記属性を少なくとも１つ含む属性集合及び前記データに含まれる属性集合のそれぞれについて、いずれの属性値も欠損していないレコードが前記データにおいて出現する頻度を第一の出現頻度として各々算出する第一頻度算出部と、
前記属性集合及び当該属性集合に対応する前記第一の出現頻度を各々対応付けて格納する第三格納部と、
前記候補アイテム集合が前記データにおいて出現する頻度を第二の出現頻度として算出する第二頻度算出部と、
前記候補アイテム集合について、前記第二の出現頻度及び前記第一の出現頻度に基づいて、単調性を有する複数の評価値を算出する評価値算出部と、
前記複数の評価値に基づいて、前記所定の判定条件を満たしているかを判定することにより、前記候補アイテム集合を前記第二格納部に格納するか否かを判定すると共に、当該候補アイテム集合の前記状態を判定する評価値判定部と、
前記第二格納部に前記状態と対応付けられて格納されている前記候補アイテム集合を、当該状態に応じて出力する出力部とを備える
ことを特徴とする情報処理装置。
前記評価値算出部は、
前記候補アイテム集合について、前記第二の出現頻度及び当該候補アイテム集合に含まれる前記属性集合に対応する前記第一の出現頻度に基づいて、第一の評価値を算出する第一算出部と、
前記候補アイテム集合について、前記第二の出現頻度及び前記属性の全てを含む前記属性集合に対応する前記第一の出現頻度に基づいて、第二の評価値を算出する第二算出部とを有し、
前記評価値判定部は、
所定の第一の判定条件として、前記第一の評価値が、所定の第一の閾値以上であると判定した場合に、前記候補アイテム集合を前記第二格納部に格納すると判定すると共に、当該候補アイテム集合の状態を第一の状態と判定する第一判定部と、
所定の第二の判定条件として、前記第二の評価値が、所定の第二の閾値以上であると判定した場合に、前記候補アイテム集合を前記アイテム集合格納部に格納すると判定すると共に、当該候補アイテム集合の状態を第二の状態と判定する第二判定部とを有し、
前記第二格納部は、前記第二格納部に格納すると判定された前記候補アイテム集合を、前記第一の状態又は前記第二の状態と対応付けて格納する
ことを特徴とする請求項１に記載の情報処理装置。
前記第一算出部は、前記候補アイテム集合について、当該候補アイテム集合に含まれる前記属性集合に対応する前記第一の出現頻度に対する前記第二の出現頻度の割合を、前記第一の評価値として算出し、
前記第二算出部は、前記候補アイテム集合について、前記属性の全てを含む前記属性集合に対応する前記第一の出現頻度に対する前記第二の出現頻度の割合を、前記第二の評価値として算出する
ことを特徴とする請求項２に記載の情報処理装置。
前記出力部は、前記第二格納部に格納されている前記候補アイテム集合のうち、前記第一の状態と対応付けられている前記候補アイテム集合を、当該第一の状態と対応付けて出力する
ことを特徴とする請求項２又は３に記載の情報処理装置。
前記抽出部は、各前記アイテムに順序を設定し、
前記第一格納部は、前記アイテムを前記順序と対応付けて格納し、
前記選択部は、前記アイテムに対応付けられた前記順序に従って、前記アイテムを順に選択する
ことを特徴とする請求項１乃至４のいずれか一項に記載の情報処理装置。
前記集合生成部は、
アイテム数を設定する設定部と、
設定されたアイテム数より１少ない数のアイテムについて、同一のアイテムを含む２つの候補アイテム集合を候補アイテム集合の対として選択する対選択部と、
対として選択された前記２つの候補アイテム集合に含まれるアイテムのうち、同一のアイテムを各々１つずつ含み、当該同一のアイテム以外のアイテムの全てを含む新たな候補アイテム集合を生成する生成部とを有する
ことを特徴とする請求項１乃至５のいずれか一項に記載の情報処理装置。
取得部と、抽出部と、格納制御部と、第一格納部と、選択部と、第二格納部と、集合生成部と、第一頻度算出部と、第三格納部と、第二頻度算出部と、評価値算出部と、評価値判定部と、出力部とを備える情報処理装置で実行される情報処理方法であって、
前記取得部が、複数の属性によって特徴付けられるレコードを複数含み当該属性の値を示す属性値と当該レコードとが２次元の表構造により表されるデータを取得する取得ステップと、
前記抽出部が、前記属性及び当該属性の値を示す前記属性値を含むアイテムを、前記データから前記属性を抽出する抽出ステップと、
前記格納制御部が、抽出された前記アイテムを前記第一格納部に格納する第一格納ステップと、
前記選択部が、前記アイテムを候補アイテム集合として順に選択する選択ステップと、
前記第一頻度算出部が、前記データに含まれる属性を含む属性集合のそれぞれについて、いずれの属性値も欠損していないレコードが前記データにおいて出現する頻度を第一の出現頻度として各々算出する第一頻度算出ステップと、
前記格納制御部が、前記属性集合及び当該属性集合に対応する前記第一の出現頻度を各々対応付けて前記第三格納部に格納する第二格納ステップと、
前記格納制御部が、前記候補アイテム集合のうち、所定の判定条件を満たした前記候補アイテム集合を、当該候補アイテム集合に対して算出される複数の評価値の大小に応じて定まる状態と対応付けて前記第二格納部に格納する第三格納ステップと、
前記集合生成部が、格納された前記候補アイテム集合に基づいて、含まれるアイテムの数がより大きい新たな候補アイテム集合を、前記第二格納部に新たに格納される候補として生成する集合生成ステップと、
前記第一頻度算出部が、前記候補アイテム集合を構成する前記アイテムに含まれる前記属性を少なくとも１つ含む属性集合のそれぞれについて、いずれの属性値も欠損していないレコードが前記データにおいて出現する頻度を第一の出現頻度として各々算出する第二頻度算出ステップと、
前記格納制御部が、前記属性集合及び当該属性集合に対応する前記第一の出現頻度を各々対応付けて前記第三格納部に格納する第四格納ステップと、
前記第二頻度算出部が、前記候補アイテム集合が前記データにおいて出現する頻度を第二の出現頻度として算出する第三頻度算出ステップと、
前記評価値算出部が、前記候補アイテム集合について、前記第二の出現頻度及び前記第一の出現頻度に基づいて、単調性を有する複数の評価値を算出する評価値算出ステップと、
前記評価値判定部が、前記複数の評価値に基づいて、前記所定の判定条件を満たしているかを判定することにより、前記候補アイテム集合を前記第二格納部に格納するか否かを判定すると共に、当該候補アイテム集合の前記状態を判定する評価値判定ステップと、
前記出力部が、前記第二格納部に前記状態と対応付けられて格納されている前記候補アイテム集合を、当該状態に応じて出力する出力ステップとを含む
ことを特徴とする情報処理方法。