JP5032374B2 - 情報処理装置及び方法 - Google Patents

情報処理装置及び方法 Download PDF

Info

Publication number
JP5032374B2
JP5032374B2 JP2008064594A JP2008064594A JP5032374B2 JP 5032374 B2 JP5032374 B2 JP 5032374B2 JP 2008064594 A JP2008064594 A JP 2008064594A JP 2008064594 A JP2008064594 A JP 2008064594A JP 5032374 B2 JP5032374 B2 JP 5032374B2
Authority
JP
Japan
Prior art keywords
candidate item
attribute
unit
item set
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008064594A
Other languages
English (en)
Other versions
JP2009223415A (ja
Inventor
茂明 櫻井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008064594A priority Critical patent/JP5032374B2/ja
Publication of JP2009223415A publication Critical patent/JP2009223415A/ja
Application granted granted Critical
Publication of JP5032374B2 publication Critical patent/JP5032374B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、複数の属性によって特徴付けられるレコードを複数含み当該属性の値を示す属性値と当該レコードとが2次元の表構造により表されるデータから、属性値の特徴や属性値間の特徴的な関係を検出する情報処理装置及び方法に関する。
従来より、例えば、複数の属性によって特徴付けられたレコードを複数含み、当該属性値とレコードとが2次元の表構造に表されるデータが多数存在している。このようなデータには、例えば、疾病や個人の身体的特性を記述したデータや地域の特性を記述したデータなどがある。これらのデータの中には、予防医療やマーケティングなどの分野において利用可能である有益な知見が埋もれていると考えられている。このため、これらデータを分析することにより、複数の属性値間の関係を検出し、新たな知見を得ることが求められている。このような属性値間の関係を検出するには、表構造の各マス目に属性値が示されていることが必要となる。しかし、実際のデータにおいては、特定の属性におけるデータ収集の困難さやデータの部分的な破損などによって、一部の属性値が欠損することがある。このため、このような属性値が欠損した欠損値を含んだデータを扱う方法が求められている。
例えば、特許文献1において提案されているデータマイニング装置では、欠損値の処理方法を利用者が指定することにより、欠損値を補完したデータから相関ルールを検出している。しかし、この装置では、欠損値の補完は必ずしも正しい補完を行えることが保障されている訳ではない。このため、誤った補完に基づいた相関ルールが検出される危険性があった。
また、特許文献2において提案されているデ―タ分析方法および装置では、欠損値の部分に特定の記号を入力することにより、欠損値の補完を行うとともに、個々のデータ項目(属性)ごとに特定の記号を利用するかどうかを利用者が判定して、相関ルールの学習を行っている。この装置では、特定の記号を利用した相関ルールが生成される可能性がある。しかし、このような相関ルールは必ずしも分析者にとって有効な相関ルールとなっていない可能性があった。また、特定の記号を利用しない場合には、当該属性を含むデータが十分に活用されない可能性があった。
更に、非特許文献1に記載されているひとつの方法では、欠損していない属性値の分布によって欠損している属性値を補間している。この方法の場合、補間した値は推定値に過ぎずないため、必ずしも妥当な補間が行われない可能性があった。また、欠損値を補間するには、多数の他の属性値を参照する必要があるため、その補間に時間がかかるといった問題があった。
尚、最も簡単な方法として、欠損値を含む対象のデータを削除し、欠損値を含まない対象のデータだけを用いる方法も利用されている。
特開平11−250084号公報 特開2000−40000号公報 John Ross Quinlan: "Induction of decision trees", Machine learning vol. 1, no. 1, pp. 81-166(1986)
しかしながら、この方法の場合、利用可能な一部の属性値を廃棄することになる。このため、与えられたデータを有効に活用した分析を行っているとは必ずしもいえなかった。
本発明は、上記に鑑みてなされたものであって、複数の属性によって特徴付けられるレコードを複数含み当該属性の値を示す属性値と当該レコードとが2次元の表構造により表されるデータが欠損値を含む場合であっても、データに含まれる属性値を有効に活用して、与えられたデータを的確に反映した特徴的なパターンとして、属性値の特徴や属性値間の特徴的な関係を検出可能な情報処理装置及び方法を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、情報処理装置であって、複数の属性によって特徴付けられるレコードを複数含み当該属性の値を示す属性値と当該レコードとが2次元の表構造により表されるデータを取得する取得部と、前記属性及び当該属性の値を示す前記属性値を含むアイテムを、前記データから前記属性を抽出する抽出部と、抽出された前記アイテムを格納する第一格納部と、前記アイテムを候補アイテム集合として順に選択する選択部と、前記候補アイテム集合のうち、所定の判定条件を満たした前記候補アイテム集合を、当該候補アイテム集合に対して算出される複数の評価値の大小に応じて定まる状態と対応付けて格納する第二格納部と、格納された前記候補アイテム集合に基づいて、含まれるアイテムの数がより大きい新たな候補アイテム集合を、前記第二格納部に新たに格納される候補として生成する集合生成部と、前記候補アイテム集合を構成する前記アイテムに含まれる前記属性を少なくとも1つ含む属性集合及び前記データに含まれる属性を含む属性集合のそれぞれについて、いずれの属性値も欠損していないレコードが前記データにおいて出現する頻度を第一の出現頻度として各々算出する第一頻度算出部と、前記属性集合及び当該属性集合に対応する前記第一の出現頻度を各々対応付けて格納する第三格納部と、前記候補アイテム集合が前記データにおいて出現する頻度を第二の出現頻度として算出する第二頻度算出部と、前記候補アイテム集合について、前記第二の出現頻度及び前記第一の出現頻度に基づいて、単調性を有する複数の評価値を算出する評価値算出部と、前記複数の評価値に基づいて、前記所定の判定条件を満たしているかを判定することにより、前記候補アイテム集合を前記第二格納部に格納するか否かを判定すると共に、当該候補アイテム集合の前記状態を判定する評価値判定部と、前記第二格納部に前記状態と対応付けられて格納されている前記候補アイテム集合を、当該状態に応じて出力する出力部とを備えることを特徴とする。
また、本発明は、取得部と、抽出部と、格納制御部と、第一格納部と、選択部と、第二格納部と、集合生成部と、第一頻度算出部と、第三格納部と、第二頻度算出部と、評価値算出部と、評価値判定部と、出力部とを備える情報処理装置で実行される情報処理方法であって、前記取得部が、複数の属性によって特徴付けられるレコードを複数含み当該属性の値を示す属性値と当該レコードとが2次元の表構造により表されるデータを取得する取得ステップと、前記抽出部が、前記属性及び当該属性の値を示す前記属性値を含むアイテムを、前記データから前記属性を抽出する抽出ステップと、前記格納制御部が、抽出された前記アイテムを前記第一格納部に格納する第一格納ステップと、前記選択部が、前記アイテムを候補アイテム集合として順に選択する選択ステップと、前記第一頻度算出部が、前記データに含まれる属性を含む属性集合のそれぞれについて、いずれの属性値も欠損していないレコードが前記データにおいて出現する頻度を第一の出現頻度として各々算出する第一頻度算出ステップと、前記格納制御部が、前記属性集合及び当該属性集合に対応する前記第一の出現頻度を各々対応付けて前記第三格納部に格納する第二格納ステップと、前記格納制御部が、前記候補アイテム集合のうち、所定の判定条件を満たした前記候補アイテム集合を、当該候補アイテム集合に対して算出される複数の評価値の大小に応じて定まる状態と対応付けて前記第二格納部に格納する第三格納ステップと、前記集合生成部が、格納された前記候補アイテム集合に基づいて、含まれるアイテムの数がより大きい新たな候補アイテム集合を、前記第二格納部に新たに格納される候補として生成する集合生成ステップと、前記第一頻度算出部が、前記候補アイテム集合を構成する前記アイテムに含まれる前記属性を少なくとも1つ含む属性集合のそれぞれについて、いずれの属性値も欠損していないレコードが前記データにおいて出現する頻度を第一の出現頻度として各々算出する第二頻度算出ステップと、前記格納制御部が、前記属性集合及び当該属性集合に対応する前記第一の出現頻度を各々対応付けて前記第三格納部に格納する第四格納ステップと、前記第二頻度算出部が、前記候補アイテム集合が前記データにおいて出現する頻度を第二の出現頻度として算出する第三頻度算出ステップと、前記評価値算出部が、前記候補アイテム集合について、前記第二の出現頻度及び前記第一の出現頻度に基づいて、単調性を有する複数の評価値を算出する評価値算出ステップと、前記評価値判定部が、前記複数の評価値に基づいて、前記所定の判定条件を満たしているかを判定することにより、前記候補アイテム集合を前記第二格納部に格納するか否かを判定すると共に、当該候補アイテム集合の前記状態を判定する評価値判定ステップと、前記出力部が、前記第二格納部に前記状態と対応付けられて格納されている前記候補アイテム集合を、当該状態に応じて出力する出力ステップとを含むことを特徴とする。
本発明によれば、複数の属性によって特徴付けられるレコードを複数含み当該属性の値を示す属性値と当該レコードとが2次元の表構造により表されるデータが欠損値を含む場合であっても、データに含まれる属性値を有効に活用して、与えられたデータを的確に反映した特徴的なパターンとして、属性値の特徴や属性値間の特徴的な関係を検出可能である。
以下に添付図面を参照して、この発明にかかる情報処理装置及び方法の最良な実施の形態を詳細に説明する。
(1)構成
本実施の形態にかかる情報処理装置50のハードウェア構成について説明する。情報処理装置50は、CPU(Central Processing Unit)と、各種プログラムや画像などの各種データを記憶するROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)などから構成される記憶部と、通信部と、これらを接続するバス(いずれも図示せず)とを備え、表示装置及びキーボードやマウス等の入力装置(いずれも図示せず)が接続された構成となっている。表示装置は、CRT(Cathode Ray Tube)や液晶モニタなどである。操作装置は、ユーザからの操作が入力される操作キーや操作ボタン、マウスなどを備える。
次に、本実施の形態にかかる情報処理装置の内部構成について説明する。図1は、本実施の形態にかかる情報処理装置50の内部構成を例示する図である。情報処理装置50は、データ格納部51と、基本データ抽出部52と、基本データ格納部53と、候補アイテム選択部54と、属性集合頻度算出部55と、属性集合頻度格納部56と、候補アイテム集合頻度算出部57と、候補アイテム集合評価値算出部58と、候補アイテム集合評価値判定部59と、アイテム集合格納部60と、候補アイテム集合生成部61と、パターン出力部62とを有する。このうち、基本データ抽出部52と、候補アイテム選択部54と、属性集合頻度算出部55と、候補アイテム集合頻度算出部57と、候補アイテム集合評価値算出部58と、候補アイテム集合評価値判定部59と、候補アイテム集合生成部61と、パターン出力部62とは、情報処理装置50のCPUが記憶部に記憶された各種プログラムを実行することにより実現される。データ格納部51と、基本データ格納部53と、属性集合頻度格納部56と、アイテム集合格納部60とは、記憶部により実現される。
データ格納部51には、処理対象のデータが少なくとも1つ格納される。本実施の形態において処理対象のデータとは、複数の属性によって特徴付けられる事例(レコード)を複数含み、当該属性の値を示す属性と当該事例とが2次元の表構造により表されるデータである。図2は、本実施の形態にかかる処理対象のデータを例示する図である。同図においては、各行が各事例t1〜t10を示しており、各列が各属性A1〜A3を示している。このように事例と各属性の値を示す属性値との2次元の表構造において、各欄に属性値が示される。ここでは、属性値として、「○」又は「×」が示されている。空欄となっているものは、その属性値が欠損していることを示しており、即ち、これが欠損値となる。同図においては、事例t3の属性A2,A3の各々の属性値と、事例t8の属性A3の属性値とがそれぞれ欠損値となる。
基本データ抽出部52は、データ格納部51に格納されたデータから事例を1つずつ読み出し、当該事例から、属性と属性値との組からなるアイテムを1つ抽出すると共に、当該アイテムの属性を抽出する。そして、基本データ抽出部52は、抽出したアイテムを基本データ格納部53に格納する。候補アイテム選択部54は、基本データ格納部53に格納されているアイテムの中から1つのアイテムを候補アイテム集合として選択する。属性集合頻度算出部55は、候補アイテム集合を構成するアイテムに含まれる属性の組み合わせを属性集合として抽出し、属性集合毎に、欠損値を含まない事例の個数を算出する。即ち、属性集合頻度算出部55は、候補アイテム集合を構成するアイテムに含まれる属性を少なくとも1つ含む属性集合及び処理対象のデータに含まれる全ての属性を含む属性集合のそれぞれについて、いずれの属性値も欠損していない事例の出現頻度を、非欠損事例数として算出する。尚、全ての属性を含む属性集合について算出された出現頻度は、非欠損事例数とし、その他の属性集合について算出された出現頻度は、属性集合非欠損事例数とする。属性集合頻度算出部55は、非欠損事例数又は属性集合非欠損事例数と属性集合との組を属性集合頻度格納部56に格納する。候補アイテム集合頻度算出部57は、候補アイテム集合を含んでいる事例の個数を当該候補アイテム集合の出現頻度として算出する。
候補アイテム集合生成部61は、候補アイテム選択部54が選択した候補アイテム集合及び後述する候補アイテム集合評価値判定部59がアイテム集合格納部60に格納した候補アイテム集合のうち少なくとも一方に基づいて、候補アイテム集合の対を選択して、当該候補アイテム集合の対に基づいて、新たな候補アイテム集合を生成する。候補アイテム集合評価値算出部58は、属性集合頻度算出部55が算出した属性集合非欠損事例数及び候補アイテム集合頻度算出部57が算出した出現頻度を用いて、候補アイテム選択部54が選択した候補アイテム集合又は候補アイテム集合生成部61が生成した候補アイテム集合の評価値を算出する。候補アイテム集合評価値判定部59は、候補アイテム集合評価値算出部58が算出した評価値に基づいて、所定の判定条件を満たすか否かを判定することにより、当該候補アイテム集合をアイテム集合格納部60に格納するか否かを判定する。そして、候補アイテム集合評価値判定部59は、当該判定結果に応じて、当該候補アイテム集合を、評価値の大小に応じて定まる状態と共にアイテム集合格納部60に格納する。パターン出力部62は、アイテム集合格納部60に格納された候補アイテム集合のうちその状態が所定の状態である候補アイテム集合を、特徴的なパターンとして出力する。
(2)動作
次に、本実施の形態にかかる情報処理装置50の行うパターン検出処理の手順について図3を用いて説明する。情報処理装置50の基本データ抽出部52は、データ格納部51に格納されている処理対象の1つのデータから1つの事例を抽出する。このとき、基本データ抽出部52は、事例を抽出できたか否か、即ち、抽出する事例が存在するか否かを判定する(ステップSa1)。抽出する事例が存在しない場合には(ステップSa1:NO)、ステップSa5へと進む。抽出する事例が存在する場合には(ステップSa1:YES)、ステップSa2へと進む。
例えば、図2に示すデータがデータ格納部51に格納されている場合、基本データ抽出部52は、ステップSa1毎に、事例t1〜t10の順に事例を順次抽出するとする。この場合、基本データ抽出部52は、ステップSa1で事例t10を抽出して、後述のステップSa2〜Sa4の処理を行った後に再度ステップSa1を行うことになったとき、抽出する事例は存在しないことになる。この場合、ステップSa5へと進むことになる。一方、事例t10を抽出し終わるまでは、ステップSa1の判定結果は肯定的となり、ステップSa2へと進むことになる。
ステップSa2では、基本データ抽出部52は、抽出した事例の中から属性と属性値との組からなるアイテムをひとつ抽出すると共に、当該アイテムの属性を抽出する。このとき、当該アイテムを抽出できたか否か、即ち、当該アイテムが存在するか否かを判定する。抽出するアイテムが存在しない場合には(ステップSa2:NO)、ステップSa1へと戻る。抽出するアイテムが存在する場合には(ステップSa2:YES)、ステップSa3へと進む。尚、基本データ抽出部52は、抽出した各アイテムに対して例えば辞書順のような順序を設定し、基本データ格納部53は、各アイテムを順序と対応付けて格納するものとする。
例えば、ステップSa1で、基本データ抽出部52は、事例t1を抽出しているとする。このとき、基本データ抽出部52は、ステップSa2毎に、事例t1の属性A1〜A3の順にアイテムを順次抽出するとする。このとき、基本データ抽出部52は、ステップSa2では、例えば、属性A1について、{A1:○}をアイテムとして抽出し、当該アイテムの属性として「A1」を抽出する。このようにして、基本データ抽出部52は、ステップSa2毎に、属性A1〜A3に対応するアイテムを順次抽出する。そして、基本データ抽出部52は、属性A3に対応するアイテムを抽出して、後述のステップSa3〜Sa4の処理を行った後に再度ステップSa2を行うことになったとき、抽出するアイテムが存在しないことになる。この場合、ステップSa1へと戻る。一方、1つの事例から属性A3を抽出し終わるまでは、抽出するアイテムは存在しているので、ステップSa3へと進む。
ステップSa3では、基本データ抽出部52は、抽出したアイテムが基本データ格納部53に格納されているか否かを判定する。このとき、基本データ格納部53に当該のアイテムが格納されている場合には、ステップSa2へと戻る。当該のアイテムが格納されていない場合には、ステップSa4へと進む。ステップSa4では、基本データ格納部53は、抽出したアイテムを基本データ格納部53に格納して、ステップSa2へと戻る。
例えば、基本データ抽出部52は、ステップSa3で、図2に示した事例t1からアイテム{A1:○}を抽出したとする。このとき、基本データ抽出部52は、処理対象のデータについて、ステップSa1の開始以降、ステップSa3の処理を初めて行ったことになる。このため、基本データ格納部53には、まだどのアイテムも格納されていないことになる。この場合に、ステップSa3の判定結果が否定的となり、ステップSa4へと進むことになる。そして、基本データ抽出部52は、ステップSa2で抽出したアイテム{A1:○}を基本データ格納部53に格納することになる。一方、ステップSa3で、基本データ抽出部52は、例えば、事例t2からアイテム{A1:○}を抽出したとき、当該アイテムは事例t1において1度抽出されているため、基本データ格納部53に格納されていることになる。この場合、ステップSa3の判定結果は否定的となる。この場合、ステップSa2へと戻ることになる。このようにして、ステップSa1〜Sa4の処理が事例t1〜t6について順次行われた結果、図4に例示されるように、アイテムI1〜I6が基本データ格納部53に格納されることになる。
そして、事例t1〜t6から各アイテムの抽出が終了すると、次いで、抽出した各アイテムを用いた処理を行うことになる。図3のステップSa5では、属性集合頻度算出部55が、基本データ抽出部52によって抽出された全属性に従って、データ格納部51に格納されている処理対象のデータに含まれる全事例を調査することにより、欠損値を含まない事例の個数(非欠損事例数)を算出する。そして、属性集合頻度算出部55は、算出した非欠損事例数を、全属性を含む属性集合と組にして属性集合頻度格納部56に格納する。
例えば、図2の例の場合、事例t3,t8以外の事例は欠損値を含まない。このため、ステップSa5では、属性集合頻度算出部55は、非欠損事例数は「8」と算出する。そして、属性集合頻度算出部55は、図5に示されるように、全属性を含む属性集合{A1,A2,A3}と非欠損事例数「8」とを組にして、属性集合頻度格納部56に格納する。
次いで、ステップSa6では、候補アイテム選択部54は、基本データ格納部53に格納されているアイテムの中から1つのアイテムを抽出する。ここでは、各アイテムは順序と対応付けられて基本データ格納部53に格納されているため、その順序に従って各アイテムを候補アイテム選択部54は抽出する。そして、このとき、候補アイテム選択部54は、アイテムを抽出できたか否か、即ち、抽出するアイテムが存在するか否かを判定する。抽出するアイテムが存在しない場合には(ステップSa6:NO)、ステップSa8へと進む。抽出するアイテムが存在する場合には(ステップSa6:YES)、候補アイテム選択部54は、抽出したアイテムを候補アイテム集合とみなしてステップSa7へと進む。
例えば、候補アイテム選択部54は、ステップSa6毎に、図4に例示したアイテムI1〜I6の順にアイテムを順次抽出するとする。このとき、候補アイテム選択部54は、アイテムI6を抽出した後再度ステップSa6の処理を行うことになったとき、抽出するアイテムは存在しないことになる。この場合、ステップSa6の判定結果が否定的となり、ステップSa8へと進むことになる。一方、アイテムI6を抽出し終わるまでは、ステップSa6の判定結果は肯定的となるので、ステップSa7へと進むことになる。
ステップSa7では、情報処理装置50は、アイテム集合決定処理を行う。図6は、アイテム集合決定処理の詳細な手順を示すフローチャートである。ステップSb1では、属性集合頻度算出部55が、候補アイテム集合を構成するアイテムに含まれる属性の組み合わせを属性集合として抽出する。また、属性集合頻度算出部55は、当該属性集合について、欠損値を含まない事例の個数(属性集合非欠損事例数)が属性集合頻度格納部56に格納されているか否かを判定する。当該属性集合非欠損事例数が属性集合頻度格納部56に格納されている場合には(ステップSb1:YES)、ステップSb4へと進む。当該属性集合非欠損事例数が属性集合頻度格納部56に格納されていない場合には(ステップSb1:NO)、ステップSb2へと進む。ステップSb2では、属性集合頻度算出部55が、候補アイテム集合に対応する属性集合において、当該属性集合の属性集合非欠損事例数を算出する。
例えば、属性集合頻度算出部55は、ステップSb1で属性集合として{A2}を抽出しているとする。このとき、図2に示した事例t3以外の事例には、当該属性集合の属性値が各々設定されているので、属性集合頻度算出部55は、属性集合非欠損事例数として「9」を算出する。
また、例えば、属性集合頻度算出部55は、ステップSb1で属性集合として{A2:○, A3:○}を抽出しているとする。このとき、図2に示した事例t3,t8以外の事例には、当該属性集合の属性値が各々設定されているので、属性集合頻度算出部55は、属性集合非欠損事例数として「8」を算出する。
ステップSb3では、属性集合頻度算出部55が、属性集合と、それに対して算出した属性集合非欠損事例数とを組にして属性集合頻度格納部56に格納する。
例えば、図7〜8に示すように、属性集合とその属性集合非欠損事例数との組を属性集合頻度格納部56に属性集合頻度算出部55は格納する。
このようにして、属性集合頻度算出部55は、各属性集合に対して属性集合非欠損事例数を各々算出してこれらの各組を属性集合頻度格納部56に重複なく格納する。例えば、図7に示すように、属性集合とその属性集合非欠損事例数との組が属性集合頻度格納部56に格納されているとき、属性集合頻度算出部55が、候補アイテム集合{A3:×}について処理を行う場合、ステップSb1では以下のように処理を行う。この場合、当該候補アイテム集合を構成するアイテムに含まれる属性の組み合わせは、{A3}のみとなる。従って、属性集合頻度算出部55は、{A3}を属性集合として抽出する。当該属性集合{A3}に対しては、同図に示されるように、属性集合非欠損事例数「8」が属性集合頻度格納部56に格納されている。このため、この場合、ステップSb4へと進むことになる。
また、例えば、図7に示すように、属性集合とその属性集合非欠損事例数との組が属性集合頻度格納部56に格納されているとき、属性集合頻度算出部55が、候補アイテム集合{A2:○,A3:○}について処理を行う場合、ステップSb1では以下のように処理を行う。この場合、当該候補アイテム集合を構成するアイテムに含まれる属性の組み合わせは、{A2,A3}となる。従って、属性集合頻度算出部55は、{A2,A3}を属性集合として抽出する。しかし、同図に示されるように、当該属性集合については、属性集合非欠損事例数との組が属性集合頻度格納部56に格納されていない。従って、この場合、ステップSb2へと進むことになる。
図6に戻り、ステップSb4では、候補アイテム集合頻度算出部57が、候補アイテム集合を含んでいる事例の個数を当該候補アイテム集合の出現頻度として算出する。
例えば、候補アイテム集合頻度算出部57は、候補アイテム集合{A1:○}に対して処理を行うものとする。図2に示されるように、当該候補アイテム集合を含む事例は、事例t1〜t2,t5〜t7,t10であり、6個ある。このため、候補アイテム集合頻度算出部57は、当該候補アイテム集合の出現頻度を「6」と算出する。また、例えば、候補アイテム集合頻度算出部57は、候補アイテム集合{A1:○,A2:○}に対して処理を行うものとする。図2に示されるように、当該候補アイテム集合を含む事例は、事例t1〜t2,t5〜t7,t10であり、6個ある。このため、候補アイテム集合頻度算出部57は、当該候補アイテム集合の出現頻度を「6」と算出する。
ステップSb5では、候補アイテム集合評価値判定部59が、第一の評価値として、当該候補アイテム集合の特徴支持度を式(1)により算出する。尚、ここでは、候補アイテム集合評価値判定部59は、単調性を有するように第一の評価値を算出する。
Figure 0005032374
例えば、候補アイテム集合{A1:○}については、その出現頻度が「6」と算出され、対応する属性集合{A1}の属性集合非欠損事例数が「10」と算出されている。このため、候補アイテム集合評価値判定部59は、当該候補アイテム集合の特徴支持度を式(1)により「0.6」と算出する。また、例えば、候補アイテム集合{A1:○,A2:○}については、その出現頻度が「6」と算出され、対応する属性集合{A1,A2}の属性集合非欠損事例数が「9」と算出されている。このため、候補アイテム集合評価値判定部59は、当該候補アイテム集合の特徴支持度を式(1)により「0.67」と算出する。
ステップSb6では、候補アイテム集合評価値判定部59が、候補アイテム集合に対して算出した特徴支持度と、予め設定されている最小支持度(所定の閾値)とを比較することにより、所定の第一判定条件を満たすか否かを判定する。このとき、特徴支持度が最小支持度以上となる場合には(ステップSb6:YES)、所定の第一判定条件を満たすとして、ステップSb7へと進む。特徴支持度が最小支持度未満になる場合には(ステップSb6:NO)、所定の第二判定条件を満たさないとして、ステップSb8へと進む。
例えば、最小支持度として「0.65」が予め設定されているとする。この場合、候補アイテム集合{A1:○}については、その特徴支持度は「0.6」であるから、最小支持度未満となる。従って、この場合、ステップSb8へと進むことになる。一方、候補アイテム集合{A1:○,A2:○}については、その特徴支持度は「0.67」であるから、最小支持度以上となる。従って、この場合、ステップSb7へと進むことになる。
ステップSb7では、候補アイテム集合評価値判定部59が、特徴支持度が最小支持度以上となった候補アイテム集合について、その状態を「特徴」と判定する。そして、候補アイテム集合評価値判定部59は、図9に示すように、当該候補アイテム集合を「特徴」とラベル付けしてアイテム集合格納部60に格納する。
例えば、候補アイテム集合{A1:○,A2:○}については、図9に示すように、「特徴」とラベル付けしてアイテム集合格納部60に候補アイテム集合評価値判定部59は格納する。
ステップSb8では、候補アイテム集合評価値算出部58が、第二の評価値として、当該候補アイテム集合の可能性支持度を式(2)により算出する。尚、ここでも、候補アイテム集合評価値判定部59は、単調性を有するように第二の評価値を算出する。
Figure 0005032374
例えば、候補アイテム集合{A1:○}については、その出現頻度が「6」と算出され、非欠損事例数が「8」と算出されている。このため、候補アイテム集合評価値判定部59は、当該候補アイテム集合の特徴支持度を式(1)により「0.75」と算出する。
ステップSb9では、候補アイテム集合評価値判定部59が、候補アイテム集合に対して算出した可能性支持度と、予め設定された最小支持度とを比較することにより、所定の第二判定条件を満たすか否かを判定する。このとき、特徴支持度が最小支持度以上となる場合には(ステップSb9:YES)、所定の第二判定条件を満たすとして、ステップSb10へと進む。特徴支持度が最小支持度未満になる場合には(ステップSb9:NO)、所定の第二判定条件を満たさないとして、当該アイテム集合決定処理を終了する。
例えば、最小支持度として「0.65」が予め設定されているとする。この場合、候補アイテム集合{A1:○}については、その可能性支持度は「0.75」であるから、最小支持度以上となる。従って、この場合、ステップSb10へと進むことになる。一方、候補アイテム集合{A1:×}については、その特徴支持度は「0.5」であるから、最小支持度未満となる。従って、この場合、当該アイテム集合決定処理を終了することになる。
ステップSb10では、候補アイテム集合評価値判定部59が、可能性支持度が最小支持度以上となった候補アイテム集合について、その状態を「可能性」と判定する。そして、候補アイテム集合評価値判定部59は、当該候補アイテム集合を、「可能性」とラベル付けしてアイテム集合格納部60に格納する。そして、当該アイテム集合決定処理を終了する。
例えば、候補アイテム集合{A1:○}については、図10に示すように「可能性」とラベル付けしてアイテム集合格納部60に候補アイテム集合評価値判定部59は格納する。
次に、図3に戻り、ステップSa8以降では、情報処理装置50は、アイテム集合格納部60に格納された各候補アイテム集合に対して以下のように処理を行う。ステップSa8では、候補アイテム集合生成部61が、アイテム数として「1」を設定する。ステップSa9では、候補アイテム集合生成部61が、アイテム集合格納部60に格納されている候補アイテム集合の中から、候補アイテム集合を構成するアイテム数が、設定されたアイテム数と同数であると共に、設定されたアイテム数より「1」少ない数のアイテム(部分アイテム集合)を候補アイテム集合から抽出した場合に、当該部分アイテム集合を構成するアイテムが一致する2つの候補アイテム集合を対として選択する。尚、候補アイテム集合生成部61は、候補アイテム集合において、各アイテムに設定された順序にアイテムを配列するものとする。このとき、候補アイテム集合生成部61は、候補アイテム集合の対を選択できるか否か、即ち、選択する候補アイテム集合の対が存在するか否かを判定する。選択する候補アイテム集合の対が存在しない場合には、ステップSa12へと進む。選択する候補アイテム集合の対が存在する場合には、ステップSa10へと進む。
例えば、図4に示されるアイテムI1〜I6に対して、その順に順序が設定されているとする。アイテム数が「1」に設定されているとき、アイテム集合格納部60に図10に示される候補アイテム集合I1_1,I1_2,I1_3が格納されているとする。アイテム数が「1」に設定されている場合、設定されたアイテム数より「1」少ないアイテムの数は「0」となる。即ち、部分アイテム集合に含まれるアイテムの数は「0」となる。この場合、候補アイテム集合の対を抽出するための条件は常に成立していることになる。即ち、任意の2つの候補アイテム集合について、部分アイテム集合を構成するアイテムが一致することになる。従って、候補アイテム集合生成部61は、候補アイテム集合I1_1と候補アイテム集合I1_2との対、候補アイテム集合I1_1と候補アイテム集合I1_3との対及び候補アイテム集合I1_2と候補アイテム集合I1_3との対を選択することが可能である。この場合、候補アイテム集合生成部61は、当該3対を全て選択した後には、ステップSa12へと進むことになる。一方、当該3対の全てを選択し終えていない場合には、ステップSa10へと進むことになる。
また、例えば、アイテム数が「2」に設定されているとき、アイテム集合格納部60に図9に示す候補アイテム集合I2_1,I2_2が格納されているとする。アイテム数が「2」の場合、設定されたアイテム数より「1」少ないアイテム数の数は「1」となる。即ち、部分アイテム集合に含まれるアイテムの数は「1」となる。この場合、候補アイテム集合生成部61は、2つの候補アイテム集合について、部分アイテム集合として先頭のアイテムが一致しているか否かを判定する。図9の例の場合、格納されている2つの候補アイテム集合の先頭のアイテムは各々、「A1:○」、「A2:○」であり、これらは一致していない。このため、候補アイテム集合生成部61は、これらの2つの候補アイテム集合を対として抽出することはできない。この場合、抽出する候補アイテム集合の対が存在しないため、ステップSa12へと進むことになる。もし、仮に、図9の候補アイテム集合I2_1,I2_2に加えて、アイテム集合格納部60に候補アイテム集合I2_3として{A1:○,A3:○ }といった候補アイテム集合が格納されている場合には、候補アイテム集合I2_1,I2_3とが、条件を満たす候補アイテム集合の対となる。この場合、ステップSa10へと進むことになる。但し、本例においては、上述のステップSa7のアイテム集合決定処理で説明した最小支持度が「0.65」である場合には、候補アイテム集合I2_3がアイテム集合格納部60に格納されることはない。
ステップSa10では、候補アイテム集合生成部61は、抽出された候補アイテム集合の対を組み合わせることにより、抽出された候補アイテム集合に含まれるアイテムの数より1つ多くのアイテムを含む候補アイテム集合を生成する。即ち、候補アイテム集合生成部61は、アイテム数より「1」小さい数のアイテムを含み2つの候補アイテム集合に共通する部分アイテム集合に、各候補アイテム集合の部分アイテム集合に含まれない残りの各アイテムを付け加えることにより、候補アイテム集合を新たに生成する。このとき、候補アイテム集合生成部61は、新たに生成する候補アイテム集合においても、各アイテムに設定された順序に従って、2つの残りのアイテムを配列する。具体的には、候補アイテム集合生成部61は、2つの残りのアイテムの順序を比較し、より小さい順序が設定されているアイテムを、共通する部分アイテム集合の次に配列し、より大きい順序が設定されているアイテムを最後に配列する。
例えば、候補アイテム集合の対として、図10に示した候補アイテム集合I1_1,I1_2が抽出されているとする。このとき、これらの候補アイテム集合アイテムI1_1,I1_2のアイテム数は「1」であるので、これらに共通する部分アイテム集合は存在していない。このため、候補アイテム集合生成部61は、各候補アイテム集合に含まれている各アイテムに設定された順序を比較し、{A1:○, A2:○ }といった候補アイテム集合を生成する。
また、候補アイテム集合の対として、仮に、図9に示した候補アイテム集合I2_2と、上述で説明した候補アイテム集合I2_3とが選択されているとする。このとき、これらの候補アイテム集合I2_2,I2_3のアイテム数は「2」であるので、部分アイテム集合として先頭のアイテムが共通している。そして、2つの残りのアイテムは、{A2:○},{A3:○}となる。このうち、前者の方が後者よりも順序が先になるため、候補アイテム集合生成部61は、{A1:○, A2:○, A3:○ }といった候補アイテム集合を生成する。但し、本例においては、上述のステップSa7のアイテム集合決定処理で説明した最小支持度が「0.65」である場合には、候補アイテム集合I2_3がアイテム集合格納部60に格納されることはないため、候補アイテム集合I2_2,I2_3が対として選択されることはない。
ステップSa11では、情報処理装置50は、アイテム集合決定処理を行う。このアイテム集合決定処理の詳細についてはステップSa7の場合と同様に後述するが、この処理の概要は以下の通りである。候補アイテム集合評価値算出部58が、候補アイテム集合の評価値を特徴支持度又は可能性支持度として計算する。そして、候補アイテム集合評価値判定部59が、算出された評価値に基づいて、上述の所定の第一判定条件又は第二判定条件を満たすか否かを判定することにより、当該候補アイテム集合をアイテム集合格納部60に格納するか否かを判定すると共に、当該判定結果に応じて、当該候補アイテム集合の状態を判定する。そして、当該判定結果に応じて、候補アイテム集合評価値判定部59は、当該候補アイテム集合をその状態と共にアイテム集合格納部60に格納する。
ステップSa12では、候補アイテム集合生成部61が、2つ以上の候補アイテム集合であり且つそれらの候補アイテム集合に、現在設定されているアイテム数より「1」大きい数の種類を含むものがアイテム集合格納部60に格納されているか否かを判定する。このとき、該当の候補アイテム集合が格納されている場合には(ステップSa12:YES)、ステップSa13へと進む。該当の候補アイテム集合が格納されていない場合には(ステップSa12:NO)、ステップSa14へと進む。
例えば、アイテム数が「1」と設定されている場合に、図10に示される候補アイテム集合I1_1〜I1_3がアイテム集合格納部60に格納されている場合には、これらの候補アイテム集合I1_1〜I1_3の少なくとも1つに含まれるアイテムの種類は、「A1」,「A2」,「A3」であり、当該種類の数は、「3」となる。従って、これらの2つ以上の候補アイテム集合には、少なくとも、現在設定されているアイテム数「1」より「1」大きい2種類のアイテムが少なくとも含まれるということになる。この場合、ステップSa13へと進むことになる。また、アイテム数が「2」と設定されている場合に、図9に示される候補アイテム集合がアイテム集合格納部60に格納されている場合にも、これらの2つの候補アイテム集合I2_1〜I2_2の少なくとも1つに含まれるアイテムの種類の数は、「3」となる。従って、この場合も、ステップSa13へと進むことになる。一方、アイテム数が「3」と設定された場合、ここでは、アイテム集合格納部60に格納されている候補アイテム集合のうち、2つ以上の候補アイテム集合に4種類のアイテムが含まれないことになる。この場合、ステップSa14へと進むことになる。
ステップSa13では、候補アイテム集合生成部61が、現在設定されているアイテム数を「1」大きくする。ステップSa14では、パターン出力部62が、アイテム集合格納部60に格納されている候補アイテム集合のうち、「特徴」という状態がラベル付けされている候補アイテム集合を、「特徴」という状態であるとして出力する。即ち、パターン出力部62は、当該候補アイテム集合を特徴的なパターンとして出力する。
例えば、図6及び図7に示す候補アイテム集合がアイテム集合格納部60に格納されている場合には、パターン出力部62は、{A2:○}、{A1:○,A2:○}、{A2:○,A3:○}の各候補アイテム集合を、特徴的なパターンとして出力する。
以上のように、複数の属性によって特徴付けられる事例を複数含み、当該属性の値を示す属性値と当該事例とが2次元の表構造により表されるデータが欠損値を含む場合であっても、欠損値を含む事例を削除することなしに、現存する属性値を有効に活用して、属性値間の特徴的な関係を検出することができる。このため、欠損値を含む事例を削除した場合よりも、与えられたデータを的確に反映した特徴的なパターンとして、属性の特徴や属性値間の特徴的な関係を検出することができる。
例えば、従来技術の1つとして、欠損値を含む事例を削除する方法を利用した場合、図4に示した事例t3,t8が削除されることになる。このとき、候補アイテム集合の評価値を、支持度として式(3)により算出するとする。
Figure 0005032374
この場合、候補アイテム集合{A1:○}については、支持度が「0.75」と算出され、候補アイテム集合{A2:○}については、支持度が 「1.0」と算出され、候補アイテム集合{A3:○}については、支持度が「0.75」と算出され、候補アイテム集合{A1:○,A2:○}については、支持度が「0.75」と算出され、候補アイテム集合{A1:○,A3:○}については、支持度が「0.5」と算出され、候補アイテム集合{A2:○,A3:○}については、支持度が「0.75」と算出される。最小支持度が 「0.65」と設定されている場合には、算出された支持度と、最小支持度とが比較された結果、その状態が「特徴」としてラベル付けされるものは、候補アイテム集合{A1:○,A2:○,A3:○}、{A1:○,A2:○}、{A2:○,A3:○ }となる。従って、本実施の形態とは異なり、与えられたデータを的確に反映していないパターンが出力される恐れがある。また、パターンとして{A1:○}、{A3:○}も検出されることになる。一方、実世界にある事例では、属性の数及び事例の数はより大規模なものになっているため、この違いはより顕著なものとなる。このため、本実施の形態においては、データを的確に反映した特徴的なパターンの検出が困難であるという従来の問題点を解決することが可能になる。
また、本実施の形態によれば、アイテム数を1つずつ増やして、より多くのアイテムを含む新たな候補アイテムス集合を徐々に生成することにより、属性の数及び事例の数はより大規模なものであっても、より的確に特徴的なパターンを検出することができる。
また、本実施の形態によれば、欠損していない他の属性値に基づいて欠損値を推定する必要がない。このため、データが欠損値を含む場合であっても、属性値の特徴や属性値間の特徴的な関係の検出を高速に行うことができる。
[変形例]
なお、本発明は前記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。また、以下に例示するような種々の変形が可能である。
上述した実施の形態において、情報処理装置50で実行される各種プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、当該各種プログラムを、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成しても良い。
上述した実施の形態において、候補アイテム集合評価値算出部58は、特徴支持度に基づいた評価値を算出したが、以下の参考文献に記載の系列興味度に基づいて評価値を算出するようにしても良い。
(参考文献)Shigeaki Sakurai, Yoichi Kitahara, and Ryohei Orihara: “Sequential Mining Method based on a New Criterion”, Proceedings of the 10th IASTED International Conference on Artificial Intelligence and Soft Computing, 544-045 (2006)
上述した実施の形態において、各属性の属性値として「○」又は「×」の2値を取り扱ったが、これに限らず、例えば、属性値は2値以外を取りえるようにしても良いし、属性毎に各々異なる数の属性値を取りえるようにしても良いし、各属性における属性値の表す値やその種類が異なっていても良い。
上述した実施の形態において、属性の個数は、「3」としたが、これに限らない。
上述した実施の形態においては、データ格納部51に予め格納されたデータを処理対象としたが、これに限らず、例えば、コンピュータで読取り可能な記憶媒体に格納されたデータを処理対象としても良い。また、情報処理装置50は、他の情報処理装置と通信するための通信部を更に備え、当該他の情報処理装置から受信したデータを処理対象としても良い。
上述の実施の形態のステップSa7,Sa11のアイテム集合決定処理においては、第一の評価値との比較に用いる最小支持度と、第二の評価値との比較に用いる最小支持度とは同じ値としたが、これらは異なる値であっても良いし。また、これらの値は、上述の値に限らない。
上述した実施の形態においては、アイテム集合格納部60に格納された候補アイテム集合のうち、その状態が「可能性」とラベル付けされた候補アイテム集合についても、その状態と共に出力するようにしても良い。
一実施の形態にかかる情報処理装置50の内部構成を例示する図である。 同実施の形態にかかる処理対象のデータを例示する図である。 同実施の形態にかかる情報処理装置50の行うパターン検出処理の手順を示すフローチャートである。 同実施の形態にかかる基本データ格納部53に格納されるアイテムを例示する図である。 同実施の形態にかかる属性集合頻度格納部56に格納する非欠損事例数及び属性集合を例示する図である。 同実施の形態にかかるアイテム集合決定処理の詳細な手順を示すフローチャートである。 同実施の形態にかかる属性集合頻度格納部56に格納される属性集合非欠損事例数及び属性集合を例示する図である。 同実施の形態にかかる属性集合頻度格納部56に格納される属性集合非欠損事例数及び属性集合を例示する図である。 同実施の形態にかかるアイテム集合格納部60に候補アイテム集合及びその状態を例示する図である。 同実施の形態にかかるアイテム集合格納部60に候補アイテム集合及びその状態を例示する図である。
符号の説明
50 情報処理装置
51 データ格納部
52 基本データ抽出部(抽出部)
53 基本データ格納部(第一格納部)
54 候補アイテム選択部(選択部)
55 属性集合頻度算出部(第一頻度算出部)
56 属性集合頻度格納部(第三格納部)
57 候補アイテム集合頻度算出部(第二頻度算出部)
58 候補アイテム集合評価値算出部(評価値算出部)
59 候補アイテム集合評価値判定部(評価値判定部)
60 アイテム集合格納部(第二格納部)
61 候補アイテム集合生成部(集合生成部)
62 パターン出力部(出力部)

Claims (7)

  1. 複数の属性によって特徴付けられるレコードを複数含み当該属性の値を示す属性値と当該レコードとが2次元の表構造により表されるデータを取得する取得部と、
    前記属性及び当該属性の値を示す前記属性値を含むアイテムを、前記データから前記属性を抽出する抽出部と、
    抽出された前記アイテムを格納する第一格納部と、
    前記アイテムを候補アイテム集合として順に選択する選択部と、
    前記候補アイテム集合のうち、所定の判定条件を満たした前記候補アイテム集合を、当該候補アイテム集合に対して算出される複数の評価値の大小に応じて定まる状態と対応付けて格納する第二格納部と、
    格納された前記候補アイテム集合に基づいて、含まれるアイテムの数がより大きい新たな候補アイテム集合を、前記第二格納部に新たに格納される候補として生成する集合生成部と、
    前記候補アイテム集合を構成する前記アイテムに含まれる前記属性を少なくとも1つ含む属性集合及び前記データに含まれる属性集合のそれぞれについて、いずれの属性値も欠損していないレコードが前記データにおいて出現する頻度を第一の出現頻度として各々算出する第一頻度算出部と、
    前記属性集合及び当該属性集合に対応する前記第一の出現頻度を各々対応付けて格納する第三格納部と、
    前記候補アイテム集合が前記データにおいて出現する頻度を第二の出現頻度として算出する第二頻度算出部と、
    前記候補アイテム集合について、前記第二の出現頻度及び前記第一の出現頻度に基づいて、単調性を有する複数の評価値を算出する評価値算出部と、
    前記複数の評価値に基づいて、前記所定の判定条件を満たしているかを判定することにより、前記候補アイテム集合を前記第二格納部に格納するか否かを判定すると共に、当該候補アイテム集合の前記状態を判定する評価値判定部と、
    前記第二格納部に前記状態と対応付けられて格納されている前記候補アイテム集合を、当該状態に応じて出力する出力部とを備える
    ことを特徴とする情報処理装置。
  2. 前記評価値算出部は、
    前記候補アイテム集合について、前記第二の出現頻度及び当該候補アイテム集合に含まれる前記属性集合に対応する前記第一の出現頻度に基づいて、第一の評価値を算出する第一算出部と、
    前記候補アイテム集合について、前記第二の出現頻度及び前記属性の全てを含む前記属性集合に対応する前記第一の出現頻度に基づいて、第二の評価値を算出する第二算出部とを有し、
    前記評価値判定部は、
    所定の第一の判定条件として、前記第一の評価値が、所定の第一の閾値以上であると判定した場合に、前記候補アイテム集合を前記第二格納部に格納すると判定すると共に、当該候補アイテム集合の状態を第一の状態と判定する第一判定部と、
    所定の第二の判定条件として、前記第二の評価値が、所定の第二の閾値以上であると判定した場合に、前記候補アイテム集合を前記アイテム集合格納部に格納すると判定すると共に、当該候補アイテム集合の状態を第二の状態と判定する第二判定部とを有し、
    前記第二格納部は、前記第二格納部に格納すると判定された前記候補アイテム集合を、前記第一の状態又は前記第二の状態と対応付けて格納する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記第一算出部は、前記候補アイテム集合について、当該候補アイテム集合に含まれる前記属性集合に対応する前記第一の出現頻度に対する前記第二の出現頻度の割合を、前記第一の評価値として算出し、
    前記第二算出部は、前記候補アイテム集合について、前記属性の全てを含む前記属性集合に対応する前記第一の出現頻度に対する前記第二の出現頻度の割合を、前記第二の評価値として算出する
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 前記出力部は、前記第二格納部に格納されている前記候補アイテム集合のうち、前記第一の状態と対応付けられている前記候補アイテム集合を、当該第一の状態と対応付けて出力する
    ことを特徴とする請求項2又は3に記載の情報処理装置。
  5. 前記抽出部は、各前記アイテムに順序を設定し、
    前記第一格納部は、前記アイテムを前記順序と対応付けて格納し、
    前記選択部は、前記アイテムに対応付けられた前記順序に従って、前記アイテムを順に選択する
    ことを特徴とする請求項1乃至4のいずれか一項に記載の情報処理装置。
  6. 前記集合生成部は、
    アイテム数を設定する設定部と、
    設定されたアイテム数より1少ない数のアイテムについて、同一のアイテムを含む2つの候補アイテム集合を候補アイテム集合の対として選択する対選択部と、
    対として選択された前記2つの候補アイテム集合に含まれるアイテムのうち、同一のアイテムを各々1つずつ含み、当該同一のアイテム以外のアイテムの全てを含む新たな候補アイテム集合を生成する生成部とを有する
    ことを特徴とする請求項1乃至5のいずれか一項に記載の情報処理装置。
  7. 取得部と、抽出部と、格納制御部と、第一格納部と、選択部と、第二格納部と、集合生成部と、第一頻度算出部と、第三格納部と、第二頻度算出部と、評価値算出部と、評価値判定部と、出力部とを備える情報処理装置で実行される情報処理方法であって、
    前記取得部が、複数の属性によって特徴付けられるレコードを複数含み当該属性の値を示す属性値と当該レコードとが2次元の表構造により表されるデータを取得する取得ステップと、
    前記抽出部が、前記属性及び当該属性の値を示す前記属性値を含むアイテムを、前記データから前記属性を抽出する抽出ステップと、
    前記格納制御部が、抽出された前記アイテムを前記第一格納部に格納する第一格納ステップと、
    前記選択部が、前記アイテムを候補アイテム集合として順に選択する選択ステップと、
    前記第一頻度算出部が、前記データに含まれる属性を含む属性集合のそれぞれについて、いずれの属性値も欠損していないレコードが前記データにおいて出現する頻度を第一の出現頻度として各々算出する第一頻度算出ステップと、
    前記格納制御部が、前記属性集合及び当該属性集合に対応する前記第一の出現頻度を各々対応付けて前記第三格納部に格納する第二格納ステップと、
    前記格納制御部が、前記候補アイテム集合のうち、所定の判定条件を満たした前記候補アイテム集合を、当該候補アイテム集合に対して算出される複数の評価値の大小に応じて定まる状態と対応付けて前記第二格納部に格納する第三格納ステップと、
    前記集合生成部が、格納された前記候補アイテム集合に基づいて、含まれるアイテムの数がより大きい新たな候補アイテム集合を、前記第二格納部に新たに格納される候補として生成する集合生成ステップと、
    前記第一頻度算出部が、前記候補アイテム集合を構成する前記アイテムに含まれる前記属性を少なくとも1つ含む属性集合のそれぞれについて、いずれの属性値も欠損していないレコードが前記データにおいて出現する頻度を第一の出現頻度として各々算出する第二頻度算出ステップと、
    前記格納制御部が、前記属性集合及び当該属性集合に対応する前記第一の出現頻度を各々対応付けて前記第三格納部に格納する第四格納ステップと、
    前記第二頻度算出部が、前記候補アイテム集合が前記データにおいて出現する頻度を第二の出現頻度として算出する第三頻度算出ステップと、
    前記評価値算出部が、前記候補アイテム集合について、前記第二の出現頻度及び前記第一の出現頻度に基づいて、単調性を有する複数の評価値を算出する評価値算出ステップと、
    前記評価値判定部が、前記複数の評価値に基づいて、前記所定の判定条件を満たしているかを判定することにより、前記候補アイテム集合を前記第二格納部に格納するか否かを判定すると共に、当該候補アイテム集合の前記状態を判定する評価値判定ステップと、
    前記出力部が、前記第二格納部に前記状態と対応付けられて格納されている前記候補アイテム集合を、当該状態に応じて出力する出力ステップとを含む
    ことを特徴とする情報処理方法。
JP2008064594A 2008-03-13 2008-03-13 情報処理装置及び方法 Expired - Fee Related JP5032374B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008064594A JP5032374B2 (ja) 2008-03-13 2008-03-13 情報処理装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008064594A JP5032374B2 (ja) 2008-03-13 2008-03-13 情報処理装置及び方法

Publications (2)

Publication Number Publication Date
JP2009223415A JP2009223415A (ja) 2009-10-01
JP5032374B2 true JP5032374B2 (ja) 2012-09-26

Family

ID=41240158

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008064594A Expired - Fee Related JP5032374B2 (ja) 2008-03-13 2008-03-13 情報処理装置及び方法

Country Status (1)

Country Link
JP (1) JP5032374B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989223A (zh) * 2015-02-06 2016-10-05 联想(北京)有限公司 牙刷和信息处理方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5367112B2 (ja) * 2012-03-22 2013-12-11 株式会社東芝 データ分析支援装置およびデータ分析支援処理プログラム
JP5134154B1 (ja) * 2012-07-10 2013-01-30 要 瀬戸 推定値算出方法、システム及びコンピュータ・プログラム
JP6223889B2 (ja) * 2014-03-31 2017-11-01 株式会社東芝 パターン発見装置、およびプログラム
US11907963B2 (en) * 2019-10-29 2024-02-20 International Business Machines Corporation On-device privacy-preservation and personalization

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7979473B2 (en) * 2005-10-07 2011-07-12 Hitachi, Ltd. Association rule extraction method and system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989223A (zh) * 2015-02-06 2016-10-05 联想(北京)有限公司 牙刷和信息处理方法

Also Published As

Publication number Publication date
JP2009223415A (ja) 2009-10-01

Similar Documents

Publication Publication Date Title
JP5032374B2 (ja) 情報処理装置及び方法
JP7296715B2 (ja) 学習装置、処理装置、ニューラルネットワーク、学習方法、及びプログラム
US9767352B2 (en) Apparatus and method for analyzing body part association
JP5991488B2 (ja) 相違領域検出システム及び相違領域検出方法
KR101977231B1 (ko) 커뮤니티 검출 방법 및 커뮤니티 검출 프레임워크 장치
JP5445467B2 (ja) クレジット情報区間検出方法、クレジット情報区間検出装置及びクレジット情報区間検出プログラム
JP2005025763A (ja) 構造化文書の分割プログラム、分割装置、及び分割方法
US20160379088A1 (en) Apparatus and method for creating an image recognizing program having high positional recognition accuracy
JP2015184853A (ja) 欠損データ補完装置、欠損データ補完方法、およびプログラム
US20170034111A1 (en) Method and Apparatus for Determining Key Social Information
KR101994319B1 (ko) 깊이 영상을 이용하는 객체 인식 장치 및 그 장치를 이용한 방법
JP2015090559A (ja) データ処理方法及び装置、データ識別方法及び装置、プログラム
JP7116309B2 (ja) コンテキスト情報生成方法、コンテキスト情報生成装置およびコンテキスト情報生成プログラム
JP2007082040A (ja) 信号処理装置および方法、プログラム、並びに記録媒体
JP5777390B2 (ja) 情報処理方法及び装置、パターン識別方法及び装置
JP2016095640A (ja) 密度計測装置、密度計測方法、およびプログラム
JP2008040553A (ja) 時系列パターン検出装置及び方法
JP4206369B2 (ja) 時系列データ補完装置、その方法及びそのプログラム
JP6452324B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2006155344A (ja) データ分析装置、データ分析プログラム及びデータ分析方法
JP2012043437A (ja) 画像処理方法及び画像処理装置
JP5417312B2 (ja) 画像検索装置、および画像検索プログラム
JP2019206054A (ja) 情報処理装置、ロボット動作プログラム生成補助方法及びロボット動作プログラム生成補助プログラム
JP5611173B2 (ja) 単語属性推定装置及び方法及びプログラム
JP2007199865A (ja) 画像処理アルゴリズム評価装置、画像処理アルゴリズムの生成装置および画像検査装置ならびに画像処理アルゴリズム評価方法、画像処理アルゴリズムの生成方法および画像検査方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101015

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120605

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120628

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150706

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees