JP4057587B2 - Feature pattern output device - Google Patents

Feature pattern output device Download PDF

Info

Publication number
JP4057587B2
JP4057587B2 JP2004548006A JP2004548006A JP4057587B2 JP 4057587 B2 JP4057587 B2 JP 4057587B2 JP 2004548006 A JP2004548006 A JP 2004548006A JP 2004548006 A JP2004548006 A JP 2004548006A JP 4057587 B2 JP4057587 B2 JP 4057587B2
Authority
JP
Japan
Prior art keywords
pattern
data
class
similar
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004548006A
Other languages
Japanese (ja)
Other versions
JPWO2004040477A1 (en
Inventor
宏弥 稲越
青史 岡本
陽 佐藤
剛寿 安藤
暢 尾崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2004040477A1 publication Critical patent/JPWO2004040477A1/en
Application granted granted Critical
Publication of JP4057587B2 publication Critical patent/JP4057587B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【技術分野】
【0001】
この発明は、複数のアイテムを有するデータを複数のクラスのいずれかに区分して記憶するデータベースから、前記クラスに特徴的に含まれるアイテムの組合せを当該クラスの特徴パターンとして出力する特徴パターン出力装置に関し、特にデータベースが大規模であっても高速に特徴パターンを出力可能な特徴パターン出力装置に関する。
【背景技術】
【0002】
近年、データベースに記憶したデータについて、データ間の相関関係や、データが有するルールを抽出する手法が考案されている。データ間の相関関係やデータが有するルールは、データベースに記憶されたデータを分類する場合や、新規のデータを分類する場合などに用いることができる。
【0003】
従来、データベースからルールを取り出してデータベースにフィードバックする相関ルール学習の手法として、Agrawel,R., "Fast Algorithm for Mining Association Rules" およびこれに対応する特許文献として「大規模データベース内の順次パターンをマイニングするためのシステムおよび方法」(特開平8−263346号公報)が公開されている。
【0004】
ここに公開された手法によれば、アイテムと呼ばれるデータの構成要素を組み合わせてパターンを形成し、データの相関ルールを頻出するパターンによって示している。
【0005】
しかしながらこの手法では、相関ルールの抽出に要するコストが高く、データベースの内容に変更があった場合に、その変更に対応して相関ルールの内容を行使するまでに時間が必要であった。そのため、相関ルールの抽出はデータベースをオフラインにして実行される場合が多く、データベースの更新に対して追従性が劣化するという問題点があった。
さらに、相関ルールの抽出や、抽出した相関ルールをもとにデータを分類するために必要な処理時間は、パラメータの設定によって大きく異なり、また、得られる相関ルール自体もパラメータに大きく依存するという問題があった。すなわち、パラメータの設定を適切におこなうためには、専門知識や経験が必要であり、パラメータの設定によっては得られたルールの有用性の低下を引き起こしたり、相関ルールの運用が不可能になるほどの処理時間が必要となる可能性があった。
【0006】
一方、ルールの抽出手法としては、他にも J.Li, G. Dong, K. Ramamohanarao, and L. Wong. DeEPs: A new instance-based discovery and classificationsystem. Technical report, Dept of CSSE, University of Melbourne, 2000 が公開されている。ここで公開されているDeEPsは、入力データが与えられてから、適用可能なパターンを学習するリアルタイムなパターンの発見が可能である。したがって、データベースをオフラインにすることなく、任意のタイミングで更新することができる。また、DeEPsでは、パターン発見にパラメータを設定する必要がないため、運用時に要求される専門知識や経験が少ない。
【0007】
しかしながら、DeEPsは、パターン発見時にデータベースの全てのデータを処理の対象とするため、データベースが有するデータ数に応じて必要な処理能力が大きくなる。したがって、データベースのデータ数が大きい場合、パターン抽出処理にリアルタイム処理におけるレスポンス時間としては許容できない時間が必要になるという問題点があった。
【0008】
さらに、DeEPsでは、データの構成要素であるアイテムの数に比例して処理時間が要求される。したがって、それぞれのデータに含まれるアイテムの数が多い場合、パターン抽出処理に膨大な時間が必要になるという問題点があった。
【0009】
この発明は、上述した従来技術による問題点を解消するためになされたものであり、データベースに含まれるデータ数が多く、またデータが多数のアイテムを有する大規模なデータベースにおいてもパターン抽出を高速に実行可能な特徴パターン出力装置を提供することを目的とする。
【発明の開示】
【0010】
上述した課題を解決し、目的を達成するため、本発明に係る特徴パターン出力装置は、複数のアイテムからなるデータを複数のクラスにそれぞれ区分して記憶したデータベースから各クラスの特徴をなすアイテムの組合せを当該クラスの特徴パターンとして出力する特徴パターン出力装置であって、入力データを受け付けた際に、該入力データに類似する類似データを前記データベースから各クラスごとに抽出する類似データ抽出手段と、前記類似データ抽出手段により抽出された類似データから各クラスごとの類似パターン集合を算出する類似パターン集合算出手段と、前記類似パターン集合算出手段により算出された類似パターン集合から各クラスごとの特徴パターンを算出する特徴パターン算出手段と、を備えたことを特徴とする。
【0011】
この発明によれば、入力データに類似する類似データをデータベースから抽出し、抽出した類似データから各クラスの特徴をなす特徴パターンを算出する。
【0012】
また、本発明に係る特徴パターン出力装置は、前記類似パターン集合算出手段は、前記類似データ抽出手段により抽出された類似データを形成する各アイテムと、前記入力データを形成する各アイテムとが一致したアイテムの組合せをパターン集合として抽出し、前記パターン集合に自身以外の部分集合が存在しないアイテムの組合せである最小パターンを最小パターン集合として抽出し、前記パターン集合に自身以外の上位集合(スーパーセット)が存在しないアイテムの組合せである最大パターンを最大パターン集合として抽出し、前記最小パターン集合と前記最大パターン集合とを前記類似パターン集合として出力することを特徴とする。
【0013】
この発明によれば、データベースから抽出した抽出データの各アイテムと入力データの各アイテムとを比較し、一致するアイテムの組合せから最大パターン集合と最小パターン集合とを抽出し、この最大パターン集合と最小パターン集合とをもとに特徴パターンを算出するようにしている。
【0014】
また、本発明に係る特徴パターン出力装置は、前記特徴パターン算出手段は、複数のクラスにまたがって出現する共通パターン集合を前記最小パターン集合から抽出し、前記特徴パターン算出手段は、前記共通パターン集合が有するアイテムを全て有する特徴パターンを算出することを特徴とする。
【0015】
この発明によれば、最小パターン集合をもとに複数のクラスにまたがって出現する共通パターンを求め、特徴パターンを共通パターンの上位集合として算出している。
【0016】
また、本発明に係る特徴パターン出力装置は、前記類似データ抽出手段は、前記データベースから類似データを抽出する際に、クラスごとに異なる条件に基づいて類似データの抽出をおこなうことを特徴とする。
【0017】
この発明によれば、類似データを抽出する場合に、クラスごとに条件を変更し、各クラスについて十分な数の類似データを取得するようにしている。
【0018】
また、本発明に係る特徴パターン出力装置は、前記類似パターン集合算出手段は、複数のクラスにまたがって出現する最大パターンが存在する場合に当該最大パターンから所定のアイテムを除外することを特徴とする。
【0019】
この発明によれば、複数のクラスにまたがって出現する最大パターンについて、そのアイテムを除去することで特徴パターンが存在しなくなるという状況が発生することを防止している。
【0020】
また、本発明に係る特徴パターン出力装置は、前記特徴パターン算出手段が算出した特徴パターンをもとに、前記入力データを前記複数のクラスのいずれかに分類する分類手段をさらに備えたことを特徴とする。
【0021】
この発明によれば、類似データから算出した特徴パターンをもとに入力データを分類している。
【0022】
また、本発明に係る特徴パターン出力装置は、前記分類手段は、各クラスの類似データにおける前記特徴パターンの数を計数し、該計数結果がもっとも大きい値となるクラスに前記入力データを分類することを特徴とする。
【0023】
この発明によれば、各クラスの類似データにおける特徴パターンの出現数を計数し、この計数結果がもっとも大きい値となったクラスに入力データを分類している。
【0024】
また、本発明に係る特徴パターン出力装置は、前記類似パターン集合算出手段は、前記入力データを形成する所定のアイテムの値と前記類似データを形成するアイテムの値とが所定の数値範囲内にある場合には、両者のアイテムの値が一致したものと判定することを特徴とする。
【0025】
この発明によれば、アイテムが数値データである場合に所定の数値範囲を設定し、入力データのアイテムの値と類似データのアイテムの値とが所定の範囲内にある場合に両者のアイテムの値が一致したと判定する。
【発明を実施するための最良の形態】
【0026】
以下に添付図面を参照して、この発明に係る特徴パターン出力装置の好適な実施の形態を詳細に説明する。
【0027】
(実施の形態1)
第1図は、本発明の実施の形態1である特徴パターン出力装置の概要構成を説明する概要構成図である。第1図において、特徴パターン出力装置21は、データベース22に接続されている。データベース22は、顧客に関する情報を記憶しており、一つのデータが顧客一人に対応する。また、データには、「年齢」、「住居」、「性別」、「結婚」などの項目がある。各データは、それぞれ項目について値を有する。以下、データが有する項目と項目の値との組合せをアイテムと称する。データベース22は、各顧客、すなわち各データを与信の可否によってクラス分けしている。データベース22は、「与信可能」の顧客を「クラスP」、「与信不可」の顧客を「クラスN」として分類している。
【0028】
特徴パターン出力装置21は、その内部に入力処理部31、類似データ抽出部32、二値化処理部33、類似パターン集合算出部34、特徴パターン集合算出部35および入力データ分類処理部36を有している。入力処理部31は、顧客の情報を入力データとして受信した場合に、この入力データを類似データ抽出部32と、二値化処理部33に出力する。
【0029】
類似データ抽出部32は、入力データに類似したデータをデータベース22から抽出し、類似データとして二値化処理部33に出力する。二値化処理部は、入力データをもとにして類似データを二値化した後、類似パターン集合算出部34および入力データ分類処理部36に送信する。
【0030】
類似パターン集合算出部34は、二値化された類似データをもとに、クラスPクラスNのそれぞれについて類似パターン集合を算出する。特徴パターン集合算出部35は、類似パターン集合からクラスPとクラスNにそれぞれ特徴的に出現するアイテムの組合せを特徴パターンとして出力する。
【0031】
さらに、入力データ分類処理部36は二値化された類似データと特徴パターンとを比較し、入力データをクラスPに分類するかクラスNに分類するかを決定する。
【0032】
特徴パターン出力装置21は、この特徴パターンと、入力データの分類結果とを出力する。すなわち、この特徴パターン出力装置21は、入力データに類似するデータをデータベース22から抽出し、この類似データから特徴パターンを算出するので、データベース22のデータ数や各データのアイテム数に依存することなく、高速に特徴パターンの算出をおこなうことができる。
【0033】
つぎに、各処理について具体例を用いて詳細に説明する。
第2図に、入力データと類似データの具体例を示す。第2図(a)は、入力データの一例であり、第2図(b)は、データベース22が記憶するデータの一例である。第2図に示すように、入力データは、「年齢」の値として「35」、「住居」の値として「借家」、「性別」の値として「男性」、「結婚」の値として「既婚」を有している。
【0034】
類似データ抽出部32は、類似度関数としてCity-block距離を用いた類似度を採用し、データベース22から類似データの抽出をおこなう。
具体的には、
nをアイテムの数、Xをデータベース22に記憶されたデータ、Yを入力データとして、
【数1】

Figure 0004057587
ここで、アイテム<fi:xi>は、項目「fi」の値が「xi」であることを示す。また、項目が数値属性であるアイテムについては、全て[0,1]区間に正規化し、αを0〜1の半径として定める。すなわち、入力データの値を中心に、半径αの中にある場合にδの値は1となり、半径αの外にある場合にδの値は0となる。
【0035】
すなわち、この類似度関数は、データベースに記憶したデータについて、入力データが有するアイテムと一致するアイテムの数を計数することとなる。第2図(b)では、各データにおいて入力データと一致するアイテムを円で囲んで示し、類似度関数の出力を類似度として示す。なお、「年齢」は数値データであるが、ここでのα=0.18に相当するマージン5を許容し、年齢の値が30〜40である場合にアイテムが一致したと判断している。
【0036】
さらに、第2図(b)に示したデータ群を類似度に従って配したデータ空間を第3図に示す。第3図では、入力データを「★」によって示し、クラスPに属するデータを「○」、クラスNに属するデータを「×」として示す。なお、各記号の近傍に示した数字が第2図(b)のデータナンバーである。
【0037】
第3図に示したように、類似度が3であるデータ7,10,12,13が入力データに最も近く、同心円41の上に存在する。また、類似度2であるデータ2,9が次の同心円42の上に存在する。さらに、類似度1であるデータ1,4,5,6,11が次の同心円43の上に存在し、類似度が0のデータ3,8は、同心円43の外に存在することとなる。
【0038】
類似データ抽出部32は、類似度が所定の閾値以上であるデータを類似データとして抽出する。または、類似度が高い順に、所定の数、例えば5個のデータを類似データとして抽出する。なお、類似度が等しいデータは全て類似データに含める。したがって、第3図では、類似度が3であるデータ7,10,12,13および類似度が2であるデータ2,9の6個のデータを類似データとして抽出することとなる。
【0039】
二値化処理部33は、類似データ抽出部32が抽出した類似データに対して二値化処理をおこなう。具体的には、類似データからδ=0であったアイテムを除外し、さらに、δ=1であった項目の値を入力データの同一項目の値に置き換える。ここで、離散値属性の項目の値は入力データと同一である。したがって、数値属性の項目の値を入力データの項目の値に書き換えることで、類似データの二値化をおこなうことができる。
したがって、二値化の結果、以下の類似データが得られる。
データ2 {<住居:借家><性別:男性>}
データ7 {<住居:借家><性別:男性><結婚:既婚>}
データ9 {<年齢:35><性別:男性>}
データ10 {<年齢:35><性別:男性><結婚:既婚>}
データ12 {<年齢:35><住居:借家><性別:男性>}
データ13 {<住居:借家><性別:男性><結婚:既婚>}
このように、類似データを二値化することで、類似データに含まれるアイテムは、入力データに含まれるアイテムのみとなる。したがって、以降、アイテム集合の演算のみで特徴パターン算出の処理をおこなうことができる。
【0040】
つぎに、類似パターン集合算出部34の処理について説明する。類似パターン集合算出部34は、クラスPとクラスNのそれぞれについて最大パターン集合と最小パターン集合とを算出する。最大パターン集合は、そのクラスの類似データに自身の上位集合が存在しないアイテムの集合である。また、最小パターン集合は、そのクラスの類似データに、自身の部分集合(サブセット)となる集合が存在しないアイテムの集合である。
【0041】
第4図に最大パターン集合と最小パターン集合とを示す。第4図(a)は、クラスPにおける集合の包含関係を示す図であり、第4図(b)は、クラスNにおける集合の包含関係を示す図である。
【0042】
ここで、クラスPに関しては、
データ2 {<住居:借家><性別:男性>}
データ7 {<住居:借家><性別:男性><結婚:既婚>}
であり、データ2のアイテムは、全てデータ7に含まれる。すわなち、データ2はデータ7の部分集合であり、データ7は、データ2の上位集合である。この関係を第4図(a)において実線の矢印によって示している。
【0043】
ここで、クラスPの類似データに、データ7の上位集合となる集合は存在しない。したがって、データ7は、クラスPの最大パターン集合である。一方、データ1,6は、データ2の部分集合である。しかしながら、データ1,6は類似度が1であり、類似データとして選択されていない。すなわち、クラスPの類似データの中にデータ2の部分集合となる集合は存在しないので、データ2は、クラスPの類似データの最小パターン集合となる。
【0044】
同様に、クラスNに関しては、
データ9 {<年齢:35><性別:男性>}
データ10 {<年齢:35><性別:男性><結婚:既婚>}
データ12 {<年齢:35><住居:借家><性別:男性>}
データ13 {<住居:借家><性別:男性><結婚:既婚>}
であり、データ9のアイテムは、全てデータ10,12に含まれる。すなわち、データ9は、データ10と12の両方の部分集合であり、データ10,12はともにデータ9の上位集合である。この関係を第4図(b)において実線の矢印によって示している。
【0045】
ここで、クラスNの類似データにデータ10,12の上位集合となる集合は存在しない。したがって、データ10,12はそれぞれクラスNの最大パターン集合である。また、クラスNの類似データの中にデータ9の部分集合となる集合は存在しないので、データ9は、クラスNの最小パターン集合となる。
【0046】
なお、データ13は、クラスNの類似データの中に上位集合も部分集合も存在しない。したがって、データ13は、クラスNの最大パターン集合であり、かつ最小パターン集合である。
【0047】
ここで、クラスPにおいて、二値化済み類似データをDp、最小パターン集合をLp、最大パターン集合をRpとすると、パターン集合[Lp,Rp]は、少なくとも一つの最小パターンの上位集合であり、少なくとも一つの最大パターンの部分集合であるようなパターン全体である。したがって、
Dp⊆[Lp,Rp]
が成立する。
【0048】
第4図(a)に示したデータでは、Lp={{借家,男性}}、Rp={{借家,男性,既婚}}および、Dp={{借家,男性}}、{借家,男性,既婚}}となる。
同様に、クラスNにおいて、二値化済み類似データをDn、最小パターン集合をLn、最大パターン集合をRnとすると、パターン集合[Ln,Rn]は、少なくとも一つの最小パターンの上位集合であり、少なくとも一つの最大パターンの部分集合であるようなパターン全体である。したがって、
Dp⊆[Lp,Rp]
が成立する。
【0049】
第4図(b)に示したデータでは、Ln={{35,男性},{借家,男性,既婚}}、Rn={{35,借家,男性},{35,男性,既婚},{借家,男性,既婚}}および、Dn={{借家,男性}}、{35,借家,男性},{35,男性,既婚},{借家,男性,既婚}}となる。
【0050】
なお、第4図に示した例では、Dp=[Lp,Rp]であったが、最小パターンの上位集合であり最大パターンの部分集合であるようなパターンは、類似データに存在しない場合、すなわちDpに存在しないパターンであっても、[Lp,Rp]に含まれる。
【0051】
ここで、<L,R>を最小パターンLおよび最大パターンRのボーダーとして定義する。ボーダー<L,R>は、パターン集合である[L,R]を最小パターンと最大パターンのペアとして表記したものである。したがって、ボーダーを用いることで、集合の演算をおこなう場合に直接集合の要素を扱うことなく、最大パターンと最小パターンだけを対象とする演算に置き換えることができ、計算を大幅に効率化することができる。
【0052】
類似パターン算出部34は、このボーダー<Lp,Rp>およびボーダー<Ln,Rn>を類似パターン集合として特徴パターン集合35に出力し、処理を終了する。
【0053】
つぎに、特徴パターン算出部35の動作について説明する。まず、RpおよびRnが全データを対象としたクラスPおよびクラスNの最大パターンであるとき、[{φ},Rp]−[{φ},Rn]は、クラスPのみに出現する全てのパターンを含むパターン集合であることが証明されている。(J.Li and K. Ramamohanarao. The space of jumping emerging patterns and its incremental maintenance algorithm. In Proceedings of 17thInternational Conference on Machine learning, pages 551-558.Morgan Kaufmann,2000.)
【0054】
本発明では、RpおよびRnは入力データに類似するデータを処理対象としており、データ全体における最大パターンである保証は無いが、類似データは高い類似度を持つことから入力データのアイテムに対する一致数は多く、また、最大パターンは通常、アイテム数が多いため、最大パターンが類似パターンに含まれる可能性は高い。
【0055】
しかし、最大パターンが多数含まれていたとしても、最大パターンの検出漏れが発生する可能性があり、一つでも検出漏れがあった場合には正しくない特徴パターンを発見する可能性がある。このような正しくない特徴パターンは分類精度の低下の原因となる。そこで、類似データから特徴パターンを算出する場合に類似データに対してクラスPとクラスNに共通して現れるパターンよりもアイテム数が多いことを条件として付加することで、最大パターンの検出漏れを防止し、分類精度の低下を防止することができる。
【0056】
特徴パターン集合算出部35の処理動作を第5図に示す。第5図において、特徴パターン集合算出部35は、まず、類似パターン集合<Lp,Rp>および<Ln,Rn>からパターン集合[{φ},Lp]および[{φ},Ln]に共通して出現するパターン集合をもとめる。具体的には、まず、出力データとなるepLpとepRpをepLp={},epRp={}として初期化する。つぎに、intersecOperation(<{φ},Lp>,<{φ},Ln>) によって<{φ},[c1,….ck]>を算出する(ステップS102)。このintersecOperationは、上述の文献に示されたものと同一であり、2つのボーダー<{φ},Lp>,<{φ},Ln>によって示される集合に共通に出現する全てのパターンをボーダー<{φ},[c1,….ck]>の形式で出力する。
【0057】
すなわち、この処理によって、パターン集合[{φ},Lp]および[{φ},Ln]に共通して出現する最大パターンの集合である[c1,….ck]が得られることとなる。この[c1,….ck]に含まれる任意のciは、共通の最大パターンであるから、ciの上位集合は、
・クラスPのデータにのみ出現する
・クラスNのデータにのみ出現する
・クラスP、クラスNのいずれにも出現しない
のいずれかである。
【0058】
したがって、[c1,….ck]の各要素ciについて、ciを含み、クラスPにのみ出現してクラスNに出現しないパターンを探すことで、クラスPに特徴的に出現するパターンの集合を得ることができる。
【0059】
したがって、特徴パターン集合算出処理部35は、[c1,….ck]を求めた後、最初のパターンc1を処理対象に設定し(ステップS103)、さらに、クラスPの最大パターン集合Rpの中から、処理対象である共通パターンの上位集合になるパターン集合rpを求める(ステップS104)。その後、クラスNの最大パターン集合Rnから処理対象の共通パターンの上位集合になるパターン集合rnを求める(ステップS105)。
【0060】
つぎに、特徴パターン集合算出処理部35は、パターン集合[{φ},rp]に出現し、パターン集合[{φ},rn]に出現しないパターン集合を求める。具体的には、jepProducer(<{φ},rp>,<{φ},rn>) によって<el,er>を算出する(ステップS106)。このjepProducerは、上述の文献に示されたものと同一であり、ボーダー<{φ},rp>によって示されるパターン集合[{φ},rp]に出現し、ボーダー<{φ},rn>によって示されるパターン集合[{φ},rn]に出現しないパターン集合をボーダー<el,er>の形式で出力する。
【0061】
ここで、elが{φ}でなければ(ステップS107,No)特徴パターン集合算出処理部35は、<el,er>に処理対象の共通パターンを加え、ボーダー<eL,eR>を作成する(ステップS108)。このボーダー<eL,eR>によって示されるパターン集合は、処理対象の共通パターンの上位集合であるので、クラスPに出現し、クラスNに出現しないパターン集合となる。
【0062】
特徴パターン集合35は、このボーダー<eL,eR>をボーダー<epLp,epRP>に追加する(ステップS109)。ボーダー<epLp,epRp>は、最終的に特徴パターンとして出力するデータである。ここで、epLpは、常に最小パターンのみを要素とするように監視し、最小ではないパターンを除外する(ステップS110)。
【0063】
ステップS110終了後またはelが{φ}の場合(ステップS107,Yes)、特徴パターン集合算出部35は、パターン集合[c1,….ck]の全ての要素について処理が終了したか否かを判定する(ステップS111)。特徴パターン集合算出部35は、まだ処理が終了していない要素がある場合に(ステップS111,No)、つぎの要素を検査対象に設定し(ステップS113)、ステップS104に移行する。
【0064】
一方、全ての要素について処理が終了していた場合(ステップS111,Yes)、特徴パターン集合算出部35は、ボーダー<epLp,epRp>を出力する(ステップS112)。
【0065】
また、特徴パターン算出処理部35は、クラスNについても同様にボーダー<epLn,epRn>を算出することができる。特徴パターン算出処理部35は、この<epLp,epRp>と<epLn,epRn>とをもちいて、
SEP=epLp∪epLn
である特徴パターン集合SEPを出力する。この特徴パターンSEPは、クラスPまたはクラスNに特徴的にあらわれる最小パターンの和集合である。特徴パターン算出部35は、特徴パターン集合SEPを特徴パターン出力装置21の外部に出力するともに、入力データ分類処理部36に出力する。
【0066】
この特徴パターン算出部35の処理を、図4に示したデータについて適用すると、まず、クラスPの最小パターン集合がLp={{借家,男性}}であり、クラスNの最小パターン集合がLn={{35,男性},{借家,男性,既婚}}であるので、共通して出現するパターン集合は{{借家,男性}}である(ステップS102)。
【0067】
そこで、ci={借家,男性}として、続く処理を継続する(ステップS102)。
クラスPでは、クラスPの最大パターン集合Rp={{借家,男性,既婚}}のうち、ci={借家,男性}の上位集合となっているものは、rp={{借家,男性,既婚}}である(ステップS103)。同様にクラスNでは、クラスNの最大パターン集合Rn={{35,借家,男性},{35,男性,既婚},{借家,男性,既婚}}のうち、ci={借家,男性}の上位集合となっているものは、rn={{35,借家,男性},{借家,男性,既婚}}である(ステップS104)。
【0068】
求めた[{φ},rp]に出現し、[{φ},rn]に出現しないパターン集合を、jepProducer(<{φ},rp>,<{φ},rn>)によって求めた結果は、<el,er>=<{φ},{φ}>である(ステップS105)。
【0069】
最大の共通パターン集合{ci}の要素はひとつだけであり、結局この例ではクラスPの特徴パターンは<epLp,epRp>=<{φ},{φ}>となる。
【0070】
一方、クラスNでは、ステップS104までの処理結果は、クラスPの場合と同様であり、ci={借家,男性},rn={{35,借家,男性},{借家,男性,既婚}},rp={{借家,男性,既婚}}である。(ステップS101〜S104)。
【0071】
求めた[{φ},rn]に出現し、[{φ},rp]に出現しないパターン集合を、jepProducer(<{φ},rn>,<{φ},rp>)によって求めた結果は、<el,er>=<{35},{35,借家,男性}>である(ステップS105)。このel,erそれぞれにc1を追加したボーダーは<eL,eR>=<{35,借家,男性},{35,借家,男性}>である(ステップS106)。最大の共通パターン集合{c1}の要素はひとつだけであり、結局この例ではクラスNの特徴パターン集合は<epLn,epRn>=<{35,借家,男性},{35,借家,男性}>となる(ステップS107〜S110)。
【0072】
つぎに、入力データ分類処理部36の動作について説明する。第6図は、入力データ分類処理部36の処理動作を説明するフローチャートである。第6図において、入力データ分類処理部は、まず、クラスPの二値化済み類似データDp={d1,d2・・・ds}および特徴パターンSEP={p1,p2・・・pt}を入力データとして取得する(ステップS201)。
【0073】
つづいて、入力データ分類処理部36は、類似データDpのうち、最初の要素であるd1を処理対象に設定する(ステップS202)。さらに、入力データ分類処理部36は、特徴パターンSEPのうち、最初の要素であるp1を検査対象に設定する(ステップS203)。
【0074】
入力データ分類処理部36は、検査対象である特徴パターンが処理対象である類似データの部分集合になっているかどうかを検査する(ステップS204)。検査対象である特徴パターンが処理対象の類似データの部分集合になっている場合(ステップS204,Yes)、入力データ分類処理部36は、クラスPカウンタの値を一つ増加させる(ステップS209)。
【0075】
一方、検査対象である特徴パターンが処理対象である類似データの部分集合になっていない場合(ステップS204,No)、入力データ分類処理部36は、全ての特徴パターンについて検査を終了したか否かを判定する(ステップS205)。まだ検査が終了していない特徴パターンが存在する場合(ステップS205,No)、入力データ分類処理部36は、次の特徴パターンを検査対象に設定(ステップS208)し、ステップS204に移行する。
【0076】
全ての特徴パターンについて検査が終了した場合(ステップS205,Yes)、もしくはクラスPカウンタの値を増加させた後、入力データ分類処理部35は、全ての類似データについて処理を終了したか否かを判定する(ステップS206)。まだ検査が終了していない類似データが存在する場合(ステップS206,No)、入力データ分類処理部35は、次の類似データを処理対象に設定し(ステップS210)、ステップS203に移行する。
【0077】
一方、全ての類似データについて処理が終了した場合(ステップS206,Yes)、入力データ分類処理部36は、クラスPカウンタの値を出力して処理を終了する。この処理によって、入力データ分類処理部36は、クラスPに属する類似データのうち、特徴パターンSEPのいずれかを含む類似データの数を計数することができる。すなわち、クラスPカウンタの値は、クラスPの類似データのうち、一つ以上の特徴パターンにマッチするデータ数となる。
【0078】
また、入力データ分類処理部36は、同様の処理によってクラスNカウンタの値を出力する。このクラスNカウンタの値は、クラスNの類似データのうち、一つ以上の特徴パターンマッチするデータ数となる。入力データ分類処理部36は、このクラスPカウンタの値とクラスNカウンタの値とを比較し、値の大きい方のクラスに入力データを分類する。
【0079】
上述してきたように、この実施の形態1に示した特徴パターン出力装置21では、入力データに類似するデータをデータベースか22から抽出し、この類似データからクラスごとの最大パターン集合と最小パターン集合とを算出し、クラスごとの最大パターン集合と最小パターン集合から特徴パターンを算出するので、データベース22のデータ数や各データのアイテム数に依存することなく、高速に特徴パターンの算出をおこなうことができる。
【0080】
その結果、算出した特徴パターンをもちいて入力データを分類することで、入力データを簡易に分類することができる。
【0081】
さらに、入力データに類似するデータから特徴パターンを算出することで、局所的な特徴パターンであっても高精度で検出することが可能となる。
【0082】
ところで、入力データをもとに類似データを抽出する場合、類似データにノイズが発生することがある。そこで、類似データ抽出部32にノイズ除去の機構を付加することで、特徴パターンの検出精度および入力データの分類精度を向上することができる。
【0083】
類似データに発生するノイズとしては、所定のクラスの類似データに他のクラスのデータが混入するクラスノイズと、所定の類似データのアイテムが他のアイテムに置き換わる属性ノイズとが存在する。
【0084】
クラスノイズが存在する場合、二値化処理後の類似データにおいて、クラスPとクラスNに同一の最大パターンが出現する可能性がある。クラスPとクラスNとに同一の最大パターンが出現すると、特徴パターンが一つも発見できなくなり、また、分類精度も著しく低下する。そこで、クラスPとクラスNに同一のパターンが共通して出現した場合には、共通して出現したパターンをそれぞれのクラスから除外し、除外したパターンの部分集合であるパターンをあらたに含めることで、クラスノイズの発生を抑制することができる。
【0085】
また、属性ノイズについては、第7図に示した統計的検定処理によって除去することができる。第7図に示すように、この属性ノイズ除去では、まず、最小パターンの一つであるLを入力する(ステップS301)。ここで、Lに含まれるアイテムをI1,I2・・・Ikとすると、L={I1,I2・・・Ik}である。
【0086】
つぎに、Lのうち、最初のアイテムであるI1を処理対象Iiに設定する(ステップS302).つぎに、Lpから処理対象のアイテムを除外したパターンBを生成する(ステップS303)。その後、B=>PとB∧Ii=>Pについて統計的検定をおこなう(ステップS304)。この検定によってパターンBに処理対象であるアイテムIiを追加することが、統計的に偶然程度とみなせるか否かを判定する。統計的に偶然とみなせない場合、アイテムIiは、属性ノイズによって出現したと考えられる。
【0087】
統計的検定処理は、具体的には、B=>PとB∧Ii=>Pの確率分布の間に違いがないという統計的仮説をたて、この仮説を棄却できるかを次の式によって検定する。
T=(SLPL−SLBP)/(SLBP(SB−SBP)/N)1/2
ここで、SBはパターンBにマッチするデータ数であり、SLはパターンB∧Iiにマッチするデータ数であり、SBPは、パターンBにマッチするクラスPのデータ数であり、SLPは、パターンB∧IiにマッチするクラスPに属するデータ数である。
【0088】
このTは正規分布に従うことが知られており、有意水準をaとすると、z(a/2)は正規分布の密度関数p(z)=a/2なる値であり、T≧z(a/2)であれば、仮説はB=>PとB∧Ii=>Pの間に統計的な違いは無く、Iiは偶然現れたものとして扱い、パターン集合Lpから除外する。
【0089】
したがって、第7図では、統計的検定の結果、仮説が棄却できるかいなかを判定し(ステップS305)、仮説が棄却できなかった場合(ステップS305,No)、処理対象のアイテムIiを属性ノイズとしてLから除外し(ステップS308)、ステップS306に移行する。
【0090】
一方、仮説が棄却できた場合(ステップS305,Yes)、全てのアイテムについて検定が終了したか否かを判定する(ステップS306)。まだ検定が終了していないアイテムがある場合(ステップS306,No)、次のアイテムを検定対象に設定し(ステップS309)、ステップS303に移行する。
【0091】
また、全てのアイテムについて処理が終了した場合(ステップS306,Yes)、属性ノイズを除去した最小パターンLを出力し(ステップS307)、処理を終了する。
【0092】
このように、類似データ抽出部32にクラスノイズおよび属性ノイズを除去する機能をもたせることで、特徴パターンの検出精度および入力データの分類精度を向上することができる。
【0093】
(実施の形態2)
つぎに本発明の実施の形態2について説明する。上記実施の形態1では、データベース22から類似データを抽出する場合に、所定の閾値を一つ設定し、この閾値以上の類似度を有するデータを抽出していたが、この実施の形態2では、クラスPのデータとクラスNのデータのそれぞれについて閾値を設定し、クラス別に類似データを抽出する。なお、類似データの抽出を所定の数を充たすように抽出する場合、クラスPとクラスNのそれぞれに所定の数を設定し、クラスPとクラスNについてそれぞれ抽出すればよい。
【0094】
第8図に、実施の形態2におけるデータと類似度の関係を示す。第8図において、データ1〜13の配置は、第4図と同様であり、同心円51が類似度3を示し、同心円52が類似度2を示し、同心円53が類似度1を示す点についても第4図と同様である。しかしながら、この第8図では、クラスPのデータについては同心円53が閾値となり、クラスNのデータについては同心円52が閾値となる点が第4図の場合と異なる。
【0095】
クラスPについて類似度の閾値が1に下がったことで、第9図(a)に示すように、データ1,4,5,6が類似データとして新たに抽出されることとなる。ここで、データ1,6はデータ2の部分集合であり、データ4は、データ7の部分集合である。しかしながら、データ5は自身の上位集合をもたないため、クラスPの最大パターンとなる。したがって、実施の形態2におけるRpはデータ5に対応する{35}を加え、{{35},{借家,男性,既婚}}となる。なお、第9図(b)にしめすように、クラスNに関しては閾値が2であるので、クラスNの類似パターンは変化しない。
【0096】
実施の形態1において説明したように、全データから全ての最大パターンを取得すれば、全ての特徴パターンを算出できることが証明されており、本発明のように入力データの近傍のデータのみを扱う場合には、類似データから特徴パターンを算出する場合に類似データに対してクラスPとクラスNに共通して現れるパターンよりもアイテム数が多いことを条件として付加することで、最大パターンの検出漏れを防止し、分類精度の低下を防止することが必要である。
【0097】
したがって、クラス別に閾値を設定し、全てのクラスから十分な数のサンプルを取得することで、最大パターンの検出漏れによる分類精度の低下を防止することができる。
【0098】
この類似データの二値化と類似パターン集合の算出処理については、実施の形態1と同様であるので説明を省略するが、この実施の形態2における類似パターン集合は、入力データに対するクラス別の近傍を用い、データベース22にふくまれるデータ全体の近似となっている。そこで、特徴パターンの算出処理では、上述のjepProducerを使用し、
<epLp,epRp>=jepProducer (<{φ},Rp>,<{φ},Rn>)
によって<epLp,epRp>を算出する。したがって、本実施の形態では、最小パターン集合Rp,Rnを使用せず、最大パターン集合Lp,Lnから特徴パターンを算出することができる。
【0099】
さらに、この実施例では、SEP=epLp∪epLnは、データベース22全体に対する特徴パターンの近似であるので、入力データの分類をする場合に、データベース22に含まれるデータ全体を対象にクラスPカウントおよびクラスNカウントを算出することができる。
【0100】
なお、データベース22全体に対してクラスPカウントを算出する場合には、その値をデータベース22に含まれるクラスPデータのサイズで除することで、データベース22全体におけるクラスPの分布の偏りを補正することが好ましい。また、クラスNカウントについても同様である。このように、各クラスに属するデータ集合のサイズをもとに補正をおこなうことで、データベース22おける各クラスの分布比率に大きな偏りがある場合、たとえば、クラスNのデータがクラスPのデータに比して著しく多い場合であっても、入力データを精度良く分類することができる。
【0101】
上述してきたように、本実施の形態2では、クラス別に異なる閾値を用いて類似データを抽出することで最大パターンの検出漏れを防止し、入力データの分類精度を向上している。
【0102】
また、この実施の形態2では、データベース22全体の特徴パターンの近似を得ることができ、さらにクラスの分布状態に関わらず、入力データの分類を高精度におこなうことができる。
【0103】
なお、上述した実施の形態1および実施の形態2においては、入力データを分類する場合に、クラスPの類似データおよびクラスNの類似データについて、特徴パターンの出現数を比較しているが、入力データの分類はこの方法に限られるものではなく、他の評価基準や、その組合せを用いて入力データを分類することができる。
【0104】
入力データの分類に使用可能な評価基準としては、たとえば特徴パターン数、特徴パターンのアイテム数などを用いることができる。なお、特徴パターン数では、特徴パターン現数が多い場合に評価を高くし、特徴パターンのアイテム数では、アイテム数が多い場合に評価を高くする。
【0105】
具体的には、特徴パターン数を使用する場合には、epLpに属する特徴パターンのサイズの総和と、epLnに属する特徴パターンのサイズの総和とを比較し、その値が大きい方に入力パターンを分類する。
【0106】
(実施の形態3)
本実施の形態3では、上記実施の形態1,2に示した特徴パターン出力装置と同様の機能を有する特徴パターン出力プログラムを実行するコンピュータシステムについて説明する。
【0107】
第10図に示すコンピュータシステム100は、本体部101、本体部101からの指示により表示画面102aに画像等の情報を表示するディスプレイ102、このコンピュータシステム100に種々の情報を入力するためのキーボード103、ディプレイ102の表示画面102a上の任意の位置を指定するマウス104、ローカルエリアネットワーク(LAN)106または広域エリアネットワーク(WAN)に接続するLANインターフェース、インターネットなどの公衆回線107に接続するモデム105が備えられている。ここで、LAN106は、ほかのコンピュータシステム(PC)111、サーバ112、プリンタ113等とコンピュータシステム100とを接続している。また、第11図に示すように、本体部101は、CPU121、RAM122、ROM123、ハードディスクドライブ(HDD)124、CD−ROMドライブ125、FDドライブ126、I/Oインターフェース127およびLANインターフェース128を備えている。
【0108】
このコンピュータシステム100においてデータ管理方法を実行する場合、記憶媒体に記憶された、特徴パターン出力プログラムをコンピュータシステム100にインストールする。インストールされた特徴パターン出力プログラムは、HDD124に記憶され、RAM122、ROM123などを利用してCPU121により実行される。ここで、記憶媒体とは、CD−ROM109、フロッピーディスク108、DVDディスク、光磁気ディスク、ICカード等の可搬型記憶媒体やコンピュータシステム100の内外に備えられたハードディスク124等の記憶装置のほか、LAN106を介して接続されたインストール元のデータ管理プログラムを保持するサーバ112のデータベース、あるいは、ほかのコンピュータシステム111並びにそのデータベースや、さらに公衆回線107上の伝送媒体をも含むものである。
【0109】
上述してきたように、本実施の形態3では、実施の形態1,2に示した特徴パターン出力装置が有する構成をソフトウェアによって実現した特徴パターン出力プログラムをコンピュータシステム100上で実行することで、実施の形態1,2に示した特徴パターン出力装置と同様の効果を、一般的なコンピュータシステムを用いて実現することができる。
【0110】
以上説明したように、本発明によれば、入力データに類似する類似データをデータベースから抽出し、抽出した類似データから各クラスの特徴をなす特徴パターンを算出するので、データベースの規模によらず高速に特徴パターンを出力可能な特徴パターン出力装置を提供することができるという効果を奏する。
【0111】
また、本発明によれば、データベースから抽出した抽出データの各アイテムの値と入力データの各アイテムの値とを比較し、一致するアイテムの組合せから最大パターン集合と最小パターン集合とを抽出し、この最大パターン集合と最小パターン集合とをもとに特徴パターンを算出するようにしているので、簡易な構成で高速に特徴パターンを出力可能な特徴パターン出力装置を提供することができるという効果を奏する。
【0112】
また、本発明によれば、最小パターン集合をもとに複数のクラスにまたがって出現する共通パターンを求め、特徴パターンを共通パターンの上位集合として算出しているので、高速に特徴パターンを出力可能な特徴パターン出力装置を提供することができるという効果を奏する。
【0113】
また、本発明によれば、類似データを抽出する場合に、クラスごとに条件を変更し、各クラスについて十分な数の類似データを取得するようにしているので、類似データを用いてデータベース全体を近似し、高速に特徴パターンを出力可能な特徴パターン出力装置を提供することができるという効果を奏する。
【0114】
また、本発明によれば、複数のクラスにまたがって出現する最大パターンについて、そのアイテムを除去することで最大パターンが複数のクラスにまたがることを防止しているので、特徴パターンを高速かつ高精度に出力可能な特徴パターン出力装置を提供することができるという効果を奏する。
【0115】
また、本発明によれば、類似データから算出した特徴パターンをもとに入力データを分類しているので、データベースの規模に関わらず入力データを高速に分類可能な特徴パターン出力装置を提供することができるという効果を奏する。
【0116】
また、本発明によれば、各クラスの類似データにおける特徴パターンの出現数を計数し、この計数結果がもっとも大きい値となったクラスに入力データを分類しているので、入力データを高速かつ高精度に分類可能な特徴パターンを出力可能な特徴パターン出力装置を提供することができるという効果を奏する。
【0117】
また、本発明によれば、アイテムが数値データである場合に所定の数値範囲を設定し、入力データのアイテムの値と類似データのアイテムの値とが所定の範囲内にある場合に両者のアイテムの値が一致したと判定するので、アイテムに数値データが含まれる場合であっても簡易な構成で高速に特徴パターンを出力可能な特徴パターン出力装置を提供することができるという効果を奏する。
【産業上の利用可能性】
【0118】
以上のように、本発明にかかる特徴パターン出力装置は、特に大規模データベースにおける特徴パターンの抽出の高速化に対して有用である。
【図面の簡単な説明】
【0119】
【図1】 第1図は、本発明の実施の形態1である特徴パターン出力装置の概要構成を説明する概要構成図である。
【図2】 第2図は、入力データと類似データの具体例を示す図である。
【図3】 第3図は、データ群を類似度に従って配したデータ空間を示す図である。
【図4】 第4図は最大パターン集合と最小パターン集合とを示す図である。
【図5】 第5図は、特徴パターン集合算出部の処理動作を示す図である。
【図6】 第6図は、入力データ分類処理部36の処理動作を説明するフローチャートである。
【図7】 第7図は、属性ノイズを除去する統計的検定処理を説明する図である。
【図8】 第8図は、実施の形態2におけるデータと類似度の関係を示す図である。
【図9】 第9図は、実施の形態2における最大パターン集合と最小パターン集合とを示す図である。
【図10】 第10図は、本実施の形態3におけるコンピュータシステムを説明するための説明図である。
【図11】 第11図は、第10図に示した本体部の構成を説明する説明図である。【Technical field】
[0001]
  The present invention outputs a combination of items characteristically included in the class as a characteristic pattern of the class from a database that stores data having a plurality of items divided into any of a plurality of classes.Feature pattern output device, Especially when the database is largeOutputable feature pattern output deviceAbout.
[Background]
[0002]
  In recent years, methods have been devised for extracting correlations between data and rules of the data stored in a database. The correlation between data and the rules possessed by the data can be used when classifying data stored in the database or when classifying new data.
[0003]
  Traditionally, Agrawel, R., “Fast Algorithm for Mining Association Rules” and the corresponding patent literature “Mine sequential patterns in large-scale databases” as a method of learning association rules that take out rules from the database and feed back to the database. System and method for doing this "(Japanese Patent Laid-Open No. 8-263346).
[0004]
  According to the technique disclosed here, a pattern is formed by combining data components called items, and data correlation rules are shown by a frequent pattern.
[0005]
  However, with this method, the cost required for extracting the correlation rule is high, and when there is a change in the contents of the database, it takes time to exercise the contents of the correlation rule in response to the change. For this reason, the extraction of correlation rules is often performed with the database offline, and there is a problem that the followability deteriorates with respect to the update of the database.
  Furthermore, the processing time required to extract correlation rules and classify data based on the extracted correlation rules varies greatly depending on the parameter settings, and the obtained correlation rules themselves also depend greatly on the parameters. was there. In other words, in order to set parameters appropriately, specialized knowledge and experience are required. Depending on the parameter settings, the usefulness of the obtained rules may be reduced, or the operation of association rules may become impossible. Processing time may be required.
[0006]
  On the other hand, other rule extraction methods include J.Li, G. Dong, K. Ramamohanarao, and L. Wong.DeEPs: A new instance-based discovery and classification system.Technical report, Dept of CSSE, University of Melbourne. , 2000 is published. The DeEPs published here can discover real-time patterns that learn applicable patterns after input data is given. Therefore, the database can be updated at an arbitrary timing without being taken offline. In DeEPs, it is not necessary to set parameters for pattern discovery, so less expertise and experience are required during operation.
[0007]
  However, since DeEPs process all data in the database at the time of pattern discovery, the necessary processing capacity increases according to the number of data that the database has. Therefore, when the number of data in the database is large, there is a problem that the pattern extraction process requires an unacceptable time as a response time in the real-time process.
[0008]
  Furthermore, in DeEPs, processing time is required in proportion to the number of items that are data components. Therefore, when the number of items included in each data is large, there is a problem that a huge amount of time is required for the pattern extraction process.
[0009]
  The present invention has been made to solve the above-described problems caused by the prior art, and the pattern extraction can be performed at high speed even in a large-scale database having a large number of data and having many items in the database. ExecutableFeature pattern output deviceThe purpose is to provide.
DISCLOSURE OF THE INVENTION
[0010]
  In order to solve the above-described problems and achieve the object, the present invention relates toFeature pattern output deviceIs a feature that outputs a combination of items that characterize each class as a feature pattern of the class from a database that stores data consisting of a plurality of items divided into a plurality of classes.Pattern output deviceWhen the input data is received, similar data extraction means for extracting similar data similar to the input data for each class from the database, and each class from the similar data extracted by the similar data extraction means A similar pattern set calculating means for calculating a similar pattern set for each class; and a feature pattern calculating means for calculating a feature pattern for each class from the similar pattern set calculated by the similar pattern set calculating means. And
[0011]
  According to the present invention, similar data similar to the input data is extracted from the database, and a feature pattern that characterizes each class is calculated from the extracted similar data.
[0012]
  Further, according to the present inventionFeature pattern output deviceThe similar pattern set calculation means extracts, as a pattern set, a combination of items in which each item forming the similar data extracted by the similar data extraction means matches each item forming the input data, A minimum pattern that is a combination of items in which a subset other than itself does not exist in the pattern set is extracted as a minimum pattern set, and a maximum pattern that is a combination of items in which a superset other than itself does not exist in the pattern set Are extracted as a maximum pattern set, and the minimum pattern set and the maximum pattern set are output as the similar pattern set.
[0013]
  According to the present invention, each item of the extracted data extracted from the database is compared with each item of the input data, the maximum pattern set and the minimum pattern set are extracted from the matching item combination, and the maximum pattern set and the minimum pattern set are extracted. The feature pattern is calculated based on the pattern set.
[0014]
  Further, according to the present inventionFeature pattern output deviceThe feature pattern calculation unit extracts a common pattern set that appears across a plurality of classes from the minimum pattern set, and the feature pattern calculation unit calculates a feature pattern that includes all items of the common pattern set. It is characterized by doing.
[0015]
  According to the present invention, a common pattern that appears across a plurality of classes is obtained based on a minimum pattern set, and a feature pattern is calculated as a superset of the common pattern.
[0016]
  Further, according to the present inventionFeature pattern output deviceThe similar data extracting means extracts similar data based on different conditions for each class when extracting similar data from the database.
[0017]
  According to the present invention, when extracting similar data, the conditions are changed for each class, and a sufficient number of similar data is acquired for each class.
[0018]
  Further, according to the present inventionFeature pattern output deviceThe similar pattern set calculating means excludes a predetermined item from the maximum pattern when there is a maximum pattern that appears across a plurality of classes.
[0019]
  According to the present invention, it is possible to prevent a situation in which a feature pattern does not exist by removing an item of a maximum pattern that appears across a plurality of classes.
[0020]
  Further, according to the present inventionFeature pattern output deviceIs characterized by further comprising classification means for classifying the input data into one of the plurality of classes based on the feature pattern calculated by the feature pattern calculation means.
[0021]
  According to the present invention, the input data is classified based on the feature pattern calculated from the similar data.
[0022]
  Further, according to the present inventionFeature pattern output deviceThe classifying means counts the number of the feature patterns in the similar data of each class, and classifies the input data into a class having the largest count result.
[0023]
  According to the present invention, the number of appearances of feature patterns in the similar data of each class is counted, and the input data is classified into the class having the largest count result.
[0024]
  Further, according to the present inventionFeature pattern output deviceIf the value of the predetermined item forming the input data and the value of the item forming the similar data are within a predetermined numerical range, the similar pattern set calculation means calculates the value of both items. It is characterized by determining that they match.
[0025]
  According to this invention, when the item is numerical data, a predetermined numerical range is set, and when the item value of the input data and the item value of the similar data are within the predetermined range, the value of both items Is determined to match.
BEST MODE FOR CARRYING OUT THE INVENTION
[0026]
  The present invention will be described below with reference to the accompanying drawings.Feature pattern output deviceThe preferred embodiment will be described in detail.
[0027]
(Embodiment 1)
  FIG. 1 is a schematic configuration diagram illustrating a schematic configuration of a feature pattern output apparatus according to Embodiment 1 of the present invention. In FIG. 1, the feature pattern output device 21 is connected to a database 22. The database 22 stores information about customers, and one piece of data corresponds to one customer. The data includes items such as “age”, “resident”, “sex”, “marriage”, and the like. Each data has a value for each item. Hereinafter, a combination of an item included in data and a value of the item is referred to as an item. The database 22 classifies each customer, that is, each piece of data according to whether or not credit is available. The database 22 classifies “credit-capable” customers as “class P” and “credit-capable” customers as “class N”.
[0028]
  The feature pattern output device 21 includes therein an input processing unit 31, a similar data extraction unit 32, a binarization processing unit 33, a similar pattern set calculation unit 34, a feature pattern set calculation unit 35, and an input data classification processing unit 36. is doing. When the input processing unit 31 receives customer information as input data, the input processing unit 31 outputs the input data to the similar data extraction unit 32 and the binarization processing unit 33.
[0029]
  The similar data extraction unit 32 extracts data similar to the input data from the database 22 and outputs it to the binarization processing unit 33 as similar data. The binarization processing unit binarizes the similar data based on the input data, and then transmits the similar data to the similar pattern set calculation unit 34 and the input data classification processing unit 36.
[0030]
  The similar pattern set calculation unit 34 calculates a similar pattern set for each of the class P class N based on the binarized similar data. The feature pattern set calculation unit 35 outputs a combination of items that characteristically appear in the class P and class N from the similar pattern set as a feature pattern.
[0031]
  Further, the input data classification processing unit 36 compares the binarized similar data with the feature pattern, and determines whether to classify the input data into class P or class N.
[0032]
  The feature pattern output device 21 outputs this feature pattern and the classification result of the input data. That is, since the feature pattern output device 21 extracts data similar to the input data from the database 22 and calculates a feature pattern from the similar data, the feature pattern output device 21 does not depend on the number of data in the database 22 or the number of items of each data. The feature pattern can be calculated at high speed.
[0033]
  Next, each process will be described in detail using specific examples.
  FIG. 2 shows a specific example of input data and similar data. FIG. 2A is an example of input data, and FIG. 2B is an example of data stored in the database 22. As shown in FIG. 2, the input data is “35” as the value of “age”, “rental” as the value of “house”, “male” as the value of “sex”, “married” as the value of “marriage” "have.
[0034]
  The similar data extraction unit 32 employs the similarity using the City-block distance as the similarity function, and extracts similar data from the database 22.
  In particular,
  n is the number of items, X is data stored in the database 22, Y is input data,
[Expression 1]
Figure 0004057587
  Here, the item <fi: xi> indicates that the value of the item “fi” is “xi”. In addition, items whose items have numerical attributes are all normalized to the [0, 1] interval, and α is defined as a radius of 0-1. That is, the value of δ is 1 when the value is within the radius α around the value of the input data, and the value of δ is 0 when the value is outside the radius α.
[0035]
  In other words, this similarity function counts the number of items that match the items included in the input data for the data stored in the database. In FIG. 2 (b), items that match the input data in each data are shown circled, and the output of the similarity function is shown as the similarity. “Age” is numerical data, but margin 5 corresponding to α = 0.18 here is allowed, and when the age value is 30 to 40, it is determined that the items match.
[0036]
  Further, FIG. 3 shows a data space in which the data group shown in FIG. 2 (b) is arranged according to the similarity. In FIG. 3, input data is indicated by “★”, data belonging to class P is indicated as “◯”, and data belonging to class N is indicated as “x”. The numbers shown in the vicinity of each symbol are the data numbers in FIG. 2 (b).
[0037]
  As shown in FIG. 3, the data 7, 10, 12, and 13 having a similarity of 3 are closest to the input data and exist on the concentric circle 41. Further, data 2 and 9 having a similarity of 2 exist on the next concentric circle. Further, data 1, 4, 5, 6, and 11 having a similarity of 1 exist on the next concentric circle 43, and data 3 and 8 having a similarity of 0 exist outside the concentric circle 43.
[0038]
  The similar data extraction unit 32 extracts data whose similarity is equal to or greater than a predetermined threshold as similar data. Alternatively, a predetermined number, for example, five pieces of data are extracted as similar data in descending order of similarity. All data with the same similarity is included in the similar data. Therefore, in FIG. 3, six data of data 7, 10, 12, 13 having a similarity of 3 and data 2 and 9 having a similarity of 2 are extracted as similar data.
[0039]
  The binarization processing unit 33 performs binarization processing on the similar data extracted by the similar data extraction unit 32. Specifically, the item for which δ = 0 is excluded from the similar data, and the value of the item for which δ = 1 is replaced with the value for the same item in the input data. Here, the value of the item of the discrete value attribute is the same as the input data. Therefore, the similar data can be binarized by rewriting the value of the numeric attribute item to the value of the input data item.
  Therefore, the following similar data is obtained as a result of binarization.
  Data 2 {<house: rented house> <gender: male>}
  Data 7 {<Dwelling: Rent> <Gender: Male> <Marriage: Married>}
  Data 9 {<age: 35> <gender: male>}
  Data 10 {<age: 35> <gender: male> <marriage: married>}
  Data 12 {<age: 35> <house: rented house> <gender: male>}
  Data 13 {<Residential: Rental house> <Gender: Male> <Marriage: Married>}
  In this way, by binarizing the similar data, the items included in the similar data are only items included in the input data. Therefore, the feature pattern calculation process can be performed only by calculating the item set.
[0040]
  Next, the processing of the similar pattern set calculation unit 34 will be described. The similar pattern set calculation unit 34 calculates a maximum pattern set and a minimum pattern set for each of class P and class N. The maximum pattern set is a set of items whose superordinate set does not exist in similar data of the class. The minimum pattern set is a set of items for which there is no set that is a subset of the class of similar data.
[0041]
  FIG. 4 shows the maximum pattern set and the minimum pattern set. FIG. 4 (a) is a diagram showing the inclusive relation of sets in class P, and FIG. 4 (b) is a diagram showing the inclusive relation of sets in class N.
[0042]
  Here, for class P,
  Data 2 {<house: rented house> <gender: male>}
  Data 7 {<Dwelling: Rent> <Gender: Male> <Marriage: Married>}
All items of data 2 are included in data 7. That is, data 2 is a subset of data 7, and data 7 is a superset of data 2. This relationship is indicated by solid arrows in FIG. 4 (a).
[0043]
  Here, in the similar data of class P, there is no set that is a superset of data 7. Therefore, data 7 is a maximum pattern set of class P. On the other hand, data 1 and 6 are a subset of data 2. However, the data 1 and 6 have a similarity of 1, and are not selected as similar data. That is, there is no set that is a subset of the data 2 in the similar data of the class P, so the data 2 is the minimum pattern set of the similar data of the class P.
[0044]
  Similarly, for class N,
  Data 9 {<age: 35> <gender: male>}
  Data 10 {<age: 35> <gender: male> <marriage: married>}
  Data 12 {<age: 35> <house: rented house> <gender: male>}
  Data 13 {<Residential: Rental house> <Gender: Male> <Marriage: Married>}
The items of data 9 are all included in the data 10 and 12. That is, data 9 is a subset of both data 10 and 12, and data 10 and 12 are both supersets of data 9. This relationship is indicated by solid arrows in FIG. 4 (b).
[0045]
  Here, there is no set that is a superset of the data 10 and 12 in the similar data of class N. Accordingly, data 10 and 12 are class N maximum pattern sets, respectively. Further, since there is no set that is a subset of the data 9 in the similar data of the class N, the data 9 is the minimum pattern set of the class N.
[0046]
  Note that the data 13 has neither a superset nor a subset in the similar data of class N. Therefore, the data 13 is a maximum pattern set of class N and a minimum pattern set.
[0047]
  Here, in class P, assuming that binarized similar data is Dp, the minimum pattern set is Lp, and the maximum pattern set is Rp, the pattern set [Lp, Rp] is a superset of at least one minimum pattern, An entire pattern that is a subset of at least one maximum pattern. Therefore,
  Dp⊆ [Lp, Rp]
Is established.
[0048]
  In the data shown in FIG. 4 (a), Lp = {{rented house, male}}, Rp = {{rented house, male, married}} and Dp = {{rented house, male}}, {rented house, male, Married}}.
  Similarly, in class N, if binarized similar data is Dn, the minimum pattern set is Ln, and the maximum pattern set is Rn, the pattern set [Ln, Rn] is a superset of at least one minimum pattern, An entire pattern that is a subset of at least one maximum pattern. Therefore,
  Dp⊆ [Lp, Rp]
Is established.
[0049]
  In the data shown in FIG. 4 (b), Ln = {{35, male}, {rental, male, married}}, Rn = {{35, rental, male}, {35, male, married}, { Rented house, male, married}} and Dn = {{rented house, male}}, {35, rented house, male}, {35, male, married}, {rented house, male, married}}.
[0050]
  In the example shown in FIG. 4, Dp = [Lp, Rp], but a pattern that is a superset of the minimum pattern and a subset of the maximum pattern does not exist in the similar data, that is, Even a pattern that does not exist in Dp is included in [Lp, Rp].
[0051]
  Here, <L, R> is defined as the border of the minimum pattern L and the maximum pattern R. The border <L, R> represents [L, R] which is a pattern set as a pair of a minimum pattern and a maximum pattern. Therefore, by using a border, it is possible to replace the calculation with only the maximum pattern and the minimum pattern without directly handling the elements of the set when performing the calculation of the set, which can greatly improve the calculation efficiency. it can.
[0052]
  The similar pattern calculation unit 34 outputs the border <Lp, Rp> and the border <Ln, Rn> as a similar pattern set to the feature pattern set 35, and ends the process.
[0053]
  Next, the operation of the feature pattern calculation unit 35 will be described. First, when Rp and Rn are the maximum patterns of class P and class N for all data, [{φ}, Rp] − [{φ}, Rn] is all patterns that appear only in class P. It is proved to be a pattern set including (J.Li and K. Ramamohanarao. The space of jumping emerging patterns and its incremental maintenance algorithm.In Proceedings of 17th(International Conference on Machine learning, pages 551-558. Morgan Kaufmann, 2000.)
[0054]
  In the present invention, Rp and Rn are targeted for processing data similar to the input data, and there is no guarantee that it is the maximum pattern in the entire data. However, since similar data has a high similarity, the number of matches for items in the input data is In many cases, the maximum pattern usually has a large number of items, and therefore there is a high possibility that the maximum pattern is included in the similar pattern.
[0055]
  However, even if there are a large number of maximum patterns, there is a possibility that detection of the maximum pattern will be missed, and if there is any detection miss, there is a possibility that an incorrect feature pattern will be found. Such an incorrect feature pattern causes a reduction in classification accuracy. Therefore, when a feature pattern is calculated from similar data, it is added on condition that there are more items than similar patterns that appear in both class P and class N, thereby preventing detection of the maximum pattern. In addition, a reduction in classification accuracy can be prevented.
[0056]
  The processing operation of the feature pattern set calculation unit 35 is shown in FIG. In FIG. 5, the feature pattern set calculation unit 35 first has a common pattern set [{φ}, Lp] and [{φ}, Ln] from the similar pattern sets <Lp, Rp> and <Ln, Rn>. Find the pattern set that appears. Specifically, first, epLp and epRp, which are output data, are initialized as epLp = {}, epRp = {}. Next, <{φ}, [c1,... Ck]> is calculated by intersecOperation (<{φ}, Lp>, <{φ}, Ln>) (step S102). This intersecOperation is the same as that shown in the above-mentioned document, and all patterns appearing in common in the set indicated by two borders <{φ}, Lp>, <{φ}, Ln> Output in the format {φ}, [c1,... Ck]>.
[0057]
  That is, by this process, [c1,... Ck], which is a set of maximum patterns that appear in common in the pattern sets [{φ}, Lp] and [{φ}, Ln], is obtained. Since any ci included in [c1,... Ck] is a common maximum pattern, the superset of ci is
  ・ Appears only in class P data
  ・ Appears only in class N data
  ・ Does not appear in either class P or class N
  One of them.
[0058]
  Therefore, for each element ci of [c1,... Ck], by searching for a pattern that includes ci and appears only in class P and does not appear in class N, a set of patterns that characteristically appear in class P is obtained. be able to.
[0059]
  Therefore, after obtaining [c1,... Ck], the feature pattern set calculation processing unit 35 sets the first pattern c1 as a processing target (step S103), and further, from among the maximum pattern set Rp of class P Then, a pattern set rp that is a superset of the common pattern to be processed is obtained (step S104). Thereafter, a pattern set rn that is a superset of the common pattern to be processed is obtained from the maximum pattern set Rn of class N (step S105).
[0060]
  Next, the feature pattern set calculation processing unit 35 obtains a pattern set that appears in the pattern set [{φ}, rp] and does not appear in the pattern set [{φ}, rn]. Specifically, <el, er> is calculated by jepProducer (<{φ}, rp>, <{φ}, rn>) (step S106). This jepProducer is the same as that shown in the above document, appears in the pattern set [{φ}, rp] indicated by the border <{φ}, rp>, and by the border <{φ}, rn>. A pattern set that does not appear in the indicated pattern set [{φ}, rn] is output in the form of a border <el, er>.
[0061]
  Here, if el is not {φ} (No in step S107), the feature pattern set calculation processing unit 35 adds a common pattern to be processed to <el, er> to create a border <eL, eR> ( Step S108). Since the pattern set indicated by the border <eL, eR> is a superset of the common patterns to be processed, the pattern set appears in class P and does not appear in class N.
[0062]
  The feature pattern set 35 adds the border <eL, eR> to the border <epLp, epRP> (step S109). The border <epLp, epRp> is data that is finally output as a feature pattern. Here, epLp always monitors only the minimum pattern as an element, and excludes the non-minimum pattern (step S110).
[0063]
  After step S110 ends or when el is {φ} (step S107, Yes), the feature pattern set calculation unit 35 determines whether or not the processing has been completed for all elements of the pattern set [c1,... Ck]. (Step S111). If there is an element that has not been processed yet (No at Step S111), the feature pattern set calculation unit 35 sets the next element as an inspection target (Step S113), and proceeds to Step S104.
[0064]
  On the other hand, when the processing has been completed for all the elements (step S111, Yes), the feature pattern set calculation unit 35 outputs a border <epLp, epRp> (step S112).
[0065]
  The feature pattern calculation processing unit 35 can also calculate the border <epLn, epRn> for class N in the same manner. The feature pattern calculation processing unit 35 uses <epLp, epRp> and <epLn, epRn>,
  SEP = epLp∪epLn
A feature pattern set SEP is output. This feature pattern SEP is a union of the minimum patterns that appear characteristically in class P or class N. The feature pattern calculation unit 35 outputs the feature pattern set SEP to the outside of the feature pattern output device 21 and also outputs it to the input data classification processing unit 36.
[0066]
  When the processing of the feature pattern calculation unit 35 is applied to the data shown in FIG. 4, first, the minimum pattern set of class P is Lp = {{rental, male}}, and the minimum pattern set of class N is Ln = Since {{35, male}, {rental, male, married}}, the pattern set that appears in common is {{rental, male}} (step S102).
[0067]
  Therefore, the subsequent processing is continued with ci = {rented house, male} (step S102).
  In class P, among the maximum pattern set Rp = {{rental, male, married}} of class P, the superset of ci = {rental, male} is rp = {{rental, male, married }} (Step S103). Similarly, in class N, ci = {rental, male} among maximum pattern set Rn = {{35, rented, male}, {35, male, married}, {rental, male, married}} of class N The superordinate set is rn = {{35, rented house, male}, {rented house, male, married}} (step S104).
[0068]
  A pattern set that appears in the obtained [{φ}, rp] and does not appear in [{φ}, rn] is obtained by jepProducer (<{φ}, rp>, <{φ}, rn>). <El, er> = <{φ}, {φ}> (step S105).
[0069]
  There is only one element of the maximum common pattern set {ci}. In this example, the feature pattern of class P is eventually <epLp, epRp> = <{φ}, {φ}>.
[0070]
  On the other hand, in class N, the processing results up to step S104 are the same as in class P, and ci = {rented house, male}, rn = {{35, rented house, male}, {rented house, male, married}} , Rp = {{rental, male, married}}. (Steps S101 to S104).
[0071]
  A pattern set that appears in the obtained [{φ}, rn] and does not appear in [{φ}, rp] is obtained by jepProducer (<{φ}, rn>, <{φ}, rp>). <El, er> = <{35}, {35, rented house, male}> (step S105). Borders obtained by adding c1 to each of el and er are <eL, eR> = <{35, rented house, male}, {35, rented house, male}> (step S106). There is only one element of the maximum common pattern set {c1}, and in this example, the class N feature pattern set is <epLn, epRn> = <{35, rented, male}, {35, rented, male}> (Steps S107 to S110).
[0072]
  Next, the operation of the input data classification processing unit 36 will be described. FIG. 6 is a flowchart for explaining the processing operation of the input data classification processing unit 36. In FIG. 6, the input data classification processing unit first inputs binarized similar data Dp = {d1, d2... Ds} of class P and feature pattern SEP = {p1, p2... Pt}. Obtained as data (step S201).
[0073]
  Subsequently, the input data classification processing unit 36 sets d1 which is the first element in the similar data Dp as a processing target (step S202). Furthermore, the input data classification processing unit 36 sets p1 which is the first element in the feature pattern SEP as an inspection target (step S203).
[0074]
  The input data classification processing unit 36 checks whether or not the feature pattern to be inspected is a subset of similar data to be processed (step S204). If the feature pattern to be inspected is a subset of the similar data to be processed (Yes in step S204), the input data classification processing unit 36 increments the value of the class P counter by one (step S209).
[0075]
  On the other hand, when the feature pattern to be inspected is not a subset of the similar data to be processed (step S204, No), the input data classification processing unit 36 determines whether or not the inspection has been completed for all the feature patterns. Is determined (step S205). If there is a feature pattern that has not yet been inspected (step S205, No), the input data classification processing unit 36 sets the next feature pattern as an inspection target (step S208), and proceeds to step S204.
[0076]
  When inspection has been completed for all feature patterns (Yes in step S205), or after the value of the class P counter has been increased, the input data classification processing unit 35 determines whether or not processing has been completed for all similar data. Determination is made (step S206). If there is similar data that has not been examined yet (No at Step S206), the input data classification processing unit 35 sets the next similar data as a processing target (Step S210), and proceeds to Step S203.
[0077]
  On the other hand, when the process is completed for all similar data (step S206, Yes), the input data classification processing unit 36 outputs the value of the class P counter and ends the process. By this processing, the input data classification processing unit 36 can count the number of similar data including any one of the feature patterns SEP among the similar data belonging to the class P. That is, the value of the class P counter is the number of data matching one or more feature patterns among the similar data of class P.
[0078]
  Further, the input data classification processing unit 36 outputs the value of the class N counter by the same processing. The value of this class N counter is the number of data that match one or more feature patterns among the similar data of class N. The input data classification processing unit 36 compares the value of the class P counter with the value of the class N counter, and classifies the input data into the class having the larger value.
[0079]
  As described above, in the feature pattern output device 21 shown in the first embodiment, data similar to the input data is extracted from the database 22 and the maximum pattern set and the minimum pattern set for each class are extracted from the similar data. Since the feature pattern is calculated from the maximum pattern set and the minimum pattern set for each class, the feature pattern can be calculated at high speed without depending on the number of data in the database 22 or the number of items of each data. .
[0080]
  As a result, the input data can be easily classified by classifying the input data using the calculated feature pattern.
[0081]
  Furthermore, by calculating a feature pattern from data similar to input data, it is possible to detect even a local feature pattern with high accuracy.
[0082]
  By the way, when extracting similar data based on input data, noise may occur in the similar data. Therefore, by adding a noise removal mechanism to the similar data extraction unit 32, it is possible to improve the feature pattern detection accuracy and the input data classification accuracy.
[0083]
  As noise generated in similar data, there are class noise in which data of another class is mixed in similar data of a predetermined class, and attribute noise in which an item of predetermined similar data is replaced with another item.
[0084]
  When class noise exists, the same maximum pattern may appear in class P and class N in similar data after binarization processing. When the same maximum pattern appears in class P and class N, no feature pattern can be found, and the classification accuracy is significantly reduced. Therefore, when the same pattern appears in both class P and class N, the commonly appearing pattern is excluded from each class, and a pattern that is a subset of the excluded pattern is newly included. The generation of class noise can be suppressed.
[0085]
  Further, the attribute noise can be removed by the statistical test process shown in FIG. As shown in FIG. 7, in this attribute noise removal, first, L which is one of the minimum patterns is inputted (step S301). Here, if the items included in L are I1, I2,... Ik, L = {I1, I2... Ik}.
[0086]
  Next, I1, which is the first item in L, is set as the processing target Ii (step S302). Next, a pattern B is generated by excluding items to be processed from Lp (step S303). Thereafter, a statistical test is performed on B => P and B∧Ii => P (step S304). It is determined whether or not adding the item Ii to be processed to the pattern B by this test can be regarded as statistically coincidental. If it is not considered statistically coincidental, the item Ii is considered to have appeared due to attribute noise.
[0087]
  Specifically, in the statistical test process, a statistical hypothesis that there is no difference between the probability distributions of B => P and B∧Ii => P is established, and whether this hypothesis can be rejected by the following equation: Test.
    T = (SLPSL-SLSBP) / (SLSBP(SB-SBP) / N)1/2
  Where SBIs the number of data matching pattern B, and SLIs the number of data matching the pattern B∧Ii, and SBPIs the number of data of class P that matches pattern B, and SLPIs the number of data belonging to the class P that matches the pattern B∧Ii.
[0088]
  This T is known to follow a normal distribution. When the significance level is a, z (a / 2) is a value of density function p (z) = a / 2 of the normal distribution, and T ≧ z (a / 2), the hypothesis is that there is no statistical difference between B => P and B∧Ii => P, and Ii is treated as if it appeared by chance, and is excluded from the pattern set Lp.
[0089]
  Accordingly, in FIG. 7, it is determined whether the hypothesis can be rejected as a result of the statistical test (step S305). If the hypothesis cannot be rejected (step S305, No), the item Ii to be processed is set as the attribute noise. (Step S308), and the process proceeds to step S306.
[0090]
  On the other hand, if the hypothesis can be rejected (step S305, Yes), it is determined whether or not the test has been completed for all items (step S306). If there is an item that has not been tested yet (step S306, No), the next item is set as a test target (step S309), and the process proceeds to step S303.
[0091]
  If the processing is completed for all items (step S306, Yes), the minimum pattern L from which the attribute noise has been removed is output (step S307), and the processing ends.
[0092]
  As described above, by providing the similar data extraction unit 32 with a function of removing class noise and attribute noise, it is possible to improve the detection accuracy of the feature pattern and the classification accuracy of the input data.
[0093]
(Embodiment 2)
  Next, a second embodiment of the present invention will be described. In the first embodiment, when extracting similar data from the database 22, one predetermined threshold is set and data having a degree of similarity equal to or higher than the threshold is extracted. In the second embodiment, however, A threshold is set for each of class P data and class N data, and similar data is extracted for each class. When extracting similar data so as to satisfy a predetermined number, a predetermined number may be set for each of class P and class N, and extraction may be performed for class P and class N, respectively.
[0094]
  FIG. 8 shows the relationship between data and similarity in the second embodiment. In FIG. 8, the arrangement of the data 1 to 13 is the same as that in FIG. 4. Concentric circle 51 indicates similarity 3, concentric circle 52 indicates similarity 2, and concentric circle 53 indicates similarity 1. The same as FIG. However, this FIG. 8 differs from the case of FIG. 4 in that the concentric circle 53 is a threshold value for class P data and the concentric circle 52 is a threshold value for class N data.
[0095]
  Since the similarity threshold for class P has dropped to 1, data 1, 4, 5, and 6 are newly extracted as similar data, as shown in FIG. 9 (a). Here, data 1 and 6 are a subset of data 2, and data 4 is a subset of data 7. However, since data 5 does not have its own superset, it is the maximum pattern of class P. Therefore, Rp in the second embodiment is {{35}, {rental, male, married}} by adding {35} corresponding to data 5. As shown in FIG. 9B, the threshold value for class N is 2, so the similar pattern of class N does not change.
[0096]
  As described in the first embodiment, it is proved that all feature patterns can be calculated if all maximum patterns are obtained from all data, and only data in the vicinity of input data is handled as in the present invention. Is added on condition that the number of items is larger than the pattern that appears in common with class P and class N for similar data when calculating a feature pattern from similar data, thereby preventing the detection of the maximum pattern from being missed. It is necessary to prevent the deterioration of the classification accuracy.
[0097]
  Therefore, by setting a threshold value for each class and acquiring a sufficient number of samples from all classes, it is possible to prevent a reduction in classification accuracy due to a detection failure of the maximum pattern.
[0098]
  Since the binarization of the similar data and the calculation process of the similar pattern set are the same as in the first embodiment, description thereof will be omitted, but the similar pattern set in the second embodiment is a neighborhood by class for input data. Is used to approximate the entire data included in the database 22. Therefore, in the feature pattern calculation process, the above jepProducer is used,
  <EpLp, epRp> = jepProducer (<{φ}, Rp>, <{φ}, Rn>)
To calculate <epLp, epRp>. Therefore, in the present embodiment, the feature pattern can be calculated from the maximum pattern sets Lp and Ln without using the minimum pattern sets Rp and Rn.
[0099]
  Further, in this embodiment, since SEP = epLp∪epLn is an approximation of the feature pattern with respect to the entire database 22, when classifying input data, the class P count and class for the entire data included in the database 22 are targeted. N counts can be calculated.
[0100]
  When calculating the class P count for the entire database 22, the value is divided by the size of the class P data included in the database 22 to correct the distribution of the class P distribution in the entire database 22. It is preferable. The same applies to the class N count. As described above, when correction is performed based on the size of the data set belonging to each class, the distribution ratio of each class in the database 22 is largely biased. For example, the data of class N is compared with the data of class P. Therefore, even if the number is extremely large, the input data can be classified with high accuracy.
[0101]
  As described above, in the second embodiment, similar data is extracted using different threshold values for each class to prevent detection of the maximum pattern and improve the classification accuracy of input data.
[0102]
  In the second embodiment, an approximation of the feature pattern of the entire database 22 can be obtained, and the input data can be classified with high accuracy regardless of the class distribution state.
[0103]
  In Embodiment 1 and Embodiment 2 described above, when the input data is classified, the number of appearances of feature patterns is compared for similar data of class P and similar data of class N. The data classification is not limited to this method, and the input data can be classified using other evaluation criteria or combinations thereof.
[0104]
  As an evaluation standard that can be used for classification of input data, for example, the number of feature patterns, the number of feature pattern items, and the like can be used. For the number of feature patterns, the evaluation is increased when the current number of feature patterns is large, and for the number of feature pattern items, the evaluation is increased when the number of items is large.
[0105]
  Specifically, when using the number of feature patterns, the sum of the sizes of the feature patterns belonging to epLp is compared with the sum of the sizes of the feature patterns belonging to epLn, and the input pattern is classified into a larger value. To do.
[0106]
(Embodiment 3)
  In the third embodiment, a computer system that executes a feature pattern output program having the same function as the feature pattern output apparatus described in the first and second embodiments will be described.
[0107]
  A computer system 100 shown in FIG. 10 includes a main body 101, a display 102 that displays information such as an image on a display screen 102a according to an instruction from the main body 101, and a keyboard 103 for inputting various information to the computer system 100. A mouse 104 for designating an arbitrary position on the display screen 102a of the display 102, a LAN interface connected to a local area network (LAN) 106 or a wide area network (WAN), and a modem 105 connected to a public line 107 such as the Internet. Is provided. Here, the LAN 106 connects the computer system 100 to another computer system (PC) 111, a server 112, a printer 113, and the like. As shown in FIG. 11, the main unit 101 includes a CPU 121, a RAM 122, a ROM 123, a hard disk drive (HDD) 124, a CD-ROM drive 125, an FD drive 126, an I / O interface 127, and a LAN interface 128. Yes.
[0108]
  When the data management method is executed in the computer system 100, the feature pattern output program stored in the storage medium is installed in the computer system 100. The installed feature pattern output program is stored in the HDD 124 and executed by the CPU 121 using the RAM 122, the ROM 123, and the like. Here, the storage medium includes a portable storage medium such as a CD-ROM 109, a floppy disk 108, a DVD disk, a magneto-optical disk, and an IC card, and a storage device such as a hard disk 124 provided inside and outside the computer system 100, The database of the server 112 holding the data management program of the installation source connected via the LAN 106, or another computer system 111 and the database thereof, and further the transmission medium on the public line 107 are included.
[0109]
  As described above, the third embodiment is implemented by executing on the computer system 100 a feature pattern output program in which the configuration of the feature pattern output apparatus described in the first and second embodiments is realized by software. The same effects as those of the feature pattern output apparatus shown in the first and second embodiments can be realized by using a general computer system.
[0110]
  As described above, according to the present invention, similar data similar to the input data is extracted from the database, and the feature pattern that forms the characteristics of each class is calculated from the extracted similar data. Feature pattern can be output toFeature pattern output deviceThere is an effect that can be provided.
[0111]
  Further, according to the present invention, the value of each item of the extracted data extracted from the database is compared with the value of each item of the input data, and the maximum pattern set and the minimum pattern set are extracted from the matching item combination, Since feature patterns are calculated based on this maximum pattern set and minimum pattern set, feature patterns can be output at high speed with a simple configuration.Feature pattern output deviceThere is an effect that can be provided.
[0112]
  In addition, according to the present invention, a common pattern that appears across multiple classes is obtained based on the minimum pattern set, and the feature pattern is calculated as a superset of the common pattern, so that the feature pattern can be output at high speed. NaFeature pattern output deviceThere is an effect that can be provided.
[0113]
  In addition, according to the present invention, when extracting similar data, the conditions are changed for each class, and a sufficient number of similar data is acquired for each class. Approximate and output feature pattern at high speedFeature pattern output deviceThere is an effect that can be provided.
[0114]
  In addition, according to the present invention, since the maximum pattern that appears across multiple classes is removed by removing the item, the maximum pattern that spans multiple classes is prevented. Can be output toFeature pattern output deviceThere is an effect that can be provided.
[0115]
  Further, according to the present invention, since the input data is classified based on the feature pattern calculated from the similar data, the input data can be classified at high speed regardless of the scale of the database.Feature pattern output deviceThere is an effect that can be provided.
[0116]
  Further, according to the present invention, the number of appearances of feature patterns in the similar data of each class is counted, and the input data is classified into the class in which the counting result is the largest value. Capable of outputting feature patterns that can be classified into accuracyFeature pattern output deviceThere is an effect that can be provided.
[0117]
  Further, according to the present invention, when the item is numerical data, a predetermined numerical range is set, and when the item value of the input data and the item value of the similar data are within the predetermined range, both items Because it is determined that the values match, the feature pattern can be output at high speed with a simple configuration even if the item contains numerical dataFeature pattern output deviceThere is an effect that can be provided.
[Industrial applicability]
[0118]
  As described above, the present invention is applied.Feature pattern output deviceIs particularly useful for speeding up extraction of feature patterns in large-scale databases.
[Brief description of the drawings]
[0119]
FIG. 1 is a schematic configuration diagram illustrating a schematic configuration of a feature pattern output apparatus according to a first embodiment of the present invention.
FIG. 2 is a diagram showing a specific example of input data and similar data.
FIG. 3 is a diagram showing a data space in which data groups are arranged according to similarity.
FIG. 4 is a diagram showing a maximum pattern set and a minimum pattern set.
FIG. 5 is a diagram illustrating a processing operation of a feature pattern set calculation unit.
FIG. 6 is a flowchart for explaining the processing operation of the input data classification processing unit 36;
FIG. 7 is a diagram for explaining a statistical test process for removing attribute noise.
FIG. 8 is a diagram showing a relationship between data and similarity in the second embodiment.
FIG. 9 is a diagram showing a maximum pattern set and a minimum pattern set in the second embodiment.
FIG. 10 is an explanatory diagram for explaining a computer system according to the third embodiment.
FIG. 11 is an explanatory diagram for explaining the configuration of the main body shown in FIG. 10;

Claims (8)

複数のアイテムからなるデータを複数のクラスにそれぞれ区分して記憶したデータベースを有し、各クラスの特徴をなすアイテムの組合せを当該クラスの特徴パターンとして出力する特徴パターン出力装置であって、
入力データを受け付けた際に、該入力データに類似する類似データを前記データベースから各クラスごとに抽出する類似データ抽出手段と、
前記類似データ抽出手段により抽出された類似データから各クラスごとの類似パターン集合を算出する類似パターン集合算出手段と、
前記類似パターン集合算出手段により算出された類似パターン集合から各クラスごとの特徴パターンを算出する特徴パターン算出手段と、
を備えたことを特徴とする特徴パターン出力装置。
A feature pattern output device that has a database that stores data composed of a plurality of items divided into a plurality of classes, and outputs a combination of items that make up the characteristics of each class as a feature pattern of the class,
Similar data extraction means for extracting similar data similar to the input data for each class from the database when receiving the input data;
A similar pattern set calculating means for calculating a similar pattern set for each class from the similar data extracted by the similar data extracting means;
Feature pattern calculating means for calculating a feature pattern for each class from the similar pattern set calculated by the similar pattern set calculating means;
A feature pattern output device comprising:
前記類似パターン集合算出手段は、前記類似データ抽出手段により抽出された類似データを形成する各アイテムの値と、前記入力データを形成する各アイテムの値とが一致したアイテムの組合せをパターン集合として抽出し、前記パターン集合に自身以外の部分集合が存在しないアイテムの組合せである最小パターンを最小パターン集合として抽出し、前記パターン集合に自身以外の上位集合が存在しないアイテムの組合せである最大パターンを最大パターン集合として抽出し、前記最小パターン集合と前記最大パターン集合とを前記類似パターン集合として出力することを特徴とする請求の範囲第1項に記載の特徴パターン出力装置。  The similar pattern set calculation means extracts, as a pattern set, a combination of items in which the value of each item forming the similar data extracted by the similar data extraction means matches the value of each item forming the input data The minimum pattern, which is a combination of items whose subsets other than itself do not exist in the pattern set, is extracted as the minimum pattern set, and the maximum pattern, which is the combination of items whose superset other than itself does not exist, is maximized. 2. The feature pattern output apparatus according to claim 1, wherein the pattern pattern is extracted as a pattern set, and the minimum pattern set and the maximum pattern set are output as the similar pattern set. 前記特徴パターン算出手段は、複数のクラスにまたがって出現する共通パターン集合を前記最小パターン集合から抽出し、前記特徴パターン算出手段は、前記共通パターン集合が有するアイテムを全て有する特徴パターンを算出することを特徴とする請求の範囲第2項に記載の特徴パターン出力装置。  The feature pattern calculation means extracts a common pattern set appearing across a plurality of classes from the minimum pattern set, and the feature pattern calculation means calculates a feature pattern having all items of the common pattern set. The feature pattern output device according to claim 2, wherein: 前記類似データ抽出手段は、前記データベースから類似データを抽出する際に、クラスごとに異なる条件に基づいて類似データの抽出をおこなうことを特徴とする請求の範囲第2項に記載の特徴パターン出力装置。  3. The feature pattern output device according to claim 2, wherein the similar data extracting means extracts similar data based on different conditions for each class when extracting similar data from the database. . 前記類似パターン集合算出手段は、複数のクラスにまたがって出現する最大パターンが存在する場合に当該最大パターンから所定のアイテムを除外することを特徴とする請求の範囲第4項に記載の特徴パターン出力装置。  5. The feature pattern output according to claim 4, wherein the similar pattern set calculation means excludes a predetermined item from the maximum pattern when there is a maximum pattern that appears across a plurality of classes. apparatus. 前記特徴パターン算出手段が算出した特徴パターンをもとに、前記入力データを前記複数のクラスのいずれかに分類する分類手段をさらに備えたことを特徴とする請求の範囲第1項〜第5項のいずれか一つに記載の特徴パターン出力装置。  6. The method according to claim 1, further comprising a classifying unit that classifies the input data into one of the plurality of classes based on the feature pattern calculated by the feature pattern calculating unit. The feature pattern output device according to any one of the above. 前記分類手段は、各クラスの類似データにおける前記特徴パターンの数を計数し、該計数結果がもっとも大きい値となるクラスに前記入力データを分類することを特徴とする請求の範囲第6項に記載の特徴パターン出力装置。  The said classification | category means counts the number of the said feature patterns in the similar data of each class, The said input data is classify | categorized into the class from which this count result becomes the largest value, The range 6 characterized by the above-mentioned. Feature pattern output device. 前記類似パターン集合算出手段は、前記入力データを形成する所定のアイテムの値と前記類似データを形成するアイテムの値とが所定の数値範囲内にある場合には、両者のアイテムの値が一致したものと判定することを特徴とする請求の範囲第2項〜第7項のいずれか一つに記載の特徴パターン出力装置。  If the value of the predetermined item forming the input data and the value of the item forming the similar data are within a predetermined numerical range, the similar pattern set calculation means agrees with the value of both items. The characteristic pattern output device according to claim 2, wherein the characteristic pattern output device is determined to be one.
JP2004548006A 2002-11-01 2002-11-01 Feature pattern output device Expired - Fee Related JP4057587B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2002/011451 WO2004040477A1 (en) 2002-11-01 2002-11-01 Characteristic pattern output device

Publications (2)

Publication Number Publication Date
JPWO2004040477A1 JPWO2004040477A1 (en) 2006-03-02
JP4057587B2 true JP4057587B2 (en) 2008-03-05

Family

ID=32260032

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004548006A Expired - Fee Related JP4057587B2 (en) 2002-11-01 2002-11-01 Feature pattern output device

Country Status (2)

Country Link
JP (1) JP4057587B2 (en)
WO (1) WO2004040477A1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006057105A1 (en) * 2004-11-26 2006-06-01 Osaka University Symbol and numeric value basket analysis method and symbol and numeric value basket analysis device
GB0524572D0 (en) * 2005-12-01 2006-01-11 Univ London Information retrieval
CN114402312A (en) 2019-09-30 2022-04-26 富士通株式会社 Pattern search program, pattern search device, and pattern search method

Also Published As

Publication number Publication date
WO2004040477A1 (en) 2004-05-13
JPWO2004040477A1 (en) 2006-03-02

Similar Documents

Publication Publication Date Title
Zhang et al. Improving crowdsourced label quality using noise correction
Vo et al. Dealing with the class imbalance problem in the detection of fake job descriptions
CN103853744B (en) Deceptive junk comment detection method oriented to user generated contents
CN112070138A (en) Multi-label mixed classification model construction method, news classification method and system
CN112231431B (en) Abnormal address identification method and device and computer readable storage medium
EP3608802A1 (en) Model variable candidate generation device and method
Shah et al. Multimodal fake news detection using a Cultural Algorithm with situational and normative knowledge
CN112800232B (en) Case automatic classification method based on big data
CN112328747B (en) Event context generation method, device, terminal equipment and storage medium
CN113728321A (en) Using a set of training tables to accurately predict errors in various tables
CN111753547B (en) Keyword extraction method and system for sensitive data leakage detection
JP4057587B2 (en) Feature pattern output device
US8825473B2 (en) Method, computer program and apparatus for analyzing symbols in a computer system
CN113704772A (en) Safety protection processing method and system based on user behavior big data mining
CN111582722B (en) Risk identification method and device, electronic equipment and readable storage medium
US20050192960A1 (en) Feature-pattern output apparatus, feature-pattern output method, and computer product
CN109918638B (en) Network data monitoring method
CN111651987B (en) Identity discrimination method and device, computer readable storage medium and electronic equipment
CN115774769A (en) Sensitive word checking processing method and device
CN113691525A (en) Traffic data processing method, device, equipment and storage medium
CN113204954A (en) Data detection method and device based on big data and computer readable storage medium
CN110851826A (en) Method, device and equipment for detecting tampering of page and readable storage medium
Guo et al. Bayesian spam filtering mechanism based on decision tree of attribute set dependence in the MapReduce framework
CN117573803B (en) Knowledge graph-based new customer identification method and device
US20220351068A1 (en) Model bias detection

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070911

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071213

R150 Certificate of patent or registration of utility model

Ref document number: 4057587

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101221

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111221

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111221

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121221

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121221

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131221

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees