JP4057587B2 - Feature pattern output device - Google Patents
Feature pattern output device Download PDFInfo
- Publication number
- JP4057587B2 JP4057587B2 JP2004548006A JP2004548006A JP4057587B2 JP 4057587 B2 JP4057587 B2 JP 4057587B2 JP 2004548006 A JP2004548006 A JP 2004548006A JP 2004548006 A JP2004548006 A JP 2004548006A JP 4057587 B2 JP4057587 B2 JP 4057587B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- data
- class
- similar
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【技術分野】
【0001】
この発明は、複数のアイテムを有するデータを複数のクラスのいずれかに区分して記憶するデータベースから、前記クラスに特徴的に含まれるアイテムの組合せを当該クラスの特徴パターンとして出力する特徴パターン出力装置に関し、特にデータベースが大規模であっても高速に特徴パターンを出力可能な特徴パターン出力装置に関する。
【背景技術】
【0002】
近年、データベースに記憶したデータについて、データ間の相関関係や、データが有するルールを抽出する手法が考案されている。データ間の相関関係やデータが有するルールは、データベースに記憶されたデータを分類する場合や、新規のデータを分類する場合などに用いることができる。
【0003】
従来、データベースからルールを取り出してデータベースにフィードバックする相関ルール学習の手法として、Agrawel,R., "Fast Algorithm for Mining Association Rules" およびこれに対応する特許文献として「大規模データベース内の順次パターンをマイニングするためのシステムおよび方法」(特開平8−263346号公報)が公開されている。
【0004】
ここに公開された手法によれば、アイテムと呼ばれるデータの構成要素を組み合わせてパターンを形成し、データの相関ルールを頻出するパターンによって示している。
【0005】
しかしながらこの手法では、相関ルールの抽出に要するコストが高く、データベースの内容に変更があった場合に、その変更に対応して相関ルールの内容を行使するまでに時間が必要であった。そのため、相関ルールの抽出はデータベースをオフラインにして実行される場合が多く、データベースの更新に対して追従性が劣化するという問題点があった。
さらに、相関ルールの抽出や、抽出した相関ルールをもとにデータを分類するために必要な処理時間は、パラメータの設定によって大きく異なり、また、得られる相関ルール自体もパラメータに大きく依存するという問題があった。すなわち、パラメータの設定を適切におこなうためには、専門知識や経験が必要であり、パラメータの設定によっては得られたルールの有用性の低下を引き起こしたり、相関ルールの運用が不可能になるほどの処理時間が必要となる可能性があった。
【0006】
一方、ルールの抽出手法としては、他にも J.Li, G. Dong, K. Ramamohanarao, and L. Wong. DeEPs: A new instance-based discovery and classificationsystem. Technical report, Dept of CSSE, University of Melbourne, 2000 が公開されている。ここで公開されているDeEPsは、入力データが与えられてから、適用可能なパターンを学習するリアルタイムなパターンの発見が可能である。したがって、データベースをオフラインにすることなく、任意のタイミングで更新することができる。また、DeEPsでは、パターン発見にパラメータを設定する必要がないため、運用時に要求される専門知識や経験が少ない。
【0007】
しかしながら、DeEPsは、パターン発見時にデータベースの全てのデータを処理の対象とするため、データベースが有するデータ数に応じて必要な処理能力が大きくなる。したがって、データベースのデータ数が大きい場合、パターン抽出処理にリアルタイム処理におけるレスポンス時間としては許容できない時間が必要になるという問題点があった。
【0008】
さらに、DeEPsでは、データの構成要素であるアイテムの数に比例して処理時間が要求される。したがって、それぞれのデータに含まれるアイテムの数が多い場合、パターン抽出処理に膨大な時間が必要になるという問題点があった。
【0009】
この発明は、上述した従来技術による問題点を解消するためになされたものであり、データベースに含まれるデータ数が多く、またデータが多数のアイテムを有する大規模なデータベースにおいてもパターン抽出を高速に実行可能な特徴パターン出力装置を提供することを目的とする。
【発明の開示】
【0010】
上述した課題を解決し、目的を達成するため、本発明に係る特徴パターン出力装置は、複数のアイテムからなるデータを複数のクラスにそれぞれ区分して記憶したデータベースから各クラスの特徴をなすアイテムの組合せを当該クラスの特徴パターンとして出力する特徴パターン出力装置であって、入力データを受け付けた際に、該入力データに類似する類似データを前記データベースから各クラスごとに抽出する類似データ抽出手段と、前記類似データ抽出手段により抽出された類似データから各クラスごとの類似パターン集合を算出する類似パターン集合算出手段と、前記類似パターン集合算出手段により算出された類似パターン集合から各クラスごとの特徴パターンを算出する特徴パターン算出手段と、を備えたことを特徴とする。
【0011】
この発明によれば、入力データに類似する類似データをデータベースから抽出し、抽出した類似データから各クラスの特徴をなす特徴パターンを算出する。
【0012】
また、本発明に係る特徴パターン出力装置は、前記類似パターン集合算出手段は、前記類似データ抽出手段により抽出された類似データを形成する各アイテムと、前記入力データを形成する各アイテムとが一致したアイテムの組合せをパターン集合として抽出し、前記パターン集合に自身以外の部分集合が存在しないアイテムの組合せである最小パターンを最小パターン集合として抽出し、前記パターン集合に自身以外の上位集合(スーパーセット)が存在しないアイテムの組合せである最大パターンを最大パターン集合として抽出し、前記最小パターン集合と前記最大パターン集合とを前記類似パターン集合として出力することを特徴とする。
【0013】
この発明によれば、データベースから抽出した抽出データの各アイテムと入力データの各アイテムとを比較し、一致するアイテムの組合せから最大パターン集合と最小パターン集合とを抽出し、この最大パターン集合と最小パターン集合とをもとに特徴パターンを算出するようにしている。
【0014】
また、本発明に係る特徴パターン出力装置は、前記特徴パターン算出手段は、複数のクラスにまたがって出現する共通パターン集合を前記最小パターン集合から抽出し、前記特徴パターン算出手段は、前記共通パターン集合が有するアイテムを全て有する特徴パターンを算出することを特徴とする。
【0015】
この発明によれば、最小パターン集合をもとに複数のクラスにまたがって出現する共通パターンを求め、特徴パターンを共通パターンの上位集合として算出している。
【0016】
また、本発明に係る特徴パターン出力装置は、前記類似データ抽出手段は、前記データベースから類似データを抽出する際に、クラスごとに異なる条件に基づいて類似データの抽出をおこなうことを特徴とする。
【0017】
この発明によれば、類似データを抽出する場合に、クラスごとに条件を変更し、各クラスについて十分な数の類似データを取得するようにしている。
【0018】
また、本発明に係る特徴パターン出力装置は、前記類似パターン集合算出手段は、複数のクラスにまたがって出現する最大パターンが存在する場合に当該最大パターンから所定のアイテムを除外することを特徴とする。
【0019】
この発明によれば、複数のクラスにまたがって出現する最大パターンについて、そのアイテムを除去することで特徴パターンが存在しなくなるという状況が発生することを防止している。
【0020】
また、本発明に係る特徴パターン出力装置は、前記特徴パターン算出手段が算出した特徴パターンをもとに、前記入力データを前記複数のクラスのいずれかに分類する分類手段をさらに備えたことを特徴とする。
【0021】
この発明によれば、類似データから算出した特徴パターンをもとに入力データを分類している。
【0022】
また、本発明に係る特徴パターン出力装置は、前記分類手段は、各クラスの類似データにおける前記特徴パターンの数を計数し、該計数結果がもっとも大きい値となるクラスに前記入力データを分類することを特徴とする。
【0023】
この発明によれば、各クラスの類似データにおける特徴パターンの出現数を計数し、この計数結果がもっとも大きい値となったクラスに入力データを分類している。
【0024】
また、本発明に係る特徴パターン出力装置は、前記類似パターン集合算出手段は、前記入力データを形成する所定のアイテムの値と前記類似データを形成するアイテムの値とが所定の数値範囲内にある場合には、両者のアイテムの値が一致したものと判定することを特徴とする。
【0025】
この発明によれば、アイテムが数値データである場合に所定の数値範囲を設定し、入力データのアイテムの値と類似データのアイテムの値とが所定の範囲内にある場合に両者のアイテムの値が一致したと判定する。
【発明を実施するための最良の形態】
【0026】
以下に添付図面を参照して、この発明に係る特徴パターン出力装置の好適な実施の形態を詳細に説明する。
【0027】
(実施の形態1)
第1図は、本発明の実施の形態1である特徴パターン出力装置の概要構成を説明する概要構成図である。第1図において、特徴パターン出力装置21は、データベース22に接続されている。データベース22は、顧客に関する情報を記憶しており、一つのデータが顧客一人に対応する。また、データには、「年齢」、「住居」、「性別」、「結婚」などの項目がある。各データは、それぞれ項目について値を有する。以下、データが有する項目と項目の値との組合せをアイテムと称する。データベース22は、各顧客、すなわち各データを与信の可否によってクラス分けしている。データベース22は、「与信可能」の顧客を「クラスP」、「与信不可」の顧客を「クラスN」として分類している。
【0028】
特徴パターン出力装置21は、その内部に入力処理部31、類似データ抽出部32、二値化処理部33、類似パターン集合算出部34、特徴パターン集合算出部35および入力データ分類処理部36を有している。入力処理部31は、顧客の情報を入力データとして受信した場合に、この入力データを類似データ抽出部32と、二値化処理部33に出力する。
【0029】
類似データ抽出部32は、入力データに類似したデータをデータベース22から抽出し、類似データとして二値化処理部33に出力する。二値化処理部は、入力データをもとにして類似データを二値化した後、類似パターン集合算出部34および入力データ分類処理部36に送信する。
【0030】
類似パターン集合算出部34は、二値化された類似データをもとに、クラスPクラスNのそれぞれについて類似パターン集合を算出する。特徴パターン集合算出部35は、類似パターン集合からクラスPとクラスNにそれぞれ特徴的に出現するアイテムの組合せを特徴パターンとして出力する。
【0031】
さらに、入力データ分類処理部36は二値化された類似データと特徴パターンとを比較し、入力データをクラスPに分類するかクラスNに分類するかを決定する。
【0032】
特徴パターン出力装置21は、この特徴パターンと、入力データの分類結果とを出力する。すなわち、この特徴パターン出力装置21は、入力データに類似するデータをデータベース22から抽出し、この類似データから特徴パターンを算出するので、データベース22のデータ数や各データのアイテム数に依存することなく、高速に特徴パターンの算出をおこなうことができる。
【0033】
つぎに、各処理について具体例を用いて詳細に説明する。
第2図に、入力データと類似データの具体例を示す。第2図(a)は、入力データの一例であり、第2図(b)は、データベース22が記憶するデータの一例である。第2図に示すように、入力データは、「年齢」の値として「35」、「住居」の値として「借家」、「性別」の値として「男性」、「結婚」の値として「既婚」を有している。
【0034】
類似データ抽出部32は、類似度関数としてCity-block距離を用いた類似度を採用し、データベース22から類似データの抽出をおこなう。
具体的には、
nをアイテムの数、Xをデータベース22に記憶されたデータ、Yを入力データとして、
【数1】
ここで、アイテム<fi:xi>は、項目「fi」の値が「xi」であることを示す。また、項目が数値属性であるアイテムについては、全て[0,1]区間に正規化し、αを0〜1の半径として定める。すなわち、入力データの値を中心に、半径αの中にある場合にδの値は1となり、半径αの外にある場合にδの値は0となる。
【0035】
すなわち、この類似度関数は、データベースに記憶したデータについて、入力データが有するアイテムと一致するアイテムの数を計数することとなる。第2図(b)では、各データにおいて入力データと一致するアイテムを円で囲んで示し、類似度関数の出力を類似度として示す。なお、「年齢」は数値データであるが、ここでのα=0.18に相当するマージン5を許容し、年齢の値が30〜40である場合にアイテムが一致したと判断している。
【0036】
さらに、第2図(b)に示したデータ群を類似度に従って配したデータ空間を第3図に示す。第3図では、入力データを「★」によって示し、クラスPに属するデータを「○」、クラスNに属するデータを「×」として示す。なお、各記号の近傍に示した数字が第2図(b)のデータナンバーである。
【0037】
第3図に示したように、類似度が3であるデータ7,10,12,13が入力データに最も近く、同心円41の上に存在する。また、類似度2であるデータ2,9が次の同心円42の上に存在する。さらに、類似度1であるデータ1,4,5,6,11が次の同心円43の上に存在し、類似度が0のデータ3,8は、同心円43の外に存在することとなる。
【0038】
類似データ抽出部32は、類似度が所定の閾値以上であるデータを類似データとして抽出する。または、類似度が高い順に、所定の数、例えば5個のデータを類似データとして抽出する。なお、類似度が等しいデータは全て類似データに含める。したがって、第3図では、類似度が3であるデータ7,10,12,13および類似度が2であるデータ2,9の6個のデータを類似データとして抽出することとなる。
【0039】
二値化処理部33は、類似データ抽出部32が抽出した類似データに対して二値化処理をおこなう。具体的には、類似データからδ=0であったアイテムを除外し、さらに、δ=1であった項目の値を入力データの同一項目の値に置き換える。ここで、離散値属性の項目の値は入力データと同一である。したがって、数値属性の項目の値を入力データの項目の値に書き換えることで、類似データの二値化をおこなうことができる。
したがって、二値化の結果、以下の類似データが得られる。
データ2 {<住居:借家><性別:男性>}
データ7 {<住居:借家><性別:男性><結婚:既婚>}
データ9 {<年齢:35><性別:男性>}
データ10 {<年齢:35><性別:男性><結婚:既婚>}
データ12 {<年齢:35><住居:借家><性別:男性>}
データ13 {<住居:借家><性別:男性><結婚:既婚>}
このように、類似データを二値化することで、類似データに含まれるアイテムは、入力データに含まれるアイテムのみとなる。したがって、以降、アイテム集合の演算のみで特徴パターン算出の処理をおこなうことができる。
【0040】
つぎに、類似パターン集合算出部34の処理について説明する。類似パターン集合算出部34は、クラスPとクラスNのそれぞれについて最大パターン集合と最小パターン集合とを算出する。最大パターン集合は、そのクラスの類似データに自身の上位集合が存在しないアイテムの集合である。また、最小パターン集合は、そのクラスの類似データに、自身の部分集合(サブセット)となる集合が存在しないアイテムの集合である。
【0041】
第4図に最大パターン集合と最小パターン集合とを示す。第4図(a)は、クラスPにおける集合の包含関係を示す図であり、第4図(b)は、クラスNにおける集合の包含関係を示す図である。
【0042】
ここで、クラスPに関しては、
データ2 {<住居:借家><性別:男性>}
データ7 {<住居:借家><性別:男性><結婚:既婚>}
であり、データ2のアイテムは、全てデータ7に含まれる。すわなち、データ2はデータ7の部分集合であり、データ7は、データ2の上位集合である。この関係を第4図(a)において実線の矢印によって示している。
【0043】
ここで、クラスPの類似データに、データ7の上位集合となる集合は存在しない。したがって、データ7は、クラスPの最大パターン集合である。一方、データ1,6は、データ2の部分集合である。しかしながら、データ1,6は類似度が1であり、類似データとして選択されていない。すなわち、クラスPの類似データの中にデータ2の部分集合となる集合は存在しないので、データ2は、クラスPの類似データの最小パターン集合となる。
【0044】
同様に、クラスNに関しては、
データ9 {<年齢:35><性別:男性>}
データ10 {<年齢:35><性別:男性><結婚:既婚>}
データ12 {<年齢:35><住居:借家><性別:男性>}
データ13 {<住居:借家><性別:男性><結婚:既婚>}
であり、データ9のアイテムは、全てデータ10,12に含まれる。すなわち、データ9は、データ10と12の両方の部分集合であり、データ10,12はともにデータ9の上位集合である。この関係を第4図(b)において実線の矢印によって示している。
【0045】
ここで、クラスNの類似データにデータ10,12の上位集合となる集合は存在しない。したがって、データ10,12はそれぞれクラスNの最大パターン集合である。また、クラスNの類似データの中にデータ9の部分集合となる集合は存在しないので、データ9は、クラスNの最小パターン集合となる。
【0046】
なお、データ13は、クラスNの類似データの中に上位集合も部分集合も存在しない。したがって、データ13は、クラスNの最大パターン集合であり、かつ最小パターン集合である。
【0047】
ここで、クラスPにおいて、二値化済み類似データをDp、最小パターン集合をLp、最大パターン集合をRpとすると、パターン集合[Lp,Rp]は、少なくとも一つの最小パターンの上位集合であり、少なくとも一つの最大パターンの部分集合であるようなパターン全体である。したがって、
Dp⊆[Lp,Rp]
が成立する。
【0048】
第4図(a)に示したデータでは、Lp={{借家,男性}}、Rp={{借家,男性,既婚}}および、Dp={{借家,男性}}、{借家,男性,既婚}}となる。
同様に、クラスNにおいて、二値化済み類似データをDn、最小パターン集合をLn、最大パターン集合をRnとすると、パターン集合[Ln,Rn]は、少なくとも一つの最小パターンの上位集合であり、少なくとも一つの最大パターンの部分集合であるようなパターン全体である。したがって、
Dp⊆[Lp,Rp]
が成立する。
【0049】
第4図(b)に示したデータでは、Ln={{35,男性},{借家,男性,既婚}}、Rn={{35,借家,男性},{35,男性,既婚},{借家,男性,既婚}}および、Dn={{借家,男性}}、{35,借家,男性},{35,男性,既婚},{借家,男性,既婚}}となる。
【0050】
なお、第4図に示した例では、Dp=[Lp,Rp]であったが、最小パターンの上位集合であり最大パターンの部分集合であるようなパターンは、類似データに存在しない場合、すなわちDpに存在しないパターンであっても、[Lp,Rp]に含まれる。
【0051】
ここで、<L,R>を最小パターンLおよび最大パターンRのボーダーとして定義する。ボーダー<L,R>は、パターン集合である[L,R]を最小パターンと最大パターンのペアとして表記したものである。したがって、ボーダーを用いることで、集合の演算をおこなう場合に直接集合の要素を扱うことなく、最大パターンと最小パターンだけを対象とする演算に置き換えることができ、計算を大幅に効率化することができる。
【0052】
類似パターン算出部34は、このボーダー<Lp,Rp>およびボーダー<Ln,Rn>を類似パターン集合として特徴パターン集合35に出力し、処理を終了する。
【0053】
つぎに、特徴パターン算出部35の動作について説明する。まず、RpおよびRnが全データを対象としたクラスPおよびクラスNの最大パターンであるとき、[{φ},Rp]−[{φ},Rn]は、クラスPのみに出現する全てのパターンを含むパターン集合であることが証明されている。(J.Li and K. Ramamohanarao. The space of jumping emerging patterns and its incremental maintenance algorithm. In Proceedings of 17thInternational Conference on Machine learning, pages 551-558.Morgan Kaufmann,2000.)
【0054】
本発明では、RpおよびRnは入力データに類似するデータを処理対象としており、データ全体における最大パターンである保証は無いが、類似データは高い類似度を持つことから入力データのアイテムに対する一致数は多く、また、最大パターンは通常、アイテム数が多いため、最大パターンが類似パターンに含まれる可能性は高い。
【0055】
しかし、最大パターンが多数含まれていたとしても、最大パターンの検出漏れが発生する可能性があり、一つでも検出漏れがあった場合には正しくない特徴パターンを発見する可能性がある。このような正しくない特徴パターンは分類精度の低下の原因となる。そこで、類似データから特徴パターンを算出する場合に類似データに対してクラスPとクラスNに共通して現れるパターンよりもアイテム数が多いことを条件として付加することで、最大パターンの検出漏れを防止し、分類精度の低下を防止することができる。
【0056】
特徴パターン集合算出部35の処理動作を第5図に示す。第5図において、特徴パターン集合算出部35は、まず、類似パターン集合<Lp,Rp>および<Ln,Rn>からパターン集合[{φ},Lp]および[{φ},Ln]に共通して出現するパターン集合をもとめる。具体的には、まず、出力データとなるepLpとepRpをepLp={},epRp={}として初期化する。つぎに、intersecOperation(<{φ},Lp>,<{φ},Ln>) によって<{φ},[c1,….ck]>を算出する(ステップS102)。このintersecOperationは、上述の文献に示されたものと同一であり、2つのボーダー<{φ},Lp>,<{φ},Ln>によって示される集合に共通に出現する全てのパターンをボーダー<{φ},[c1,….ck]>の形式で出力する。
【0057】
すなわち、この処理によって、パターン集合[{φ},Lp]および[{φ},Ln]に共通して出現する最大パターンの集合である[c1,….ck]が得られることとなる。この[c1,….ck]に含まれる任意のciは、共通の最大パターンであるから、ciの上位集合は、
・クラスPのデータにのみ出現する
・クラスNのデータにのみ出現する
・クラスP、クラスNのいずれにも出現しない
のいずれかである。
【0058】
したがって、[c1,….ck]の各要素ciについて、ciを含み、クラスPにのみ出現してクラスNに出現しないパターンを探すことで、クラスPに特徴的に出現するパターンの集合を得ることができる。
【0059】
したがって、特徴パターン集合算出処理部35は、[c1,….ck]を求めた後、最初のパターンc1を処理対象に設定し(ステップS103)、さらに、クラスPの最大パターン集合Rpの中から、処理対象である共通パターンの上位集合になるパターン集合rpを求める(ステップS104)。その後、クラスNの最大パターン集合Rnから処理対象の共通パターンの上位集合になるパターン集合rnを求める(ステップS105)。
【0060】
つぎに、特徴パターン集合算出処理部35は、パターン集合[{φ},rp]に出現し、パターン集合[{φ},rn]に出現しないパターン集合を求める。具体的には、jepProducer(<{φ},rp>,<{φ},rn>) によって<el,er>を算出する(ステップS106)。このjepProducerは、上述の文献に示されたものと同一であり、ボーダー<{φ},rp>によって示されるパターン集合[{φ},rp]に出現し、ボーダー<{φ},rn>によって示されるパターン集合[{φ},rn]に出現しないパターン集合をボーダー<el,er>の形式で出力する。
【0061】
ここで、elが{φ}でなければ(ステップS107,No)特徴パターン集合算出処理部35は、<el,er>に処理対象の共通パターンを加え、ボーダー<eL,eR>を作成する(ステップS108)。このボーダー<eL,eR>によって示されるパターン集合は、処理対象の共通パターンの上位集合であるので、クラスPに出現し、クラスNに出現しないパターン集合となる。
【0062】
特徴パターン集合35は、このボーダー<eL,eR>をボーダー<epLp,epRP>に追加する(ステップS109)。ボーダー<epLp,epRp>は、最終的に特徴パターンとして出力するデータである。ここで、epLpは、常に最小パターンのみを要素とするように監視し、最小ではないパターンを除外する(ステップS110)。
【0063】
ステップS110終了後またはelが{φ}の場合(ステップS107,Yes)、特徴パターン集合算出部35は、パターン集合[c1,….ck]の全ての要素について処理が終了したか否かを判定する(ステップS111)。特徴パターン集合算出部35は、まだ処理が終了していない要素がある場合に(ステップS111,No)、つぎの要素を検査対象に設定し(ステップS113)、ステップS104に移行する。
【0064】
一方、全ての要素について処理が終了していた場合(ステップS111,Yes)、特徴パターン集合算出部35は、ボーダー<epLp,epRp>を出力する(ステップS112)。
【0065】
また、特徴パターン算出処理部35は、クラスNについても同様にボーダー<epLn,epRn>を算出することができる。特徴パターン算出処理部35は、この<epLp,epRp>と<epLn,epRn>とをもちいて、
SEP=epLp∪epLn
である特徴パターン集合SEPを出力する。この特徴パターンSEPは、クラスPまたはクラスNに特徴的にあらわれる最小パターンの和集合である。特徴パターン算出部35は、特徴パターン集合SEPを特徴パターン出力装置21の外部に出力するともに、入力データ分類処理部36に出力する。
【0066】
この特徴パターン算出部35の処理を、図4に示したデータについて適用すると、まず、クラスPの最小パターン集合がLp={{借家,男性}}であり、クラスNの最小パターン集合がLn={{35,男性},{借家,男性,既婚}}であるので、共通して出現するパターン集合は{{借家,男性}}である(ステップS102)。
【0067】
そこで、ci={借家,男性}として、続く処理を継続する(ステップS102)。
クラスPでは、クラスPの最大パターン集合Rp={{借家,男性,既婚}}のうち、ci={借家,男性}の上位集合となっているものは、rp={{借家,男性,既婚}}である(ステップS103)。同様にクラスNでは、クラスNの最大パターン集合Rn={{35,借家,男性},{35,男性,既婚},{借家,男性,既婚}}のうち、ci={借家,男性}の上位集合となっているものは、rn={{35,借家,男性},{借家,男性,既婚}}である(ステップS104)。
【0068】
求めた[{φ},rp]に出現し、[{φ},rn]に出現しないパターン集合を、jepProducer(<{φ},rp>,<{φ},rn>)によって求めた結果は、<el,er>=<{φ},{φ}>である(ステップS105)。
【0069】
最大の共通パターン集合{ci}の要素はひとつだけであり、結局この例ではクラスPの特徴パターンは<epLp,epRp>=<{φ},{φ}>となる。
【0070】
一方、クラスNでは、ステップS104までの処理結果は、クラスPの場合と同様であり、ci={借家,男性},rn={{35,借家,男性},{借家,男性,既婚}},rp={{借家,男性,既婚}}である。(ステップS101〜S104)。
【0071】
求めた[{φ},rn]に出現し、[{φ},rp]に出現しないパターン集合を、jepProducer(<{φ},rn>,<{φ},rp>)によって求めた結果は、<el,er>=<{35},{35,借家,男性}>である(ステップS105)。このel,erそれぞれにc1を追加したボーダーは<eL,eR>=<{35,借家,男性},{35,借家,男性}>である(ステップS106)。最大の共通パターン集合{c1}の要素はひとつだけであり、結局この例ではクラスNの特徴パターン集合は<epLn,epRn>=<{35,借家,男性},{35,借家,男性}>となる(ステップS107〜S110)。
【0072】
つぎに、入力データ分類処理部36の動作について説明する。第6図は、入力データ分類処理部36の処理動作を説明するフローチャートである。第6図において、入力データ分類処理部は、まず、クラスPの二値化済み類似データDp={d1,d2・・・ds}および特徴パターンSEP={p1,p2・・・pt}を入力データとして取得する(ステップS201)。
【0073】
つづいて、入力データ分類処理部36は、類似データDpのうち、最初の要素であるd1を処理対象に設定する(ステップS202)。さらに、入力データ分類処理部36は、特徴パターンSEPのうち、最初の要素であるp1を検査対象に設定する(ステップS203)。
【0074】
入力データ分類処理部36は、検査対象である特徴パターンが処理対象である類似データの部分集合になっているかどうかを検査する(ステップS204)。検査対象である特徴パターンが処理対象の類似データの部分集合になっている場合(ステップS204,Yes)、入力データ分類処理部36は、クラスPカウンタの値を一つ増加させる(ステップS209)。
【0075】
一方、検査対象である特徴パターンが処理対象である類似データの部分集合になっていない場合(ステップS204,No)、入力データ分類処理部36は、全ての特徴パターンについて検査を終了したか否かを判定する(ステップS205)。まだ検査が終了していない特徴パターンが存在する場合(ステップS205,No)、入力データ分類処理部36は、次の特徴パターンを検査対象に設定(ステップS208)し、ステップS204に移行する。
【0076】
全ての特徴パターンについて検査が終了した場合(ステップS205,Yes)、もしくはクラスPカウンタの値を増加させた後、入力データ分類処理部35は、全ての類似データについて処理を終了したか否かを判定する(ステップS206)。まだ検査が終了していない類似データが存在する場合(ステップS206,No)、入力データ分類処理部35は、次の類似データを処理対象に設定し(ステップS210)、ステップS203に移行する。
【0077】
一方、全ての類似データについて処理が終了した場合(ステップS206,Yes)、入力データ分類処理部36は、クラスPカウンタの値を出力して処理を終了する。この処理によって、入力データ分類処理部36は、クラスPに属する類似データのうち、特徴パターンSEPのいずれかを含む類似データの数を計数することができる。すなわち、クラスPカウンタの値は、クラスPの類似データのうち、一つ以上の特徴パターンにマッチするデータ数となる。
【0078】
また、入力データ分類処理部36は、同様の処理によってクラスNカウンタの値を出力する。このクラスNカウンタの値は、クラスNの類似データのうち、一つ以上の特徴パターンマッチするデータ数となる。入力データ分類処理部36は、このクラスPカウンタの値とクラスNカウンタの値とを比較し、値の大きい方のクラスに入力データを分類する。
【0079】
上述してきたように、この実施の形態1に示した特徴パターン出力装置21では、入力データに類似するデータをデータベースか22から抽出し、この類似データからクラスごとの最大パターン集合と最小パターン集合とを算出し、クラスごとの最大パターン集合と最小パターン集合から特徴パターンを算出するので、データベース22のデータ数や各データのアイテム数に依存することなく、高速に特徴パターンの算出をおこなうことができる。
【0080】
その結果、算出した特徴パターンをもちいて入力データを分類することで、入力データを簡易に分類することができる。
【0081】
さらに、入力データに類似するデータから特徴パターンを算出することで、局所的な特徴パターンであっても高精度で検出することが可能となる。
【0082】
ところで、入力データをもとに類似データを抽出する場合、類似データにノイズが発生することがある。そこで、類似データ抽出部32にノイズ除去の機構を付加することで、特徴パターンの検出精度および入力データの分類精度を向上することができる。
【0083】
類似データに発生するノイズとしては、所定のクラスの類似データに他のクラスのデータが混入するクラスノイズと、所定の類似データのアイテムが他のアイテムに置き換わる属性ノイズとが存在する。
【0084】
クラスノイズが存在する場合、二値化処理後の類似データにおいて、クラスPとクラスNに同一の最大パターンが出現する可能性がある。クラスPとクラスNとに同一の最大パターンが出現すると、特徴パターンが一つも発見できなくなり、また、分類精度も著しく低下する。そこで、クラスPとクラスNに同一のパターンが共通して出現した場合には、共通して出現したパターンをそれぞれのクラスから除外し、除外したパターンの部分集合であるパターンをあらたに含めることで、クラスノイズの発生を抑制することができる。
【0085】
また、属性ノイズについては、第7図に示した統計的検定処理によって除去することができる。第7図に示すように、この属性ノイズ除去では、まず、最小パターンの一つであるLを入力する(ステップS301)。ここで、Lに含まれるアイテムをI1,I2・・・Ikとすると、L={I1,I2・・・Ik}である。
【0086】
つぎに、Lのうち、最初のアイテムであるI1を処理対象Iiに設定する(ステップS302).つぎに、Lpから処理対象のアイテムを除外したパターンBを生成する(ステップS303)。その後、B=>PとB∧Ii=>Pについて統計的検定をおこなう(ステップS304)。この検定によってパターンBに処理対象であるアイテムIiを追加することが、統計的に偶然程度とみなせるか否かを判定する。統計的に偶然とみなせない場合、アイテムIiは、属性ノイズによって出現したと考えられる。
【0087】
統計的検定処理は、具体的には、B=>PとB∧Ii=>Pの確率分布の間に違いがないという統計的仮説をたて、この仮説を棄却できるかを次の式によって検定する。
T=(SLPSL−SLSBP)/(SLSBP(SB−SBP)/N)1/2
ここで、SBはパターンBにマッチするデータ数であり、SLはパターンB∧Iiにマッチするデータ数であり、SBPは、パターンBにマッチするクラスPのデータ数であり、SLPは、パターンB∧IiにマッチするクラスPに属するデータ数である。
【0088】
このTは正規分布に従うことが知られており、有意水準をaとすると、z(a/2)は正規分布の密度関数p(z)=a/2なる値であり、T≧z(a/2)であれば、仮説はB=>PとB∧Ii=>Pの間に統計的な違いは無く、Iiは偶然現れたものとして扱い、パターン集合Lpから除外する。
【0089】
したがって、第7図では、統計的検定の結果、仮説が棄却できるかいなかを判定し(ステップS305)、仮説が棄却できなかった場合(ステップS305,No)、処理対象のアイテムIiを属性ノイズとしてLから除外し(ステップS308)、ステップS306に移行する。
【0090】
一方、仮説が棄却できた場合(ステップS305,Yes)、全てのアイテムについて検定が終了したか否かを判定する(ステップS306)。まだ検定が終了していないアイテムがある場合(ステップS306,No)、次のアイテムを検定対象に設定し(ステップS309)、ステップS303に移行する。
【0091】
また、全てのアイテムについて処理が終了した場合(ステップS306,Yes)、属性ノイズを除去した最小パターンLを出力し(ステップS307)、処理を終了する。
【0092】
このように、類似データ抽出部32にクラスノイズおよび属性ノイズを除去する機能をもたせることで、特徴パターンの検出精度および入力データの分類精度を向上することができる。
【0093】
(実施の形態2)
つぎに本発明の実施の形態2について説明する。上記実施の形態1では、データベース22から類似データを抽出する場合に、所定の閾値を一つ設定し、この閾値以上の類似度を有するデータを抽出していたが、この実施の形態2では、クラスPのデータとクラスNのデータのそれぞれについて閾値を設定し、クラス別に類似データを抽出する。なお、類似データの抽出を所定の数を充たすように抽出する場合、クラスPとクラスNのそれぞれに所定の数を設定し、クラスPとクラスNについてそれぞれ抽出すればよい。
【0094】
第8図に、実施の形態2におけるデータと類似度の関係を示す。第8図において、データ1〜13の配置は、第4図と同様であり、同心円51が類似度3を示し、同心円52が類似度2を示し、同心円53が類似度1を示す点についても第4図と同様である。しかしながら、この第8図では、クラスPのデータについては同心円53が閾値となり、クラスNのデータについては同心円52が閾値となる点が第4図の場合と異なる。
【0095】
クラスPについて類似度の閾値が1に下がったことで、第9図(a)に示すように、データ1,4,5,6が類似データとして新たに抽出されることとなる。ここで、データ1,6はデータ2の部分集合であり、データ4は、データ7の部分集合である。しかしながら、データ5は自身の上位集合をもたないため、クラスPの最大パターンとなる。したがって、実施の形態2におけるRpはデータ5に対応する{35}を加え、{{35},{借家,男性,既婚}}となる。なお、第9図(b)にしめすように、クラスNに関しては閾値が2であるので、クラスNの類似パターンは変化しない。
【0096】
実施の形態1において説明したように、全データから全ての最大パターンを取得すれば、全ての特徴パターンを算出できることが証明されており、本発明のように入力データの近傍のデータのみを扱う場合には、類似データから特徴パターンを算出する場合に類似データに対してクラスPとクラスNに共通して現れるパターンよりもアイテム数が多いことを条件として付加することで、最大パターンの検出漏れを防止し、分類精度の低下を防止することが必要である。
【0097】
したがって、クラス別に閾値を設定し、全てのクラスから十分な数のサンプルを取得することで、最大パターンの検出漏れによる分類精度の低下を防止することができる。
【0098】
この類似データの二値化と類似パターン集合の算出処理については、実施の形態1と同様であるので説明を省略するが、この実施の形態2における類似パターン集合は、入力データに対するクラス別の近傍を用い、データベース22にふくまれるデータ全体の近似となっている。そこで、特徴パターンの算出処理では、上述のjepProducerを使用し、
<epLp,epRp>=jepProducer (<{φ},Rp>,<{φ},Rn>)
によって<epLp,epRp>を算出する。したがって、本実施の形態では、最小パターン集合Rp,Rnを使用せず、最大パターン集合Lp,Lnから特徴パターンを算出することができる。
【0099】
さらに、この実施例では、SEP=epLp∪epLnは、データベース22全体に対する特徴パターンの近似であるので、入力データの分類をする場合に、データベース22に含まれるデータ全体を対象にクラスPカウントおよびクラスNカウントを算出することができる。
【0100】
なお、データベース22全体に対してクラスPカウントを算出する場合には、その値をデータベース22に含まれるクラスPデータのサイズで除することで、データベース22全体におけるクラスPの分布の偏りを補正することが好ましい。また、クラスNカウントについても同様である。このように、各クラスに属するデータ集合のサイズをもとに補正をおこなうことで、データベース22おける各クラスの分布比率に大きな偏りがある場合、たとえば、クラスNのデータがクラスPのデータに比して著しく多い場合であっても、入力データを精度良く分類することができる。
【0101】
上述してきたように、本実施の形態2では、クラス別に異なる閾値を用いて類似データを抽出することで最大パターンの検出漏れを防止し、入力データの分類精度を向上している。
【0102】
また、この実施の形態2では、データベース22全体の特徴パターンの近似を得ることができ、さらにクラスの分布状態に関わらず、入力データの分類を高精度におこなうことができる。
【0103】
なお、上述した実施の形態1および実施の形態2においては、入力データを分類する場合に、クラスPの類似データおよびクラスNの類似データについて、特徴パターンの出現数を比較しているが、入力データの分類はこの方法に限られるものではなく、他の評価基準や、その組合せを用いて入力データを分類することができる。
【0104】
入力データの分類に使用可能な評価基準としては、たとえば特徴パターン数、特徴パターンのアイテム数などを用いることができる。なお、特徴パターン数では、特徴パターン現数が多い場合に評価を高くし、特徴パターンのアイテム数では、アイテム数が多い場合に評価を高くする。
【0105】
具体的には、特徴パターン数を使用する場合には、epLpに属する特徴パターンのサイズの総和と、epLnに属する特徴パターンのサイズの総和とを比較し、その値が大きい方に入力パターンを分類する。
【0106】
(実施の形態3)
本実施の形態3では、上記実施の形態1,2に示した特徴パターン出力装置と同様の機能を有する特徴パターン出力プログラムを実行するコンピュータシステムについて説明する。
【0107】
第10図に示すコンピュータシステム100は、本体部101、本体部101からの指示により表示画面102aに画像等の情報を表示するディスプレイ102、このコンピュータシステム100に種々の情報を入力するためのキーボード103、ディプレイ102の表示画面102a上の任意の位置を指定するマウス104、ローカルエリアネットワーク(LAN)106または広域エリアネットワーク(WAN)に接続するLANインターフェース、インターネットなどの公衆回線107に接続するモデム105が備えられている。ここで、LAN106は、ほかのコンピュータシステム(PC)111、サーバ112、プリンタ113等とコンピュータシステム100とを接続している。また、第11図に示すように、本体部101は、CPU121、RAM122、ROM123、ハードディスクドライブ(HDD)124、CD−ROMドライブ125、FDドライブ126、I/Oインターフェース127およびLANインターフェース128を備えている。
【0108】
このコンピュータシステム100においてデータ管理方法を実行する場合、記憶媒体に記憶された、特徴パターン出力プログラムをコンピュータシステム100にインストールする。インストールされた特徴パターン出力プログラムは、HDD124に記憶され、RAM122、ROM123などを利用してCPU121により実行される。ここで、記憶媒体とは、CD−ROM109、フロッピーディスク108、DVDディスク、光磁気ディスク、ICカード等の可搬型記憶媒体やコンピュータシステム100の内外に備えられたハードディスク124等の記憶装置のほか、LAN106を介して接続されたインストール元のデータ管理プログラムを保持するサーバ112のデータベース、あるいは、ほかのコンピュータシステム111並びにそのデータベースや、さらに公衆回線107上の伝送媒体をも含むものである。
【0109】
上述してきたように、本実施の形態3では、実施の形態1,2に示した特徴パターン出力装置が有する構成をソフトウェアによって実現した特徴パターン出力プログラムをコンピュータシステム100上で実行することで、実施の形態1,2に示した特徴パターン出力装置と同様の効果を、一般的なコンピュータシステムを用いて実現することができる。
【0110】
以上説明したように、本発明によれば、入力データに類似する類似データをデータベースから抽出し、抽出した類似データから各クラスの特徴をなす特徴パターンを算出するので、データベースの規模によらず高速に特徴パターンを出力可能な特徴パターン出力装置を提供することができるという効果を奏する。
【0111】
また、本発明によれば、データベースから抽出した抽出データの各アイテムの値と入力データの各アイテムの値とを比較し、一致するアイテムの組合せから最大パターン集合と最小パターン集合とを抽出し、この最大パターン集合と最小パターン集合とをもとに特徴パターンを算出するようにしているので、簡易な構成で高速に特徴パターンを出力可能な特徴パターン出力装置を提供することができるという効果を奏する。
【0112】
また、本発明によれば、最小パターン集合をもとに複数のクラスにまたがって出現する共通パターンを求め、特徴パターンを共通パターンの上位集合として算出しているので、高速に特徴パターンを出力可能な特徴パターン出力装置を提供することができるという効果を奏する。
【0113】
また、本発明によれば、類似データを抽出する場合に、クラスごとに条件を変更し、各クラスについて十分な数の類似データを取得するようにしているので、類似データを用いてデータベース全体を近似し、高速に特徴パターンを出力可能な特徴パターン出力装置を提供することができるという効果を奏する。
【0114】
また、本発明によれば、複数のクラスにまたがって出現する最大パターンについて、そのアイテムを除去することで最大パターンが複数のクラスにまたがることを防止しているので、特徴パターンを高速かつ高精度に出力可能な特徴パターン出力装置を提供することができるという効果を奏する。
【0115】
また、本発明によれば、類似データから算出した特徴パターンをもとに入力データを分類しているので、データベースの規模に関わらず入力データを高速に分類可能な特徴パターン出力装置を提供することができるという効果を奏する。
【0116】
また、本発明によれば、各クラスの類似データにおける特徴パターンの出現数を計数し、この計数結果がもっとも大きい値となったクラスに入力データを分類しているので、入力データを高速かつ高精度に分類可能な特徴パターンを出力可能な特徴パターン出力装置を提供することができるという効果を奏する。
【0117】
また、本発明によれば、アイテムが数値データである場合に所定の数値範囲を設定し、入力データのアイテムの値と類似データのアイテムの値とが所定の範囲内にある場合に両者のアイテムの値が一致したと判定するので、アイテムに数値データが含まれる場合であっても簡易な構成で高速に特徴パターンを出力可能な特徴パターン出力装置を提供することができるという効果を奏する。
【産業上の利用可能性】
【0118】
以上のように、本発明にかかる特徴パターン出力装置は、特に大規模データベースにおける特徴パターンの抽出の高速化に対して有用である。
【図面の簡単な説明】
【0119】
【図1】 第1図は、本発明の実施の形態1である特徴パターン出力装置の概要構成を説明する概要構成図である。
【図2】 第2図は、入力データと類似データの具体例を示す図である。
【図3】 第3図は、データ群を類似度に従って配したデータ空間を示す図である。
【図4】 第4図は最大パターン集合と最小パターン集合とを示す図である。
【図5】 第5図は、特徴パターン集合算出部の処理動作を示す図である。
【図6】 第6図は、入力データ分類処理部36の処理動作を説明するフローチャートである。
【図7】 第7図は、属性ノイズを除去する統計的検定処理を説明する図である。
【図8】 第8図は、実施の形態2におけるデータと類似度の関係を示す図である。
【図9】 第9図は、実施の形態2における最大パターン集合と最小パターン集合とを示す図である。
【図10】 第10図は、本実施の形態3におけるコンピュータシステムを説明するための説明図である。
【図11】 第11図は、第10図に示した本体部の構成を説明する説明図である。【Technical field】
[0001]
The present invention outputs a combination of items characteristically included in the class as a characteristic pattern of the class from a database that stores data having a plurality of items divided into any of a plurality of classes.Feature pattern output device, Especially when the database is largeOutputable feature pattern output deviceAbout.
[Background]
[0002]
In recent years, methods have been devised for extracting correlations between data and rules of the data stored in a database. The correlation between data and the rules possessed by the data can be used when classifying data stored in the database or when classifying new data.
[0003]
Traditionally, Agrawel, R., “Fast Algorithm for Mining Association Rules” and the corresponding patent literature “Mine sequential patterns in large-scale databases” as a method of learning association rules that take out rules from the database and feed back to the database. System and method for doing this "(Japanese Patent Laid-Open No. 8-263346).
[0004]
According to the technique disclosed here, a pattern is formed by combining data components called items, and data correlation rules are shown by a frequent pattern.
[0005]
However, with this method, the cost required for extracting the correlation rule is high, and when there is a change in the contents of the database, it takes time to exercise the contents of the correlation rule in response to the change. For this reason, the extraction of correlation rules is often performed with the database offline, and there is a problem that the followability deteriorates with respect to the update of the database.
Furthermore, the processing time required to extract correlation rules and classify data based on the extracted correlation rules varies greatly depending on the parameter settings, and the obtained correlation rules themselves also depend greatly on the parameters. was there. In other words, in order to set parameters appropriately, specialized knowledge and experience are required. Depending on the parameter settings, the usefulness of the obtained rules may be reduced, or the operation of association rules may become impossible. Processing time may be required.
[0006]
On the other hand, other rule extraction methods include J.Li, G. Dong, K. Ramamohanarao, and L. Wong.DeEPs: A new instance-based discovery and classification system.Technical report, Dept of CSSE, University of Melbourne. , 2000 is published. The DeEPs published here can discover real-time patterns that learn applicable patterns after input data is given. Therefore, the database can be updated at an arbitrary timing without being taken offline. In DeEPs, it is not necessary to set parameters for pattern discovery, so less expertise and experience are required during operation.
[0007]
However, since DeEPs process all data in the database at the time of pattern discovery, the necessary processing capacity increases according to the number of data that the database has. Therefore, when the number of data in the database is large, there is a problem that the pattern extraction process requires an unacceptable time as a response time in the real-time process.
[0008]
Furthermore, in DeEPs, processing time is required in proportion to the number of items that are data components. Therefore, when the number of items included in each data is large, there is a problem that a huge amount of time is required for the pattern extraction process.
[0009]
The present invention has been made to solve the above-described problems caused by the prior art, and the pattern extraction can be performed at high speed even in a large-scale database having a large number of data and having many items in the database. ExecutableFeature pattern output deviceThe purpose is to provide.
DISCLOSURE OF THE INVENTION
[0010]
In order to solve the above-described problems and achieve the object, the present invention relates toFeature pattern output deviceIs a feature that outputs a combination of items that characterize each class as a feature pattern of the class from a database that stores data consisting of a plurality of items divided into a plurality of classes.Pattern output deviceWhen the input data is received, similar data extraction means for extracting similar data similar to the input data for each class from the database, and each class from the similar data extracted by the similar data extraction means A similar pattern set calculating means for calculating a similar pattern set for each class; and a feature pattern calculating means for calculating a feature pattern for each class from the similar pattern set calculated by the similar pattern set calculating means. And
[0011]
According to the present invention, similar data similar to the input data is extracted from the database, and a feature pattern that characterizes each class is calculated from the extracted similar data.
[0012]
Further, according to the present inventionFeature pattern output deviceThe similar pattern set calculation means extracts, as a pattern set, a combination of items in which each item forming the similar data extracted by the similar data extraction means matches each item forming the input data, A minimum pattern that is a combination of items in which a subset other than itself does not exist in the pattern set is extracted as a minimum pattern set, and a maximum pattern that is a combination of items in which a superset other than itself does not exist in the pattern set Are extracted as a maximum pattern set, and the minimum pattern set and the maximum pattern set are output as the similar pattern set.
[0013]
According to the present invention, each item of the extracted data extracted from the database is compared with each item of the input data, the maximum pattern set and the minimum pattern set are extracted from the matching item combination, and the maximum pattern set and the minimum pattern set are extracted. The feature pattern is calculated based on the pattern set.
[0014]
Further, according to the present inventionFeature pattern output deviceThe feature pattern calculation unit extracts a common pattern set that appears across a plurality of classes from the minimum pattern set, and the feature pattern calculation unit calculates a feature pattern that includes all items of the common pattern set. It is characterized by doing.
[0015]
According to the present invention, a common pattern that appears across a plurality of classes is obtained based on a minimum pattern set, and a feature pattern is calculated as a superset of the common pattern.
[0016]
Further, according to the present inventionFeature pattern output deviceThe similar data extracting means extracts similar data based on different conditions for each class when extracting similar data from the database.
[0017]
According to the present invention, when extracting similar data, the conditions are changed for each class, and a sufficient number of similar data is acquired for each class.
[0018]
Further, according to the present inventionFeature pattern output deviceThe similar pattern set calculating means excludes a predetermined item from the maximum pattern when there is a maximum pattern that appears across a plurality of classes.
[0019]
According to the present invention, it is possible to prevent a situation in which a feature pattern does not exist by removing an item of a maximum pattern that appears across a plurality of classes.
[0020]
Further, according to the present inventionFeature pattern output deviceIs characterized by further comprising classification means for classifying the input data into one of the plurality of classes based on the feature pattern calculated by the feature pattern calculation means.
[0021]
According to the present invention, the input data is classified based on the feature pattern calculated from the similar data.
[0022]
Further, according to the present inventionFeature pattern output deviceThe classifying means counts the number of the feature patterns in the similar data of each class, and classifies the input data into a class having the largest count result.
[0023]
According to the present invention, the number of appearances of feature patterns in the similar data of each class is counted, and the input data is classified into the class having the largest count result.
[0024]
Further, according to the present inventionFeature pattern output deviceIf the value of the predetermined item forming the input data and the value of the item forming the similar data are within a predetermined numerical range, the similar pattern set calculation means calculates the value of both items. It is characterized by determining that they match.
[0025]
According to this invention, when the item is numerical data, a predetermined numerical range is set, and when the item value of the input data and the item value of the similar data are within the predetermined range, the value of both items Is determined to match.
BEST MODE FOR CARRYING OUT THE INVENTION
[0026]
The present invention will be described below with reference to the accompanying drawings.Feature pattern output deviceThe preferred embodiment will be described in detail.
[0027]
(Embodiment 1)
FIG. 1 is a schematic configuration diagram illustrating a schematic configuration of a feature pattern output apparatus according to
[0028]
The feature
[0029]
The similar
[0030]
The similar pattern set
[0031]
Further, the input data
[0032]
The feature
[0033]
Next, each process will be described in detail using specific examples.
FIG. 2 shows a specific example of input data and similar data. FIG. 2A is an example of input data, and FIG. 2B is an example of data stored in the database 22. As shown in FIG. 2, the input data is “35” as the value of “age”, “rental” as the value of “house”, “male” as the value of “sex”, “married” as the value of “marriage” "have.
[0034]
The similar
In particular,
n is the number of items, X is data stored in the database 22, Y is input data,
[Expression 1]
Here, the item <fi: xi> indicates that the value of the item “fi” is “xi”. In addition, items whose items have numerical attributes are all normalized to the [0, 1] interval, and α is defined as a radius of 0-1. That is, the value of δ is 1 when the value is within the radius α around the value of the input data, and the value of δ is 0 when the value is outside the radius α.
[0035]
In other words, this similarity function counts the number of items that match the items included in the input data for the data stored in the database. In FIG. 2 (b), items that match the input data in each data are shown circled, and the output of the similarity function is shown as the similarity. “Age” is numerical data, but
[0036]
Further, FIG. 3 shows a data space in which the data group shown in FIG. 2 (b) is arranged according to the similarity. In FIG. 3, input data is indicated by “★”, data belonging to class P is indicated as “◯”, and data belonging to class N is indicated as “x”. The numbers shown in the vicinity of each symbol are the data numbers in FIG. 2 (b).
[0037]
As shown in FIG. 3, the
[0038]
The similar
[0039]
The
Therefore, the following similar data is obtained as a result of binarization.
Data 2 {<house: rented house> <gender: male>}
Data 7 {<Dwelling: Rent> <Gender: Male> <Marriage: Married>}
Data 9 {<age: 35> <gender: male>}
Data 10 {<age: 35> <gender: male> <marriage: married>}
Data 12 {<age: 35> <house: rented house> <gender: male>}
Data 13 {<Residential: Rental house> <Gender: Male> <Marriage: Married>}
In this way, by binarizing the similar data, the items included in the similar data are only items included in the input data. Therefore, the feature pattern calculation process can be performed only by calculating the item set.
[0040]
Next, the processing of the similar pattern set
[0041]
FIG. 4 shows the maximum pattern set and the minimum pattern set. FIG. 4 (a) is a diagram showing the inclusive relation of sets in class P, and FIG. 4 (b) is a diagram showing the inclusive relation of sets in class N.
[0042]
Here, for class P,
Data 2 {<house: rented house> <gender: male>}
Data 7 {<Dwelling: Rent> <Gender: Male> <Marriage: Married>}
All items of
[0043]
Here, in the similar data of class P, there is no set that is a superset of
[0044]
Similarly, for class N,
Data 9 {<age: 35> <gender: male>}
Data 10 {<age: 35> <gender: male> <marriage: married>}
Data 12 {<age: 35> <house: rented house> <gender: male>}
Data 13 {<Residential: Rental house> <Gender: Male> <Marriage: Married>}
The items of
[0045]
Here, there is no set that is a superset of the
[0046]
Note that the
[0047]
Here, in class P, assuming that binarized similar data is Dp, the minimum pattern set is Lp, and the maximum pattern set is Rp, the pattern set [Lp, Rp] is a superset of at least one minimum pattern, An entire pattern that is a subset of at least one maximum pattern. Therefore,
Dp⊆ [Lp, Rp]
Is established.
[0048]
In the data shown in FIG. 4 (a), Lp = {{rented house, male}}, Rp = {{rented house, male, married}} and Dp = {{rented house, male}}, {rented house, male, Married}}.
Similarly, in class N, if binarized similar data is Dn, the minimum pattern set is Ln, and the maximum pattern set is Rn, the pattern set [Ln, Rn] is a superset of at least one minimum pattern, An entire pattern that is a subset of at least one maximum pattern. Therefore,
Dp⊆ [Lp, Rp]
Is established.
[0049]
In the data shown in FIG. 4 (b), Ln = {{35, male}, {rental, male, married}}, Rn = {{35, rental, male}, {35, male, married}, { Rented house, male, married}} and Dn = {{rented house, male}}, {35, rented house, male}, {35, male, married}, {rented house, male, married}}.
[0050]
In the example shown in FIG. 4, Dp = [Lp, Rp], but a pattern that is a superset of the minimum pattern and a subset of the maximum pattern does not exist in the similar data, that is, Even a pattern that does not exist in Dp is included in [Lp, Rp].
[0051]
Here, <L, R> is defined as the border of the minimum pattern L and the maximum pattern R. The border <L, R> represents [L, R] which is a pattern set as a pair of a minimum pattern and a maximum pattern. Therefore, by using a border, it is possible to replace the calculation with only the maximum pattern and the minimum pattern without directly handling the elements of the set when performing the calculation of the set, which can greatly improve the calculation efficiency. it can.
[0052]
The similar
[0053]
Next, the operation of the feature
[0054]
In the present invention, Rp and Rn are targeted for processing data similar to the input data, and there is no guarantee that it is the maximum pattern in the entire data. However, since similar data has a high similarity, the number of matches for items in the input data is In many cases, the maximum pattern usually has a large number of items, and therefore there is a high possibility that the maximum pattern is included in the similar pattern.
[0055]
However, even if there are a large number of maximum patterns, there is a possibility that detection of the maximum pattern will be missed, and if there is any detection miss, there is a possibility that an incorrect feature pattern will be found. Such an incorrect feature pattern causes a reduction in classification accuracy. Therefore, when a feature pattern is calculated from similar data, it is added on condition that there are more items than similar patterns that appear in both class P and class N, thereby preventing detection of the maximum pattern. In addition, a reduction in classification accuracy can be prevented.
[0056]
The processing operation of the feature pattern set
[0057]
That is, by this process, [c1,... Ck], which is a set of maximum patterns that appear in common in the pattern sets [{φ}, Lp] and [{φ}, Ln], is obtained. Since any ci included in [c1,... Ck] is a common maximum pattern, the superset of ci is
・ Appears only in class P data
・ Appears only in class N data
・ Does not appear in either class P or class N
One of them.
[0058]
Therefore, for each element ci of [c1,... Ck], by searching for a pattern that includes ci and appears only in class P and does not appear in class N, a set of patterns that characteristically appear in class P is obtained. be able to.
[0059]
Therefore, after obtaining [c1,... Ck], the feature pattern set
[0060]
Next, the feature pattern set
[0061]
Here, if el is not {φ} (No in step S107), the feature pattern set
[0062]
The feature pattern set 35 adds the border <eL, eR> to the border <epLp, epRP> (step S109). The border <epLp, epRp> is data that is finally output as a feature pattern. Here, epLp always monitors only the minimum pattern as an element, and excludes the non-minimum pattern (step S110).
[0063]
After step S110 ends or when el is {φ} (step S107, Yes), the feature pattern set
[0064]
On the other hand, when the processing has been completed for all the elements (step S111, Yes), the feature pattern set
[0065]
The feature pattern
SEP = epLp∪epLn
A feature pattern set SEP is output. This feature pattern SEP is a union of the minimum patterns that appear characteristically in class P or class N. The feature
[0066]
When the processing of the feature
[0067]
Therefore, the subsequent processing is continued with ci = {rented house, male} (step S102).
In class P, among the maximum pattern set Rp = {{rental, male, married}} of class P, the superset of ci = {rental, male} is rp = {{rental, male, married }} (Step S103). Similarly, in class N, ci = {rental, male} among maximum pattern set Rn = {{35, rented, male}, {35, male, married}, {rental, male, married}} of class N The superordinate set is rn = {{35, rented house, male}, {rented house, male, married}} (step S104).
[0068]
A pattern set that appears in the obtained [{φ}, rp] and does not appear in [{φ}, rn] is obtained by jepProducer (<{φ}, rp>, <{φ}, rn>). <El, er> = <{φ}, {φ}> (step S105).
[0069]
There is only one element of the maximum common pattern set {ci}. In this example, the feature pattern of class P is eventually <epLp, epRp> = <{φ}, {φ}>.
[0070]
On the other hand, in class N, the processing results up to step S104 are the same as in class P, and ci = {rented house, male}, rn = {{35, rented house, male}, {rented house, male, married}} , Rp = {{rental, male, married}}. (Steps S101 to S104).
[0071]
A pattern set that appears in the obtained [{φ}, rn] and does not appear in [{φ}, rp] is obtained by jepProducer (<{φ}, rn>, <{φ}, rp>). <El, er> = <{35}, {35, rented house, male}> (step S105). Borders obtained by adding c1 to each of el and er are <eL, eR> = <{35, rented house, male}, {35, rented house, male}> (step S106). There is only one element of the maximum common pattern set {c1}, and in this example, the class N feature pattern set is <epLn, epRn> = <{35, rented, male}, {35, rented, male}> (Steps S107 to S110).
[0072]
Next, the operation of the input data
[0073]
Subsequently, the input data
[0074]
The input data
[0075]
On the other hand, when the feature pattern to be inspected is not a subset of the similar data to be processed (step S204, No), the input data
[0076]
When inspection has been completed for all feature patterns (Yes in step S205), or after the value of the class P counter has been increased, the input data
[0077]
On the other hand, when the process is completed for all similar data (step S206, Yes), the input data
[0078]
Further, the input data
[0079]
As described above, in the feature
[0080]
As a result, the input data can be easily classified by classifying the input data using the calculated feature pattern.
[0081]
Furthermore, by calculating a feature pattern from data similar to input data, it is possible to detect even a local feature pattern with high accuracy.
[0082]
By the way, when extracting similar data based on input data, noise may occur in the similar data. Therefore, by adding a noise removal mechanism to the similar
[0083]
As noise generated in similar data, there are class noise in which data of another class is mixed in similar data of a predetermined class, and attribute noise in which an item of predetermined similar data is replaced with another item.
[0084]
When class noise exists, the same maximum pattern may appear in class P and class N in similar data after binarization processing. When the same maximum pattern appears in class P and class N, no feature pattern can be found, and the classification accuracy is significantly reduced. Therefore, when the same pattern appears in both class P and class N, the commonly appearing pattern is excluded from each class, and a pattern that is a subset of the excluded pattern is newly included. The generation of class noise can be suppressed.
[0085]
Further, the attribute noise can be removed by the statistical test process shown in FIG. As shown in FIG. 7, in this attribute noise removal, first, L which is one of the minimum patterns is inputted (step S301). Here, if the items included in L are I1, I2,... Ik, L = {I1, I2... Ik}.
[0086]
Next, I1, which is the first item in L, is set as the processing target Ii (step S302). Next, a pattern B is generated by excluding items to be processed from Lp (step S303). Thereafter, a statistical test is performed on B => P and B∧Ii => P (step S304). It is determined whether or not adding the item Ii to be processed to the pattern B by this test can be regarded as statistically coincidental. If it is not considered statistically coincidental, the item Ii is considered to have appeared due to attribute noise.
[0087]
Specifically, in the statistical test process, a statistical hypothesis that there is no difference between the probability distributions of B => P and B∧Ii => P is established, and whether this hypothesis can be rejected by the following equation: Test.
T = (SLPSL-SLSBP) / (SLSBP(SB-SBP) / N)1/2
Where SBIs the number of data matching pattern B, and SLIs the number of data matching the pattern B∧Ii, and SBPIs the number of data of class P that matches pattern B, and SLPIs the number of data belonging to the class P that matches the pattern B∧Ii.
[0088]
This T is known to follow a normal distribution. When the significance level is a, z (a / 2) is a value of density function p (z) = a / 2 of the normal distribution, and T ≧ z (a / 2), the hypothesis is that there is no statistical difference between B => P and B∧Ii => P, and Ii is treated as if it appeared by chance, and is excluded from the pattern set Lp.
[0089]
Accordingly, in FIG. 7, it is determined whether the hypothesis can be rejected as a result of the statistical test (step S305). If the hypothesis cannot be rejected (step S305, No), the item Ii to be processed is set as the attribute noise. (Step S308), and the process proceeds to step S306.
[0090]
On the other hand, if the hypothesis can be rejected (step S305, Yes), it is determined whether or not the test has been completed for all items (step S306). If there is an item that has not been tested yet (step S306, No), the next item is set as a test target (step S309), and the process proceeds to step S303.
[0091]
If the processing is completed for all items (step S306, Yes), the minimum pattern L from which the attribute noise has been removed is output (step S307), and the processing ends.
[0092]
As described above, by providing the similar
[0093]
(Embodiment 2)
Next, a second embodiment of the present invention will be described. In the first embodiment, when extracting similar data from the database 22, one predetermined threshold is set and data having a degree of similarity equal to or higher than the threshold is extracted. In the second embodiment, however, A threshold is set for each of class P data and class N data, and similar data is extracted for each class. When extracting similar data so as to satisfy a predetermined number, a predetermined number may be set for each of class P and class N, and extraction may be performed for class P and class N, respectively.
[0094]
FIG. 8 shows the relationship between data and similarity in the second embodiment. In FIG. 8, the arrangement of the
[0095]
Since the similarity threshold for class P has dropped to 1,
[0096]
As described in the first embodiment, it is proved that all feature patterns can be calculated if all maximum patterns are obtained from all data, and only data in the vicinity of input data is handled as in the present invention. Is added on condition that the number of items is larger than the pattern that appears in common with class P and class N for similar data when calculating a feature pattern from similar data, thereby preventing the detection of the maximum pattern from being missed. It is necessary to prevent the deterioration of the classification accuracy.
[0097]
Therefore, by setting a threshold value for each class and acquiring a sufficient number of samples from all classes, it is possible to prevent a reduction in classification accuracy due to a detection failure of the maximum pattern.
[0098]
Since the binarization of the similar data and the calculation process of the similar pattern set are the same as in the first embodiment, description thereof will be omitted, but the similar pattern set in the second embodiment is a neighborhood by class for input data. Is used to approximate the entire data included in the database 22. Therefore, in the feature pattern calculation process, the above jepProducer is used,
<EpLp, epRp> = jepProducer (<{φ}, Rp>, <{φ}, Rn>)
To calculate <epLp, epRp>. Therefore, in the present embodiment, the feature pattern can be calculated from the maximum pattern sets Lp and Ln without using the minimum pattern sets Rp and Rn.
[0099]
Further, in this embodiment, since SEP = epLp∪epLn is an approximation of the feature pattern with respect to the entire database 22, when classifying input data, the class P count and class for the entire data included in the database 22 are targeted. N counts can be calculated.
[0100]
When calculating the class P count for the entire database 22, the value is divided by the size of the class P data included in the database 22 to correct the distribution of the class P distribution in the entire database 22. It is preferable. The same applies to the class N count. As described above, when correction is performed based on the size of the data set belonging to each class, the distribution ratio of each class in the database 22 is largely biased. For example, the data of class N is compared with the data of class P. Therefore, even if the number is extremely large, the input data can be classified with high accuracy.
[0101]
As described above, in the second embodiment, similar data is extracted using different threshold values for each class to prevent detection of the maximum pattern and improve the classification accuracy of input data.
[0102]
In the second embodiment, an approximation of the feature pattern of the entire database 22 can be obtained, and the input data can be classified with high accuracy regardless of the class distribution state.
[0103]
In
[0104]
As an evaluation standard that can be used for classification of input data, for example, the number of feature patterns, the number of feature pattern items, and the like can be used. For the number of feature patterns, the evaluation is increased when the current number of feature patterns is large, and for the number of feature pattern items, the evaluation is increased when the number of items is large.
[0105]
Specifically, when using the number of feature patterns, the sum of the sizes of the feature patterns belonging to epLp is compared with the sum of the sizes of the feature patterns belonging to epLn, and the input pattern is classified into a larger value. To do.
[0106]
(Embodiment 3)
In the third embodiment, a computer system that executes a feature pattern output program having the same function as the feature pattern output apparatus described in the first and second embodiments will be described.
[0107]
A
[0108]
When the data management method is executed in the
[0109]
As described above, the third embodiment is implemented by executing on the computer system 100 a feature pattern output program in which the configuration of the feature pattern output apparatus described in the first and second embodiments is realized by software. The same effects as those of the feature pattern output apparatus shown in the first and second embodiments can be realized by using a general computer system.
[0110]
As described above, according to the present invention, similar data similar to the input data is extracted from the database, and the feature pattern that forms the characteristics of each class is calculated from the extracted similar data. Feature pattern can be output toFeature pattern output deviceThere is an effect that can be provided.
[0111]
Further, according to the present invention, the value of each item of the extracted data extracted from the database is compared with the value of each item of the input data, and the maximum pattern set and the minimum pattern set are extracted from the matching item combination, Since feature patterns are calculated based on this maximum pattern set and minimum pattern set, feature patterns can be output at high speed with a simple configuration.Feature pattern output deviceThere is an effect that can be provided.
[0112]
In addition, according to the present invention, a common pattern that appears across multiple classes is obtained based on the minimum pattern set, and the feature pattern is calculated as a superset of the common pattern, so that the feature pattern can be output at high speed. NaFeature pattern output deviceThere is an effect that can be provided.
[0113]
In addition, according to the present invention, when extracting similar data, the conditions are changed for each class, and a sufficient number of similar data is acquired for each class. Approximate and output feature pattern at high speedFeature pattern output deviceThere is an effect that can be provided.
[0114]
In addition, according to the present invention, since the maximum pattern that appears across multiple classes is removed by removing the item, the maximum pattern that spans multiple classes is prevented. Can be output toFeature pattern output deviceThere is an effect that can be provided.
[0115]
Further, according to the present invention, since the input data is classified based on the feature pattern calculated from the similar data, the input data can be classified at high speed regardless of the scale of the database.Feature pattern output deviceThere is an effect that can be provided.
[0116]
Further, according to the present invention, the number of appearances of feature patterns in the similar data of each class is counted, and the input data is classified into the class in which the counting result is the largest value. Capable of outputting feature patterns that can be classified into accuracyFeature pattern output deviceThere is an effect that can be provided.
[0117]
Further, according to the present invention, when the item is numerical data, a predetermined numerical range is set, and when the item value of the input data and the item value of the similar data are within the predetermined range, both items Because it is determined that the values match, the feature pattern can be output at high speed with a simple configuration even if the item contains numerical dataFeature pattern output deviceThere is an effect that can be provided.
[Industrial applicability]
[0118]
As described above, the present invention is applied.Feature pattern output deviceIs particularly useful for speeding up extraction of feature patterns in large-scale databases.
[Brief description of the drawings]
[0119]
FIG. 1 is a schematic configuration diagram illustrating a schematic configuration of a feature pattern output apparatus according to a first embodiment of the present invention.
FIG. 2 is a diagram showing a specific example of input data and similar data.
FIG. 3 is a diagram showing a data space in which data groups are arranged according to similarity.
FIG. 4 is a diagram showing a maximum pattern set and a minimum pattern set.
FIG. 5 is a diagram illustrating a processing operation of a feature pattern set calculation unit.
FIG. 6 is a flowchart for explaining the processing operation of the input data
FIG. 7 is a diagram for explaining a statistical test process for removing attribute noise.
FIG. 8 is a diagram showing a relationship between data and similarity in the second embodiment.
FIG. 9 is a diagram showing a maximum pattern set and a minimum pattern set in the second embodiment.
FIG. 10 is an explanatory diagram for explaining a computer system according to the third embodiment.
FIG. 11 is an explanatory diagram for explaining the configuration of the main body shown in FIG. 10;
Claims (8)
入力データを受け付けた際に、該入力データに類似する類似データを前記データベースから各クラスごとに抽出する類似データ抽出手段と、
前記類似データ抽出手段により抽出された類似データから各クラスごとの類似パターン集合を算出する類似パターン集合算出手段と、
前記類似パターン集合算出手段により算出された類似パターン集合から各クラスごとの特徴パターンを算出する特徴パターン算出手段と、
を備えたことを特徴とする特徴パターン出力装置。A feature pattern output device that has a database that stores data composed of a plurality of items divided into a plurality of classes, and outputs a combination of items that make up the characteristics of each class as a feature pattern of the class,
Similar data extraction means for extracting similar data similar to the input data for each class from the database when receiving the input data;
A similar pattern set calculating means for calculating a similar pattern set for each class from the similar data extracted by the similar data extracting means;
Feature pattern calculating means for calculating a feature pattern for each class from the similar pattern set calculated by the similar pattern set calculating means;
A feature pattern output device comprising:
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2002/011451 WO2004040477A1 (en) | 2002-11-01 | 2002-11-01 | Characteristic pattern output device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2004040477A1 JPWO2004040477A1 (en) | 2006-03-02 |
JP4057587B2 true JP4057587B2 (en) | 2008-03-05 |
Family
ID=32260032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004548006A Expired - Fee Related JP4057587B2 (en) | 2002-11-01 | 2002-11-01 | Feature pattern output device |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4057587B2 (en) |
WO (1) | WO2004040477A1 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006057105A1 (en) * | 2004-11-26 | 2006-06-01 | Osaka University | Symbol and numeric value basket analysis method and symbol and numeric value basket analysis device |
GB0524572D0 (en) * | 2005-12-01 | 2006-01-11 | Univ London | Information retrieval |
CN114402312A (en) | 2019-09-30 | 2022-04-26 | 富士通株式会社 | Pattern search program, pattern search device, and pattern search method |
-
2002
- 2002-11-01 JP JP2004548006A patent/JP4057587B2/en not_active Expired - Fee Related
- 2002-11-01 WO PCT/JP2002/011451 patent/WO2004040477A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2004040477A1 (en) | 2004-05-13 |
JPWO2004040477A1 (en) | 2006-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Improving crowdsourced label quality using noise correction | |
Vo et al. | Dealing with the class imbalance problem in the detection of fake job descriptions | |
CN103853744B (en) | Deceptive junk comment detection method oriented to user generated contents | |
CN112070138A (en) | Multi-label mixed classification model construction method, news classification method and system | |
CN112231431B (en) | Abnormal address identification method and device and computer readable storage medium | |
EP3608802A1 (en) | Model variable candidate generation device and method | |
Shah et al. | Multimodal fake news detection using a Cultural Algorithm with situational and normative knowledge | |
CN112800232B (en) | Case automatic classification method based on big data | |
CN112328747B (en) | Event context generation method, device, terminal equipment and storage medium | |
CN113728321A (en) | Using a set of training tables to accurately predict errors in various tables | |
CN111753547B (en) | Keyword extraction method and system for sensitive data leakage detection | |
JP4057587B2 (en) | Feature pattern output device | |
US8825473B2 (en) | Method, computer program and apparatus for analyzing symbols in a computer system | |
CN113704772A (en) | Safety protection processing method and system based on user behavior big data mining | |
CN111582722B (en) | Risk identification method and device, electronic equipment and readable storage medium | |
US20050192960A1 (en) | Feature-pattern output apparatus, feature-pattern output method, and computer product | |
CN109918638B (en) | Network data monitoring method | |
CN111651987B (en) | Identity discrimination method and device, computer readable storage medium and electronic equipment | |
CN115774769A (en) | Sensitive word checking processing method and device | |
CN113691525A (en) | Traffic data processing method, device, equipment and storage medium | |
CN113204954A (en) | Data detection method and device based on big data and computer readable storage medium | |
CN110851826A (en) | Method, device and equipment for detecting tampering of page and readable storage medium | |
Guo et al. | Bayesian spam filtering mechanism based on decision tree of attribute set dependence in the MapReduce framework | |
CN117573803B (en) | Knowledge graph-based new customer identification method and device | |
US20220351068A1 (en) | Model bias detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070911 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071211 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071213 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4057587 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101221 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111221 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111221 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121221 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121221 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131221 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |