JP5228461B2 - パターン抽出装置、パターン抽出プログラムおよびパターン抽出方法 - Google Patents

パターン抽出装置、パターン抽出プログラムおよびパターン抽出方法 Download PDF

Info

Publication number
JP5228461B2
JP5228461B2 JP2007315028A JP2007315028A JP5228461B2 JP 5228461 B2 JP5228461 B2 JP 5228461B2 JP 2007315028 A JP2007315028 A JP 2007315028A JP 2007315028 A JP2007315028 A JP 2007315028A JP 5228461 B2 JP5228461 B2 JP 5228461B2
Authority
JP
Japan
Prior art keywords
combination
explanatory variable
cases
case
pattern extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007315028A
Other languages
English (en)
Other versions
JP2009140178A (ja
Inventor
一穂 前田
義典 柳沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007315028A priority Critical patent/JP5228461B2/ja
Priority to US12/326,640 priority patent/US8086626B2/en
Publication of JP2009140178A publication Critical patent/JP2009140178A/ja
Application granted granted Critical
Publication of JP5228461B2 publication Critical patent/JP5228461B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Marketing (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Description

この発明は、パターン抽出装置、パターン抽出プログラムおよびパターン抽出方法に関する。
従来より、各説明変数の条件を示した説明変数値の組み合わせと、目的変数の条件を示した目的変数値とを対応付けて構成される複数の事例を含んでなる事例集合から、所定の説明変数値の組み合わせを構成要素とする全事例において特定の目的変数値を構成要素とする事例を含んだ割合が所定の満足度を満たす説明変数値の組み合わせをパターンとして抽出するパターン抽出装置がある(特許文献1参照)。
ここで、事例とは、各説明変数の条件を示した説明変数値の組み合わせと、目的変数の条件を示した目的変数値とを対応付けて構成され、例えば、POS(Point Of Sale)システムによってクレジットカードが利用されるごとに各販売店から収集した売上げデータである。また、事例集合とは、複数の事例を含んでなる情報である。また、売上げデータは、販売された品目と、金額と、クレジットカードの月間使用回数とをデータIDに対応付けて構成される。そして、ユーザによるクレジットカードの正規利用であったか、もしくは、ユーザによるクレジットカードの不正利用であったかを示すラベルをデータIDに対応付けて付与される。
また、変数とは、販売された品目や(品目)、金額、クレジットカードの月間使用回数(使用回数)、ラベルなどのカテゴリを示す情報である。変数値とは、文字列(例えば、「貴金属」)で表現される値や、数値(例えば、「5万円」)や、数値の範囲を示す値(例えば、「10万円〜15万円」)などである。
そして、品目の条件を示した変数値とは、例えば、「貴金属」や「電化製品」であり、金額の条件を示した変数値とは、例えば、「5万円」や「10万円」であり、クレジットカードの月間使用回数の条件を示した変数値とは、例えば、「1回」や「2回」であり、ラベルの変数値とは、「正規利用」または「不正利用」である。ここで、月間使用回数が1回であるユーザによる商品購入のパターンを抽出する場合には、クレジットカードの月間使用回数が目的変数に対応し、「1回」が目的変数値に対応し、品目、金額およびラベルが説明変数に対応し、「貴金属」および「電化製品」が品目の説明変数値に対応し、「5万円」や「20万円」などが金額の説明変数値に対応する。
このような前提の下、従来の技術によって、月間使用回数が1回であるユーザによる商品購入のパターンを抽出する場合を一例として説明する。まず、従来の技術では、説明変数値「1回」を構成要素とする各売上げデータにおいて、説明変数値「貴金属」を構成要素とする売上げデータを含んだ割合と、説明変数値「電化製品」を構成要素とする売上げデータを含んだ割合とを比較する。
ここで、説明変数値「貴金属」を構成要素とする売上げデータの割合の方が多いと判定した場合に、従来の技術では、説明変数値「1回」および「貴金属」の組み合わせを構成要素とする各売上げデータにおいて、最も構成要素とする売上げデータを含んだ割合が多い価格帯(例えば、10万円〜15万円)を選出する。
続いて、従来の技術では、選出された説明変数値「貴金属」、「1回」および「10万円〜15万円」の組み合わせを構成要素とする各売上げデータにおいて、事例の数が所定の満足度(例えば、20件以上)を満たし、目的変数値「1回」を構成要素とする売上げデータを含んだ割合が所定の満足度(例えば、75%)を満たした場合に、説明変数値「10万円〜15万円」および「貴金属」の組み合わせを目的変数値「1回」であることのパターン、言い換えると、月間使用回数が1回であるユーザが10万円〜15万円の貴金属を購入しやすいというパターンを抽出する。
特開2007−109012号公報
ところで、上記した従来の技術では、構成要素として含まれる割合が少ない目的変数値のパターンを抽出することが困難であるという課題があった。
すなわち、構成要素として含まれる割合が少ない目的変数値は、目的変数の他の変数値に埋もれてしまい、結果として従来の技術では、パターンを抽出することが困難となる。
例えば、仮に、ラベルが目的変数値「不正利用」であることを構成要素とする売上げデータの割合は少ないが、クレジットカードを不正利用しているユーザが30万円以上の電化製品を購入しやすいというパターンがあったとする。ここで、ラベルが目的変数値「不正利用」であることを構成要素とする各売上げデータにおいて、説明変数値「貴金属」を構成要素とする売上げデータを含んだ割合と、説明変数値「家電製品」を構成要素とする売上げデータを含んだ割合とを比較するときに、このパターンを構成要素とする売上げデータは、説明変数値「電化製品」を構成要素とする売上げデータを含んだ割合に反映されにくい。
そのため、従来の技術では、説明変数値「貴金属」を構成要素とする売上げデータの割合の方が多いと判定する場合があり、結果として、クレジットカードを不正利用しているユーザが30万円以上の電化製品を購入しやすいというパターンを抽出できない場合がある。
そこで、この発明は、上述した従来技術の課題を解決するためになされたものであり、構成要素として含まれる割合が少ない目的変数値のパターンを容易に抽出することが可能なパターン抽出装置、パターン抽出プログラムおよびパターン抽出方法を提供することを目的とする。
上述した課題を解決し、目的を達成するため、開示のパターン抽出装置は、各説明変数の条件を示した説明変数値の組み合わせと、目的変数の条件を示した目的変数値とを対応付けて構成される複数の事例を含んでなる事例集合から、所定の説明変数値の組み合わせを構成要素とする全事例において特定の目的変数値を構成要素とする事例を含んだ割合が所定の満足度を満たす説明変数値の組み合わせをパターンとして抽出するパターン抽出装置であって、前記所定の説明変数値の組み合わせを構成要素とする全事例の中に、特定の目的変数値を構成要素とする事例を含む信頼度を示す確信度を事例ごとに算出する確信度算出手段と、前記確信度算出手段によって算出された確信度が所定の閾値を満たす事例について、当該事例を構成する前記説明変数値の組み合わせを高確信度組合として選択する高確信度組合選択手段と、前記高確信度組合選択手段によって選択された高確信度組合を構成要素とする全事例において、特定の目的変数値を構成要素とする事例が含まれる割合が所定の満足度を満たした場合に、当該高確信度組合として選択された前記説明変数値の組み合わせを前記パターンとして抽出するパターン抽出手段とを備える。
また、上記のパターン抽出装置において、前記確信度算出手段は、特定の目的変数値を構成要素としない事例について、確信度を算出しない。
また、上記のパターン抽出装置において、前記高確信度組合選択手段は、前記事例集合に含まれる全事例において特定の目的変数値を構成要素とする事例が含まれる割合を前記所定の閾値として高確信度組合を選択する。
また、上記のパターン抽出装置において、前記高確信度組合選択手段は、前記パターン抽出手段によって抽出されたパターンを構成する前記説明変数値の組み合わせ以外の前記説明変数値の組み合わせから高確信度組合を選択する。
また、上記のパターン抽出装置において、前記確信度算出手段は、前記パターン抽出手段によって抽出された前記説明変数値の組み合わせを構成要素としない各事例を用いて確信度を算出する。
また、上記のパターン抽出装置において、前記高確信度組合選択手段によって選択された前記高確信度組合が有する各説明変数値ごとに、新たなる説明変数値の組み合わせを生成するために用いる影響度を算出する影響度算出手段をさらに備え、前記パターン抽出手段は、前記影響度算出手段によって算出された影響度を用いて新たなる説明変数値の組み合わせを生成し、当該新たなる説明変数値の組み合わせを構成要素とする全事例において特定の目的変数値を構成要素とする事例が含まれる割合が所定の満足度を満たした場合に、当該新たなる説明変数値の組み合わせを前記パターンとして抽出する。
また、上記のパターン抽出装置において、前記パターン抽出手段は、前記高確信度組合が有する各説明変数値の組み合わせから前記影響度算出手段によって算出された影響度が低い順に説明変数値を削除することで前記新たなる説明変数値の組み合わせを生成する。
また、上記のパターン抽出装置において、前記パターン抽出手段は、前記高確信度組合が有する条件として数値の範囲を示した各説明変数値について、説明変数値が示した数値の範囲を拡大し、特定の目的変数値を構成要素とする事例を含んだ割合が最も多い数値の範囲に変更して前記新たなる説明変数値の組み合わせを生成する。
また、上記のパターン抽出装置において、前記高確信度組合選択手段によって選択された前記高確信度組合を構成要素とする各事例と類似する類似事例の集合を前記事例集合から抽出する類似事例集合抽出手段をさらに備え、前記影響度算出手段は、前記類似事例集合抽出手段によって抽出された類似事例の集合から前記影響度を算出する。
また、上記のパターン抽出装置において、前記パターン抽出手段は、前記影響度算出手段によって算出された影響度が高い順に説明変数値を追加することで前記新たなる説明変数値の組み合わせを生成する。
また、開示のパターン抽出プログラムは、各説明変数の条件を示した説明変数値の組み合わせと、目的変数の条件を示した目的変数値とを対応付けて構成される複数の事例を含んでなる事例集合から、所定の説明変数値の組み合わせを構成要素とする全事例において特定の目的変数値を構成要素とする事例を含んだ割合が所定の満足度を満たす説明変数値の組み合わせをパターンとして抽出するパターン抽出処理をコンピュータに実行させるパターン抽出プログラムであって、前記所定の説明変数値の組み合わせを構成要素とする全事例の中に、特定の目的変数値を構成要素とする事例を含む信頼度を示す確信度を事例ごとに算出する確信度算出手順と、前記確信度算出手順によって算出された確信度が所定の閾値を満たす事例について、当該事例を構成する前記説明変数値の組み合わせを高確信度組合として選択する高確信度組合選択手順と、前記高確信度組合選択手順によって選択された高確信度組合を構成要素とする全事例において、特定の目的変数値を構成要素とする事例が含まれる割合が所定の満足度を満たした場合に、当該高確信度組合として選択された前記説明変数値の組み合わせを前記パターンとして抽出するパターン抽出手順とをコンピュータに実行させる。
また、開示のパターン抽出方法は、各説明変数の条件を示した説明変数値の組み合わせと、目的変数の条件を示した目的変数値とを対応付けて構成される複数の事例を含んでなる事例集合から、所定の説明変数値の組み合わせを構成要素とする全事例において特定の目的変数値を構成要素とする事例を含んだ割合が所定の満足度を満たす説明変数値の組み合わせをパターンとして抽出するパターン抽出方法であって、前記所定の説明変数値の組み合わせを構成要素とする全事例の中に、特定の目的変数値を構成要素とする事例を含む信頼度を示す確信度を事例ごとに算出する確信度算出工程と、前記確信度算出工程によって算出された確信度が所定の閾値を満たす事例について、当該事例を構成する前記説明変数値の組み合わせを高確信度組合として選択する高確信度組合選択工程と、前記高確信度組合選択工程によって選択された高確信度組合を構成要素とする全事例において、特定の目的変数値を構成要素とする事例が含まれる割合が所定の満足度を満たした場合に、当該高確信度組合として選択された前記説明変数値の組み合わせを前記パターンとして抽出するパターン抽出工程とを含む。
パターン抽出装置は、構成要素として含まれる割合が少ない目的変数値のパターンを容易に抽出することが可能である。
以下に添付図面を参照して、この発明に係るパターン抽出装置、パターン抽出プログラムおよびパターン抽出方法の実施例を詳細に説明する。なお、以下では、この発明が適用されたパターン抽出装置(例えば、売上げデータからクレジットカードを不正利用しているユーザの商品購入パターンを抽出する不正パターン抽出装置)を実施例として説明する。
以下の実施例1では、実施例1に係るパターン抽出装置の概要および特徴、パターン抽出装置の構成、パターン抽出装置の処理の流れ、パターン抽出装置による具体的な処理の一例を順に説明し、最後に実施例1による効果を説明する。
[実施例1に係るパターン抽出装置の概要および特徴]
実施例1に係るパターン抽出装置は、各説明変数の条件を示した説明変数値の組み合わせと、目的変数の条件を示した目的変数値とを対応付けて構成される複数の事例を含んでなる事例集合から、所定の説明変数値の組み合わせを構成要素とする全事例において特定の目的変数値を構成要素とする事例を含んだ割合が所定の満足度を満たす説明変数値の組み合わせをパターンとして抽出することを概要とする。
そして、実施例1に係るパターン抽出装置は、所定の説明変数値の組み合わせを構成要素とする全事例の中に、特定の目的変数値を構成要素とする事例を含む信頼度を示す確信度を事例ごとに算出し、確信度が所定の閾値を満たす事例について、事例を構成する説明変数値の組み合わせを高確信度組合として選択し、高確信度組合を構成要素とする全事例において、特定の目的変数値を構成要素とする事例が含まれる割合が所定の満足度を満たした場合に、高確信度組合として選択された説明変数値の組み合わせをパターンとして抽出することを特徴とする。
このようなことから、実施例1に係るパターン抽出装置は、構成要素として含まれる割合が少ない目的変数値のパターンを容易に抽出することが可能である。
[パターン抽出装置の構成]
次に、図1〜図8を用いて、パターン抽出装置10の構成を説明する。図1は、パターン抽出装置の構成を示すブロック図である。図2は、事例集合記憶部に記憶される情報の一例を示す図である。図3は、確信度記憶部に記憶される情報の一例を示す図である。図4は、高確信度組合記憶部に記憶される情報の一例を示す図である。図5は、類似事例記憶部に記憶される情報の一例を示す図である。図6は、影響度記憶部に記憶される情報の一例を示す図である。図7は、新組合記憶部に記憶される情報の一例を示す図である。図8は、パターン記憶部に記憶される情報の一例を示す図である。図1に示すように、パターン抽出装置10は、入力部11と、出力部12と、記憶部13と、処理部14とを備える。
このうち、入力部11は、各種の情報の入力を受け付ける。具体的には、入力部11は、キーボードやマウス、マイク、入力ポートなどを備えて構成され、事例集合を受け付けた場合には、事例集合を事例集合記憶部13aに格納し、高確信度組合として選択された説明変数値の組み合わせをパターンとして抽出するか否かを判定するための満足度を受け付けた場合には、処理部14に入力する。
出力部12は、各種の情報を出力する。具体的には、出力部12は、モニタ(若しくはディスプレイ、タッチパネル)やスピーカ、出力ポートなどを備えて構成され、抽出したパターンを出力する。
記憶部13は、処理部14による各種処理に必要なデータおよびプログラムを格納する。特に本発明に密接に関連するものとしては、記憶部13は、事例集合記憶部13aと、確信度記憶部13bと、高確信度組合記憶部13cと、類似事例記憶部13dと、影響度記憶部13eと、新組合記憶部13fと、パターン記憶部13gとを備える。
事例集合記憶部13aは、各説明変数の条件を示した説明変数値の組み合わせと、目的変数の条件を示した目的変数値とを対応付けて構成される複数の事例を含んでなる事例集合を記憶する(図2の(A)参照)。
確信度記憶部13bは、所定の説明変数値の組み合わせを構成要素とする全事例の中に、特定の目的変数値を構成要素とする事例を含む信頼度を示す確信度を記憶する(図3参照)。
高確信度組合記憶部13cは、確信度が所定の閾値を満たす事例を構成する説明変数値の組み合わせを高確信度組合として記憶する(図4参照)。
類似事例記憶部13dは、高確信度組合を構成要素とする各事例と類似する類似事例の集合を記憶する(図5参照)。
影響度記憶部13eは、新たなる説明変数値の組み合わせを生成するために用いる影響度を記憶する(図6参照)。
新組合記憶部13fは、パターン抽出部14eによって生成された新たなる説明変数値の組み合わせを記憶する(図7参照)。
パターン記憶部13gは、特定の目的変数値を構成要素とする事例が含まれる割合が所定の満足度を満たした説明変数値の組み合わせをパターンとして記憶する(図8参照)。
処理部14は、OS(Operating System)などの制御プログラム、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有し、これらによって種々の処理を実行する。特に本発明に密接に関連するものとしては、処理部14は、確信度算出部14aと、高確信度組合選択部14bと、類似事例抽出部14cと、影響度算出部14dと、パターン抽出部14eとを備える。
確信度算出部14aは、所定の説明変数値の組み合わせを構成要素とする全事例の中に、特定の目的変数値を構成要素とする事例を含む信頼度を示す確信度を事例ごとに算出する。なお、確信度算出部14aは、請求の範囲に記載の「確信度算出手段」に対応する。
具体的には、確信度算出部14aは、事例ごとに、目的変数値「不正利用」を構成要素とするか否かを判定し、目的変数値「不正利用」を構成要素とすると判定した事例について、確信度を算出する。
高確信度組合選択部14bは、確信度算出部14aによって算出された確信度が所定の閾値を満たす事例について、事例を構成する説明変数値の組み合わせを高確信度組合として選択する。なお、高確信度組合選択部14bは、請求の範囲に記載の「高確信度組合選択手段」に対応する。
具体的には、高確信度組合選択部14bは、事例集合に含まれる全事例において特定の目的変数値を構成要素とする事例が含まれる割合を所定の閾値として高確信度組合を選択する。
また、高確信度組合選択部14bは、パターン抽出部14eによって抽出されたパターンを構成する説明変数値の組み合わせ以外の説明変数値の組み合わせから高確信度組合を選択する。
類似事例抽出部14cは、高確信度組合選択部14bによって選択された高確信度組合を構成要素とする各事例と類似する類似事例の集合を事例集合から抽出する。なお、類似事例抽出部14cは、請求の範囲に記載の「類似事例抽出手段」に対応する。
影響度算出部14dは、類似事例抽出部14cによって抽出された類似事例の集合から新たなる説明変数値の組み合わせを生成するために用いる影響度を算出する。なお、影響度算出部14dは、請求の範囲に記載の「影響度算出手段」に対応する。
パターン抽出部14eは、影響度算出部14dによって算出された影響度を用いて新たなる説明変数値の組み合わせを生成し、新たなる説明変数値の組み合わせを構成要素とする全事例において特定の目的変数値を構成要素とする事例が含まれる割合が所定の満足度を満たした場合に、新たなる説明変数値の組み合わせをパターンとして抽出する。
具体的には、パターン抽出部14eは、高確信度組合が有する各説明変数値の組み合わせから影響度算出部14dによって算出された影響度が低い順に説明変数値を削除することで新たなる説明変数値の組み合わせを生成する。
[パターン抽出装置による処理]
次に、図9を用いて、パターン抽出装置10による処理の流れを説明する。図9は、パターン抽出装置による処理の流れを示すフローチャート図である。
図9に示すように、パターン抽出装置10は、事例集合を受け付けると(ステップS1001肯定)、確信度を事例ごとに算出し(ステップS1002)、確信度が所定の閾値を満たす事例を構成する説明変数値の組み合わせを高確信度組合として選択する処理を実行する(ステップS1003)。
ここで、いずれの説明変数値の組み合わせも高確信度組合として選択されない場合には(ステップS1003否定)、パターン抽出装置10は処理を終了する。
一方では、確信度が所定の閾値を満たす事例を構成する説明変数値の組み合わせを高確信度組合として選択した場合には(ステップS1003肯定)、パターン抽出装置10は、高確信度組合を構成要素とする各事例と類似する類似事例の集合を事例集合から抽出し(ステップS1004)、高確信度組合が有する各説明変数値ごとに影響度を算出する(ステップS1005)。
続いて、パターン抽出装置10は、算出された影響度を用いて新たなる説明変数値の組み合わせを生成し(ステップS1006)、特定の目的変数値を構成要素とする事例が含まれる割合が所定の満足度を満たした説明変数値の組み合わせをパターンとして抽出する(ステップS1007)。
続いて、パターン抽出装置10は、パターンを構成する説明変数値の組み合わせ以外の説明変数値の組み合わせであり、確信度算出部14aによって算出された確信度が所定の閾値を満たす事例について、事例を構成する説明変数値の組み合わせを高確信度組合として選択する処理を実行する(ステップS1003)ことで、上記した処理(ステップS1003〜ステップS1007)を繰り返し実行する。
[パターン抽出装置による具体的な処理の一例]
次に、実施例1に係るパターン抽出装置10による処理の一例として、事例の数が20件以上であり、目的変数値「不正利用」を構成要素とする事例を含んだ割合が75%以上である、クレジットカードを不正利用しているユーザの商品購入パターンを抽出する場合を説明する。
(主たる用語の説明)
まず、実施例1に係るパターン抽出装置10による具体的な処理の一例を説明するために用いる主たる用語を説明する。
事例とは、各説明変数の条件を示した説明変数値の組み合わせと、目的変数の条件を示した目的変数値とを対応付けて構成され、例えば、POS(Point Of Sale)システムによってクレジットカードが利用されるごとに各販売店から収集した売上げデータである。また、事例集合とは、複数の事例を含んでなる情報である(図2の(A)参照)。
売上げデータとは、販売された品目(品目)と、合計使用金額(金額)と、クレジットカードの月間使用回数(使用回数)とをデータIDに対応付けて構成される。さらに、ユーザによるクレジットカードの正規利用であったか、もしくは、ユーザによるクレジットカードの不正利用であったかを示すラベルがデータIDに対応付けて付与される。
変数とは、品目や、金額、使用回数、ラベルなどのカテゴリを示す情報である。なお、ラベルが、目的変数に対応し、品目、金額および使用回数が説明変数に対応する。
変数値とは、変数の条件を示した値であり、文字列(例えば、「貴金属」)で表現される値や、数値(例えば、「5万円」)や、数値の範囲を示す値(例えば、「10万円〜15万円」)などである。
品目の条件を示した変数値とは、品目名を示す文字列(例えば、「貴金属」や「電化製品」)であり、金額の条件を示した変数値とは、金額を示す数値(例えば、「5万円」や「10万円」)であり、クレジットカードの月間使用回数の条件を示した変数値は、使用回数を示す数値(例えば、「1回」や「2回」)であり、ラベルの変数値とは、「正規利用」または「不正利用」である。ここで、「不正利用」が目的変数値に対応し、「貴金属」および「電化製品」が品目の説明変数値に対応し、「5万円」や「20万円」などが金額の説明変数値に対応し、「1回」や「2回」などが使用回数の説明変数値に対応する。
なお、以下では、説明の簡略化のために、図2の(A)で示した事例集合を、図2の(B)に示すように言い換えて説明する。すなわち、金額の説明変数値を金額の範囲を示す値である「0万円〜30万円」と、「30万円以上」とに言い換え、使用回数の説明変数値を使用回数の範囲を示す値である「1回〜3回」と、「4回以上」とに言い換えて説明する。
また、図2の(B)では、所定の説明変数値の組み合わせと、「正規利用」または「不正利用」とを構成要素とする事例の数をラベル数として表す。例えば、説明変数値「電化製品」、「0万円〜30万円」および「1回〜3回」の組み合わせに対応するラベル数(8,2)は、説明変数値「電化製品」、「0万円〜30万円」および「1回〜3回」と、「正規利用」とを構成要素とする事例が事例集合に8件含まれ、説明変数値「電化製品」、「0万円〜30万円」および「1回〜3回」と、目的変数値「不正利用」とを構成要素とする事例が事例集合に2件含まれていることを意味する。
(影響度および確信度算出方式)
次に、実施例1に係るパターン抽出装置10による影響度および確信度の算出方式の一例として、記憶に基づく推論(Memory-Based Reasoning :MBR)の計算方式を説明する(特開2000−155681号公報参照)。なお、説明の簡略化のために式の一部を変更しているが、本発明はこれに限定されるものではない。
まず、説明変数ごとの未知事例と既知事例との間の距離「d(j)」を下記(1)に含まれる(1−1)式および(1−2)式を用いて算出する。ここで、未知事例とは、算出の対象となる事例であり、既知事例とは、未知事例以外の事例である。また、「j」は、説明変数を識別するための番号である。
また、数値や、数値の範囲を示す値を説明変数値とする説明変数については、下記(1−1)式を用いて距離を算出し、文字列で表現される値を説明変数値とする説明変数については、下記(1−2)式を用いて距離を算出するものとする(例えば、品目について、説明変数値「貴金属」を構成要素とする未知事例と、説明変数値「貴金属」を構成要素とする既知事例との間の距離は0であり、説明変数値「電化製品」を構成要素とする未知事例と、説明変数値「貴金属」を構成要素とする既知事例との間の距離は1である)。
Figure 0005228461
続いて、新たなる説明変数値の組み合わせを生成するために用いる影響度「w(j,v)」を下記(2)式および(3)式を用いて算出する。ここで、「p(c)」とは、領域「c」に未知事例を構成要素とする事例が含まれる確率である。また、「p(v|c)」とは、j番目の説明変数の説明変数値が領域「v」に含まれているときに、目的変数値を構成要素とする事例が含まれる条件付き確率である。また、「N(c)」とは、既知事例における未知事例を構成要素とする事例の数である。なお、未知事例のj番目の説明変数値v(j)における影響度は、「w(j(v(j)))」とする。
Figure 0005228461
Figure 0005228461
続いて、未知事例と、既知事例との間の事例間距離「D」を下記(4)式を用いて算出する。なお、「*」は、乗算を表す。
Figure 0005228461
続いて、事例間距離「D」を用いて未知事例と、既知事例との類似度「S」を、事例間距離「D」を用いた下記(5)式で定義する。ここで、「Δ」とは、類似度が無限大になることを防ぐ微小値である。
Figure 0005228461
続いて、未知事例との間で類似度が高い既知事例(類似事例)を抽出する。例えば、ユーザによって指定されたk件の既知事例を類似度が高い順に抽出する。そして、未知事例の確信度P(c)を下記(6)式を用いて算出する。
Figure 0005228461
(具体的な処理の一例)
次に、実施例1に係るパターン抽出装置10による具体的な処理の一例を説明する。まず、パターン抽出装置10は、入力部11を介して事例集合を受け付けると、事例集合を事例集合記憶部13aに格納する(図2参照)(図9に示した、ステップS1001肯定に対応)。
続いて、パターン抽出装置10は、所定の説明変数値の組み合わせを構成要素とする全事例の中に、目的変数値「不正利用」を構成要素とする事例を含む信頼度を示す確信度を事例ごとに算出する(図9に示した、ステップS1002に対応)。具体的には、確信度算出部14aは、事例ごとに、目的変数値「不正利用」を構成要素とするか否かを判定し、目的変数値「不正利用」を構成要素とすると判定した事例について、(1)式〜(6)式を用いて確信度を算出し、所定の説明変数値の組み合わせと、ラベル数と、確信度とを対応付けて確信度記憶部13bに格納する(図3参照)。
なお、(2)式および(3)式を用いて算出される説明変数値「電化製品」の影響度は、「0.025」であり、説明変数値「貴金属」の影響度は、「0.025」であり、説明変数値「0万円〜30万円」の影響度は、「0.182」であり、説明変数値「30万円以上」の影響度は、「0.174」であり、説明変数値「1回〜3回」の影響度は、「0.235」であり、説明変数値「4回以上」の影響度は、「0.222」である(図6の(A)参照)。
また、図3に示した例では、目的変数値「不正利用」を構成要素とする各事例を未知事例とし、抽出する事例数「k」を20とした場合の確信度を示している。ここで、説明変数値「電化製品」、「0万円〜30万円」および「1回〜3回」と、目的変数値「不正利用」との組み合わせを構成要素とする事例の確信度を算出するときには(図3の(1)参照)、説明変数値「0万円〜30万円」および「1回〜3回」の組み合わせを構成要素とする各事例(図3の(1)および(5)参照)が類似事例に相当する。
また、説明変数値「電化製品」、「0万円〜30万円」および「4回以上」と目的変数値「不正利用」との組み合わせを構成要素とする事例の確信度を算出するときには(図3の(2)参照)、説明変数値「0万円〜30万円」および「4回以上」の組み合わせを構成要素とする各事例(図3の(2)および(6)参照)が類似事例に相当する。
同様に、図3の(4)の確信度を算出するときには、図3の(4)および(8)が類似事例に相当し、図3の(5)の確信度を算出するときには、図3の(1)および(5)が類似事例に相当し、図3の(7)の確信度を算出するときには、図3の(3)および(7)が類似事例に相当し、図3の(8)の確信度を算出するときには、図3の(4)および(8)が類似事例に相当する。なお、図3の(3)および(6)については、目的変数値「不正利用」を構成要素とする事例が0であるため、確信度を算出していない。
続いて、パターン抽出装置10は、確信度算出部14aによって算出された確信度が所定の閾値を満たす事例について、事例を構成する説明変数値の組み合わせを高確信度組合として選択する(図9に示した、ステップS1003肯定に対応)。
具体的には、高確信度組合選択部14bは、事例集合に含まれる全事例において特定の目的変数値を構成要素とする事例が含まれる割合を所定の閾値として高確信度組合を選択する。そして、高確信度組合選択部14bは、選択した高確信度組合と、ラベル数と、確信度とを対応付けて高確信度組合記憶部13cに格納する。
本例では、事例集合に目的変数値「不正利用」を構成要素とする事例が35件含まれており、高確信度組合選択部14bは、目的変数値「不正利用」を構成要素とする事例の数から事例集合に含まれる事例の数を除算した値(つまり、「35/80=0.4375」)以上の確信度を有する説明変数値の組み合わせを選択して、高確信度組合記憶部13cに格納する(図4の(A)参照)。
続いて、パターン抽出装置10は、選択した高確信度組合について、確信度が高い順にパターン抽出処理(図9に示した、ステップS1004〜ステップS1007)を実行するが、以下では、説明変数値「貴金属」、「30万円以上」および「4回以上」の組み合わせからパターン抽出処理を実行する場合を説明する。
まず、パターン抽出装置10は、高確信度組合選択部14bによって選択された高確信度組合を構成要素とする各事例と類似する類似事例を事例集合から抽出する(図9に示した、ステップS1004に対応)。
具体的には、類似事例抽出部14cは、高確信度組合選択部14bによって選択された説明変数値「貴金属」、「30万円以上」および「4回以上」と、目的変数値「不正利用」との組み合わせを構成要素とする事例を未知事例としたときの類似事例を(1)式〜(5)式を用いて抽出する。ここで、類似事例抽出部14cは、抽出する事例数「k」を40とし、(2)式によって算出される影響度「w(j,v)」を用いず、影響度「w(j,v)」を1として類似事例を抽出するものとする。
そして、類似事例抽出部14cは、抽出した類似事例を構成する説明変数値の組み合わせと、ラベル数とを対応付けて類似事例記憶部13dに格納する(図5の(A)参照)。
続いて、パターン抽出装置10は、高確信度組合が有する各説明変数値ごとに、類似事例抽出部14cによって抽出された類似事例の集合から新たなる説明変数値の組み合わせを生成するために用いる影響度を算出する(図9に示した、ステップS1005に対応)。具体的には、影響度算出部14dは、類似事例抽出部14cによって抽出された類似事例の集合から(2)式を用いて、説明変数値「貴金属」の影響度と、説明変数値「30万円以上」の影響度と、説明変数値「4回以上」の影響度とを算出し、各説明変数値と各説明変数値の影響度とを対応付けて影響度記憶部13eに格納する。
ここで、影響度算出部14dによって算出される説明変数値「貴金属」の影響度は、「0.05」であり、説明変数値「30万円以上」の影響度は、「0.357」である。また、影響度算出部14dによって算出される説明変数値「4回以上」の影響度は、「0.249」であるが、類似事例の集合の含まれる各事例において説明変数値「4回以上」を構成要素とする事例の数が説明変数値「1回〜3回」を構成要素とする事例の数よりも少ないと判定され、正負を反転させて影響度記憶部13eに格納されるものとする(図6の(B)参照)。
続いて、パターン抽出装置10は、影響度算出部14dによって算出された影響度を用いて新たなる説明変数値の組み合わせ(以下では、新組合と表す)を生成する(図9に示した、ステップS1006に対応)。
具体的には、パターン抽出部14eは、影響度算出部14dによって算出された説明変数値「貴金属」の影響度と、説明変数値「30万円以上」の影響度と、説明変数値「4回以上」の影響度とにおいて、最も影響度が小さい説明変数値「4回以上」を高確信度組合が有する説明変数値「貴金属」、「30万円以上」および「4回以上」の組み合わせから削除することで、新組合として、説明変数値「貴金属」および「30万円以上」の組み合わせを生成する。そして、パターン抽出部14eは、新組合を新組合記憶部13fに格納する(図7の(A)参照)。
続いて、パターン抽出装置10は、新組合を構成要素とする全事例において目的変数値「不正利用」を構成要素とする事例が含まれる割合が所定の満足度を満たした場合に、新組合をパターンとして抽出する(図9に示した、ステップS1007に対応)。
具体的には、パターン抽出部14eは、事例集合から、説明変数値「貴金属」および「30万円以上」の組み合わせを構成要素とする事例の数(20)を計測するとともに、説明変数値「貴金属」および「30万円以上」と、目的変数値「不正利用」とを構成要素とする事例の数(15)を計測する。
そして、パターン抽出部14eは、説明変数値「貴金属」および「30万円以上」と、目的変数値「不正利用」との組み合わせを構成要素とする事例の数から、説明変数値「貴金属」および「30万円以上」の組み合わせを構成要素とする事例の数を除算する(つまり、15/20=75%)ことで、新組合を構成要素とする全事例において目的変数値「不正利用」を構成要素とする事例が含まれる割合を算出する。
さらに、パターン抽出部14eは、目的変数値「不正利用」を構成要素とする事例の数が20以上であり、目的変数値「不正利用」を構成要素とする事例を含んだ割合が75%以上であると判定し、説明変数値「貴金属」および「30万円以上」の組み合わせをパターンとして抽出する。そして、パターン抽出部14eは、パターンとして抽出した説明変数値「貴金属」および「30万円以上」の組み合わせをパターン記憶部13gに格納する(図8の(A)参照)。
続いて、パターン抽出装置10は、パターン抽出部14eによって抽出されたパターンを構成する説明変数値の組み合わせ以外の説明変数値の組み合わせであり、確信度算出部14aによって算出された確信度が所定の閾値を満たす事例について、事例を構成する説明変数値の組み合わせを高確信度組合として選択する(図9に示した、ステップS1003肯定に対応)。
具体的には、高確信度組合選択部14bは、パターン抽出部14eによって抽出された説明変数値の組み合わせ以外の説明変数値の組み合わせであり、事例集合に含まれる全事例において特定の目的変数値を構成要素とする事例が含まれる割合以上の確信度を有する事例について、事例を構成する説明変数値の組み合わせを高確信度組合として選択する。そして、高確信度組合選択部14bは、選択した高確信度組合と、ラベル数と、確信度とを対応付けて格納して、高確信度組合記憶部13cを更新する。
本例では、高確信度組合選択部14bは、「0.4375」以上の確信度を有し、パターン抽出部14eによって抽出された説明変数値の組み合わせ以外の説明変数値の組み合わせである説明変数値「電化製品」、「0万円〜30万円」および「4回以上」の組み合わせと、説明変数値「電化製品」、「30万円以上」および「4回以上」の組み合わせとを選択し、高確信度組合記憶部13cに格納して、高確信度組合記憶部13cを更新する(図4の(B)参照)。
続いて、パターン抽出装置10は、高確信度組合選択部14bによって選択された各高確信度組合において、最も確信度が高い各高確信度組合を構成要素とする各事例と類似する類似事例を事例集合から抽出する(図9に示した、ステップS1004に対応)。
具体的には、類似事例抽出部14cは、高確信度組合選択部14bによって選択された説明変数値「電化製品」、「0万円〜30万円」および「4回以上」と、目的変数値「不正利用」との組み合わせを構成要素とする事例を未知事例としたときの類似事例を(1)式〜(5)式を用いて抽出する。
ここでも、説明変数値「貴金属」、「30万円以上」および「4回以上」と、目的変数値「不正利用」との組み合わせを構成要素とする事例を未知事例としたときの類似事例を抽出したときの処理と同様に、類似事例抽出部14cは、抽出する事例数「k」を40とし、(2)式によって算出される影響度「w(j,v)」を用いず、影響度「w(j,v)」を1として類似事例を抽出するものとする。
そして、類似事例抽出部14cは、抽出した類似事例を構成する説明変数値の組み合わせと、ラベル数とを対応付けて類似事例記憶部13dに格納して、類似事例記憶部13dを更新する(図5の(B)参照)。
続いて、パターン抽出装置10は、高確信度組合が有する各説明変数値ごとに、類似事例抽出部14cによって抽出された類似事例の集合から新たなる説明変数値の組み合わせを生成するために用いる影響度を算出する(図9に示した、ステップS1005に対応)。具体的には、影響度算出部14dは、類似事例抽出部14cによって抽出された類似事例の集合から(2)式を用いて、説明変数値「電化製品」の影響度と、説明変数値「30万円以上」の影響度と、説明変数値「4回以上」の影響度を算出し、各説明変数値と各説明変数値の影響度とを対応付けて影響度記憶部13eに格納する。
ここで、影響度算出部14dによって算出される説明変数値「電化製品」の影響度は、「0.034」であり、説明変数値「4回以上」の影響度は、「0.384」である。また、影響度算出部14dによって算出される説明変数値「30万円以上」の影響度は、「0.294」であるが、類似事例の集合の含まれる各事例において説明変数値「30万円以上」を構成要素とする事例の数が説明変数値「0万円〜30万円」を構成要素とする事例の数よりも少ないと判定され、正負を反転させて影響度記憶部13eに格納されるものとする(図6の(C)参照)。
続いて、パターン抽出装置10は、影響度算出部14dによって算出された影響度を用いて新組合を生成する(図9に示した、ステップS1006に対応)。
具体的には、パターン抽出部14eは、影響度算出部14dによって算出された説明変数値「電化製品」の影響度と、説明変数値「30万円以上」の影響度と、説明変数値「4回以上」の影響度とにおいて、最も影響度が小さい説明変数値「30万円以上」を高確信度組合が有する説明変数値「電化製品」、「30万円以上」および「4回以上」の組み合わせから削除することで、新組合として、説明変数値「電化製品」および「4回以上」の組み合わせを生成する。そして、パターン抽出部14eは、新組合を新組合記憶部13fに格納し、新組合記憶部13fを更新する(図7の(B)参照)。
続いて、パターン抽出装置10は、新組合を構成要素とする全事例において目的変数値「不正利用」を構成要素とする事例が含まれる割合が所定の満足度を満たした場合に、新組合をパターンとして抽出する(図9に示した、ステップS1007に対応)。
具体的には、パターン抽出部14eは、事例集合から、説明変数値「電化製品」および「4回以上」の組み合わせを構成要素とする事例の数(20)を計測するとともに、説明変数値「電化製品」および「4回以上」と、目的変数値「不正利用」との組み合わせを構成要素とする事例の数(16)を計測する。
そして、パターン抽出部14eは、説明変数値「電化製品」および「4回以上」と、目的変数値「不正利用」との組み合わせを構成要素とする事例の数から、説明変数値「電化製品」および「4回以上」の組み合わせを構成要素とする事例の数を除算する(つまり、16/20=80%)ことで、新組合を構成要素とする全事例において「不正利用」を構成要素とする事例が含まれる割合を算出する。
さらに、パターン抽出部14eは、目的変数値「不正利用」を構成要素とする事例の数が20以上であり、目的変数値「不正利用」を構成要素とする事例を含んだ割合が75%以上であると判定し、説明変数値「電化製品」および「4回以上」の組み合わせをパターンとして抽出する。そして、パターン抽出部14eは、パターンとして抽出した説明変数値「電化製品」および「4回以上」の組み合わせをパターン記憶部13gに追加して格納する(図8の(B)参照)。
続いて、パターン抽出装置10は、パターン抽出部14eによって抽出された高確信度組合としての説明変数値の組み合わせ以外の説明変数値の組み合わせであり、確信度算出部14aによって算出された確信度が所定の閾値を満たす事例について、事例を構成する説明変数値の組み合わせを高確信度組合として選択する処理を実行するが、いずれの説明変数値の組み合わせも高確信度組合として選択されずに処理を終了する(図9に示した、ステップS1003否定に対応)。
[実施例1の効果]
上記したように、実施例1によれば、構成要素として含まれる割合が少ない目的変数値のパターンを容易に抽出することが可能である。
また、実施例1によれば、構成要素として含まれる割合が少ない目的変数値のパターンを高速で抽出することが可能である。
また、実施例1によれば、重複したパターンを抽出せずに構成要素として含まれる割合が少ない目的変数値のパターンを抽出することが可能である。
また、実施例1によれば、割合が少ない目的変数値のパターンを多く抽出することが可能である。
ところで、事例の数が10以上であり、目的変数値「不正利用」を構成要素とする事例を含んだ割合が75%以上である、クレジットカードを不正利用しているユーザの商品購入パターンを抽出する場合には、高確信度組合選択部14bによって選択された高確信度組合において、説明変数値「電化製品」、「0万円〜30万円」および「4回以上」の組み合わせと、説明変数値「貴金属」、「30万円以上」および「1回〜3回」の組み合わせとをパターンとして抽出するようにしてもよい。
そこで、実施例2では、高確信度組合を構成要素とする全事例において、特定の目的変数値を構成要素とする事例が含まれる割合が所定の満足度を満たしたときに、高確信度組合として選択された説明変数値の組み合わせをパターンとして抽出する場合を説明する。なお、実施例2では、実施例2に係るパターン抽出装置の構成およびパターン抽出装置による処理の流れを説明した後、実施例2による効果を説明する。
[パターン抽出装置の構成]
実施例2に係るパターン抽出装置10の構成は、実施例1に係るパターン抽出装置10と以下に説明する点が異なる。
すなわち、パターン抽出部14eは、高確信度組合選択部14bによって選択された高確信度組合を構成要素とする全事例において、特定の目的変数値を構成要素とする事例が含まれる割合が所定の満足度を満たした場合に、高確信度組合として選択された説明変数値の組み合わせをパターンとして抽出する。
具体的には、パターン抽出部14eは、事例集合から、説明変数値「貴金属」、「30万円以上」および「4回以上」の組み合わせを構成要素とする事例の数(6)を計測するとともに、説明変数値「貴金属」、「30万円以上」および「4回以上」と、目的変数値「不正利用」との組み合わせを構成要素とする事例の数(10)を計測する。
そして、パターン抽出部14eは、説明変数値「貴金属」、「30万円以上」および「4回以上」と、目的変数値「不正利用」との組み合わせを構成要素とする事例の数から、説明変数値「貴金属」、「30万円以上」および「4回以上」の組み合わせを構成要素とする事例の数を除算する(つまり、6/10=60%)ことで、説明変数値「貴金属」、「30万円以上」および「4回以上」の組み合わせを構成要素とする全事例において目的変数値「不正利用」を構成要素とする事例が含まれる割合を算出する。
さらに、パターン抽出部14eは、目的変数値「不正利用」を構成要素とする事例の数が10以上であり、目的変数値「不正利用」を構成要素とする事例を含んだ割合が75%未満であると判定し、説明変数値「貴金属」、「30万円以上」および「4回以上」の組み合わせのパターン抽出処理を中止する。
続いて、パターン抽出部14eは、説明変数値「電化製品」、「30万円以上」および「4回以上」の組み合わせのパターン抽出処理を実行する。ここで、パターン抽出部14eは、説明変数値「貴金属」、「30万円以上」および「4回以上」の組み合わせのパターン抽出処理と同様に、目的変数値「不正利用」を構成要素とする事例を含んだ割合が75%未満であると判定し、説明変数値「電化製品」、「30万円以上」および「4回以上」の組み合わせのパターン抽出処理を中止する。
続いて、パターン抽出部14eは、説明変数値「電化製品」、「0万円〜30万円」および「4回以上」の組み合わせのパターン抽出処理を実行する。ここで、パターン抽出部14eは、目的変数値「不正利用」を構成要素とする事例の数が10以上であり、目的変数値「不正利用」を構成要素とする事例を含んだ割合が75%以上であると判定し、説明変数値「電化製品」、「0万円〜30万円」および「4回以上」の組み合わせをパターンとして抽出する。そして、パターン抽出部14eは、パターンとして抽出した説明変数値「電化製品」、「0万円〜30万円」および「4回以上」の組み合わせをパターン記憶部13gに格納する。
続いて、パターン抽出部14eは、説明変数値「貴金属」、「30万円以上」および「1回〜3回」の組み合わせのパターン抽出処理を実行する。ここで、パターン抽出部14eは、目的変数値「不正利用」を構成要素とする事例の数が10以上であり、目的変数値「不正利用」を構成要素とする事例を含んだ割合が75%以上であると判定し、説明変数値「貴金属」、「30万円以上」および「1回〜3回」の組み合わせをパターンとして抽出する。そして、パターン抽出部14eは、パターンとして抽出した説明変数値「貴金属」、「30万円以上」および「1回〜3回」の組み合わせをパターン記憶部13gに追加して格納する。
[パターン抽出装置による処理]
次に、図10を用いて、パターン抽出装置10による処理の流れを説明する。図10は、実施例2に係るパターン抽出装置による処理の流れを示すフローチャート図である。
図10に示すように、パターン抽出装置10は、事例集合を受け付けると(ステップS2001肯定)、確信度を事例ごとに算出し(ステップS2002)、特定の目的変数値を構成要素とする事例が含まれる割合が所定の満足度を満たした説明変数値の組み合わせをパターンとして抽出し(ステップS2003)処理を終了する。
[実施例2による効果]
上記したように、実施例2によれば、構成要素として含まれる割合が少ない目的変数値のパターンを単純な構成で抽出することが可能である。
ところで、パターン抽出部14eによって抽出された説明変数値の組み合わせを構成要素としない各事例を用いて確信度を算出するようにしてもよい。
そこで、実施例3では、パターン抽出部14eによって抽出された説明変数値の組み合わせを構成要素としない各事例を用いて確信度を算出する場合を説明する。なお、実施例3では、実施例3に係るパターン抽出装置の構成およびパターン抽出装置による処理の流れを説明した後、実施例3による効果を説明する。
[パターン抽出装置の構成]
実施例3に係るパターン抽出装置10の構成は、実施例1に係るパターン抽出装置10と以下に説明する点が異なる。
すなわち、確信度算出部14aは、パターン抽出部14eによって抽出された説明変数値の組み合わせを構成要素としない各事例を用いて確信度を算出する。
具体的には、確信度算出部14aは、パターン抽出部14eによって抽出された説明変数値「貴金属」および「30万円以上」の組み合わせを事例集合記憶部13aから削除して更新する(図11参照)。なお、図11は、実施例3に係る事例集合記憶部に記憶される情報の一例を示す図である。
そして、確信度算出部14aは、事例ごとに、目的変数値「不正利用」を構成要素とするか否かを判定し、目的変数値「不正利用」を構成要素とすると判定した事例について、(1)式〜(6)式を用いて確信度を算出し、所定の説明変数値の組み合わせと、ラベル数と、確信度とを対応付けて確信度記憶部13bに格納する(図12参照)。なお、図12は、実施例3に係る確信度記憶部に記憶される情報の一例を示す図である。
なお、(2)式および(3)式を用いて算出される説明変数値「電化製品」の影響度は、「0.241」であり、説明変数値「貴金属」の影響度は、「0.636」であり、説明変数値「0万円〜30万円」の影響度は、「0.037」であり、説明変数値「30万円以上」の影響度は、「0.077」であり、説明変数値「1回〜3回」の影響度は、「0.529」であり、説明変数値「4回以上」の影響度は、「0.391」である(図13参照)。なお、図13は、実施例3に係る影響度記憶部に記憶される情報の一例を示す図である。
また、図12に示した例でも、目的変数値「不正利用」を構成要素とする各事例を未知事例とし、抽出する事例数「k」を20とした場合の確信度を示している。ここで、説明変数値「電化製品」、「0万円〜30万円」および「1回〜3回」と、目的変数値「不正利用」との組み合わせを構成要素とする事例の確信度を算出するときには(図12の(1)参照)、説明変数値「電化製品」および「1回〜3回」である説明変数値の組み合わせを構成要素とする各事例(図12の(1)および(3)参照)が類似事例に相当する。
また、説明変数値「電化製品」、「0万円〜30万円」および「4回以上」と、目的変数値「不正利用」との組み合わせを構成要素とする事例の確信度を算出するときには(図12の(2)参照)、説明変数値「電化製品」および「4回以上」の組み合わせを構成要素とする各事例(図12の(2)および(4)参照)が類似事例に相当する。
同様に、図12の(4)の確信度を算出するときには、図12の(2)および(4)が類似事例に相当し、図12の(5)の確信度を算出するときには、図12の(5)および(6)が類似事例に相当する。なお、図12の(3)および(6)については、目的変数値「不正利用」を構成要素とする事例が0であるため、確信度を算出していない。
続いて、パターン抽出装置10は、確信度算出部14aによって算出された確信度が所定の閾値を満たす事例について、事例を構成する説明変数値の組み合わせを高確信度組合として選択する。
本例では、事例集合に目的変数値「不正利用」を構成要素とする事例が20件含まれており、高確信度組合選択部14bは、目的変数値「不正利用」を構成要素とする事例の数から事例集合に含まれる事例の数を除算した値(つまり、「20/60=0.3333」)以上の確信度を有する説明変数値の組み合わせを選択して、高確信度組合記憶部13cに格納する(図14参照)。なお、図14は、実施例3に係る高確信度組合記憶部に記憶される情報の一例を示す図である。
[パターン抽出装置による処理]
次に、図15を用いて、パターン抽出装置10による処理の流れを説明する。図15は、実施例3に係るパターン抽出装置による処理の流れを示すフローチャート図である。なお、実施例1に係るパターン抽出装置10による処理の流れと異なる点についてのみ詳細に説明する。
図15に示すように、パターン抽出装置10は、事例集合を受け付けると(ステップS3001肯定)、パターンとして抽出された説明変数値の組み合わせを事例集合から削除し(ステップS3002)、確信度を事例ごとに算出し(ステップS3003)、高確信度組合として選択する処理を実行する(ステップS3004肯定)。
続いて、パターン抽出装置10は、パターン抽出処理(ステップS3005〜ステップS3008)を実行し、再び、パターンとして抽出された説明変数値の組み合わせを事例集合から削除して(ステップS3002)、上記した処理(ステップS3002〜ステップS3008)をいずれの説明変数値の組み合わせも高確信度組合として選択されなくなるまで(ステップS3004否定)繰り返し実行する。
[実施例3による効果]
上記したように、実施例3によれば、構成要素として含まれる割合が少ない目的変数値のパターンとして、多様なパターンを抽出することが可能である。
ところで、実施例1では、類似事例抽出部14cによって抽出された類似事例の集合から影響度を算出する場合を説明したが、本発明はこれに限定されるものではなく、高確信度組合選択部14bによって選択された高確信度組合が有する各説明変数値ごとに、新たなる説明変数値の組み合わせを生成するために用いる影響度を算出するようにしてもよい。
そこで、実施例4では、高確信度組合選択部14bによって選択された高確信度組合が有する各説明変数値ごとに、新たなる説明変数値の組み合わせを生成するために用いる影響度を算出する場合を説明する。なお、実施例4では、実施例4に係るパターン抽出装置の構成およびパターン抽出装置による処理の流れを説明した後、実施例4による効果を説明する。
[パターン抽出装置の構成]
実施例4に係るパターン抽出装置10の構成は、実施例1に係るパターン抽出装置10と以下に説明する点が異なる。
すなわち、影響度算出部14dは、高確信度組合選択部14bによって選択された高確信度組合が有する各説明変数値ごとに、新たなる説明変数値の組み合わせを生成するために用いる影響度を算出する。
[パターン抽出装置による処理]
次に、図16を用いて、パターン抽出装置10による処理の流れを説明する。図16は、実施例4に係るパターン抽出装置による処理の流れを示すフローチャート図である。なお、実施例1に係るパターン抽出装置10による処理の流れと異なる点についてのみ詳細に説明する。
図16に示すように、パターン抽出装置10は、事例集合を受け付けると(ステップS4001肯定)、確信度を事例ごとに算出し(ステップS4002)、高確信度組合として選択する処理を実行する(ステップS4003)。
続いて、パターン抽出装置10は、高確信度組合選択部14bによって選択された高確信度組合が有する各説明変数値ごとに、新たなる説明変数値の組み合わせを生成するために用いる影響度を算出して(ステップS4004)パターン抽出処理(ステップS4005〜ステップS4006)を実行し、再び、上記した処理(ステップS4003〜ステップS4006)をいずれの説明変数値の組み合わせも高確信度組合として選択されなくなるまで(ステップS4003否定)繰り返し実行する。
[実施例4による効果]
上記したように、実施例4によれば、簡単な構成で構成要素として含まれる割合が少ない目的変数値のパターンを抽出することが可能である。
さて、これまで実施例1〜実施例4について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、実施例5として、他の実施例を説明する。
高確信度組合が有する条件として数値の範囲を示した各説明変数値について、説明変数値が示した数値の範囲を拡大し、特定の目的変数値を構成要素とする事例を含んだ割合が最も多い数値の範囲に変更して新たなる説明変数値の組み合わせを生成するようにしてもよい。
例えば、高確信度組合選択部14bによって、説明変数値「貴金属」、「30万円以上」および「4回以上」の組み合わせが選択されたときに、説明変数値「貴金属」、「30万円以上」および「3回以上」の組み合わせと、説明変数値「貴金属」、「30万円以上」および「2回以上」の組み合わせと、説明変数値「貴金属」、「30万円以上」および「1回以上」の組み合わせとを新たなる説明変数値の組み合わせとして生成してもよい。
このようにすることで、構成要素として含まれる割合が少ない目的変数値のパターンとして、より多くのパターンを抽出することが可能である。
また、影響度算出部14dによって算出された影響度が高い順に説明変数値を追加することで新たなる説明変数値の組み合わせを生成するようにしてもよい。
また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。
例えば、実施例1では、事例集合に含まれる全事例において特定の目的変数値を構成要素とする事例が含まれる割合を所定の閾値として高確信度組合を選択する場合を説明したが、本発明はこれに限定されるものではなく、入力部11を介してユーザから高確信度組合を選択するための閾値を受け付け、この高確信度組合を選択するための閾値を用いて高確信度組合を選択するようにしてもよい。
この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報(例えば、図2〜図8、図11〜図14に示した記憶情報や、高確信度組合として選択された説明変数値の組み合わせをパターンとして抽出するか否かを判定するための満足度)については、特記する場合を除いて任意に変更することができる。
また、図1に示したパターン抽出装置10の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
例えば、図1に示した、類似事例抽出部14cと、影響度算出部14dと、パターン抽出部14eとを統合して構成してもよいし、パターン抽出部14eから新たなる説明変数値の組み合わせを生成する機能を備えた構成要素を分離してもよい。
さらに、パターン抽出装置10にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
ところで、本発明はあらかじめ用意されたプログラムをパターン抽出装置10としてのコンピュータで実行することによって実現するようにしてもよい。そこで、以下では、図17を用いて、上記の実施例に示したパターン抽出装置10と同様の機能を有するパターン抽出を実行するコンピュータを一例として説明する。図17は、パターン抽出プログラムを実行するコンピュータを示す図である。
同図に示すように、パターン抽出装置10としてのコンピュータ110は、入力部120、ROM130、CPU140、HDD150、RAM160および出力部170をバス180などで接続して構成される。
ROM130には、上記の実施例1に示したパターン抽出装置10と同様の機能を発揮するパターン抽出プログラム、つまり、図17に示すように確信度算出プログラム130aと、高確信度組合選択プログラム130bと、類似事例抽出プログラム130cと、影響度算出プログラム130dと、パターン抽出プログラム130eとが、あらかじめ記憶されている。なお、これらのプログラム130a〜プログラム130eについては、図1に示したパターン抽出装置10の各構成要素と同様、適宜統合または、分散してもよい。
そして、CPU140がこれらのプログラム130a〜プログラム130eをROM130から読み出して実行することで、図17に示すように、プログラム130a〜プログラム130eは、確信度算出プロセス140aと、高確信度組合選択プロセス140bと、類似事例抽出プロセス140cと、影響度算出プロセス140dと、パターン抽出プロセス140eとして機能するようになる。なお、プロセス140a〜プロセス140eは、図1に示した、確信度算出部14aと、高確信度組合選択部14bと、類似事例抽出部14cと、影響度算出部14dと、パターン抽出部14eとにそれぞれ対応する。
また、HDD150には、図17に示すように、事例集合データテーブル150aと、確信度データテーブル150bと、高確信度組合データテーブル150cと、類似事例データテーブル150dと、影響度データテーブル150eと、新組合データテーブル150fと、パターンデータテーブル150gとが設けられる。
そして、CPU140は、データテーブル150a〜データテーブル150gから、事例集合データ160aと、確信度データ160bと、高確信度組合データ160cと、類似事例データ160dと、影響度データ160eと、新組合データ160fと、パターンデータ160gとを読み出してRAM160に格納し、RAM160に格納されたデータ160a〜データ160gに基づいて処理を実行する。なお、データ160a〜データ160gは、図1に示した事例集合記憶部13aと、確信度記憶部13bと、高確信度組合記憶部13cと、類似事例記憶部13dと、影響度記憶部13eと、新組合記憶部13fと、パターン記憶部13gとに対応する。
なお、上記した各プログラム130a〜プログラム130eについては、必ずしも最初からROM130に記憶させておく必要はなく、例えば、コンピュータ110に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」、またはコンピュータ110の内外に備えられるHDDなどの「固定用の物理媒体」、さらには公衆回線、インターネット、LAN、WANなどを介してコンピュータ110に接続される「他のコンピュータ(またはサーバ)」などに各プログラムを記憶させておき、コンピュータ110がこれから各プログラムを読み出して実行するようにしてもよい。
以上の実施例1〜5を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)各説明変数の条件を示した説明変数値の組み合わせと、目的変数の条件を示した目的変数値とを対応付けて構成される複数の事例を含んでなる事例集合から、所定の説明変数値の組み合わせを構成要素とする全事例において特定の目的変数値を構成要素とする事例を含んだ割合が所定の満足度を満たす説明変数値の組み合わせをパターンとして抽出するパターン抽出装置であって、
前記所定の説明変数値の組み合わせを構成要素とする全事例の中に、特定の目的変数値を構成要素とする事例を含む信頼度を示す確信度を事例ごとに算出する確信度算出手段と、
前記確信度算出手段によって算出された確信度が所定の閾値を満たす事例について、当該事例を構成する前記説明変数値の組み合わせを高確信度組合として選択する高確信度組合選択手段と、
前記高確信度組合選択手段によって選択された高確信度組合を構成要素とする全事例において、特定の目的変数値を構成要素とする事例が含まれる割合が所定の満足度を満たした場合に、当該高確信度組合として選択された前記説明変数値の組み合わせを前記パターンとして抽出するパターン抽出手段と、
を備えたことを特徴とするパターン抽出装置。
(付記2)前記確信度算出手段は、特定の目的変数値を構成要素としない事例について、確信度を算出しないことを特徴とする付記1に記載のパターン抽出装置。
(付記3)前記高確信度組合選択手段は、前記事例集合に含まれる全事例において特定の目的変数値を構成要素とする事例が含まれる割合を前記所定の閾値として高確信度組合を選択することを特徴とする付記1または2に記載のパターン抽出装置。
(付記4)前記高確信度組合選択手段は、前記パターン抽出手段によって抽出されたパターンを構成する前記説明変数値の組み合わせ以外の前記説明変数値の組み合わせから高確信度組合を選択することを特徴とする付記1〜3のいずれか1つに記載のパターン抽出装置。
(付記5)前記確信度算出手段は、前記パターン抽出手段によって抽出された前記説明変数値の組み合わせを構成要素としない各事例を用いて確信度を算出することを特徴とする付記1〜4のいずれか1つに記載のパターン抽出装置。
(付記6)前記高確信度組合選択手段によって選択された前記高確信度組合が有する各説明変数値ごとに、新たなる説明変数値の組み合わせを生成するために用いる影響度を算出する影響度算出手段をさらに備え、
前記パターン抽出手段は、前記影響度算出手段によって算出された影響度を用いて新たなる説明変数値の組み合わせを生成し、当該新たなる説明変数値の組み合わせを構成要素とする全事例において特定の目的変数値を構成要素とする事例が含まれる割合が所定の満足度を満たした場合に、当該新たなる説明変数値の組み合わせを前記パターンとして抽出することを特徴とする付記1〜5のいずれか1つに記載のパターン抽出装置。
(付記7)前記パターン抽出手段は、前記高確信度組合が有する各説明変数値の組み合わせから前記影響度算出手段によって算出された影響度が低い順に説明変数値を削除することで前記新たなる説明変数値の組み合わせを生成することを特徴とする付記6に記載のパターン抽出装置。
(付記8)前記パターン抽出手段は、前記高確信度組合が有する条件として数値の範囲を示した各説明変数値について、説明変数値が示した数値の範囲を拡大し、特定の目的変数値を構成要素とする事例を含んだ割合が最も多い数値の範囲に変更して前記新たなる説明変数値の組み合わせを生成することを特徴とする付記6または7に記載のパターン抽出装置。
(付記9)前記高確信度組合選択手段によって選択された前記高確信度組合を構成要素とする各事例と類似する類似事例の集合を前記事例集合から抽出する類似事例集合抽出手段をさらに備え、
前記影響度算出手段は、前記類似事例集合抽出手段によって抽出された類似事例の集合から前記影響度を算出することを特徴とする付記6〜8のいずれか1つに記載のパターン抽出装置。
(付記10)前記パターン抽出手段は、前記影響度算出手段によって算出された影響度が高い順に説明変数値を追加することで前記新たなる説明変数値の組み合わせを生成することを特徴とする付記6〜9に記載のパターン抽出装置。
(付記11)各説明変数の条件を示した説明変数値の組み合わせと、目的変数の条件を示した目的変数値とを対応付けて構成される複数の事例を含んでなる事例集合から、所定の説明変数値の組み合わせを構成要素とする全事例において特定の目的変数値を構成要素とする事例を含んだ割合が所定の満足度を満たす説明変数値の組み合わせをパターンとして抽出するパターン抽出処理をコンピュータに実行させるパターン抽出プログラムであって、
前記所定の説明変数値の組み合わせを構成要素とする全事例の中に、特定の目的変数値を構成要素とする事例を含む信頼度を示す確信度を事例ごとに算出する確信度算出手順と、
前記確信度算出手順によって算出された確信度が所定の閾値を満たす事例について、当該事例を構成する前記説明変数値の組み合わせを高確信度組合として選択する高確信度組合選択手順と、
前記高確信度組合選択手順によって選択された高確信度組合を構成要素とする全事例において、特定の目的変数値を構成要素とする事例が含まれる割合が所定の満足度を満たした場合に、当該高確信度組合として選択された前記説明変数値の組み合わせを前記パターンとして抽出するパターン抽出手順と、
をコンピュータに実行させることを特徴とするパターン抽出プログラム。
(付記12)各説明変数の条件を示した説明変数値の組み合わせと、目的変数の条件を示した目的変数値とを対応付けて構成される複数の事例を含んでなる事例集合から、所定の説明変数値の組み合わせを構成要素とする全事例において特定の目的変数値を構成要素とする事例を含んだ割合が所定の満足度を満たす説明変数値の組み合わせをパターンとして抽出するパターン抽出方法であって、
前記所定の説明変数値の組み合わせを構成要素とする全事例の中に、特定の目的変数値を構成要素とする事例を含む信頼度を示す確信度を事例ごとに算出する確信度算出工程と、
前記確信度算出工程によって算出された確信度が所定の閾値を満たす事例について、当該事例を構成する前記説明変数値の組み合わせを高確信度組合として選択する高確信度組合選択工程と、
前記高確信度組合選択工程によって選択された高確信度組合を構成要素とする全事例において、特定の目的変数値を構成要素とする事例が含まれる割合が所定の満足度を満たした場合に、当該高確信度組合として選択された前記説明変数値の組み合わせを前記パターンとして抽出するパターン抽出工程と、
を含んだことを特徴とするパターン抽出方法。
パターン抽出装置の構成を示すブロック図である。 事例集合記憶部に記憶される情報の一例を示す図である。 確信度記憶部に記憶される情報の一例を示す図である。 高確信度組合記憶部に記憶される情報の一例を示す図である。 類似事例記憶部に記憶される情報の一例を示す図である。 影響度記憶部に記憶される情報の一例を示す図である。 新組合記憶部に記憶される情報の一例を示す図である。 パターン記憶部に記憶される情報の一例を示す図である。 パターン抽出装置による処理の流れを示すフローチャート図である。 実施例2に係るパターン抽出装置による処理の流れを示すフローチャート図である。 実施例3に係る事例集合記憶部に記憶される情報の一例を示す図である。 実施例3に係る確信度記憶部に記憶される情報の一例を示す図である。 実施例3に係る影響度記憶部に記憶される情報の一例を示す図である。 実施例3に係る高確信度組合記憶部に記憶される情報の一例を示す図である。 実施例3に係るパターン抽出装置による処理の流れを示すフローチャート図である。 実施例4に係るパターン抽出装置による処理の流れを示すフローチャート図である。 パターン抽出プログラムを実行するコンピュータを示す図である。
符号の説明
10 パターン抽出装置
11 入力部
12 出力部
13 記憶部
13a 事例集合記憶部
13b 確信度記憶部
13c 高確信度組合記憶部
13d 類似事例記憶部
13e 影響度記憶部
13f 新組合記憶部
13g パターン記憶部
14 処理部
14a 確信度算出部
14b 高確信度組合選択部
14c 類似事例抽出部
14d 影響度算出部
14e パターン抽出部
110 コンピュータ
120 入力部
130 ROM(Read Only Memory)
130a 確信度算出プログラム
130b 高確信度組合選択プログラム
130c 類似事例抽出プログラム
130d 影響度算出プログラム
130e パターン抽出プログラム
140 CPU(Central Processing Unit)
140a 確信度算出プロセス
140b 高確信度組合選択プロセス
140c 類似事例抽出プロセス
140d 影響度算出プロセス
140e パターン抽出プロセス
150 HDD(Hard disk drive)
150a 事例集合データテーブル
150b 確信度データテーブル
150c 高確信度組合データテーブル
150d 類似事例データテーブル
150e 影響度データテーブル
150f 新組合データテーブル
150g パターンデータテーブル
160 RAM(Random Access Memory)
160a 事例集合データ
160b 確信度データ
160c 高確信度組合データ
160d 類似事例データ
160e 影響度データ
160f 新組合データ
160g パターンデータ
170 出力部
180 バス

Claims (7)

  1. 各説明変数の条件を示した説明変数値の組み合わせと、目的変数の条件を示した目的変数値とを対応付けて構成される複数の事例を含んでなる事例集合から、所定の説明変数値の組み合わせを構成要素とする全事例において特定の目的変数値を構成要素とする事例を含んだ割合が第1の閾値を満たした説明変数値の組み合わせをパターンとして抽出するパターン抽出装置であって、
    前記所定の説明変数値の組み合わせを構成要素とする全事例の件数の中で、特定の目的変数値を構成要素とする事例の件数が占める割合を示す確信度を事例ごとに算出する確信度算出手段と、
    前記確信度算出手段によって算出された確信度が第2の閾値を満たす事例について、当該事例を構成する前記説明変数値の組み合わせを高確信度組合として選択する高確信度組合選択手段と、
    前記高確信度組合選択手段によって選択された高確信度組合を構成要素とする全事例において、特定の目的変数値を構成要素とする事例が含まれる割合が前記第1の閾値を満たした場合に、当該高確信度組合として選択された前記説明変数値の組み合わせを前記パターンとして抽出するパターン抽出手段と、
    を備えたことを特徴とするパターン抽出装置。
  2. 前記高確信度組合選択手段は、前記パターン抽出手段によって抽出されたパターンを構成する前記説明変数値の組み合わせ以外の前記説明変数値の組み合わせから高確信度組合を選択することを特徴とする請求項1に記載のパターン抽出装置。
  3. 前記高確信度組合選択手段によって選択された前記高確信度組合内の説明変数値ごとに、前記説明変数値自体が前記説明変数値の組み合わせを構成要素とする事例の目的変数値に影響を及ぼす度合を示す影響度を算出する影響度算出手段をさらに備え、
    前記パターン抽出手段は、前記影響度算出手段によって算出された影響度を用いて新たなる説明変数値の組み合わせを生成し、当該新たなる説明変数値の組み合わせを構成要素とする全事例において特定の目的変数値を構成要素とする事例が含まれる割合が前記第1の閾値を満たした場合に、当該新たなる説明変数値の組み合わせを前記パターンとして抽出することを特徴とする請求項1または2に記載のパターン抽出装置。
  4. 前記パターン抽出手段は、前記高確信度組合が有する各説明変数値の組み合わせから前記影響度算出手段によって算出された影響度が低い順に説明変数値を削除することで前記新たなる説明変数値の組み合わせを生成することを特徴とする請求項3に記載のパターン抽出装置。
  5. 前記高確信度組合選択手段によって選択された前記高確信度組合を構成要素とする各事例内の説明変数値の一部が共通する事例を類似事例の集合として前記事例集合から抽出する類似事例集合抽出手段をさらに備え、
    前記影響度算出手段は、前記類似事例集合抽出手段によって抽出された類似事例の集合から前記影響度を算出することを特徴とする請求項3または4に記載のパターン抽出装置。
  6. 各説明変数の条件を示した説明変数値の組み合わせと、目的変数の条件を示した目的変数値とを対応付けて構成される複数の事例を含んでなる事例集合を記憶する記憶部から、所定の説明変数値の組み合わせを構成要素とする全事例において特定の目的変数値を構成要素とする事例を含んだ割合が第1の閾値を満たした説明変数値の組み合わせをパターンとして抽出するパターン抽出処理をコンピュータに実行させるパターン抽出プログラムであって、
    前記記憶部を参照して、前記所定の説明変数値の組み合わせを構成要素とする全事例の件数の中で、特定の目的変数値を構成要素とする事例の件数が占める割合を示す確信度を事例ごとに算出する確信度算出手順と、
    前記確信度算出手順によって算出された確信度が第2の閾値を満たす事例について、当該事例を構成する前記説明変数値の組み合わせを高確信度組合として選択する高確信度組合選択手順と、
    前記高確信度組合選択手順によって選択された高確信度組合を構成要素とする全事例において、特定の目的変数値を構成要素とする事例が含まれる割合が前記第1の閾値を満たした場合に、当該高確信度組合として選択された前記説明変数値の組み合わせを前記パターンとして抽出するパターン抽出手順と、
    をコンピュータに実行させることを特徴とするパターン抽出プログラム。
  7. 各説明変数の条件を示した説明変数値の組み合わせと、目的変数の条件を示した目的変数値とを対応付けて構成される複数の事例を含んでなる事例集合から、所定の説明変数値の組み合わせを構成要素とする全事例において特定の目的変数値を構成要素とする事例を含んだ割合が第1の閾値を満たした説明変数値の組み合わせをパターンとして抽出するパターン抽出装置のパターン抽出方法であって、
    前記パターン抽出装置は、
    前記所定の説明変数値の組み合わせを構成要素とする全事例の件数の中で、特定の目的変数値を構成要素とする事例の件数が占める割合を示す確信度を事例ごとに算出し、
    出された確信度が第2の閾値を満たす事例について、当該事例を構成する前記説明変数値の組み合わせを高確信度組合として選択し、
    択された高確信度組合を構成要素とする全事例において、特定の目的変数値を構成要素とする事例が含まれる割合が前記第1の閾値を満たした場合に、当該高確信度組合として選択された前記説明変数値の組み合わせを前記パターンとして抽出す
    各処理を実行することを特徴とするパターン抽出方法。
JP2007315028A 2007-12-05 2007-12-05 パターン抽出装置、パターン抽出プログラムおよびパターン抽出方法 Expired - Fee Related JP5228461B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007315028A JP5228461B2 (ja) 2007-12-05 2007-12-05 パターン抽出装置、パターン抽出プログラムおよびパターン抽出方法
US12/326,640 US8086626B2 (en) 2007-12-05 2008-12-02 Rare pattern extracting device and rare pattern extracting method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007315028A JP5228461B2 (ja) 2007-12-05 2007-12-05 パターン抽出装置、パターン抽出プログラムおよびパターン抽出方法

Publications (2)

Publication Number Publication Date
JP2009140178A JP2009140178A (ja) 2009-06-25
JP5228461B2 true JP5228461B2 (ja) 2013-07-03

Family

ID=40722705

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007315028A Expired - Fee Related JP5228461B2 (ja) 2007-12-05 2007-12-05 パターン抽出装置、パターン抽出プログラムおよびパターン抽出方法

Country Status (2)

Country Link
US (1) US8086626B2 (ja)
JP (1) JP5228461B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6003561B2 (ja) * 2012-11-15 2016-10-05 富士通株式会社 抽出プログラム、抽出装置及び抽出方法
JP5967017B2 (ja) * 2013-05-31 2016-08-10 Jfeスチール株式会社 影響因子抽出方法およびプログラム
JP6208259B2 (ja) * 2013-12-25 2017-10-04 株式会社日立製作所 要因抽出システム、要因抽出方法
JP7168095B2 (ja) * 2019-08-29 2022-11-09 富士通株式会社 パターン抽出プログラム、装置、及び方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5251131A (en) * 1991-07-31 1993-10-05 Thinking Machines Corporation Classification of data records by comparison of records to a training database using probability weights
US6092064A (en) * 1997-11-04 2000-07-18 International Business Machines Corporation On-line mining of quantitative association rules
JP3762840B2 (ja) 1998-11-24 2006-04-05 富士通株式会社 類似事例に基づく予測を行う予測装置および方法
US7574652B2 (en) * 2002-06-20 2009-08-11 Canon Kabushiki Kaisha Methods for interactively defining transforms and for generating queries by manipulating existing query data
US7644361B2 (en) * 2002-12-23 2010-01-05 Canon Kabushiki Kaisha Method of using recommendations to visually create new views of data across heterogeneous sources
JP2007109012A (ja) 2005-10-13 2007-04-26 Hitachi Ltd 情報処理装置、事例出力方法、及びプログラム

Also Published As

Publication number Publication date
JP2009140178A (ja) 2009-06-25
US20090150391A1 (en) 2009-06-11
US8086626B2 (en) 2011-12-27

Similar Documents

Publication Publication Date Title
US20230342848A1 (en) Systems and methods of detecting manipulations on a binary options exchange
JP4918937B2 (ja) 帳票種識別プログラム、帳票種識別方法および帳票種識別装置
JP6744882B2 (ja) 行動パターン探索システム、および行動パターン探索方法
US20180225683A1 (en) Systems and methods for tagging transactions with emotions
JP5683758B1 (ja) レコメンド情報提示装置、レコメンド情報提示方法及びレコメンド情報提示プログラム
KR101782120B1 (ko) 상담정보 및 군집화에 기반한 금융상품추천장치 및 방법
JP5228461B2 (ja) パターン抽出装置、パターン抽出プログラムおよびパターン抽出方法
JP2018147280A (ja) データ分析装置及びデータ分析方法
CN105095306A (zh) 基于关联对象进行操作的方法及装置
JP2022105052A (ja) 情報処理システム、顧客特定装置、情報処理方法及びプログラム
JP2011014174A (ja) 電子決済システム、個人用端末、加盟店用端末、認証・決済装置、電子決済方法、および電子決済プログラム
CN111414533A (zh) 推荐信息的生成方法、装置、电子设备、存储介质
CN110909247B (zh) 文本信息的推送方法、电子设备及计算机存储介质
JP7275591B2 (ja) 評価支援プログラム、評価支援方法および情報処理装置
WO2013157603A1 (ja) 検索クエリ分析装置、検索クエリ分析方法、及びコンピュータ読み取り可能な記録媒体
JP6325407B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2008225846A (ja) 単語意味タグ付与装置および方法、プログラム並びに記録媒体
JP2005222445A (ja) データマイニングにおける情報処理方法及び解析装置
RU2689816C2 (ru) Способ для классифицирования последовательности действий пользователя (варианты)
JP2003323601A (ja) 信頼性尺度付き予測装置
CN112465611A (zh) 向用户推送物品信息的方法、装置和电子设备
JP5125071B2 (ja) スケール算出プログラム、スケール算出装置およびスケール算出方法
WO2021024882A1 (ja) 商品売上予測に用いる複数の商品情報を対応付ける判定サーバ及び判定方法
JP7302107B1 (ja) 学習システム、学習方法、及びプログラム
Krishna et al. Use of Big Data Technologies for Credit Card Fraud Prediction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100715

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121004

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121009

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130304

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160329

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees