JP2021018466A

JP2021018466A - ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラム

Info

Publication number: JP2021018466A
Application number: JP2019131942A
Authority: JP
Inventors: 泰弘池田; Yasuhiro Ikeda
Original assignee: Pksha Tech Co Ltd; PKSHA Technology Inc
Current assignee: Pksha Tech Co Ltd; PKSHA Technology Inc
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2021-02-15

Abstract

【課題】分類アルゴリズムの判断基準を抽出可能なルール抽出装置、情報処理装置、ルール抽出方法、ルール抽出プログラムを提供する。【解決手段】ルール抽出装置は、予め所属クラスの付与されている複数のデータレコード３１を、データレコード３１の各フィールドに含まれている特徴量ＤＣの性質に応じてクラスタリングを行うクラスタリング部２３を備える。また、ルール抽出装置は、クラスタリング部２３で同じクラスタに分類されて、かつ、所属クラスＤＳのうちの一の所属クラスＤＳの付与されている複数のデータレコード３１を備える。また、ルール抽出装置は、一の所属クラスＤＳと相違する他の所属クラスＤＳが付与されている複数のデータレコード３１とを併せて決定木解析する判定ルール抽出部２５とを備える。【選択図】図２

Description

本発明は、ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラムに関する。

従来、データの分類に機械学習の活用が期待されているが、機械学習に用いられるアルゴリズムは高精度になる一方で複雑化していて、機械学習による学習結果と、この学習結果に基づく判断基準とを外部から知り得ることが難しい、いわゆるブラックボックス性が課題となっている。例えば、機械学習した分類アルゴリズムがどのような判断基準でもって入力されたデータの分類を判断しているのかについて、それを可視化できない、又は可視化が容易ではないことが多い。そして、実際に運用されるシステムにおいては、判断基準を説明することのできないアルゴリズムの適用が難しいものとなっている一方で、少ないコストで高精度の判断結果が得られるアルゴリズムであればその適用が望まれることもある。そこで、ブラックボックス性のある分類アルゴリズムの判断基準の推定に関する技術が、例えば、特許文献１に記載されている。

特許文献１に記載の技術は、機械学習モデルの出力要因の推定精度を向上させる。つまり、機械学習モデルへの入力データ群に含まれる第１の入力データの指定に応じ、第１の入力データに関連する第１の入力データ群を抽出する。また、第１の入力データ群に対応した、機械学習モデルに入力される第１の変換データ群、及び、第１の変換データ群に対応した機械学習モデルの第１の出力データ群を、それぞれ取得する。そして、第１の入力データと第１の入力データ群のデータそれぞれとの距離、及び、第１の変換データと第１の変換データ群のデータそれぞれとの距離に基づき、第１の入力データ群から、推定モデルの学習対象データを選択する。

特開２０１９−５６９８３号公報

上記技術では、出力要因の推定精度が向上するように、学習対象データを選択することができるようになる。一方で、学習対象データを学習した学習結果について、ブラックボックス性が改善されるように、その学習結果によって得られる判断結果を推定するものではない。

本発明は、このような実情に鑑みてなされたものであり、その目的は、分類アルゴリズムの判断基準を抽出可能なルール抽出装置、情報処理装置、ルール抽出方法、ルール抽出プログラムを提供することにある。

上記課題を解決するルール抽出装置は、予め所属クラスの付与されている複数のデータレコードを、前記データレコードの各フィールドに含まれている特徴量の性質に応じてクラスタリングを行うクラスタリング部と、前記クラスタリング部で同じクラスタに分類されて、かつ、前記所属クラスのうちの一の所属クラスの付与されている複数の前記データレコードと、前記一の所属クラスと相違する他の所属クラスが付与されている複数の前記データレコードとを併せて決定木解析するルール抽出部とを備える。

上記課題を解決するルール抽出方法は、予め所属クラスの付与されている複数のデータレコードを、前記データレコードの各フィールドに含まれている特徴量の性質に応じてクラスタリングを行うクラスタリングステップと、前記クラスタリングステップで同じクラスタに分類されて、かつ、前記所属クラスのうちの一の所属クラスが付与されている複数の前記データレコードと、前記一の所属クラスと相違する他の所属クラスが付与されている複数の前記データレコードとを併せて決定木解析するルール抽出ステップとを備える。

上記課題を解決するルール抽出プログラムは、コンピュータに、予め所属クラスの付与されている複数のデータレコードを、前記データレコードの各フィールドに含まれている特徴量の性質に応じてクラスタリングを行うクラスタリング機能と、前記クラスタリング機能で同じクラスタに分類されて、かつ、前記所属クラスのうちの一の所属クラスが付与されている複数の前記データレコードと、前記一の所属クラスと相違する他の所属クラスが付与されている複数の前記データレコードとを併せて決定木解析するルール抽出機能とを実現させる。

このような構成、方法又はプログラムによれば、同じクラスタに分類された複数のデータレコードのうち同じ所属クラスに属するデータレコードについてルールが抽出される。つまり、分類された結果が、所属クラスとなるために必要なルールが決定木解析により抽出可能となる。決定木による分類は、可視可能であるため、抽出されたルールにより、分類アルゴリズムの判断基準を抽出することができる。

例えば、教師データから機械学習アルゴリズムの学習がされたとき、機械学習アルゴリズムの適用結果を得ることができるとともに、機械学習アルゴリズムの判定ルールを可視化可能にするため、機械学習のブラックボックス性を改善できるようになる。

好ましい構成として、前記データレコードの前記特徴量の性質に基づいて前記データレコードに対して推定した推定クラスを付与するクラス分類器を備え、前記ルール抽出部は、前記クラスタリング部で同じクラスタに分類されて、かつ、前記一の所属クラスが付与されている複数の前記データレコードについて、前記一の所属クラスと前記推定クラスとが同じクラスである。

このような構成によれば、クラス分類器による推定クラスと、所属クラスとが同じであるデータレコードとについて、決定木解析の結果から分類アルゴリズムの判定基準を示すルールが抽出される。

好ましい構成として、前記ルール抽出装置は、前記クラスタリングに先立ち、前記クラス分類器での分類に対する前記データレコードの各特徴量の寄与度を算出する寄与度算出部を備え、前記クラス分類器は、複数の学習用データレコードに基づいて学習した学習器の学習結果に基づいて前記推定クラスを推定し、前記寄与度算出部は、前記所属クラスと前記推定クラスとが同じである前記データレコードに対して寄与度を算出し、前記クラスタリング部は、前記算出された寄与度を特徴量の性質としてクラスタリングを行う。

このような構成によれば、学習用データレコードの学習に基づいてクラス分類器で推定した推定クラスと、所属クラスとが同じであるデータレコード、つまり推定結果の正しかったデータレコードについてルールが取得される。推定結果が正しいデータレコードであれば、それを分類するルールは平易なルールであると考えられ、このとき、クラス分類器での分類に対して算出された寄与度に基づいて決定木解析を行うことで、平易なルールを取得することができる。

例えば、不正なデータレコードを寄与度に基づいてクラスタリングし、それらを正常なデータレコードと混ぜて決定木解析することで、適正と不正とが混ざっているデータレコードから不正なクラスを判定するときに適用される判定ルールを抽出できる。

好ましい構成として、複数の前記学習用データレコードと、前記クラス分類器で前記推定クラスを推定する前記データレコードを含む複数の前記データレコードとが相違する。
このような構成によれば、学習用データレコードから得られた学習結果に基づいて、学習用データレコードとは相違するデータレコードの分類された判定基準を示すルールを抽出することができる。

好ましい構成として、前記ルール抽出装置はさらに、外れ度合を学習した外れ度合い学習器であって、前記一の所属クラスに属する複数の学習用データレコードの各特徴量に算出された外れ度合を学習した前記外れ度合い学習器による学習結果に基づいて、前記データレコードの各特徴量に対して外れ度合いを推定する前記外れ度合い推定器と、前記クラスタリング部によるクラスタリングに先立ち、前記外れ度合い学習器で学習した前記各特徴量の外れ度合いと、前記データレコードの各特徴量に推定した外れ度合いとに基づいて、前記一の所属クラスへの分類に対して前記各特徴量の寄与度を算出する寄与度算出部を備え、前記クラスタリング部は、前記算出された寄与度を特徴量の性質としてクラスタリングを行う。

このような構成によれば、一の所属クラスに所属するデータレコードの外れ度合いを学習することで、当該一の所属クラスに所属するデータレコードに対して一の所属クラスに所属するための各特徴量の外れ度合いに基づいて寄与度を算出し、算出した寄与度に基づいてルールが抽出されるようになる。

好ましい構成として、複数の前記学習用データレコードと、前記外れ度合い推定器で前記外れ度合いを推定する前記データレコードを含む複数の前記データレコードとが相違する。

このような構成によれば、複数の学習用データレコードから得られた学習結果に基づいて、新たなデータレコードに対してルールを抽出することができる。
好ましい構成として、前記ルール抽出部で抽出されたルールを複数の前記データレコードに再適用して判定した判定クラスと、複数の前記データレコードの所属クラスとを比較することで、前記ルール抽出部で抽出されたルールの精度を判定する精度判定部を備える。

このような構成によれば、抽出された判定ルールによる分類の推定精度が判定されるので、判定ルールの利便性が高められる。
好ましい構成として、前記ルール抽出部で抽出されたルールのうち、複数の前記データレコードに適用してクラス分類に利用された各ルールのそれぞれの利用回数を累計して前記ルール毎の利用割合を判定する割合判定部を備える。

このような構成によれば、抽出された複数のルールのそれぞれについて利用割合が得られるので、ルール毎の妥当性や重要性の傾向が得られる。
好ましい構成として、入力データに前記ルール抽出部で抽出されたルールを適用して前記所属クラスの判定を行う判定装置に対して、前記ルール抽出部で抽出されたルールを設定する設定部を備える。

このような構成によれば、所属クラスの判定を行う判定装置にルールを提供することができる。例えば、所属クラスの判定を行う判定装置がルール抽出装置を備えることのできない装置であったとしても、抽出されたルールの提供ができるようになる。

好ましい構成として、前記データレコードに対して前記推定クラスの推定に適用された前記抽出されたルールを、当該データレコードとともに提示する提示部を備える。
このような構成によれば、データレコードに対する分類結果が得られるときのアルゴリズム等の判断が、推定クラスを推定するときに適用されたルールで可視化されて、アルゴリズムの判断の妥当性の検証が容易に行えるようになる。

上記課題を解決する情報処理装置は、ルールに基づいて入力データの所属クラスを判定する判定装置を有する情報処理装置であって、前記ルールが上記記載の前記ルール抽出装置の前記設定部により設定される。

このような構成によれば、ルール抽出装置で得られた判定ルールが、設定されたルールに基づいて入力データの所属クラスを判定する判定装置に設定される。
好ましい構成として、前記所属クラスが不適切な状態を示すものであるとき、前記所属クラスの推定に適用された前記ルールの適用回数を集計する。

このような構成によれば、不正等の不適切な事象の発生傾向がルールの適用回数の集計に基づいて得られる。よって、不正であると判断される入力データが有している特徴量の性質の傾向が、集計されたルールから得られる。

好ましい構成として、前記ルール抽出装置が、上記記載を間接的に引用する前記ルール抽出装置であって、不正の判定に利用されると想定された前記特徴量の性質と、前記推定クラスの推定に利用された前記ルールから得られた前記特徴量の性質とを比較して、前記ルールから得られた前記特徴量の性質から、前記予め不正の判定に利用されると想定された前記特徴量の性質以外の前記特徴量の性質を抽出する。

このような構成によれば、不正判定への利用が想定された特徴量以外の特徴が不正判定に利用されることが判明することから、不正の判定に対して新たな着眼点を提供したり、逆に、想定外の誤検知の動作を検証したりすることができる。

本発明によれば、分類アルゴリズムの判断基準が抽出可能になる。

ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラムの第１実施形態が適用される環境を示すブロック図。同実施形態の構成を示すブロック図。同実施形態の処理に利用される教師データを示す図。同実施形態の処理動作と複数のデータレコードとを示す図。同実施形態の処理動作と複数のデータレコードとを示す図。同実施形態の処理動作と複数のデータレコードとを示す図。第３実施形態の構成を示すブロック図。

（第１実施形態）
図１〜図６を参照して、ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラムの第１実施形態について説明する。ルール抽出装置は、教師データを機械学習することによって生成されたクラス分類アルゴリズムが、新たに入力されたデータを分類したとき、分類における判断基準を高い精度で抽出することができる装置である。本実施形態では、情報処理装置２０に、ルール抽出装置、ルール抽出方法及びルール抽出プログラムが含まれている。

図１に示すように、複数の利用者１１ａ，１１ｂ，１１ｃ，１１ｄや各種のサーバ１２ａ，１２ｂは、ネットワーク１０を通じて相互に情報の授受が可能に接続されている。
複数の利用者１１ａ，１１ｂ，１１ｃ，１１ｄと各種のサーバ１２ａ，１２ｂとの間では、データレコード３１（図２参照）を含む情報が授受される。例えば、利用者１１ａは、サーバ１２ａの提供するサービスに必要なデータレコード３１（図２参照）を含む情報をサーバ１２ａに送信する。

図２に示すように、データレコード３１は、複数のデータを含んでいる。データレコード３１は、各利用者１１ａ，１１ｂ，１１ｃ，１１ｄに関するデータ、及び、管理用のデータ等を保持している。利用者１１ａに関するデータは、個人の特徴や属性に関するデータが対応し、管理用データは、情報管理やデータ処理に利用されるデータである。具体的には、データレコード３１は、データＩＤ、特徴量ＤＣ、所属クラスＤＳ、推定クラス、寄与度ＤＫ、クラスタ、・・・等の各データ項目に対応するフィールドを備えている。フィールドには対応するデータ項目の値が格納される。フィールドには、初期値を示す値や、未使用を示す値が入っていてもよい。

データレコード３１は、利用者毎に作成されたり、時間経過毎に作成されるため、データベース３０には、複数のデータレコード３１が含まれている。
サーバ１２ａは、利用者１１ａ等に所定のサービスを提供する。例えば、サーバ１２ａは、健康管理や、施設利用、決済等に利用される。サーバ１２ａは、利用者１１ａから登録されたデータが適正であるか、不正であるかを判断し、適正であると判定されたデータに対しては所定の処理、例えば、データベース３０への登録処理や認証処理、その他の処理等を行い、処理結果を利用者１１ａに通知する。サーバ１２ａは、データレコード３１の分類される所属クラス、例えば、適正や不正の判定を、低負荷、かつ、高精度に行える判定ルールに基づいて判定する判定装置１３を備える。サーバ１２ａの判定装置１３は、サーバ１２ｂの情報処理装置２０等で作成された判定ルールが設定され、この設定された判定ルールをデータレコード３１に適用することで、低負荷でありながら、精度の高い判定処理を行う。

サーバ１２ｂは、サーバ１２ａに所定のサービスを提供する。例えば、サーバ１２ｂは、機械学習サーバであって、登録された教師データＤｔ（図３参照）を、特徴量ＤＣに基づいて所属クラスＤＳに分類するようにする判定ルールを学習する。またサーバ１２ｂは、学習成果である判定ルールを新たに入力されたデータレコード３１に適用して対応する所属クラスＤＳを判断する。また、サーバ１２ｂは、機械学習の機能を有していれば利用可能な機械学習の成果について、機械学習の機能を有していない構成等であるため、そのまま利用することのできないサーバ１２ａでも利用可能な代替ルールを作成して、サーバ１２ａに提供する。

図２を参照して、サーバ１２ｂに含まれている情報処理装置２０について説明する。
情報処理装置２０は、機械学習処理や、機械学習による学習結果（判定ルール）に基づいて入力データを分類する分類処理を行う。また、情報処理装置２０は、学習結果に基づく推定結果と同様の結果が得られるように調整した代替ルールを作成する。代替ルールは、サーバ１２ｂとは構成の相違するサーバ、例えば、機械学習の学習結果を利用することに必要な高い処理能力や処理負荷の余裕を有していないサーバでも利用可能なルールである。代替ルールは、低い処理能力や利用できる負荷余裕の少ないサーバ１２ａにも利用可能なルールであって、例えば、分岐処理による判定をおこうな。

情報処理装置２０は、演算装置、記憶装置、通信装置、情報入出力装置等を有している。演算装置は、いわゆるコンピュータであって、記憶装置等に記憶された各プログラムの実行に基づいて、各種の情報処理を行う。記憶装置は、演算等の結果を一時的に保持するＲＡＭや、プログラム等を保持するＲＯＭやフラッシュメモリ等より構成されている。

情報処理装置２０は、クラス分類部２１、寄与度算出部２２、クラスタリング部２３、データ選択部２４、判定ルール抽出部２５、代替ルール適用部２６、精度判定部２７及びルール設定部２８を備えている。また、情報処理装置２０は、データベース３０と、学習部５０とを備えている。本実施形態では、ルール抽出装置は、少なくとも、クラスタリング部２３と、データ選択部２４と、判定ルール抽出部２５とを含み構成される・
データベース３０は、処理に必要とされる各種データが格納されており、複数のデータレコード３１を保持している。複数のデータレコード３１は、教師データや入力された新たなデータレコード３１を含んで構成される。

学習部５０は、データベース３０に登録されている複数のデータレコード３１のうちの教師データを学習アルゴリズム５０Ａに基づいて学習する機械学習を行う。機械学習では、与えられた教師データを予め定められたラベルに分類するように判定する学習結果を得るような学習を行う。教師データは、データレコード３１に、ラベルとして正確な所属クラスＤＳが付与されており、機械学習は、特徴量ＤＣから、正確な所属クラスＤＳに分類することのできるクラス分類アルゴリズム（クラス分類Ａｌｇ．）２１Ａを学習結果として得る。

学習部５０は、クラス分類アルゴリズム２１Ａをクラス分類部２１で利用可能にする。
また、学習部５０は、データベース３０に登録される新たな教師データによって追加学習をすることができてもよい。教師データは、学習結果に基づいてデータレコード３１に所属クラスＤＳを付与したものであってもよい。

クラス分類器としてのクラス分類部２１は、教師データや新たに入力されたデータなどのデータレコード３１が付与される。クラス分類部２１は、データベース３０に登録されているデータに学習結果としての判定ルールを適用して、当該データをいずれかのラベルに分類する分類処理を行う。具体的には、クラス分類部２１は、クラス分類アルゴリズム２１Ａをデータレコード３１の各特徴量ＤＣに適用することで、当該データレコード３１に分類先として推定される推定クラスを得る。

寄与度算出部２２は、推定クラスの推定に対する各特徴量ＤＣの寄与度を算出する寄与度算出アルゴリズム（寄与度算出Ａｌｇ．）２２Ａを有している。寄与度算出部２２は、クラスタリングの処理に先立ち、クラス分類部２１での分類に対するデータレコードの各特徴量ＤＣの寄与度を算出する。

クラスタリング部２３は、各特徴量ＤＣの寄与度ＤＫに基づいて各データレコード３１をクラスタリングするクラスタリングアルゴリズム（クラスタリングＡｌｇ．）２３Ａを有している。本実施形態では、特徴量の性質は、特徴量ＤＣの寄与度ＤＫで構成される。

クラスタリング部２３は、予め所属クラスＤＳの付与されている複数のデータレコード３１を、データレコード３１の各フィールドに含まれている寄与度ＤＫに応じてクラスタリングを行うクラスタリング機能（クラスタリングステップ）を有している。クラスタリング部２３は、クラスタリングの結果として得られたクラスタを各データレコード３１のクラスタに対応フィールドに設定する。つまり、クラスタがデータレコード３１に関連付けられる。なお、ここでは、クラスタの区分は、クラスによる区分と近似していることが期待されている。

データ選択部２４は、データレコード３１に推定された推定クラスと、クラスタリングされたクラスタとに基づいて、複数のデータレコード３１のうちから判定ルールの抽出に利用するデータレコード３１を複数選択する。具体的には、データ選択部２４は、クラスタリング部２３で同じクラスタに分類されて、かつ、特定の一の所属クラスが付与されているとともに、推定された推定クラスと特定の一の所属クラスとが同じクラスであるデータレコード３１を選択する。

判定ルール抽出部２５は、複数のデータレコード３１を特徴量の性質のひとつである特徴量ＤＣの寄与度ＤＫに基づいて決定木解析する決定木アルゴリズム（決定木Ａｌｇ．）２５Ａを有している。判定ルール抽出部２５は、データ選択部２４で選択された複数のデータレコード３１を解析する。つまり、判定ルール抽出部２５で解析されるデータレコード３１は、所定の一の所属クラスが付与されていて、かつ、所定の一の所属クラスと推定クラスとが同じクラスである。

そして、判定ルール抽出部２５は、同じクラスタに分類されて、かつ、特定の一の所属クラスの付与された複数のデータレコード３１と、特定の一の所属クラスとは相違する他の所属クラスが付与されている複数のデータレコード３１とを併せた複数のデータレコード３１を解析の対象データとして決定木解析する。本実施形態では、ルール抽出部、ルール抽出ステップ及びルール抽出ステップは、データ選択部２４と判定ルール抽出部２５とで構成される。

そして、判定ルール抽出部２５は、決定木解析による解析結果から代替ルールを作成する。
代替ルール適用部２６は、判定ルール抽出部２５で作成した代替ルールを入力されたデータレコード３１に適用して、分類されるラベルを判定する判定処理を行う。代替ルール適用部２６は、ルール分類アルゴリズム２６Ａを有しており、ルール分類アルゴリズム２６Ａをデータレコード３１の各特徴量ＤＣの値に適用することで、当該データレコード３１の分類先として代替クラスを判定する。

代替ルール適用部２６は、判定処理を、教師データに対して行うこともできるし、データベース３０に新たに入力されたデータレコード３１に適用することもできる。
精度判定部２７は、データレコード３１に対して代替ルールを再適用して得られた代替クラスと、データレコード３１の所属クラスとを比較することで、判定ルール抽出部２５で作成された代替ルールの精度を判定する。

ルール設定部２８は、入力されたデータレコード３１に代替ルールを適用して所属クラスを判定する判定装置１３に対して、代替ルールを設定する。具体的には、ルール設定部２８は、代替ルールをサーバ１２ａに送り、サーバ１２ａの判定装置１３で代替ルールに基づくデータレコード３１の所属クラスＤＳの判定を可能にする。

なお、情報処理装置２０は、ひとつのデータレコード３１に対して推定クラスの推定に適用された代替ルールを、当該データレコード３１とともに提示する提示部を備えてもよい。

（データレコード３１について）
次に、データレコード３１について詳述する。
図２に示すように、データレコード３１は、データＩＤ、特徴量ＤＣ、所属クラスＤＳ、推定クラス、寄与度ＤＫ、クラスタ、・・・等の各項目に対応するフィールドを備えている。なお、データレコード３１は、日時や場所等の情報を含んでいてもよい。また、図３〜図６は、複数のデータレコード３１について説明に必要なフィールドを選択的に表示し、説明に必要でないフィールドの表示は省略している。

図３を参照して、データレコード３１の所属クラスＤＳは、ラベルとして特性を有しており、予め、値が付与される。ここでは、所属クラスＤＳは、データレコード３１の特徴量ＤＣの値が適正か、不正かを示す値が設定される。例えば、所属クラスＤＳは、「１」は不正を示し、「２」「３」は適性を示す。

例えば、複数のデータレコード３１が学習用の教師データＤｔであるとき、所属クラスＤＳには正確な値が予め設定されている。
図３を参照して、データレコード３１の特徴量ＤＣは、身長［ｃｍ］、体重［ｋｇ］、年齢［歳］、性別（女性＝０、男性＝１）、・・・等の各項目に対応するフィールドを備えている。特徴量ＤＣの各フィールドには、対応する項目に設定された値が格納される。

例えば、データレコード３１１は、データＩＤが「１」であり、特徴量ＤＣの値として、身長「１６０」、体重「５８」、年齢「２０」、性別「１」、・・・が設定されるとともに、所属クラスＤＳは「１」である。また、データレコード３１２は、データＩＤが「２」であり、特徴量ＤＣの値として、身長「１５８」、体重「４９」、年齢「１７」、性別「０」、・・・が設定されるとともに、所属クラスＤＳは「１」である。また、データレコード３１３は、データＩＤが「３」であり、特徴量ＤＣの値として、身長「１７５」、体重「８０」、年齢「３２」、性別「１」、・・・が設定されるとともに、所属クラスＤＳは「２」である。

図４を参照して、クラス分類されたデータレコード３１１は、推定クラスの値が「１」、データレコード３１２は、推定クラスの値が「３」、データレコード３１３は、推定クラスの値が「２」である。

また、図４を参照して、データレコード３１の寄与度ＤＫは、特徴量ＤＣの身長、体重、年齢、性別（０〜１）、・・・等の各項目に対応するフィールドを備えている。寄与度ＤＫの各フィールドには、対応する項目に算出される寄与度ＤＫの値が格納される。

例えば、寄与度算出されたデータレコード３１１は、寄与度ＤＫの値として、身長「０」、体重「−０．５」、年齢「０」、性別「０．８」、・・・が設定されている。また、データレコード３１３は、寄与度ＤＫの値として、身長「０．１」、体重「０．９」、年齢「０．２」、性別「０」、・・・が設定されている。

図５を参照して、クラスタリングされたデータレコード３１１は、クラスタの値が「ａ」、データＩＤが「６」であるデータレコード３１６は、クラスタの値が「ｂ」、データＩＤが「８」であるデータレコード３１８は、クラスタの値が「ａ」である。また、データレコード３１６は、寄与度ＤＫの値として、身長「−０．４」、体重「０」、年齢「１．２」、性別「０」、・・・が設定されている。また、データレコード３１８は、寄与度ＤＫの値として、身長「０．１」、体重「−０．７」、年齢「０」、性別「１．３」、・・・が設定されている。

図６を参照して、他の所属クラスを有している、データＩＤが「４」であるデータレコード３１４は、特徴量ＤＣの値として、身長「１４８」、体重「５０」、年齢「２２」、性別「０」、・・・が設定されているとともに、所属クラスの値は「３」である。

（ルール抽出処理の概要）
次に、図２を参照してルール抽出処理の概要について説明する。
まず、学習部５０は、入力されたデータレコード３１に対して学習を行い、クラス分類アルゴリズム２１Ａを学習結果として得る。

クラス分類部２１は、入力されたデータレコード３１に対してクラス分類アルゴリズム２１Ａに基づき推定クラスを得る。
寄与度算出部２２では、クラス分類部２１による分類において、データレコード３１のどの特徴量ＤＣが、分類にどの程度寄与したかという寄与度ＤＫを寄与度算出アルゴリズム２２Ａに基づいて算出する。

クラスタリング部２３では、寄与度ＤＫにクラスタリングアルゴリズム２３Ａを適用してデータレコード３１をクラスタリングする。ところで、仮に、データレコード３１の特徴量ＤＣの値に基づいてクラスタリングを行うと、値の振れ幅や、桁の大小等、必ずしもクラスの所属に寄与しない特徴量であっても距離の絶対的な大小に基づいてクラスタリングされてしまう。その結果、クラスの所属に寄与した特徴量に応じたクラスタリングが行われない可能性がある。この点、クラスタリングに寄与度ＤＫを用いることで、推定クラスの分類に対して本質的に重要な次元、換言すると、強い影響を及ぼす特徴量ＤＣの性質が抽出された上で、強い影響を及ぼす特徴量ＤＣの性質が重視されたクラスタリングを行うことができる。

寄与度ＤＫは、周知の寄与度算出アルゴリズム２２Ａで計算することができる。例えば、寄与度ＤＫを、機械学習モデルを解釈する周知の研究であるＬＩＭＥ［ＫＤＤ'１６］やＳＨＡＰを用いて計算してもよいし、分類の出力に対する各特徴量ＤＣの勾配を用いて計算してもよいし、各特徴量ＤＣの微小変化が分類の出力に与える影響を用いて計算してもよい。なお、寄与度ＤＫは、［０，１］に正規化されていてもよいし、［０，１］に正規化されていなくてもよく、負の値を取る事があってもよい。

ここで、ＬＩＭＥは、複雑な分類をおこなう分類器において、各特徴量ＤＣがどの程度分類に寄与したかを計算する。ＬＩＭＥは、まず分類対象のデータの周辺にランダムでサンプルデータを生成し、各データが分類器によってどのように分類されるかを確認する。その後、ＬＩＭＥは、その分類結果をラベルとしてサンプルデータの線形分離を行うと、線形分離モデルにおける各特徴量ＤＣの係数が、そのデータの周辺における各特徴量ＤＣの分類に対する寄与度ＤＫとしてみなす。こうして得られた寄与度ＤＫに基づいて、例えばＬＩＭＥと同じ画像を見た分類器が分類を判断したとき、画像の見ている部分を確認することができる。

また、ＳＨＡＰは、複雑な分類をおこなう分類器において、各特徴量ＤＣがどの程度分類に寄与したかを計算する。ＳＨＡＰは、まず分類対象のデータにおいて各特徴量ＤＣが存在した場合と、存在しなかった場合とでどの程度分類のスコア（≒分類に対する自信）に差が出るかを、他の特徴量ＤＣの有無の全ての組み合わせを考慮して算出する。ＳＨＡＰは、算出した値の平均値を、その特徴量の寄与度として計算する。

（情報処理装置２０の動作例）
続いて、図３〜図６を参照して、情報処理装置２０の動作例を示す。
図３に示すように、判定ルールを抽出する元データとして、教師データＤｔを与える。教師データＤｔは、特徴量ＤＣとラベル（所属クラスＤＳ）とを含むデータレコード３１の集合であるデータレコード群である。

図４を参照して、教師データＤｔの特徴量ＤＣを、クラス分類アルゴリズム２１Ａを有しているクラス分類部２１に入力することで、各データレコード３１に推定クラスが得られる。

寄与度算出部２２は、所属クラスＤＳと推定された推定クラスとが同じになった、換言すると、クラスの推定結果が適正であったデータレコード３１１，３１３について、寄与度算出アルゴリズム２２Ａで、各特徴量ＤＣに対して寄与度ＤＫを計算する。

図５を参照して、クラスタリング部２３は、所属クラスＤＳが「１」であるデータレコード３１１，３１６，３１８に対して、計算された寄与度ＤＫを、所属クラスＤＳ毎にクラスタリングを行うことで、所属クラスＤＳ内において、寄与度ＤＫに基づいたクラスタを生成する。なお、クラスタリング部２３は、所属クラスＤＳが「２」であるもの同士に対しても同様にクラスタリングを行ってもよい。

図６を参照して、データ選択部２４は、判定ルール抽出部２５で決定木解析の対象とする、クラスタが「ａ」であるデータレコード３１１，３１８、・・・を選択する。データ選択部２４は、クラスタが「ａ」であるデータレコード３１６、・・・を選択してもよい。所属クラスＤＳが同じであっても、クラスタの相違毎に、相違する判定ルールが得られる可能性がある。

判定ルール抽出部２５は、クラスタ「ａ」で特定の一の所属クラスＤＳ「１」のデータレコード３１と、その他の所属クラスＤＳ「２」，「３」のデータレコード３１との分類を決定木アルゴリズム２５Ａによって解析する。決定木解析によってクラスタ「ａ」に抽出された判定ルールは、特定の一の所属クラス「１」を有するデータレコード３１において、クラスタ「ａ」がクラス分類部２１によって何故そのクラス「１」に分類されたのかを、平易な判定ルールとして抽出可能にする。

平易な判定ルールは、条件分岐のルールとして得られる。例えば、ＩＦ〜ＴＨＥＮ文を利用すると「ＩＦ“身長”＜＝１７０ＡＮＤ “性別”＝＝１ＡＮＤ・・・ＴＨＥＮクラス１」、「ＩＦ“体重”＜＝ＸＸＸＡＮＤ・・・」のような平易な条件分岐プログラムで表現可能なルールとして得られる。

同様に、判定ルール抽出部２５は、特定の一の所属クラス「１」を有するデータレコード３１において、クラスタ「ｂ」がクラス分類部２１によって何故そのクラス「１」に分類されたのかを、平易な判定ルールを抽出可能にする。

従来、一の所属クラスＤＳのデータレコード３１をクラスタ毎に分けずに全て用いて、他の所属クラスＤＳのデータレコード３１との分類を決定木によって判定ルールを抽出する手法が知られている。しかし、一の所属クラスＤＳに属するデータレコード３１のタイプが多岐に渡る場合、それらを適切な所属クラスＤＳに分類する判定ルールを一つの決定木で表現するには無理が生じる。

そこで、本実施形態では、寄与度ＤＫを利用して「その所属クラスＤＳに分類された理由」に基づいてデータレコード３１をクラスタリングすることにより、特定の一の所属クラスＤＳと各クラスタとの他の所属クラスＤＳとの違いを、平易な判定ルールを有するものとする。こうして、平易な判定ルールを有するデータレコード３１であれば、クラスタ毎に決定木解析でルール抽出を行うことにより、適切な判定ルールを抽出できるようになる。

（適用例）
一例として、本実施形態はクレジットカードの不正利用検知に利用することができる。
従来、不正利用検知は、クレジットカードの利用に応じて送受信されるデータレコードに含まれる「利用日時」、「利用場所」、「利用金額」、「年収」といった様々な特徴量に基づく適正利用と不正利用との分類を、経験等に基づいて人の判断で作成した判定ルールの適用で行われている。

近年、ルールを回避する巧みな手口が現れる等、多様化する不正な手口に対して高精度に不正利用検知を行うために、機械学習による学習結果を利用した分類が不正利用の検知に効果的であると考えられている。一方で、カード決済を処理するシステムに、不正利用検知を行うための機械学習アルゴリズムを追加するには相応のコストを要したり、学習に時間を要するため、機械学習アルゴリズムが搭載できたりしても、すぐにその効果を得られるとは限らない。

この点、本実施形態によれば、不正利用検知を、学習部５０で学習済みであるクラス分類アルゴリズム２１Ａによる分類結果から判定ルールを抽出し、この抽出した判定ルールを既存のルールベースの検知システムを有するサーバ１２ａに用いることができる。これにより、サーバ１２ａのように既存のルールベース検知システムを有するが、機械学習アルゴリズムを適用することのできないシステムであっても、不正利用検知の学習効果に基づいてサーバ１２ｂで作成された判定ルールを適用することが可能になる。

本実施形態によれば、以下の効果が得られるようになる。
（１）同じクラスタ「ａ」に分類された複数のデータレコード３１のうち同じ所属クラス「１」に属するデータレコード３１について寄与度ＤＫに基づいて判定ルールが抽出される。つまり、分類された結果が、所属クラス「１」となるために必要な判定ルールが決定木解析により抽出可能となる。決定木による分類は、可視可能であるため、抽出された判定ルールにより、分類アルゴリズムの判断基準を抽出することができる。

例えば、教師データＤｔから機械学習アルゴリズムの学習がされたとき、機械学習アルゴリズムの適用結果を得ることができるとともに、機械学習アルゴリズムの判定ルールを可視化可能にするため、機械学習のブラックボックス性を改善できるようになる。

（２）クラス分類部２１による推定クラスと、所属クラスＤＳとが同じであるデータレコード３１とについて、決定木解析の結果からクラス分類アルゴリズム２１Ａの判定基準を示す判定ルールが抽出される。

（３）教師データＤｔ（学習用データレコード）の学習に基づいてクラス分類部２１で推定した推定クラス「１」と、所属クラス「１」とが同じであるデータレコード３１、つまり推定結果の正しかったデータレコード３１について判定ルールが取得される。推定結果が正しいデータレコード３１であれば、それを分類する判定ルールは平易なルールであると考えられ、このとき、クラス分類部２１での分類に対して算出された寄与度ＤＫに基づいて決定木解析を行うことで、平易なルールを取得することができる。

例えば、不正なデータレコード３１を寄与度ＤＫに基づいてクラスタリングし、それらを正常なデータレコード３１と混ぜて決定木解析することで、適正と不正とが混ざっているデータレコード３１から不正なクラスを判定するときに適用される判定ルールを抽出できる。

（４）抽出された判定ルールによる分類の推定精度が判定されるので、判定ルールの利便性が高められる。
（５）情報処理装置２０は、所属クラスＤＳの判定を行うサーバ１２ａの判定装置１３に判定ルールを提供することができる。例えば、所属クラスＤＳの判定を行う判定装置１３がクラス分類部２１を備えることのできない装置であったとしても、抽出された判定ルールの提供ができる。

（６）情報処理装置２０で得られた判定ルールが、入力データの所属クラスを判定する判定装置１３に設定される。
（第２実施形態）
ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラムの第２実施形態について説明する。

本実施形態は、教師データＤｔに寄与度ＤＫを算出せずにクラスタリングして判定ルールを抽出する構成である点が、教師データに寄与度ＤＫを算出してクラスタリングを行う第１実施形態と相違する。本実施形態では、第１実施形態と同様の構成については、第１実施形態と同様の符号を付して説明する。

本実施形態では、データレコード３１に以下の性質を仮定することで、クラスタリングにより適切な判定ルールが抽出できるものとする。すなわち、特定の一のクラスに属するデータレコード３１のうち、特定の一のクラスへの所属の仕方が同様であるデータレコード３１については、他のクラスとの違いについて少ないルールで記述可能であるという性質を仮定する。例えば、図３において、所属クラスＤＳが「１」であるデータレコード３１１，３１２と、所属クラスＤＳが「２」であるデータレコード３１３との違いについて少ないルールで記述可能であると仮定する。ここで、所属の仕方とは、所属に強く影響する特徴量ＤＣの項目の組み合わせである。換言すると、特定の一のクラスに所属する複数のデータレコード３１について、所属に強く影響する項目の組み合わせのばらつきが小さいほど、他のクラスに所属するデータレコード３１との違を、少ないルールで記述可能である。

そして、寄与度ＤＫに対するクラスタリングで分類されたクラスタ毎にデータレコード３１が属するクラスと、他のクラスとの分類を決定木解析を用いて行うことで、クラスタに分類される際に行われた判定ルールの抽出を行う。

なお、クラスタリングは、ｋ平均法やＤＢＳＣＡＮ等のクラスタリングアルゴリズムをデータレコード３１に直接適用することで行う。また、クラスタリングを、図３の所属クラスＤＳ等のクラスのラベルとは別に、データレコード３１に含まれていて別途定めた特徴量ＤＣの項目に対して行ってもよい。

図２に示すように、本実施形態は、情報処理装置２０に、クラスタリング部２３と、データ選択部２４と、判定ルール抽出部２５とを備える。
情報処理装置２０には、判定ルールを抽出する元データとして、特徴量ＤＣとラベル（所属クラスＤＳ）との組を含むデータレコード３１の集合である教師データＤｔ（図３参照）が与えられる。

クラスタリング部２３は、図３の特徴量ＤＣを含むデータレコード３１について、所属クラスＤＳ毎にクラスタリングを行うことで、各所属クラスＤＳ内において、特徴量ＤＣに基づいたクラスタを生成する。クラスタリングアルゴリズム２３Ａは、本実施形態のクラスタリングに好ましいアルゴリズムが選択されている。

データ選択部２４は、判定ルール抽出部２５で決定木解析の対象とするデータレコード３１を選択する。対象として選択するデータレコード３１は、特定のクラスタに分類されたデータレコード３１である。

判定ルール抽出部２５は、選択されたクラスタに、特定の所属クラスＤＳと、その他の所属クラスＤＳとの分類を決定木アルゴリズム２５Ａを適用した決定木によって解析する。決定木解析によって選択されたクラスタに抽出された判定ルールは、特定の所属クラスを有するデータレコード３１において、各クラスタがクラス分類部２１によって何故そのクラスに分類されたのかを、平易なルールとして抽出可能にする。判定ルール抽出部２５は、その他のクラスタについても同様に平易なルールを抽出可能にする。

本実施形態によれば、上記の（１）及び（２）に記載の効果に加えて、以下の効果が得られるようになる。
（７）同じクラスタ「ａ」に分類された複数のデータレコード３１のうち同じ所属クラス「１」に属するデータレコード３１について判定ルールが抽出される。つまり、分類された結果が、所属クラス「１」となるために必要な判定ルールが決定木解析により抽出可能となる。決定木による分類は、可視可能であるため、抽出された判定ルールにより、分類アルゴリズムの判断基準を抽出することができる。

（第３実施形態）
図７を参照して、ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラムの第３実施形態について説明する。

本実施形態では、寄与度ＤＫを用いてクラスタリングを行う点は第１実施形態と同様である。一方、本実施形態では、教師なし学習である外れ値検知モデルによる判別および判別への寄与度ＤＫを特徴量ＤＣの性質として用いる点が、教師あり学習であるクラス分類部２１を利用する第１実施形態の構成と相違する。本実施形態では、第１実施形態と同様の構成については、第１実施形態と同様の符号を付して説明する。

図７に示すように、情報処理装置２０は、外れ度合い学習部４０と、外れ度合い推定部４１と、寄与度算出部２２と、クラスタリング部２３と、データ選択部２４と、判定ルール抽出部２５とを備える。本実施形態では、外れ値検知モデルは、外れ度合い推定部４１と、寄与度算出部２２と、クラスタリング部２３と、データ選択部２４と、判定ルール抽出部２５とにより構成される。

外れ度合い学習部４０は、外れ度合を学習する学習器である。外れ度合いは、学習アルゴリズム４０Ａに基づいて学習した、あるクラスタに属するデータレコード３１に対して、別途与えられたデータレコード３１がそのクラスタからどれだけ乖離しているかを示す度合いである。

外れ度合い学習部４０は、特定の一の所属クラスＤＳに属する学習用の複数のデータレコード３１の各特徴量ＤＣに算出された外れ度合を学習し、その学習結果として、各特徴量ＤＣの外れ度合いを得る。外れ度合い学習部４０は、主成分分析（ＰＣＡ）による次元削減および再構成を行った際の再構成誤差を用いてもよいし、オートエンコーダを用いて同様に次元削減および再構成を行ってもよいし、ＯｎｅＣｌａｓｓＳＶＭを用いてもよい。

また、外れ度合い学習部４０は、その学習結果として外れ度合い４１Ａを得る。外れ度合い学習部４０は、外れ度合い４１Ａを外れ度合い推定部４１に設定する。
外れ度合い推定部４１は、外れ度合い４１Ａに基づいて、新たに入力されたデータレコード３１の各特徴量ＤＣに対して外れ度合いの程度を推定する。具体的には、外れ度合い推定部４１は、外れ度合い学習部４０で得られた外れ度合いに対して、閾値を与えることで、別途与えられたデータレコード３１がそのクラスタに属するか否かを判別する。

寄与度算出部２２は、クラスタリング部２３によるクラスタリングに先立ち、外れ度合い学習部４０で学習した各特徴量ＤＣの外れ度合いと、新たに入力されたデータレコード３１の各特徴量ＤＣに推定した外れ度合いとに基づいて、特定の一の所属クラスへの分類に対して各特徴量ＤＣの寄与度ＤＫを算出する。

ここで寄与度ＤＫは、どの特徴量ＤＣがどの程度クラスタからの乖離に寄与しているかを示す値として計算される。寄与度ＤＫの算出には、各特徴量ＤＣの微小変化が外れ度合いに与える影響を用いてもよい。ＰＣＡやオートエンコーダを用いる再構成誤差を用いるモデルの場合、各特徴量ＤＣの再構成誤差を寄与度ＤＫとしてもよい。

このようにして算出された寄与度に基づいて、クラスタリング、データ選択及び判定ルール抽出を行うことで、判定ルールを得ることができるようになる。
本実施形態によれば、上記の（１）、（２）、（４）〜（６）に記載の効果に加えて、以下の効果が得られるようになる。

（８）特定の一の所属クラスに所属するデータレコード３１の外れ度合いを学習することで、当該一の所属クラスに所属するデータレコード３１に対して一の所属クラスに所属するための各特徴量ＤＣの外れ度合いに基づいて寄与度ＤＫを算出し、算出した寄与度ＤＫに基づいて判定ルールが抽出されるようになる。

（第４実施形態）
ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラムの第４実施形態について説明する。

本実施形態では、新たに入力されたデータレコード３１が何故そのように分類されたかという理由を利用者等に示すことを可能にする。本実施形態では、第１実施形態と同様の構成については、第１実施形態と同様の符号を付して説明する。

本実施形態では、情報処理装置２０は、第１実施形態又は第３実施形態で計算された寄与度ＤＫと、その寄与度ＤＫに対応するクラスタの情報を保持しておく。
情報処理装置２０は、新たに入力されたデータレコード３１に対して、クラス分類部２１で分類結果である推定クラスを算出するとともに、寄与度算出部２２で寄与度ＤＫを算出する。

情報処理装置２０は、算出された寄与度ＤＫと、保持されたクラスタに対応する寄与度ＤＫとを比較することで、算出された寄与度ＤＫがどのクラスタに近いかを計算し、保持されたクラスタのなかから近いクラスタを判定する。

情報処理装置２０は、近いと判定されたクラスタに属するデータレコード３１に対して抽出された判定ルールを出力する。これにより、新たに入力されたデータレコード３１の分類結果として推定クラスが得られるとともに、その新たに入力されたデータレコード３１がその推定クラスに分類された理由を判定ルールとして得ることができる。また、得られた判定ルールを利用者に示すことが可能になる。

本実施形態によれば、上記の（１）〜（６）に記載の効果に加えて、以下の効果が得られるようになる。
（９）判定ルール抽出部２５によるルール抽出処理を行わなくても、判定ルールとして得ることができるようになる。

（第５実施形態）
ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラムの第５実施形態について説明する。本実施形態では、第１実施形態と同様の構成については、第１実施形態と同様の符号を付して説明する。

本実施形態では、抽出された判定ルールに基づいて、クラス分類部２１、又は、外れ度合い推定部４１の妥当性の判断をおこなう。
機械学習においては、利用時に使えないデータや生じないデータに基づいて学習した結果を用いて予測や分類をおこなった結果、精度が不当に高く出てしまう、いわゆるリークの生じるおそれがある。

本実施形態では、本来の判定ルールに現れるべき特徴量ＤＣの集合と、抽出した判定ルールに現れた特徴量ＤＣとを比較することにより、クラス分類部２１のクラス分類アルゴリズム２１Ａにリークが発生していないかの確認を可能とする。また、外れ値検知モデルにおいて、外れ度合い推定部４１の外れ度合い４１Ａとの比較で、本来用いるべきでない特徴量ＤＣに対する閾値の適用により外れ値の判断が行われていないかの確認を可能とする。

本実施形態によれば、上記（１）〜（９）に記載の効果に加えて、以下の効果が得られるようになる。
（１０）抽出された判定ルールを利用してクラス分類部２１の分類の妥当性、又は、外れ度合い推定部４１の外れ度合い４１Ａと閾値との妥当性を判断することができるようになる。

なお、上記各実施形態は、以下のように変更して実施することができる。上記各実施形態及び以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。

・上記各実施形態では、サーバ１２ａとサーバ１２ｂとが異なる機能を含む別々のサーバである場合について例示したが、これに限らず、それぞれの機能が１つのサーバに含まれていてもよいし、逆に３つ以上のサーバに分散されていてもよい。

・上記各実施形態では、サーバ１２ｂは、機械学習サーバである場合について例示したが、これに限らず、機械学習の機能が含まれていれば、機械学習サーバではないサーバ、例えば、認証サーバ、通信監視サーバ等であってもよい。

・上記各実施形態では、不正等の不適切な事象の発生傾向が判定装置での判定ルールの適用回数の集計に基づいて得られてもよい。これにより、不正であると判断される入力データが有している特徴量ＤＣの性質の傾向が、集計された判定ルールから得られるようになる。

・上記各実施形態では、データレコード３１に対して推定クラスの推定に適用された判定ルールを、適用したデータレコード３１とともに提示する提示部を備えてもよい。これにより、データレコード３１に対する分類結果が得られるときのアルゴリズム等の判断が、推定クラスを推定するときに適用された判定ルールで可視化されて、アルゴリズム等の判断の妥当性の検証が容易に行えるようになる。

・上記各実施形態において、抽出された複数の判定ルールのそれぞれについて、入力されたデータレコード３１に対して代替ルール適用部２６等で利用された割合を得るようにしてもよい。判定ルール毎に、その利用された割合が得られることで、各判定ルールの妥当性や重要性の傾向が得られるようになる。

・上記第１実施形態では、教師データＤｔから得られた学習結果に対して、教師データＤｔに対する判定ルール抽出を行う場合について例示した。しかし、これに限らず、教師データから得られた学習結果に基づいて、教師データとは相違するデータレコード３１の分類された判定基準を示す判定ルールを抽出するようにしてもよい。

・上記各実施形態では、判定ルール抽出部２５は、複数のデータレコード３１を特徴量ＤＣの寄与度ＤＫに基づいて決定木解析する場合について例示した。しかし、これに限らず、判定ルール抽出部は、特徴量の性質を示す値である特徴量の値等に基づいて複数のデータレコードを決定木解析してもよい。

・上記各実施形態では、判定ルール抽出部２５は、特定の一の所属クラスと、推定された推定クラスとが同じクラスであるデータレコード３１を解析する場合について例示した。しかし、これに限らず、解析するデータレコードの特定の一の所属クラスと推定クラスとが相違していてもよい。これによれば、データ選択処理を割愛できる。

１０…ネットワーク、１１ａ，１１ｂ，１１ｃ，１１ｄ…利用者、１２ａ，１２ｂ…サーバ、１３…判定装置、２０…情報処理装置、２１…クラス分類部、２１Ａ…クラス分類アルゴリズム、２２…寄与度算出部、２２Ａ…寄与度算出アルゴリズム、２３…クラスタリング部、２３Ａ…クラスタリングアルゴリズム、２４…データ選択部、２５…判定ルール抽出部、２５Ａ…決定木アルゴリズム、２６…代替ルール適用部、２６Ａ…ルール分類アルゴリズム、２７…精度判定部、２８…ルール設定部、３０…データベース、３１…データレコード、４０…学習部、４０Ａ…学習アルゴリズム、４１…推定部、４１Ａ…外れ度合い、５０…学習部、５０Ａ…学習アルゴリズム、３１１，３１２，３１３，３１４，３１６，３１８…データレコード。

Claims

予め所属クラスの付与されている複数のデータレコードを、前記データレコードの各フィールドに含まれている特徴量の性質に応じてクラスタリングを行うクラスタリング部と、
前記クラスタリング部で同じクラスタに分類されて、かつ、前記所属クラスのうちの一の所属クラスの付与されている複数の前記データレコードと、前記一の所属クラスと相違する他の所属クラスが付与されている複数の前記データレコードとを併せて決定木解析するルール抽出部とを備える
ルール抽出装置。
前記データレコードの前記特徴量の性質に基づいて前記データレコードに対して推定した推定クラスを付与するクラス分類器を備え、
前記ルール抽出部は、前記クラスタリング部で同じクラスタに分類されて、かつ、前記一の所属クラスが付与されている複数の前記データレコードについて、前記一の所属クラスと前記推定クラスとが同じクラスである
請求項１に記載のルール抽出装置。
前記ルール抽出装置は、前記クラスタリングに先立ち、前記クラス分類器での分類に対する前記データレコードの各特徴量の寄与度を算出する寄与度算出部を備え、
前記クラス分類器は、複数の学習用データレコードに基づいて学習した学習器の学習結果に基づいて前記推定クラスを推定し、
前記寄与度算出部は、前記所属クラスと前記推定クラスとが同じである前記データレコードに対して寄与度を算出し、
前記クラスタリング部は、前記算出された寄与度を特徴量の性質としてクラスタリングを行う
請求項２に記載のルール抽出装置。
複数の前記学習用データレコードと、前記クラス分類器で前記推定クラスを推定する前記データレコードを含む複数の前記データレコードとが相違する
請求項３に記載のルール抽出装置。
前記ルール抽出装置はさらに、
外れ度合を学習した外れ度合い学習器であって、前記一の所属クラスに属する複数の学習用データレコードの各特徴量に算出された外れ度合を学習した前記外れ度合い学習器による学習結果に基づいて、前記データレコードの各特徴量に対して外れ度合いを推定する前記外れ度合い推定器と、
前記クラスタリング部によるクラスタリングに先立ち、前記外れ度合い学習器で学習した前記各特徴量の外れ度合いと、前記データレコードの各特徴量に推定した外れ度合いとに基づいて、前記一の所属クラスへの分類に対して前記各特徴量の寄与度を算出する寄与度算出部を備え、
前記クラスタリング部は、前記算出された寄与度を特徴量の性質としてクラスタリングを行う
請求項１に記載のルール抽出装置。
複数の前記学習用データレコードと、前記外れ度合い推定器で前記外れ度合いを推定する前記データレコードを含む複数の前記データレコードとが相違する
請求項５に記載のルール抽出装置。
前記ルール抽出部で抽出されたルールを複数の前記データレコードに再適用して判定した判定クラスと、複数の前記データレコードの所属クラスとを比較することで、前記ルール抽出部で抽出されたルールの精度を判定する精度判定部を備える
請求項１〜６のいずれか一項に記載のルール抽出装置。
前記ルール抽出部で抽出されたルールのうち、複数の前記データレコードに適用してクラス分類に利用された各ルールのそれぞれの利用回数を累計して前記ルール毎の利用割合を判定する割合判定部を備える
請求項１〜７のいずれか一項に記載のルール抽出装置。
入力データに前記ルール抽出部で抽出されたルールを適用して前記所属クラスの判定を行う判定装置に対して、前記ルール抽出部で抽出されたルールを設定する設定部を備える
請求項１〜８のいずれか一項に記載のルール抽出装置。
前記データレコードに対して前記推定クラスの推定に適用された前記抽出されたルールを、当該データレコードとともに提示する提示部を備える
請求項２〜４のいずれか一項に記載のルール抽出装置。
ルールに基づいて入力データの所属クラスを判定する判定装置を有する情報処理装置であって、
前記ルールが請求項９に記載の前記ルール抽出装置の前記設定部により設定される
情報処理装置。
前記所属クラスが不適切な状態を示すものであるとき、前記所属クラスの推定に適用された前記ルールの適用回数を集計する
請求項１１に記載の情報処理装置。
前記ルール抽出装置が、請求項２を間接的に引用する前記ルール抽出装置であって、
不正の判定に利用されると想定された前記特徴量の性質と、前記推定クラスの推定に利用された前記ルールから得られた前記特徴量の性質とを比較して、前記ルールから得られた前記特徴量の性質から、前記予め不正の判定に利用されると想定された前記特徴量の性質以外の前記特徴量の性質を抽出する
請求項１１又は１２に記載の情報処理装置。
予め所属クラスの付与されている複数のデータレコードを、前記データレコードの各フィールドに含まれている特徴量の性質に応じてクラスタリングを行うクラスタリングステップと、
前記クラスタリングステップで同じクラスタに分類されて、かつ、前記所属クラスのうちの一の所属クラスが付与されている複数の前記データレコードと、前記一の所属クラスと相違する他の所属クラスが付与されている複数の前記データレコードとを併せて決定木解析するルール抽出ステップとを備える
ルール抽出方法。
コンピュータに、
予め所属クラスの付与されている複数のデータレコードを、前記データレコードの各フィールドに含まれている特徴量の性質に応じてクラスタリングを行うクラスタリング機能と、
前記クラスタリング機能で同じクラスタに分類されて、かつ、前記所属クラスのうちの一の所属クラスが付与されている複数の前記データレコードと、前記一の所属クラスと相違する他の所属クラスが付与されている複数の前記データレコードとを併せて決定木解析するルール抽出機能とを実現させる
ルール抽出プログラム。