JP2021018466A - ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラム - Google Patents
ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラム Download PDFInfo
- Publication number
- JP2021018466A JP2021018466A JP2019131942A JP2019131942A JP2021018466A JP 2021018466 A JP2021018466 A JP 2021018466A JP 2019131942 A JP2019131942 A JP 2019131942A JP 2019131942 A JP2019131942 A JP 2019131942A JP 2021018466 A JP2021018466 A JP 2021018466A
- Authority
- JP
- Japan
- Prior art keywords
- class
- rule
- unit
- data
- data record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title abstract description 18
- 238000003066 decision tree Methods 0.000 claims abstract description 34
- 238000000605 extraction Methods 0.000 claims description 95
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 12
- 239000008186 active pharmaceutical agent Substances 0.000 abstract description 48
- 238000004422 calculation algorithm Methods 0.000 abstract description 38
- 239000000284 extract Substances 0.000 abstract description 4
- 238000010801 machine learning Methods 0.000 description 35
- 238000007635 classification algorithm Methods 0.000 description 22
- 238000012545 processing Methods 0.000 description 16
- 230000000694 effects Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013450 outlier detection Methods 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 235000008733 Citrus aurantifolia Nutrition 0.000 description 2
- 235000011941 Tilia x europaea Nutrition 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000004571 lime Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】分類アルゴリズムの判断基準を抽出可能なルール抽出装置、情報処理装置、ルール抽出方法、ルール抽出プログラムを提供する。【解決手段】ルール抽出装置は、予め所属クラスの付与されている複数のデータレコード31を、データレコード31の各フィールドに含まれている特徴量DCの性質に応じてクラスタリングを行うクラスタリング部23を備える。また、ルール抽出装置は、クラスタリング部23で同じクラスタに分類されて、かつ、所属クラスDSのうちの一の所属クラスDSの付与されている複数のデータレコード31を備える。また、ルール抽出装置は、一の所属クラスDSと相違する他の所属クラスDSが付与されている複数のデータレコード31とを併せて決定木解析する判定ルール抽出部25とを備える。【選択図】図2
Description
本発明は、ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラムに関する。
従来、データの分類に機械学習の活用が期待されているが、機械学習に用いられるアルゴリズムは高精度になる一方で複雑化していて、機械学習による学習結果と、この学習結果に基づく判断基準とを外部から知り得ることが難しい、いわゆるブラックボックス性が課題となっている。例えば、機械学習した分類アルゴリズムがどのような判断基準でもって入力されたデータの分類を判断しているのかについて、それを可視化できない、又は可視化が容易ではないことが多い。そして、実際に運用されるシステムにおいては、判断基準を説明することのできないアルゴリズムの適用が難しいものとなっている一方で、少ないコストで高精度の判断結果が得られるアルゴリズムであればその適用が望まれることもある。そこで、ブラックボックス性のある分類アルゴリズムの判断基準の推定に関する技術が、例えば、特許文献1に記載されている。
特許文献1に記載の技術は、機械学習モデルの出力要因の推定精度を向上させる。つまり、機械学習モデルへの入力データ群に含まれる第1の入力データの指定に応じ、第1の入力データに関連する第1の入力データ群を抽出する。また、第1の入力データ群に対応した、機械学習モデルに入力される第1の変換データ群、及び、第1の変換データ群に対応した機械学習モデルの第1の出力データ群を、それぞれ取得する。そして、第1の入力データと第1の入力データ群のデータそれぞれとの距離、及び、第1の変換データと第1の変換データ群のデータそれぞれとの距離に基づき、第1の入力データ群から、推定モデルの学習対象データを選択する。
上記技術では、出力要因の推定精度が向上するように、学習対象データを選択することができるようになる。一方で、学習対象データを学習した学習結果について、ブラックボックス性が改善されるように、その学習結果によって得られる判断結果を推定するものではない。
本発明は、このような実情に鑑みてなされたものであり、その目的は、分類アルゴリズムの判断基準を抽出可能なルール抽出装置、情報処理装置、ルール抽出方法、ルール抽出プログラムを提供することにある。
上記課題を解決するルール抽出装置は、予め所属クラスの付与されている複数のデータレコードを、前記データレコードの各フィールドに含まれている特徴量の性質に応じてクラスタリングを行うクラスタリング部と、前記クラスタリング部で同じクラスタに分類されて、かつ、前記所属クラスのうちの一の所属クラスの付与されている複数の前記データレコードと、前記一の所属クラスと相違する他の所属クラスが付与されている複数の前記データレコードとを併せて決定木解析するルール抽出部とを備える。
上記課題を解決するルール抽出方法は、予め所属クラスの付与されている複数のデータレコードを、前記データレコードの各フィールドに含まれている特徴量の性質に応じてクラスタリングを行うクラスタリングステップと、前記クラスタリングステップで同じクラスタに分類されて、かつ、前記所属クラスのうちの一の所属クラスが付与されている複数の前記データレコードと、前記一の所属クラスと相違する他の所属クラスが付与されている複数の前記データレコードとを併せて決定木解析するルール抽出ステップとを備える。
上記課題を解決するルール抽出プログラムは、コンピュータに、予め所属クラスの付与されている複数のデータレコードを、前記データレコードの各フィールドに含まれている特徴量の性質に応じてクラスタリングを行うクラスタリング機能と、前記クラスタリング機能で同じクラスタに分類されて、かつ、前記所属クラスのうちの一の所属クラスが付与されている複数の前記データレコードと、前記一の所属クラスと相違する他の所属クラスが付与されている複数の前記データレコードとを併せて決定木解析するルール抽出機能とを実現させる。
このような構成、方法又はプログラムによれば、同じクラスタに分類された複数のデータレコードのうち同じ所属クラスに属するデータレコードについてルールが抽出される。つまり、分類された結果が、所属クラスとなるために必要なルールが決定木解析により抽出可能となる。決定木による分類は、可視可能であるため、抽出されたルールにより、分類アルゴリズムの判断基準を抽出することができる。
例えば、教師データから機械学習アルゴリズムの学習がされたとき、機械学習アルゴリズムの適用結果を得ることができるとともに、機械学習アルゴリズムの判定ルールを可視化可能にするため、機械学習のブラックボックス性を改善できるようになる。
好ましい構成として、前記データレコードの前記特徴量の性質に基づいて前記データレコードに対して推定した推定クラスを付与するクラス分類器を備え、前記ルール抽出部は、前記クラスタリング部で同じクラスタに分類されて、かつ、前記一の所属クラスが付与されている複数の前記データレコードについて、前記一の所属クラスと前記推定クラスとが同じクラスである。
このような構成によれば、クラス分類器による推定クラスと、所属クラスとが同じであるデータレコードとについて、決定木解析の結果から分類アルゴリズムの判定基準を示すルールが抽出される。
好ましい構成として、前記ルール抽出装置は、前記クラスタリングに先立ち、前記クラス分類器での分類に対する前記データレコードの各特徴量の寄与度を算出する寄与度算出部を備え、前記クラス分類器は、複数の学習用データレコードに基づいて学習した学習器の学習結果に基づいて前記推定クラスを推定し、前記寄与度算出部は、前記所属クラスと前記推定クラスとが同じである前記データレコードに対して寄与度を算出し、前記クラスタリング部は、前記算出された寄与度を特徴量の性質としてクラスタリングを行う。
このような構成によれば、学習用データレコードの学習に基づいてクラス分類器で推定した推定クラスと、所属クラスとが同じであるデータレコード、つまり推定結果の正しかったデータレコードについてルールが取得される。推定結果が正しいデータレコードであれば、それを分類するルールは平易なルールであると考えられ、このとき、クラス分類器での分類に対して算出された寄与度に基づいて決定木解析を行うことで、平易なルールを取得することができる。
例えば、不正なデータレコードを寄与度に基づいてクラスタリングし、それらを正常なデータレコードと混ぜて決定木解析することで、適正と不正とが混ざっているデータレコードから不正なクラスを判定するときに適用される判定ルールを抽出できる。
好ましい構成として、複数の前記学習用データレコードと、前記クラス分類器で前記推定クラスを推定する前記データレコードを含む複数の前記データレコードとが相違する。
このような構成によれば、学習用データレコードから得られた学習結果に基づいて、学習用データレコードとは相違するデータレコードの分類された判定基準を示すルールを抽出することができる。
このような構成によれば、学習用データレコードから得られた学習結果に基づいて、学習用データレコードとは相違するデータレコードの分類された判定基準を示すルールを抽出することができる。
好ましい構成として、前記ルール抽出装置はさらに、外れ度合を学習した外れ度合い学習器であって、前記一の所属クラスに属する複数の学習用データレコードの各特徴量に算出された外れ度合を学習した前記外れ度合い学習器による学習結果に基づいて、前記データレコードの各特徴量に対して外れ度合いを推定する前記外れ度合い推定器と、前記クラスタリング部によるクラスタリングに先立ち、前記外れ度合い学習器で学習した前記各特徴量の外れ度合いと、前記データレコードの各特徴量に推定した外れ度合いとに基づいて、前記一の所属クラスへの分類に対して前記各特徴量の寄与度を算出する寄与度算出部を備え、前記クラスタリング部は、前記算出された寄与度を特徴量の性質としてクラスタリングを行う。
このような構成によれば、一の所属クラスに所属するデータレコードの外れ度合いを学習することで、当該一の所属クラスに所属するデータレコードに対して一の所属クラスに所属するための各特徴量の外れ度合いに基づいて寄与度を算出し、算出した寄与度に基づいてルールが抽出されるようになる。
好ましい構成として、複数の前記学習用データレコードと、前記外れ度合い推定器で前記外れ度合いを推定する前記データレコードを含む複数の前記データレコードとが相違する。
このような構成によれば、複数の学習用データレコードから得られた学習結果に基づいて、新たなデータレコードに対してルールを抽出することができる。
好ましい構成として、前記ルール抽出部で抽出されたルールを複数の前記データレコードに再適用して判定した判定クラスと、複数の前記データレコードの所属クラスとを比較することで、前記ルール抽出部で抽出されたルールの精度を判定する精度判定部を備える。
好ましい構成として、前記ルール抽出部で抽出されたルールを複数の前記データレコードに再適用して判定した判定クラスと、複数の前記データレコードの所属クラスとを比較することで、前記ルール抽出部で抽出されたルールの精度を判定する精度判定部を備える。
このような構成によれば、抽出された判定ルールによる分類の推定精度が判定されるので、判定ルールの利便性が高められる。
好ましい構成として、前記ルール抽出部で抽出されたルールのうち、複数の前記データレコードに適用してクラス分類に利用された各ルールのそれぞれの利用回数を累計して前記ルール毎の利用割合を判定する割合判定部を備える。
好ましい構成として、前記ルール抽出部で抽出されたルールのうち、複数の前記データレコードに適用してクラス分類に利用された各ルールのそれぞれの利用回数を累計して前記ルール毎の利用割合を判定する割合判定部を備える。
このような構成によれば、抽出された複数のルールのそれぞれについて利用割合が得られるので、ルール毎の妥当性や重要性の傾向が得られる。
好ましい構成として、入力データに前記ルール抽出部で抽出されたルールを適用して前記所属クラスの判定を行う判定装置に対して、前記ルール抽出部で抽出されたルールを設定する設定部を備える。
好ましい構成として、入力データに前記ルール抽出部で抽出されたルールを適用して前記所属クラスの判定を行う判定装置に対して、前記ルール抽出部で抽出されたルールを設定する設定部を備える。
このような構成によれば、所属クラスの判定を行う判定装置にルールを提供することができる。例えば、所属クラスの判定を行う判定装置がルール抽出装置を備えることのできない装置であったとしても、抽出されたルールの提供ができるようになる。
好ましい構成として、前記データレコードに対して前記推定クラスの推定に適用された前記抽出されたルールを、当該データレコードとともに提示する提示部を備える。
このような構成によれば、データレコードに対する分類結果が得られるときのアルゴリズム等の判断が、推定クラスを推定するときに適用されたルールで可視化されて、アルゴリズムの判断の妥当性の検証が容易に行えるようになる。
このような構成によれば、データレコードに対する分類結果が得られるときのアルゴリズム等の判断が、推定クラスを推定するときに適用されたルールで可視化されて、アルゴリズムの判断の妥当性の検証が容易に行えるようになる。
上記課題を解決する情報処理装置は、ルールに基づいて入力データの所属クラスを判定する判定装置を有する情報処理装置であって、前記ルールが上記記載の前記ルール抽出装置の前記設定部により設定される。
このような構成によれば、ルール抽出装置で得られた判定ルールが、設定されたルールに基づいて入力データの所属クラスを判定する判定装置に設定される。
好ましい構成として、前記所属クラスが不適切な状態を示すものであるとき、前記所属クラスの推定に適用された前記ルールの適用回数を集計する。
好ましい構成として、前記所属クラスが不適切な状態を示すものであるとき、前記所属クラスの推定に適用された前記ルールの適用回数を集計する。
このような構成によれば、不正等の不適切な事象の発生傾向がルールの適用回数の集計に基づいて得られる。よって、不正であると判断される入力データが有している特徴量の性質の傾向が、集計されたルールから得られる。
好ましい構成として、前記ルール抽出装置が、上記記載を間接的に引用する前記ルール抽出装置であって、不正の判定に利用されると想定された前記特徴量の性質と、前記推定クラスの推定に利用された前記ルールから得られた前記特徴量の性質とを比較して、前記ルールから得られた前記特徴量の性質から、前記予め不正の判定に利用されると想定された前記特徴量の性質以外の前記特徴量の性質を抽出する。
このような構成によれば、不正判定への利用が想定された特徴量以外の特徴が不正判定に利用されることが判明することから、不正の判定に対して新たな着眼点を提供したり、逆に、想定外の誤検知の動作を検証したりすることができる。
本発明によれば、分類アルゴリズムの判断基準が抽出可能になる。
(第1実施形態)
図1〜図6を参照して、ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラムの第1実施形態について説明する。ルール抽出装置は、教師データを機械学習することによって生成されたクラス分類アルゴリズムが、新たに入力されたデータを分類したとき、分類における判断基準を高い精度で抽出することができる装置である。本実施形態では、情報処理装置20に、ルール抽出装置、ルール抽出方法及びルール抽出プログラムが含まれている。
図1〜図6を参照して、ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラムの第1実施形態について説明する。ルール抽出装置は、教師データを機械学習することによって生成されたクラス分類アルゴリズムが、新たに入力されたデータを分類したとき、分類における判断基準を高い精度で抽出することができる装置である。本実施形態では、情報処理装置20に、ルール抽出装置、ルール抽出方法及びルール抽出プログラムが含まれている。
図1に示すように、複数の利用者11a,11b,11c,11dや各種のサーバ12a,12bは、ネットワーク10を通じて相互に情報の授受が可能に接続されている。
複数の利用者11a,11b,11c,11dと各種のサーバ12a,12bとの間では、データレコード31(図2参照)を含む情報が授受される。例えば、利用者11aは、サーバ12aの提供するサービスに必要なデータレコード31(図2参照)を含む情報をサーバ12aに送信する。
複数の利用者11a,11b,11c,11dと各種のサーバ12a,12bとの間では、データレコード31(図2参照)を含む情報が授受される。例えば、利用者11aは、サーバ12aの提供するサービスに必要なデータレコード31(図2参照)を含む情報をサーバ12aに送信する。
図2に示すように、データレコード31は、複数のデータを含んでいる。データレコード31は、各利用者11a,11b,11c,11dに関するデータ、及び、管理用のデータ等を保持している。利用者11aに関するデータは、個人の特徴や属性に関するデータが対応し、管理用データは、情報管理やデータ処理に利用されるデータである。具体的には、データレコード31は、データID、特徴量DC、所属クラスDS、推定クラス、寄与度DK、クラスタ、・・・等の各データ項目に対応するフィールドを備えている。フィールドには対応するデータ項目の値が格納される。フィールドには、初期値を示す値や、未使用を示す値が入っていてもよい。
データレコード31は、利用者毎に作成されたり、時間経過毎に作成されるため、データベース30には、複数のデータレコード31が含まれている。
サーバ12aは、利用者11a等に所定のサービスを提供する。例えば、サーバ12aは、健康管理や、施設利用、決済等に利用される。サーバ12aは、利用者11aから登録されたデータが適正であるか、不正であるかを判断し、適正であると判定されたデータに対しては所定の処理、例えば、データベース30への登録処理や認証処理、その他の処理等を行い、処理結果を利用者11aに通知する。サーバ12aは、データレコード31の分類される所属クラス、例えば、適正や不正の判定を、低負荷、かつ、高精度に行える判定ルールに基づいて判定する判定装置13を備える。サーバ12aの判定装置13は、サーバ12bの情報処理装置20等で作成された判定ルールが設定され、この設定された判定ルールをデータレコード31に適用することで、低負荷でありながら、精度の高い判定処理を行う。
サーバ12aは、利用者11a等に所定のサービスを提供する。例えば、サーバ12aは、健康管理や、施設利用、決済等に利用される。サーバ12aは、利用者11aから登録されたデータが適正であるか、不正であるかを判断し、適正であると判定されたデータに対しては所定の処理、例えば、データベース30への登録処理や認証処理、その他の処理等を行い、処理結果を利用者11aに通知する。サーバ12aは、データレコード31の分類される所属クラス、例えば、適正や不正の判定を、低負荷、かつ、高精度に行える判定ルールに基づいて判定する判定装置13を備える。サーバ12aの判定装置13は、サーバ12bの情報処理装置20等で作成された判定ルールが設定され、この設定された判定ルールをデータレコード31に適用することで、低負荷でありながら、精度の高い判定処理を行う。
サーバ12bは、サーバ12aに所定のサービスを提供する。例えば、サーバ12bは、機械学習サーバであって、登録された教師データDt(図3参照)を、特徴量DCに基づいて所属クラスDSに分類するようにする判定ルールを学習する。またサーバ12bは、学習成果である判定ルールを新たに入力されたデータレコード31に適用して対応する所属クラスDSを判断する。また、サーバ12bは、機械学習の機能を有していれば利用可能な機械学習の成果について、機械学習の機能を有していない構成等であるため、そのまま利用することのできないサーバ12aでも利用可能な代替ルールを作成して、サーバ12aに提供する。
図2を参照して、サーバ12bに含まれている情報処理装置20について説明する。
情報処理装置20は、機械学習処理や、機械学習による学習結果(判定ルール)に基づいて入力データを分類する分類処理を行う。また、情報処理装置20は、学習結果に基づく推定結果と同様の結果が得られるように調整した代替ルールを作成する。代替ルールは、サーバ12bとは構成の相違するサーバ、例えば、機械学習の学習結果を利用することに必要な高い処理能力や処理負荷の余裕を有していないサーバでも利用可能なルールである。代替ルールは、低い処理能力や利用できる負荷余裕の少ないサーバ12aにも利用可能なルールであって、例えば、分岐処理による判定をおこうな。
情報処理装置20は、機械学習処理や、機械学習による学習結果(判定ルール)に基づいて入力データを分類する分類処理を行う。また、情報処理装置20は、学習結果に基づく推定結果と同様の結果が得られるように調整した代替ルールを作成する。代替ルールは、サーバ12bとは構成の相違するサーバ、例えば、機械学習の学習結果を利用することに必要な高い処理能力や処理負荷の余裕を有していないサーバでも利用可能なルールである。代替ルールは、低い処理能力や利用できる負荷余裕の少ないサーバ12aにも利用可能なルールであって、例えば、分岐処理による判定をおこうな。
情報処理装置20は、演算装置、記憶装置、通信装置、情報入出力装置等を有している。演算装置は、いわゆるコンピュータであって、記憶装置等に記憶された各プログラムの実行に基づいて、各種の情報処理を行う。記憶装置は、演算等の結果を一時的に保持するRAMや、プログラム等を保持するROMやフラッシュメモリ等より構成されている。
情報処理装置20は、クラス分類部21、寄与度算出部22、クラスタリング部23、データ選択部24、判定ルール抽出部25、代替ルール適用部26、精度判定部27及びルール設定部28を備えている。また、情報処理装置20は、データベース30と、学習部50とを備えている。本実施形態では、ルール抽出装置は、少なくとも、クラスタリング部23と、データ選択部24と、判定ルール抽出部25とを含み構成される・
データベース30は、処理に必要とされる各種データが格納されており、複数のデータレコード31を保持している。複数のデータレコード31は、教師データや入力された新たなデータレコード31を含んで構成される。
データベース30は、処理に必要とされる各種データが格納されており、複数のデータレコード31を保持している。複数のデータレコード31は、教師データや入力された新たなデータレコード31を含んで構成される。
学習部50は、データベース30に登録されている複数のデータレコード31のうちの教師データを学習アルゴリズム50Aに基づいて学習する機械学習を行う。機械学習では、与えられた教師データを予め定められたラベルに分類するように判定する学習結果を得るような学習を行う。教師データは、データレコード31に、ラベルとして正確な所属クラスDSが付与されており、機械学習は、特徴量DCから、正確な所属クラスDSに分類することのできるクラス分類アルゴリズム(クラス分類Alg.)21Aを学習結果として得る。
学習部50は、クラス分類アルゴリズム21Aをクラス分類部21で利用可能にする。
また、学習部50は、データベース30に登録される新たな教師データによって追加学習をすることができてもよい。教師データは、学習結果に基づいてデータレコード31に所属クラスDSを付与したものであってもよい。
また、学習部50は、データベース30に登録される新たな教師データによって追加学習をすることができてもよい。教師データは、学習結果に基づいてデータレコード31に所属クラスDSを付与したものであってもよい。
クラス分類器としてのクラス分類部21は、教師データや新たに入力されたデータなどのデータレコード31が付与される。クラス分類部21は、データベース30に登録されているデータに学習結果としての判定ルールを適用して、当該データをいずれかのラベルに分類する分類処理を行う。具体的には、クラス分類部21は、クラス分類アルゴリズム21Aをデータレコード31の各特徴量DCに適用することで、当該データレコード31に分類先として推定される推定クラスを得る。
寄与度算出部22は、推定クラスの推定に対する各特徴量DCの寄与度を算出する寄与度算出アルゴリズム(寄与度算出Alg.)22Aを有している。寄与度算出部22は、クラスタリングの処理に先立ち、クラス分類部21での分類に対するデータレコードの各特徴量DCの寄与度を算出する。
クラスタリング部23は、各特徴量DCの寄与度DKに基づいて各データレコード31をクラスタリングするクラスタリングアルゴリズム(クラスタリングAlg.)23Aを有している。本実施形態では、特徴量の性質は、特徴量DCの寄与度DKで構成される。
クラスタリング部23は、予め所属クラスDSの付与されている複数のデータレコード31を、データレコード31の各フィールドに含まれている寄与度DKに応じてクラスタリングを行うクラスタリング機能(クラスタリングステップ)を有している。クラスタリング部23は、クラスタリングの結果として得られたクラスタを各データレコード31のクラスタに対応フィールドに設定する。つまり、クラスタがデータレコード31に関連付けられる。なお、ここでは、クラスタの区分は、クラスによる区分と近似していることが期待されている。
データ選択部24は、データレコード31に推定された推定クラスと、クラスタリングされたクラスタとに基づいて、複数のデータレコード31のうちから判定ルールの抽出に利用するデータレコード31を複数選択する。具体的には、データ選択部24は、クラスタリング部23で同じクラスタに分類されて、かつ、特定の一の所属クラスが付与されているとともに、推定された推定クラスと特定の一の所属クラスとが同じクラスであるデータレコード31を選択する。
判定ルール抽出部25は、複数のデータレコード31を特徴量の性質のひとつである特徴量DCの寄与度DKに基づいて決定木解析する決定木アルゴリズム(決定木Alg.)25Aを有している。判定ルール抽出部25は、データ選択部24で選択された複数のデータレコード31を解析する。つまり、判定ルール抽出部25で解析されるデータレコード31は、所定の一の所属クラスが付与されていて、かつ、所定の一の所属クラスと推定クラスとが同じクラスである。
そして、判定ルール抽出部25は、同じクラスタに分類されて、かつ、特定の一の所属クラスの付与された複数のデータレコード31と、特定の一の所属クラスとは相違する他の所属クラスが付与されている複数のデータレコード31とを併せた複数のデータレコード31を解析の対象データとして決定木解析する。本実施形態では、ルール抽出部、ルール抽出ステップ及びルール抽出ステップは、データ選択部24と判定ルール抽出部25とで構成される。
そして、判定ルール抽出部25は、決定木解析による解析結果から代替ルールを作成する。
代替ルール適用部26は、判定ルール抽出部25で作成した代替ルールを入力されたデータレコード31に適用して、分類されるラベルを判定する判定処理を行う。代替ルール適用部26は、ルール分類アルゴリズム26Aを有しており、ルール分類アルゴリズム26Aをデータレコード31の各特徴量DCの値に適用することで、当該データレコード31の分類先として代替クラスを判定する。
代替ルール適用部26は、判定ルール抽出部25で作成した代替ルールを入力されたデータレコード31に適用して、分類されるラベルを判定する判定処理を行う。代替ルール適用部26は、ルール分類アルゴリズム26Aを有しており、ルール分類アルゴリズム26Aをデータレコード31の各特徴量DCの値に適用することで、当該データレコード31の分類先として代替クラスを判定する。
代替ルール適用部26は、判定処理を、教師データに対して行うこともできるし、データベース30に新たに入力されたデータレコード31に適用することもできる。
精度判定部27は、データレコード31に対して代替ルールを再適用して得られた代替クラスと、データレコード31の所属クラスとを比較することで、判定ルール抽出部25で作成された代替ルールの精度を判定する。
精度判定部27は、データレコード31に対して代替ルールを再適用して得られた代替クラスと、データレコード31の所属クラスとを比較することで、判定ルール抽出部25で作成された代替ルールの精度を判定する。
ルール設定部28は、入力されたデータレコード31に代替ルールを適用して所属クラスを判定する判定装置13に対して、代替ルールを設定する。具体的には、ルール設定部28は、代替ルールをサーバ12aに送り、サーバ12aの判定装置13で代替ルールに基づくデータレコード31の所属クラスDSの判定を可能にする。
なお、情報処理装置20は、ひとつのデータレコード31に対して推定クラスの推定に適用された代替ルールを、当該データレコード31とともに提示する提示部を備えてもよい。
(データレコード31について)
次に、データレコード31について詳述する。
図2に示すように、データレコード31は、データID、特徴量DC、所属クラスDS、推定クラス、寄与度DK、クラスタ、・・・等の各項目に対応するフィールドを備えている。なお、データレコード31は、日時や場所等の情報を含んでいてもよい。また、図3〜図6は、複数のデータレコード31について説明に必要なフィールドを選択的に表示し、説明に必要でないフィールドの表示は省略している。
次に、データレコード31について詳述する。
図2に示すように、データレコード31は、データID、特徴量DC、所属クラスDS、推定クラス、寄与度DK、クラスタ、・・・等の各項目に対応するフィールドを備えている。なお、データレコード31は、日時や場所等の情報を含んでいてもよい。また、図3〜図6は、複数のデータレコード31について説明に必要なフィールドを選択的に表示し、説明に必要でないフィールドの表示は省略している。
図3を参照して、データレコード31の所属クラスDSは、ラベルとして特性を有しており、予め、値が付与される。ここでは、所属クラスDSは、データレコード31の特徴量DCの値が適正か、不正かを示す値が設定される。例えば、所属クラスDSは、「1」は不正を示し、「2」「3」は適性を示す。
例えば、複数のデータレコード31が学習用の教師データDtであるとき、所属クラスDSには正確な値が予め設定されている。
図3を参照して、データレコード31の特徴量DCは、身長[cm]、体重[kg]、年齢[歳]、性別(女性=0、男性=1)、・・・等の各項目に対応するフィールドを備えている。特徴量DCの各フィールドには、対応する項目に設定された値が格納される。
図3を参照して、データレコード31の特徴量DCは、身長[cm]、体重[kg]、年齢[歳]、性別(女性=0、男性=1)、・・・等の各項目に対応するフィールドを備えている。特徴量DCの各フィールドには、対応する項目に設定された値が格納される。
例えば、データレコード311は、データIDが「1」であり、特徴量DCの値として、身長「160」、体重「58」、年齢「20」、性別「1」、・・・が設定されるとともに、所属クラスDSは「1」である。また、データレコード312は、データIDが「2」であり、特徴量DCの値として、身長「158」、体重「49」、年齢「17」、性別「0」、・・・が設定されるとともに、所属クラスDSは「1」である。また、データレコード313は、データIDが「3」であり、特徴量DCの値として、身長「175」、体重「80」、年齢「32」、性別「1」、・・・が設定されるとともに、所属クラスDSは「2」である。
図4を参照して、クラス分類されたデータレコード311は、推定クラスの値が「1」、データレコード312は、推定クラスの値が「3」、データレコード313は、推定クラスの値が「2」である。
また、図4を参照して、データレコード31の寄与度DKは、特徴量DCの身長、体重、年齢、性別(0〜1)、・・・等の各項目に対応するフィールドを備えている。寄与度DKの各フィールドには、対応する項目に算出される寄与度DKの値が格納される。
例えば、寄与度算出されたデータレコード311は、寄与度DKの値として、身長「0」、体重「−0.5」、年齢「0」、性別「0.8」、・・・が設定されている。また、データレコード313は、寄与度DKの値として、身長「0.1」、体重「0.9」、年齢「0.2」、性別「0」、・・・が設定されている。
図5を参照して、クラスタリングされたデータレコード311は、クラスタの値が「a」、データIDが「6」であるデータレコード316は、クラスタの値が「b」、データIDが「8」であるデータレコード318は、クラスタの値が「a」である。また、データレコード316は、寄与度DKの値として、身長「−0.4」、体重「0」、年齢「1.2」、性別「0」、・・・が設定されている。また、データレコード318は、寄与度DKの値として、身長「0.1」、体重「−0.7」、年齢「0」、性別「1.3」、・・・が設定されている。
図6を参照して、他の所属クラスを有している、データIDが「4」であるデータレコード314は、特徴量DCの値として、身長「148」、体重「50」、年齢「22」、性別「0」、・・・が設定されているとともに、所属クラスの値は「3」である。
(ルール抽出処理の概要)
次に、図2を参照してルール抽出処理の概要について説明する。
まず、学習部50は、入力されたデータレコード31に対して学習を行い、クラス分類アルゴリズム21Aを学習結果として得る。
次に、図2を参照してルール抽出処理の概要について説明する。
まず、学習部50は、入力されたデータレコード31に対して学習を行い、クラス分類アルゴリズム21Aを学習結果として得る。
クラス分類部21は、入力されたデータレコード31に対してクラス分類アルゴリズム21Aに基づき推定クラスを得る。
寄与度算出部22では、クラス分類部21による分類において、データレコード31のどの特徴量DCが、分類にどの程度寄与したかという寄与度DKを寄与度算出アルゴリズム22Aに基づいて算出する。
寄与度算出部22では、クラス分類部21による分類において、データレコード31のどの特徴量DCが、分類にどの程度寄与したかという寄与度DKを寄与度算出アルゴリズム22Aに基づいて算出する。
クラスタリング部23では、寄与度DKにクラスタリングアルゴリズム23Aを適用してデータレコード31をクラスタリングする。ところで、仮に、データレコード31の特徴量DCの値に基づいてクラスタリングを行うと、値の振れ幅や、桁の大小等、必ずしもクラスの所属に寄与しない特徴量であっても距離の絶対的な大小に基づいてクラスタリングされてしまう。その結果、クラスの所属に寄与した特徴量に応じたクラスタリングが行われない可能性がある。この点、クラスタリングに寄与度DKを用いることで、推定クラスの分類に対して本質的に重要な次元、換言すると、強い影響を及ぼす特徴量DCの性質が抽出された上で、強い影響を及ぼす特徴量DCの性質が重視されたクラスタリングを行うことができる。
寄与度DKは、周知の寄与度算出アルゴリズム22Aで計算することができる。例えば、寄与度DKを、機械学習モデルを解釈する周知の研究であるLIME[KDD'16]やSHAPを用いて計算してもよいし、分類の出力に対する各特徴量DCの勾配を用いて計算してもよいし、各特徴量DCの微小変化が分類の出力に与える影響を用いて計算してもよい。なお、寄与度DKは、[0,1]に正規化されていてもよいし、[0,1]に正規化されていなくてもよく、負の値を取る事があってもよい。
ここで、LIMEは、複雑な分類をおこなう分類器において、各特徴量DCがどの程度分類に寄与したかを計算する。LIMEは、まず分類対象のデータの周辺にランダムでサンプルデータを生成し、各データが分類器によってどのように分類されるかを確認する。その後、LIMEは、その分類結果をラベルとしてサンプルデータの線形分離を行うと、線形分離モデルにおける各特徴量DCの係数が、そのデータの周辺における各特徴量DCの分類に対する寄与度DKとしてみなす。こうして得られた寄与度DKに基づいて、例えばLIMEと同じ画像を見た分類器が分類を判断したとき、画像の見ている部分を確認することができる。
また、SHAPは、複雑な分類をおこなう分類器において、各特徴量DCがどの程度分類に寄与したかを計算する。SHAPは、まず分類対象のデータにおいて各特徴量DCが存在した場合と、存在しなかった場合とでどの程度分類のスコア(≒分類に対する自信)に差が出るかを、他の特徴量DCの有無の全ての組み合わせを考慮して算出する。SHAPは、算出した値の平均値を、その特徴量の寄与度として計算する。
(情報処理装置20の動作例)
続いて、図3〜図6を参照して、情報処理装置20の動作例を示す。
図3に示すように、判定ルールを抽出する元データとして、教師データDtを与える。教師データDtは、特徴量DCとラベル(所属クラスDS)とを含むデータレコード31の集合であるデータレコード群である。
続いて、図3〜図6を参照して、情報処理装置20の動作例を示す。
図3に示すように、判定ルールを抽出する元データとして、教師データDtを与える。教師データDtは、特徴量DCとラベル(所属クラスDS)とを含むデータレコード31の集合であるデータレコード群である。
図4を参照して、教師データDtの特徴量DCを、クラス分類アルゴリズム21Aを有しているクラス分類部21に入力することで、各データレコード31に推定クラスが得られる。
寄与度算出部22は、所属クラスDSと推定された推定クラスとが同じになった、換言すると、クラスの推定結果が適正であったデータレコード311,313について、寄与度算出アルゴリズム22Aで、各特徴量DCに対して寄与度DKを計算する。
図5を参照して、クラスタリング部23は、所属クラスDSが「1」であるデータレコード311,316,318に対して、計算された寄与度DKを、所属クラスDS毎にクラスタリングを行うことで、所属クラスDS内において、寄与度DKに基づいたクラスタを生成する。なお、クラスタリング部23は、所属クラスDSが「2」であるもの同士に対しても同様にクラスタリングを行ってもよい。
図6を参照して、データ選択部24は、判定ルール抽出部25で決定木解析の対象とする、クラスタが「a」であるデータレコード311,318、・・・を選択する。データ選択部24は、クラスタが「a」であるデータレコード316、・・・を選択してもよい。所属クラスDSが同じであっても、クラスタの相違毎に、相違する判定ルールが得られる可能性がある。
判定ルール抽出部25は、クラスタ「a」で特定の一の所属クラスDS「1」のデータレコード31と、その他の所属クラスDS「2」,「3」のデータレコード31との分類を決定木アルゴリズム25Aによって解析する。決定木解析によってクラスタ「a」に抽出された判定ルールは、特定の一の所属クラス「1」を有するデータレコード31において、クラスタ「a」がクラス分類部21によって何故そのクラス「1」に分類されたのかを、平易な判定ルールとして抽出可能にする。
平易な判定ルールは、条件分岐のルールとして得られる。例えば、IF〜THEN文を利用すると「IF“身長”<=170 AND “性別”==1 AND・・・THEN クラス1」、「IF“体重”<=XXX AND・・・」のような平易な条件分岐プログラムで表現可能なルールとして得られる。
同様に、判定ルール抽出部25は、特定の一の所属クラス「1」を有するデータレコード31において、クラスタ「b」がクラス分類部21によって何故そのクラス「1」に分類されたのかを、平易な判定ルールを抽出可能にする。
従来、一の所属クラスDSのデータレコード31をクラスタ毎に分けずに全て用いて、他の所属クラスDSのデータレコード31との分類を決定木によって判定ルールを抽出する手法が知られている。しかし、一の所属クラスDSに属するデータレコード31のタイプが多岐に渡る場合、それらを適切な所属クラスDSに分類する判定ルールを一つの決定木で表現するには無理が生じる。
そこで、本実施形態では、寄与度DKを利用して「その所属クラスDSに分類された理由」に基づいてデータレコード31をクラスタリングすることにより、特定の一の所属クラスDSと各クラスタとの他の所属クラスDSとの違いを、平易な判定ルールを有するものとする。こうして、平易な判定ルールを有するデータレコード31であれば、クラスタ毎に決定木解析でルール抽出を行うことにより、適切な判定ルールを抽出できるようになる。
(適用例)
一例として、本実施形態はクレジットカードの不正利用検知に利用することができる。
従来、不正利用検知は、クレジットカードの利用に応じて送受信されるデータレコードに含まれる「利用日時」、「利用場所」、「利用金額」、「年収」といった様々な特徴量に基づく適正利用と不正利用との分類を、経験等に基づいて人の判断で作成した判定ルールの適用で行われている。
一例として、本実施形態はクレジットカードの不正利用検知に利用することができる。
従来、不正利用検知は、クレジットカードの利用に応じて送受信されるデータレコードに含まれる「利用日時」、「利用場所」、「利用金額」、「年収」といった様々な特徴量に基づく適正利用と不正利用との分類を、経験等に基づいて人の判断で作成した判定ルールの適用で行われている。
近年、ルールを回避する巧みな手口が現れる等、多様化する不正な手口に対して高精度に不正利用検知を行うために、機械学習による学習結果を利用した分類が不正利用の検知に効果的であると考えられている。一方で、カード決済を処理するシステムに、不正利用検知を行うための機械学習アルゴリズムを追加するには相応のコストを要したり、学習に時間を要するため、機械学習アルゴリズムが搭載できたりしても、すぐにその効果を得られるとは限らない。
この点、本実施形態によれば、不正利用検知を、学習部50で学習済みであるクラス分類アルゴリズム21Aによる分類結果から判定ルールを抽出し、この抽出した判定ルールを既存のルールベースの検知システムを有するサーバ12aに用いることができる。これにより、サーバ12aのように既存のルールベース検知システムを有するが、機械学習アルゴリズムを適用することのできないシステムであっても、不正利用検知の学習効果に基づいてサーバ12bで作成された判定ルールを適用することが可能になる。
本実施形態によれば、以下の効果が得られるようになる。
(1)同じクラスタ「a」に分類された複数のデータレコード31のうち同じ所属クラス「1」に属するデータレコード31について寄与度DKに基づいて判定ルールが抽出される。つまり、分類された結果が、所属クラス「1」となるために必要な判定ルールが決定木解析により抽出可能となる。決定木による分類は、可視可能であるため、抽出された判定ルールにより、分類アルゴリズムの判断基準を抽出することができる。
(1)同じクラスタ「a」に分類された複数のデータレコード31のうち同じ所属クラス「1」に属するデータレコード31について寄与度DKに基づいて判定ルールが抽出される。つまり、分類された結果が、所属クラス「1」となるために必要な判定ルールが決定木解析により抽出可能となる。決定木による分類は、可視可能であるため、抽出された判定ルールにより、分類アルゴリズムの判断基準を抽出することができる。
例えば、教師データDtから機械学習アルゴリズムの学習がされたとき、機械学習アルゴリズムの適用結果を得ることができるとともに、機械学習アルゴリズムの判定ルールを可視化可能にするため、機械学習のブラックボックス性を改善できるようになる。
(2)クラス分類部21による推定クラスと、所属クラスDSとが同じであるデータレコード31とについて、決定木解析の結果からクラス分類アルゴリズム21Aの判定基準を示す判定ルールが抽出される。
(3)教師データDt(学習用データレコード)の学習に基づいてクラス分類部21で推定した推定クラス「1」と、所属クラス「1」とが同じであるデータレコード31、つまり推定結果の正しかったデータレコード31について判定ルールが取得される。推定結果が正しいデータレコード31であれば、それを分類する判定ルールは平易なルールであると考えられ、このとき、クラス分類部21での分類に対して算出された寄与度DKに基づいて決定木解析を行うことで、平易なルールを取得することができる。
例えば、不正なデータレコード31を寄与度DKに基づいてクラスタリングし、それらを正常なデータレコード31と混ぜて決定木解析することで、適正と不正とが混ざっているデータレコード31から不正なクラスを判定するときに適用される判定ルールを抽出できる。
(4)抽出された判定ルールによる分類の推定精度が判定されるので、判定ルールの利便性が高められる。
(5)情報処理装置20は、所属クラスDSの判定を行うサーバ12aの判定装置13に判定ルールを提供することができる。例えば、所属クラスDSの判定を行う判定装置13がクラス分類部21を備えることのできない装置であったとしても、抽出された判定ルールの提供ができる。
(5)情報処理装置20は、所属クラスDSの判定を行うサーバ12aの判定装置13に判定ルールを提供することができる。例えば、所属クラスDSの判定を行う判定装置13がクラス分類部21を備えることのできない装置であったとしても、抽出された判定ルールの提供ができる。
(6)情報処理装置20で得られた判定ルールが、入力データの所属クラスを判定する判定装置13に設定される。
(第2実施形態)
ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラムの第2実施形態について説明する。
(第2実施形態)
ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラムの第2実施形態について説明する。
本実施形態は、教師データDtに寄与度DKを算出せずにクラスタリングして判定ルールを抽出する構成である点が、教師データに寄与度DKを算出してクラスタリングを行う第1実施形態と相違する。本実施形態では、第1実施形態と同様の構成については、第1実施形態と同様の符号を付して説明する。
本実施形態では、データレコード31に以下の性質を仮定することで、クラスタリングにより適切な判定ルールが抽出できるものとする。すなわち、特定の一のクラスに属するデータレコード31のうち、特定の一のクラスへの所属の仕方が同様であるデータレコード31については、他のクラスとの違いについて少ないルールで記述可能であるという性質を仮定する。例えば、図3において、所属クラスDSが「1」であるデータレコード311,312と、所属クラスDSが「2」であるデータレコード313との違いについて少ないルールで記述可能であると仮定する。ここで、所属の仕方とは、所属に強く影響する特徴量DCの項目の組み合わせである。換言すると、特定の一のクラスに所属する複数のデータレコード31について、所属に強く影響する項目の組み合わせのばらつきが小さいほど、他のクラスに所属するデータレコード31との違を、少ないルールで記述可能である。
そして、寄与度DKに対するクラスタリングで分類されたクラスタ毎にデータレコード31が属するクラスと、他のクラスとの分類を決定木解析を用いて行うことで、クラスタに分類される際に行われた判定ルールの抽出を行う。
なお、クラスタリングは、k平均法やDBSCAN等のクラスタリングアルゴリズムをデータレコード31に直接適用することで行う。また、クラスタリングを、図3の所属クラスDS等のクラスのラベルとは別に、データレコード31に含まれていて別途定めた特徴量DCの項目に対して行ってもよい。
図2に示すように、本実施形態は、情報処理装置20に、クラスタリング部23と、データ選択部24と、判定ルール抽出部25とを備える。
情報処理装置20には、判定ルールを抽出する元データとして、特徴量DCとラベル(所属クラスDS)との組を含むデータレコード31の集合である教師データDt(図3参照)が与えられる。
情報処理装置20には、判定ルールを抽出する元データとして、特徴量DCとラベル(所属クラスDS)との組を含むデータレコード31の集合である教師データDt(図3参照)が与えられる。
クラスタリング部23は、図3の特徴量DCを含むデータレコード31について、所属クラスDS毎にクラスタリングを行うことで、各所属クラスDS内において、特徴量DCに基づいたクラスタを生成する。クラスタリングアルゴリズム23Aは、本実施形態のクラスタリングに好ましいアルゴリズムが選択されている。
データ選択部24は、判定ルール抽出部25で決定木解析の対象とするデータレコード31を選択する。対象として選択するデータレコード31は、特定のクラスタに分類されたデータレコード31である。
判定ルール抽出部25は、選択されたクラスタに、特定の所属クラスDSと、その他の所属クラスDSとの分類を決定木アルゴリズム25Aを適用した決定木によって解析する。決定木解析によって選択されたクラスタに抽出された判定ルールは、特定の所属クラスを有するデータレコード31において、各クラスタがクラス分類部21によって何故そのクラスに分類されたのかを、平易なルールとして抽出可能にする。判定ルール抽出部25は、その他のクラスタについても同様に平易なルールを抽出可能にする。
本実施形態によれば、上記の(1)及び(2)に記載の効果に加えて、以下の効果が得られるようになる。
(7)同じクラスタ「a」に分類された複数のデータレコード31のうち同じ所属クラス「1」に属するデータレコード31について判定ルールが抽出される。つまり、分類された結果が、所属クラス「1」となるために必要な判定ルールが決定木解析により抽出可能となる。決定木による分類は、可視可能であるため、抽出された判定ルールにより、分類アルゴリズムの判断基準を抽出することができる。
(7)同じクラスタ「a」に分類された複数のデータレコード31のうち同じ所属クラス「1」に属するデータレコード31について判定ルールが抽出される。つまり、分類された結果が、所属クラス「1」となるために必要な判定ルールが決定木解析により抽出可能となる。決定木による分類は、可視可能であるため、抽出された判定ルールにより、分類アルゴリズムの判断基準を抽出することができる。
(第3実施形態)
図7を参照して、ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラムの第3実施形態について説明する。
図7を参照して、ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラムの第3実施形態について説明する。
本実施形態では、寄与度DKを用いてクラスタリングを行う点は第1実施形態と同様である。一方、本実施形態では、教師なし学習である外れ値検知モデルによる判別および判別への寄与度DKを特徴量DCの性質として用いる点が、教師あり学習であるクラス分類部21を利用する第1実施形態の構成と相違する。本実施形態では、第1実施形態と同様の構成については、第1実施形態と同様の符号を付して説明する。
図7に示すように、情報処理装置20は、外れ度合い学習部40と、外れ度合い推定部41と、寄与度算出部22と、クラスタリング部23と、データ選択部24と、判定ルール抽出部25とを備える。本実施形態では、外れ値検知モデルは、外れ度合い推定部41と、寄与度算出部22と、クラスタリング部23と、データ選択部24と、判定ルール抽出部25とにより構成される。
外れ度合い学習部40は、外れ度合を学習する学習器である。外れ度合いは、学習アルゴリズム40Aに基づいて学習した、あるクラスタに属するデータレコード31に対して、別途与えられたデータレコード31がそのクラスタからどれだけ乖離しているかを示す度合いである。
外れ度合い学習部40は、特定の一の所属クラスDSに属する学習用の複数のデータレコード31の各特徴量DCに算出された外れ度合を学習し、その学習結果として、各特徴量DCの外れ度合いを得る。外れ度合い学習部40は、主成分分析(PCA)による次元削減および再構成を行った際の再構成誤差を用いてもよいし、オートエンコーダを用いて同様に次元削減および再構成を行ってもよいし、One Class SVMを用いてもよい。
また、外れ度合い学習部40は、その学習結果として外れ度合い41Aを得る。外れ度合い学習部40は、外れ度合い41Aを外れ度合い推定部41に設定する。
外れ度合い推定部41は、外れ度合い41Aに基づいて、新たに入力されたデータレコード31の各特徴量DCに対して外れ度合いの程度を推定する。具体的には、外れ度合い推定部41は、外れ度合い学習部40で得られた外れ度合いに対して、閾値を与えることで、別途与えられたデータレコード31がそのクラスタに属するか否かを判別する。
外れ度合い推定部41は、外れ度合い41Aに基づいて、新たに入力されたデータレコード31の各特徴量DCに対して外れ度合いの程度を推定する。具体的には、外れ度合い推定部41は、外れ度合い学習部40で得られた外れ度合いに対して、閾値を与えることで、別途与えられたデータレコード31がそのクラスタに属するか否かを判別する。
寄与度算出部22は、クラスタリング部23によるクラスタリングに先立ち、外れ度合い学習部40で学習した各特徴量DCの外れ度合いと、新たに入力されたデータレコード31の各特徴量DCに推定した外れ度合いとに基づいて、特定の一の所属クラスへの分類に対して各特徴量DCの寄与度DKを算出する。
ここで寄与度DKは、どの特徴量DCがどの程度クラスタからの乖離に寄与しているかを示す値として計算される。寄与度DKの算出には、各特徴量DCの微小変化が外れ度合いに与える影響を用いてもよい。PCAやオートエンコーダを用いる再構成誤差を用いるモデルの場合、各特徴量DCの再構成誤差を寄与度DKとしてもよい。
このようにして算出された寄与度に基づいて、クラスタリング、データ選択及び判定ルール抽出を行うことで、判定ルールを得ることができるようになる。
本実施形態によれば、上記の(1)、(2)、(4)〜(6)に記載の効果に加えて、以下の効果が得られるようになる。
本実施形態によれば、上記の(1)、(2)、(4)〜(6)に記載の効果に加えて、以下の効果が得られるようになる。
(8)特定の一の所属クラスに所属するデータレコード31の外れ度合いを学習することで、当該一の所属クラスに所属するデータレコード31に対して一の所属クラスに所属するための各特徴量DCの外れ度合いに基づいて寄与度DKを算出し、算出した寄与度DKに基づいて判定ルールが抽出されるようになる。
(第4実施形態)
ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラムの第4実施形態について説明する。
ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラムの第4実施形態について説明する。
本実施形態では、新たに入力されたデータレコード31が何故そのように分類されたかという理由を利用者等に示すことを可能にする。本実施形態では、第1実施形態と同様の構成については、第1実施形態と同様の符号を付して説明する。
本実施形態では、情報処理装置20は、第1実施形態又は第3実施形態で計算された寄与度DKと、その寄与度DKに対応するクラスタの情報を保持しておく。
情報処理装置20は、新たに入力されたデータレコード31に対して、クラス分類部21で分類結果である推定クラスを算出するとともに、寄与度算出部22で寄与度DKを算出する。
情報処理装置20は、新たに入力されたデータレコード31に対して、クラス分類部21で分類結果である推定クラスを算出するとともに、寄与度算出部22で寄与度DKを算出する。
情報処理装置20は、算出された寄与度DKと、保持されたクラスタに対応する寄与度DKとを比較することで、算出された寄与度DKがどのクラスタに近いかを計算し、保持されたクラスタのなかから近いクラスタを判定する。
情報処理装置20は、近いと判定されたクラスタに属するデータレコード31に対して抽出された判定ルールを出力する。これにより、新たに入力されたデータレコード31の分類結果として推定クラスが得られるとともに、その新たに入力されたデータレコード31がその推定クラスに分類された理由を判定ルールとして得ることができる。また、得られた判定ルールを利用者に示すことが可能になる。
本実施形態によれば、上記の(1)〜(6)に記載の効果に加えて、以下の効果が得られるようになる。
(9)判定ルール抽出部25によるルール抽出処理を行わなくても、判定ルールとして得ることができるようになる。
(9)判定ルール抽出部25によるルール抽出処理を行わなくても、判定ルールとして得ることができるようになる。
(第5実施形態)
ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラムの第5実施形態について説明する。本実施形態では、第1実施形態と同様の構成については、第1実施形態と同様の符号を付して説明する。
ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラムの第5実施形態について説明する。本実施形態では、第1実施形態と同様の構成については、第1実施形態と同様の符号を付して説明する。
本実施形態では、抽出された判定ルールに基づいて、クラス分類部21、又は、外れ度合い推定部41の妥当性の判断をおこなう。
機械学習においては、利用時に使えないデータや生じないデータに基づいて学習した結果を用いて予測や分類をおこなった結果、精度が不当に高く出てしまう、いわゆるリークの生じるおそれがある。
機械学習においては、利用時に使えないデータや生じないデータに基づいて学習した結果を用いて予測や分類をおこなった結果、精度が不当に高く出てしまう、いわゆるリークの生じるおそれがある。
本実施形態では、本来の判定ルールに現れるべき特徴量DCの集合と、抽出した判定ルールに現れた特徴量DCとを比較することにより、クラス分類部21のクラス分類アルゴリズム21Aにリークが発生していないかの確認を可能とする。また、外れ値検知モデルにおいて、外れ度合い推定部41の外れ度合い41Aとの比較で、本来用いるべきでない特徴量DCに対する閾値の適用により外れ値の判断が行われていないかの確認を可能とする。
本実施形態によれば、上記(1)〜(9)に記載の効果に加えて、以下の効果が得られるようになる。
(10)抽出された判定ルールを利用してクラス分類部21の分類の妥当性、又は、外れ度合い推定部41の外れ度合い41Aと閾値との妥当性を判断することができるようになる。
(10)抽出された判定ルールを利用してクラス分類部21の分類の妥当性、又は、外れ度合い推定部41の外れ度合い41Aと閾値との妥当性を判断することができるようになる。
なお、上記各実施形態は、以下のように変更して実施することができる。上記各実施形態及び以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。
・上記各実施形態では、サーバ12aとサーバ12bとが異なる機能を含む別々のサーバである場合について例示したが、これに限らず、それぞれの機能が1つのサーバに含まれていてもよいし、逆に3つ以上のサーバに分散されていてもよい。
・上記各実施形態では、サーバ12bは、機械学習サーバである場合について例示したが、これに限らず、機械学習の機能が含まれていれば、機械学習サーバではないサーバ、例えば、認証サーバ、通信監視サーバ等であってもよい。
・上記各実施形態では、不正等の不適切な事象の発生傾向が判定装置での判定ルールの適用回数の集計に基づいて得られてもよい。これにより、不正であると判断される入力データが有している特徴量DCの性質の傾向が、集計された判定ルールから得られるようになる。
・上記各実施形態では、データレコード31に対して推定クラスの推定に適用された判定ルールを、適用したデータレコード31とともに提示する提示部を備えてもよい。これにより、データレコード31に対する分類結果が得られるときのアルゴリズム等の判断が、推定クラスを推定するときに適用された判定ルールで可視化されて、アルゴリズム等の判断の妥当性の検証が容易に行えるようになる。
・上記各実施形態において、抽出された複数の判定ルールのそれぞれについて、入力されたデータレコード31に対して代替ルール適用部26等で利用された割合を得るようにしてもよい。判定ルール毎に、その利用された割合が得られることで、各判定ルールの妥当性や重要性の傾向が得られるようになる。
・上記第1実施形態では、教師データDtから得られた学習結果に対して、教師データDtに対する判定ルール抽出を行う場合について例示した。しかし、これに限らず、教師データから得られた学習結果に基づいて、教師データとは相違するデータレコード31の分類された判定基準を示す判定ルールを抽出するようにしてもよい。
・上記各実施形態では、判定ルール抽出部25は、複数のデータレコード31を特徴量DCの寄与度DKに基づいて決定木解析する場合について例示した。しかし、これに限らず、判定ルール抽出部は、特徴量の性質を示す値である特徴量の値等に基づいて複数のデータレコードを決定木解析してもよい。
・上記各実施形態では、判定ルール抽出部25は、特定の一の所属クラスと、推定された推定クラスとが同じクラスであるデータレコード31を解析する場合について例示した。しかし、これに限らず、解析するデータレコードの特定の一の所属クラスと推定クラスとが相違していてもよい。これによれば、データ選択処理を割愛できる。
10…ネットワーク、11a,11b,11c,11d…利用者、12a,12b…サーバ、13…判定装置、20…情報処理装置、21…クラス分類部、21A…クラス分類アルゴリズム、22…寄与度算出部、22A…寄与度算出アルゴリズム、23…クラスタリング部、23A…クラスタリングアルゴリズム、24…データ選択部、25…判定ルール抽出部、25A…決定木アルゴリズム、26…代替ルール適用部、26A…ルール分類アルゴリズム、27…精度判定部、28…ルール設定部、30…データベース、31…データレコード、40…学習部、40A…学習アルゴリズム、41…推定部、41A…外れ度合い、50…学習部、50A…学習アルゴリズム、311,312,313,314,316,318…データレコード。
Claims (15)
- 予め所属クラスの付与されている複数のデータレコードを、前記データレコードの各フィールドに含まれている特徴量の性質に応じてクラスタリングを行うクラスタリング部と、
前記クラスタリング部で同じクラスタに分類されて、かつ、前記所属クラスのうちの一の所属クラスの付与されている複数の前記データレコードと、前記一の所属クラスと相違する他の所属クラスが付与されている複数の前記データレコードとを併せて決定木解析するルール抽出部とを備える
ルール抽出装置。 - 前記データレコードの前記特徴量の性質に基づいて前記データレコードに対して推定した推定クラスを付与するクラス分類器を備え、
前記ルール抽出部は、前記クラスタリング部で同じクラスタに分類されて、かつ、前記一の所属クラスが付与されている複数の前記データレコードについて、前記一の所属クラスと前記推定クラスとが同じクラスである
請求項1に記載のルール抽出装置。 - 前記ルール抽出装置は、前記クラスタリングに先立ち、前記クラス分類器での分類に対する前記データレコードの各特徴量の寄与度を算出する寄与度算出部を備え、
前記クラス分類器は、複数の学習用データレコードに基づいて学習した学習器の学習結果に基づいて前記推定クラスを推定し、
前記寄与度算出部は、前記所属クラスと前記推定クラスとが同じである前記データレコードに対して寄与度を算出し、
前記クラスタリング部は、前記算出された寄与度を特徴量の性質としてクラスタリングを行う
請求項2に記載のルール抽出装置。 - 複数の前記学習用データレコードと、前記クラス分類器で前記推定クラスを推定する前記データレコードを含む複数の前記データレコードとが相違する
請求項3に記載のルール抽出装置。 - 前記ルール抽出装置はさらに、
外れ度合を学習した外れ度合い学習器であって、前記一の所属クラスに属する複数の学習用データレコードの各特徴量に算出された外れ度合を学習した前記外れ度合い学習器による学習結果に基づいて、前記データレコードの各特徴量に対して外れ度合いを推定する前記外れ度合い推定器と、
前記クラスタリング部によるクラスタリングに先立ち、前記外れ度合い学習器で学習した前記各特徴量の外れ度合いと、前記データレコードの各特徴量に推定した外れ度合いとに基づいて、前記一の所属クラスへの分類に対して前記各特徴量の寄与度を算出する寄与度算出部を備え、
前記クラスタリング部は、前記算出された寄与度を特徴量の性質としてクラスタリングを行う
請求項1に記載のルール抽出装置。 - 複数の前記学習用データレコードと、前記外れ度合い推定器で前記外れ度合いを推定する前記データレコードを含む複数の前記データレコードとが相違する
請求項5に記載のルール抽出装置。 - 前記ルール抽出部で抽出されたルールを複数の前記データレコードに再適用して判定した判定クラスと、複数の前記データレコードの所属クラスとを比較することで、前記ルール抽出部で抽出されたルールの精度を判定する精度判定部を備える
請求項1〜6のいずれか一項に記載のルール抽出装置。 - 前記ルール抽出部で抽出されたルールのうち、複数の前記データレコードに適用してクラス分類に利用された各ルールのそれぞれの利用回数を累計して前記ルール毎の利用割合を判定する割合判定部を備える
請求項1〜7のいずれか一項に記載のルール抽出装置。 - 入力データに前記ルール抽出部で抽出されたルールを適用して前記所属クラスの判定を行う判定装置に対して、前記ルール抽出部で抽出されたルールを設定する設定部を備える
請求項1〜8のいずれか一項に記載のルール抽出装置。 - 前記データレコードに対して前記推定クラスの推定に適用された前記抽出されたルールを、当該データレコードとともに提示する提示部を備える
請求項2〜4のいずれか一項に記載のルール抽出装置。 - ルールに基づいて入力データの所属クラスを判定する判定装置を有する情報処理装置であって、
前記ルールが請求項9に記載の前記ルール抽出装置の前記設定部により設定される
情報処理装置。 - 前記所属クラスが不適切な状態を示すものであるとき、前記所属クラスの推定に適用された前記ルールの適用回数を集計する
請求項11に記載の情報処理装置。 - 前記ルール抽出装置が、請求項2を間接的に引用する前記ルール抽出装置であって、
不正の判定に利用されると想定された前記特徴量の性質と、前記推定クラスの推定に利用された前記ルールから得られた前記特徴量の性質とを比較して、前記ルールから得られた前記特徴量の性質から、前記予め不正の判定に利用されると想定された前記特徴量の性質以外の前記特徴量の性質を抽出する
請求項11又は12に記載の情報処理装置。 - 予め所属クラスの付与されている複数のデータレコードを、前記データレコードの各フィールドに含まれている特徴量の性質に応じてクラスタリングを行うクラスタリングステップと、
前記クラスタリングステップで同じクラスタに分類されて、かつ、前記所属クラスのうちの一の所属クラスが付与されている複数の前記データレコードと、前記一の所属クラスと相違する他の所属クラスが付与されている複数の前記データレコードとを併せて決定木解析するルール抽出ステップとを備える
ルール抽出方法。 - コンピュータに、
予め所属クラスの付与されている複数のデータレコードを、前記データレコードの各フィールドに含まれている特徴量の性質に応じてクラスタリングを行うクラスタリング機能と、
前記クラスタリング機能で同じクラスタに分類されて、かつ、前記所属クラスのうちの一の所属クラスが付与されている複数の前記データレコードと、前記一の所属クラスと相違する他の所属クラスが付与されている複数の前記データレコードとを併せて決定木解析するルール抽出機能とを実現させる
ルール抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019131942A JP2021018466A (ja) | 2019-07-17 | 2019-07-17 | ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019131942A JP2021018466A (ja) | 2019-07-17 | 2019-07-17 | ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021018466A true JP2021018466A (ja) | 2021-02-15 |
Family
ID=74565946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019131942A Pending JP2021018466A (ja) | 2019-07-17 | 2019-07-17 | ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021018466A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021096775A (ja) * | 2019-12-19 | 2021-06-24 | 富士通株式会社 | 学習方法、学習プログラムおよび情報処理装置 |
JP2021105807A (ja) * | 2019-12-26 | 2021-07-26 | 株式会社日立製作所 | 計算機システム及び業務システムの運用環境の解析方法 |
WO2024127678A1 (ja) * | 2022-12-16 | 2024-06-20 | 富士通株式会社 | 情報処理プログラム、情報処理方法、および情報処理装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004213316A (ja) * | 2002-12-27 | 2004-07-29 | Ntt Data Corp | 多変量データ分類規則導出装置、および、多変量データ分類規則導出方法をコンピュータに実行させるプログラム |
JP2019053491A (ja) * | 2017-09-14 | 2019-04-04 | 株式会社東芝 | ニューラルネットワーク評価装置、ニューラルネットワーク評価方法、およびプログラム |
-
2019
- 2019-07-17 JP JP2019131942A patent/JP2021018466A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004213316A (ja) * | 2002-12-27 | 2004-07-29 | Ntt Data Corp | 多変量データ分類規則導出装置、および、多変量データ分類規則導出方法をコンピュータに実行させるプログラム |
JP2019053491A (ja) * | 2017-09-14 | 2019-04-04 | 株式会社東芝 | ニューラルネットワーク評価装置、ニューラルネットワーク評価方法、およびプログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021096775A (ja) * | 2019-12-19 | 2021-06-24 | 富士通株式会社 | 学習方法、学習プログラムおよび情報処理装置 |
JP2021105807A (ja) * | 2019-12-26 | 2021-07-26 | 株式会社日立製作所 | 計算機システム及び業務システムの運用環境の解析方法 |
WO2024127678A1 (ja) * | 2022-12-16 | 2024-06-20 | 富士通株式会社 | 情報処理プログラム、情報処理方法、および情報処理装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ostapowicz et al. | Detecting fraudulent accounts on blockchain: A supervised approach | |
JP6501855B1 (ja) | 抽出装置、抽出方法、抽出プログラム及びモデル | |
US20140358829A1 (en) | System and method for sharing record linkage information | |
CN105302911B (zh) | 一种数据筛选引擎建立方法及数据筛选引擎 | |
US11562262B2 (en) | Model variable candidate generation device and method | |
JP2021018466A (ja) | ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラム | |
CN112329816A (zh) | 数据分类方法、装置、电子设备和可读存储介质 | |
CN112163008A (zh) | 基于大数据分析的用户行为数据处理方法及云计算平台 | |
CN111882420A (zh) | 响应率的生成方法、营销方法、模型训练方法及装置 | |
CN114997916A (zh) | 潜在用户的预测方法、系统、电子设备和存储介质 | |
CN115545103A (zh) | 异常数据识别、标签识别方法和异常数据识别装置 | |
CN107885754B (zh) | 基于lda模型从交易数据中提取信用变量的方法和装置 | |
Bittmann et al. | Decision‐making method using a visual approach for cluster analysis problems; indicative classification algorithms and grouping scope | |
CN112990989B (zh) | 价值预测模型输入数据生成方法、装置、设备和介质 | |
CN113704637A (zh) | 基于人工智能的对象推荐方法、装置、存储介质 | |
CN113837836A (zh) | 模型推荐方法、装置、设备及存储介质 | |
CN117114689A (zh) | 一种欺诈检测模型构建方法、装置、设备及存储介质 | |
CN115204322B (zh) | 行为链路异常识别方法和装置 | |
CN115439928A (zh) | 一种操作行为识别方法及装置 | |
CN110472680B (zh) | 目标分类方法、装置和计算机可读存储介质 | |
CN110570301B (zh) | 风险识别方法、装置、设备及介质 | |
CN110033031B (zh) | 群组检测方法、装置、计算设备和机器可读存储介质 | |
CN115310606A (zh) | 基于数据集敏感属性重构的深度学习模型去偏方法及装置 | |
CN113705072A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN117492738B (zh) | 一种数据挖掘全流程方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220630 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230509 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20231031 |