JP7173332B2 - 不正検知装置、不正検知方法および不正検知プログラム - Google Patents
不正検知装置、不正検知方法および不正検知プログラム Download PDFInfo
- Publication number
- JP7173332B2 JP7173332B2 JP2021526009A JP2021526009A JP7173332B2 JP 7173332 B2 JP7173332 B2 JP 7173332B2 JP 2021526009 A JP2021526009 A JP 2021526009A JP 2021526009 A JP2021526009 A JP 2021526009A JP 7173332 B2 JP7173332 B2 JP 7173332B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- learning
- target data
- fraud detection
- examples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Computer Security & Cryptography (AREA)
- Mathematical Physics (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Description
本発明は、金融機関の業務において不正な取引を検知する不正検知装置、不正検知方法および不正検知プログラムに関する。
金融機関の業務において、不正送金や口座の不正利用といった不正取引を自動で検出できるように、取引データから不正取引を検出する仕組みが各種提案されている。例えば、このような不正取引を検出する方法として、金融機関の業務で発生するトランザクションデータに基づいて、不正取引を検出するモデルを学習する方法が挙げられる。
例えば、非特許文献1には、このようなモデルを学習する方法として、教師なし学習の一例であるデータクラスタリングアルゴリズム(DBSCAN:Density-based spatial clustering of applications with noise)が記載されている。
Martin Ester , Hans-peter Kriegel , Jorg Sander , Xiaowei Xu,A density-based algorithm for discovering clusters in large spatial databases with noise,AAAI Press,p226--231,1996
一方、金融機関の業務において発生する不正取引の数は、通常の取引(正常取引)の数に比べて圧倒的に少ない。すなわち、不正取引のデータと正常取引のデータとは不均衡であると言える。そのため、例えば、非特許文献1に記載されたアルゴリズムを用いて不正取引を予測しようとしたとしても、不均衡データの問題により、予測精度が非常に低下したり、偏ったりしてしまうという問題がある。
そのため、金融機関の業務において発生する不正取引のような、正常取引に比べて極めて少ないデータ(不均衡データ)を用いて、その不正取引を検知するモデルを学習する場合であっても、そのモデルの予測精度を向上できることが好ましい。
そこで、本発明は、不均衡データを用いる場合であっても、不正取引を検知する精度を向上させるようにモデルを学習できる不正検知装置、不正検知方法および不正検知プログラムを提供することを目的とする。
本発明による不正検知装置は、金融機関の業務における不正取引を検知する不正検知装置であって、教師なし学習により業務における取引データから正常取引データを除外して対象データを抽出する対象データ抽出部と、対象データのうち、不正取引を示すデータを正例とし、その正例以外の残りのデータを負例とする学習データを用いて、第一階層型混合モデルを学習する第一学習部と、対象データから、第一階層型混合モデルにより、負例とした学習データが負例と判別された対象データを除外するデータ除外部とを備えたことを特徴とする。
本発明による不正検知方法は、金融機関の業務における不正取引を検知する不正検知方法であって、教師なし学習により業務における取引データから正常取引データを除外して対象データを抽出し、対象データのうち、不正取引を示すデータを正例とし、その正例以外の残りのデータを負例とする学習データを用いて、第一階層型混合モデルを学習し、対象データから、第一階層型混合モデルにより、負例とした学習データが負例と判別された対象データを除外することを特徴とする。
本発明による不正検知プログラムは、金融機関の業務における不正取引を検知するコンピュータに適用される不正検知プログラムであって、コンピュータに、教師なし学習により業務における取引データから正常取引データを除外して対象データを抽出する対象データ抽出処理、対象データのうち、不正取引を示すデータを正例とし、その正例以外の残りのデータを負例とする学習データを用いて、第一階層型混合モデルを学習する第一学習処理、および、対象データから、第一階層型混合モデルにより、負例とした学習データが負例と判別された対象データを除外するデータ除外処理を実行させることを特徴とする。
本発明によれば、不均衡データを用いる場合であっても、不正取引を検知する精度を向上させるようにモデルを学習できる。
以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
図1は、本発明による不正検知装置の第一の実施形態の構成例を示すブロック図である。本実施形態の不正検知装置100は、記憶部10と、対象データ抽出部20と、第一学習部30と、データ除外部40とを備えている。本実施形態の不正検知装置100は、取得される電子データから、金融機関の業務における不正取引(例えば、不正送金や、口座の不正利用など)を検知する装置である。
図1は、本発明による不正検知装置の第一の実施形態の構成例を示すブロック図である。本実施形態の不正検知装置100は、記憶部10と、対象データ抽出部20と、第一学習部30と、データ除外部40とを備えている。本実施形態の不正検知装置100は、取得される電子データから、金融機関の業務における不正取引(例えば、不正送金や、口座の不正利用など)を検知する装置である。
記憶部10は、不正取引か否かの判断に用いられる取引データを記憶する。この取引データには、例えば、入出金の情報や、日時、金額など、各金融機関において行われる取引で利用される情報が含まれる。なお、取引データのフォーマットは任意であり、対象とする金融機関等に応じて定めておけばよい。また、記憶部10は、後述する第一学習部30がモデルを学習するために必要な各種パラメータを記憶していてもよい。記憶部10は、例えば、磁気ディスク等により実現される。
対象データ抽出部20は、金融機関の業務における取引データから、教師なし学習により、正常と判断される取引データ(以下、正常取引データと記す。)を除外して、後述する第一学習部30が、学習に用いるデータ(以下、対象データと記す。)を抽出する。なお、対象データ抽出部20が教師なし学習を行う方法は任意である。対象データ抽出部20は、例えば、上述する非特許文献1に記載されたアルゴリズムを用いて対象データを抽出してもよい。
以下の説明では、正例のデータを正例と判断した件数をTP(True Positive )と記し、負例のデータを負例と判断した件数をTN(True Negative )と記す。また、正例のデータを負例と判断した件数をFN(False Negative)と記し、負例のデータを正例と判断した件数をFP(False Positive)と記す。
すなわち、対象データ抽出部20は、教師なし学習により、正常取引データと分類されたTPに該当するデータを除外して、不正取引データに分類されたTN含むそれ以外に該当するデータを対象データとして抽出する。
第一学習部30は、対象データ抽出部20によって抽出された対象データのうち、不正取引を示すデータを正例とし、正例以外の残りのデータを負例とする学習データを用いて、階層型混合モデルを学習する。なお、後述する説明と区別するために、第一学習部30によって学習される階層型混合モデルのことを、第一階層型混合モデルと記す。
第一学習部30は、例えば、生成された学習データを用いて異種混合機械学習により階層型混合モデルを生成する。ただし、同様の技術であれば、第一学習部30が階層型混合モデルを学習する方法は、異種混合機械学習に限定されない。
階層型混合モデルは、木構造で表され、葉ノードにコンポーネントが配されるとともに、他の上位ノードに分岐条件を示す門関数(門木関数)が配される構造を有する。門関数の分岐条件は説明変数を用いて記述される。階層型混合モデルにデータが入力されると、入力されたデータは、門関数で分岐され、根ノードおよび各節ノードを辿って複数のコンポーネントのいずれかに割り当てられる。
図2は、階層型混合モデルによる判別モデルの例を示す説明図である。図2に示す例では、条件1~3に基づいて、入力されたデータが4種類のいずれかの葉ノードに分類され、各葉ノードに配された判別式Y1~Y4に基づいて判別されることを示す。例えば、条件1を満たすデータ(条件1=trueを満たすデータ)が入力された場合、そのデータは、判別式Y1が配される葉ノードに分類され、判別式Y1=F1(X)に基づいて判別が行われる。
データ除外部40は、対象データから、負例とされた学習データが第一階層型混合モデルにより負例と分類された対象データを除外する。すなわち、データ除外部40は、負例と予測された負例のデータ(TNh)に該当するデータを対象データから除外する。
具体的には、データ除外部40は、階層型混合モデルの各葉ノードに配された判別式を用いて、その葉ノードに分類されたデータの判別を行う。データ除外部40は、他の葉ノードに分類されたデータについても同様に判別を行い、各葉ノードに分類されたデータの判別結果を集計する。データ除外部40は、葉ノード(すなわち、データが分類される条件)ごとに、分類されたデータが負例と予測された割合を算出する。算出した割合が予め定めた閾値以上の場合、データ除外部40は、そのノードに分類するための条件に該当するデータを対象データから除外すると判断する。
データ除外部40による上記処理は、教師なし学習により、不正取引データと判別されたデータの中から、正常取引データを除外する処理に対応する。このように正常取引データを対象データから除外することで、対象データ全体に対する不正取引データの割合を高めることが可能になるため、不正取引をより検知しやすくなる。さらに、不正取引データと正常取引データの不均衡度合いを低減させた学習データ群を生成できるため、不正取引を検知する精度を向上させるようにモデルを学習できるようになる。
また、第一学習部30による学習処理と、データ除外部40による除外処理が繰り返し行われてもよい。具体的には、第一学習部30によって第一階層型混合モデルが生成されるごとに、データ除外部40が、除外対象とする条件を特定して、その条件に該当するデータを対象データから除外すると決定してもよい。すなわち、データ除外部40は、第一階層型混合モデルが学習されるごとに、対象データを除外するための条件を特定し、その条件のいずれかに該当するデータを対象データから除外してもよい。このように繰り返し処理を行うことで、除外対象とするデータを増加させることが可能になる。
対象データ抽出部20と、第一学習部30と、データ除外部40とは、プログラム(不正検知プログラム)に従って動作するコンピュータのプロセッサ(例えば、CPU(Central Processing Unit )、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array ))によって実現される。
例えば、プログラムは、記憶部10に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、対象データ抽出部20、第一学習部30およびデータ除外部40として動作してもよい。また、不正検知装置の機能がSaaS(Software as a Service )形式で提供されてもよい。
対象データ抽出部20と、第一学習部30と、データ除外部40とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。
また、不正検知装置の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
次に、本実施形態の不正検知装置の動作を説明する。図3は、本実施形態の不正検知装置の動作例を示すフローチャートである。対象データ抽出部20は、教師なし学習により金融機関の業務における取引データから正常取引データを除外して対象データを抽出する(ステップS11)。第一学習部30は、抽出された対象データのうち、不正取引を示すデータを正例とし、残りのデータを負例とする学習データを用いて、第一階層型混合モデルを学習する(ステップS12)。データ除外部40は、第一階層型混合モデルにより、学習データのうち、完全に負例と判別されたデータ(TN)を対象データから除外する(ステップS13)。
以上のように、本実施形態では、対象データ抽出部20が、教師なし学習により金融機関の業務における取引データから正常取引データを除外して対象データを抽出し、第一学習部30が、抽出された対象データのうち、不正取引を示すデータを正例とし、残りのデータを負例とする学習データを用いて、第一階層型混合モデルを学習する。そして、データ除外部40が、第一階層型混合モデルにより、学習データのうち、完全に負例と判別されたデータ(TN)を対象データから除外する。よって、不均衡データを用いる場合であっても、不正取引を検知する精度を向上させるようにモデルを学習できる。
実施形態2.
次に、本発明による不正検知装置の第二の実施形態を説明する。第二の実施形態では、不正取引の確度に応じて、予測結果を可視化する方法を説明する。図4は、本発明による不正検知装置の第二の実施形態の構成例を示すブロック図である。本実施形態の不正検知装置200は、記憶部10と、対象データ抽出部20と、第一学習部30と、データ除外部40と、第二学習部50と、スコア算出部60と、可視化部70とを備えている。
次に、本発明による不正検知装置の第二の実施形態を説明する。第二の実施形態では、不正取引の確度に応じて、予測結果を可視化する方法を説明する。図4は、本発明による不正検知装置の第二の実施形態の構成例を示すブロック図である。本実施形態の不正検知装置200は、記憶部10と、対象データ抽出部20と、第一学習部30と、データ除外部40と、第二学習部50と、スコア算出部60と、可視化部70とを備えている。
すなわち、本実施形態の不正検知装置200は、第一の実施形態の不正検知装置100と比較し、第二学習部50、スコア算出部60および可視化部70をさらに備えている点において異なる。それ以外の構成は、第一の実施形態と同様である。
第二学習部50は、データ除外部40により除外されて残った対象データのうち、不正取引を示すデータを正例とし、その正例以外の残りのデータを負例とする学習データを用いて、階層型混合モデルを学習する。なお、第一学習部30によって学習される階層型混合モデルと区別するため、第二学習部50が生成した学習モデルを第二階層型混合モデルと記す。
スコア算出部60は、階層型混合モデルにおける葉ノードごとに、データの判別結果を算出する。具体的には、スコア算出部60は、第二階層型混合モデルにより、正例とした学習データが正例と判別された対象データの割合(すなわち、TPの割合)をスコアとして算出する。
具体的には、スコア算出部60は、第一の実施形態におけるデータ除外部40と同様に、各葉ノードに配された判別式を用いて、その葉ノードに分類されたデータの判別を行う。スコア算出部60は、葉ノード(すなわち、データが分類される条件)ごとに、TPの割合をスコアとして算出する。スコア算出部60は、算出したスコアが予め定めた閾値以上になるノードの条件を不正取引の確度が高い条件として特定する。
また、第二学習部50による学習処理と、スコア算出部60によるデータ特定処理が繰り返し行われてもよい。具体的には、第二学習部50によって第二階層型混合モデルが生成されるごとに、スコア算出部60が、不正取引の確度が高い条件を特定してもよい。このように繰り返し処理を行うことで、不正取引の確度の高い条件を増加させることが可能になる。
可視化部70は、スコアごとに集計された対象データの、全体の対象データに対する割合を可視化する。具体的には、可視化部70は、予め定めた値または範囲に該当するスコアが集計されたノードの条件に該当するデータの件数を集計する。そして、可視化部70は、全体の件数に対する集計された件数の割合を算出する。
例えば、スコアが100%と算出されたノードに含まれるデータの割合を可視化するとする。この場合、可視化部70は、TPの割合が100%と算出されたノードの条件に合致するデータの件数を集計する。また、例えば、10%刻みのスコアごとにデータの割合を可視化するとする。この場合、可視化部70は、TPの割合が100%~90%、100%~80%、…、と算出されたノードの条件に合致するデータの件数を集計する。
図5は、スコアごとに割合を集計した例を示す説明図である。図5に示す例では、第二学習部50による学習処理と、スコア算出部60によるデータ特定処理が、それぞれ、300回、600回、900回、1200回、および、6000回繰り返し行われた結果を示す。また、図5では、300回、600回、900回および1200回の場合に、スコアが100%と算出された条件に合致するデータの件数を、正常取引データと不正取引データごとに集計した例を示す。さらに、6000回の場合には、スコアを10%刻みで正常取引データと不正取引データごとに集計した例を示す。
図5に例示するように、繰り返し回数が増加するにしたがって、不正取引データの抽出件数は増加する。さらに、スコアを100%だけでなく、一定割合の正常取引データが含まれることを許容した場合、より不正取引データの候補を抽出することができるようになる。すなわち、閾値を高く設定することにより不正率(割合)を高めることができ、閾値を低く設定することで、多くの不正取引データの候補を抽出できるようになると言える。
可視化部70は、算出した割合を表示装置(図示せず)に可視化する。可視化部70は、例えば、面積に対応付けてデータ数の割合を可視化してもよい。図6は、対象データの割合を可視化した例を示す説明図である。図6に示す例では、取引データ全体D1のうち、教師なし学習によって抽出された対象データD2が、面積に応じた円で表示されている。また、対象データD2のうち、データ除外部40によってデータD3が除外される。
こうして除外された残ったデータの中に、不正取引データが含まれていることになる。可視化部70は、例えば、スコアの大きいデータの割合を、低いデータの割合よりも目立つ態様で可視化してもよい。図6では、可視化部70が、スコアの大きいデータの割合を、黒の楕円D13で可視化し、スコアが低くなるにしたがって、網掛けの濃さを薄くした楕円D12、楕円D11のように可視化した例を示す。
このように可視化することで、予測精度を解釈性と併せて分類できるようになる。例えば、金融機関の担当者は、よりスコアの大きい領域に含まれる不正取引データから優先的に確認することができるようになる。
対象データ抽出部20と、第一学習部30と、データ除外部40と、第二学習部50と、スコア算出部60と、可視化部70とは、プログラム(不正検知プログラム)に従って動作するコンピュータのプロセッサによって実現される。
次に、本実施形態の不正検知装置の動作を説明する。図7は、本実施形態の不正検知装置の動作例を示すフローチャートである。なお、取引データから対象データを抽出して、されに正常取引データを除外するまでのステップS11からステップS13までの処理は、図4に例示する処理と同様である。
第二学習部50は、データ除外部40によって除外されて残った対象データのうち、不正取引を示すデータを正例とし、その正例以外の残りのデータを負例とする学習データを用いて、第二階層型混合モデルを学習する(ステップS21)。スコア算出部60は、第二階層型混合モデルにより、正例とした学習データが正例と判別された対象データの割合をスコアとして算出する(ステップS22)。そして、可視化部70は、スコアごとに集計された対象データの、全体の対象データに対する割合を可視化する(ステップS23)。
以上のように、本実施形態では、第二学習部50が、除外されて残った対象データのうち、不正取引を示すデータを正例とし、その正例以外の残りのデータを負例とする学習データを用いて、第二階層型混合モデルを学習する。そして、スコア算出部60が、第二階層型混合モデルにより、正例とした学習データが正例と判別された対象データの割合をスコアとして算出し、可視化部70が、スコアごとに集計された対象データの、全体の対象データに対する割合を可視化する。よって、第一の実施形態の効果に加え、予測精度を解釈性と併せて分類することが可能になる。そのため、例えば、金融機関の担当者が、不正取引データの割合を確認することが可能になる。
次に、本発明による不正検知装置を用いて不正取引データを検知する具体例を説明する。本具体例では、ある金融機関の取引データが82,663件存在し、そのうち480件が不正取引データである(すなわち、正常取引データが82,183件である)ものとする。
まず、対象データ抽出部20が、教師なし学習により、82,663件の取引データから正常取引データを特定し、その正常取引データを取引データから除外して対象データを抽出する。図8は、正常取引データを特定した結果の例を示す説明図である。図8に示す例では、正常取引データ82,183件のうち、70,404件を正常取引データと予測し、再現率(Recall)が85.67%である。また、不正取引データ480件のうち、478件を不正取引データと予測し、再現率(Recall)が99.58%である。
さらに、図8に示す例では、正常取引データと予測した70,406件に、2件の不正取引データが含まれており、適合率が99.99%である。また、不正取引データと予測した12,259件のうち、11,779件の正常取引データが含まれており、適合率が3.90%である。その結果、データ全体の精度(正解率:Accuracy)は、85.75%と算出される。本具体例では、不正取引データと予測された12,257件(適合率:3.90%)に含まれる正常取引データの割合を減らし、適合率を向上させることを目指す。
第一学習部30は、不正取引データと予測された12,257件のデータで、TNを正例、それ以外を負例として第一階層型混合モデルを学習する。図9は、教師なし学習による学習結果と、第一階層型混合モデルの学習結果との対応例を示す説明図である。第一階層型混合モデルを学習した結果、それぞれ、TP、FN、FPおよびTNが算出される。図9では、図8に示す結果と区別するため、算出されたTP、FN、FPおよびTNを、それぞれ、TPh、FNh、FPhおよびTNhで示している。データ除外部40は、学習の結果、TNhに該当するデータを対象データから除外する。
図10は、対象データを除外した結果の例を示す説明図である。図10(a)は、全体の精度を示し、図10(b)は、予測精度を示す。図10に例示するように、学習処理および除外処理を3,600回行った結果、データ数を約50%程度削減(6,528件に削減)して適合率が7.31%まで向上し、予測精度も7.09%まで向上している。
第二学習部50は、除外されて残ったデータについて、不正取引を示すデータを正例とし、その正例以外の残りのデータを負例とする学習データを用いて、第二階層型混合モデルを学習する。図11は、データ除外後の対象データと第二階層型混合モデルの学習結果との対応例を示す説明図である。第二階層型混合モデルを学習した結果、それぞれ、TP、FN、FPおよびTNが算出される。図11では、図8および図9に示す結果と区別するため、算出されたTP、FN、FPおよびTNを、それぞれ、TPx、FNx、FPxおよびTNxで示している。
スコア算出部60は、ノードごとにスコアを算出し、可視化部70は、TPxの割合が高いものを確度が高い部分として特定し、可視化する。可視化部70は、例えば、図5に例示する結果から図6に例示する内容を可視化する。
次に、本発明の概要を説明する。図12は、本発明による不正検知装置の概要を示すブロック図である。本発明による不正検知装置80は、金融機関(例えば、銀行など)の業務における不正取引を検知する不正検知装置(例えば、不正検知装置100)であって、教師なし学習(例えば、DBSCAN)により金融機関の業務における取引データから正常取引データを除外して対象データを抽出する対象データ抽出部81(例えば、対象データ抽出部20)と、対象データのうち、不正取引を示すデータを正例とし、その正例以外の残りのデータを負例とする学習データを用いて、第一階層型混合モデルを学習する第一学習部82(例えば、第一学習部30)と、対象データから、第一階層型混合モデルにより、負例とした学習データが負例と判別された対象データ(TNh)を除外するデータ除外部83(例えば、データ除外部40)とを備えている。
そのような構成により、不均衡データを用いる場合であっても、不正取引を検知する精度を向上させるようにモデルを学習できる。
また、不正検知装置80(例えば、不正検知装置200)は、除外されて残った対象データのうち、不正取引を示すデータを正例とし、その正例以外の残りのデータを負例とする学習データを用いて、第二階層型混合モデルを学習する第二学習部(例えば、第二学習部50)と、第二階層型混合モデルにより、正例とした学習データが正例と判別された対象データ(TP)の割合をスコアとして算出するスコア算出部(例えば、スコア算出部60)と、スコアごとに集計された対象データの、全体の対象データに対する割合を可視化する可視化部(例えば、可視化部70)とを備えていてもよい。
そのような構成によれば、予測精度を解釈性と併せて分類できるようになる。例えば、金融機関の担当者は、よりスコアの大きい領域に含まれる不正取引データから優先的に確認することができるようになる。
具体的には、スコア算出部は、第二階層型混合モデルの各葉ノードに配された判別式を用いて、各葉ノードに分類された学習データの判別を行い、葉ノードごとに、正例とした学習データが正例と判別された対象データの割合をスコアとして算出し、算出したスコアが予め定めた閾値以上になるノードの条件を不正取引の確度が高い条件として特定してもよい。
また、データ除外部83は、第一階層型混合モデルの各葉ノードに配された判別式を用いて、各葉ノードに分類された学習データの判別を行い、分類された学習データが完全に負例と予測された割合を葉ノードごとに算出し、算出した割合が予め定めた閾値以上である葉ノードに分類するための条件に該当するデータを対象データから除外してもよい。
より詳しくは、データ除外部83は、第一階層型混合モデルが学習されるごとに、対象データを除外するための条件を特定し、その条件のいずれかに該当するデータを対象データから除外してもよい。
図13は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、プロセッサ1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備える。
不正検知装置は、コンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(不正検知プログラム)の形式で補助記憶装置1003に記憶されている。プロセッサ1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disc Read-only memory )、DVD-ROM(Read-only memory)、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行してもよい。
また、当該プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。
以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2019年6月11日に出願された日本特許出願2019-108517を基礎とする優先権を主張し、その開示の全てをここに取り込む。
10 記憶部
20 対象データ抽出部
30 第一学習部
40 データ除外部
50 第二学習部
60 スコア算出部
70 可視化部
100,200 不正検知装置
20 対象データ抽出部
30 第一学習部
40 データ除外部
50 第二学習部
60 スコア算出部
70 可視化部
100,200 不正検知装置
Claims (9)
- 金融機関の業務における不正取引を検知する不正検知装置であって、
教師なし学習により前記業務における取引データから正常取引データを除外して対象データを抽出する対象データ抽出部と、
前記対象データのうち、不正取引を示すデータを正例とし、当該正例以外の残りのデータを負例とする学習データを用いて、第一階層型混合モデルを学習する第一学習部と、
前記対象データから、前記第一階層型混合モデルにより、負例とした学習データが負例と判別された対象データを除外するデータ除外部とを備えた
ことを特徴とする不正検知装置。 - 除外されて残った対象データのうち、不正取引を示すデータを正例とし、当該正例以外の残りのデータを負例とする学習データを用いて、第二階層型混合モデルを学習する第二学習部と、
前記第二階層型混合モデルにより、正例とした学習データが正例と判別された対象データの割合をスコアとして算出するスコア算出部と、
前記スコアごとに集計された対象データの、全体の対象データに対する割合を可視化する可視化部とを備えた
請求項1記載の不正検知装置。 - スコア算出部は、第二階層型混合モデルの各葉ノードに配された判別式を用いて、当該各葉ノードに分類された学習データの判別を行い、葉ノードごとに、正例とした学習データが正例と判別された対象データの割合をスコアとして算出し、算出したスコアが予め定めた閾値以上になるノードの条件を不正取引の確度が高い条件として特定する
請求項2記載の不正検知装置。 - データ除外部は、第一階層型混合モデルの各葉ノードに配された判別式を用いて、当該各葉ノードに分類された学習データの判別を行い、分類された学習データが負例と予測された割合を葉ノードごとに算出し、算出した割合が予め定めた閾値以上である葉ノードに分類するための条件に該当するデータを対象データから除外する
請求項1から請求項3のうちのいずれか1項に記載の不正検知装置。 - データ除外部は、第一階層型混合モデルが学習されるごとに、対象データを除外するための条件を特定し、当該条件のいずれかに該当するデータを対象データから除外する
請求項4記載の不正検知装置。 - 金融機関の業務における不正取引を検知する不正検知方法であって、
教師なし学習により前記業務における取引データから正常取引データを除外して対象データを抽出し、
前記対象データのうち、不正取引を示すデータを正例とし、当該正例以外の残りのデータを負例とする学習データを用いて、第一階層型混合モデルを学習し、
前記対象データから、前記第一階層型混合モデルにより、負例とした学習データが負例と判別された対象データを除外する
ことを特徴とする不正検知方法。 - 除外されて残った対象データのうち、不正取引を示すデータを正例とし、当該正例以外の残りのデータを負例とする学習データを用いて、第二階層型混合モデルを学習し、
前記第二階層型混合モデルにより、正例とした学習データが正例と判別された対象データの割合をスコアとして算出し、
前記スコアごとに集計された対象データの、全体の対象データに対する割合を可視化する
請求項6記載の不正検知方法。 - 金融機関の業務における不正取引を検知するコンピュータに適用される不正検知プログラムであって、
前記コンピュータに、
教師なし学習により前記業務における取引データから正常取引データを除外して対象データを抽出する対象データ抽出処理、
前記対象データのうち、不正取引を示すデータを正例とし、当該正例以外の残りのデータを負例とする学習データを用いて、第一階層型混合モデルを学習する第一学習処理、および、
前記対象データから、前記第一階層型混合モデルにより、負例とした学習データが負例と判別された対象データを除外するデータ除外処理
を実行させるための不正検知プログラム。 - コンピュータに、
除外されて残った対象データのうち、不正取引を示すデータを正例とし、当該正例以外の残りのデータを負例とする学習データを用いて、第二階層型混合モデルを学習する第二学習処理、
前記第二階層型混合モデルにより、正例とした学習データが正例と判別された対象データの割合をスコアとして算出するスコア算出処理、および、
前記スコアごとに集計された対象データの、全体の対象データに対する割合を可視化する可視化処理を実行させる
請求項8記載の不正検知プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019108517 | 2019-06-11 | ||
JP2019108517 | 2019-06-11 | ||
PCT/JP2020/021566 WO2020250730A1 (ja) | 2019-06-11 | 2020-06-01 | 不正検知装置、不正検知方法および不正検知プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020250730A1 JPWO2020250730A1 (ja) | 2020-12-17 |
JP7173332B2 true JP7173332B2 (ja) | 2022-11-16 |
Family
ID=73781987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021526009A Active JP7173332B2 (ja) | 2019-06-11 | 2020-06-01 | 不正検知装置、不正検知方法および不正検知プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220180369A1 (ja) |
EP (1) | EP3985589A4 (ja) |
JP (1) | JP7173332B2 (ja) |
WO (1) | WO2020250730A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023135696A (ja) * | 2022-03-16 | 2023-09-29 | ヤフー株式会社 | 判定システム、判定方法、およびプログラム |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021130991A1 (ja) * | 2019-12-26 | 2021-07-01 | 楽天グループ株式会社 | 不正検知システム、不正検知方法、及びプログラム |
WO2022195630A1 (en) * | 2021-03-18 | 2022-09-22 | Abhishek Gupta | Fraud detection system and method thereof |
CN112927061B (zh) * | 2021-03-26 | 2024-03-12 | 深圳前海微众银行股份有限公司 | 用户操作检测方法及程序产品 |
CN115577287B (zh) * | 2022-09-30 | 2023-05-30 | 湖南工程学院 | 数据处理方法、设备及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005181928A (ja) | 2003-12-24 | 2005-07-07 | Fuji Xerox Co Ltd | 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム |
WO2018131219A1 (ja) | 2017-01-11 | 2018-07-19 | 株式会社東芝 | 異常検知装置、異常検知方法、および記憶媒体 |
US20200019883A1 (en) | 2018-07-16 | 2020-01-16 | Invoca, Inc. | Performance score determiner for binary signal classifiers |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160086185A1 (en) * | 2014-10-15 | 2016-03-24 | Brighterion, Inc. | Method of alerting all financial channels about risk in real-time |
JP6606050B2 (ja) * | 2016-11-02 | 2019-11-13 | 日本電信電話株式会社 | 検知装置、検知方法および検知プログラム |
US20180350006A1 (en) * | 2017-06-02 | 2018-12-06 | Visa International Service Association | System, Method, and Apparatus for Self-Adaptive Scoring to Detect Misuse or Abuse of Commercial Cards |
JP7010641B2 (ja) * | 2017-09-27 | 2022-01-26 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 異常診断方法および異常診断装置 |
JP6881203B2 (ja) * | 2017-10-03 | 2021-06-02 | 富士通株式会社 | 分類プログラム、分類方法、および分類装置 |
JP2019108517A (ja) | 2017-12-15 | 2019-07-04 | 住友ベークライト株式会社 | 熱硬化性樹脂組成物、その硬化物、積層板、金属ベース基板およびパワーモジュール |
-
2020
- 2020-06-01 JP JP2021526009A patent/JP7173332B2/ja active Active
- 2020-06-01 EP EP20822519.3A patent/EP3985589A4/en not_active Withdrawn
- 2020-06-01 WO PCT/JP2020/021566 patent/WO2020250730A1/ja unknown
- 2020-06-01 US US17/617,393 patent/US20220180369A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005181928A (ja) | 2003-12-24 | 2005-07-07 | Fuji Xerox Co Ltd | 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム |
WO2018131219A1 (ja) | 2017-01-11 | 2018-07-19 | 株式会社東芝 | 異常検知装置、異常検知方法、および記憶媒体 |
US20200019883A1 (en) | 2018-07-16 | 2020-01-16 | Invoca, Inc. | Performance score determiner for binary signal classifiers |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023135696A (ja) * | 2022-03-16 | 2023-09-29 | ヤフー株式会社 | 判定システム、判定方法、およびプログラム |
JP7373001B2 (ja) | 2022-03-16 | 2023-11-01 | ヤフー株式会社 | 判定システム、判定方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2020250730A1 (ja) | 2020-12-17 |
JPWO2020250730A1 (ja) | 2020-12-17 |
EP3985589A1 (en) | 2022-04-20 |
EP3985589A4 (en) | 2022-07-20 |
US20220180369A1 (en) | 2022-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7173332B2 (ja) | 不正検知装置、不正検知方法および不正検知プログラム | |
US11416867B2 (en) | Machine learning system for transaction reconciliation | |
WO2017133188A1 (zh) | 一种特征集确定的方法及装置 | |
CN110111113B (zh) | 一种异常交易节点的检测方法及装置 | |
CN107545422A (zh) | 一种套现检测方法及装置 | |
WO2022199185A1 (zh) | 用户操作检测方法及程序产品 | |
CN107230108A (zh) | 业务数据的处理方法及装置 | |
US20200286095A1 (en) | Method, apparatus and computer programs for generating a machine-learning system and for classifying a transaction as either fraudulent or genuine | |
US20220383322A1 (en) | Clustering-based data selection for optimization of risk predictive machine learning models | |
US11663466B2 (en) | Counter data generation for data profiling using only true samples | |
WO2021111540A1 (ja) | 評価方法、評価プログラム、および情報処理装置 | |
Tae et al. | Comparing ML algorithms on financial fraud detection | |
WO2020044814A1 (ja) | モデル更新装置、モデル更新方法およびモデル更新プログラム | |
CN112750038B (zh) | 交易风险的确定方法、装置和服务器 | |
JP2021018466A (ja) | ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラム | |
JP2018018153A (ja) | 鋼種判別装置及び鋼種判別方法 | |
Deepa et al. | Survey paper for credit card fraud detection using data mining techniques | |
CN111598116A (zh) | 数据分类方法、装置、电子设备及可读存储介质 | |
US11954685B2 (en) | Method, apparatus and computer program for selecting a subset of training transactions from a plurality of training transactions | |
JP6659120B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
Budianto et al. | Machine learning-based approach on dealing with binary classification problem in imbalanced financial data | |
CN114140246A (zh) | 模型训练方法、欺诈交易识别方法、装置和计算机设备 | |
Caplescu et al. | Will they repay their debt? Identification of borrowers likely to be charged off | |
Alampay et al. | Autocalibration of Outlier Threshold with Autoencoder Mean Probability Score | |
Hassen et al. | Learning to identify known and unknown classes: A case study in open world malware classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221004 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221017 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7173332 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |