JP7146218B1 - Information processing device, information processing method and program - Google Patents
Information processing device, information processing method and program Download PDFInfo
- Publication number
- JP7146218B1 JP7146218B1 JP2021210720A JP2021210720A JP7146218B1 JP 7146218 B1 JP7146218 B1 JP 7146218B1 JP 2021210720 A JP2021210720 A JP 2021210720A JP 2021210720 A JP2021210720 A JP 2021210720A JP 7146218 B1 JP7146218 B1 JP 7146218B1
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- fraud
- company
- information
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 73
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000012545 processing Methods 0.000 claims abstract description 73
- 238000010276 construction Methods 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 238000012360 testing method Methods 0.000 claims description 51
- 238000000034 method Methods 0.000 claims description 43
- 238000011156 evaluation Methods 0.000 claims description 32
- 239000013598 vector Substances 0.000 claims description 20
- 238000001514 detection method Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 20
- 230000000875 corresponding effect Effects 0.000 description 14
- 239000011159 matrix material Substances 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000007477 logistic regression Methods 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 4
- 239000004065 semiconductor Substances 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000007717 exclusion Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 101000847024 Homo sapiens Tetratricopeptide repeat protein 1 Proteins 0.000 description 1
- 101000818522 Homo sapiens fMet-Leu-Phe receptor Proteins 0.000 description 1
- 102100032841 Tetratricopeptide repeat protein 1 Human genes 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 102100021145 fMet-Leu-Phe receptor Human genes 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
【課題】複数の企業が関与する不正のリスクを評価する。【解決手段】クラスタリング処理部1は、各企業の財務諸表、属性情報及び不正を行ったか否かを示す情報と、企業間の取引関係を示す情報と、が含まれる学習用データを読み込んで、1つのクラスタあたりに含まれるノード数が所定値以下になるようにクラスタリングしてネットワーク構造を取得する。クラスタ特徴量算出部2は、クリスタリング後のデータに含まれる各クラスタに属する各ノードの特徴量を算出し、算出した特徴量に基づいて各クラスタの特徴量を算出する。不正フラグ付与部3は、各クラスタに属するノードの不正を行ったか否かを示す情報に基づいて、当該クラスタに不正フラグを付与する。モデル構築部4は、不正フラグが付与されたデータを、特徴量を説明変数、不正フラグを目的変数として教師有り学習することで学習済みモデルを取得する。【選択図】図8The present invention evaluates the risk of fraud involving multiple companies. A clustering processing unit 1 reads learning data including financial statements of each company, attribute information, information indicating whether or not fraud has been committed, and information indicating business relationships between companies, A network structure is obtained by clustering so that the number of nodes included in one cluster is equal to or less than a predetermined value. The cluster feature amount calculation unit 2 calculates the feature amount of each node belonging to each cluster included in the data after clustering, and calculates the feature amount of each cluster based on the calculated feature amount. The fraud flag assigning unit 3 assigns an fraud flag to each cluster based on information indicating whether or not a node belonging to each cluster is fraudulent. The model construction unit 4 acquires a trained model by performing supervised learning on the data to which the fraud flag is assigned, using the feature quantity as an explanatory variable and the fraud flag as an objective variable. [Selection drawing] Fig. 8
Description
本発明は、情報処理装置、情報処理方法及びプログラムに関する。 The present invention relates to an information processing device, an information processing method, and a program.
機械学習やディープラーニングなどのAI技術を利用して、会計監査における異常検出を行う試みが進展している。例えば、個々企業の勘定科目に着目して、勘定科目の値そのものの異常を検知する手法が提案されている。複数の勘定科目の変動にVAR(Vector Auto-Regression)構造を仮定してLASSO(Least Absolute Shrinkage and Selection Operator)よるスパース(sparse)化を行って、異常な勘定科目の原因となる仕訳を検出する技術が提案されている(特許文献1)。この技術にかかる財務分析装置では、第1ベクトル生成部が、会計データの第1期間内の各勘定科目の各変動値を要素とする第1ベクトルを生成する。推定部が、複数の第1期間を含む第2期間内における複数の第1ベクトルに基づいて第1期間内における複数の勘定科目の各変動値を推定する。残差検出部が、変動値と実際の変動値との残差を検出する。異常候補特定部が、残差に相関する値が閾値を超える特定の第1期間における特定の勘定科目の変動値を抽出する。仕訳限定部が、特定の第1期間内の各仕訳の複数の勘定科目の各変動値を要素とする第2ベクトルを行方向に並べた第2行列を生成する。仕訳抽出部が、第2行列から、残差に相関する値が閾値を超える勘定科目を含む仕訳を抽出する。異常仕訳抽出部が、抽出された仕訳に含まれる異常を検知する異常検知部と、異常が検知された仕訳を抽出する。 Attempts to detect anomalies in accounting audits using AI technologies such as machine learning and deep learning are progressing. For example, a method has been proposed that focuses on account items of individual companies and detects anomalies in the account item values themselves. Assuming a VAR (Vector Auto-Regression) structure for fluctuations in multiple account items, sparse by LASSO (Least Absolute Shrinkage and Selection Operator) to detect journal entries that cause abnormal account items. A technique has been proposed (Patent Document 1). In the financial analysis device according to this technique, the first vector generation unit generates the first vector whose elements are the fluctuation values of the account items within the first period of the accounting data. An estimating unit estimates each fluctuation value of a plurality of account items within a first period based on a plurality of first vectors within a second period including a plurality of first periods. A residual detector detects a residual between the variation value and the actual variation value. An abnormality candidate identification unit extracts a variation value of a specific account item in a specific first period in which a value correlated with the residual exceeds a threshold. The journal limiting unit generates a second matrix in which second vectors are arranged in the row direction, the elements of which are the fluctuation values of the plurality of account items of each journal within a specific first period. A journal extractor extracts from the second matrix journals containing account items whose values correlated with the residuals exceed a threshold. An abnormal journal extraction unit extracts an abnormality detection unit that detects an abnormality contained in the extracted journal and a journal in which an abnormality is detected.
特許文献1の手法では、個々の勘定科目の異常を検知することはできる。しかし、複数の企業が関与する異常な挙動、例えば循環取引などの複数の企業が関与する取引不正を検知することは原理的に不可能である。
The technique of
よって、複数の企業が関与する取引不正を検知するために、企業間の取引関係をも考慮した不正検知手法の確立が求められる。 Therefore, in order to detect fraudulent transactions in which multiple companies are involved, it is necessary to establish a fraud detection method that also considers the business relationships between companies.
本発明は上記の事情に鑑みて成されたものであり、複数の企業が関与する取引不正のリスクを評価することを目的とする。 The present invention has been made in view of the above circumstances, and an object of the present invention is to evaluate the risk of fraudulent transactions involving multiple companies.
一実施の形態にかかる情報処理装置は、多次元ベクトルで各企業の情報が表された各企業の財務諸表に含まれる複数の勘定科目の値を示す複数の変数、各企業の属性情報及び各企業が不正を行ったか否かを示す情報と、企業間の取引関係を示す情報と、が含まれる学習用データを読み込んで、1つのクラスタあたりに含まれるノード数が所定値以下になるようにクラスタリングし、各クラスタに対応するノードとノード間の取引関係を示すエッジとで構成されるネットワーク構造を取得するクラスタリング処理部と、前記クリスタリング後のデータに含まれる各クラスタに属する各ノードの特徴量を算出し、算出した特徴量に基づいて各クラスタの特徴量を算出する特徴量算出部と、各クラスタに属するノードの前記不正を行ったか否かを示す情報に基づいて、当該クラスタに不正フラグを付与する不正フラグ付与部と、前記不正フラグが付与されたデータを、前記特徴量を説明変数、前記不正フラグを目的変数として教師有り学習することで学習済みモデルを取得するモデル構築部と、を有するものである。 An information processing apparatus according to an embodiment includes a plurality of variables indicating the values of a plurality of account items included in financial statements of each company in which information of each company is represented by a multidimensional vector, attribute information of each company, and Read learning data containing information indicating whether a company has committed fraud and information indicating business relationships between companies, and adjust the number of nodes included in one cluster to a predetermined value or less. A clustering processing unit that performs clustering and acquires a network structure composed of nodes corresponding to each cluster and edges that indicate transaction relationships between the nodes, and characteristics of each node belonging to each cluster included in the data after the clustering. a feature quantity calculation unit that calculates the feature quantity of each cluster based on the calculated feature quantity; a fraud flag assigning unit that assigns a flag; and a model construction unit that obtains a trained model by performing supervised learning on the data to which the fraud flag is assigned, using the feature quantity as an explanatory variable and the fraud flag as an objective variable. ,
一実施の形態にかかる情報処理方法は、クラスタリング処理部が、多次元ベクトルで各企業の情報が表された各企業の財務諸表に含まれる複数の勘定科目の値を示す複数の変数、各企業の属性情報及び各企業が不正を行ったか否かを示す情報と、企業間の取引関係を示す情報と、が含まれる学習用データを読み込んで、1つのクラスタあたりに含まれるノード数が所定値以下になるようにクラスタリングし、各クラスタに対応するノードとノード間の取引関係を示すエッジとで構成されるネットワーク構造を取得し、特徴量算出部が、前記クリスタリング後のデータに含まれる各クラスタに属する各ノードの特徴量を算出し、算出した特徴量に基づいて各クラスタの特徴量を算出し、不正フラグ付与部が、各クラスタに属するノードの前記不正を行ったか否かを示す情報に基づいて、当該クラスタに不正フラグを付与し、モデル構築部が、前記不正フラグが付与されたデータを、前記特徴量を説明変数、前記不正フラグを目的変数として教師有り学習することで学習済みモデルを取得するものである。 In the information processing method according to one embodiment, the clustering processing unit generates a plurality of variables indicating the values of a plurality of account items included in the financial statements of each company in which information of each company is represented by a multidimensional vector, each company attribute information, information indicating whether or not each company has committed fraud, and information indicating the business relationship between companies, and the number of nodes included in one cluster is a predetermined value. Clustering is performed as follows, a network structure composed of nodes corresponding to each cluster and edges indicating transaction relationships between nodes is obtained, and the feature amount calculation unit calculates each included in the data after the clustering Information indicating whether the feature amount of each node belonging to the cluster has been calculated, the feature amount of each cluster has been calculated based on the calculated feature amount, and the fraud flag assigning unit has performed the fraud of the node belonging to each cluster. Based on, a fraud flag is given to the cluster, and the model construction unit performs supervised learning on the data to which the fraud flag is assigned, with the feature amount as an explanatory variable and the fraud flag as an objective variable. It is the one that gets the model.
一実施の形態にかかるプログラムは、多次元ベクトルで各企業の情報が表された各企業の財務諸表に含まれる複数の勘定科目の値を示す複数の変数、各企業の属性情報及び各企業が不正を行ったか否かを示す情報と、企業間の取引関係を示す情報と、が含まれる学習用データを読み込んで、1つのクラスタあたりに含まれるノード数が所定値以下になるようにクラスタリングし、各クラスタに対応するノードとノード間の取引関係を示すエッジとで構成されるネットワーク構造を取得する処理と、特徴量算出部が、前記クリスタリング後のデータに含まれる各クラスタに属する各ノードの特徴量を算出し、算出した特徴量に基づいて各クラスタの特徴量を算出する処理と、不正フラグ付与部が、各クラスタに属するノードの前記不正を行ったか否かを示す情報に基づいて、当該クラスタに不正フラグを付与する処理と、モデル構築部が、前記不正フラグが付与されたデータを、前記特徴量を説明変数、前記不正フラグを目的変数として教師有り学習することで学習済みモデルを取得する処理と、をコンピュータに実行させるものである。 A program according to one embodiment includes a plurality of variables indicating the values of a plurality of account items included in the financial statements of each company in which information of each company is represented by a multidimensional vector, attribute information of each company, and Read learning data containing information indicating whether or not fraud has been committed and information indicating business relationships between companies, and perform clustering so that the number of nodes included in each cluster is equal to or less than a predetermined value. , a process of acquiring a network structure composed of nodes corresponding to each cluster and edges indicating a transaction relationship between the nodes, and a feature amount calculation unit performing each node belonging to each cluster included in the data after crystalling and calculating the feature amount of each cluster based on the calculated feature amount; , a process of assigning a fraudulent flag to the cluster, and a model construction unit performing supervised learning on the data to which the fraudulent flag is assigned, using the feature amount as an explanatory variable and the fraudulent flag as an objective variable to create a trained model and a process of obtaining the .
一実施の形態にかかる情報処理装置は、多次元ベクトルで各企業の情報が表された各企業の財務諸表に含まれる複数の勘定科目の値を示す複数の変数、各企業の属性情報及び各企業が不正を行ったか否かを示す情報と、企業間の取引関係を示す情報と、が含まれる学習用データを読み込んで、1つのクラスタあたりに含まれるノード数が所定値以下になるようにクラスタリングし、各クラスタに対応するノードとノード間の取引関係を示すエッジとで構成されるネットワーク構造を取得するクラスタリング処理部と、前記クリスタリング後のデータに含まれる各クラスタに属する各ノードの特徴量を算出し、算出した特徴量に基づいて各クラスタの特徴量を算出する特徴量算出部と、各クラスタに属するノードの前記不正を行ったか否かを示す情報に基づいて、当該クラスタに不正フラグを付与する不正フラグ付与部と、前記不正フラグが付与されたデータを、前記特徴量を説明変数、前記不正フラグを目的変数として教師有り学習することで学習済みモデルを取得するモデル構築部と、を備える、モデル構築装置によって取得された前記モデルを保持するモデル格納部と、多次元ベクトルで各企業の情報が表された各企業の財務諸表に含まれる複数の勘定科目の値を示す複数の変数、各企業の属性情報及び企業間の取引関係を示す情報と、が含まれる入力データを読み込み、前記入力データを前記学習済みモデルに入力して、前記入力データに対応する企業が不正を行ったか否かを推定する推定処理部と、を有するものである。 An information processing apparatus according to an embodiment includes a plurality of variables indicating the values of a plurality of account items included in financial statements of each company in which information of each company is represented by a multidimensional vector, attribute information of each company, and Read learning data containing information indicating whether a company has committed fraud and information indicating business relationships between companies, and adjust the number of nodes included in one cluster to a predetermined value or less. A clustering processing unit that performs clustering and acquires a network structure composed of nodes corresponding to each cluster and edges that indicate transaction relationships between the nodes, and characteristics of each node belonging to each cluster included in the data after the clustering. a feature quantity calculation unit that calculates the feature quantity of each cluster based on the calculated feature quantity; a fraud flag assigning unit that assigns a flag; and a model construction unit that obtains a trained model by performing supervised learning on the data to which the fraud flag is assigned, using the feature quantity as an explanatory variable and the fraud flag as an objective variable. a model storage unit that holds the model acquired by the model construction device; variables, attribute information of each company, and information indicating business relationships between companies, and inputs the input data into the learned model so that the company corresponding to the input data commits fraud. and an estimation processing unit for estimating whether or not it has been performed.
本発明によれば、複数の企業が関与する取引不正のリスクを評価することができる。 According to the present invention, the risk of transaction fraud involving multiple companies can be evaluated.
以下、図面を参照して本発明の実施の形態について説明する。各図面においては、同一要素には同一の符号が付されており、必要に応じて重複説明は省略される。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described with reference to the drawings. In each drawing, the same elements are denoted by the same reference numerals, and redundant description will be omitted as necessary.
実施の形態1
実施の形態1にかかる情報処理装置100について説明する。情報処理装置100は、個々の企業の財務諸表に含まれる各勘定科目や取引情報などを用いて、複数の企業間で行われる異常な取引(換言すれば、取引不正)の検知を行うものとして構成される。
An
図1に、実施の形態1にかかる情報処理装置100を実現するためのシステム構成の一例を示す。情報処理装置100は、専用コンピュータ、パーソナルコンピュータ(PC)などのコンピュータ110により実現可能である。但し、コンピュータは、物理的に単一である必要はなく、分散処理を実行する場合には、複数であってもよい。図1に示すように、コンピュータ110は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12及びRAM(Random Access Memory)13を有し、これらがバス14を介して相互に接続されている。尚、コンピュータを動作させるためのOSソフトなどは、説明を省略するが、この会計情報処理装置を構築するコンピュータも当然有しているものとする。
FIG. 1 shows an example of a system configuration for realizing an
バス14には、入出力インターフェイス15が接続されている。入出力インターフェイス15には、入力部16、出力部17、通信部18及び記憶部19が接続される。
An input/
入力部16は、例えば、キーボード、マウス、センサなどより構成される。出力部17は、例えば、LCDなどのディスプレイ装置やヘッドフォン及びスピーカなどの音声出力装置により構成される。通信部18は、例えば、ルータやターミナルアダプタなどにより構成される。記憶部19は、ハードディスク、フラッシュメモリなどの記憶装置により構成される。
The
CPU11は、ROM12に記憶されている各種プログラム、又は記憶部19からRAM13にロードされた各種プログラムに従って各種の処理を行うことが可能である。本実施の形態においては、CPU11は、例えば後述する情報処理装置100の各部の処理を実行する。CPU11とは別にGPU(Graphics Processing Unitを設け、CPU11と同様に、ROM12に記憶されている各種プログラム、又は記憶部19からRAM13にロードされた各種プログラムに従って各種の処理、本実施の形態においては、例えば後述する情報処理装置100の各部の処理を実行してもよい。なお、GPUは、定型的な処理を並列的に行う用途に適しており、後述するニューラルネットワークにおける処理などに適用することで、CPU11に比べて処理速度を向上させることも可能である。RAM13には又、CPU11及びGPUが各種の処理を実行する上において必要なデータなども適宜記憶される。
The
通信部18は、ネットワーク30を介して、サーバ40と双方向の通信を行うことが可能である。通信部18は、CPU11から提供されたデータをサーバ40へ送信したり、サーバ40から受信したデータをCPU11、RAM13及び記憶部19などへ出力することができる。通信部18は、他の装置との間で、アナログ信号又はディジタル信号による通信を行ってもよい。記憶部19はCPU11との間でデータのやり取りが可能であり、情報の保存及び消去を行う。
The
入出力インターフェイス15には、必要に応じてドライブ20が接続されてもよい。ドライブ20には、例えば、磁気ディスク21、光ディスク22、フレキシブルディスク23又は半導体メモリ24などの記憶媒体が適宜装着可能である。各記憶媒体から読み出されたコンピュータプログラムは、必要に応じて記憶部19にインストールされてもよい。また、必要に応じて、CPU11が各種の処理を実行する上において必要なデータや、CPU11の処理の結果として得られたデータなどを各記憶媒体に記憶してもよい。
A
次いで、本実施の形態で用いる学習用データの形式について説明する。本実施の形態にかかる学習用データDATは、企業を識別するための企業識別情報(例えばIDナンバーなど)と、複数の勘定科目のデータ値と、を少なくとも含む各種の変数が関連付けられた表形式のデータセットとして構成される。なお、ここでいうデータ値とは、数値データ及び文字データ(テキストデータ)の両方を含むものとする。図2に、本実施の形態にかかる学習用データDATの基本構成を模式的に示す。学習用データDATは、企業の会計情報などを示す企業データCPR、企業間の取引関係を示すエッジ情報EDG及び企業が不正を行ったか否かを示す不正履歴情報UDHが結合されたデータとして構成される。 Next, the format of learning data used in this embodiment will be described. The learning data DAT according to the present embodiment is in a table format in which various variables including at least company identification information (for example, an ID number) for identifying a company and data values of a plurality of account items are associated. data set. The data value here includes both numerical data and character data (text data). FIG. 2 schematically shows the basic configuration of the learning data DAT according to this embodiment. The learning data DAT is composed of corporate data CPR indicating corporate accounting information, edge information EDG indicating business relationships between companies, and fraud history information UDH indicating whether or not a company has committed fraud. be.
企業データCPRについて説明する。企業データCPRは、各企業のIDに、財務諸表に含まれる情報と、各企業の属性を示す情報(例えば、業種や事業所の取材値など)の情報が紐付けられたものとして構成される。図3に、本実施の形態にかかる企業データCPRの例を表形式にて示す。企業データCPRの1つのレコードに関連付けられるフィールド、すなわち表の列方向には、企業識別情報(企業ID)、会計識別情報など、複数の勘定科目のデータ値が配列される。また、当然のことながら、表の行方向には複数のレコードが配列される。図3に示す様に、1つの企業識別情報に対して複数の会計識別情報が組み合わされ得るので、企業データCPRには1つの企業に対応する複数のレコードが含まれ得る。 Enterprise data CPR will be described. The company data CPR is configured such that the ID of each company is linked with the information contained in the financial statements and the information indicating the attributes of each company (for example, the interview value of the industry and place of business). . FIG. 3 shows an example of the corporate data CPR according to this embodiment in tabular form. Data values of a plurality of account items, such as company identification information (company ID) and accounting identification information, are arranged in fields associated with one record of the company data CPR, that is, in the column direction of the table. Also, as a matter of course, a plurality of records are arranged in the row direction of the table. As shown in FIG. 3, multiple account identification information can be combined with one company identification information, so multiple records corresponding to one company can be included in the company data CPR.
企業識別情報は、企業名などのテキストデータでもよいし、識別番号(企業ID)などの数値データであってもよい。なお、図2及び3では、企業識別情報として企業IDを用いている。また、企業識別情報は、必要に応じて、企業の業種を示す変数などの他の変数を含んでもよい。 The company identification information may be text data such as a company name, or numeric data such as an identification number (company ID). In addition, in FIGS. 2 and 3, a company ID is used as company identification information. The company identification information may also include other variables, such as a variable indicating the type of business of the company, as required.
変数には、貸借対照表、損益計算書及びキャッシュフロー計算書の各項目が含まれる。また、変数には、貸借対照表、損益計算書及びキャッシュフロー計算書の各項目以外の情報が含まれてもよい。 Variables include balance sheet, income statement and cash flow statement items. The variables may also include information other than the balance sheet, income statement, and cash flow statement items.
換言すれば、各企業のレコードは、各種のデータ値を成分とする多次元ベクトルとして記述され、企業データは、この多次元ベクトルで記述される各企業を表すノードを複数、含むものとして構成される。 In other words, each company's record is described as a multi-dimensional vector having various data values as components, and the company data is configured to include a plurality of nodes representing each company described by this multi-dimensional vector. be.
次いで、エッジ情報EDGについて説明する。本実施の形態にかかる企業データCPRに含まれる企業のうち、取引関係がある2つの企業の間は、エッジで接続されている。そのため、以下で説明する学習処理における学習用データDATには、エッジを示すエッジ情報EDGが含まれる。 Next, edge information EDG will be described. Of the companies included in the company data CPR according to the present embodiment, two companies having a business relationship are connected by an edge. Therefore, learning data DAT in the learning process described below includes edge information EDG indicating an edge.
エッジ情報EDGの例について説明する。図4に、エッジ情報を示すテーブルとエッジ情報に基づくノード及びエッジの例を示す。この例では、ノードN1からノードN2~N4へのエッジ、ノードN2からノードN1及びノードN3へのエッジ、ノードN3からノードN4へのエッジが存在している。このテーブルを元に、エッジの向きを反映した有向グラフ又はエッジの向きを考慮しない無向グラフとしてネットワークを構成することができる。 An example of edge information EDG will be described. FIG. 4 shows an example of a table showing edge information and nodes and edges based on the edge information. In this example, there are edges from node N1 to nodes N2 to N4, edges from node N2 to nodes N1 and N3, and edges from node N3 to node N4. Based on this table, a network can be configured as a directed graph that reflects the direction of edges or an undirected graph that does not consider the direction of edges.
また、本実施の形態では、学習用データDATには、各企業について不正が有ったことを示す不正履歴情報UDHが含まれる。不正履歴情報UDHは、例えば、特定の列に集約されてもよく、集約された情報は、不正の種類の名称や不正を説明する文章などのテキスト情報として表されてもよい。不正履歴情報UDHにおいては、不正を示す情報は、特定の列に集約されてもよい。集約された情報は、不正の種類の名称や不正を説明する文章などのテキスト情報として表されてもよく、また、「1」又は「0」などの数値データやブーリアン型の変数など、各種の形式で表現されてもよい。 Further, in the present embodiment, the learning data DAT includes fraud history information UDH indicating that fraud has occurred for each company. The fraud history information UDH may, for example, be aggregated into a specific column, and the aggregated information may be represented as text information such as the name of the fraud type and sentences explaining the fraud. In the fraud history information UDH, information indicating fraud may be summarized in a specific column. The aggregated information may be represented as text information such as the name of the type of fraud and sentences explaining the fraud, and may also be expressed as numerical data such as "1" or "0" and various types of variables such as Boolean variables. may be expressed in the form
例えば、不正履歴情報UDHにおいて、勘定科目ごとに不正の有無を表示してもよい。図5に、不正履歴情報UDHの第1の例を示す。第1の例では、勘定科目ごとに、不正が有った場合には「1」、不正が無かった場合には「0」の値を付与することで、不正履歴情報UDHを構成している。 For example, in the fraud history information UDH, the presence or absence of fraud may be displayed for each account item. FIG. 5 shows a first example of fraud history information UDH. In the first example, the fraud history information UDH is configured by assigning a value of "1" if there is fraud and "0" if there is no fraud for each account item. .
また、例えば、不正履歴情報UDHにおいて、不正をテキストデータで表示してもよい。図6に、不正履歴情報UDHの第2の例を示す。第2の例では、「不正種類」の列に不正の種類を示すテキストデータを格納することで、不正履歴情報UDHを構成している。なお、この例では、不正が無かった場合には、「不正種類」の列は空欄又はデータなしとしている。 Further, for example, fraud may be displayed as text data in the fraud history information UDH. FIG. 6 shows a second example of fraud history information UDH. In the second example, the fraud history information UDH is configured by storing text data indicating the fraud type in the "fraud type" column. Note that in this example, if there is no fraud, the "fraud type" column is blank or has no data.
さらに、例えば、不正の種類名称ごとに列を設け、不正の有無を「1」又は「0」などの何らかの識別可能な形式で表現してもよい。図7に、不正履歴情報UDHの第2の例を示す。第3の例では、不正の種類ごとに列を設け、各列に対応する不正が有った場合に「1」、不正が無かった場合に「0」の値を付与することで、不正履歴情報UDHを構成している。 Further, for example, a column may be provided for each fraud type name, and the presence or absence of fraud may be expressed in some identifiable format such as "1" or "0". FIG. 7 shows a second example of fraud history information UDH. In the third example, a column is provided for each type of fraud, and a value of "1" is given when there is fraud corresponding to each column, and a value of "0" is given when there is no fraud. It constitutes the information UDH.
学習用データDATと、学習用データDATの基となる企業データCPR、エッジ情報EDG及び不正履歴情報UDHとは、例えば、図1の記憶部19などに格納されてもよい。また、これらのデータは、ネットワーク30及び通信部18を介してサーバ40から与えられてもよいし、ドライブ20を介して各所の記憶媒体から与えられてもよい。
The learning data DAT, and the company data CPR, edge information EDG, and fraud history information UDH that are the basis of the learning data DAT may be stored, for example, in the
次いで、情報処理装置100の構成及び処理について説明する。本実施の形態では、情報処理装置100は、上述の学習用データDATを用いて、複数のグループを含むグループ(クラスタ)内において、2以上の企業が関与する取引不正の有無と推定するものとして構成される。
Next, the configuration and processing of the
図8に、実施の形態1にかかる情報処理装置100の構成を模式的に示す。情報処理装置100は、ハードウェア上では、各処理は実際にはソフトウェアと上記CPU11などのハードウェア資源とが協働することで実現される。情報処理装置100は、取引不正の推定のための学習済みモデルを作成する処理を実現するために、少なくともクラスタリング処理部1、クラスタ特徴量算出部2、不正フラグ付与部3及びモデル構築部4を有する。
FIG. 8 schematically shows the configuration of the
以下で説明するモデルの構築処理は、クラスタリング処理部1、クラスタ特徴量算出部2、不正フラグ付与部3及びモデル構築部4を有する情報処理装置100で実行することができるが、構築したモデルを評価するための構成を付加してもよい。図9に、情報処理装置100の変形例である、情報処理装置101の構成を模式的に示す。情報処理装置101は、情報処理装置100にテスト処理部5を追加した構成を有する。
The model building process described below can be executed by the
以下、モデル構築処理とテスト処理について説明する。図10に、実施の形態1にかかる情報処理装置100における処理のフローチャートを示す。情報処理装置100は、図9に示すステップS1~S5の処理を実行することで、取引不正を検知する学習済みモデルを作成及び評価が行われる。
Model construction processing and test processing will be described below. FIG. 10 shows a flowchart of processing in the
ステップS1:クラスタリング処理
クラスタリング処理部1は、企業データを取り込み、教師なし学習によるクラスタリングを行う。ステップS1は、以下のステップS11~S13を含む。
Step S1: Clustering Processing The
ステップS11:学習用データDATの読み込み
クラスタリング処理部1は、学習用データDATを読み込む。学習用データDATは、情報処理装置100のオペレータが入力手段または通信手段を介して与えてもよいし、記憶装置(例えば、図1の記憶部19)に予め格納されていてもよい。
Step S11: Read data DAT for learning The
ステップS12:各クラスタのノード数の最大値の読み込み
本実施の形態では、クラスタリング処理部1は、クラスタに含まれるノード数の最大値を制限可能なクラスタリング手法を用いてクラスタリングを行う。そのため、クラスタリング処理部1は、クラスタに含まれるノード数の最大値を読み込む。クラスタに含まれるノード数の最大値は、情報処理装置100のオペレータが必要に応じて与えてもよいし、記憶装置(例えば、図1の記憶部19)に予め格納されていてもよい。
Step S12: Read the Maximum Number of Nodes in Each Cluster In the present embodiment, the
ステップS13:クラスタリング
クラスタリング処理部1は、クラスタに含まれるノード数の最大値を参照して、クラスタリングを行う。クラスタに含まれるノード数の最大値を制限可能なクラスタリング手法としては、例えばLeiden Algorithm(非特許文献1)を用いることができる。但し、クラスタに含まれるノード数の最大値を制限可能であれば、Leiden Algorithm以外の手法を適宜用いることができるのは言うまでもない。なお、この手法では、ノードとエッジとで構成されるネットワーク構造を適宜クラスタリングすることが可能である。
Step S13: Clustering The
ステップS2:クラスタ特徴量算出
クラスタ特徴量算出部2は、クラスタリング処理後の各ノードについて、特徴量の算出を行う。ステップS2は、以下のステップS21及びS22を含む。
Step S2: Cluster Feature Amount Calculation The cluster
ステップS21:各企業(ノード)の特徴量算出
クラスタ特徴量算出部2は、まず、学習用データDATに含まれる各企業のデータに基づいて、特徴量を算出する。本実施の形態では、以下で説明する9つの特徴量を用いる。図11に、各ノードの特徴量の例を表形式で示す。具体的には、特徴量として、不正リスクスコアRS、次数中心性DC、固有ベクトル中心性EC、次数中心性と不正リスクスコアとの積DC*RS、固有ベクトル中心性と不正リスクスコアRSとの積EC*RS、クラスタ係数CC、局所固有ベクトル中心性EEC、隣接ノードの次数の総和CT及びグループ次数中心性GDCを用いるものとする。
Step S21: Feature Amount Calculation of Each Company (Node) The cluster
なお、特徴量の理解を容易にするために、図12に、特徴量の算出に用いるネットワークの例を示す。図12のネットワークは、14個のノードNa1~Na14を含み、ノードNa1~Na5がクラスタC1、ノードNa6~Na8がクラスタC2、ノードNa9~Na14がクラスタC3に属している。 To facilitate understanding of the feature amount, FIG. 12 shows an example of a network used for calculating the feature amount. The network of FIG. 12 includes 14 nodes Na1 to Na14, with nodes Na1 to Na5 belonging to cluster C1, nodes Na6 to Na8 belonging to cluster C2, and nodes Na9 to Na14 belonging to cluster C3.
第1の特徴量:不正リスクスコアRS
各ノードの不正リスクスコア、すなわち個々の企業の不正リスクスコアであり、個々の財務諸表などの企業のデータから、各種の取引不正のリスクを示す不正リスクスコアRSを算出する。取引不正の例としては、2社の間の相対で行われる取引不正(例えば、買戻し条件付きの押し込み販売)、数社が結託して行われる取引不正(例えば、架空循環取引)、多数の企業が関与した大規模な取引不正などが有る。不正リスクスコアRSは、不正リスクスコアRSの算出については、例えば非特許文献2にかかる手法を含む、各種の手法を用いることができる。
First feature amount: fraud risk score RS
The fraud risk score of each node, that is, the fraud risk score of each individual company, is calculated from company data such as individual financial statements to calculate a fraud risk score RS indicating the risk of various fraudulent transactions. Examples of fraudulent transactions include fraudulent transactions between two companies (for example, forced sales with repurchase conditions), fraudulent transactions involving collusion between several companies (for example, fictitious circular transactions), and fraudulent transactions involving multiple companies. There are large-scale fraudulent transactions involving For the fraud risk score RS, various methods including the method described in
不正リスクスコアRSは、各企業に紐付けられたものであり、個々の企業が不正を行うリスクを示す指標である。しかし、取引不正のリスクを高い精度で検知するには、各企業と取引企業との関係も考慮する必要が有ると考え得る。そこで、本実施の形態では、以下で説明する特徴量を導入する。 The fraud risk score RS is associated with each company, and is an index indicating the risk of individual companies committing fraud. However, in order to detect the risk of fraudulent transactions with high accuracy, it may be necessary to consider the relationship between each company and the trading company. Therefore, in the present embodiment, the feature amount described below is introduced.
まず、着目した企業が、取引ネットワークにおいてどれほど中心的役割を担っているかを評価するため、以下の第2及び第3の特徴量を導入する。 First, the following second and third features are introduced in order to evaluate how much the focused company plays a central role in the transaction network.
第2の特徴量:次数中心性DC
各ノードの次数中心性(Degree Centrality)DCは、各ノードの隣接するノードの数、すなわち、各ノードとエッジで接続されるノードの数に基づいて算出される。言うまでもないが、次数中心性DCは、相対取引についての指標である。注目するノードに接続されたエッジの数をED、ネットワークに属するノードの総数をNとすると、注目するノードの次数中心性DCは、以下の式で表される。
The degree centrality DC of each node is calculated based on the number of neighboring nodes of each node, ie, the number of nodes connected to each node by edges. Needless to say, degree centrality DC is a measure for bilateral trading. Assuming that the number of edges connected to the node of interest is ED and the total number of nodes belonging to the network is N, the degree centrality DC of the node of interest is expressed by the following equation.
第3の特徴量:固有ベクトル中心性EC
各ノードの固有ベクトル中心性(Eigenvector Centrality)ECは、以下で説明する隣接行列Aについて最大の固有値と、最大の固有値に対応する固有ベクトルを求めることで算出される。言うまでもないが、固有ベクトル中心性ECは、ネットワーク全体に含まれる企業に対して、着目した企業が、取引数の多い企業とどの程度取引があるかを示す指標である。隣接行列Aは、ノード総数と同じ行数及び列数の正方行列であり、便宜上、行番号をi、列番号をk、i行j列の成分をAijとする。言うまでもないが、行番号i及び列番号jは、1以上N以下の整数である。
The eigenvector centrality EC of each node is calculated by obtaining the maximum eigenvalue and the eigenvector corresponding to the maximum eigenvalue for the adjacency matrix A described below. Needless to say, the eigenvector centrality EC is an index that indicates to what extent a focused company has transactions with companies that have a large number of transactions among companies included in the entire network. The adjacency matrix A is a square matrix having the same number of rows and columns as the total number of nodes. Needless to say, row number i and column number j are integers of 1 or more and N or less.
隣接行列の具体例を示す。図13に、隣接行列の例示に用いるネットワークを示す。このネットワークでは、5つのノードが存在し、ノードNb2がノードNb1、Nb3及びNb4とエッジで接続され、ノードNb4がノードNb5とエッジで接続されている。このときの隣接行列は、以下の式で表されることとなる。
次いで、以下の式を満たす、固有ベクトルuと固有値λを算出する。
次いで、着目した企業の不正リスクスコアと取引関係とを考慮した指標として、以下の第4及び第5の特徴量を導入する。 Next, the following fourth and fifth feature amounts are introduced as indexes considering the fraud risk score and business relationship of the company of interest.
第4の特徴量:次数中心性DCと不正リスクスコアRSの積(DC*RS)
各ノードについて、次数中心性DCと不正リスクスコアRSの積DC*RSを算出し、これを各ノードの特徴量として用いる。次数中心性DCと不正リスクスコアRSの積DC*RSは、着目した企業と直接取引している企業が多く、かつ、着目した企業自身の不正リスクが高いと、取引不正のリスクも高いことを示す指標。
Fourth feature amount: product of degree centrality DC and fraud risk score RS (DC*RS)
For each node, the product DC*RS of the degree centrality DC and the fraud risk score RS is calculated and used as the feature quantity of each node. The product DC*RS of the degree centrality DC and the fraud risk score RS indicates that there are many companies that have direct transactions with the focused company, and if the focused company itself has a high fraud risk, the risk of transaction fraud is also high. indicator.
第5の特徴量:固有ベクトル中心性ECと不正リスクスコアRSの積(EC*RS)
各ノードについて、固有ベクトル中心性ECと不正リスクスコアRSの積EC*RSを算出し、これを各ノードの特徴量として用いる。固有ベクトル中心性ECと不正リスクスコアRSの積EC*RSは、着目した企業が、取引数の多い企業と取引しており、かつ、着目した企業自身の不正リスクが高いと、取引不正のリスクも高いことを示す指標である。
Fifth feature quantity: product of eigenvector centrality EC and fraud risk score RS (EC*RS)
For each node, the product EC*RS of the eigenvector centrality EC and the fraud risk score RS is calculated and used as the feature quantity of each node. The product EC*RS of the eigenvector centrality EC and the fraud risk score RS is the risk of transaction fraud if the company in question has transactions with companies with a large number of transactions and the company itself has a high fraud risk. It is an index that indicates that it is high.
次いで、着目した企業と、着目した企業と取引関係がある企業とが、どれほど網羅的な取引ネットワークを構成しているかを評価するため、以下の第6の特徴量であるクラスタ係数を導入する。 Next, in order to evaluate how comprehensive a transaction network the focused company and the companies that have business relationships with the focused company constitute, a cluster coefficient, which is the following sixth feature quantity, is introduced.
第6の特徴量:クラスタ係数(Clustering Coefficient)CC
各ノードについて、クラスタ係数CCを算出する。注目するノードを含む三角形の数をT(すなわち、各ノードとエッジで接続された2つの隣接ノード同士を接続するエッジの数)、注目するノードの次数(接続されたエッジの数)をEDとすると、注目するノードのクラスタ係数は、以下の式で表される。
A cluster coefficient CC is calculated for each node. Let T be the number of triangles containing the node of interest (that is, the number of edges connecting each node and two adjacent nodes connected by an edge), and ED be the degree of the node of interest (the number of connected edges). Then, the cluster coefficient of the node of interest is represented by the following equation.
次いで、数社が結託して行われる取引不正を検知するための指標を導入する。数社が結託して行われる取引不正としては、各企業の2社先の取引関係にかかる不正、例えば架空循環取引などが知られている。このような、2社先の取引関係にかかる不正を検知するための指標として、第7の特徴量である局所固有ベクトル中心性を導入する。 Next, we introduce an indicator for detecting fraudulent transactions conducted by collusion of several companies. Fraudulent transactions involving the collusion of several companies, such as fictitious cyclical transactions, are known as frauds related to business relationships between two companies ahead of each other. Local eigenvector centrality, which is a seventh feature quantity, is introduced as an index for detecting such fraudulent transaction relationships between two companies.
第7の特徴量:局所固有ベクトル中心性EEC
上述の固有ベクトル中心性ECは1つ隣のノードまでのネットワークを対象として算出されるものであった。これに対し、ここでは、着目したノードと、1つ隣及び2つ隣のノードとで構成されるネットワークである局所ネットワーク(Egocentric Network: Egonet)を対象として、局所固有ベクトル中心性EEC(Egonet Eigenvector Centrality)を算出する。
Seventh Feature Amount: Local Eigenvector Centrality EEC
The eigenvector centrality EC described above is calculated for the network up to the next node. On the other hand, here, for a local network (Egocentric Network: Egonet), which is a network composed of the node of interest and the one- and two-neighboring nodes, the local eigenvector centrality EEC (Egonet Eigenvector Centrality ) is calculated.
図14に、局所ネットワークの例として、図12の例においてノードNa6に着目した場合の局所ネットワークを示す。この例では、ノードNa6と、1つ隣のノードであるノードNa5、Na7、Na8及びNa9と、2つ隣のノードであるノードNa4、Na10及びNa13が局所ネットワークを構成する。この局所ネットワークに対して、ノードが隣接している場合に「1」、隣接していないに「0」となる成分からなる隣接行列Bを以下のように求める。なお、簡略化のため、行及び列に表示したノード番号は、「Na」を除く数字のみを表示している。
次いで、以下の式を満たす固有値λを算出する。
第8の特徴量:隣接ノードの次数の総和CT
隣接ノードの次数の総和CT、すなわち隣接ノードの取引関係数の総和(Co Transaction)を算出する。隣接ノードの次数の総和CTは、着目した企業と直接取引している企業が、どれくらい他社と取引をしているかを示す指標である。図12のクラスタC2に属するノードNa6に注目すると、隣接するノードNa5の次数が2、ノードNa7の次数が2、ノードNa8の次数が2、ノードNa9の次数が3なので、隣接ノードの次数の総和CTは、2+2+2+3=9となる。
Eighth feature quantity: total CT of degrees of adjacent nodes
Calculate the sum CT of degrees of adjacent nodes, that is, the sum of transaction relations (Co Transaction) of adjacent nodes. The sum CT of degrees of adjacent nodes is an index indicating how many companies that directly trade with the focused company do business with other companies. Focusing on the node Na6 belonging to the cluster C2 in FIG. 12, since the degree of the neighboring node Na5 is 2, the degree of the node Na7 is 2, the degree of the node Na8 is 2, and the degree of the node Na9 is 3, the sum of the degrees of the neighboring nodes is CT becomes 2+2+2+3=9.
ステップS22:クラスタの特徴量算出
各クラスタについて、属するノードの各特徴量の平均値を算出し、算出した平均値を注目するクラスタの各特徴量とする。図15に、各クラスタの特徴量の例を表形式で示す。なお、ここでは、特徴量として用いる統計量として平均値を採用したが、必要に応じて、最大値、最小値及び中央値などの他の統計量を用いてもよい。
Step S22: Calculation of Feature Amount of Cluster For each cluster, the average value of each feature amount of the node to which it belongs is calculated, and the calculated average value is used as each feature amount of the cluster of interest. FIG. 15 shows an example of the feature amount of each cluster in tabular form. Here, the mean value is used as the statistic used as the feature quantity, but other statistic such as maximum value, minimum value and median value may be used as necessary.
さらに、クラスタの特徴量として、第9の特徴量であるグループ次数中心性GDCを算出する。 Further, as the cluster feature amount, the group degree centrality GDC, which is the ninth feature amount, is calculated.
第9の特徴量:グループ次数中心性GDC
クラスタリング処理によって生じたクラスタのそれぞれについて、グループ次数中心性GDC(Group Degree Centrality)を算出し、注目するクラスタに含まれるノードの特徴量として用いる。注目するクラスタに含まれるノードと、注目するクラスタ以外のクラスタに含まれるノードとを接続するエッジの総数をEDEXT、注目するクラスタ以外のクラスタに含まれるノードの総数をNEXTとする。グループ次数中心性GDCは、以下の式を用いて算出する。
A group degree centrality GDC (Group Degree Centrality) is calculated for each cluster generated by the clustering process, and is used as a feature quantity of a node included in the cluster of interest. Let ED EXT be the total number of edges connecting nodes included in the cluster of interest and nodes included in clusters other than the cluster of interest, and let NEXT be the total number of nodes included in clusters other than the cluster of interest. The group degree centrality GDC is calculated using the following formula.
ステップS3
不正フラグ付与部3は、過去に不正があったノードを含むクラスタに対してフラグを付与する。具体的には、図15に示す様に、不正フラグ付与部3は、過去に不正があったノードを含むクラスタの不正フラグを「1」、不正が有ったノードを含まないクラスタの不正フラグを「0」に設定する。不正フラグは、学習用データDATに含まれる不正履歴情報を示す列を参照し、不正が有った場合に不正フラグとして「1」を付与し、不正が無かった場合に不正フラグとして「0」を付与するというように、数値データによって表されてもよい。不正履歴情報に対応する列が複数有る場合には、参照する列の全てが不正が有ったことを示している場合に不正フラグ「1」を付与してもよいし、参照する列のいずれかに不正が有ったことを示している場合に不正フラグ「1」を付与してもよい。なお、不正フラグのデータ形式は数値データに限られず、例えば、ブーリアン型の変数など、各種の形式で表現されてもよい。
step S3
The fraud
ステップS4:モデル構築
モデル構築部4は、各クラスタの特徴量を説明変数、不正フラグを目的変数とする学習済みモデルの構築を行う。ここでは、学習済みモデルを示す処理fを構築するため、例えばロジスティック回帰を用いて学習済みモデルを構築する。なお、学習済みモデル構築には、ロジスティック回帰のみならず、ランダムフォレスト、サポートベクトル回帰など、各種の教師有り学習手法を適宜用いることができる。ステップS4は、以下のステップS40~S45を含む。
Step S4: Model Construction The
ステップS40:処理回数初期値設定
処理回数NUMの初期値として、「1」を設定する。
Step S40: Initial value setting for the number of times of processing "1" is set as the initial value of the number of times of processing NUM.
ステップS41:ノード抽出
不正フラグが「1」のクラスタから一定の割合のクラスタを抽出し、かつ、不正フラグが「0」のクラスタから一定の割合のクラスタを抽出して、抽出したクラスタを学習用データとして用いる。残りのクラスタはテスト用データとして用いる。本実施の形態では、例として、一定の割合を7割とする。但し、一定の割合の値は7割に限られるものではなく、任意の割合としてもよい。
Step S41: Node Extraction A certain percentage of clusters are extracted from clusters with fraud flags of “1” and a certain percentage of clusters are extracted from clusters with fraud flags of “0”, and the extracted clusters are used for learning. Used as data. The remaining clusters are used as test data. In this embodiment, as an example, the fixed ratio is 70%. However, the fixed ratio value is not limited to 70%, and may be any ratio.
ステップS42:学習用データの特徴量標準化
学習用データについて、各クラスタの特徴量の標準化を行う。ここでは、各クラスタに含まれる特徴量の個数をM(上述の例ではM=9)、クラスタに含まれる各特徴量をxk(kは、1以上M以下の整数)、抽出されたクラスタの特徴量xkの平均値をxk_AVE、抽出された特徴量xkの標準偏差をσxkとする。このとき、標準化された特徴量xksは、以下の式で表される。
ステップS43:学習用データの特徴量除外
標準化された特徴量x1s~x9sから選んだ2つの特徴量の全ての組み合わせについて、相関CRRを算出する。そして、相関CRRが所定値THよりも大きい場合には、選んだ2つの特徴量の一方を学習用データから除外する。本実施の形態では、例えば所定値THを0.9とする。この場合に、標準化された特徴量x5sと標準化された特徴量x9sとの相関が0.95である場合には、標準化された特徴量x9sを学習用データから除外する。
Step S43: Exclusion of Feature Amounts from Learning Data A correlation CRR is calculated for all combinations of two feature amounts selected from the standardized feature amounts x1s to x9s. Then, when the correlation CRR is greater than the predetermined value TH, one of the two selected feature amounts is excluded from the learning data. In this embodiment, for example, the predetermined value TH is set to 0.9. In this case, if the correlation between the standardized feature quantity x 5s and the standardized feature quantity x 9s is 0.95, the standardized feature quantity x 9s is excluded from the learning data.
ステップS44:重み算出
次のステップS45にて重み付けロジスティック回帰によって学習処理を行うために、データに付与する重みを算出する。ここで、抽出したクラスタ総数をn、不正フラグが「1」のクラスタの数をn1、不正フラグが「0」のクラスタの数をn0としたとき、不正フラグが「1」のクラスタの標準化された特徴量に対する重みとして、n/2n1、不正フラグが「0」のクラスタの標準化された特徴量に対する重みとしてn/2n0を算出する。
Step S44: Weight Calculation In the next step S45, weights to be given to data are calculated in order to perform learning processing by weighted logistic regression. Here, when n is the total number of extracted clusters, n 1 is the number of clusters with the fraud flag of “1”, and n 0 is the number of clusters with the fraud flag of “0”, the number of clusters with the fraud flag of “1” is n/2n 1 is calculated as the weight for the standardized feature amount, and n/2n 0 is calculated as the weight for the standardized feature amount of the cluster whose fraud flag is "0".
ステップS45:学習処理
上述したように、学習用データを用いて、例えばロジスティック回帰によって学習済みモデルを構築する。ここでは、n個のクラスタに含まれる各クラスタの不正フラグをyi(iは、1からnまでの整数)、各クラスタにおいて不正フラグが「1」となる確率をpi(0<pi<1)とする。各クラスタにおいて不正フラグが付与される事象が独立であるとすると、ステップS3においてn個のクラスタにそれぞれ付与したn個の不正フラグからなる順列が得られる確率である尤度Lは、以下の式で表される。
上述の通り、本実施の形態ではロジスティック回帰を行うので、不正フラグが「1」となる確率piは、以下の式で表される。
以上の条件の下で回帰分析を行い、対数尤度logLを最大にするβ0~βnを求めることで、学習済みモデルを構築することができる。 A trained model can be constructed by performing regression analysis under the above conditions and finding β 0 to β n that maximize the logarithmic likelihood logL.
ステップS5:テスト
テスト処理部5は、以下の手順で、学習済みモデルのテストを行う。ここでは、以下の手順で、テストを100回繰り返すものとする。
Step S5: Test The
ステップS51:テスト用データの特徴量除外
テスト用データから、ステップS43で除外された特徴量を同様に除外する。
Step S51: Exclusion of feature amount from test data The feature amount excluded in step S43 is similarly excluded from the test data.
ステップS52:テスト用データの特徴量標準化
テスト用データについて、学習用データの場合と同様に、各クラスタの特徴量の標準化を行う。ここでは、除外処理後の各クラスタに含まれる特徴量の個数をm(mは、M以下の整数)、各クラスタに含まれる各特徴量をyk(kは、1以上m以下の整数)とする。このとき、標準化された特徴量yksは、以下の式で表される。
ステップS53:結果出力
学習済みモデルに、テスト用データの標準化された特徴量を有するクラスタを投入し、結果を取得する。
Step S53: Result output A cluster having the standardized feature amount of the test data is input to the trained model, and the result is obtained.
ステップS54:AUC算出
出力結果と、投入したノードに付された実際の不正フラグと、を比較してROC(Receiver Operating Characteristic)曲線を取得し、ROC曲線を用いてAUC(Area Under Curve)を算出する。
Step S54: AUC calculation Output results are compared with the actual fraud flag attached to the input node to obtain an ROC (Receiver Operating Characteristic) curve, and AUC (Area Under Curve) is calculated using the ROC curve. do.
ROC曲線とAUCについて簡潔に説明する。図16に、ROC曲線とAUCの一例を示す。ROC曲線は、真陽性の割合と偽陽性の割合として定義される点が描く軌跡に対応する曲線である。ROC曲線の縦軸は真陽性の割合(True Positive Rate)であり、検出結果の横軸上に設定した閾値以上の範囲におけるpositiveを示す実線Pと横軸とに囲まれる部分の面積に対応する。ROC曲線の横軸は偽陽性の割合(False Positive Rate)であり、予測結果の横軸上に設定した閾値以上の範囲におけるnegativeを示す破線Nと横軸とに囲まれる部分の面積に対応する。 Briefly describe the ROC curve and AUC. FIG. 16 shows an example of the ROC curve and AUC. A ROC curve is a curve corresponding to the locus of points defined as the true positive rate and the false positive rate. The vertical axis of the ROC curve is the true positive rate (True Positive Rate), and corresponds to the area surrounded by the solid line P and the horizontal axis indicating positive in the range above the threshold set on the horizontal axis of the detection result. . The horizontal axis of the ROC curve is the false positive rate (False Positive Rate), and corresponds to the area of the portion surrounded by the dashed line N indicating negative in the range above the threshold set on the horizontal axis of the prediction result and the horizontal axis. .
例として、ROC曲線の横軸上に閾値THを設定し、閾値THに対応するROC曲線上の点Pを示した。点Pにおける真陽性の割合(True Positive Rate)TPR1は、検出結果の横軸上に設定した閾値TH以上の範囲におけるpositiveを示す実線Pと横軸とに囲まれる部分(細線ハッチングが施された部分)の面積に対応する。点Pにおける偽陽性の割合(False Positive Rate)FPR1は、検出結果の横軸上に設定した閾値TH以上の範囲におけるnegativeを示す破線Nと横軸とに囲まれる部分(太線ハッチングが施された部分)の面積に対応する。 As an example, a threshold TH is set on the horizontal axis of the ROC curve, and a point P on the ROC curve corresponding to the threshold TH is shown. The true positive rate (True Positive Rate) TPR1 at the point P is the portion surrounded by the solid line P and the horizontal axis indicating positive in the range above the threshold TH set on the horizontal axis of the detection result (thin hatched part). The false positive rate (False Positive Rate) FPR1 at the point P is the portion surrounded by the dashed line N indicating negative in the range above the threshold TH set on the horizontal axis of the detection result and the horizontal axis (thick hatched part).
AUCは、ROC曲線よりも下の部分(ハッチングが施された部分)の面積である。一般に、AUCの値は、事象の発生がランダムである場合には0.5となり、イベントの発生及び未発生の予測精度が高くなるほど1に近づくこととなる。 AUC is the area of the portion (hatched portion) below the ROC curve. In general, the value of AUC is 0.5 when the occurrence of events is random, and approaches 1 as the accuracy of predicting the occurrence and non-occurrence of events increases.
ステップS55:テスト回数更新
テスト回数NUMを1だけ増加させる。
Step S55: Update number of tests Increase the number of tests NUM by one.
ステップS56:終了判定
テスト回数NUMが100未満である場合には、処理ステップS41へ返す。テスト回数NUMが100である場合には、処理を終了する。
Step S56: Termination Judgment If the test count NUM is less than 100, the process returns to step S41. If the test count NUM is 100, the process ends.
以上のステップS41~S45及びS51~S56を繰り返すことで、テストごとに学習用データに含まれるクラスタとテスト用データにクラスタとを抽出しなおして、テストを反復することができる。これにより、クラスタ抽出に起因するバラつきを平均化して、モデルをより高精度に評価することができる。 By repeating the above steps S41 to S45 and S51 to S56, the clusters included in the learning data and the clusters in the test data can be re-extracted for each test, and the test can be repeated. As a result, variations due to cluster extraction are averaged, and the model can be evaluated with higher accuracy.
なお、テストの回数は例示に過ぎず、テスト回数を100回未満又は100回よりも多くしてもよい。 Note that the number of tests is only an example, and the number of tests may be less than 100 or more than 100.
次いで、性能評価の実施例について説明する。本実施の形態では、ステップS1におけるクラスタリングでのクラスタに属するノードの最大値を1000、500及び100の3段階に変化させて、性能評価結果の比較を行った。なお、以下では、クラスタリングを行った結果、ノード数が1つのクラスタが発生した場合には、そのクラスタについては除外している。 Next, an example of performance evaluation will be described. In this embodiment, the maximum value of the nodes belonging to the cluster in the clustering in step S1 was changed to three levels of 1000, 500 and 100, and the performance evaluation results were compared. In the following description, when a cluster with one node is generated as a result of clustering, that cluster is excluded.
評価ケースA
評価ケースAにおいては、ステップS1におけるクラスタリングでのクラスタに属するノードの最大値を1000とした。この条件において、不正フラグ「1」のクラスタ数は2522、不正フラグ「0」のクラスタは47となった。このデータに対して100回のテストを行い、AUCを算出した。なお、テスト用データを用いてのテストの結果の比較例として、構築したモデルに学習用データを投入した場合AUCの算出も行った。
Evaluation case A
In evaluation case A, the maximum number of nodes belonging to a cluster in the clustering in step S1 was set to 1,000. Under this condition, the number of clusters with the fraud flag "1" is 2522, and the number of clusters with the fraud flag "0" is 47. This data was tested 100 times and the AUC was calculated. As a comparative example of test results using test data, AUC was also calculated when learning data was input to the constructed model.
図17に、評価ケースAにおける各特徴量の採択率を示す。この例では、9つの特徴量のうち、グループ次数中心性GDCは1度も採用されず、稀に(数%程度の確率で)固有ベクトル中心性ECが不採用となった。その他の7つの特徴量は、100%採用された。 FIG. 17 shows the acceptance rate of each feature amount in the evaluation case A. In FIG. In this example, among the nine feature quantities, the group degree centrality GDC was never adopted, and the eigenvector centrality EC was rarely adopted (with a probability of several percent). The other seven features were adopted 100%.
図18に、評価ケースAにおいて学習用データを用いたときのAUCとテスト用データを用いたときのAUCを示す。この例では、学習用データを用いた場合のAUCの平均値は0.798、テスト用データを用いたテストでのAUCの平均値は0.772となった。テスト用データのAUCは概ね0.7~0.8の間で推移しており、高い精度でクラスタ内の取引不正を検出できることが確認できた。 FIG. 18 shows AUC when learning data is used and AUC when test data is used in evaluation case A. In FIG. In this example, the average AUC value for the learning data was 0.798, and the average AUC value for the test using the test data was 0.772. The AUC of the test data generally fluctuates between 0.7 and 0.8, confirming that fraudulent transactions within a cluster can be detected with high accuracy.
評価ケースB
評価ケースBにおいては、ステップS1におけるクラスタリングでのクラスタに属するノードの最大値を500とした。この条件において、不正フラグ「1」のクラスタ数は4695、不正フラグ「0」のクラスタは49となった。評価ケースAと同様に、このデータに対して、学習用データとテスト用データとを用いて100回のテストを行い、AUCを算出した。
Evaluation case B
In evaluation case B, the maximum number of nodes belonging to a cluster was set to 500 in clustering in step S1. Under this condition, the number of clusters with the fraud flag "1" is 4695, and the number of clusters with the fraud flag "0" is 49. Similar to evaluation case A, this data was tested 100 times using learning data and test data, and AUC was calculated.
図19に、評価ケースBにおける各特徴量の採択率を示す。この例では、9つの特徴量のうち、グループ次数中心性GDCは1度も採用されず、その他の8つの特徴量は100%採用された。 FIG. 19 shows the acceptance rate of each feature amount in the evaluation case B. In FIG. In this example, among the nine features, the group degree centrality GDC was never adopted, and the other eight features were adopted 100%.
図20に、評価ケースBにおいて学習用データを用いたときのAUCとテスト用データを用いたときのAUCを示す。この例では、学習用データを用いた場合のAUCの平均値は0.778、テスト用データを用いたテストでのAUCの平均値は0.730となった。テスト用データのAUCは概ね0.7~0.8の間で推移しており、評価ケースBにおいても高い精度でクラスタ内の取引不正を検出できることが確認できた。 FIG. 20 shows AUC when learning data is used and AUC when test data is used in evaluation case B. In FIG. In this example, the average AUC value when using the learning data was 0.778, and the average AUC value in the test using the test data was 0.730. The AUC of the test data generally fluctuated between 0.7 and 0.8, and it was confirmed that even in the evaluation case B, fraudulent transactions within the cluster could be detected with high accuracy.
評価ケースC
評価ケースCにおいては、ステップS1におけるクラスタリングでのクラスタに属するノードの最大値を100とした。この条件において、不正フラグ「1」のクラスタ数は20296、不正フラグ「0」のクラスタは55となった。評価ケースA及びBと同様に、このデータに対して、学習用データとテスト用データとを用いて100回のテストを行い、AUCを算出した。
Evaluation case C
In evaluation case C, the maximum number of nodes belonging to a cluster in the clustering in step S1 was set to 100. Under this condition, the number of clusters with the fraud flag "1" is 20296, and the number of clusters with the fraud flag "0" is 55. Similar to evaluation cases A and B, this data was tested 100 times using learning data and test data, and AUC was calculated.
図21に、評価ケースCにおける各特徴量の採択率を示す。この例では、9つの特徴量のうち、グループ次数中心性GDCは1度も採用されず、その他の8つの特徴量は100%採用された。 FIG. 21 shows the acceptance rate of each feature amount in evaluation case C. In FIG. In this example, among the nine features, the group degree centrality GDC was never adopted, and the other eight features were adopted 100%.
図22に、評価ケースCにおいて学習用データを用いたときのAUCとテスト用データを用いたときのAUCを示す。この例では、学習用データを用いた場合のAUCの平均値は0.714、テスト用データを用いたテストでのAUCの平均値は0.761となった。テスト用データのAUCは概ね0.6~0.7の間で推移しており、評価ケースA及びBと比べて取引不正の精度が低下していることが確認できた。 FIG. 22 shows AUC when learning data is used and AUC when test data is used in evaluation case C. In FIG. In this example, the average AUC value in the case of using the learning data was 0.714, and the average AUC value in the test using the test data was 0.761. The AUC of the test data generally fluctuates between 0.6 and 0.7, confirming that the accuracy of fraudulent transactions has declined compared to evaluation cases A and B.
評価ケースA~Cを比較すると、クラスタに属するノードの最大値を小さくし過ぎると、取引不正の検出精度が低下することが理解できる。上述のテスト結果からは、クラスタに属するノードの最大値を少なくとも数百個程度、望ましくは500個以上とすることで、良好な取引不正の検出精度を実現できるものと推定できる。 Comparing the evaluation cases A to C, it can be understood that if the maximum value of the nodes belonging to the cluster is made too small, the fraudulent transaction detection accuracy is lowered. From the above test results, it can be inferred that by setting the maximum number of nodes belonging to a cluster to at least about several hundred, preferably 500 or more, it is possible to achieve good fraudulent transaction detection accuracy.
そこで、取引不正の検出精度を実現するには、クラスタに属するノードの最大値はいかなる値が好適であるかを検討するため、クラスタに属するノードの最大値を変化させたときのAUCの変動を観察した。図23に、クラスタに属するノードの最大値とAUCとの関係を示す。ここでは、クラスタに属するノードの最大値を、100~25000個の範囲で変化させた。具体的には、クラスタに属するノードの最大値を、100、500、1000と変化させ、かつ、1000~25000個の範囲では1000個刻みで変化させた。 Therefore, in order to realize the detection accuracy of fraudulent transactions, in order to study what value is suitable for the maximum value of the nodes belonging to the cluster, the fluctuation of AUC when the maximum value of the nodes belonging to the cluster is changed is calculated as follows. Observed. FIG. 23 shows the relationship between the maximum value of nodes belonging to a cluster and AUC. Here, the maximum number of nodes belonging to a cluster was varied within a range of 100 to 25000. Specifically, the maximum number of nodes belonging to a cluster was changed to 100, 500, and 1000, and in the range of 1000 to 25000, it was changed in increments of 1000.
その結果、クラスタに属するノードの最大値が5000~20000個の範囲において、AUCの値が、0.87~0.90程度の高い値で安定する傾向が見られた。 As a result, in the range of 5000 to 20000 maximum nodes belonging to a cluster, the AUC value tended to stabilize at a high value of about 0.87 to 0.90.
以上、本構成によれば、個々の企業の不正リスクを推定するだけでは困難な、クラスタ内の複数のノード(企業)が関与した取引不正のリスクを推定することができる。これにより、循環取引などの複数の企業が関与するような取引不正のリスクを好適に推定することが可能となる。 As described above, according to this configuration, it is possible to estimate the risk of fraudulent transactions involving a plurality of nodes (companies) in a cluster, which is difficult only by estimating the fraud risk of individual companies. This makes it possible to suitably estimate the risk of fraudulent transactions involving multiple companies, such as circular transactions.
実施の形態2
実施の形態2にかかる情報処理装置について説明する。実施の形態1では、個々の企業の財務諸表に含まれる各勘定科目や取引情報などを用いた、取引不正を検知するための学習済みモデルの構築について説明した。本実施の形態では、構築した学習済みモデルを用いて、分析対象となる企業の情報を示す入力データを学習済みモデルに入力することで、分析対象の企業が不正を行うリスクを推定する構成について説明する。
An information processing apparatus according to the second embodiment will be described. In the first embodiment, construction of a trained model for detecting fraudulent transactions using account items and transaction information included in financial statements of individual companies has been described. In the present embodiment, the built trained model is used to input input data indicating the information of the company to be analyzed into the trained model, thereby estimating the risk of fraud by the company to be analyzed. explain.
図24に、実施の形態2にかかる情報処理装置200の構成を模式的に示す。情報処理装置200は、実施の形態1にかかる情報処理装置100のテスト処理部5を、推定処理部6に置換した構成を有する。
FIG. 24 schematically shows the configuration of an
実施の形態1で説明したように、モデル構築部によって学習済みモデルMDが構築される。その後、学習済みモデルMDは、推定処理部6に渡される。学習済みモデルMDは、例えば、推定処理部6に設けられた記憶部に格納されていてもよいし、推定処理部6とは別に設けられた記憶部に格納され、推定処理部6が必要に応じて学習済みモデルMDを読み出してもよい。これらの記憶部としては、図1に示した記憶部19など、適宜利用可能な記憶手段を用いることが可能である。
As described in the first embodiment, the model construction unit constructs the learned model MD. After that, the trained model MD is passed to the
推定処理部6には、不正を行うリスクの分析対象となる企業の情報を示す入力データINが入力される。入力データINのデータ形式としては、例えば、上述の企業データとエッジ情報とで構成される。推定処理部6は、学習済みモデルMDに入力データINを入力することで、対象企業が不正を行うリスク、例えば対象企業が不正を行う確率を示す情報である出力データOUTを出力する。情報処理装置200のユーザは、出力データOUTを参照することで、対象企業が不正を行うリスクを認識することが可能である。
The
なお、本実施の形態にかかる情報処理装置は、情報処理装置101のテスト処理部5を有していてもよい。図25に、情報処理装置200の変形例である情報処理装置201の構成を模式的に示す。テスト処理部5を設けることで、実施の形態1で説明したように、検証を行った学習済みモデルを用いて推定処理を行うことが可能である。
Note that the information processing apparatus according to this embodiment may have the
なお、上述の推定処理は、推定処理を行う情報処理装置とは異なる情報処理装置で構築された学習済みモデルMDを用いて行うことも可能である。図26に、実施の形態2にかかる情報処理装置の変形例である情報処理装置210の構成を模式的に示す。情報処理装置210は、モデル格納部7及び推定処理部6を有する。
Note that the estimation process described above can also be performed using a trained model MD constructed by an information processing apparatus different from the information processing apparatus that performs the estimation process. FIG. 26 schematically shows the configuration of an
モデル格納部7には、情報処理装置210とは異なる、例えば情報処理装置100によって構築された学習済みモデルMDが格納される。学習済みモデルMDは、通信回線や記憶媒体などを介して外部の異なる情報処装置から情報処理装置210に提供されて、モデル格納部7に格納される。モデル格納部7としては、図1に示した記憶部19など、適宜利用可能な記憶手段を用いることが可能である。
The
推定処理部6には、情報処理装置200と同様に、不正を行うリスクの分析対象となる企業の情報を示す入力データINが入力される。推定処理部6は、学習済みモデルMDに入力データINを入力することで、対象企業が不正を行うリスク、例えば対象企業が不正を行う確率を示す情報である出力データOUTを同様に出力することができる。
As with the
情報処理装置210によれば、モデル構築装置である他の情報処理装置で構築された学習済みモデルを適宜用いて、推定処理を行うことができる。これにより、他の情報処理装置が複数存在する場合、推定処理に適した学習済みモデルの提供を適切な情報処理装置から受けることが可能となる。また、モデルを構築する情報処理装置の設置位置に依存することなく、所望の場所にて推定処理を行うこともできる。
According to the
その他の実施の形態
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、学習用データに含まれる財務諸表の内容及び項目(勘定科目)や、属性情報の項目(例えば、業種や事業所の所在地など)は、得られた項目の全てであってもよい、必要に応じて選択された一部の項目が含まれてもよいことは、言うまでもない。
Other Embodiments The present invention is not limited to the above-described embodiments, and can be modified as appropriate without departing from the scope of the invention. For example, the contents and items (account items) of financial statements included in the training data, and the items of attribute information (for example, industry and business location) may be all of the obtained items. It goes without saying that some items may be included that are selected according to.
上述の実施の形態にかかる情報処理装置が実行する処理は、ASIC(Application Specific Integrated Circuit)を含む半導体処理装置を用いて実現されてもよい。また、これらの処理は、少なくとも1つのプロセッサ(e.g. マイクロプロセッサ、CPU、GPU、MPU、DSP(Digital Signal Processor))を含むコンピュータシステムにプログラムを実行させることによって実現されてもよい。具体的には、これらの送信信号処理又は受信信号処理に関するアルゴリズムをコンピュータシステムに行わせるための命令群を含む1又は複数のプログラムを作成し、当該プログラムをコンピュータに供給すればよい。 The processing executed by the information processing apparatus according to the above embodiments may be implemented using a semiconductor processing apparatus including an ASIC (Application Specific Integrated Circuit). Also, these processes may be realized by causing a computer system including at least one processor (eg microprocessor, CPU, GPU, MPU, DSP (Digital Signal Processor)) to execute a program. Specifically, one or a plurality of programs containing a group of instructions for causing a computer system to execute algorithms relating to these transmission signal processing or reception signal processing may be created, and the programs may be supplied to the computer.
これらのプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。 These programs can be stored and delivered to computers using various types of non-transitory computer readable media. Non-transitory computer-readable media include various types of tangible storage media. Examples of non-transitory computer-readable media include magnetic recording media (eg, flexible discs, magnetic tapes, hard disk drives), magneto-optical recording media (eg, magneto-optical discs), CD-ROMs (Read Only Memory), CD-Rs, CD-R/W, semiconductor memory (eg, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (random access memory)). The program may also be delivered to the computer on various types of transitory computer readable medium. Examples of transitory computer-readable media include electrical signals, optical signals, and electromagnetic waves. Transitory computer-readable media can deliver the program to the computer via wired channels, such as wires and optical fibers, or wireless channels.
1 クラスタリング処理部
2 クラスタ特徴量算出部
3 不正フラグ付与部
4 モデル構築部
5 テスト処理部
6 推定処理部
7 モデル格納部
11 CPU
12 ROM
13 RAM
14 バス
15 入出力インターフェイス
16 入力部
17 出力部
18 通信部
19 記憶部
20 ドライブ
21 磁気ディスク
22 光ディスク
23 フレキシブルディスク
24 半導体メモリ
30 ネットワーク
40 サーバ
100、101、200、201、210 情報処理装置
110 コンピュータ
CPR 企業データ
EDG エッジ情報
DAT 学習用データ
IN 入力データ
MD 学習済みモデル
UDH 不正履歴情報
REFERENCE SIGNS
12 ROMs
13 RAM
14
Claims (13)
前記クリスタリング処理後のデータに含まれる各クラスタに属する各ノードの特徴量を算出し、算出した特徴量に基づいて各クラスタの特徴量を算出する特徴量算出部と、
各クラスタに属するノードの前記不正を行ったか否かを示す情報に基づいて、当該クラスタに不正フラグを付与する不正フラグ付与部と、
前記不正フラグが付与されたデータを、前記特徴量を説明変数、前記不正フラグを目的変数として教師有り学習することで学習済みモデルを取得するモデル構築部と、を備える、
情報処理装置。 Multiple variables that indicate the values of multiple account items included in each company's financial statements, in which each company's information is represented by a multidimensional vector, each company's attribute information, and information that indicates whether each company has committed fraud and information indicating business relationships between companies, and perform clustering so that the number of nodes included in one cluster is equal to or less than a predetermined value, and the nodes corresponding to each cluster. A clustering processing unit that performs a clustering process for acquiring a network structure composed of edges that indicate a business relationship between
a feature amount calculation unit that calculates the feature amount of each node belonging to each cluster included in the data after the crystalling process , and calculates the feature amount of each cluster based on the calculated feature amount;
a fraud flag assigning unit that assigns a fraud flag to a cluster based on information indicating whether or not a node belonging to each cluster has performed fraud;
a model building unit that acquires a trained model by performing supervised learning on the data to which the fraud flag is assigned, with the feature quantity as an explanatory variable and the fraud flag as an objective variable;
Information processing equipment.
請求項1に記載の情報処理装置。 The feature amount of each cluster is calculated based on the statistics of the feature amount of the cluster,
The information processing device according to claim 1 .
請求項2に記載の情報処理装置。 the statistic is a mean, maximum, minimum or median;
The information processing apparatus according to claim 2.
各ノードに対応する各企業のリスクスコアと、
各ノードの次数中心性と、
各ノードの固有ベクトル中心性と、
各ノードの前記リスクスコアと前記次数中心性との積と、
各ノードの前記固有ベクトル中心性と前記次数中心性との積と、
各ノードのクラスタ係数と、
各ノードから、各ノードとエッジで接続される2つ隣までのノードまでの範囲のネットワークにおいて算出する固有ベクトル中心性である局所固有ベクトル中心性と、
各ノードに隣接するノードの次数の総和と、を含む、
請求項1乃至3のいずれか一項に記載の情報処理装置。 The feature of each node is
the risk score of each company corresponding to each node;
degree centrality of each node and
Eigenvector centrality of each node and
a product of the risk score and the degree centrality of each node;
a product of the eigenvector centrality and the degree centrality of each node;
the cluster coefficient of each node, and
local eigenvector centrality, which is the eigenvector centrality calculated in the network from each node to two adjacent nodes connected to each node by edges;
sum of degrees of adjacent nodes to each node, and
The information processing apparatus according to any one of claims 1 to 3.
着目したクラスタに含まれるノードと前記着目したクラスタ以外のクラスタに含まれるノードとを接続するエッジの総数を、前記着目したクラスタ以外のクラスタに含まれるノードの総数で除した値であるグループ次数中心性と、を含む、
請求項4に記載の情報処理装置。 The features of each cluster are the risk score of each node, the degree centrality, the eigenvector centrality, the product of the risk score and the degree centrality, the product of the eigenvector centrality and the degree centrality, the a value calculated based on each statistic of the cluster coefficient, the local eigenvector centrality, and the sum of the degrees;
Group degree center, which is a value obtained by dividing the total number of edges connecting nodes included in a cluster of interest and nodes included in clusters other than the cluster of interest by the total number of nodes included in clusters other than the cluster of interest including sex and
The information processing apparatus according to claim 4.
前記学習済みモデルに、前記不正フラグが付与されたデータに含まれるクラスタから抽出されなかったクラスタからなるテストデータを投入して、取引不正の検出精度の評価指標を算出するテスト処理部をさらに備える、
請求項1乃至5のいずれか一項に記載の情報処理装置。 The model construction unit extracts clusters to which fraud flags are attached at a predetermined ratio from the clusters included in the data to which the fraud flags are assigned, and randomly extracts clusters to which fraud flags are not attached at the predetermined ratio. learn what is extracted in
further comprising a test processing unit for inputting test data consisting of clusters not extracted from the clusters included in the data to which the fraud flag is attached to the trained model, and calculating an evaluation index of transaction fraud detection accuracy. ,
The information processing apparatus according to any one of claims 1 to 5.
前記テスト処理部は、前記複数の第1の評価指標に基づいて、前記所定値を決定する、
請求項6に記載の情報処理装置。 By performing the processing by the clustering processing unit, the feature amount calculation unit, the fraud flag assignment unit, the model construction unit, and the test processing unit a plurality of times while changing the predetermined value, a plurality of Calculate the first evaluation index of
wherein the test processing unit determines the predetermined value based on the plurality of first evaluation indices;
The information processing device according to claim 6 .
前記テスト処理部は、前記複数の第2の評価指標の統計量を前記1つの所定値に対応する前記第2の評価指標として算出する、
請求項6に記載の情報処理装置。 calculating a plurality of second evaluation indices by repeating the processing by the model construction unit and the test processing unit a plurality of times for one of the predetermined values;
wherein the test processing unit calculates statistics of the plurality of second evaluation indices as the second evaluation index corresponding to the one predetermined value;
The information processing device according to claim 6 .
請求項8に記載の情報処理装置。 The statistic of the plurality of second evaluation indicators is an average value, maximum value, minimum value or median value,
The information processing apparatus according to claim 8 .
請求項1乃至9のいずれか一項に記載の情報処理装置。 It includes multiple variables that indicate the values of multiple account items included in each company's financial statements, in which information about each company is represented by a multidimensional vector, information that indicates the attribute information of each company, and information that indicates the business relationships between companies. further comprising an estimation processing unit that reads the input data that is received, inputs the input data to the trained model, and estimates whether the company corresponding to the input data has committed fraud;
The information processing apparatus according to any one of claims 1 to 9.
特徴量算出部が、前記クリスタリング処理後のデータに含まれる各クラスタに属する各ノードの特徴量を算出し、算出した特徴量に基づいて各クラスタの特徴量を算出し、
不正フラグ付与部が、各クラスタに属するノードの前記不正を行ったか否かを示す情報に基づいて、当該クラスタに不正フラグを付与し、
モデル構築部が、前記不正フラグが付与されたデータを学習用データとして、前記特徴量を説明変数、前記不正フラグを目的変数として教師有り学習することで学習済みモデルを取得する、
情報処理方法。 A clustering processing unit obtains multiple variables representing the values of multiple account items included in the financial statements of each company in which the information of each company is represented by a multidimensional vector, attribute information of each company, and whether each company has committed fraud. Read learning data containing information indicating whether or not, and information indicating the business relationship between companies, and perform clustering so that the number of nodes included in one cluster is a predetermined value or less. Perform clustering processing to acquire a network structure composed of corresponding nodes and edges indicating transaction relationships between nodes,
A feature amount calculation unit calculates the feature amount of each node belonging to each cluster included in the data after the crystalling process , calculates the feature amount of each cluster based on the calculated feature amount,
a fraudulent flag assigning unit assigning an fraudulent flag to each cluster based on information indicating whether or not a node belonging to each cluster has committed fraud;
A model construction unit acquires a trained model by performing supervised learning using the data to which the fraud flag is assigned as learning data, the feature amount as an explanatory variable, and the fraud flag as an objective variable,
Information processing methods.
特徴量算出部が、前記クリスタリング処理後のデータに含まれる各クラスタに属する各ノードの特徴量を算出し、算出した特徴量に基づいて各クラスタの特徴量を算出する処理と、
不正フラグ付与部が、各クラスタに属するノードの前記不正を行ったか否かを示す情報に基づいて、当該クラスタに不正フラグを付与する処理と、
モデル構築部が、前記不正フラグが付与されたデータを学習用データとして、前記特徴量を説明変数、前記不正フラグを目的変数として教師有り学習することで学習済みモデルを取得する処理と、をコンピュータに実行させる、
プログラム。 Each company's information is represented by a multidimensional vector whose components are multiple variables that indicate the values of multiple account items included in each company's financial statements, and information that indicates whether each company has committed fraud. , input data including enterprise data including the plurality of multidimensional vectors corresponding to the plurality of enterprises, and information indicating the business relationships of the plurality of enterprises, and a predetermined number of nodes included in one cluster. a clustering process for clustering so as to be equal to or less than the value, and obtaining a network structure composed of nodes corresponding to each cluster and edges indicating transaction relationships between the nodes;
A process in which the feature amount calculation unit calculates the feature amount of each node belonging to each cluster included in the data after the crystalling process , and calculates the feature amount of each cluster based on the calculated feature amount;
a process in which the fraud flag assigning unit assigns an fraud flag to the cluster based on the information indicating whether or not the node belonging to each cluster has committed fraud;
a process in which the model construction unit acquires a trained model by performing supervised learning using the data to which the fraud flag is assigned as learning data, the feature quantity as an explanatory variable, and the fraud flag as an objective variable; to run
program.
多次元ベクトルで各企業の情報が表された各企業の財務諸表に含まれる複数の勘定科目の値を示す複数の変数、各企業の属性情報及び企業間の取引関係を示す情報と、が含まれる入力データを読み込み、前記入力データを前記学習済みモデルに入力して、前記入力データに対応する企業が不正を行ったか否かを推定する推定処理部と、を備える、
情報処理装置。 Multiple variables that indicate the values of multiple account items included in each company's financial statements, in which each company's information is represented by a multidimensional vector, each company's attribute information, and information that indicates whether each company has committed fraud and information indicating business relationships between companies, and perform clustering so that the number of nodes included in one cluster is equal to or less than a predetermined value, and the nodes corresponding to each cluster. A clustering processing unit that performs clustering processing to obtain a network structure composed of edges that indicate business relationships between clustering processing units; a feature amount calculation unit that calculates the feature amount of each cluster based on the feature amount obtained; and a fraud flag that assigns a fraud flag to the cluster based on information indicating whether or not the node belonging to each cluster has committed the fraud. and a model construction unit that acquires a trained model by performing supervised learning on the data to which the fraud flag is assigned, using the feature quantity as an explanatory variable and the fraud flag as an objective variable. a model repository that holds the model acquired by the device;
It includes multiple variables that indicate the values of multiple account items included in each company's financial statements, in which information about each company is represented by a multidimensional vector, information that indicates the attribute information of each company, and information that indicates the business relationships between companies. an estimation processing unit that reads the input data received, inputs the input data to the trained model, and estimates whether the company corresponding to the input data has committed fraud;
Information processing equipment.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021210720A JP7146218B1 (en) | 2021-12-24 | 2021-12-24 | Information processing device, information processing method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021210720A JP7146218B1 (en) | 2021-12-24 | 2021-12-24 | Information processing device, information processing method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7146218B1 true JP7146218B1 (en) | 2022-10-04 |
JP2023095063A JP2023095063A (en) | 2023-07-06 |
Family
ID=83505452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021210720A Active JP7146218B1 (en) | 2021-12-24 | 2021-12-24 | Information processing device, information processing method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7146218B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7360118B1 (en) * | 2023-07-04 | 2023-10-12 | ゼネリックソリューション株式会社 | Examination support device, examination support method, and examination support program |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006252259A (en) | 2005-03-11 | 2006-09-21 | Ntt Data Corp | Data analysis apparatus and method |
-
2021
- 2021-12-24 JP JP2021210720A patent/JP7146218B1/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006252259A (en) | 2005-03-11 | 2006-09-21 | Ntt Data Corp | Data analysis apparatus and method |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7360118B1 (en) * | 2023-07-04 | 2023-10-12 | ゼネリックソリューション株式会社 | Examination support device, examination support method, and examination support program |
Also Published As
Publication number | Publication date |
---|---|
JP2023095063A (en) | 2023-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109558951B (en) | Method and device for detecting fraud account and storage medium thereof | |
US11048729B2 (en) | Cluster evaluation in unsupervised learning of continuous data | |
US8676818B2 (en) | Dynamic storage and retrieval of process graphs representative of business processes and extraction of formal process models therefrom | |
US8619084B2 (en) | Dynamic adaptive process discovery and compliance | |
JP6667865B1 (en) | Accounting information processing apparatus, accounting information processing method, and accounting information processing program | |
Seo et al. | On the value of outlier elimination on software effort estimation research | |
CN104539484A (en) | Method and system for dynamically estimating network connection reliability | |
CN112116184A (en) | Factory risk estimation using historical inspection data | |
US20230342606A1 (en) | Training method and apparatus for graph neural network | |
CN112241805A (en) | Defect prediction using historical inspection data | |
JP6611068B1 (en) | Company information processing apparatus, company event prediction method, and prediction program | |
JP7146218B1 (en) | Information processing device, information processing method and program | |
CN113112186A (en) | Enterprise evaluation method, device and equipment | |
Jain et al. | A data mining solution to predict campus placement | |
CN115271442A (en) | Modeling method and system for evaluating enterprise growth based on natural language | |
CN118657401B (en) | Information technology service capability assessment quantification method and device and electronic equipment | |
WO2022217712A1 (en) | Data mining method and apparatus, and computer device and storage medium | |
US7617172B2 (en) | Using percentile data in business analysis of time series data | |
CN115146890A (en) | Enterprise operation risk warning method and device, computer equipment and storage medium | |
JP7426027B2 (en) | Business classification device, method, program, business evaluation system and credit risk evaluation system | |
CN112329862A (en) | Decision tree-based anti-money laundering method and system | |
Yang et al. | An evidential reasoning rule-based ensemble learning approach for evaluating credit risks with customer heterogeneity | |
CN114757495A (en) | Membership value quantitative evaluation method based on logistic regression | |
CN107402984A (en) | A kind of sorting technique and device based on theme | |
CN112907039A (en) | Page generation method, device and system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220104 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220405 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220603 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220830 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220912 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7146218 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |