JP2023183187A - Program, and information processing device - Google Patents
Program, and information processing device Download PDFInfo
- Publication number
- JP2023183187A JP2023183187A JP2022096679A JP2022096679A JP2023183187A JP 2023183187 A JP2023183187 A JP 2023183187A JP 2022096679 A JP2022096679 A JP 2022096679A JP 2022096679 A JP2022096679 A JP 2022096679A JP 2023183187 A JP2023183187 A JP 2023183187A
- Authority
- JP
- Japan
- Prior art keywords
- feature amount
- variables
- transaction
- transaction record
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims description 33
- 238000004364 calculation method Methods 0.000 claims abstract description 48
- 230000002159 abnormal effect Effects 0.000 claims abstract description 23
- 230000005856 abnormality Effects 0.000 abstract description 26
- 238000012550 audit Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 19
- 238000000034 method Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007636 ensemble learning method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Abstract
Description
本発明は、監査業務に用いるプログラム、及び情報処理装置に関する。 The present invention relates to a program and an information processing device used for audit work.
監査業務では、仕訳帳等の中から異常な取引を検知するとともに、その異常の原因となる変数を特定することが求められる。人がこの作業を行う場合、負担が大きい。そこで、仕訳帳等の中から異常な取引を検知するにあたり、機械学習を利用することが考えられる。 Audit work requires detecting abnormal transactions in journals and the like, as well as identifying the variables that cause the abnormalities. It is a heavy burden for humans to perform this work. Therefore, it is possible to use machine learning to detect abnormal transactions from journals and the like.
教師あり学習を採用する場合、ラベルが付された相当量の教師データが必要となるが、多くの場合、仕訳帳等の監査データにおいてそれぞれの取引にはラベルが付されていない。一般に、監査データに含まれる取引の数は膨大であり、機械学習に必要となる教師データを作成すべくそれらにラベルを付与する処理を行うことは現実的でない。そこで、教師なし学習により、不正の可能性がある異常な取引を検知する試みが行われている。 When using supervised learning, a considerable amount of labeled training data is required, but in many cases, each transaction in audit data such as a journal is not labeled. Generally, the number of transactions included in audit data is enormous, and it is not realistic to perform a process of assigning labels to them in order to create training data necessary for machine learning. Therefore, attempts are being made to use unsupervised learning to detect abnormal transactions that may be fraudulent.
ここで、取引を表すデータは、通常、売上額等の比例尺度で表される項目のほか、取引先名、取引対象商品名等の名義尺度、日付等の間隔尺度で表される項目が含まれている。教師なし学習を採用する場合、名義尺度は数値でないのでそのままでは統計量にならない。そこで名義尺度を、例えばONE-HOT表現等の数値化手法を用いて特徴量計算に用いることも考えられる。 Here, data representing transactions usually includes items expressed on a proportional scale such as sales amount, as well as items expressed on a nominal scale such as business partner names and product names to be traded, and items expressed on an interval scale such as dates. It is. When using unsupervised learning, the nominal scale is not a numerical value, so it cannot be used as a statistic. Therefore, it is also conceivable to use the nominal scale in the feature amount calculation using a numerical method such as ONE-HOT expression.
特許文献1には、データ点の属性を抽出し、その属性を数値にスケーリングして、k平均クラスタリングアルゴリズムによりデータ点をクラスタ化して、それぞれの外れ値スコアを生成して不正データ点を決定するコンピュータ実装システム及び方法が記載されている。
特許文献2には、コンピュータ実装システムが、局所性鋭敏型ハッシュ、及び局所外れ値因子アルゴリズムを使用して不正データ点を検出する方法が記載されている。この文献において、コンピュータ実装システムは、データ点の属性を抽出して数値にスケーリングし、スケーリングされたその属性を特徴ベクトルに変換し、ランダムベクトルと特徴ベクトルとによって表されるデータ点とのドット積を計算して、局所性鋭敏型ハッシュテーブルを生成する。 U.S. Pat. No. 5,900,301 describes a method in which a computer-implemented system detects fraudulent data points using locality-sensitive hashing and local outlier factor algorithms. In this document, a computer-implemented system extracts attributes of a data point, scales them numerically, converts the scaled attributes into a feature vector, and dot-products the data points represented by the random vector and the feature vector. , and generate a locality-sensitive hash table.
しかし、上述した特許文献1、特許文献2に示すように、名義尺度等の質的変数(カテゴリ変数ともいう)を数値化しても仕訳帳等に記載される取引先等の数は膨大であるから、このような手法を採用することは現実的でない。
However, as shown in
また、これらの方法は、複数の名義尺度と比例尺度との相関を考慮してこれらを同時に扱うことができない。そのため、これらの方法では、異常な取引を検知したとしても、どの変数が異常に寄与しているかという原因の推定が困難である。 Furthermore, these methods cannot handle multiple nominal scales and proportional scales simultaneously in consideration of their correlation. Therefore, with these methods, even if an abnormal transaction is detected, it is difficult to estimate the cause of which variable contributes to the abnormal transaction.
本発明の目的の一つは、教師なし学習により、販売データ、仕訳伝票、仕訳帳等の監査データにおける異常な取引を取引単位で検出するとともに、その異常の原因を提示することである。 One of the objects of the present invention is to use unsupervised learning to detect abnormal transactions in audit data such as sales data, journal entry slips, journals, etc. on a transaction-by-transaction basis, and to present the cause of the abnormality.
本発明は、一の態様において、コンピュータを、複数の取引レコードを含むデータにおいて着目すべき変数の組合せを設定する設定手段と、各取引レコードに含まれる前記着目すべき変数である量的変数と質的変数との相関に基づく第1特徴量を算出する第1算出手段と、各取引レコードに含まれる前記着目すべき変数である2つの質的変数の相関に基づく第2特徴量を算出する第2算出手段と、前記第1算出手段と前記第2算出手段とを用いて、取引レコードごとに、前記設定手段にて設定された変数の各組合せについてそれぞれ算出された前記第1特徴量及び前記第2特徴量に基づいて、前記取引レコードが異常である可能性を推定する推定手段、として機能させるためのプログラムを提供する。 In one aspect, the present invention provides a setting means for setting a computer to a combination of variables to be noted in data including a plurality of transaction records, and a quantitative variable that is the variable to be noted included in each transaction record. a first calculation means for calculating a first feature amount based on a correlation with a qualitative variable; and a second calculation means for calculating a second feature amount based on a correlation between two qualitative variables that are the variables of interest included in each transaction record. The first feature quantity and the amount calculated for each combination of variables set by the setting means for each transaction record using a second calculation means, the first calculation means, and the second calculation means. A program is provided for functioning as an estimating means for estimating the possibility that the transaction record is abnormal based on the second feature amount.
好ましい態様において、前記推定手段は、設定された前記各組合せについてそれぞれ算出された前記第1特徴量及び前記第2特徴量を、それぞれに決められた係数を用いて統合して統合特徴量を算出し、該統合特徴量に基づいて前記可能性を推定し、前記係数は、前記統合特徴量と全ての前記第1特徴量及び前記第2特徴量とのそれぞれの相関から求まる指標値が決められた基準を満たすように決められることを特徴とする。 In a preferred embodiment, the estimating means calculates an integrated feature amount by integrating the first feature amount and the second feature amount calculated for each of the set combinations using respective determined coefficients. The probability is estimated based on the integrated feature amount, and the coefficient is an index value determined from the correlation between the integrated feature amount and all the first feature amount and the second feature amount. It is characterized by being determined to meet certain criteria.
好ましい態様において、前記第1算出手段は、取引レコードに含まれる前記量的変数の傾向の類否に応じて、前記データを前記質的変数ごとに複数のグループに分類し、それぞれのグループ内における前記各取引レコードの統計的珍しさを前記第1特徴量として算出することを特徴とする。 In a preferred embodiment, the first calculation means classifies the data into a plurality of groups for each of the qualitative variables depending on the similarity of trends in the quantitative variables included in the transaction records, and The method is characterized in that the statistical rarity of each transaction record is calculated as the first feature amount.
好ましい態様において、前記設定手段は、予め決められた複数の前記組合せの中から、ユーザによって選択された組合せを前記着目すべき変数の組合せとして設定することを特徴とする。 In a preferred embodiment, the setting means sets a combination selected by the user from among the plurality of predetermined combinations as the combination of the variables of interest.
好ましい態様において、前記データの種類を取得する取得手段を有し、前記設定手段は、予め決められた複数の前記組合せの中から、前記データの種類に応じた組合せを前記着目すべき変数の組合せとして設定することを特徴とする。 In a preferred embodiment, the setting means includes an acquisition means for acquiring the type of data, and the setting means selects a combination according to the type of data from among the plurality of predetermined combinations of the variables to be focused on. It is characterized by being set as .
好ましい態様において、前記質的変数は、前記取引レコードが示す取引をした部門の識別情報であることを特徴とする。 In a preferred embodiment, the qualitative variable is identification information of the department that conducted the transaction indicated by the transaction record.
好ましい態様において、前記量的変数は、前記取引レコードが示す取引の額であることを特徴とする。 In a preferred embodiment, the quantitative variable is the amount of the transaction indicated by the transaction record.
好ましい態様において、前記第1算出手段は、取引レコードに前記質的変数が含まれている条件下における前記量的変数の割合から求まる量を前記第1特徴量として算出することを特徴とする。 In a preferred embodiment, the first calculation means calculates, as the first feature amount, an amount determined from a ratio of the quantitative variable under conditions in which the qualitative variable is included in the transaction record.
好ましい態様において、前記第2算出手段は、前記2つの質的変数のそれぞれの値が共に前記取引レコードに含まれる割合を、該値が前記取引レコードに含まれるそれぞれの割合の積で割ったリフト値を用いて前記第2特徴量を算出することを特徴とする。 In a preferred embodiment, the second calculation means calculates a lift calculated by dividing the proportion of each value of the two qualitative variables included in the transaction record by the product of the proportion of each value included in the transaction record. The method is characterized in that the second feature amount is calculated using the value.
本発明は、一の態様において、複数の取引レコードを含むデータにおいて着目すべき変数の組合せを設定する設定手段と、各取引レコードに含まれる前記着目すべき変数である量的変数と質的変数との相関に基づく第1特徴量を算出する第1算出手段と、各取引レコードに含まれる前記着目すべき変数である2つの質的変数の相関に基づく第2特徴量を算出する第2算出手段と、前記第1算出手段と前記第2算出手段とを用いて、取引レコードごとに、前記設定手段にて設定された変数の各組合せについてそれぞれ算出された前記第1特徴量及び前記第2特徴量に基づいて、前記取引レコードが異常である可能性を推定する推定手段と、を有する情報処理装置を提供する。 In one aspect, the present invention provides a setting means for setting a combination of variables to be noted in data including a plurality of transaction records, and a quantitative variable and a qualitative variable that are the variables to be noted included in each transaction record. and a second calculation means for calculating a second feature amount based on the correlation between the two qualitative variables that are the variables of interest included in each transaction record. and the first feature quantity and the second feature quantity calculated for each combination of variables set by the setting means for each transaction record using the first calculation means and the second calculation means. An information processing apparatus is provided, comprising: an estimation means for estimating the possibility that the transaction record is abnormal based on a feature amount.
本発明は、教師なし学習により、販売データ、仕訳伝票、仕訳帳等の監査データにおける異常な取引を取引単位で検出するとともに、その異常の原因を提示することができる。 The present invention uses unsupervised learning to detect abnormal transactions in audit data such as sales data, journal entry slips, and journals on a transaction-by-transaction basis, and to present the cause of the abnormality.
<実施形態>
<情報処理装置の構成>
図1は、情報処理装置1の構成の例を示す図である。図1に示す情報処理装置1は、プロセッサ11、メモリ12、通信部13、操作部14、及び表示部15を有する。これらの構成は、例えばバスで、互いに通信可能に接続されている。
<Embodiment>
<Configuration of information processing device>
FIG. 1 is a diagram showing an example of the configuration of an
プロセッサ11は、メモリ12に記憶されているプログラムを読出して実行することにより情報処理装置1の各部を制御する。プロセッサ11は、例えばCPU(Central Processing Unit)である。
The
操作部14は、各種の指示をするための操作ボタン、キーボード、タッチパネル、マウス等の操作子を備えており、操作を受付けてその操作内容に応じた信号をプロセッサ11に送る。この操作は、例えば、ボタンに対する押下、タッチパネルに対するジェスチャー等である。
The
表示部15は、液晶ディスプレイ等の表示画面を有しており、プロセッサ11の制御の下、画像を表示する。表示画面の上には、操作部14の透明のタッチパネルが重ねて配置されてもよい。
The
通信部13は、有線又は無線により情報処理装置1を外部装置等に通信可能に接続する通信回路である。
The
メモリ12は、プロセッサ11に読み込まれるオペレーティングシステム、各種のプログラム、データ等を記憶する記憶手段である。メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)を有する。なお、メモリ12は、ソリッドステートドライブ、ハードディスクドライブ等を有してもよい。また、メモリ12は、取引DB121、シナリオDB122、及び設定DB123を記憶する。
The
<取引DBの構成>
図2は、取引DB121の例を示す図である。取引DB121は、複数の取引を記述した表を、その取引の識別情報ごとに記憶するデータベースである。図2に示す取引DB121は、データIDリスト1211、及び取引表1212を有する。
<Transaction DB structure>
FIG. 2 is a diagram showing an example of the
データIDリスト1211は、取引を記述したデータの識別情報であるデータIDと、そのデータ名、及びそのデータの種類を示す種類IDを対応付けて記憶する表である。データIDリスト1211に列挙されたデータIDには、それぞれ1つずつ取引表1212が対応付けられている。
The
取引表1212は、複数の取引レコードを含むデータを記憶する表である。図3は、取引表1212の例を示す図である。例えば、図3の(a)に示す取引表1212は、データID「D1」に対応する表であり、その項目には「時刻」、「場所」、「販売者」、「分類」、「商品名」、「単価」、「数量」、「金額」等が含まれている。この表における行は各項目を示す。 Transaction table 1212 is a table that stores data including multiple transaction records. FIG. 3 is a diagram showing an example of the transaction table 1212. For example, the transaction table 1212 shown in FIG. It includes "name", "unit price", "quantity", "amount", etc. Each row in this table represents each item.
そして、取引レコードは、これらの項目の値をそれぞれ有するレコードである。この表における列は取引レコードを示す。取引レコードのそれぞれには、例えば、通し番号等、他の取引レコードと識別するための識別情報が付されている。 The transaction record is a record that has values for each of these items. Columns in this table represent transaction records. Each transaction record is attached with identification information such as a serial number for distinguishing it from other transaction records.
項目の値には、量的変数と質的変数とがある。量的変数は、量を示す数値として表現される変数であり、例えば、「時刻」、「金額」等である。量的変数は、間隔尺度、及び比例尺度である。 Item values include quantitative variables and qualitative variables. A quantitative variable is a variable expressed as a numerical value indicating a quantity, such as "time", "amount", etc. Quantitative variables are interval scales and proportional scales.
質的変数は、量を示す数値として表現されない変数であり、例えば、「販売者」、「商品名」等である。質的変数は、名義尺度、及び順序尺度である。 Qualitative variables are variables that are not expressed as numerical values indicating quantities, such as "seller" and "product name." Qualitative variables are nominal and ordinal.
<シナリオDBの構成>
図4は、シナリオDB122の例を示す図である。シナリオDB122は、予め決められたシナリオを記憶するデータベースである。ここでシナリオとは、複数の取引レコードを含むデータにおいて着目すべき変数の組合せと、それらの変数を使用して特徴量を算出する手続とを対応付けて記憶した情報である。このシナリオは、一定の水準の知見、経験を有する監査人が予め編集したものである。
<Scenario DB configuration>
FIG. 4 is a diagram showing an example of the
図4に示すシナリオDB122は、「番号」、「シナリオ名」、「特徴量説明文」、及び「使用する変数」の各項目を有する。また、各シナリオには、特徴量説明文の内容に対応する、図示しない特徴量の算出手続が対応付けて記憶されている。
The
例えば、図4に示すシナリオDB122において番号が2のシナリオは、シナリオ名が「受注日付と売上計上日の差が異常に短い」である。また、このシナリオの特徴量説明文は「品種を条件に入れた、日数差の珍しさを表す値」である。このシナリオでは、取引レコードに含まれる受注日と売上日とを用いてそれらの差を算出し、この差を新たな量的変数として使用する。つまり、シナリオで使用する変数は、取引レコードに含まれる変数そのままであってもよいが、取引レコードに含まれる1以上の変数を用いて生成される変数であってもよい。
For example, the scenario numbered 2 in the
また、シナリオにおいて、或る取引レコードの評価に使用する変数は、その取引レコードに含まれる変数のみから生成される変数であってもよいが、その取引レコードと特定の関係にある他の取引レコードに含まれる変数を用いて生成される変数であってもよい。取引レコードの評価に使用する変数は、例えば、同製品、同得意先の前年平均に対する数量比率のように、質的変数が共通する他の取引レコードであって、成立した時期がその取引レコードと一定の条件を満たす期間内にある取引レコードから算出された平均値等の値を用いて生成されてもよい。 Furthermore, in a scenario, variables used to evaluate a certain transaction record may be generated only from variables included in that transaction record, but other transaction records that have a specific relationship with that transaction record may also be used. It may be a variable that is generated using variables included in . The variables used to evaluate a transaction record are other transaction records that share a qualitative variable, such as the ratio of quantity to the previous year's average for the same product and same customer, and are concluded at the same time as the transaction record. It may be generated using a value such as an average value calculated from transaction records within a period that satisfies certain conditions.
<設定DBの構成>
図5は、設定DB123の例を示す図である。設定DB123は、シナリオDB122に記憶されているシナリオの中からユーザが選択したシナリオをデータIDごとに記憶するデータベースである。図5に示す設定DB123は、データIDリスト1231、及びシナリオ番号リスト1232を有する。
<Configuration of settings DB>
FIG. 5 is a diagram showing an example of the setting
データIDリスト1231は、取引DB121に記憶されているデータのうち、監査の対象とされるデータの識別情報であるデータIDを列挙したリストである。データIDリスト1231に記述されたデータIDのそれぞれには、1つずつシナリオ番号リスト1232が対応付けられている。
The
シナリオ番号リスト1232は、データIDで識別されるデータに対してユーザが操作部14を介して設定したシナリオの番号を列挙したリストである。例えば、図5に示す設定DB123において、ユーザは、データID「D1」のデータに対してシナリオの番号として「2」「4」「7」…を選択したことが示されている。
The
図5に示す通り、シナリオ番号リスト1232は、重み係数の欄を有してもよい。この重み係数の欄には、対応するシナリオの番号で識別されるシナリオで算出される特徴量ごとに乗じる重み係数が記憶される。なお、1つのシナリオにつき複数の特徴量が生成される場合、重み係数は、それら複数の特徴量のそれぞれに設定されてもよい。
As shown in FIG. 5, the
<情報処理装置の機能的構成>
図6は、情報処理装置1の機能的構成の例を示す図である。図6において、情報処理装置1の通信部13は省かれている。
<Functional configuration of information processing device>
FIG. 6 is a diagram showing an example of the functional configuration of the
情報処理装置1のプロセッサ11は、メモリ12に記憶されたプログラムを実行することにより、取得手段111、設定手段112、第1算出手段113、第2算出手段114、統合手段115、及び推定手段116として機能する。
The
取得手段111は、操作部14を介してユーザからデータを指定する操作を受付ける。そして取得手段111は、指定されたそのデータをメモリ12に記憶された取引DB121から取得する。このときプロセッサ11は、シナリオDB122からシナリオの一覧を読み出して表示部15に表示させる。
The
ユーザは、表示されたシナリオの一覧を見て、その中から指定したデータに使用するシナリオを選択する操作をする。設定手段112は、操作部14を介してユーザからシナリオを選択する操作を受付ける。そして設定手段112は、選択されたシナリオを示す番号等を設定DB123に記憶する。
The user views the displayed list of scenarios and selects a scenario to be used for the specified data. The
つまり、この設定手段112は、予め決められたシナリオで指定される変数の複数の組合せの中から、ユーザによって選択された組合せを着目すべき変数の組合せとして設定する設定手段の例である。 In other words, the setting means 112 is an example of a setting means that sets a combination selected by the user as a combination of variables of interest from among a plurality of combinations of variables specified in a predetermined scenario.
これにより、設定DB123には、指定されたデータにおいてシナリオによって指定された、着目すべき変数の組合せが設定される。すなわち、この設定手段112は、複数の取引レコードを含むデータにおいて着目すべき変数の組合せを設定する設定手段の例である。
As a result, the combination of variables of interest specified by the scenario in the specified data is set in the setting
第1算出手段113は、ユーザに指定されたデータに含まれる複数の取引レコードのそれぞれに対し、設定DB123に記憶されたシナリオが指定する量的変数と質的変数との相関に基づく特徴量を第1特徴量として算出する。
The first calculation means 113 calculates feature quantities based on the correlation between quantitative variables and qualitative variables specified by the scenario stored in the
設定されたシナリオは、例えば、着目すべき変数として質的変数と量的変数との組を指定する。この理由は、量的変数そのものの珍しさからデータの異常度を推定するだけではなく、質的変数との相関を考慮してその珍しさを特定し、データの異常度を推定するためである。 The set scenario specifies, for example, a set of qualitative variables and quantitative variables as variables of interest. The reason for this is that the degree of abnormality of the data is not only estimated based on the rarity of the quantitative variable itself, but also the degree of abnormality of the data is estimated by considering the correlation with the qualitative variable to identify its rarity. .
図7は、着目すべき量的変数の全体分布の例を示す図である。図7の横軸は設定したシナリオで着目すべき変数として挙げられている量的変数の値である。この横軸は複数に区分されている。図7の縦軸は、対応する区分に属する量的変数の値を有するデータの件数である。図7において一点鎖線が示す値は、上述した量的変数の期待値であり、例えば、(量的変数の値)×(その値を有するデータの件数)/(全データの件数)等で算出される。 FIG. 7 is a diagram showing an example of the overall distribution of quantitative variables of interest. The horizontal axis in FIG. 7 is the value of the quantitative variable listed as a variable of interest in the set scenario. This horizontal axis is divided into multiple sections. The vertical axis in FIG. 7 is the number of data items having values of quantitative variables belonging to the corresponding category. The value indicated by the dashed-dotted line in Figure 7 is the expected value of the quantitative variable mentioned above, and is calculated by, for example, (value of quantitative variable) x (number of data items having that value) / (number of total data items). be done.
ここでデータに含まれる或る取引レコードは、図7に示す矢印の値を有しているとする。この値は、図7において期待値から遠くないから全体としては異常と判断され難い。 Here, it is assumed that a certain transaction record included in the data has the value indicated by the arrow shown in FIG. Since this value is not far from the expected value in FIG. 7, it is difficult to judge it as abnormal as a whole.
図8は、着目すべき量的変数のグループごとの分布の例を示す図である。図8の横軸及び縦軸は図7と共通する。図7に示す量的変数の分布は、シナリオで着目すべき変数として挙げられている質的変数が属するグループごとに(a)(b)(c)に分類される。 FIG. 8 is a diagram showing an example of the distribution of quantitative variables of interest for each group. The horizontal and vertical axes of FIG. 8 are the same as those of FIG. The distribution of quantitative variables shown in FIG. 7 is classified into (a), (b), and (c) for each group to which qualitative variables listed as variables of interest in the scenario belong.
例えば、設定されたシナリオが質的変数として取引をした部門を挙げており、量的変数として取引額を挙げているとする。このシナリオに基づいて情報処理装置1は、統計的手法によって、例えば量的変数の傾向の類否に応じて、データを複数のグループに分類する。この統計的手法は、例えば決定木である。
For example, assume that the set scenario lists the sector in which the transaction was made as a qualitative variable, and the transaction amount as a quantitative variable. Based on this scenario, the
なお、上述した通り、シナリオが質的変数として取引をした部門を挙げている場合、この質的変数は、取引レコードが示す取引をした部門の識別情報である質的変数の例である。また、上述した通り、シナリオが量的変数として取引額を挙げている場合、この量的変数は、取引レコードが示す取引の額である量的変数の例である。
Note that, as described above, when the scenario lists the department that made the transaction as a qualitative variable, this qualitative variable is an example of a qualitative variable that is identification information of the department that made the transaction indicated by the transaction record. Furthermore, as described above, when the scenario lists the transaction amount as a quantitative variable, this quantitative variable is an example of a quantitative variable that is the transaction amount indicated by the transaction record.
この結果、図8に示す(a)には部門A、部門D、及び部門Eを含むグループ1の取引レコードが、(b)には部門B、部門Fを含むグループ2の取引レコードが、(c)には部門Cを含むグループ3の取引レコードが分類される。
As a result, (a) shown in FIG. 8 shows the transaction record of
分類された取引レコードで期待値を算出すると、その期待値は、図8にそれぞれ一点鎖線で示す通り、ばらばらになる。ここで、図7に示す矢印の値は、グループ1において期待値から比較的遠く異常と判断されることがある。
When expected values are calculated using classified transaction records, the expected values will vary, as shown by the dashed-dotted lines in FIG. Here, the values indicated by the arrows shown in FIG. 7 are relatively far from the expected values in
第1算出手段113は、質的変数の発生を前提とした量的変数の発生確率pを含む以下の式(1)により、それぞれの取引レコードの異常度を示す異常度スコアを算出する。この式(1)に示す異常度スコアは、上述した発生確率pが小さいほど大きな値を示すように発生確率pの逆数の対数で表される。この異常度スコアは、本発明における第1特徴量である。 The first calculation means 113 calculates an abnormality score indicating the abnormality degree of each transaction record using the following equation (1) that includes the probability p of occurrence of a quantitative variable on the premise of the occurrence of a qualitative variable. The abnormality score shown in this formula (1) is expressed by the logarithm of the reciprocal of the occurrence probability p such that the smaller the occurrence probability p described above is, the larger the value is. This abnormality score is the first feature amount in the present invention.
この第1特徴量は、シナリオが指定する質的変数と量的変数との相関の情報を含んでいる。例えば、上述した例で第1特徴量は、いわゆる条件付き確率pを用いているから、取引レコードが質的変数を含む条件下でその取引レコードに含まれる量的変数の統計的珍しさ(希少性)を示している。 This first feature amount includes information on the correlation between the qualitative variables and quantitative variables specified by the scenario. For example, in the above example, the first feature uses the so-called conditional probability p, so under the condition that the transaction record includes a qualitative variable, the statistical rarity (rareness) of the quantitative variable included in the transaction record is gender).
したがって、例えば量的変数が取引額である場合、全体の中では珍しくない取引額であったとしても、その取引を担当した担当者、部門、又はその取引で扱われた製品等の質的変数との組合せが珍しいとき、情報処理装置1は、この取引レコードの異常度スコアを比較的高く算出する。そのため、例えば、「この部門の取引にしては取引額が高すぎる」とか「この製品のわりにこの金額は高すぎる」といった、質的変数と量的変数との組合せの異常が検出される。
Therefore, for example, if the quantitative variable is the transaction amount, even if the transaction amount is not uncommon in the whole, qualitative variables such as the person in charge of the transaction, the department, or the product handled in the transaction When the combination is rare, the
また、この場合の第1特徴量は、グループごとに分割してそのグループ内における取引レコードの異常度を評価する。そのため、データ全体にいわゆる多峰性があったとしてもそのために異常度の検出が影響されることが比較的少ない。 Further, the first feature amount in this case is divided into groups and evaluates the degree of abnormality of transaction records within the group. Therefore, even if there is so-called multimodality in the entire data, detection of the degree of abnormality is relatively unlikely to be affected by it.
つまり、この第1算出手段113は、各取引レコードに含まれる着目すべき変数である量的変数と質的変数との相関に基づく第1特徴量を算出する第1算出手段の例である。 In other words, the first calculation means 113 is an example of a first calculation means that calculates a first feature amount based on the correlation between a quantitative variable and a qualitative variable, which are variables of interest included in each transaction record.
また、この第1算出手段113は、取引レコードに含まれる量的変数の傾向の類否に応じて、データを質的変数ごとに複数のグループに分類し、それぞれのグループ内における各取引レコードの統計的珍しさを第1特徴量として算出する第1算出手段の例である。 In addition, this first calculation means 113 classifies the data into a plurality of groups for each qualitative variable according to the similarity of trends in the quantitative variables included in the transaction records, and classifies the data into a plurality of groups for each qualitative variable. This is an example of a first calculation means that calculates statistical rarity as a first feature quantity.
また、この第1算出手段113は、取引レコードに質的変数が含まれている条件下における量的変数の割合から求まる量を第1特徴量として算出する第1算出手段の例である。 Further, this first calculation means 113 is an example of a first calculation means that calculates, as a first feature amount, an amount determined from the ratio of quantitative variables under conditions in which a qualitative variable is included in a transaction record.
図6に示す第2算出手段114は、ユーザに指定されたデータに含まれる複数の取引レコードのそれぞれに対し、設定DB123に記憶されたシナリオが指定する2つの質的変数の相関に基づく特徴量を第2特徴量として算出する。
The second calculation means 114 shown in FIG. 6 calculates a feature quantity based on the correlation between two qualitative variables specified by the scenario stored in the
設定されたシナリオは、例えば、着目すべき変数として2つの質的変数の組を指定する。この理由は、2つの質的変数が同時に1つの取引レコードに含まれることの珍しさを特定し、データの異常度を推定するためである。 The set scenario specifies, for example, a set of two qualitative variables as variables of interest. The reason for this is to identify the rarity of two qualitative variables being included in one transaction record at the same time and estimate the degree of abnormality of the data.
図9は、同時発生件数の例を示す図である。図9に示す表は、或るデータに含まれる全ての取引レコードを、そのそれぞれに含まれる部門と担当者との組合せで分類し、それぞれの発生件数を計上したものである。例えば、図9から部門Aと担当者αとの組合せは全データ中に8456件も含まれていることがわかる。一方、部門Bと担当者γとの組合せは全データ中に1件しか含まれていないことがわかる。 FIG. 9 is a diagram showing an example of the number of simultaneous occurrences. The table shown in FIG. 9 classifies all transaction records included in certain data by the combination of department and person in charge included in each transaction record, and records the number of occurrences of each transaction record. For example, it can be seen from FIG. 9 that 8456 combinations of department A and person in charge α are included in the total data. On the other hand, it can be seen that only one combination of department B and person in charge γ is included in all the data.
図10は、リフト値の例を示す図である。図10に示す表は、図9に示す表に対応するそれぞれの取引レコードにおける、部門と担当者との組合せの同時発生確率と、そのリフト値とを示すものである。ここで同時発生確率は、その部門と担当者との組合せの発生件数を全発生件数で割った値である。そして、リフト値は、同時発生確率を、その部門、及び担当者のそれぞれが単独で発生する確率の積で割った値である。このリフト値は、例えば、以下の式(2)によって示される。 FIG. 10 is a diagram showing an example of lift values. The table shown in FIG. 10 shows the probability of simultaneous occurrence of the combination of department and person in charge and its lift value in each transaction record corresponding to the table shown in FIG. Here, the probability of simultaneous occurrence is the value obtained by dividing the number of occurrences for the combination of the department and person in charge by the total number of occurrences. The lift value is a value obtained by dividing the simultaneous occurrence probability by the product of the individual probability of occurrence for each department and person in charge. This lift value is expressed, for example, by the following equation (2).
この式(2)においてX,Yはいずれも質的変数である。そして、A,BはそれぞれX,Yの実現値である。また、p(X=A,Y=B)は、XがAであり、かつ、YがBであるときの確率である。つまり、p(X=A,Y=B)は、着目すべき変数である2つの質的変数のそれぞれの値が共に取引レコードに含まれる割合である。また、p(X=A)、及びp(Y=B)は、それぞれ、XがAである確率、YがBである確率である。したがって、p(X=A)p(Y=B)は、着目すべき変数である2つの質的変数のそれぞれの値が取引レコードに含まれるそれぞれの割合の積である。式(2)の左辺であるLift(X=A,Y=B)は、リフト値である。 In this equation (2), both X and Y are qualitative variables. A and B are realized values of X and Y, respectively. Furthermore, p(X=A, Y=B) is the probability when X is A and Y is B. That is, p(X=A, Y=B) is the rate at which each value of two qualitative variables, which are the variables of interest, are both included in the transaction record. Furthermore, p(X=A) and p(Y=B) are the probability that X is A and the probability that Y is B, respectively. Therefore, p(X=A)p(Y=B) is the product of the respective proportions in which the respective values of the two qualitative variables that are the variables of interest are included in the transaction records. Lift (X=A, Y=B), which is the left side of equation (2), is a lift value.
式(2)に示す異常度スコアは、上述したリフト値が小さいほど大きな値を示すようにLift(X=A,Y=B)の逆数の対数で表される。或る数値の逆数の対数は、すなわち、その数値の対数のマイナス1倍である。この式(2)に示す異常度スコアは、本発明における第2特徴量である。第2算出手段114は、リフト値から求まる異常度スコアを上述した第2特徴量として算出する。上述したリフト値は、例えば通販サイト等において、顧客に商品を推薦するレコメンデーションに利用される。このレコメンデーションは、或る商品を購入した顧客に対して、その商品を購入した顧客群の購買の傾向を参照し、その商品と一緒に購入される確率の高い商品等を推薦する処理である。レコメンデーションにおいて、商品の組合せのリフト値が高いほど、その組合せの商品は一緒に購入されている確率が高い。 The abnormality score shown in Equation (2) is expressed by the logarithm of the reciprocal of Lift (X=A, Y=B) so that the smaller the above-mentioned lift value is, the larger the value is. The logarithm of the reciprocal of a certain number is, in other words, the logarithm of that number minus one. The abnormality score shown in equation (2) is the second feature amount in the present invention. The second calculation means 114 calculates the abnormality score obtained from the lift value as the above-mentioned second feature quantity. The above-mentioned lift value is used, for example, in mail-order sites and the like to recommend products to customers. This recommendation is a process that refers to the purchasing trends of a group of customers who have purchased a certain product and recommends products that are likely to be purchased together with that product to a customer who has purchased that product. . In recommendations, the higher the lift value of a product combination, the higher the probability that the products in that combination are purchased together.
一方、本発明において、このリフト値は、上述した用途と逆の用途に用いられる。すなわち、情報処理装置1は、このリフト値が低いほど、その組合せが統計的に珍しいことを利用して、その組合せが発生している取引レコードが異常である可能性が高いと推定する。
On the other hand, in the present invention, this lift value is used for the opposite purpose to that described above. That is, the
つまり、この第2算出手段114は、各取引レコードに含まれる着目すべき変数である2つの質的変数の相関に基づく第2特徴量を算出する第2算出手段の例である。 In other words, this second calculation means 114 is an example of a second calculation means that calculates a second feature amount based on the correlation between two qualitative variables that are variables of interest included in each transaction record.
また、この第2算出手段114は、着目すべき変数である2つの質的変数のそれぞれの値が共に取引レコードに含まれる割合を、それらの値が取引レコードに含まれるそれぞれの割合の積で割ったリフト値を用いて第2特徴量を算出する第2算出手段の例である。 In addition, this second calculation means 114 calculates the proportion of each of the values of two qualitative variables, which are the variables of interest, being included in the transaction record by the product of the respective proportions of those values being included in the transaction record. This is an example of a second calculation means that calculates a second feature amount using the divided lift value.
統合手段115は、設定されたシナリオが示す変数の組合せのそれぞれについて、算出された上述の第1特徴量及び第2特徴量を統合して統合特徴量を算出する。第1特徴量及び第2特徴量は、それぞれ個別に異常を示すことがわかるが、どの取引レコードに注目すべきかを表す参考指標があった方が結果を把握し易い。そこで、情報処理装置1のプロセッサ11は、統合手段115として機能することで、第1特徴量及び第2特徴量を統合した統合特徴量を算出する。統合特徴量は、以下の式(3)により示される。
The integrating means 115 calculates an integrated feature amount by integrating the above-mentioned calculated first feature amount and second feature amount for each combination of variables indicated by the set scenario. Although it can be seen that the first feature amount and the second feature amount each individually indicate an abnormality, it is easier to understand the results if there is a reference index indicating which transaction record to focus on. Therefore, the
この式(3)において、sは統合特徴量であり、xnは第n番目の取引レコードである。したがって、式(3)の左辺であるs(xn)は、第n番目の取引レコードについての統合特徴量である。 In this formula (3), s is an integrated feature amount, and x n is the nth transaction record. Therefore, s(x n ), which is the left side of equation (3), is the integrated feature amount for the n-th transaction record.
そして、式(3)においてfはシナリオに基づいて算出された第1特徴量又は第2特徴量(以下、単に「特徴量」ともいう)のそれぞれであり、wはfに乗じる重み係数である。Kは算出された特徴量の総数である。 In Equation (3), f is the first feature amount or the second feature amount (hereinafter also simply referred to as "feature amount") calculated based on the scenario, and w is the weighting coefficient by which f is multiplied. . K is the total number of calculated feature amounts.
つまり、式(3)の右辺は、第n番目の取引レコードについてのK種類の特徴量にそれぞれ重み係数を乗じた値の合計を示している。 That is, the right side of Equation (3) indicates the sum of values obtained by multiplying K types of feature amounts for the n-th transaction record by respective weighting coefficients.
統合手段115は、第n番目の取引レコードについて得られているK種類の特徴量fを用いて教師なし学習におけるアンサンブル学習を行う。K種類の特徴量、及びそれら特徴量のそれぞれに応じたK種類の重み係数は、いずれも要素数がKのベクトルとして表現される。第n番目の取引レコードのベクトル表現と、これに対応し、K種類の特徴量fを要素とする特徴量ベクトルとは、以下の式(4)で表される。式(4)におけるTは転置を示す。 The integrating means 115 performs ensemble learning in unsupervised learning using K types of feature amounts f obtained for the n-th transaction record. The K types of feature amounts and the K types of weighting coefficients corresponding to each of the feature amounts are each expressed as a vector with K elements. A vector representation of the n-th transaction record and a corresponding feature vector whose elements are K types of feature amounts f are expressed by the following equation (4). T in equation (4) indicates transposition.
ここでデータに含まれる個々の取引レコードはラベルが付されていない。そのため、ブースティング、バギング等の通常のアンサンブル学習手法は用いることができない。そこで統合手段115は、統合特徴量sと個別の特徴量fとの間の相関係数の二乗の和が最大になるように重み係数wのそれぞれを決める。重み係数wを決める手法は以下の通りである。すなわち、統合手段115は、まず、目的関数Eを以下の式(5)の通り定義する。 The individual transaction records contained in the data are not labeled. Therefore, normal ensemble learning methods such as boosting and bagging cannot be used. Therefore, the integrating means 115 determines each of the weighting coefficients w so that the sum of the squares of the correlation coefficients between the integrated feature quantity s and the individual feature quantities f becomes maximum. The method for determining the weighting coefficient w is as follows. That is, the integrating means 115 first defines the objective function E as shown in equation (5) below.
式(5)において、Cは相関係数を表し、また、Tは転置を示す。この式(5)において、目的関数E(w)は、統合特徴量と個別の特徴量との間の相関係数の二乗の和を示す、重み係数ベクトルwの関数と定められる。この目的関数E(w)は、統合特徴量と全ての第1特徴量及び第2特徴量とのそれぞれの相関から求まる指標値の例である。統合手段115は、この式(5)に基づいて、目的関数E(w)が最大となるように重み係数ベクトルwを決定する。 In equation (5), C represents a correlation coefficient, and T represents transposition. In this equation (5), the objective function E(w) is defined as a function of the weighting coefficient vector w, which indicates the sum of squares of the correlation coefficients between the integrated feature amount and the individual feature amounts. This objective function E(w) is an example of an index value found from the respective correlations between the integrated feature and all the first and second features. The integrating means 115 determines the weighting coefficient vector w based on this equation (5) so that the objective function E(w) is maximized.
なお、2つの変数x,yの相関係数は、共分散をそれぞれの標準偏差の積で割った値であり、以下の式(6)で示される。なお、数式において「<」と「>」とで変数を囲む記号は、その変数の期待値又は平均値を表す。 Note that the correlation coefficient between the two variables x and y is a value obtained by dividing the covariance by the product of their respective standard deviations, and is expressed by the following equation (6). Note that in the formula, the symbol surrounding a variable with "<" and ">" represents the expected value or average value of that variable.
また、算出されたK種類の特徴量の分散、及び共分散は、以下の式(7)で示される。式(7)におけるNはデータに含まれる取引レコードの総数である。式(7)において、Fijはi=jのときに分散になり、i≠jのときに共分散になる。 Further, the variance and covariance of the K types of calculated feature amounts are expressed by the following equation (7). N in equation (7) is the total number of transaction records included in the data. In equation (7), F ij becomes a variance when i=j, and becomes a covariance when i≠j.
ここで、式(5)に示した目的関数E(w)の各部分は、期待値の線形性により以下の式(8)で示される。目的関数E(w)の各部分は、すなわち、個別の特徴量の分散、統合特徴量の分散、及び個別の特徴量と統合特徴量との共分散である。 Here, each part of the objective function E(w) shown in equation (5) is expressed by the following equation (8) due to the linearity of the expected value. Each part of the objective function E(w) is the variance of the individual features, the variance of the integrated feature, and the covariance of the individual features and the integrated feature.
ここで重み係数のベクトルwは取引レコードの通し番号nに依らず、K種類の特徴量のそれぞれに対応する重み係数wkを要素に持つK次元のベクトルである。そしてFは、i行j列の要素をFijとするK次の正方行列である。すなわち、Fは特徴量fの分散共分散行列である。 Here, the weighting coefficient vector w is a K-dimensional vector having weighting coefficients w k corresponding to each of the K types of feature quantities as elements, regardless of the serial number n of the transaction record. Further, F is a K-order square matrix in which the element in the i-th row and the j-th column is F ij . That is, F is a variance-covariance matrix of the feature amount f.
式(8)を式(5)に代入すると、以下の式(9)が得られる。なお、Λは、K次の正方行列であり、そのi行j列の要素はΛijである。そしてδijは、クロネッカーのデルタを表し、i=jのとき1となり、i≠jのとき0になる。 By substituting equation (8) into equation (5), the following equation (9) is obtained. Note that Λ is a square matrix of order K, and the element of the i-th row and j-column is Λ ij . And δ ij represents Kronecker's delta, which is 1 when i=j and 0 when i≠j.
すなわち、統合特徴量sに用いられる重み係数ベクトルwを求める問題は、以下の式(10)に示す最大化問題となる。 That is, the problem of finding the weighting coefficient vector w used for the integrated feature amount s is a maximization problem shown in the following equation (10).
式(10)で示した最大化問題は、以下の式(11)に示す固有値問題と等価である。 The maximization problem shown in equation (10) is equivalent to the eigenvalue problem shown in equation (11) below.
したがって、統合手段115は、この式(11)を解いて固有値、及び固有ベクトルを得る。そして、統合手段115は、得られた最大の固有値に対応する固有ベクトルを重み係数ベクトルwとして用いて統合特徴量を算出する。なお、ここで算出される重み係数ベクトルwの各要素である重み係数wk(k=1,2,…,K)は、統合特徴量と全ての第1特徴量及び第2特徴量とのそれぞれの相関から求まる指標値が決められた基準を満たす、又は超えるように決められる係数の例である。 Therefore, the integrating means 115 solves this equation (11) to obtain the eigenvalues and eigenvectors. Then, the integrating means 115 calculates the integrated feature amount using the eigenvector corresponding to the obtained maximum eigenvalue as the weighting coefficient vector w. Note that the weighting coefficient w k (k=1, 2,..., K), which is each element of the weighting coefficient vector w calculated here, is a combination of the integrated feature quantity and all the first feature quantities and second feature quantities. This is an example of a coefficient determined so that the index value obtained from each correlation satisfies or exceeds a determined standard.
推定手段116は、統合手段115によって第1特徴量及び第2特徴量から算出された統合特徴量に基づいて取引レコードが異常である可能性を推定する。そして、推定手段116は、推定した結果を表示部15により表示することで上述した可能性をユーザに提示する。
The estimating means 116 estimates the possibility that the transaction record is abnormal based on the integrated feature amount calculated from the first feature amount and the second feature amount by the integrating
つまり、この推定手段116は、第1算出手段と第2算出手段とを用いて、取引レコードごとに、設定手段にて設定された変数の各組合せについてそれぞれ算出された第1特徴量及び第2特徴量に基づいて、取引レコードが異常である可能性を推定する推定手段
の例である。
In other words, the estimation means 116 uses the first calculation means and the second calculation means to calculate the first feature amount and the second feature amount calculated for each combination of variables set by the setting means for each transaction record. This is an example of an estimation means that estimates the possibility that a transaction record is abnormal based on feature amounts.
なお、この推定手段116は、統合手段115の機能を含んでもよい。この場合、この推定手段116は、設定された変数の各組合せについてそれぞれ算出された第1特徴量及び第2特徴量を、その組合せのそれぞれに決められた係数を用いて統合して統合特徴量を算出し、その統合特徴量に基づいて取引レコードが異常である可能性を推定する推定手段の例である。
Note that this estimating means 116 may include the function of the integrating
<情報処理装置の動作>
<全体の動作>
図11は、取引レコードの異常の可能性を推定する動作の流れの例を示すフロー図である。情報処理装置1のプロセッサ11は、操作部14を介してユーザから監査の対象となるデータを識別するためのデータIDの指定を受付ける。そして、プロセッサ11は、指定されたデータIDで識別されるデータをメモリ12から取得する(ステップS001)。
<Operation of information processing device>
<Overall operation>
FIG. 11 is a flow diagram illustrating an example of the flow of operations for estimating the possibility of an abnormality in a transaction record. The
また、プロセッサ11は、操作部14を介してユーザから上述したデータに適用するシナリオを選択する操作を受付ける。プロセッサ11は、受付けた操作が示すシナリオを設定する(ステップS002)。
Further, the
監査の対象となるデータが取得され、そのデータに適用されるシナリオが設定されると、プロセッサ11は、データに含まれる取引レコードのそれぞれについて、シナリオに応じた第1特徴量を算出する(ステップS100)。また、プロセッサ11は、これと並行して、データに含まれる取引レコードのそれぞれについて、シナリオに応じた第2特徴量を算出する(ステップS200)。ステップS100、及びステップS200の詳細は後述する。なお、ステップS100、及びステップS200は図11に示すように並列処理によってそれぞれ行われてもよいが、逐次に行われてもよい。
When the data to be audited is acquired and a scenario applied to the data is set, the
第1特徴量、及び第2特徴量が算出されると、プロセッサ11は、これらに基づいて統合特徴量を算出する(ステップS003)。そして、プロセッサ11は、算出した統合特徴量に基づいて取引レコードの異常の可能性を推定し(ステップS004)、推定結果を提示する(ステップS005)。
Once the first feature amount and the second feature amount are calculated, the
<第1特徴量の算出の動作>
図12は、第1特徴量の算出の動作の流れの例を示すフロー図である。第1特徴量の算出の動作は、上述したステップS100の処理である。プロセッサ11は、上述した統計的手法を用いてデータを質的変数ごとにグループに分類する(ステップS101)。
<Operation of calculating first feature amount>
FIG. 12 is a flow diagram illustrating an example of the flow of operation for calculating the first feature amount. The operation of calculating the first feature amount is the process of step S100 described above. The
次にプロセッサ11は、シナリオで指定された量的変数のグループ内における平均値を算出し(ステップS102)、条件付き確率を用いて取引レコードのそれぞれの異常度を第1特徴量として算出する(ステップS103)。
Next, the
<第2特徴量の算出の動作>
図13は、第2特徴量の算出の動作の流れの例を示すフロー図である。第2特徴量の算出の動作は、上述したステップS200の処理である。プロセッサ11は、ユーザが選択したシナリオにより指定される2つの質的変数の組合せの発生件数を集計する(ステップS201)。そしてプロセッサ11は、集計した上述の組合せの発生件数の全件数に対する割合を同時発生確率として算出する(ステップS202)。
<Operation of calculating second feature amount>
FIG. 13 is a flow diagram illustrating an example of the flow of operations for calculating the second feature amount. The operation of calculating the second feature amount is the process of step S200 described above. The
また、プロセッサ11は、上述した組合せに含まれる2つの質的変数のそれぞれの発生確率を算出する(ステップS203)。そして、プロセッサ11は、ステップS202で算出した同時発生確率を、ステップS203で算出した2つの質的変数の発生確率の積で除算したリフト値を用いて第2特徴量を算出する(ステップS204)。
Furthermore, the
以上、説明した動作により、この情報処理装置1は、複数の取引レコードの履歴を含むデータのうち、通常のパターンから大きく外れた履歴を異常、つまり不正の候補とみなしてアラートを上げる。これにより、この情報処理装置1は、例えば、「日本で買い物をした2時間後にブラジルで買い物をしている」等といった不審な履歴をその原因とともに特定することができる。
Through the operations described above, the
要するに、この情報処理装置1は、第1特徴量、及び第2特徴量を統合した統合特徴量によってデータに含まれる取引レコードのそれぞれが異常である可能性をシナリオに対応付けて推定する。異常と推定された取引レコードには、その原因となるシナリオが対応付けられており、シナリオには質的変数及び量的変数が指定されている。したがって、情報処理装置1は、教師なし学習により、販売データ、仕訳伝票(仕訳帳)、及び在庫データ等の、監査の対象となる監査データにおける異常な取引(操作)を取引単位で検出するとともに、その異常の原因を提示することができる。
In short, this
<変形例>
以上が実施形態の説明であるが、この実施形態の内容は以下のように変形し得る。また、以下の変形例は、互いに組合されてもよい。
<Modified example>
The above is the description of the embodiment, but the content of this embodiment can be modified as follows. Moreover, the following modifications may be combined with each other.
<1>
上述した実施形態において、情報処理装置1は、CPUで構成されるプロセッサ11を有していたが、情報処理装置1を制御する制御手段は他の構成であってもよい。
<1>
In the embodiment described above, the
すなわち、情報処理装置1は、CPU以外にも、例えばGPU(Graphics Processing Unit)、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)、プログラマブル論理デバイス等、各種のプロセッサ等を、プロセッサ11として有してもよい。
That is, in addition to the CPU, the
<2>
上述した実施形態におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。
<2>
The operations of the processor in the embodiments described above may be performed not only by one processor, but also by the cooperation of a plurality of processors located at physically separate locations.
また、プロセッサの各動作の順序は、上述した実施形態において記載した順序のみに限定されるものではなく、適宜変更されてもよい。 Furthermore, the order of each operation of the processor is not limited to the order described in the embodiments described above, and may be changed as appropriate.
<3>
上述した実施形態において、第1特徴量、及び第2特徴量の算出に用いるシナリオはユーザによって選択されていたが、データの種類に応じて設定されてもよい。
<3>
In the embodiment described above, the scenario used to calculate the first feature amount and the second feature amount is selected by the user, but may be set depending on the type of data.
例えば、情報処理装置1のプロセッサ11は、ユーザに指定されたデータの種類を示す種類IDを、取引DB121のデータIDリスト1211から取得する。そして、プロセッサ11は、取得した種類IDに予め対応付けられている1以上のシナリオの番号等を設定DB123に設定すればよい。これにより、設定された番号等が示すシナリオによって指定されたデータにおいて着目すべき変数の組合せが特定される。
For example, the
この場合、この情報処理装置1は、データの種類を取得する取得手段を有し、予め決められた複数の組合せの中から、データの種類に応じた組合せを着目すべき変数の組合せとして設定する情報処理装置の例である。
In this case, the
<4>
上述した実施形態において、情報処理装置1のプロセッサ11によって実行されるプログラムは、コンピュータを、複数の取引レコードを含むデータにおいて着目すべき変数の組合せを設定する設定手段と、各取引レコードに含まれる量的変数と質的変数との相関に基づく第1特徴量を算出する第1算出手段と、各取引レコードに含まれる2つの質的変数の相関に基づく第2特徴量を算出する第2算出手段と、第1算出手段と第2算出手段とを用いて、取引レコードごとに、設定手段にて設定された変数の各組合せについてそれぞれ算出された第1特徴量及び第2特徴量に基づいて、取引レコードが異常である可能性を推定する推定手段、として機能させるためのプログラムの例である。
<4>
In the embodiment described above, the program executed by the
このプログラムは、磁気テープ及び磁気ディスク等の磁気記録媒体、光ディスク等の光記録媒体、光磁気記録媒体、半導体メモリ等の、コンピュータ装置が読取り可能な記録媒体に記憶された状態で提供し得る。また、このプログラムは、インターネット等の通信回線経由でダウンロードされてもよい。 This program can be provided in a state stored in a computer readable recording medium such as a magnetic recording medium such as a magnetic tape and a magnetic disk, an optical recording medium such as an optical disk, a magneto-optical recording medium, or a semiconductor memory. Further, this program may be downloaded via a communication line such as the Internet.
1…情報処理装置、11…プロセッサ、111…取得手段、112…設定手段、113…第1算出手段、114…第2算出手段、115…統合手段、116…推定手段、12…メモリ、121…取引DB、1211…データIDリスト、1212…取引表、122…シナリオDB、123…設定DB、1231…データIDリスト、1232…シナリオ番号リスト、13…通信部、14…操作部、15…表示部。
DESCRIPTION OF
Claims (10)
複数の取引レコードを含むデータにおいて着目すべき変数の組合せを設定する設定手段と、
各取引レコードに含まれる前記着目すべき変数である量的変数と質的変数との相関に基づく第1特徴量を算出する第1算出手段と、
各取引レコードに含まれる前記着目すべき変数である2つの質的変数の相関に基づく第2特徴量を算出する第2算出手段と、
前記第1算出手段と前記第2算出手段とを用いて、取引レコードごとに、前記設定手段にて設定された変数の各組合せについてそれぞれ算出された前記第1特徴量及び前記第2特徴量に基づいて、前記取引レコードが異常である可能性を推定する推定手段、
として機能させるためのプログラム。 computer,
a setting means for setting a combination of variables to be focused on in data including multiple transaction records;
a first calculation means for calculating a first feature amount based on a correlation between a quantitative variable and a qualitative variable, which are the variables of interest included in each transaction record;
a second calculation means for calculating a second feature amount based on the correlation between two qualitative variables that are the variables of interest included in each transaction record;
Using the first calculation means and the second calculation means, the first feature amount and the second feature amount each calculated for each combination of variables set by the setting means for each transaction record. estimating means for estimating the possibility that the transaction record is abnormal based on;
A program to function as
前記係数は、前記統合特徴量と全ての前記第1特徴量及び前記第2特徴量とのそれぞれの相関から求まる指標値が決められた基準を満たすように決められる
ことを特徴とする請求項1に記載のプログラム。 The estimation means calculates an integrated feature amount by integrating the first feature amount and the second feature amount calculated for each of the set combinations using respective determined coefficients, and Estimating the possibility based on the feature amount,
Claim 1, wherein the coefficient is determined such that an index value obtained from the correlation between the integrated feature amount and all the first feature amounts and the second feature amount satisfies a predetermined criterion. The program described in.
ことを特徴とする請求項1に記載のプログラム。 The first calculation means classifies the data into a plurality of groups for each of the qualitative variables according to the similarity of trends in the quantitative variables included in the transaction records, and classifies each transaction record in each group. The program according to claim 1, wherein a statistical rarity of is calculated as the first feature quantity.
ことを特徴とする請求項1に記載のプログラム。 2. The program according to claim 1, wherein the setting means sets a combination selected by a user from among a plurality of predetermined combinations as the combination of variables to be noted.
前記設定手段は、予め決められた複数の前記組合せの中から、前記データの種類に応じた組合せを前記着目すべき変数の組合せとして設定する
ことを特徴とする請求項1に記載のプログラム。 comprising an acquisition means for acquiring the type of data,
2. The program according to claim 1, wherein the setting means sets a combination according to the type of data as the combination of variables of interest from among a plurality of predetermined combinations.
ことを特徴とする請求項1に記載のプログラム。 The program according to claim 1, wherein the qualitative variable is identification information of a department that made the transaction indicated by the transaction record.
ことを特徴とする請求項1に記載のプログラム。 The program according to claim 1, wherein the quantitative variable is a transaction amount indicated by the transaction record.
ことを特徴とする請求項1に記載のプログラム。 2. The first calculation means calculates, as the first feature amount, an amount determined from a ratio of the quantitative variable under conditions in which the qualitative variable is included in the transaction record. program.
ことを特徴とする請求項1に記載のプログラム。 The second calculation means uses a lift value obtained by dividing the proportion of each value of the two qualitative variables included in the transaction record by the product of the proportion of each value included in the transaction record. The program according to claim 1, further comprising calculating the second feature amount.
各取引レコードに含まれる前記着目すべき変数である量的変数と質的変数との相関に基づく第1特徴量を算出する第1算出手段と、
各取引レコードに含まれる前記着目すべき変数である2つの質的変数の相関に基づく第2特徴量を算出する第2算出手段と、
前記第1算出手段と前記第2算出手段とを用いて、取引レコードごとに、前記設定手段にて設定された変数の各組合せについてそれぞれ算出された前記第1特徴量及び前記第2特徴量に基づいて、前記取引レコードが異常である可能性を推定する推定手段と、
を有する情報処理装置。 a setting means for setting a combination of variables to be focused on in data including multiple transaction records;
a first calculation means for calculating a first feature amount based on a correlation between a quantitative variable and a qualitative variable, which are the variables of interest included in each transaction record;
a second calculation means for calculating a second feature amount based on the correlation between two qualitative variables that are the variables of interest included in each transaction record;
Using the first calculation means and the second calculation means, the first feature amount and the second feature amount each calculated for each combination of variables set by the setting means for each transaction record. estimating means for estimating the possibility that the transaction record is abnormal based on the
An information processing device having:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022096679A JP7143545B1 (en) | 2022-06-15 | 2022-06-15 | Program and information processing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022096679A JP7143545B1 (en) | 2022-06-15 | 2022-06-15 | Program and information processing device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7143545B1 JP7143545B1 (en) | 2022-09-28 |
JP2023183187A true JP2023183187A (en) | 2023-12-27 |
Family
ID=83444684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022096679A Active JP7143545B1 (en) | 2022-06-15 | 2022-06-15 | Program and information processing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7143545B1 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7250992B1 (en) * | 2022-11-17 | 2023-04-03 | 株式会社Tkc | Journal extraction device, journal extraction method, and program |
JP7360118B1 (en) | 2023-07-04 | 2023-10-12 | ゼネリックソリューション株式会社 | Examination support device, examination support method, and examination support program |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019067086A (en) * | 2017-09-29 | 2019-04-25 | 新日本有限責任監査法人 | Financial analysis device, financial analysis method, and financial analysis program |
US20190228419A1 (en) * | 2016-06-02 | 2019-07-25 | Surveillens, Inc. | Dynamic self-learning system for automatically creating new rules for detecting organizational fraud |
JP2019179531A (en) * | 2018-03-30 | 2019-10-17 | 株式会社Tkc | Internal audit support device, internal audit support method, and internal audit support program |
JP6667865B1 (en) * | 2019-11-19 | 2020-03-18 | 国立大学法人一橋大学 | Accounting information processing apparatus, accounting information processing method, and accounting information processing program |
JP2021043840A (en) * | 2019-09-13 | 2021-03-18 | 仰星監査法人 | Accounting audit support device, accounting audit support method and accounting audit support program |
-
2022
- 2022-06-15 JP JP2022096679A patent/JP7143545B1/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190228419A1 (en) * | 2016-06-02 | 2019-07-25 | Surveillens, Inc. | Dynamic self-learning system for automatically creating new rules for detecting organizational fraud |
JP2019067086A (en) * | 2017-09-29 | 2019-04-25 | 新日本有限責任監査法人 | Financial analysis device, financial analysis method, and financial analysis program |
JP2019179531A (en) * | 2018-03-30 | 2019-10-17 | 株式会社Tkc | Internal audit support device, internal audit support method, and internal audit support program |
JP2021043840A (en) * | 2019-09-13 | 2021-03-18 | 仰星監査法人 | Accounting audit support device, accounting audit support method and accounting audit support program |
JP6667865B1 (en) * | 2019-11-19 | 2020-03-18 | 国立大学法人一橋大学 | Accounting information processing apparatus, accounting information processing method, and accounting information processing program |
Non-Patent Citations (1)
Title |
---|
宮川大介 他: "AIによる不正会計検知・予測の可能性 会計監査の未来を探る", 企業会計, vol. 71, no. 11, JPN6021012193, 1 November 2019 (2019-11-01), pages 89 - 96, ISSN: 0004869613 * |
Also Published As
Publication number | Publication date |
---|---|
JP7143545B1 (en) | 2022-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Baesens et al. | Bayesian neural network learning for repeat purchase modelling in direct marketing | |
JP7143545B1 (en) | Program and information processing device | |
Ryans | Estimating consumer preferences for a new durable brand in an established product class | |
US10860634B2 (en) | Artificial intelligence system and method for generating a hierarchical data structure | |
US20200234305A1 (en) | Improved detection of fraudulent transactions | |
JP4218099B2 (en) | Database, customer information search method, and customer information search device | |
US20190220779A1 (en) | Predicting a consumer selection preference based on estimated preference and environmental dependence | |
JP6352798B2 (en) | Marketing measure optimization apparatus, method, and program | |
Bravo et al. | Granting and managing loans for micro-entrepreneurs: New developments and practical experiences | |
Miguéis et al. | Predicting partial customer churn using Markov for discrimination for modeling first purchase sequences | |
JP2022086981A (en) | Estimation system and estimation method | |
CN112990386B (en) | User value clustering method and device, computer equipment and storage medium | |
Gangurde et al. | Building prediction model using market basket analysis | |
CN107133862A (en) | Dynamic produces the method and system of the detailed transaction payment experience of enhancing credit evaluation | |
JPH06119309A (en) | Purchase prospect degree predicting method and customer management system | |
JP6682585B2 (en) | Information processing apparatus and information processing method | |
CN114298818A (en) | Risk assessment method and device for controlling goods loan | |
JP2021039735A (en) | Information processor, and program | |
Thomas et al. | Impact of demographic and economic variables on financial policy purchase timing decisions | |
Siddiqui et al. | Assessing market integration between MINT and developed economies: evidence from dynamic cointegration | |
CN111681086A (en) | Commodity recommendation method and device, computer equipment and readable storage medium | |
Knuth | Fraud prevention in the B2C e-Commerce mail order business: a framework for an economic perspective on data mining | |
WO2023162238A1 (en) | Customer analysis device, customer analysis method, and recording medium | |
Al Hammadi | Identifying Prospective Clients for Long-Term Bank Deposit | |
US20240112225A1 (en) | Predicting the Value of an Asset Using Machine-Learning Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220622 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220622 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220906 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220914 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7143545 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |