JP7143545B1 - プログラム、及び情報処理装置 - Google Patents

プログラム、及び情報処理装置 Download PDF

Info

Publication number
JP7143545B1
JP7143545B1 JP2022096679A JP2022096679A JP7143545B1 JP 7143545 B1 JP7143545 B1 JP 7143545B1 JP 2022096679 A JP2022096679 A JP 2022096679A JP 2022096679 A JP2022096679 A JP 2022096679A JP 7143545 B1 JP7143545 B1 JP 7143545B1
Authority
JP
Japan
Prior art keywords
feature amount
variables
transaction
data
transaction record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022096679A
Other languages
English (en)
Other versions
JP2023183187A (ja
Inventor
俊亮 広瀬
孝志 森
伊織 三浦
青雲 山根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DELOITTE TOUCHE TOHMATSU LLC
Original Assignee
DELOITTE TOUCHE TOHMATSU LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DELOITTE TOUCHE TOHMATSU LLC filed Critical DELOITTE TOUCHE TOHMATSU LLC
Priority to JP2022096679A priority Critical patent/JP7143545B1/ja
Application granted granted Critical
Publication of JP7143545B1 publication Critical patent/JP7143545B1/ja
Publication of JP2023183187A publication Critical patent/JP2023183187A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】教師なし学習により、監査データにおける異常な取引を取引単位で検出するとともに、その異常の原因を提示する。【解決手段】第1算出手段113は、ユーザに指定されたデータに含まれる複数の取引レコードのそれぞれに対し、ユーザに選択されたシナリオが指定する量的変数と質的変数との相関に基づく特徴量を第1特徴量として算出する。第2算出手段114は、複数の取引レコードのそれぞれに対し、ユーザに選択されたシナリオが指定する2つの質的変数の相関に基づく特徴量を第2特徴量として算出する。統合手段115は、設定されたシナリオが示す変数の組合せのそれぞれについて、算出された第1特徴量及び第2特徴量を統合して統合特徴量を算出する。推定手段116は、統合手段115によって第1特徴量及び第2特徴量から算出された統合特徴量に基づいて取引レコードが異常である可能性を推定し、その結果を表示部15により表示する。【選択図】図6

Description

本発明は、監査業務に用いるプログラム、及び情報処理装置に関する。
監査業務では、仕訳帳等の中から異常な取引を検知するとともに、その異常の原因となる変数を特定することが求められる。人がこの作業を行う場合、負担が大きい。そこで、仕訳帳等の中から異常な取引を検知するにあたり、機械学習を利用することが考えられる。
教師あり学習を採用する場合、ラベルが付された相当量の教師データが必要となるが、多くの場合、仕訳帳等の監査データにおいてそれぞれの取引にはラベルが付されていない。一般に、監査データに含まれる取引の数は膨大であり、機械学習に必要となる教師データを作成すべくそれらにラベルを付与する処理を行うことは現実的でない。そこで、教師なし学習により、不正の可能性がある異常な取引を検知する試みが行われている。
ここで、取引を表すデータは、通常、売上額等の比例尺度で表される項目のほか、取引先名、取引対象商品名等の名義尺度、日付等の間隔尺度で表される項目が含まれている。教師なし学習を採用する場合、名義尺度は数値でないのでそのままでは統計量にならない。そこで名義尺度を、例えばONE-HOT表現等の数値化手法を用いて特徴量計算に用いることも考えられる。
特許文献1には、データ点の属性を抽出し、その属性を数値にスケーリングして、k平均クラスタリングアルゴリズムによりデータ点をクラスタ化して、それぞれの外れ値スコアを生成して不正データ点を決定するコンピュータ実装システム及び方法が記載されている。
特許文献2には、コンピュータ実装システムが、局所性鋭敏型ハッシュ、及び局所外れ値因子アルゴリズムを使用して不正データ点を検出する方法が記載されている。この文献において、コンピュータ実装システムは、データ点の属性を抽出して数値にスケーリングし、スケーリングされたその属性を特徴ベクトルに変換し、ランダムベクトルと特徴ベクトルとによって表されるデータ点とのドット積を計算して、局所性鋭敏型ハッシュテーブルを生成する。
特表2021-530013号公報 特表2021-530017号公報
しかし、上述した特許文献1、特許文献2に示すように、名義尺度等の質的変数(カテゴリ変数ともいう)を数値化しても仕訳帳等に記載される取引先等の数は膨大であるから、このような手法を採用することは現実的でない。
また、これらの方法は、複数の名義尺度と比例尺度との相関を考慮してこれらを同時に扱うことができない。そのため、これらの方法では、異常な取引を検知したとしても、どの変数が異常に寄与しているかという原因の推定が困難である。
本発明の目的の一つは、教師なし学習により、販売データ、仕訳伝票、仕訳帳等の監査データにおける異常な取引を取引単位で検出するとともに、その異常の原因を提示することである。
本発明は、一の態様において、コンピュータを、複数の取引レコードを含むデータにおいて着目すべき変数の組合せを設定する設定手段と、各取引レコードに含まれる前記着目すべき変数である量的変数と質的変数との相関に基づく第1特徴量を算出する第1算出手段と、各取引レコードに含まれる前記着目すべき変数である2つの質的変数の相関に基づく第2特徴量を算出する第2算出手段と、前記第1算出手段と前記第2算出手段とを用いて、取引レコードごとに、前記設定手段にて設定された変数の各組合せについてそれぞれ算出された前記第1特徴量及び前記第2特徴量に基づいて、前記取引レコードが異常である可能性を推定する推定手段、として機能させるためのプログラムを提供する。
好ましい態様において、前記推定手段は、設定された前記各組合せについてそれぞれ算出された前記第1特徴量及び前記第2特徴量を、それぞれに決められた係数を用いて統合して統合特徴量を算出し、該統合特徴量に基づいて前記可能性を推定し、前記係数は、前記統合特徴量と全ての前記第1特徴量及び前記第2特徴量とのそれぞれの相関から求まる指標値が決められた基準を満たすように決められることを特徴とする。
好ましい態様において、前記第1算出手段は、取引レコードに含まれる前記量的変数の傾向の類否に応じて、前記データを前記質的変数ごとに複数のグループに分類し、それぞれのグループ内における前記各取引レコードの統計的珍しさを前記第1特徴量として算出することを特徴とする。
好ましい態様において、前記設定手段は、予め決められた複数の前記組合せの中から、ユーザによって選択された組合せを前記着目すべき変数の組合せとして設定することを特徴とする。
好ましい態様において、前記データの種類を取得する取得手段を有し、前記設定手段は、予め決められた複数の前記組合せの中から、前記データの種類に応じた組合せを前記着目すべき変数の組合せとして設定することを特徴とする。
好ましい態様において、前記質的変数は、前記取引レコードが示す取引をした部門の識別情報であることを特徴とする。
好ましい態様において、前記量的変数は、前記取引レコードが示す取引の額であることを特徴とする。
好ましい態様において、前記第1算出手段は、取引レコードに前記質的変数が含まれている条件下における前記量的変数の割合から求まる量を前記第1特徴量として算出することを特徴とする。
好ましい態様において、前記第2算出手段は、前記2つの質的変数のそれぞれの値が共に前記取引レコードに含まれる割合を、該値が前記取引レコードに含まれるそれぞれの割合の積で割ったリフト値を用いて前記第2特徴量を算出することを特徴とする。
本発明は、一の態様において、複数の取引レコードを含むデータにおいて着目すべき変数の組合せを設定する設定手段と、各取引レコードに含まれる前記着目すべき変数である量的変数と質的変数との相関に基づく第1特徴量を算出する第1算出手段と、各取引レコードに含まれる前記着目すべき変数である2つの質的変数の相関に基づく第2特徴量を算出する第2算出手段と、前記第1算出手段と前記第2算出手段とを用いて、取引レコードごとに、前記設定手段にて設定された変数の各組合せについてそれぞれ算出された前記第1特徴量及び前記第2特徴量に基づいて、前記取引レコードが異常である可能性を推定する推定手段と、を有する情報処理装置を提供する。
本発明は、教師なし学習により、販売データ、仕訳伝票、仕訳帳等の監査データにおける異常な取引を取引単位で検出するとともに、その異常の原因を提示することができる。
情報処理装置1の構成の例を示す図。 取引DB121の例を示す図。 取引表1212の例を示す図。 シナリオDB122の例を示す図。 設定DB123の例を示す図。 情報処理装置1の機能的構成の例を示す図。 着目すべき量的変数の全体分布の例を示す図。 着目すべき量的変数のグループごとの分布の例を示す図。 同時発生件数の例を示す図。 リフト値の例を示す図。 取引レコードの異常の可能性を推定する動作の流れの例を示すフロー図。 第1特徴量の算出の動作の流れの例を示すフロー図。 第2特徴量の算出の動作の流れの例を示すフロー図。
<実施形態>
<情報処理装置の構成>
図1は、情報処理装置1の構成の例を示す図である。図1に示す情報処理装置1は、プロセッサ11、メモリ12、通信部13、操作部14、及び表示部15を有する。これらの構成は、例えばバスで、互いに通信可能に接続されている。
プロセッサ11は、メモリ12に記憶されているプログラムを読出して実行することにより情報処理装置1の各部を制御する。プロセッサ11は、例えばCPU(Central Processing Unit)である。
操作部14は、各種の指示をするための操作ボタン、キーボード、タッチパネル、マウス等の操作子を備えており、操作を受付けてその操作内容に応じた信号をプロセッサ11に送る。この操作は、例えば、ボタンに対する押下、タッチパネルに対するジェスチャー等である。
表示部15は、液晶ディスプレイ等の表示画面を有しており、プロセッサ11の制御の下、画像を表示する。表示画面の上には、操作部14の透明のタッチパネルが重ねて配置されてもよい。
通信部13は、有線又は無線により情報処理装置1を外部装置等に通信可能に接続する通信回路である。
メモリ12は、プロセッサ11に読み込まれるオペレーティングシステム、各種のプログラム、データ等を記憶する記憶手段である。メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)を有する。なお、メモリ12は、ソリッドステートドライブ、ハードディスクドライブ等を有してもよい。また、メモリ12は、取引DB121、シナリオDB122、及び設定DB123を記憶する。
<取引DBの構成>
図2は、取引DB121の例を示す図である。取引DB121は、複数の取引を記述した表を、その取引の識別情報ごとに記憶するデータベースである。図2に示す取引DB121は、データIDリスト1211、及び取引表1212を有する。
データIDリスト1211は、取引を記述したデータの識別情報であるデータIDと、そのデータ名、及びそのデータの種類を示す種類IDを対応付けて記憶する表である。データIDリスト1211に列挙されたデータIDには、それぞれ1つずつ取引表1212が対応付けられている。
取引表1212は、複数の取引レコードを含むデータを記憶する表である。図3は、取引表1212の例を示す図である。例えば、図3の(a)に示す取引表1212は、データID「D1」に対応する表であり、その項目には「時刻」、「場所」、「販売者」、「分類」、「商品名」、「単価」、「数量」、「金額」等が含まれている。この表における行は各項目を示す。
そして、取引レコードは、これらの項目の値をそれぞれ有するレコードである。この表における列は取引レコードを示す。取引レコードのそれぞれには、例えば、通し番号等、他の取引レコードと識別するための識別情報が付されている。
項目の値には、量的変数と質的変数とがある。量的変数は、量を示す数値として表現される変数であり、例えば、「時刻」、「金額」等である。量的変数は、間隔尺度、及び比例尺度である。
質的変数は、量を示す数値として表現されない変数であり、例えば、「販売者」、「商品名」等である。質的変数は、名義尺度、及び順序尺度である。
<シナリオDBの構成>
図4は、シナリオDB122の例を示す図である。シナリオDB122は、予め決められたシナリオを記憶するデータベースである。ここでシナリオとは、複数の取引レコードを含むデータにおいて着目すべき変数の組合せと、それらの変数を使用して特徴量を算出する手続とを対応付けて記憶した情報である。このシナリオは、一定の水準の知見、経験を有する監査人が予め編集したものである。
図4に示すシナリオDB122は、「番号」、「シナリオ名」、「特徴量説明文」、及び「使用する変数」の各項目を有する。また、各シナリオには、特徴量説明文の内容に対応する、図示しない特徴量の算出手続が対応付けて記憶されている。
例えば、図4に示すシナリオDB122において番号が2のシナリオは、シナリオ名が「受注日付と売上計上日の差が異常に短い」である。また、このシナリオの特徴量説明文は「品種を条件に入れた、日数差の珍しさを表す値」である。このシナリオでは、取引レコードに含まれる受注日と売上日とを用いてそれらの差を算出し、この差を新たな量的変数として使用する。つまり、シナリオで使用する変数は、取引レコードに含まれる変数そのままであってもよいが、取引レコードに含まれる1以上の変数を用いて生成される変数であってもよい。
また、シナリオにおいて、或る取引レコードの評価に使用する変数は、その取引レコードに含まれる変数のみから生成される変数であってもよいが、その取引レコードと特定の関係にある他の取引レコードに含まれる変数を用いて生成される変数であってもよい。取引レコードの評価に使用する変数は、例えば、同製品、同得意先の前年平均に対する数量比率のように、質的変数が共通する他の取引レコードであって、成立した時期がその取引レコードと一定の条件を満たす期間内にある取引レコードから算出された平均値等の値を用いて生成されてもよい。
<設定DBの構成>
図5は、設定DB123の例を示す図である。設定DB123は、シナリオDB122に記憶されているシナリオの中からユーザが選択したシナリオをデータIDごとに記憶するデータベースである。図5に示す設定DB123は、データIDリスト1231、及びシナリオ番号リスト1232を有する。
データIDリスト1231は、取引DB121に記憶されているデータのうち、監査の対象とされるデータの識別情報であるデータIDを列挙したリストである。データIDリスト1231に記述されたデータIDのそれぞれには、1つずつシナリオ番号リスト1232が対応付けられている。
シナリオ番号リスト1232は、データIDで識別されるデータに対してユーザが操作部14を介して設定したシナリオの番号を列挙したリストである。例えば、図5に示す設定DB123において、ユーザは、データID「D1」のデータに対してシナリオの番号として「2」「4」「7」…を選択したことが示されている。
図5に示す通り、シナリオ番号リスト1232は、重み係数の欄を有してもよい。この重み係数の欄には、対応するシナリオの番号で識別されるシナリオで算出される特徴量ごとに乗じる重み係数が記憶される。なお、1つのシナリオにつき複数の特徴量が生成される場合、重み係数は、それら複数の特徴量のそれぞれに設定されてもよい。
<情報処理装置の機能的構成>
図6は、情報処理装置1の機能的構成の例を示す図である。図6において、情報処理装置1の通信部13は省かれている。
情報処理装置1のプロセッサ11は、メモリ12に記憶されたプログラムを実行することにより、取得手段111、設定手段112、第1算出手段113、第2算出手段114、統合手段115、及び推定手段116として機能する。
取得手段111は、操作部14を介してユーザからデータを指定する操作を受付ける。そして取得手段111は、指定されたそのデータをメモリ12に記憶された取引DB121から取得する。このときプロセッサ11は、シナリオDB122からシナリオの一覧を読み出して表示部15に表示させる。
ユーザは、表示されたシナリオの一覧を見て、その中から指定したデータに使用するシナリオを選択する操作をする。設定手段112は、操作部14を介してユーザからシナリオを選択する操作を受付ける。そして設定手段112は、選択されたシナリオを示す番号等を設定DB123に記憶する。
つまり、この設定手段112は、予め決められたシナリオで指定される変数の複数の組合せの中から、ユーザによって選択された組合せを着目すべき変数の組合せとして設定する設定手段の例である。
これにより、設定DB123には、指定されたデータにおいてシナリオによって指定された、着目すべき変数の組合せが設定される。すなわち、この設定手段112は、複数の取引レコードを含むデータにおいて着目すべき変数の組合せを設定する設定手段の例である。
第1算出手段113は、ユーザに指定されたデータに含まれる複数の取引レコードのそれぞれに対し、設定DB123に記憶されたシナリオが指定する量的変数と質的変数との相関に基づく特徴量を第1特徴量として算出する。
設定されたシナリオは、例えば、着目すべき変数として質的変数と量的変数との組を指定する。この理由は、量的変数そのものの珍しさからデータの異常度を推定するだけではなく、質的変数との相関を考慮してその珍しさを特定し、データの異常度を推定するためである。
図7は、着目すべき量的変数の全体分布の例を示す図である。図7の横軸は設定したシナリオで着目すべき変数として挙げられている量的変数の値である。この横軸は複数に区分されている。図7の縦軸は、対応する区分に属する量的変数の値を有するデータの件数である。図7において一点鎖線が示す値は、上述した量的変数の期待値であり、例えば、(量的変数の値)×(その値を有するデータの件数)/(全データの件数)等で算出される。
ここでデータに含まれる或る取引レコードは、図7に示す矢印の値を有しているとする。この値は、図7において期待値から遠くないから全体としては異常と判断され難い。
図8は、着目すべき量的変数のグループごとの分布の例を示す図である。図8の横軸及び縦軸は図7と共通する。図7に示す量的変数の分布は、シナリオで着目すべき変数として挙げられている質的変数が属するグループごとに(a)(b)(c)に分類される。
例えば、設定されたシナリオが質的変数として取引をした部門を挙げており、量的変数として取引額を挙げているとする。このシナリオに基づいて情報処理装置1は、統計的手法によって、例えば量的変数の傾向の類否に応じて、データを複数のグループに分類する。この統計的手法は、例えば決定木である。
なお、上述した通り、シナリオが質的変数として取引をした部門を挙げている場合、この質的変数は、取引レコードが示す取引をした部門の識別情報である質的変数の例である。また、上述した通り、シナリオが量的変数として取引額を挙げている場合、この量的変数は、取引レコードが示す取引の額である量的変数の例である。
この結果、図8に示す(a)には部門A、部門D、及び部門Eを含むグループ1の取引レコードが、(b)には部門B、部門Fを含むグループ2の取引レコードが、(c)には部門Cを含むグループ3の取引レコードが分類される。
分類された取引レコードで期待値を算出すると、その期待値は、図8にそれぞれ一点鎖線で示す通り、ばらばらになる。ここで、図7に示す矢印の値は、グループ1において期待値から比較的遠く異常と判断されることがある。
第1算出手段113は、質的変数の発生を前提とした量的変数の発生確率pを含む以下の式(1)により、それぞれの取引レコードの異常度を示す異常度スコアを算出する。この式(1)に示す異常度スコアは、上述した発生確率pが小さいほど大きな値を示すように発生確率pの逆数の対数で表される。この異常度スコアは、本発明における第1特徴量である。
Figure 0007143545000002
この第1特徴量は、シナリオが指定する質的変数と量的変数との相関の情報を含んでいる。例えば、上述した例で第1特徴量は、いわゆる条件付き確率pを用いているから、取引レコードが質的変数を含む条件下でその取引レコードに含まれる量的変数の統計的珍しさ(希少性)を示している。
したがって、例えば量的変数が取引額である場合、全体の中では珍しくない取引額であったとしても、その取引を担当した担当者、部門、又はその取引で扱われた製品等の質的変数との組合せが珍しいとき、情報処理装置1は、この取引レコードの異常度スコアを比較的高く算出する。そのため、例えば、「この部門の取引にしては取引額が高すぎる」とか「この製品のわりにこの金額は高すぎる」といった、質的変数と量的変数との組合せの異常が検出される。
また、この場合の第1特徴量は、グループごとに分割してそのグループ内における取引レコードの異常度を評価する。そのため、データ全体にいわゆる多峰性があったとしてもそのために異常度の検出が影響されることが比較的少ない。
つまり、この第1算出手段113は、各取引レコードに含まれる着目すべき変数である量的変数と質的変数との相関に基づく第1特徴量を算出する第1算出手段の例である。
また、この第1算出手段113は、取引レコードに含まれる量的変数の傾向の類否に応じて、データを質的変数ごとに複数のグループに分類し、それぞれのグループ内における各取引レコードの統計的珍しさを第1特徴量として算出する第1算出手段の例である。
また、この第1算出手段113は、取引レコードに質的変数が含まれている条件下における量的変数の割合から求まる量を第1特徴量として算出する第1算出手段の例である。
図6に示す第2算出手段114は、ユーザに指定されたデータに含まれる複数の取引レコードのそれぞれに対し、設定DB123に記憶されたシナリオが指定する2つの質的変数の相関に基づく特徴量を第2特徴量として算出する。
設定されたシナリオは、例えば、着目すべき変数として2つの質的変数の組を指定する。この理由は、2つの質的変数が同時に1つの取引レコードに含まれることの珍しさを特定し、データの異常度を推定するためである。
図9は、同時発生件数の例を示す図である。図9に示す表は、或るデータに含まれる全ての取引レコードを、そのそれぞれに含まれる部門と担当者との組合せで分類し、それぞれの発生件数を計上したものである。例えば、図9から部門Aと担当者αとの組合せは全データ中に8456件も含まれていることがわかる。一方、部門Bと担当者γとの組合せは全データ中に1件しか含まれていないことがわかる。
図10は、リフト値の例を示す図である。図10に示す表は、図9に示す表に対応するそれぞれの取引レコードにおける、部門と担当者との組合せの同時発生確率と、そのリフト値とを示すものである。ここで同時発生確率は、その部門と担当者との組合せの発生件数を全発生件数で割った値である。そして、リフト値は、同時発生確率を、その部門、及び担当者のそれぞれが単独で発生する確率の積で割った値である。このリフト値は、例えば、以下の式(2)によって示される。
Figure 0007143545000003
この式(2)においてX,Yはいずれも質的変数である。そして、A,BはそれぞれX,Yの実現値である。また、p(X=A,Y=B)は、XがAであり、かつ、YがBであるときの確率である。つまり、p(X=A,Y=B)は、着目すべき変数である2つの質的変数のそれぞれの値が共に取引レコードに含まれる割合である。また、p(X=A)、及びp(Y=B)は、それぞれ、XがAである確率、YがBである確率である。したがって、p(X=A)p(Y=B)は、着目すべき変数である2つの質的変数のそれぞれの値が取引レコードに含まれるそれぞれの割合の積である。式(2)の左辺であるLift(X=A,Y=B)は、リフト値である。
式(2)に示す異常度スコアは、上述したリフト値が小さいほど大きな値を示すようにLift(X=A,Y=B)の逆数の対数で表される。或る数値の逆数の対数は、すなわち、その数値の対数のマイナス1倍である。この式(2)に示す異常度スコアは、本発明における第2特徴量である。第2算出手段114は、リフト値から求まる異常度スコアを上述した第2特徴量として算出する。上述したリフト値は、例えば通販サイト等において、顧客に商品を推薦するレコメンデーションに利用される。このレコメンデーションは、或る商品を購入した顧客に対して、その商品を購入した顧客群の購買の傾向を参照し、その商品と一緒に購入される確率の高い商品等を推薦する処理である。レコメンデーションにおいて、商品の組合せのリフト値が高いほど、その組合せの商品は一緒に購入されている確率が高い。
一方、本発明において、このリフト値は、上述した用途と逆の用途に用いられる。すなわち、情報処理装置1は、このリフト値が低いほど、その組合せが統計的に珍しいことを利用して、その組合せが発生している取引レコードが異常である可能性が高いと推定する。
つまり、この第2算出手段114は、各取引レコードに含まれる着目すべき変数である2つの質的変数の相関に基づく第2特徴量を算出する第2算出手段の例である。
また、この第2算出手段114は、着目すべき変数である2つの質的変数のそれぞれの値が共に取引レコードに含まれる割合を、それらの値が取引レコードに含まれるそれぞれの割合の積で割ったリフト値を用いて第2特徴量を算出する第2算出手段の例である。
統合手段115は、設定されたシナリオが示す変数の組合せのそれぞれについて、算出された上述の第1特徴量及び第2特徴量を統合して統合特徴量を算出する。第1特徴量及び第2特徴量は、それぞれ個別に異常を示すことがわかるが、どの取引レコードに注目すべきかを表す参考指標があった方が結果を把握し易い。そこで、情報処理装置1のプロセッサ11は、統合手段115として機能することで、第1特徴量及び第2特徴量を統合した統合特徴量を算出する。統合特徴量は、以下の式(3)により示される。
Figure 0007143545000004
この式(3)において、sは統合特徴量であり、xは第n番目の取引レコードである。したがって、式(3)の左辺であるs(x)は、第n番目の取引レコードについての統合特徴量である。
そして、式(3)においてfはシナリオに基づいて算出された第1特徴量又は第2特徴量(以下、単に「特徴量」ともいう)のそれぞれであり、wはfに乗じる重み係数である。Kは算出された特徴量の総数である。
つまり、式(3)の右辺は、第n番目の取引レコードについてのK種類の特徴量にそれぞれ重み係数を乗じた値の合計を示している。
統合手段115は、第n番目の取引レコードについて得られているK種類の特徴量fを用いて教師なし学習におけるアンサンブル学習を行う。K種類の特徴量、及びそれら特徴量のそれぞれに応じたK種類の重み係数は、いずれも要素数がKのベクトルとして表現される。第n番目の取引レコードのベクトル表現と、これに対応し、K種類の特徴量fを要素とする特徴量ベクトルとは、以下の式(4)で表される。式(4)におけるTは転置を示す。
Figure 0007143545000005
ここでデータに含まれる個々の取引レコードはラベルが付されていない。そのため、ブースティング、バギング等の通常のアンサンブル学習手法は用いることができない。そこで統合手段115は、統合特徴量sと個別の特徴量fとの間の相関係数の二乗の和が最大になるように重み係数wのそれぞれを決める。重み係数wを決める手法は以下の通りである。すなわち、統合手段115は、まず、目的関数Eを以下の式(5)の通り定義する。
Figure 0007143545000006
式(5)において、Cは相関係数を表し、また、Tは転置を示す。この式(5)において、目的関数E(w)は、統合特徴量と個別の特徴量との間の相関係数の二乗の和を示す、重み係数ベクトルwの関数と定められる。この目的関数E(w)は、統合特徴量と全ての第1特徴量及び第2特徴量とのそれぞれの相関から求まる指標値の例である。統合手段115は、この式(5)に基づいて、目的関数E(w)が最大となるように重み係数ベクトルwを決定する。
なお、2つの変数x,yの相関係数は、共分散をそれぞれの標準偏差の積で割った値であり、以下の式(6)で示される。なお、数式において「<」と「>」とで変数を囲む記号は、その変数の期待値又は平均値を表す。
Figure 0007143545000007
また、算出されたK種類の特徴量の分散、及び共分散は、以下の式(7)で示される。式(7)におけるNはデータに含まれる取引レコードの総数である。式(7)において、Fijはi=jのときに分散になり、i≠jのときに共分散になる。
Figure 0007143545000008
ここで、式(5)に示した目的関数E(w)の各部分は、期待値の線形性により以下の式(8)で示される。目的関数E(w)の各部分は、すなわち、個別の特徴量の分散、統合特徴量の分散、及び個別の特徴量と統合特徴量との共分散である。
ここで重み係数のベクトルwは取引レコードの通し番号nに依らず、K種類の特徴量のそれぞれに対応する重み係数wを要素に持つK次元のベクトルである。そしてFは、i行j列の要素をFijとするK次の正方行列である。すなわち、Fは特徴量fの分散共分散行列である。
Figure 0007143545000009
式(8)を式(5)に代入すると、以下の式(9)が得られる。なお、Λは、K次の正方行列であり、そのi行j列の要素はΛijである。そしてδijは、クロネッカーのデルタを表し、i=jのとき1となり、i≠jのとき0になる。
Figure 0007143545000010
すなわち、統合特徴量sに用いられる重み係数ベクトルwを求める問題は、以下の式(10)に示す最大化問題となる。
Figure 0007143545000011
式(10)で示した最大化問題は、以下の式(11)に示す固有値問題と等価である。
Figure 0007143545000012
したがって、統合手段115は、この式(11)を解いて固有値、及び固有ベクトルを得る。そして、統合手段115は、得られた最大の固有値に対応する固有ベクトルを重み係数ベクトルwとして用いて統合特徴量を算出する。なお、ここで算出される重み係数ベクトルwの各要素である重み係数w(k=1,2,…,K)は、統合特徴量と全ての第1特徴量及び第2特徴量とのそれぞれの相関から求まる指標値が決められた基準を満たす、又は超えるように決められる係数の例である。
推定手段116は、統合手段115によって第1特徴量及び第2特徴量から算出された統合特徴量に基づいて取引レコードが異常である可能性を推定する。そして、推定手段116は、推定した結果を表示部15により表示することで上述した可能性をユーザに提示する。
つまり、この推定手段116は、第1算出手段と第2算出手段とを用いて、取引レコードごとに、設定手段にて設定された変数の各組合せについてそれぞれ算出された第1特徴量及び第2特徴量に基づいて、取引レコードが異常である可能性を推定する推定手段
の例である。
なお、この推定手段116は、統合手段115の機能を含んでもよい。この場合、この推定手段116は、設定された変数の各組合せについてそれぞれ算出された第1特徴量及び第2特徴量を、その組合せのそれぞれに決められた係数を用いて統合して統合特徴量を算出し、その統合特徴量に基づいて取引レコードが異常である可能性を推定する推定手段の例である。
<情報処理装置の動作>
<全体の動作>
図11は、取引レコードの異常の可能性を推定する動作の流れの例を示すフロー図である。情報処理装置1のプロセッサ11は、操作部14を介してユーザから監査の対象となるデータを識別するためのデータIDの指定を受付ける。そして、プロセッサ11は、指定されたデータIDで識別されるデータをメモリ12から取得する(ステップS001)。
また、プロセッサ11は、操作部14を介してユーザから上述したデータに適用するシナリオを選択する操作を受付ける。プロセッサ11は、受付けた操作が示すシナリオを設定する(ステップS002)。
監査の対象となるデータが取得され、そのデータに適用されるシナリオが設定されると、プロセッサ11は、データに含まれる取引レコードのそれぞれについて、シナリオに応じた第1特徴量を算出する(ステップS100)。また、プロセッサ11は、これと並行して、データに含まれる取引レコードのそれぞれについて、シナリオに応じた第2特徴量を算出する(ステップS200)。ステップS100、及びステップS200の詳細は後述する。なお、ステップS100、及びステップS200は図11に示すように並列処理によってそれぞれ行われてもよいが、逐次に行われてもよい。
第1特徴量、及び第2特徴量が算出されると、プロセッサ11は、これらに基づいて統合特徴量を算出する(ステップS003)。そして、プロセッサ11は、算出した統合特徴量に基づいて取引レコードの異常の可能性を推定し(ステップS004)、推定結果を提示する(ステップS005)。
<第1特徴量の算出の動作>
図12は、第1特徴量の算出の動作の流れの例を示すフロー図である。第1特徴量の算出の動作は、上述したステップS100の処理である。プロセッサ11は、上述した統計的手法を用いてデータを質的変数ごとにグループに分類する(ステップS101)。
次にプロセッサ11は、シナリオで指定された量的変数のグループ内における平均値を算出し(ステップS102)、条件付き確率を用いて取引レコードのそれぞれの異常度を第1特徴量として算出する(ステップS103)。
<第2特徴量の算出の動作>
図13は、第2特徴量の算出の動作の流れの例を示すフロー図である。第2特徴量の算出の動作は、上述したステップS200の処理である。プロセッサ11は、ユーザが選択したシナリオにより指定される2つの質的変数の組合せの発生件数を集計する(ステップS201)。そしてプロセッサ11は、集計した上述の組合せの発生件数の全件数に対する割合を同時発生確率として算出する(ステップS202)。
また、プロセッサ11は、上述した組合せに含まれる2つの質的変数のそれぞれの発生確率を算出する(ステップS203)。そして、プロセッサ11は、ステップS202で算出した同時発生確率を、ステップS203で算出した2つの質的変数の発生確率の積で除算したリフト値を用いて第2特徴量を算出する(ステップS204)。
以上、説明した動作により、この情報処理装置1は、複数の取引レコードの履歴を含むデータのうち、通常のパターンから大きく外れた履歴を異常、つまり不正の候補とみなしてアラートを上げる。これにより、この情報処理装置1は、例えば、「日本で買い物をした2時間後にブラジルで買い物をしている」等といった不審な履歴をその原因とともに特定することができる。
要するに、この情報処理装置1は、第1特徴量、及び第2特徴量を統合した統合特徴量によってデータに含まれる取引レコードのそれぞれが異常である可能性をシナリオに対応付けて推定する。異常と推定された取引レコードには、その原因となるシナリオが対応付けられており、シナリオには質的変数及び量的変数が指定されている。したがって、情報処理装置1は、教師なし学習により、販売データ、仕訳伝票(仕訳帳)、及び在庫データ等の、監査の対象となる監査データにおける異常な取引(操作)を取引単位で検出するとともに、その異常の原因を提示することができる。
<変形例>
以上が実施形態の説明であるが、この実施形態の内容は以下のように変形し得る。また、以下の変形例は、互いに組合されてもよい。
<1>
上述した実施形態において、情報処理装置1は、CPUで構成されるプロセッサ11を有していたが、情報処理装置1を制御する制御手段は他の構成であってもよい。
すなわち、情報処理装置1は、CPU以外にも、例えばGPU(Graphics Processing Unit)、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)、プログラマブル論理デバイス等、各種のプロセッサ等を、プロセッサ11として有してもよい。
<2>
上述した実施形態におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。
また、プロセッサの各動作の順序は、上述した実施形態において記載した順序のみに限定されるものではなく、適宜変更されてもよい。
<3>
上述した実施形態において、第1特徴量、及び第2特徴量の算出に用いるシナリオはユーザによって選択されていたが、データの種類に応じて設定されてもよい。
例えば、情報処理装置1のプロセッサ11は、ユーザに指定されたデータの種類を示す種類IDを、取引DB121のデータIDリスト1211から取得する。そして、プロセッサ11は、取得した種類IDに予め対応付けられている1以上のシナリオの番号等を設定DB123に設定すればよい。これにより、設定された番号等が示すシナリオによって指定されたデータにおいて着目すべき変数の組合せが特定される。
この場合、この情報処理装置1は、データの種類を取得する取得手段を有し、予め決められた複数の組合せの中から、データの種類に応じた組合せを着目すべき変数の組合せとして設定する情報処理装置の例である。
<4>
上述した実施形態において、情報処理装置1のプロセッサ11によって実行されるプログラムは、コンピュータを、複数の取引レコードを含むデータにおいて着目すべき変数の組合せを設定する設定手段と、各取引レコードに含まれる量的変数と質的変数との相関に基づく第1特徴量を算出する第1算出手段と、各取引レコードに含まれる2つの質的変数の相関に基づく第2特徴量を算出する第2算出手段と、第1算出手段と第2算出手段とを用いて、取引レコードごとに、設定手段にて設定された変数の各組合せについてそれぞれ算出された第1特徴量及び第2特徴量に基づいて、取引レコードが異常である可能性を推定する推定手段、として機能させるためのプログラムの例である。
このプログラムは、磁気テープ及び磁気ディスク等の磁気記録媒体、光ディスク等の光記録媒体、光磁気記録媒体、半導体メモリ等の、コンピュータ装置が読取り可能な記録媒体に記憶された状態で提供し得る。また、このプログラムは、インターネット等の通信回線経由でダウンロードされてもよい。
1…情報処理装置、11…プロセッサ、111…取得手段、112…設定手段、113…第1算出手段、114…第2算出手段、115…統合手段、116…推定手段、12…メモリ、121…取引DB、1211…データIDリスト、1212…取引表、122…シナリオDB、123…設定DB、1231…データIDリスト、1232…シナリオ番号リスト、13…通信部、14…操作部、15…表示部。

Claims (10)

  1. コンピュータを、
    複数の取引レコードを含むデータにおいて着目すべき変数の組合せを設定する設定手段と、
    各取引レコードに含まれる前記着目すべき変数である量的変数と質的変数との相関に基づく第1特徴量を算出する第1算出手段と、
    各取引レコードに含まれる前記着目すべき変数である2つの質的変数の相関に基づく第2特徴量を算出する第2算出手段と、
    前記第1算出手段と前記第2算出手段とを用いて、取引レコードごとに、前記設定手段にて設定された変数の各組合せについてそれぞれ算出された前記第1特徴量及び前記第2特徴量に基づいて、前記取引レコードが異常である可能性を推定する推定手段、
    として機能させるためのプログラム。
  2. 前記推定手段は、設定された前記各組合せについてそれぞれ算出された前記第1特徴量及び前記第2特徴量を、それぞれに決められた係数を用いて統合して統合特徴量を算出し、該統合特徴量に基づいて前記可能性を推定し、
    前記係数は、前記統合特徴量と全ての前記第1特徴量及び前記第2特徴量とのそれぞれの相関から求まる指標値が決められた基準を満たすように決められる
    ことを特徴とする請求項1に記載のプログラム。
  3. 前記第1算出手段は、取引レコードに含まれる前記量的変数の傾向の類否に応じて、前記データを前記質的変数ごとに複数のグループに分類し、それぞれのグループ内における前記各取引レコードの統計的珍しさを前記第1特徴量として算出する
    ことを特徴とする請求項1に記載のプログラム。
  4. 前記設定手段は、予め決められた複数の前記組合せの中から、ユーザによって選択された組合せを前記着目すべき変数の組合せとして設定する
    ことを特徴とする請求項1に記載のプログラム。
  5. 前記データの種類を取得する取得手段を有し、
    前記設定手段は、予め決められた複数の前記組合せの中から、前記データの種類に応じた組合せを前記着目すべき変数の組合せとして設定する
    ことを特徴とする請求項1に記載のプログラム。
  6. 前記質的変数は、前記取引レコードが示す取引をした部門の識別情報である
    ことを特徴とする請求項1に記載のプログラム。
  7. 前記量的変数は、前記取引レコードが示す取引の額である
    ことを特徴とする請求項1に記載のプログラム。
  8. 前記第1算出手段は、取引レコードに前記質的変数が含まれている条件下における前記量的変数の割合から求まる量を前記第1特徴量として算出する
    ことを特徴とする請求項1に記載のプログラム。
  9. 前記第2算出手段は、前記2つの質的変数のそれぞれの値が共に前記取引レコードに含まれる割合を、該値が前記取引レコードに含まれるそれぞれの割合の積で割ったリフト値を用いて前記第2特徴量を算出する
    ことを特徴とする請求項1に記載のプログラム。
  10. 複数の取引レコードを含むデータにおいて着目すべき変数の組合せを設定する設定手段と、
    各取引レコードに含まれる前記着目すべき変数である量的変数と質的変数との相関に基づく第1特徴量を算出する第1算出手段と、
    各取引レコードに含まれる前記着目すべき変数である2つの質的変数の相関に基づく第2特徴量を算出する第2算出手段と、
    前記第1算出手段と前記第2算出手段とを用いて、取引レコードごとに、前記設定手段にて設定された変数の各組合せについてそれぞれ算出された前記第1特徴量及び前記第2特徴量に基づいて、前記取引レコードが異常である可能性を推定する推定手段と、
    を有する情報処理装置。
JP2022096679A 2022-06-15 2022-06-15 プログラム、及び情報処理装置 Active JP7143545B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022096679A JP7143545B1 (ja) 2022-06-15 2022-06-15 プログラム、及び情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022096679A JP7143545B1 (ja) 2022-06-15 2022-06-15 プログラム、及び情報処理装置

Publications (2)

Publication Number Publication Date
JP7143545B1 true JP7143545B1 (ja) 2022-09-28
JP2023183187A JP2023183187A (ja) 2023-12-27

Family

ID=83444684

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022096679A Active JP7143545B1 (ja) 2022-06-15 2022-06-15 プログラム、及び情報処理装置

Country Status (1)

Country Link
JP (1) JP7143545B1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7250992B1 (ja) * 2022-11-17 2023-04-03 株式会社Tkc 仕訳抽出装置、仕訳抽出方法、およびプログラム
JP7360118B1 (ja) 2023-07-04 2023-10-12 ゼネリックソリューション株式会社 審査業務支援装置、審査業務支援方法及び審査業務支援プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190228419A1 (en) 2016-06-02 2019-07-25 Surveillens, Inc. Dynamic self-learning system for automatically creating new rules for detecting organizational fraud
JP2019179531A (ja) 2018-03-30 2019-10-17 株式会社Tkc 内部監査支援装置、内部監査支援方法および内部監査支援プログラム
JP6667865B1 (ja) 2019-11-19 2020-03-18 国立大学法人一橋大学 会計情報処理装置、会計情報処理方法及び会計情報処理プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6345856B1 (ja) * 2017-09-29 2018-06-20 新日本有限責任監査法人 財務分析装置、財務分析方法及び財務分析プログラム
JP7364187B2 (ja) * 2019-09-13 2023-10-18 仰星監査法人 会計監査支援装置、会計監査支援方法及び会計監査支援プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190228419A1 (en) 2016-06-02 2019-07-25 Surveillens, Inc. Dynamic self-learning system for automatically creating new rules for detecting organizational fraud
JP2019179531A (ja) 2018-03-30 2019-10-17 株式会社Tkc 内部監査支援装置、内部監査支援方法および内部監査支援プログラム
JP6667865B1 (ja) 2019-11-19 2020-03-18 国立大学法人一橋大学 会計情報処理装置、会計情報処理方法及び会計情報処理プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宮川大介 他,AIによる不正会計検知・予測の可能性 会計監査の未来を探る,企業会計,株式会社中央経済社,2019年11月01日,Vol.71,No.11,p.89-96

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7250992B1 (ja) * 2022-11-17 2023-04-03 株式会社Tkc 仕訳抽出装置、仕訳抽出方法、およびプログラム
JP7360118B1 (ja) 2023-07-04 2023-10-12 ゼネリックソリューション株式会社 審査業務支援装置、審査業務支援方法及び審査業務支援プログラム

Also Published As

Publication number Publication date
JP2023183187A (ja) 2023-12-27

Similar Documents

Publication Publication Date Title
JP7143545B1 (ja) プログラム、及び情報処理装置
Sevim et al. Developing an early warning system to predict currency crises
Whitrow et al. Transaction aggregation as a strategy for credit card fraud detection
Ryans Estimating consumer preferences for a new durable brand in an established product class
US20200234305A1 (en) Improved detection of fraudulent transactions
US20200043022A1 (en) Artificial intelligence system and method for generating a hierarchical data structure
Miguéis et al. Predicting partial customer churn using Markov for discrimination for modeling first purchase sequences
JP2002189597A (ja) 顧客データ分析方法
JP6916367B1 (ja) 推定システム及び推定方法
Barreda et al. Hospitality bankruptcy in United States of America: A multiple discriminant analysis-logit model comparison
EP3249595A1 (en) Program, product recommendation system, and product recommendation method
US20160335647A1 (en) Systems and methods for using a graphical user interface to predict market success
Anderson Business statistics for dummies
Gangurde et al. Building prediction model using market basket analysis
CN107133862A (zh) 动态产生增强信用评估的详细交易支付经历的方法和系统
Ma et al. Modelling take-up and profitability
US11900475B1 (en) System to automatically categorize
Sairin et al. Determining Macroeconomic Factor of Financial Distress in Malaysia
Beyeler et al. Reduced‐form factor augmented VAR—Exploiting sparsity to include meaningful factors
Backhaus et al. Discriminant analysis
Papatla et al. Leveraging the strengths of choice models and neural networks: A multiproduct comparative analysis
Butler et al. Customer behaviour classification using simulated transactional data
Thomas et al. Impact of demographic and economic variables on financial policy purchase timing decisions
JP2021039735A (ja) 情報処理装置、及びプログラム
Siddiqui et al. Assessing market integration between MINT and developed economies: evidence from dynamic cointegration

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220622

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220906

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220914

R150 Certificate of patent or registration of utility model

Ref document number: 7143545

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150