JP7143545B1

JP7143545B1 - プログラム、及び情報処理装置

Info

Publication number: JP7143545B1
Application number: JP2022096679A
Authority: JP
Inventors: 俊亮広瀬; 孝志森; 伊織三浦; 青雲山根
Original assignee: DELOITTE TOUCHE TOHMATSU LLC
Current assignee: DELOITTE TOUCHE TOHMATSU LLC
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-09-28
Anticipated expiration: 2042-06-15
Also published as: JP2023183187A

Abstract

【課題】教師なし学習により、監査データにおける異常な取引を取引単位で検出するとともに、その異常の原因を提示する。【解決手段】第１算出手段１１３は、ユーザに指定されたデータに含まれる複数の取引レコードのそれぞれに対し、ユーザに選択されたシナリオが指定する量的変数と質的変数との相関に基づく特徴量を第１特徴量として算出する。第２算出手段１１４は、複数の取引レコードのそれぞれに対し、ユーザに選択されたシナリオが指定する２つの質的変数の相関に基づく特徴量を第２特徴量として算出する。統合手段１１５は、設定されたシナリオが示す変数の組合せのそれぞれについて、算出された第１特徴量及び第２特徴量を統合して統合特徴量を算出する。推定手段１１６は、統合手段１１５によって第１特徴量及び第２特徴量から算出された統合特徴量に基づいて取引レコードが異常である可能性を推定し、その結果を表示部１５により表示する。【選択図】図６

Description

本発明は、監査業務に用いるプログラム、及び情報処理装置に関する。

監査業務では、仕訳帳等の中から異常な取引を検知するとともに、その異常の原因となる変数を特定することが求められる。人がこの作業を行う場合、負担が大きい。そこで、仕訳帳等の中から異常な取引を検知するにあたり、機械学習を利用することが考えられる。

教師あり学習を採用する場合、ラベルが付された相当量の教師データが必要となるが、多くの場合、仕訳帳等の監査データにおいてそれぞれの取引にはラベルが付されていない。一般に、監査データに含まれる取引の数は膨大であり、機械学習に必要となる教師データを作成すべくそれらにラベルを付与する処理を行うことは現実的でない。そこで、教師なし学習により、不正の可能性がある異常な取引を検知する試みが行われている。

ここで、取引を表すデータは、通常、売上額等の比例尺度で表される項目のほか、取引先名、取引対象商品名等の名義尺度、日付等の間隔尺度で表される項目が含まれている。教師なし学習を採用する場合、名義尺度は数値でないのでそのままでは統計量にならない。そこで名義尺度を、例えばＯＮＥ－ＨＯＴ表現等の数値化手法を用いて特徴量計算に用いることも考えられる。

特許文献１には、データ点の属性を抽出し、その属性を数値にスケーリングして、ｋ平均クラスタリングアルゴリズムによりデータ点をクラスタ化して、それぞれの外れ値スコアを生成して不正データ点を決定するコンピュータ実装システム及び方法が記載されている。

特許文献２には、コンピュータ実装システムが、局所性鋭敏型ハッシュ、及び局所外れ値因子アルゴリズムを使用して不正データ点を検出する方法が記載されている。この文献において、コンピュータ実装システムは、データ点の属性を抽出して数値にスケーリングし、スケーリングされたその属性を特徴ベクトルに変換し、ランダムベクトルと特徴ベクトルとによって表されるデータ点とのドット積を計算して、局所性鋭敏型ハッシュテーブルを生成する。

特表２０２１－５３００１３号公報特表２０２１－５３００１７号公報

しかし、上述した特許文献１、特許文献２に示すように、名義尺度等の質的変数（カテゴリ変数ともいう）を数値化しても仕訳帳等に記載される取引先等の数は膨大であるから、このような手法を採用することは現実的でない。

また、これらの方法は、複数の名義尺度と比例尺度との相関を考慮してこれらを同時に扱うことができない。そのため、これらの方法では、異常な取引を検知したとしても、どの変数が異常に寄与しているかという原因の推定が困難である。

本発明の目的の一つは、教師なし学習により、販売データ、仕訳伝票、仕訳帳等の監査データにおける異常な取引を取引単位で検出するとともに、その異常の原因を提示することである。

本発明は、一の態様において、コンピュータを、複数の取引レコードを含むデータにおいて着目すべき変数の組合せを設定する設定手段と、各取引レコードに含まれる前記着目すべき変数である量的変数と質的変数との相関に基づく第１特徴量を算出する第１算出手段と、各取引レコードに含まれる前記着目すべき変数である２つの質的変数の相関に基づく第２特徴量を算出する第２算出手段と、前記第１算出手段と前記第２算出手段とを用いて、取引レコードごとに、前記設定手段にて設定された変数の各組合せについてそれぞれ算出された前記第１特徴量及び前記第２特徴量に基づいて、前記取引レコードが異常である可能性を推定する推定手段、として機能させるためのプログラムを提供する。

好ましい態様において、前記推定手段は、設定された前記各組合せについてそれぞれ算出された前記第１特徴量及び前記第２特徴量を、それぞれに決められた係数を用いて統合して統合特徴量を算出し、該統合特徴量に基づいて前記可能性を推定し、前記係数は、前記統合特徴量と全ての前記第１特徴量及び前記第２特徴量とのそれぞれの相関から求まる指標値が決められた基準を満たすように決められることを特徴とする。

好ましい態様において、前記第１算出手段は、取引レコードに含まれる前記量的変数の傾向の類否に応じて、前記データを前記質的変数ごとに複数のグループに分類し、それぞれのグループ内における前記各取引レコードの統計的珍しさを前記第１特徴量として算出することを特徴とする。

好ましい態様において、前記設定手段は、予め決められた複数の前記組合せの中から、ユーザによって選択された組合せを前記着目すべき変数の組合せとして設定することを特徴とする。

好ましい態様において、前記データの種類を取得する取得手段を有し、前記設定手段は、予め決められた複数の前記組合せの中から、前記データの種類に応じた組合せを前記着目すべき変数の組合せとして設定することを特徴とする。

好ましい態様において、前記質的変数は、前記取引レコードが示す取引をした部門の識別情報であることを特徴とする。

好ましい態様において、前記量的変数は、前記取引レコードが示す取引の額であることを特徴とする。

好ましい態様において、前記第１算出手段は、取引レコードに前記質的変数が含まれている条件下における前記量的変数の割合から求まる量を前記第１特徴量として算出することを特徴とする。

好ましい態様において、前記第２算出手段は、前記２つの質的変数のそれぞれの値が共に前記取引レコードに含まれる割合を、該値が前記取引レコードに含まれるそれぞれの割合の積で割ったリフト値を用いて前記第２特徴量を算出することを特徴とする。

本発明は、一の態様において、複数の取引レコードを含むデータにおいて着目すべき変数の組合せを設定する設定手段と、各取引レコードに含まれる前記着目すべき変数である量的変数と質的変数との相関に基づく第１特徴量を算出する第１算出手段と、各取引レコードに含まれる前記着目すべき変数である２つの質的変数の相関に基づく第２特徴量を算出する第２算出手段と、前記第１算出手段と前記第２算出手段とを用いて、取引レコードごとに、前記設定手段にて設定された変数の各組合せについてそれぞれ算出された前記第１特徴量及び前記第２特徴量に基づいて、前記取引レコードが異常である可能性を推定する推定手段と、を有する情報処理装置を提供する。

本発明は、教師なし学習により、販売データ、仕訳伝票、仕訳帳等の監査データにおける異常な取引を取引単位で検出するとともに、その異常の原因を提示することができる。

情報処理装置１の構成の例を示す図。取引ＤＢ１２１の例を示す図。取引表１２１２の例を示す図。シナリオＤＢ１２２の例を示す図。設定ＤＢ１２３の例を示す図。情報処理装置１の機能的構成の例を示す図。着目すべき量的変数の全体分布の例を示す図。着目すべき量的変数のグループごとの分布の例を示す図。同時発生件数の例を示す図。リフト値の例を示す図。取引レコードの異常の可能性を推定する動作の流れの例を示すフロー図。第１特徴量の算出の動作の流れの例を示すフロー図。第２特徴量の算出の動作の流れの例を示すフロー図。

＜実施形態＞
＜情報処理装置の構成＞
図１は、情報処理装置１の構成の例を示す図である。図１に示す情報処理装置１は、プロセッサ１１、メモリ１２、通信部１３、操作部１４、及び表示部１５を有する。これらの構成は、例えばバスで、互いに通信可能に接続されている。

プロセッサ１１は、メモリ１２に記憶されているプログラムを読出して実行することにより情報処理装置１の各部を制御する。プロセッサ１１は、例えばＣＰＵ（Central Processing Unit）である。

操作部１４は、各種の指示をするための操作ボタン、キーボード、タッチパネル、マウス等の操作子を備えており、操作を受付けてその操作内容に応じた信号をプロセッサ１１に送る。この操作は、例えば、ボタンに対する押下、タッチパネルに対するジェスチャー等である。

表示部１５は、液晶ディスプレイ等の表示画面を有しており、プロセッサ１１の制御の下、画像を表示する。表示画面の上には、操作部１４の透明のタッチパネルが重ねて配置されてもよい。

通信部１３は、有線又は無線により情報処理装置１を外部装置等に通信可能に接続する通信回路である。

メモリ１２は、プロセッサ１１に読み込まれるオペレーティングシステム、各種のプログラム、データ等を記憶する記憶手段である。メモリ１２は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）を有する。なお、メモリ１２は、ソリッドステートドライブ、ハードディスクドライブ等を有してもよい。また、メモリ１２は、取引ＤＢ１２１、シナリオＤＢ１２２、及び設定ＤＢ１２３を記憶する。

＜取引ＤＢの構成＞
図２は、取引ＤＢ１２１の例を示す図である。取引ＤＢ１２１は、複数の取引を記述した表を、その取引の識別情報ごとに記憶するデータベースである。図２に示す取引ＤＢ１２１は、データＩＤリスト１２１１、及び取引表１２１２を有する。

データＩＤリスト１２１１は、取引を記述したデータの識別情報であるデータＩＤと、そのデータ名、及びそのデータの種類を示す種類ＩＤを対応付けて記憶する表である。データＩＤリスト１２１１に列挙されたデータＩＤには、それぞれ１つずつ取引表１２１２が対応付けられている。

取引表１２１２は、複数の取引レコードを含むデータを記憶する表である。図３は、取引表１２１２の例を示す図である。例えば、図３の（ａ）に示す取引表１２１２は、データＩＤ「Ｄ１」に対応する表であり、その項目には「時刻」、「場所」、「販売者」、「分類」、「商品名」、「単価」、「数量」、「金額」等が含まれている。この表における行は各項目を示す。

そして、取引レコードは、これらの項目の値をそれぞれ有するレコードである。この表における列は取引レコードを示す。取引レコードのそれぞれには、例えば、通し番号等、他の取引レコードと識別するための識別情報が付されている。

項目の値には、量的変数と質的変数とがある。量的変数は、量を示す数値として表現される変数であり、例えば、「時刻」、「金額」等である。量的変数は、間隔尺度、及び比例尺度である。

質的変数は、量を示す数値として表現されない変数であり、例えば、「販売者」、「商品名」等である。質的変数は、名義尺度、及び順序尺度である。

＜シナリオＤＢの構成＞
図４は、シナリオＤＢ１２２の例を示す図である。シナリオＤＢ１２２は、予め決められたシナリオを記憶するデータベースである。ここでシナリオとは、複数の取引レコードを含むデータにおいて着目すべき変数の組合せと、それらの変数を使用して特徴量を算出する手続とを対応付けて記憶した情報である。このシナリオは、一定の水準の知見、経験を有する監査人が予め編集したものである。

図４に示すシナリオＤＢ１２２は、「番号」、「シナリオ名」、「特徴量説明文」、及び「使用する変数」の各項目を有する。また、各シナリオには、特徴量説明文の内容に対応する、図示しない特徴量の算出手続が対応付けて記憶されている。

例えば、図４に示すシナリオＤＢ１２２において番号が２のシナリオは、シナリオ名が「受注日付と売上計上日の差が異常に短い」である。また、このシナリオの特徴量説明文は「品種を条件に入れた、日数差の珍しさを表す値」である。このシナリオでは、取引レコードに含まれる受注日と売上日とを用いてそれらの差を算出し、この差を新たな量的変数として使用する。つまり、シナリオで使用する変数は、取引レコードに含まれる変数そのままであってもよいが、取引レコードに含まれる１以上の変数を用いて生成される変数であってもよい。

また、シナリオにおいて、或る取引レコードの評価に使用する変数は、その取引レコードに含まれる変数のみから生成される変数であってもよいが、その取引レコードと特定の関係にある他の取引レコードに含まれる変数を用いて生成される変数であってもよい。取引レコードの評価に使用する変数は、例えば、同製品、同得意先の前年平均に対する数量比率のように、質的変数が共通する他の取引レコードであって、成立した時期がその取引レコードと一定の条件を満たす期間内にある取引レコードから算出された平均値等の値を用いて生成されてもよい。

＜設定ＤＢの構成＞
図５は、設定ＤＢ１２３の例を示す図である。設定ＤＢ１２３は、シナリオＤＢ１２２に記憶されているシナリオの中からユーザが選択したシナリオをデータＩＤごとに記憶するデータベースである。図５に示す設定ＤＢ１２３は、データＩＤリスト１２３１、及びシナリオ番号リスト１２３２を有する。

データＩＤリスト１２３１は、取引ＤＢ１２１に記憶されているデータのうち、監査の対象とされるデータの識別情報であるデータＩＤを列挙したリストである。データＩＤリスト１２３１に記述されたデータＩＤのそれぞれには、１つずつシナリオ番号リスト１２３２が対応付けられている。

シナリオ番号リスト１２３２は、データＩＤで識別されるデータに対してユーザが操作部１４を介して設定したシナリオの番号を列挙したリストである。例えば、図５に示す設定ＤＢ１２３において、ユーザは、データＩＤ「Ｄ１」のデータに対してシナリオの番号として「２」「４」「７」…を選択したことが示されている。

図５に示す通り、シナリオ番号リスト１２３２は、重み係数の欄を有してもよい。この重み係数の欄には、対応するシナリオの番号で識別されるシナリオで算出される特徴量ごとに乗じる重み係数が記憶される。なお、１つのシナリオにつき複数の特徴量が生成される場合、重み係数は、それら複数の特徴量のそれぞれに設定されてもよい。

＜情報処理装置の機能的構成＞
図６は、情報処理装置１の機能的構成の例を示す図である。図６において、情報処理装置１の通信部１３は省かれている。

情報処理装置１のプロセッサ１１は、メモリ１２に記憶されたプログラムを実行することにより、取得手段１１１、設定手段１１２、第１算出手段１１３、第２算出手段１１４、統合手段１１５、及び推定手段１１６として機能する。

取得手段１１１は、操作部１４を介してユーザからデータを指定する操作を受付ける。そして取得手段１１１は、指定されたそのデータをメモリ１２に記憶された取引ＤＢ１２１から取得する。このときプロセッサ１１は、シナリオＤＢ１２２からシナリオの一覧を読み出して表示部１５に表示させる。

ユーザは、表示されたシナリオの一覧を見て、その中から指定したデータに使用するシナリオを選択する操作をする。設定手段１１２は、操作部１４を介してユーザからシナリオを選択する操作を受付ける。そして設定手段１１２は、選択されたシナリオを示す番号等を設定ＤＢ１２３に記憶する。

つまり、この設定手段１１２は、予め決められたシナリオで指定される変数の複数の組合せの中から、ユーザによって選択された組合せを着目すべき変数の組合せとして設定する設定手段の例である。

これにより、設定ＤＢ１２３には、指定されたデータにおいてシナリオによって指定された、着目すべき変数の組合せが設定される。すなわち、この設定手段１１２は、複数の取引レコードを含むデータにおいて着目すべき変数の組合せを設定する設定手段の例である。

第１算出手段１１３は、ユーザに指定されたデータに含まれる複数の取引レコードのそれぞれに対し、設定ＤＢ１２３に記憶されたシナリオが指定する量的変数と質的変数との相関に基づく特徴量を第１特徴量として算出する。

設定されたシナリオは、例えば、着目すべき変数として質的変数と量的変数との組を指定する。この理由は、量的変数そのものの珍しさからデータの異常度を推定するだけではなく、質的変数との相関を考慮してその珍しさを特定し、データの異常度を推定するためである。

図７は、着目すべき量的変数の全体分布の例を示す図である。図７の横軸は設定したシナリオで着目すべき変数として挙げられている量的変数の値である。この横軸は複数に区分されている。図７の縦軸は、対応する区分に属する量的変数の値を有するデータの件数である。図７において一点鎖線が示す値は、上述した量的変数の期待値であり、例えば、（量的変数の値）×（その値を有するデータの件数）／（全データの件数）等で算出される。

ここでデータに含まれる或る取引レコードは、図７に示す矢印の値を有しているとする。この値は、図７において期待値から遠くないから全体としては異常と判断され難い。

図８は、着目すべき量的変数のグループごとの分布の例を示す図である。図８の横軸及び縦軸は図７と共通する。図７に示す量的変数の分布は、シナリオで着目すべき変数として挙げられている質的変数が属するグループごとに（ａ）（ｂ）（ｃ）に分類される。

例えば、設定されたシナリオが質的変数として取引をした部門を挙げており、量的変数として取引額を挙げているとする。このシナリオに基づいて情報処理装置１は、統計的手法によって、例えば量的変数の傾向の類否に応じて、データを複数のグループに分類する。この統計的手法は、例えば決定木である。

なお、上述した通り、シナリオが質的変数として取引をした部門を挙げている場合、この質的変数は、取引レコードが示す取引をした部門の識別情報である質的変数の例である。また、上述した通り、シナリオが量的変数として取引額を挙げている場合、この量的変数は、取引レコードが示す取引の額である量的変数の例である。

この結果、図８に示す（ａ）には部門Ａ、部門Ｄ、及び部門Ｅを含むグループ１の取引レコードが、（ｂ）には部門Ｂ、部門Ｆを含むグループ２の取引レコードが、（ｃ）には部門Ｃを含むグループ３の取引レコードが分類される。

分類された取引レコードで期待値を算出すると、その期待値は、図８にそれぞれ一点鎖線で示す通り、ばらばらになる。ここで、図７に示す矢印の値は、グループ１において期待値から比較的遠く異常と判断されることがある。

第１算出手段１１３は、質的変数の発生を前提とした量的変数の発生確率ｐを含む以下の式（１）により、それぞれの取引レコードの異常度を示す異常度スコアを算出する。この式（１）に示す異常度スコアは、上述した発生確率ｐが小さいほど大きな値を示すように発生確率ｐの逆数の対数で表される。この異常度スコアは、本発明における第１特徴量である。

この第１特徴量は、シナリオが指定する質的変数と量的変数との相関の情報を含んでいる。例えば、上述した例で第１特徴量は、いわゆる条件付き確率ｐを用いているから、取引レコードが質的変数を含む条件下でその取引レコードに含まれる量的変数の統計的珍しさ（希少性）を示している。

したがって、例えば量的変数が取引額である場合、全体の中では珍しくない取引額であったとしても、その取引を担当した担当者、部門、又はその取引で扱われた製品等の質的変数との組合せが珍しいとき、情報処理装置１は、この取引レコードの異常度スコアを比較的高く算出する。そのため、例えば、「この部門の取引にしては取引額が高すぎる」とか「この製品のわりにこの金額は高すぎる」といった、質的変数と量的変数との組合せの異常が検出される。

また、この場合の第１特徴量は、グループごとに分割してそのグループ内における取引レコードの異常度を評価する。そのため、データ全体にいわゆる多峰性があったとしてもそのために異常度の検出が影響されることが比較的少ない。

つまり、この第１算出手段１１３は、各取引レコードに含まれる着目すべき変数である量的変数と質的変数との相関に基づく第１特徴量を算出する第１算出手段の例である。

また、この第１算出手段１１３は、取引レコードに含まれる量的変数の傾向の類否に応じて、データを質的変数ごとに複数のグループに分類し、それぞれのグループ内における各取引レコードの統計的珍しさを第１特徴量として算出する第１算出手段の例である。

また、この第１算出手段１１３は、取引レコードに質的変数が含まれている条件下における量的変数の割合から求まる量を第１特徴量として算出する第１算出手段の例である。

図６に示す第２算出手段１１４は、ユーザに指定されたデータに含まれる複数の取引レコードのそれぞれに対し、設定ＤＢ１２３に記憶されたシナリオが指定する２つの質的変数の相関に基づく特徴量を第２特徴量として算出する。

設定されたシナリオは、例えば、着目すべき変数として２つの質的変数の組を指定する。この理由は、２つの質的変数が同時に１つの取引レコードに含まれることの珍しさを特定し、データの異常度を推定するためである。

図９は、同時発生件数の例を示す図である。図９に示す表は、或るデータに含まれる全ての取引レコードを、そのそれぞれに含まれる部門と担当者との組合せで分類し、それぞれの発生件数を計上したものである。例えば、図９から部門Ａと担当者αとの組合せは全データ中に８４５６件も含まれていることがわかる。一方、部門Ｂと担当者γとの組合せは全データ中に１件しか含まれていないことがわかる。

図１０は、リフト値の例を示す図である。図１０に示す表は、図９に示す表に対応するそれぞれの取引レコードにおける、部門と担当者との組合せの同時発生確率と、そのリフト値とを示すものである。ここで同時発生確率は、その部門と担当者との組合せの発生件数を全発生件数で割った値である。そして、リフト値は、同時発生確率を、その部門、及び担当者のそれぞれが単独で発生する確率の積で割った値である。このリフト値は、例えば、以下の式（２）によって示される。

この式（２）においてＸ，Ｙはいずれも質的変数である。そして、Ａ，ＢはそれぞれＸ，Ｙの実現値である。また、ｐ（Ｘ＝Ａ，Ｙ＝Ｂ）は、ＸがＡであり、かつ、ＹがＢであるときの確率である。つまり、ｐ（Ｘ＝Ａ，Ｙ＝Ｂ）は、着目すべき変数である２つの質的変数のそれぞれの値が共に取引レコードに含まれる割合である。また、ｐ（Ｘ＝Ａ）、及びｐ（Ｙ＝Ｂ）は、それぞれ、ＸがＡである確率、ＹがＢである確率である。したがって、ｐ（Ｘ＝Ａ）ｐ（Ｙ＝Ｂ）は、着目すべき変数である２つの質的変数のそれぞれの値が取引レコードに含まれるそれぞれの割合の積である。式（２）の左辺であるＬｉｆｔ（Ｘ＝Ａ，Ｙ＝Ｂ）は、リフト値である。

式（２）に示す異常度スコアは、上述したリフト値が小さいほど大きな値を示すようにＬｉｆｔ（Ｘ＝Ａ，Ｙ＝Ｂ）の逆数の対数で表される。或る数値の逆数の対数は、すなわち、その数値の対数のマイナス１倍である。この式（２）に示す異常度スコアは、本発明における第２特徴量である。第２算出手段１１４は、リフト値から求まる異常度スコアを上述した第２特徴量として算出する。上述したリフト値は、例えば通販サイト等において、顧客に商品を推薦するレコメンデーションに利用される。このレコメンデーションは、或る商品を購入した顧客に対して、その商品を購入した顧客群の購買の傾向を参照し、その商品と一緒に購入される確率の高い商品等を推薦する処理である。レコメンデーションにおいて、商品の組合せのリフト値が高いほど、その組合せの商品は一緒に購入されている確率が高い。

一方、本発明において、このリフト値は、上述した用途と逆の用途に用いられる。すなわち、情報処理装置１は、このリフト値が低いほど、その組合せが統計的に珍しいことを利用して、その組合せが発生している取引レコードが異常である可能性が高いと推定する。

つまり、この第２算出手段１１４は、各取引レコードに含まれる着目すべき変数である２つの質的変数の相関に基づく第２特徴量を算出する第２算出手段の例である。

また、この第２算出手段１１４は、着目すべき変数である２つの質的変数のそれぞれの値が共に取引レコードに含まれる割合を、それらの値が取引レコードに含まれるそれぞれの割合の積で割ったリフト値を用いて第２特徴量を算出する第２算出手段の例である。

統合手段１１５は、設定されたシナリオが示す変数の組合せのそれぞれについて、算出された上述の第１特徴量及び第２特徴量を統合して統合特徴量を算出する。第１特徴量及び第２特徴量は、それぞれ個別に異常を示すことがわかるが、どの取引レコードに注目すべきかを表す参考指標があった方が結果を把握し易い。そこで、情報処理装置１のプロセッサ１１は、統合手段１１５として機能することで、第１特徴量及び第２特徴量を統合した統合特徴量を算出する。統合特徴量は、以下の式（３）により示される。

この式（３）において、ｓは統合特徴量であり、ｘ_ｎは第ｎ番目の取引レコードである。したがって、式（３）の左辺であるｓ（ｘ_ｎ）は、第ｎ番目の取引レコードについての統合特徴量である。

そして、式（３）においてｆはシナリオに基づいて算出された第１特徴量又は第２特徴量（以下、単に「特徴量」ともいう）のそれぞれであり、ｗはｆに乗じる重み係数である。Ｋは算出された特徴量の総数である。

つまり、式（３）の右辺は、第ｎ番目の取引レコードについてのＫ種類の特徴量にそれぞれ重み係数を乗じた値の合計を示している。

統合手段１１５は、第ｎ番目の取引レコードについて得られているＫ種類の特徴量ｆを用いて教師なし学習におけるアンサンブル学習を行う。Ｋ種類の特徴量、及びそれら特徴量のそれぞれに応じたＫ種類の重み係数は、いずれも要素数がＫのベクトルとして表現される。第ｎ番目の取引レコードのベクトル表現と、これに対応し、Ｋ種類の特徴量ｆを要素とする特徴量ベクトルとは、以下の式（４）で表される。式（４）におけるＴは転置を示す。

ここでデータに含まれる個々の取引レコードはラベルが付されていない。そのため、ブースティング、バギング等の通常のアンサンブル学習手法は用いることができない。そこで統合手段１１５は、統合特徴量ｓと個別の特徴量ｆとの間の相関係数の二乗の和が最大になるように重み係数ｗのそれぞれを決める。重み係数ｗを決める手法は以下の通りである。すなわち、統合手段１１５は、まず、目的関数Ｅを以下の式（５）の通り定義する。

式（５）において、Ｃは相関係数を表し、また、Ｔは転置を示す。この式（５）において、目的関数Ｅ（ｗ）は、統合特徴量と個別の特徴量との間の相関係数の二乗の和を示す、重み係数ベクトルｗの関数と定められる。この目的関数Ｅ（ｗ）は、統合特徴量と全ての第１特徴量及び第２特徴量とのそれぞれの相関から求まる指標値の例である。統合手段１１５は、この式（５）に基づいて、目的関数Ｅ（ｗ）が最大となるように重み係数ベクトルｗを決定する。

なお、２つの変数ｘ，ｙの相関係数は、共分散をそれぞれの標準偏差の積で割った値であり、以下の式（６）で示される。なお、数式において「＜」と「＞」とで変数を囲む記号は、その変数の期待値又は平均値を表す。

また、算出されたＫ種類の特徴量の分散、及び共分散は、以下の式（７）で示される。式（７）におけるＮはデータに含まれる取引レコードの総数である。式（７）において、Ｆ_ｉｊはｉ＝ｊのときに分散になり、ｉ≠ｊのときに共分散になる。

ここで、式（５）に示した目的関数Ｅ（ｗ）の各部分は、期待値の線形性により以下の式（８）で示される。目的関数Ｅ（ｗ）の各部分は、すなわち、個別の特徴量の分散、統合特徴量の分散、及び個別の特徴量と統合特徴量との共分散である。

ここで重み係数のベクトルｗは取引レコードの通し番号ｎに依らず、Ｋ種類の特徴量のそれぞれに対応する重み係数ｗ_ｋを要素に持つＫ次元のベクトルである。そしてＦは、ｉ行ｊ列の要素をＦ_ｉｊとするＫ次の正方行列である。すなわち、Ｆは特徴量ｆの分散共分散行列である。

式（８）を式（５）に代入すると、以下の式（９）が得られる。なお、Λは、Ｋ次の正方行列であり、そのｉ行ｊ列の要素はΛ_ｉｊである。そしてδ_ｉｊは、クロネッカーのデルタを表し、ｉ＝ｊのとき１となり、ｉ≠ｊのとき０になる。

すなわち、統合特徴量ｓに用いられる重み係数ベクトルｗを求める問題は、以下の式（１０）に示す最大化問題となる。

式（１０）で示した最大化問題は、以下の式（１１）に示す固有値問題と等価である。

したがって、統合手段１１５は、この式（１１）を解いて固有値、及び固有ベクトルを得る。そして、統合手段１１５は、得られた最大の固有値に対応する固有ベクトルを重み係数ベクトルｗとして用いて統合特徴量を算出する。なお、ここで算出される重み係数ベクトルｗの各要素である重み係数ｗ_ｋ（ｋ＝１，２，…，Ｋ）は、統合特徴量と全ての第１特徴量及び第２特徴量とのそれぞれの相関から求まる指標値が決められた基準を満たす、又は超えるように決められる係数の例である。

推定手段１１６は、統合手段１１５によって第１特徴量及び第２特徴量から算出された統合特徴量に基づいて取引レコードが異常である可能性を推定する。そして、推定手段１１６は、推定した結果を表示部１５により表示することで上述した可能性をユーザに提示する。

つまり、この推定手段１１６は、第１算出手段と第２算出手段とを用いて、取引レコードごとに、設定手段にて設定された変数の各組合せについてそれぞれ算出された第１特徴量及び第２特徴量に基づいて、取引レコードが異常である可能性を推定する推定手段
の例である。

なお、この推定手段１１６は、統合手段１１５の機能を含んでもよい。この場合、この推定手段１１６は、設定された変数の各組合せについてそれぞれ算出された第１特徴量及び第２特徴量を、その組合せのそれぞれに決められた係数を用いて統合して統合特徴量を算出し、その統合特徴量に基づいて取引レコードが異常である可能性を推定する推定手段の例である。

＜情報処理装置の動作＞
＜全体の動作＞
図１１は、取引レコードの異常の可能性を推定する動作の流れの例を示すフロー図である。情報処理装置１のプロセッサ１１は、操作部１４を介してユーザから監査の対象となるデータを識別するためのデータＩＤの指定を受付ける。そして、プロセッサ１１は、指定されたデータＩＤで識別されるデータをメモリ１２から取得する（ステップＳ００１）。

また、プロセッサ１１は、操作部１４を介してユーザから上述したデータに適用するシナリオを選択する操作を受付ける。プロセッサ１１は、受付けた操作が示すシナリオを設定する（ステップＳ００２）。

監査の対象となるデータが取得され、そのデータに適用されるシナリオが設定されると、プロセッサ１１は、データに含まれる取引レコードのそれぞれについて、シナリオに応じた第１特徴量を算出する（ステップＳ１００）。また、プロセッサ１１は、これと並行して、データに含まれる取引レコードのそれぞれについて、シナリオに応じた第２特徴量を算出する（ステップＳ２００）。ステップＳ１００、及びステップＳ２００の詳細は後述する。なお、ステップＳ１００、及びステップＳ２００は図１１に示すように並列処理によってそれぞれ行われてもよいが、逐次に行われてもよい。

第１特徴量、及び第２特徴量が算出されると、プロセッサ１１は、これらに基づいて統合特徴量を算出する（ステップＳ００３）。そして、プロセッサ１１は、算出した統合特徴量に基づいて取引レコードの異常の可能性を推定し（ステップＳ００４）、推定結果を提示する（ステップＳ００５）。

＜第１特徴量の算出の動作＞
図１２は、第１特徴量の算出の動作の流れの例を示すフロー図である。第１特徴量の算出の動作は、上述したステップＳ１００の処理である。プロセッサ１１は、上述した統計的手法を用いてデータを質的変数ごとにグループに分類する（ステップＳ１０１）。

次にプロセッサ１１は、シナリオで指定された量的変数のグループ内における平均値を算出し（ステップＳ１０２）、条件付き確率を用いて取引レコードのそれぞれの異常度を第１特徴量として算出する（ステップＳ１０３）。

＜第２特徴量の算出の動作＞
図１３は、第２特徴量の算出の動作の流れの例を示すフロー図である。第２特徴量の算出の動作は、上述したステップＳ２００の処理である。プロセッサ１１は、ユーザが選択したシナリオにより指定される２つの質的変数の組合せの発生件数を集計する（ステップＳ２０１）。そしてプロセッサ１１は、集計した上述の組合せの発生件数の全件数に対する割合を同時発生確率として算出する（ステップＳ２０２）。

また、プロセッサ１１は、上述した組合せに含まれる２つの質的変数のそれぞれの発生確率を算出する（ステップＳ２０３）。そして、プロセッサ１１は、ステップＳ２０２で算出した同時発生確率を、ステップＳ２０３で算出した２つの質的変数の発生確率の積で除算したリフト値を用いて第２特徴量を算出する（ステップＳ２０４）。

以上、説明した動作により、この情報処理装置１は、複数の取引レコードの履歴を含むデータのうち、通常のパターンから大きく外れた履歴を異常、つまり不正の候補とみなしてアラートを上げる。これにより、この情報処理装置１は、例えば、「日本で買い物をした２時間後にブラジルで買い物をしている」等といった不審な履歴をその原因とともに特定することができる。

要するに、この情報処理装置１は、第１特徴量、及び第２特徴量を統合した統合特徴量によってデータに含まれる取引レコードのそれぞれが異常である可能性をシナリオに対応付けて推定する。異常と推定された取引レコードには、その原因となるシナリオが対応付けられており、シナリオには質的変数及び量的変数が指定されている。したがって、情報処理装置１は、教師なし学習により、販売データ、仕訳伝票（仕訳帳）、及び在庫データ等の、監査の対象となる監査データにおける異常な取引（操作）を取引単位で検出するとともに、その異常の原因を提示することができる。

＜変形例＞
以上が実施形態の説明であるが、この実施形態の内容は以下のように変形し得る。また、以下の変形例は、互いに組合されてもよい。

＜１＞
上述した実施形態において、情報処理装置１は、ＣＰＵで構成されるプロセッサ１１を有していたが、情報処理装置１を制御する制御手段は他の構成であってもよい。

すなわち、情報処理装置１は、ＣＰＵ以外にも、例えばＧＰＵ（Graphics Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）、プログラマブル論理デバイス等、各種のプロセッサ等を、プロセッサ１１として有してもよい。

＜２＞
上述した実施形態におけるプロセッサの動作は、１つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。

また、プロセッサの各動作の順序は、上述した実施形態において記載した順序のみに限定されるものではなく、適宜変更されてもよい。

＜３＞
上述した実施形態において、第１特徴量、及び第２特徴量の算出に用いるシナリオはユーザによって選択されていたが、データの種類に応じて設定されてもよい。

例えば、情報処理装置１のプロセッサ１１は、ユーザに指定されたデータの種類を示す種類ＩＤを、取引ＤＢ１２１のデータＩＤリスト１２１１から取得する。そして、プロセッサ１１は、取得した種類ＩＤに予め対応付けられている１以上のシナリオの番号等を設定ＤＢ１２３に設定すればよい。これにより、設定された番号等が示すシナリオによって指定されたデータにおいて着目すべき変数の組合せが特定される。

この場合、この情報処理装置１は、データの種類を取得する取得手段を有し、予め決められた複数の組合せの中から、データの種類に応じた組合せを着目すべき変数の組合せとして設定する情報処理装置の例である。

＜４＞
上述した実施形態において、情報処理装置１のプロセッサ１１によって実行されるプログラムは、コンピュータを、複数の取引レコードを含むデータにおいて着目すべき変数の組合せを設定する設定手段と、各取引レコードに含まれる量的変数と質的変数との相関に基づく第１特徴量を算出する第１算出手段と、各取引レコードに含まれる２つの質的変数の相関に基づく第２特徴量を算出する第２算出手段と、第１算出手段と第２算出手段とを用いて、取引レコードごとに、設定手段にて設定された変数の各組合せについてそれぞれ算出された第１特徴量及び第２特徴量に基づいて、取引レコードが異常である可能性を推定する推定手段、として機能させるためのプログラムの例である。

このプログラムは、磁気テープ及び磁気ディスク等の磁気記録媒体、光ディスク等の光記録媒体、光磁気記録媒体、半導体メモリ等の、コンピュータ装置が読取り可能な記録媒体に記憶された状態で提供し得る。また、このプログラムは、インターネット等の通信回線経由でダウンロードされてもよい。

１…情報処理装置、１１…プロセッサ、１１１…取得手段、１１２…設定手段、１１３…第１算出手段、１１４…第２算出手段、１１５…統合手段、１１６…推定手段、１２…メモリ、１２１…取引ＤＢ、１２１１…データＩＤリスト、１２１２…取引表、１２２…シナリオＤＢ、１２３…設定ＤＢ、１２３１…データＩＤリスト、１２３２…シナリオ番号リスト、１３…通信部、１４…操作部、１５…表示部。

Claims

コンピュータを、
複数の取引レコードを含むデータにおいて着目すべき変数の組合せを設定する設定手段と、
各取引レコードに含まれる前記着目すべき変数である量的変数と質的変数との相関に基づく第１特徴量を算出する第１算出手段と、
各取引レコードに含まれる前記着目すべき変数である２つの質的変数の相関に基づく第２特徴量を算出する第２算出手段と、
前記第１算出手段と前記第２算出手段とを用いて、取引レコードごとに、前記設定手段にて設定された変数の各組合せについてそれぞれ算出された前記第１特徴量及び前記第２特徴量に基づいて、前記取引レコードが異常である可能性を推定する推定手段、
として機能させるためのプログラム。
前記推定手段は、設定された前記各組合せについてそれぞれ算出された前記第１特徴量及び前記第２特徴量を、それぞれに決められた係数を用いて統合して統合特徴量を算出し、該統合特徴量に基づいて前記可能性を推定し、
前記係数は、前記統合特徴量と全ての前記第１特徴量及び前記第２特徴量とのそれぞれの相関から求まる指標値が決められた基準を満たすように決められる
ことを特徴とする請求項１に記載のプログラム。
前記第１算出手段は、取引レコードに含まれる前記量的変数の傾向の類否に応じて、前記データを前記質的変数ごとに複数のグループに分類し、それぞれのグループ内における前記各取引レコードの統計的珍しさを前記第１特徴量として算出する
ことを特徴とする請求項１に記載のプログラム。
前記設定手段は、予め決められた複数の前記組合せの中から、ユーザによって選択された組合せを前記着目すべき変数の組合せとして設定する
ことを特徴とする請求項１に記載のプログラム。
前記データの種類を取得する取得手段を有し、
前記設定手段は、予め決められた複数の前記組合せの中から、前記データの種類に応じた組合せを前記着目すべき変数の組合せとして設定する
ことを特徴とする請求項１に記載のプログラム。
前記質的変数は、前記取引レコードが示す取引をした部門の識別情報である
ことを特徴とする請求項１に記載のプログラム。
前記量的変数は、前記取引レコードが示す取引の額である
ことを特徴とする請求項１に記載のプログラム。
前記第１算出手段は、取引レコードに前記質的変数が含まれている条件下における前記量的変数の割合から求まる量を前記第１特徴量として算出する
ことを特徴とする請求項１に記載のプログラム。
前記第２算出手段は、前記２つの質的変数のそれぞれの値が共に前記取引レコードに含まれる割合を、該値が前記取引レコードに含まれるそれぞれの割合の積で割ったリフト値を用いて前記第２特徴量を算出する
ことを特徴とする請求項１に記載のプログラム。
複数の取引レコードを含むデータにおいて着目すべき変数の組合せを設定する設定手段と、
各取引レコードに含まれる前記着目すべき変数である量的変数と質的変数との相関に基づく第１特徴量を算出する第１算出手段と、
各取引レコードに含まれる前記着目すべき変数である２つの質的変数の相関に基づく第２特徴量を算出する第２算出手段と、
前記第１算出手段と前記第２算出手段とを用いて、取引レコードごとに、前記設定手段にて設定された変数の各組合せについてそれぞれ算出された前記第１特徴量及び前記第２特徴量に基づいて、前記取引レコードが異常である可能性を推定する推定手段と、
を有する情報処理装置。