JP2021081975A - 会計情報処理装置、会計情報処理方法及び会計情報処理プログラム - Google Patents
会計情報処理装置、会計情報処理方法及び会計情報処理プログラム Download PDFInfo
- Publication number
- JP2021081975A JP2021081975A JP2019208676A JP2019208676A JP2021081975A JP 2021081975 A JP2021081975 A JP 2021081975A JP 2019208676 A JP2019208676 A JP 2019208676A JP 2019208676 A JP2019208676 A JP 2019208676A JP 2021081975 A JP2021081975 A JP 2021081975A
- Authority
- JP
- Japan
- Prior art keywords
- data
- record
- variable
- value
- records
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims description 47
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000001514 detection method Methods 0.000 claims abstract description 58
- 230000005856 abnormality Effects 0.000 claims abstract description 56
- 238000012545 processing Methods 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000000611 regression analysis Methods 0.000 claims abstract description 22
- 238000013210 evaluation model Methods 0.000 claims abstract description 18
- 238000010606 normalization Methods 0.000 claims abstract description 14
- 238000011156 evaluation Methods 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims description 48
- 238000012360 testing method Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000012937 correction Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 7
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 238000003860 storage Methods 0.000 description 13
- 238000009826 distribution Methods 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 11
- 230000006854 communication Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 4
- 239000004065 semiconductor Substances 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 241000039077 Copula Species 0.000 description 1
- 101000847024 Homo sapiens Tetratricopeptide repeat protein 1 Proteins 0.000 description 1
- 101000818522 Homo sapiens fMet-Leu-Phe receptor Proteins 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 101100412093 Schizosaccharomyces pombe (strain 972 / ATCC 24843) rec16 gene Proteins 0.000 description 1
- 102100032841 Tetratricopeptide repeat protein 1 Human genes 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 102100021145 fMet-Leu-Phe receptor Human genes 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Landscapes
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
Description
単一の企業の単一の期間の財務データに含まれる複数の勘定科目の値を示す複数の変数と、前記複数の変数の1つに訂正があったことを示すラベル情報と、を少なくとも含むレコードを、複数の企業及び複数の期間に対応する分だけ含むデータセットを生成する会計データ生成部と、
前記データセットに含まれるレコードの変数の欠損値にかかる処理を行う欠損値処理部と、
前記データセットに含まれるレコードから、ノイズとなるレコードを除外するレコード選別部と、
選別されたレコードについて、変数ごとに値を正規化する正規化処理部と、
正規化されたレコードを分割して、訓練用データ、モデル選別用データ及びスコア算出用テストデータを作成するデータ分割部と、
前記訓練用データを用いて、L1正則化項を離散的に変化させながらグラフィカルlassoによる回帰分析処理を行って訓練済みモデルを取得する回帰分析部と、
取得した前記訓練済みモデルを用いて前記モデル選別用データに含まれる各変数の異常度の検出精度を評価し、前記検出精度に応じて前記訓練済みモデルの前記L1正則化項を特定し、特定した前記L1正則化項に対応する前記訓練済みモデルを、評価対象となる企業の会計データの変数の不正の検出に用いる評価用モデルとして決定する検出精度評価部と、
前記評価用モデルを用いて、未知のデータセットに含まれるレコードの異常度を算出し、不正の蓋然性が高いレコードを検出する異常度出力部と、を有するものである。
会計データ生成部によって、単一の企業の単一の期間の財務データに含まれる複数の勘定科目の値を示す複数の変数と、前記複数の変数の1つに訂正があったことを示すラベル情報と、を少なくとも含むレコードを、複数の企業及び複数の期間に対応する分だけ含むデータセットを生成し、
欠損値処理部により、前記データセットに含まれるレコードの変数の欠損値にかかる処理を行い、
レコード選別部により、前記データセットに含まれるレコードから、ノイズとなるレコードを除外し、
正規化処理部により、選別されたレコードについて、変数ごとに値を正規化し、
データ分割部は、正規化されたレコードを分割して、訓練用データ、モデル選別用データ及びスコア算出用テストデータを作成し、
回帰分析部により、前記訓練用データを用いて、L1正則化項を離散的に変化させながらグラフィカルlassoによる回帰分析処理を行って訓練済みモデルを取得し、
検出精度評価部により、取得した前記訓練済みモデルを用いて前記モデル選別用データに含まれる各変数の異常度の検出精度を評価し、前記検出精度に応じて前記訓練済みモデルの前記L1正則化項を特定し、特定した前記L1正則化項に対応する前記訓練済みモデルを、評価対象となる企業の会計データの変数の不正の検出に用いる評価用モデルとして決定し、
異常度出力部により、前記評価用モデルを用いて、未知のデータセットに含まれるレコードの異常度を算出し、不正の蓋然性が高いレコードを検出するものである。
単一の企業の単一の期間の財務データに含まれる複数の勘定科目の値を示す複数の変数と、前記複数の変数の1つに訂正があったことを示すラベル情報と、を少なくとも含むレコードを、複数の企業及び複数の期間に対応する分だけ含むデータセットを生成する処理と、
前記データセットに含まれるレコードの変数の欠損値にかかる処理を行う処理と、
前記データセットに含まれるレコードから、ノイズとなるレコードを除外する処理と、
選別されたレコードについて、変数ごとに値を正規化する処理と、
正規化されたレコードを分割して、訓練用データ、モデル選別用データ及びスコア算出用テストデータを作成する処理と、
前記訓練用データを用いて、L1正則化項を離散的に変化させながらグラフィカルlassoによる回帰分析処理を行って訓練済みモデルを取得する処理と、
取得した前記訓練済みモデルを用いて前記モデル選別用データに含まれる各変数の異常度の検出精度を評価し、前記検出精度に応じて前記訓練済みモデルの前記L1正則化項を特定し、特定した前記L1正則化項に対応する前記訓練済みモデルを、評価対象となる企業の会計データの変数の不正の検出に用いる評価用モデルとして決定するする処理と、
前記評価用モデルを用いて、未知のデータセットに含まれるレコードの異常度を算出し、不正の蓋然性が高いレコードを検出する処理と、をコンピュータに実行させるものである。
実施の形態1にかかる会計情報処理装置100について説明する。会計情報処理装置100は、企業の財務諸表に含まれる複数の勘定科目から異常な勘定科目を検出できるように構成される。
会計データ生成部1は、企業データを取り込み、図2及び3を参照して説明した会計データADを作成する。なお、企業データは、例えば記憶部19に格納可能であり、CPU11などで構成される会計データ生成部1が必要に応じて読み出すことが可能である。
企業の状況や、企業データの収集方法などによっては、各レコードの変数に欠損値が含まれるおそれがある。そのため、まず、欠損値処理部2は、図6に示すステップS21〜S23を実行して、会計データADの各変数に含まれる欠損値の除外及び補填を行う。これにより、欠損値による影響を抑制し、各レコードに対して同様の処理を行えるように会計データADが整形される。
全レコードの各変数を参照し、値が欠損しているセル(欠損値セルと称する)を探索する。そして、欠損値の存在割合が欠損閾値THL以下の変数を残し、欠損値の存在割合が欠損閾値THLよりも大きな変数を会計データADから除外する。本実施の形態では欠損閾値THLを99%とするが、欠損閾値THLは必要に応じて任意の値としてもよい。
残存している変数の欠損値セルを探索し、欠損値セルを含むレコードと同じ企業のレコードを特定する。そして、特定したレコードについて、着目する欠損値セルと同じ変数の値の平均値を算出し、算出した平均値で欠損値セルの値を補填する。なお、ここでは上記の平均値で欠損値を補填しているが、平均値以外の0、中央値及び同業種における平均値などの任意の値としてもよい。
会計データADから各企業のレコードを参照し、決算期間(または会計期間)で示される全期間で欠損している変数を特定する。そして、全企業及び全期間のレコードについて、特定した変数の値の平均値を算出し、算出した値で特定した企業の変数の全期間の欠損値を補填する。なお、ここでは上記の平均値で欠損値を補填しているが、平均値以外の0、中央値及び同業種における平均値などの任意の値としてもよい。
次いで、レコード選別部3は、図7に示すステップS31及びS32を実行して、不正ラベルがポジティブなレコードの選別を行う。なお、不正ラベルがポジティブであるとは、着目する変数に訂正が有った場合を意味し、例えば不正ラベルの値が「1」であることを意味する。一方、不正ラベルがネガティブであるとは、着目する変数に訂正が無かった場合を意味し、例えば不正ラベルの値が「0」であることを意味する。
不正ラベルがポジティブのレコードのうち、訂正対象となった変数の訂正割合が訂正割合閾値THMよりも小さなレコードを、会計データADから除外する。本処理によって、変数が訂正されているものの、訂正が軽微であり、実質的に訂正されたとは認められないレコードが除外される。これにより、不正ラベルがポジティブであるが、実質的には不正が行われていないレコードをノイズと見なして除去することができる。本実施の形態では、訂正割合閾値THMを0とするものとする。なお。訂正割合閾値THMの値が0であるのは例示に過ぎず、必要に応じて任意の値としてもよい。
各企業のレコードを参照し、不正ラベルがネガティブであるレコードが所定の決算期間分以上ある企業のレコードを残し、それ以外の企業のレコードを除外する。これにより、十分な期間の会計データが得られない企業のレコードが除外される。本実施の形態では、所定の年数を5年間とするが、所定の年数は必要に応じて5年間以外の任意の年数としてもよい。
正規化処理部4は、企業ごとに、図8に示すステップS41〜43を実行して、全レコードの各変数の値xを正規化する。
不正ラベルがネガティブであるレコードを抽出してネガティブテーブルを作成し、各企業について、各変数の平均値μ及び標準偏差σを算出する。
企業ごとに、全レコードの各変数の値xを正規化する。本実施の形態では、算出した各変数の平均値μN及び標準偏差σNを用いて各変数の標準得点z(z得点、z値又はzスコアとも称される)を算出し、全レコードの各変数の値xを算出した標準得点zで置換する。
正規化後、標準偏差σが0となり、標準得点zが定義されない場合には、正規化後の値を0に置換する。一般に、各企業の財務諸表の各変数には、長期にわたって値が変動しないものが存在しうる。例えば、資本金に着目した場合、増資などが行われない場合には、資本金の額は長期にわたって一定のまま推移することが考え得る。このような場合には、資本金の標準偏差は0となりうるので、標準得点が定義できなくなってしまう。標準得点が定義できないセルを残存させてしまうと正規化を行った意義が損なわれてしまうので、ここでは、標準得点が定義できないセルについては、値を0に置換して対応している。
データ分割部5は、図9に示すステップS51〜S54を実行して、後述するグラフィカルlassoでの回帰分析処理に用いる訓練データを作成する。
会計データADを、任意に設定した基準時に基づいて、基準時よりも前の決算期間のレコードからなるモデル構築用データと、基準時以降の決算期間のレコードからなるスコア算出用テストデータと分割する。
以下のステップでは、モデル構築用データを、グラフィカルlassoでのモデリングに用いる訓練用データと、モデリング後の最適モデルの探索に用いるモデル選別用データと、に分割する。まず、モデル構築用データを、不正ラベルがネガティブであるレコードと、不正ラベルがポジティブであるレコードと、に分割する。
不正ラベルがネガティブのみである企業を、訓練用企業が8割、モデル選別用企業が2割となるように分割する。このとき、訓練用企業とモデル選別用企業とがなるべく均質となるように、換言すればランダムに分割が行われることが望ましい。
不正ラベルがネガティブである訓練用企業のレコードを訓練用データとして分割する。また、不正ラベルがネガティブであるモデル選別用企業のレコードと、不正ラベルに1回でもポジティブが含まれる企業の全レコードと、をモデル選別用データとして分割する。よって、グラフィカルlassoでのモデリングに用いる訓練用データには、不正ラベルがポジティブであるレコードは含まれていない。つまり、本実施の形態のグラフィカルlassoでのモデリング(訓練)では、出現頻度が少ない不正イベント(不正ラベルがポジティブであるレコード)を用いることなくモデリング(訓練)を行うことが理解できる。
回帰分析部6は、図10に示すステップS61〜S66を実行して、訓練用テーブルを用いて、グラフィカルlassoによる重回帰分析処理を行う。
訓練用テーブルの各変数の平均値を算出する。以下では、訓練用テーブルの列番号をi、行番号をjで表示する。第i列の変数の平均値をμiと表記する。
訓練用テーブルの共分散行列Sを作成する。
以下、訓練用テーブルに、グラフィカルlasso(非特許文献1を参照)を適用する。グラフィカルlassoは、以下の式で示される最適化問題を解くことを目的とするものである。なお、以下の式は、非特許文献1の式(9)に対応するものである。
L1正則化項に付随するハイパーパラメータρを離散的に変化させて、すなわち複数の値を与え、L1正則化項に付随するハイパーパラメータρの値ごとに行列Λを計算する。
L1正則化項に付随するハイパーパラメータρの値ごとに算出した精度行列Λのそれぞれについて、平均値μを用い、テスト用テーブルに含まれる各レコードの変数を成分とする標本ベクトルxの異常度ai(x)を算出する。なお、以下の式は、非特許文献1の式(27)に対応するものである。
同様に、L1正則化項に付随するハイパーパラメータρを離散的に変化させて、L1正則化項に付随するハイパーパラメータρの値ごとに偏相関行列Pを計算する。上述で算出した精度行列Λのそれぞれの逆行列を計算することで、偏相関行列を得ることができる。
検出精度評価部7は、異常検出精度が最大となるL1正則化項に付随するハイパーパラメータρの値を決定する。具体的には、L1正則化項に付随するハイパーパラメータρの値ごとに、不正の検出対象の変数である売上高と関連性が高い変数、ここでは売上総利益に着目してROC曲線を生成し、そこから売上高不正の検出精度を示すAUCを計算する。なお、言うまでもないが、着目する変数は、売上総利益以外の任意の変数であってもよい。
ここでは、実際に、未知の会計データに含まれる勘定科目の異常度算出を行う。異常度出力部8は、未知の会計データに含まれる変数の異常度を出力する。ここでは、ステップS7で決定した最適なハイパーパラメータ(ρ=0.02)を用い、訓練データとは決算期間が異なるスコア算出用テストデータを、不正検出の対象となる未知の会計データとして用い、異常度を算出する変数を純資産とした第1の実施例について説明する。異常度出力部8は、スコア算出用テストデータの純資産の異常度(式7)を計算し、各企業の資産不正を検出する。不正検出にあたっては、異常度に閾値を設け、算出した異常度が閾値よりも大きな場合に、資産不正の蓋然性が高いものとして検出する。図13に、最適なハイパーパラメータとスコア算出用テストデータを用いて、純資産に着目して資産不正を検出した場合の異常検出精度AUCの分布を示す。図13に示すように、未知の会計データの不正検出を良好な精度で行えることが理解できる。
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、ステップS53において説明したように、訓練用企業とモデル選別用企業とがなるべく均質となるように、換言すればランダムに分割が行われることが望ましい。例えば、ステップS53での企業の分割(サンプリング)を100パターン用意し、各パターンを用いてグラフィカルlassoでのモデリング及び不正検出精度の評価を行い、パターンの違いによる検出精度の分布を考慮した上で、最適なハイパーパラメータρを決定してもよい。
2 欠損値処理部
3 レコード選別部
4 正規化処理部
5 データ分割部
6 回帰分析部
7 検出精度評価部
8 異常度出力部
14 バス
15 入出力インターフェイス
16 入力部
17 出力部
18 通信部
19 記憶部
20 ドライブ
21 磁気ディスク
22 光ディスク
23 フレキシブルディスク
24 半導体メモリ
30 ネットワーク
40 サーバ
100 会計情報処理装置
110 コンピュータ
Claims (20)
- 単一の企業の単一の期間の財務データに含まれる複数の勘定科目の値を示す複数の変数と、前記複数の変数の1つに訂正があったことを示すラベル情報と、を少なくとも含むレコードを、複数の企業及び複数の期間に対応する分だけ含むデータセットを生成する会計データ生成部と、
前記データセットに含まれるレコードの変数の欠損値にかかる処理を行う欠損値処理部と、
前記データセットに含まれるレコードから、ノイズとなるレコードを除外するレコード選別部と、
選別されたレコードについて、変数ごとに値を正規化する正規化処理部と、
正規化されたレコードを分割して、訓練用データ、モデル選別用データ及びスコア算出用テストデータを作成するデータ分割部と、
前記訓練用データを用いて、L1正則化項を離散的に変化させながらグラフィカルlassoによる回帰分析処理を行って訓練済みモデルを取得する回帰分析部と、
取得した前記訓練済みモデルを用いて前記モデル選別用データに含まれる各変数の異常度の検出精度を評価し、前記検出精度に応じて前記訓練済みモデルの前記L1正則化項を特定し、特定した前記L1正則化項に対応する前記訓練済みモデルを、評価対象となる企業の会計データの変数の不正の検出に用いる評価用モデルとして決定する検出精度評価部と、
前記評価用モデルを用いて、未知のデータセットに含まれるレコードの異常度を算出し、不正の蓋然性が高いレコードを検出する異常度出力部と、を備える、
会計情報処理装置。 - 前記欠損値処理部は、前記データセットに含まれる複数の前記レコードの各変数の前記欠損値が所定の割合よりも多い場合には、前記欠損値が所定の割合よりも多い前記変数を前記データセットから除外する、
請求項1に記載の会計情報処理装置。 - 前記欠損値処理部は、第1の値で前記欠損値を補填する、
請求項2に記載の会計情報処理装置。 - 前記第1の値は、前記欠損値を含むレコードと同じ企業のレコードに含まれる、前記欠損値と同じ変数の平均値である、
請求項3に記載の会計情報処理装置。 - 前記欠損値処理部は、各企業のレコードを参照し、全ての値が欠損値となっている変数を有する企業のレコードを、第2の値で補填する、
請求項2乃至4のいずれか一項に記載の会計情報処理装置。 - 前記第2の値は、全ての値が欠損値となっている変数を有する企業以外の企業の前記欠損値と同じ変数の平均値で補填する、
請求項5に記載の会計情報処理装置。 - 前記レコード選別部は、訂正があった前記変数のうちで値の訂正割合が第3の値よりも小さなものが有る場合、前記値が訂正された変数を含むレコードを前記データセットから除外する、
請求項1乃至6のいずれか一項に記載の会計情報処理装置。 - 前記レコード選別部は、前記ラベル情報がネガティブであるレコードが所定の期間分よりも少ない企業のレコードを、前記データセットから除外する、
請求項1乃至7のいずれか一項に記載の会計情報処理装置。 - 前記正規化処理部は、
前記ラベル情報がネガティブのレコードを用いて平均及び標準偏差を算出し、
各企業の各変数を、各変数の標準得点で置換する、
請求項1乃至8のいずれか一項に記載の会計情報処理装置。 - 前記正規化処理部は、各企業の各変数の標準偏差が0となる場合、前記標準偏差が0となる変数を第4の値で置換する、
請求項9に記載の会計情報処理装置。 - 前記データ分割部は、前記会計データを、グラフィカルlassoによる回帰分析処理を行って訓練済みモデルを取得するために用いられるモデル構築用データと、評価用モデルを用いたスコア算出に用いられるスコア算出用テストデータと、に分割する、
請求項9又は10に記載の会計情報処理装置。 - 前記モデル構築用データは、前記会計データのうちで、所定の期間以前のレコードからなり、
前記スコア算出用テストデータは、前記会計データのうちで、前記所定の期間よりも後のレコードからなる、
請求項11に記載の会計情報処理装置。 - 前記データ分割部は、
前記モデル構築用データに含まれる前記ラベル情報がネガティブのレコードの企業を、訓練用企業と、モデル選別用企業と、に分割し、
前記モデル構築用データを、前記訓練用企業のレコードからなる訓練用データと、前記モデル選別用企業のレコード及び前記ラベル情報がポジティブのレコードからなるモデル選別用データと、に分割する、
請求項11又は12に記載の会計情報処理装置。 - 前記回帰分析部は、前記訓練用データを用いて、グラフィカルlassoによる回帰分析を行うにあたり、前記L1正則化項に付随するハイパーパラメータとして複数の値を与えることで複数のモデルを取得し、
前記検出精度評価部は、前記複数のモデルを用いて前記モデル選別用データに含まれる各レコードの所定の変数の異常度を算出し、前記所定の変数の異常度が第5の値よりも大きなレコードの前記ラベル情報がポジティブである場合の割合を示す検出精度に基づいて、前記複数のモデルから前記評価用モデルを決定する、
請求項13に記載の会計情報処理装置。 - 前記検出精度評価部は、前記複数のモデルから、前記検出精度が最大となるモデルを前記評価用モデルとして決定する、
請求項14に記載の会計情報処理装置。 - 前記異常度出力部は、
前記評価用モデルを用いて、前記未知のデータセットに含まれるレコードの複数の変数の異常度を計算し、
前記未知のデータセットに含まれる各レコードの前記複数の変数のうち1つの変数に着目し、
着目した前記変数の異常度が第6の値よりも大きい場合には、前記着目した変数が含まれるレコードの不正を検出する対象となる変数に不正の蓋然性が高いと判定する、
請求項14又は15に記載の会計情報処理装置。 - 前記異常度出力部は、
前記評価用モデルを用いて、前記未知のデータセットに含まれるレコードの複数の変数の異常度を計算し、
前記未知のデータセットに含まれる各レコードについて、前記複数の変数の異常度の統計量を計算し、
前記未知のデータセットに含まれる各レコードについて計算した前記統計量に基づいて、各レコードの不正を検出する対象となる変数に不正の蓋然性が高いと判定する、
請求項14又は15に記載の会計情報処理装置。 - 前記統計量は、最大値、最小値、平均値、中央値及び最頻値のいずれかであり、
前記異常度出力部は、前記統計量が定められた閾値よりも大きな場合に、各レコードの不正を検出する対象となる変数に不正の蓋然性が高いと判定する、
請求項17に記載の会計情報処理装置。 - 会計データ生成部によって、単一の企業の単一の期間の財務データに含まれる複数の勘定科目の値を示す複数の変数と、前記複数の変数の1つに訂正があったことを示すラベル情報と、を少なくとも含むレコードを、複数の企業及び複数の期間に対応する分だけ含むデータセットを生成し、
欠損値処理部により、前記データセットに含まれるレコードの変数の欠損値にかかる処理を行い、
レコード選別部により、前記データセットに含まれるレコードから、ノイズとなるレコードを除外し、
正規化処理部により、選別されたレコードについて、変数ごとに値を正規化し、
データ分割部は、正規化されたレコードを分割して、訓練用データ、モデル選別用データ及びスコア算出用テストデータを作成し、
回帰分析部により、前記訓練用データを用いて、L1正則化項を離散的に変化させながらグラフィカルlassoによる回帰分析処理を行って訓練済みモデルを取得し、
検出精度評価部により、取得した前記訓練済みモデルを用いて前記モデル選別用データに含まれる各変数の異常度の検出精度を評価し、前記検出精度に応じて前記訓練済みモデルの前記L1正則化項を特定し、特定した前記L1正則化項に対応する前記訓練済みモデルを、評価対象となる企業の会計データの変数の不正の検出に用いる評価用モデルとして決定し、
異常度出力部により、前記評価用モデルを用いて、未知のデータセットに含まれるレコードの異常度を算出し、不正の蓋然性が高いレコードを検出する、
会計情報処理方法。 - 単一の企業の単一の期間の財務データに含まれる複数の勘定科目の値を示す複数の変数と、前記複数の変数の1つに訂正があったことを示すラベル情報と、を少なくとも含むレコードを、複数の企業及び複数の期間に対応する分だけ含むデータセットを生成する処理と、
前記データセットに含まれるレコードの変数の欠損値にかかる処理を行う処理と、
前記データセットに含まれるレコードから、ノイズとなるレコードを除外する処理と、
選別されたレコードについて、変数ごとに値を正規化する処理と、
正規化されたレコードを分割して、訓練用データ、モデル選別用データ及びスコア算出用テストデータを作成する処理と、
前記訓練用データを用いて、L1正則化項を離散的に変化させながらグラフィカルlassoによる回帰分析処理を行って訓練済みモデルを取得する処理と、
取得した前記訓練済みモデルを用いて前記モデル選別用データに含まれる各変数の異常度の検出精度を評価し、前記検出精度に応じて前記訓練済みモデルの前記L1正則化項を特定し、特定した前記L1正則化項に対応する前記訓練済みモデルを、評価対象となる企業の会計データの変数の不正の検出に用いる評価用モデルとして決定するする処理と、
前記評価用モデルを用いて、未知のデータセットに含まれるレコードの異常度を算出し、不正の蓋然性が高いレコードを検出する処理と、をコンピュータに実行させる、
会計情報処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019208676A JP6667865B1 (ja) | 2019-11-19 | 2019-11-19 | 会計情報処理装置、会計情報処理方法及び会計情報処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019208676A JP6667865B1 (ja) | 2019-11-19 | 2019-11-19 | 会計情報処理装置、会計情報処理方法及び会計情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6667865B1 JP6667865B1 (ja) | 2020-03-18 |
JP2021081975A true JP2021081975A (ja) | 2021-05-27 |
Family
ID=70000562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019208676A Active JP6667865B1 (ja) | 2019-11-19 | 2019-11-19 | 会計情報処理装置、会計情報処理方法及び会計情報処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6667865B1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023050649A1 (zh) * | 2021-09-29 | 2023-04-06 | 平安科技(深圳)有限公司 | 基于数据补全的esg指数确定方法及相关产品 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022065363A1 (ja) * | 2020-09-24 | 2022-03-31 | Assest株式会社 | 不正経費検出プログラム |
JP6955286B1 (ja) * | 2020-09-24 | 2021-10-27 | Assest株式会社 | 不正経費検出プログラム |
JP2024016300A (ja) * | 2020-12-15 | 2024-02-07 | 株式会社KPMG Ignition Tokyo | 分析プログラム、分析装置、及び分析方法 |
JP7143545B1 (ja) | 2022-06-15 | 2022-09-28 | 有限責任監査法人トーマツ | プログラム、及び情報処理装置 |
CN116311297A (zh) * | 2023-04-12 | 2023-06-23 | 国网河北省电力有限公司 | 基于计算机视觉的电子凭据图像识别解析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019046312A (ja) * | 2017-09-05 | 2019-03-22 | 株式会社日立製作所 | 計算機及び経費の監査方法 |
JP2019067086A (ja) * | 2017-09-29 | 2019-04-25 | 新日本有限責任監査法人 | 財務分析装置、財務分析方法及び財務分析プログラム |
JP2019179531A (ja) * | 2018-03-30 | 2019-10-17 | 株式会社Tkc | 内部監査支援装置、内部監査支援方法および内部監査支援プログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7259517B2 (ja) * | 2019-04-24 | 2023-04-18 | 住友ゴム工業株式会社 | 空気入りタイヤの製造装置 |
-
2019
- 2019-11-19 JP JP2019208676A patent/JP6667865B1/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019046312A (ja) * | 2017-09-05 | 2019-03-22 | 株式会社日立製作所 | 計算機及び経費の監査方法 |
JP2019067086A (ja) * | 2017-09-29 | 2019-04-25 | 新日本有限責任監査法人 | 財務分析装置、財務分析方法及び財務分析プログラム |
JP2019179531A (ja) * | 2018-03-30 | 2019-10-17 | 株式会社Tkc | 内部監査支援装置、内部監査支援方法および内部監査支援プログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023050649A1 (zh) * | 2021-09-29 | 2023-04-06 | 平安科技(深圳)有限公司 | 基于数据补全的esg指数确定方法及相关产品 |
Also Published As
Publication number | Publication date |
---|---|
JP6667865B1 (ja) | 2020-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6667865B1 (ja) | 会計情報処理装置、会計情報処理方法及び会計情報処理プログラム | |
US10095774B1 (en) | Cluster evaluation in unsupervised learning of continuous data | |
EP2854053B1 (en) | Defect prediction method and device | |
Entezami et al. | Non-parametric empirical machine learning for short-term and long-term structural health monitoring | |
Chaudhury | A review of the key issues in operational risk capital modeling | |
CN112565422A (zh) | 一种对电力物联网故障数据的识别方法、系统和存储介质 | |
Lee et al. | Detecting anomalies in meteorological data using support vector regression | |
US20120185406A1 (en) | FAST AND ACCURATE METHOD FOR ESTIMATING PORTFOLIO CVaR RISK | |
US20230325632A1 (en) | Automated anomaly detection using a hybrid machine learning system | |
JP2019105871A (ja) | 異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置 | |
CN111143103A (zh) | 一种关联关系确定方法、装置、设备及可读存储介质 | |
JP6611068B1 (ja) | 企業情報処理装置、企業のイベント予測方法及び予測プログラム | |
KR20180013102A (ko) | 신용도를 평가하는 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
JP2017207852A (ja) | 相互相関に基づいて時系列変化点を検出可能なプログラム、装置及び方法 | |
CN110661818B (zh) | 事件异常检测方法、装置、可读存储介质和计算机设备 | |
US20230196245A1 (en) | Method and apparatus for predicting risk, electronic device, computer readable storage medium | |
JP7146218B1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
Subramoney et al. | Var estimation using extreme value mixture models for cryptocurrencies | |
WO2021134564A1 (en) | Method and device for processing sensor data | |
CN113689020A (zh) | 业务信息预测方法、装置、计算机设备和存储介质 | |
Argyrou | Auditing journal entries using self-organizing map | |
CN118052558B (zh) | 基于人工智能的风控模型决策方法及系统 | |
US20240062117A1 (en) | System and Method for Examining Data from a Source | |
JP7345744B2 (ja) | データ処理装置 | |
CN112256974B (zh) | 一种舆情信息的处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191129 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20191129 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20191218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200128 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6667865 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |