JP2006185099A

JP2006185099A - 確率モデル作成方法

Info

Publication number: JP2006185099A
Application number: JP2004377042A
Authority: JP
Inventors: Takeichiro Nishikawa; 川武一郎西
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2004-12-27
Filing date: 2004-12-27
Publication date: 2006-07-13

Abstract

【課題】事象が発生または発生しない確率を精度よく算出できる確率モデル作成方法を提供する。
【解決手段】確率モデル作成システムは、確率モデルと重み係数を繰り返し作成するモデル作成部１と、モデル作成部１で作成された確率モデルと重み係数を記憶する第１記憶部２と、モデル作成部１が最後に作成した最終的な確率モデルを記憶する第２記憶部３と、所定のパラメータを入力する入力部４と、入力されたパラメータを第２記憶部３から読み出した確率モデルに入力して所定の事象が発生する（または発生しない）確率を算出する確率算出部５とを備えている。この構成により、ある企業の特定の座標指標が入力されたときに、迅速に企業の倒産確率を簡易かつ精度よく算出できる。
【選択図】図１

Description

本発明は、所定の事象が発生または発生しない確率を算出する確率モデル作成方法に関する。

所定の事象が発生する確率を算出するために、確率モデルを構築する技術が提案されている（非特許文献１参照）。

この非特許文献１では、AdaBoostと呼ばれるアルゴリズムを提案している。このアルゴリズムは広く利用されているが、判別問題に対するアルゴリズムであるため、確率モデルを構築する際には直接利用できない。

上述したAdaBoostの考え方を利用して確率モデルを構築する手法が提案されている（非特許文献２参照）。ところがこの手法によっても、正しい確率モデルを構築することができない。
Freund, Y. and Schapire, R. E.: A decision-theoretic generalization of on-line learning and an application to boosting, Journal of Computer and System Sciences, Vol.55, No. 1, pp.119-139(1997). 末松伸朗、林朗：ブースティング法に発想を得た確率モデル学習アルゴリズム、人工知能学会誌、15巻１号（2001年１月）、pp129-136.

本発明は、事象が発生または発生しない確率を精度よく算出できる確率モデル作成方法を提供するものである。

本発明の一実施形態によれば、所定の事象を説明するための１つ以上の変数を含む説明変数と該説明変数に応じた値を取る非説明変数とを組とするサンプルの集合である学習データの各サンプルごとに、予め用意された確率モデルに基づいて、前記非説明変数の値に対応する確率を算出するステップと、該算出された確率に基づいて、学習データの各サンプルに対する重みを算出するステップと、算出された重みと前記学習データとに基づいて新たな確率モデルを作成してモデル記憶装置に記憶するステップと、前記モデル記憶装置に記憶された確率モデルを用いて、前記説明変数と同じデータ形式の入力パラメータに対して、前記事象が発生または発生しない確率を算出するステップと、を備える。

また、本発明の一実施形態によれば、所定の事象を説明するための１つ以上の変数を含む説明変数と該説明変数に応じた値を取る非説明変数とを組とするサンプルの集合である学習データの各サンプルごとに、予め用意された確率モデルに基づいて、前記非説明変数の値に対応する確率を算出するステップと、該算出された確率に基づいて、学習データの各サンプルに対する事象が発生しない確率を算出し、該算出された事象が発生しない確率に比例した重みを算出するステップと、算出された重みと前記学習データとに基づいて新たな確率モデルを作成するステップと、前記算出された重みを用いて、所定回数、前記重みを算出するステップと前記新たな確率モデルを作成するステップとの処理を繰り返し行った後、各回ごとに算出された確率モデルに基づいて、最終的な確率モデルをモデル記憶装置に記憶するステップと、前記モデル記憶装置に記憶された確率モデルを用いて、前記説明変数と同じデータ形式の入力パラメータに対して、前記事象が発生または発生しない確率を算出するステップと、を備えることを特徴とする確率モデル作成方法を提供するものである。

本発明によれば、事象が発生または発生しない確率を精度よく算出できる。

以下、図面を参照しながら、本発明の一実施形態を説明する。

（第１の実施形態）
図１は本発明の第１の実施形態に係る確率モデル作成システムの概略構成を示すブロック図である。図１の確率モデル作成システムは、確率モデルと重み係数を繰り返し作成するモデル作成部１と、モデル作成部１で作成された確率モデルと重み係数を記憶する第１記憶部２と、モデル作成部１が最後に作成した最終的な確率モデルを記憶する第２記憶部３と、所定のパラメータを入力する入力部４と、入力されたパラメータを第２記憶部３から読み出した確率モデルに入力して所定の事象が発生する（または発生しない）確率を算出する確率算出部５とを備えている。

図１の各部の処理は、一つのコンピュータ機器で行ってもよいし、複数のコンピュータ機器で分散して行ってもよい。ただし、モデル作成部１の処理には時間がかかるおそれがあるため、事前に処理を行って、最終的な確率モデルを予め第２記憶部３に記憶しておくのが望ましい。これにより、入力部４からパラメータが入力されたときに、第２記憶部３から読み出した最終的な確率モデルを利用して、比較的短時間で上述した確率を算出することができる。あるいは、モデル作成部１の処理を高速で行うために、専用のコンピュータ機器を用意してもよい。また、第１記憶部２と第２記憶部３は、物理的に一つの記憶装置にまとめてもよい。

図２は図１のシステムの処理手順の一例を示すフローチャートである。以下、このフローチャートを用いて、本実施形態の処理手順を説明する。以下では、一例として、図１のシステムを利用して、企業の倒産確率を算出する手順を説明する。なお、ベクトルを表す記号は、数式や図面においは、記号の上に矢印を付して表記するが、以下の文章中では、記号の前に「ベクトル」と表記する。

まず、（１）式に示すサンプルセットを用意し、これを学習データとする。

サンプルの番号ｉは、例えば企業を識別する番号である。ｉ番目のサンプルは、（ベクトルｘi，ｃi）である。ｘiは、サンプル番号ｉの企業における財務指標の少なくとも一部であり、説明変数とも呼ばれる。以下の表は財務指標一覧の一例を示す図である。この図は、「企業倒産予知情報の形成」白田佳子著、中央経済社に開示されたものとほぼ同じである。

財務指標の一覧が表１で表される場合、ベクトルｘiには表１に列挙された財務指標の少なくとも一部が含まれる。ベクトルｘiのｊ番目の成分をｘij（ｊ＝1,…,ｎ）と書くことにする。ｊ番目の成分は財務指標の一覧におけるｎj番目の指標と対応する。つまり、ｘijは企業ｉの財務指標ｎjの値である。

例えば、財務指標のベクトルｘiが例えばｊ＝1,2,…,7の成分を持っていたとすると、｛外部負債依存率, 買入債務回転期間, 総資産運転資本率, 売上高税引前当期利益率, 一人当り売上高, 総資本回転率, 一人当り販管費｝なる、財務指標のベクトルｘiが得られる。

ｉ番目のサンプル（ベクトルｘi，ｃi）におけるｃiは、企業ｉが１年以内に倒産するかどうかを示すものであり、０（非倒産）または１（倒産）を取る非説明変数である。倒産とは、銀行取引停止処分、会社更生法、商法による会社整理、民事再生法、破産、特別清算等を表し、休業、廃業、解散、人員整理、手形ジャンプなどは特に取引先に重大な被害を与えていないことを勘案して倒産とはしない。ただし、倒産の定義はモデルの運用を踏まえて自由に変更してもかまわない。

図１のモデル作成部１は、まず、予め与えられた確率モデルＱ(ｃ｜ベクトルｚ)により、（２）式に基づいて、各サンプルの確率Ｑ(ｃ｜ベクトルｘi)を計算しておく（図２のステップＳ１）。（２）式は、ロジットモデルに基づいている。

（２）式のパラメータ（α，ベクトルβ）は、以下の（３）式で算出される対数尤度ｌ(D，Ｑ）が最大となるように設定される。

このようなパラメータ（α，ベクトルβ）を算出することは、いわゆる凸問題であるため、ニュートン法や最急降下法などのよく知られた手法で、簡易かつ最適な値が得られる。得られたパラメータ（α，ベクトルβ）とこの場合の確率モデルＱを、各記号の上に「＾」を付けて表記することにすると、（４）式で表される（ステップＳ２）。

次に、モデル作成部１は、各サンプルごとに、荷重値（＝重み）ｗ^t＝｛ｗ^t ₁,…,ｗ^t _N｝を計算する（ステップＳ３）。このとき、荷重値ｗ^t _i（ｉ＝1,…,N）は（５）式で表される。

ただし、ｚ_tは（６）式で表される。

実際に１年以内に倒産していればｃ_i＝１である。このとき、１−ｃ_i＝０となり、（５）式中の括弧内は倒産しない確率を表す。逆に、１年以内に倒産していなければ、ｃ_i＝０となり、（５）式中の括弧内は倒産する確率を表す。

このように、（５）式中の括弧内は、現実に起こった事象とは反対の事象が生じる確率を表しており、荷重値ｗ^tは現実に起こらなかった事象が発生するとモデルで推定した確率を表す。この荷重値ｗ^tを各サンプルに乗じることは、実際に発生しなかった事象を大きく推定したサンプルに大きな荷重値を掛けることになる。従って、次回の学習では、このサンプルを強調してモデルを作成するというように直感的に解釈できる。

ここで、目的関数をｌ(ｗ，Ｄ，Ｐ)と表記することにする。Ｐはこれから新しく求める重みｗに対応した確率モデルであり、本実施形態ではロジットモデルを考える。Ｐは（７）式で表される。

目的関数ｌ(ｗ，Ｄ，Ｐ)は重みｗにより重み付けした分布に対する対数尤度とする。このとき、（８）式で表される。

（８）式の目的関数を最大化するようにパラメータ（α，ベクトルβ）を定めることで、重み付けした分布に対するモデルを得ることができる（ステップＳ４）。

算出された最終的なパラメータに対応するモデルを（９）式で表し、（１０）式に基づいて、確率モデルＱ'(ｃ｜ベクトルｚ)を算出する（ステップＳ５）。

（１０）式により、財務指標がベクトルｚである企業が１年以内に倒産する確率を算出することができる。

図１のモデル作成部１は、（１０）式の確率モデルＱ'(ｃ｜ベクトルｚ)を第２記憶部３に記憶する。

その後、入力部４を介して、ある企業の特定の財務指標が入力されると、確率算出部５は、第２記憶部３に記憶されている（１０）式のベクトルｚに、入力部４から入力された特定の財務指標で生成されるベクトルを入力して、この企業が１年以内に倒産する確率を算出する。

このように、第１の実施形態では、複数の企業のそれぞれについて、財務指標に基づいて倒産確率に関する確率モデルを生成する。このとき、実際に倒産が発生しなかったサンプルに対して大きな荷重値を掛けるようにして、次回の学習では、倒産が発生しなかったサンプルを強調して確率モデルを生成する。このようにして得られた確率モデルを記憶しておく。したがって、ある企業の特定の座標指標が入力されたときに、迅速に企業の倒産確率を簡易かつ精度よく算出することができる。

（第２の実施形態）
第１の実施形態は、企業の倒産確率を算出する例を説明したが、第２の実施形態は、種々の事象の発生確率を算出できるように、第１の実施形態を一般化したものである。

第２の実施形態では、（１１）式で表されるサンプルセットを用意し、これを学習データとする。

サンプルの番号をｉとすると、ｉ番目のサンプルは（ベクトルｘi，ｃi）で表される。ここで、ベクトルｘiは説明変数であり、ｘiのｊ番目の成分は、ｘij（ｊ＝1,…,n）で表される。ｃは「０」か「１」を取りうる非説明変数である。

予め与えられた確率モデルＱ(ｃ｜ベクトルｚ）により、各サンプルの確率Ｑ（ｃ｜ベクトルｘ）を計算する。

次に、（１２）式に基づいて各サンプルごとに荷重値（＝重み）ｗ＝｛ｗ₁,…,ｗ_N｝を計算する。

（１２）式中のｚ_ｔは（１３）式で表される。

ここで、目的関数をｌ(ｗ，Ｄ，Ｐ)と表記する。Ｐはこれから新しく求める重みｗに対応した確率モデルである。本実施形態では、目的関数を、重みｗにより重み付けした分布に対する対数尤度とする。この場合、目的関数ｌ(ｗ，Ｄ，Ｐ)は（１４）式で表される。

目的関数は、必ずしも対数尤度でなくてもよく、AICやTICなどの他の関数を用いてもよい（なお、AICやTICについては、竹内啓：「情報統計量の分布とモデルの適切さの基準」、数理科学、No. 153 (1976) p12-18.を参照）。

ここで、P_θ(ｃ｜ベクトルｚ）がθをパラメータとするパラメトリックモデルであるとき、目的関数ｌ(ｗ，Ｄ，Ｐ_θ)は（１５）式で表される。

（１５）式の目的関数を最大化するようにθを定めることで、重み付けした分布に対するモデルを得ることができる。

他の目的関数の例として、（１６）式に示す二乗誤差を用いることもできる。

この場合、目的関数を最小化することで、重み付けした分布に対するモデルを得ることができる。

以下では、目的関数を最大化または最小化することにより得られるθの最適解を、θの上に「＾」を付けて表す。

ここでは、Ｐθ(ｃ｜ベクトルｘ)として、図３に示すニューラルネットワークを考える。図３のニューラルネットワークの出力をＰ_θ(１｜ベクトルｘ)とみなす。ニューラルネットワークでは、ノード間の枝に対応した荷重値とノードに対応した閾値をパラメータθと考える。

また、Ｐ_θ(０｜ベクトルｘ)＝１−Ｐ_θ(１｜ベクトルｘ)として計算し、上述した（１５）式により目的関数を算出する。そして、この目的関数が最大となるようにθを決定することで、パラメータが決定される。（１５）式の目的関数の代わりに、近似式である以下の（１７）式を用いて目的関数を算出してもよい。

（１７）式の目的関数を採用する場合は、目的関数を最小化することで、パラメータθの最適解を算出する。

算出されたパラメータθの最適解に対応するモデルを、（１８）式で表記することにする。

次に、（１９）式に基づいて、最終的な確率モデルを算出する。

（１９）式で算出した確率モデルを、図１の第２記憶部３に記憶しておけば、ベクトルｚに所定の説明変数を与えることで、ある事象の発生確率を簡易かつ精度よく算出することができる。

このように、第２の実施形態では、種々の事象について、予め（１９）式に基づいて確率モデルを算出して第２記憶部３に記憶しておくため、その事象の発生（または発生しない）確率を簡易かつ精度よく算出することができる。

（第３の実施形態）
上述した第２の実施形態では、（１９）式に示す確率モデルを１回だけ算出しているが、重みｗを更新しながら確率モデルの算出を所定回数繰り返し行って、最終的な確率モデルを算出してもよい。

図４は本発明の第３の実施形態に係る確率モデル作成システムの処理手順を示すフローチャートである。まず、以下の（２０）式で表されるデータセットを用意して学習データとする。

サンプルの番号をｉとすると、ｉ番目のサンプルは（ベクトルｘi，ｃi）で表される。ｔは世代を表すものとし、初期状態ではｔ＝１とする。ベクトルｘiは説明変数であり、ベクトルｘiのｊ番目の成分はｘij（ｊ＝1,…,n）で表される。ｃiは非説明変数であり、「０」か「１」を取る。

まず、ｔ＝１の場合の荷重値（＝重み）ｗ¹として、（２１）式のように初期設定する（ステップＳ１１）。

なお、ｔ回目の荷重値ｗ^tは、各サンプル（ｉ＝1,2,…,N）ごとに、ｗ^t＝｛ｗ^t ₁,…,ｗ^t _N｝で表される。

次に、（２２）式に示すように、目的関数ｌ(ｗ^t,Ｄ,Ｐθ)が最大になるように、θを決定する（ステップＳ１２）。

目的関数ｌ(ｗ^t,Ｄ,Ｐ_θ)が最大になる確率モデルＰ(t)(ｃ｜ベクトルｘ)は、（２３）式で表される。この確率モデルＰ(t)(ｃ｜ベクトルｘ)は、各回ごとに図１の第１記憶部２に記憶しておく。

例えば、確率モデルＰ_θ(ｃ｜ベクトルｘ)として、ニューラルネットワークを考え、ニューラルネットワークの出力をＰ_θ(１｜ベクトルｘ)とする。ニューラルネットワークでは、ノード間の枝に対応した荷重値とノードに対応した閾値をパラメータとして考える。

また、Ｐ_θ(０｜ベクトルｘ)＝１−Ｐ_θ(１｜ベクトルｘ)として計算し、上述した（２２）式を用いて目的関数を定義する。そして、この目的関数が最大となるようにθを決定することで、パラメータを決定できる。目的関数は、近似的に（２４）式のように置き換えてもよい。

（２４）式の目的関数を採用する場合、目的関数を最小化することで、パラメータθの最適解を算出できる。算出されたパラメータθの最適解に対応する確率モデルＰ(t)(ｃ｜ベクトルｘ)は、上述した（２３）式で表される。

次に、（２５）式に従って、次回の重みｗ^t+1を算出する（ステップＳ１３）。

ここで、ｚ_tは、（２６）式で表される。算出された重みは、各回ごとに図１の第１記憶部２に記憶しておく。

次に、終了条件を満たしたか否かを判定する（ステップＳ１４）。終了条件を満たさなければ、ｔを「１」だけインクリメントして（ステップＳ１５）、ステップＳ１２以降の処理を繰り返す。

ここで、終了条件としては、以下のようなものが考えられる。

（１）回数を指定する場合であり、ｔが一定の数を上回る。

（２）重み付けした分布に対してまったく学習できない場合。すなわち、ｌ_t(θ)−ｌ^1/2が予め定めた値Δよりも小さくなった場合である。ここで、ｌ^1/2は、すべてのｉ（ｉ＝1,2,…,Ｎ）に対して、Ｐ(t)(ｃi｜ベクトルｘi)＝1/2となる目的関数の値である。

（３）元の分布に対して学習できない場合。この場合、ｌ₁(Ｑ^(t-1))≧ｌ₁(Ｑ^t)となる。この処理を実行する場合、毎回Ｑ^tを算出する必要がある。

（４）評価用サンプルに対する目的関数を改善できない場合。評価用サンプルＤ'を用いて、（２７）式を定義しておき、ｌ'₁(Ｑ^(t-1))≧ｌ'₁(Ｑ^(t))となる場合。

終了条件を満たせば、（２８）式に従って最終的な確率モデルＱt(ｃ｜ベクトルｚ)を算出する（ステップＳ１６）。

このように、第３の実施形態では、重みを更新しながら繰り返し確率モデルを算出して最終的な確率モデルを得るため、学習結果を十分に考慮に入れた精度の高い事象の発生確率を求めることができる。

（第４の実施形態）
第４の実施形態は、第３の実施形態を拡張して、企業の信用リスクの予測を行うものである。

まず、（２９）式で示すデータセットを用意して、学習データとする。

ベクトルｘiのｊ成分は、第１の実施形態と同様に財務指標を表す。上述した表１にある財務指標ID1〜ID67を全集合Ω＝｛ｘ₁,…,ｘ₆₇｝とし、ベクトルｘ_i＝（ｘ_i1,…,ｘ_i67）とする。また、（３０）式を満たす部分集合Ａを定義する。

ベクトルｘ^(A)は、部分集合Ａに対応した添え字のベクトルである。例えば、ベクトルｘ^({2,5,6})＝(ｘ₂,ｘ₅,ｘ₆)である。また、訓練用データＤと評価用データＤ'を用意する。

サンプル番号（企業番号）をｉとし、ｉ番目のサンプルは（ベクトルｘ_i,ｃ_i）で表される。また、ｔは世代を表し、初期状態ではｔ＝１である。非説明変数ｃは、「０」（非倒産）か、「１」（倒産）である。

第１世代の訓練用データＤ⁽¹⁾＝Ｄと評価用データＤ'⁽¹⁾＝Ｄは、全業種のデータであるが、このうちの製造業だけを取り出したデータを第２世代とし、それぞれＤ⁽²⁾とＤ⁽²⁾ 'とする。

製造業で規模の大きな（例えば従業員数30名以上の）企業のサンプルをそれぞれＤ⁽³⁾とＤ⁽³⁾ 'とする。この例では新世代のデータは旧世代のデータに含まれており、（３１）式が成立するが、必ずしもこれを満たさなくてもよい。

まず、ｔ＝１の場合の荷重値（＝重み）ｗ¹を、（３２）式のように初期設定する。

ここで、各サンプル（ｉ＝1,2,…,N）ごとの荷重値ｗ^tは、ｗ^t＝｛ｗ^t ₁,…,ｗ^t _N｝で表される。

部分集合Ａは、上述した（３０）式を満たす集合とし、ベクトルｘ(A)は、Ａに対応したベクトルである。例えば、ベクトルｘ^({2,5,6})＝（ｘ₂,ｘ₅,ｘ₆）である。１つ以上の部分集合Ａに対して、（３３）式に示す目的関数を定義する。

ここで、Ａ＝Ａ₁,…,Ａ_mとする。このとき、ｍ個の目的関数が存在することになる。この実施形態では、ロジットモデルを採用することにする。例えば、Ａ₁＝{2,5,6}の場合、ベクトルｘ^({2,5,6})＝（ｘ₂,ｘ₅,ｘ₆）となる。このときの確率モデルは、（３４）式のようになる。

（３４）式において、θ^({2,5,6})＝（α₂,α₅,α₆,β）である。

Ａ₂＝{1,5,6,12}の場合、ベクトルｘ^({1,5,6,12})＝（ｘ₁,ｘ₅,ｘ₆,ｘ₁₂）である。このときの確率モデルは、（３５）式のようになる。

（３５）式において、θ^({1,5,6,12})＝（α1,α5,α6,α12,β）である。

各Ａに対応した目的関数を最大にするθ(A)を、θ(A)の記号の上に「＾」を付けて表記することにする。

他方、各Ａに対する評価用目的関数は、評価用データＤ'と

とを用いると、（３６）式のように定義される。

（３６）式の評価用目的関数を最大にするＡを、記号Ａの上に「＾」を付けて表記することにする。この場合、（３６）式が最大となるときの確率モデルは、（３７）式のようになる。

ｔ≧２では、Ｄ(t)の各サンプルに対してＰ(t-1)(ｃ｜ベクトルｘi)を算出し、（３７）式に従ってｃと対応した事象の発生しない確率を算出する。

（３８）式と１世代前の荷重値ｗ_i ^t-1の積を取ると、ｔ世代の荷重値ｗ_i ^tは（３９）式で表される。

（３９）式中のｚ_tは、（４０）式のようになる。

次に、目的関数ｌ(W^(t),Ｄ^(t),Ｐ_θ)を最大化するようにθを設定する。ここでは、特に、重みｗtにより重み付けした分布に対する対数尤度を（４１）式のようなものとする。

各Ａに対応した目的関数を最大とするθ^(A)を、記号θ^(A)の上に「＾」を付けて表記することにする。他方、評価用データＤ^(t)'と目的関数θ^(A)の最大値とを用いると、各Ａに対する評価用目的関数は、（４２）式のように定義される。

この（４２）式を最大にするＡを、記号Ａの上に「＾」を付けて表記する。これにより、確率モデルは、（４３）式のようになる。

ｔ＝３まで、以上の処理を繰り返した後、求まった確率モデルＰ(t)(ｃi｜ベクトルｘi)を用いて、（４４）式に基づいて最終的な確率モデルを算出する。

この（４４）式の確率モデルは、図１の第２記憶部３に記憶される。この（４４）式の確率モデルのベクトルｚに、ある企業の財務指標を入力することにより、ある企業が１年以内に倒産する確率を計算することができる。

一般に、|Ｄ⁽³⁾|＜|Ｄ⁽²⁾|＜|Ｄ⁽¹⁾|、かつ|Ｄ⁽³⁾'|＜|Ｄ⁽²⁾'|＜|Ｄ⁽¹⁾'|である。規模の大きな製造業のサンプル数|Ｄ⁽³⁾|や|Ｄ⁽³⁾'|は少なく、モデルのパラメータを正確に決めるのは困難である。しかし、本手法を用いれば、全サンプルを用いて基本となるモデルＰ(1)を定めておいて、これを修正することで、全体モデルＱ(ｃ｜ベクトルｚ)を構築することができるため、精度の高いモデルが得られる。

実際、多くの場合、Ｐ(2)やＰ(3)に含まれるパラメータ数は、Ｐ(1)に含まれるパラメータ数よりも少ない。場合によっては、部分集合Ｄ(t)が小さすぎて、モデルを改善できない場合がある。この場合、Ｐ(t)(０｜ベクトルｚ)＝Ｐ(t)(１｜ベクトルｚ)＝1/2とすれば、ｔ世代目の学習結果とt-1世代目の学習結果が一致する。

このように、第４の実施形態では、基本となる確率モデルを予め作成しておき、その確率モデルを事象に応じて適宜修正することにより、精度のよい確率モデルを簡易に作成することができる。

（第５の実施形態）
第４の実施形態は、企業の信用リスクを評価する手法について説明したが、第５の実施形態は、第４の実施形態を一般化したものである。

第５の実施形態は、第３の実施形態の目的関数を最大化または最小化することによりパラメータを決定してＰ(t)(ｃi｜ベクトルｘi)を算出する処理を拡張したものである。具体的には、世代ごとに最適な説明変数の部分集合を選択する手法を実装する。

（４５）式に示す部分集合Ａを考える。

ベクトルｘ^(A)は、部分集合に含まれる要素のベクトルである。例えば、ベクトルｘ^({2,5,6})＝（ｘ₂,ｘ₅,ｘ₆）である。また、訓練用データＤと評価用データＤ'を用意しておく。そして、第３の実施形態の目的関数の代わりに、１つ以上の部分集合Ａに対して、（４６）式に示す目的関数を定義する。

ここで、Ａ＝Ａ₁,…,Ａ_mである。このとき、ｍ個の目的関数が存在することになる。この実施形態では、ロジットモデルを採用することにする。

例えば、Ａ₁＝{2,5,6}の場合、ベクトルｘ^({2,5,6})＝（ｘ2,ｘ5,ｘ6）であり、確率モデルは（４７）式のようになる。θ^({2,5,6})＝（α₂,α₅,α₆,β）である。

Ａ₂＝{1,5,6,12}の場合、ベクトルｘ^({1,5,6,12})＝（ｘ₁,ｘ₅,ｘ₆,ｘ₁₂）であり、確率モデルは（４８）式のようになる。θ^({1,5,6,12})＝（α₁,α₅,α₆,α₁₂,β）である。

各Ａに対応した目的関数の最大値θ^(A)を、記号θ^(A)の上に「＾」を付けて表記する。

また、評価用データＤ'と

とを用いて、各Ａに対して（４９）式に示す評価用目的関数を定義する。

（４９）式を最大とするＡを記号Ａの上に「＾」を付けて表記する。このようにして求まった

を用いると、（５０）式が得られる。

確率モデルを算出した後の処理は第３の実施形態と同様に行う。

（第６の実施形態）
第６の実施形態は、第３の実施形態の目的関数を最大化または最小化することによりパラメータを決定してＰ(t)(ｃi｜ベクトルｘi)を算出する処理を拡張したものである。具体的には、世代ごとに最適な種類のモデルを選択する手法を実装する。

上述した第３の実施形態において、Ｐは世代ｔごとに異なる関数族である。つまり、異なる種類のモデルＰk（ｋ＝1,…,m）を用意しておく。例えば、ｋ＝1,2,3とし、ｋ＝１はロジットモデル、ｋ＝２は中間層のノード数２のニューラルネットワーク、ｋ＝３は決定木という構成を考えることができる。

次に、（５１）式に示す目的関数を考える。

ここで、λは「１」以上の予め定められた数値とし、|θ|はモデルに含まれるパラメータ数を表す。（５１）式の第二項は、モデルに含まれるパラメータ数が多くなりすぎることに対するペナルティであり、AIC（Akaike Information Criteria）では、λ＝１である。

（５１）式の目的関数を最大にする解を、（５２）式のように表すと、このときの確率モデルは（５３）式で表される。

（５３）式の確率モデルＰが算出されると、その後の処理は第３の実施形態と同様に行う。

（第７の実施形態）
第７の実施形態は、第３の実施形態とは、重みの更新手法が異なっている。第３の実施形態では、（５４）式に従って重みの更新を行っていた。

第７の実施形態では、以下の（５５）〜（５７）式に基づいて重みの更新を行う。

（５５）〜（５７）式は、t-1までのモデルでまったく検討はずれの予測しかできないサンプルは、サンプル自体に問題があるとみなして、サンプルから除外することに対応している。式中の閾値100/Nは、世代ｔに依存して変化させてもよい。

このように、第７の実施形態では、信頼性の低いサンプルを除外して重みの更新を行うため、信頼性の高い重みを算出でき、ひいては精度の高い確率モデルを算出できる。

（第８の実施形態）
第８の実施形態は、上述した実施形態とは確率モデルＰの形式が異なるものである。

（５８）式に示す学習データＤにおいて、ｃ＝０，１の２値しか取らないとする。

また、（５９）式に示す確率モデルＰを考える。

（５９）式において、（６０）式の制約をつける。

すなわち、判別モデルを組み合わせて最良の結果を得たい場合を想定する。この場合、第３の実施形態で尤度が最大となるように確率モデルＰを導出するのと同様の結果を、異なる手法で実現することができる。以下、その手法を説明する。

（６１）式が成立すれば正解、（６２）式が成立すれば不正解とし、エラー率εtが最小になるようにｈ(ベクトルｚ)の中に含まれるパラメータを決定する。

判別モデルでは、エラー率が最小になるようにモデルを構成するため、この処理は通常の判別モデル作成に対応する。エラー率は、全サンプルに占める不正解となったサンプルの割合である。また、（６３）式が成立するとする。

算出したｈ_t(ベクトルｚ)とλ_１を、上述した（５９）式に代入することで、Ｐt(１｜ｚ)とＰt(０｜ｚ)＝１−Ｐt(１｜ｚ)が求まる。

これ以降の処理は、第３の実施形態と同様に、確率モデルＰを用いて、（６４）式に示す最終的な確率モデルＱｔ(ｃ｜ベクトルｚ)を算出する。

あるいは、各世代ごとに求まったｈ_tとλ_tを用いて、以下の（６５）式および（６６）式により、最終的な確率モデルを算出することもできる。

また、閾値をΛとして、確率モデルＱｔ(１｜ベクトルｚ)＞Λであれば、推定値１確信度Ｑt(１｜ベクトルｚ)を出力する。Ｑt(１｜ベクトルｚ)≦Λであれば、推定値０確信度Ｑt(０｜ベクトルｚ)を出力する。

特に、Λ＝1/2の場合、推定値はAdaBoostingの結果と一致するが、AdaBoostingでは確信度を算出することはできない。

（第９の実施形態）
第９の実施形態は、文字認識を行うものである。

図５（ａ）はアルファベットの「Ａ」を表す５×５のピクセルデータを示す。この図５（ａ）の各ピクセルごとに２値表現を行うと、図５（ｂ）のような結果が得られる。

本実施形態では、図５（ｂ）に示す５×５のピクセル群をベクトルｘiとして表現する。具体的には、ベクトルｘi＝（0,0,1,0,0,0,1,0,1,0,0,1,1,1,0,1,0,0,1,0,0,0,1）となる。非説明変数ｃは、文字の種別を表すとする。したがって、「Ａ」を表すｃ_A＝１となり、その他の文字に対応するｃ₀〜ｃ₉とｃ_B〜ｃ_Zはいずれも「０」となる。正確には、（６７）式で表現することができる。
(c₀, c₁, c₂, c₃, c₄, c₅, c₆, c₇, c₈, c₉, c_A, c_B, c_C, c_D, c_E, c_F, c_G, c_H, c_I, c_J, c_K, c_L, c_M, c_N, c_O, c_P, c_Q, c_R, c_S, c_T, c_U, c_V, c_W, c_X, c_Y, c_Z)
=(0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)

ここで、（６８）式に示すデータセットにおいて、各文字ごとにモデルを作成する。

各文字ごとに第１の実施形態と同様の処理により、モデル作成を行う。この結果、（６９）式のようなモデルが得られる。

図５（ａ）の入力に対して最適な解は、（Ｑ0,Ｑ1,…,Ｑ9）＝０、ＱA＝１、（ＱB,…,Ｑz）＝０である。これにより、入力された文字が「Ａ」であったことがわかる。実際には、このように明確に計算できず、ベクトルＱ＝（Ｑ0,Ｑ1,…,Ｑ9,ＱA,…,Ｑz）の中で最大の値を取る文字を回答として出力する。

このように、第９の実施形態によれば、文字認識を精度よく行うことができる。

（その他の具体例１）
第１の実施形態では、企業の倒産確率を算出する例を説明したが、本発明は、種々の事象が発生する（発生しない）確率を予測するために用いることができる。以下では、本発明を医療リスクの評価のために使用する例を説明する。

まず、（７０）式に示すサンプルセットを用意して、これを学習データとする。

（７０）式において、サンプルの番号ｉは医療業務を識別する番号である。ｉ番目のサンプルは、（ベクトルｘ_i，ｃ_i）である。ｃ_iは、医療業務ｉの実行中にエラーの発生の有無を表すもので、０（エラーなし）または１（エラーあり）を取る非説明変数である。

ここで、エラーがあっても、患者に何らかの影響が及ぶ場合とそうでない場合があるが、患者に影響の大きいエラー（事故）だけをカウントしてもよい。

ベクトルｘ_iのｊ番目の成分をｘ_ij（ｊ＝1,…,n）と表記する。エラーと相関のある事象（影響因子と呼ぶ）の一覧を用意しておき、ｊ番目の成分は影響因子の一覧におけるｎ_j番目の指標と対応する。つまり、ｘ_ijは医療業務ｉの影響因子ｎ_jの値である。表２は影響因子の一覧の一例を示している。

その後は、第１の実施形態と同様の手順で処理を行って、最終的に、医療リスクの確率を算出することができる。

（その他の具体例２）
次に、事務リスクの評価を行う例について説明する。

まず、（７１）式に示すサンプルセットを用意して、これを学習データとする。

サンプルの番号ｉは単位事務を識別する番号である。ｉ番目のサンプルは、（ベクトルｘ_i，ｃ）で表される。ここでは、一例として、銀行の営業店の事務リスクの評価を行うことを考える。

ｃ_iは定められた一定期間内（ここでは半年とする）に、単位事務ｉの実行中に損失事故の発生の有無を表すものであり、０（損失事故なし）または１（損失事故あり）を取りうる非説明変数である。

損失事故とは、実際に１円以上の損失が発生したことをいう。また、ベクトルｘ_iのｊ番目の成分をｘ_ij（ｊ＝1,…,n）と表記することにする。損失事故と相関のある事象（影響因子と呼ぶ）の一覧を用意しておき、ｊ番目の成分は影響因子の一覧におけるｎ_j番目の指標と対応する。

つまり、ｘ_ijは単位事務ｉの実行された営業店において、過去一定期間（ここでは、半年とする）に計測された影響因子ｎ_jの値である。

表３は影響因子の一覧の一例を示す表である。

影響因子の中に、過去の事務量当たりの損失事故が含まれているが、これは将来の損失事故を予測する入力として利用している。

ここで、図６のような期間T1,T2を考える。ある営業店の期間T2における事務量が10,000時間であるとし、単位事務を1000時間とする。このとき、この営業店では、期間T2に10単位の単位事務を実行したことになる。この期間内に損失事故が２件発生したとする。

また、この営業店において、期間T1に計測された結果をベクトルｘで表すと、この営業店については以下の10サンプルが生成される。
（ベクトルｘ，１）
（ベクトルｘ，１）
（ベクトルｘ，０）
（ベクトルｘ，０）
（ベクトルｘ，０）
（ベクトルｘ，０）
（ベクトルｘ，０）
（ベクトルｘ，０）
（ベクトルｘ，０）
（ベクトルｘ，０）

他の営業店についても、同様にしてサンプルを作成することができる。この問題では、損失事故が少ないことと、営業店の数がそれほど多くないため、詳細なモデルを構築することが難しい。そこで、過去に作成したモデルをＰ⁽¹⁾(ｃ＝１｜ベクトルＸ＝ベクトルｘ_i)として、サンプルセットＤを用いて、Ｐ⁽²⁾(ｃ＝１｜ベクトルＸ＝ベクトルｘ_i)を算出する。そして、この算出結果を用いて、（７２）式を算出して、最終的な確率モデルを得る。

この（７２）式により、事務量当たりの損失事故発生確率が算出される。

本発明の第１の実施形態に係る確率モデル作成システムの概略構成を示すブロック図。図１のシステムの処理手順の一例を示すフローチャート。ニューラルネットワークの一例を示す図。本発明の第３の実施形態に係る確率モデル作成システムの処理手順を示すフローチャート。（ａ）は文字「Ａ」のピクセルデータ、（ｂ）は（ａ）を２値表現したデータを示す図。期間T1,T2を説明する図。

符号の説明

１モデル作成部
２第１記憶部
３第２記憶部
４入力部
５確率算出部

Claims

所定の事象を説明するための１つ以上の変数を含む説明変数と該説明変数に応じた値を取る非説明変数とを組とするサンプルの集合である学習データの各サンプルごとに、予め用意された確率モデルに基づいて、前記非説明変数の値に対応する確率を算出するステップと、
該算出された確率に基づいて、学習データの各サンプルに対する重みを算出するステップと、
算出された重みと前記学習データとに基づいて新たな確率モデルを作成してモデル記憶装置に記憶するステップと、
前記モデル記憶装置に記憶された確率モデルを用いて、前記説明変数と同じデータ形式の入力パラメータに対して、前記事象が発生または発生しない確率を算出するステップと、を備えることを特徴とする確率モデル作成方法。
前記重みを算出するステップは、前記非説明変数の値に対応する確率を算出するステップにより前記事象が発生する確率を算出した場合には、前記事象が発生しない確率を算出した結果に比例した前記重みを算出することを特徴とする請求項１に記載の確率モデル作成方法。
前記重み、前記学習データおよび所定のパラメータを用いて定義される目的関数の値が最大または最小になるように、前記所定のパラメータの値を設定するステップを備え、
前記目的関数の値が最大または最小になるときの前記所定のパラメータを用いて、前記新たな確率モデルを作成することを特徴とする請求項１または２に記載の確率モデル作成方法。
所定の事象を説明するための１つ以上の変数を含む説明変数と該説明変数に応じた値を取る非説明変数とを組とするサンプルの集合である学習データの各サンプルごとに、予め用意された確率モデルに基づいて、前記非説明変数の値に対応する確率を算出するステップと、
該算出された確率に基づいて、学習データの各サンプルに対する事象が発生しない確率を算出し、該算出された事象が発生しない確率に比例した重みを算出するステップと、
算出された重みと前記学習データとに基づいて新たな確率モデルを作成するステップと、
前記算出された重みを用いて、所定回数、前記重みを算出するステップと前記新たな確率モデルを作成するステップとの処理を繰り返し行った後、各回ごとに算出された確率モデルに基づいて、最終的な確率モデルをモデル記憶装置に記憶するステップと、
前記モデル記憶装置に記憶された確率モデルを用いて、前記説明変数と同じデータ形式の入力パラメータに対して、前記事象が発生または発生しない確率を算出するステップと、を備えることを特徴とする確率モデル作成方法。
前記最終的な確率モデルは、各回ごとに算出された確率モデルを互いに掛け合わせて得られた積を含むことを特徴とする請求項４に記載の確率モデル作成方法。
前記重み、前記学習データおよび所定のパラメータを用いて定義される目的関数の値が最大または最小になるように、前記所定のパラメータの値を設定するステップを備え、
各回ごとに、前記目的関数の値が最大または最小になるときの前記所定のパラメータを用いて、前記新たな確率モデルを作成することを特徴とする請求項４または５に記載の確率モデル作成方法。
前記目的関数が改善されなくなった時点で、前記最終的な確率モデルを前記モデル記憶装置に記憶することを特徴とする請求項４乃至６のいずれかに記載の確率モデル作成方法。
前記学習データは、訓練用データと評価用データとを有し、
前記目的関数は、重みと訓練用データとで定義される訓練用目的関数と、重みと評価用データとで定義される評価用目的関数とを有し、
前記訓練用目的関数および前記評価用目的関数の値が最大または最小になるように、前記所定のパラメータの値を設定して、前記新たな確率モデルを作成することを特徴とする請求項６または７に記載の確率モデル作成方法。
所定回数、前記重みを算出するステップと前記新たな確率モデルを作成するステップとの処理を繰り返し行う際に使用する学習データを、各回毎に変更する、請求項４記載の確率モデル作成方法。
所定回数、前記重みを算出するステップと前記新たな確率モデルを作成するステップとの処理を繰り返し行う際に、確率モデルの種類を、各回毎に変更する、請求項４記載の確率モデル作成方法。