JP2009237914A

JP2009237914A - リスク要因を同定するためのリスク予測装置

Info

Publication number: JP2009237914A
Application number: JP2008083434A
Authority: JP
Inventors: Paul Topon; トポンポール; Ryohei Orihara; 良平折原
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-03-27
Filing date: 2008-03-27
Publication date: 2009-10-15

Abstract

【課題】大多数クラスのインスタンス数が少数クラスのものよりも非常に大きい不均衡なトレーニングデータを用い、イベントのリスクを正確に予測し、ターゲットリスク要因に高度に関係する属性を同定するリスク予測装置及び方法を提供する。
【解決手段】大多数クラス及び少数クラスからのインスタンスの誤分類コスト及び少数クラスの感度閾値を含み、誤分類のコストが既知の場合にはそれぞれの誤分類のコストを表し、不明である場合には少数クラスの感度閾値を表す評価パラメータを入力して、候補属性部分集合を生成し、インスタンス誤分類のトータルコストを算出し、選択された属性がインスタンスの分類に関してどの程度良好かをあらわすスコアを評価パラメータに基づいたスコアリング手順に従って算出することにより、不均衡なデータの分類について属性部分集合の優良スコアを返し、優良スコアに基づいて選択される属性部分集合に基づいてリスク予測を行う。
【選択図】図１

Description

本発明は、大多数クラスのインスタンス数が少数クラスのものよりも非常に大きい不均衡なトレーニングデータを用い、イベントのリスクを正確に予測し、ターゲットリスク要因に高度に関係する属性を同定するために用いられるリスク予測装置及びリスク予測方法に関する。

今日、様々な組織および会社では、人、デバイスおよびシステムのような実体イベントにきわめて正確に関連づけてリスクを予測可能なシステムの設計に注力している。イベントには様々な種類のものがあるが、公衆の場所における人物の異常行動、消費者金融会社のローン不履行者、人の心臓発作のような希なイベントについては、その予測が非常に困難であることから特に関心が持たれている。様々な属性に関してイベントが定義され、行動、ローン状態および血圧のようなターゲットリスク要因が決定される。そして、ターゲットリスク要因のラベルが分かっているならば、様々な実体からイベントの属性についてのデータが集められる。あるイベントにおけるターゲットリスク要因の値は、そのイベントが通常のものであるか希なものであるかを示す。通常イベントと希なイベントの解釈は問題に依存する。例えば、消費者金融会社では、ローン不履行者は希なイベントであり、ローンを返した人は通常イベントである。ビデオ監視装置では、人の異常行動は希なイベントであり、人の正常な振る舞いは通常イベントである。収集されたデータは、普通、極めて多数の通常イベントを含んでおり、希なイベントは極少数である。すなわち、データは不均衡であって、希なイベントが少数クラスを形成し、通常イベントは大多数クラスを形成する。以下、イベントのデータのことを「インスタンス」と称し、あるインスタンスにおけるターゲットリスク要因の値のことを「クラスラベル」と称する。

リスク予測システムを設計する際の第一ステップは、大多数クラス及び少数クラスからのラベル付けされたインスタンスのコレクションを用いて、トレーニング対象のモデルを設計することである。モデルの主な要素は、ｋ−最近傍（k- nearest neighbor；ｋＮＮ）クラシファイヤ、ナイーブベイズクラシファイヤ、決定木、ニューラルネットワークおよびサポートベクトルマシン（ＳＶＭ）のようなクラシファイヤである。モデルの学習とは、ｋＮＮクラシファイヤにおける最も近い隣接値（ｋ）の数、ＳＶＭにおける特異なインスタンス（サポートベクトル）の重みの値といった、要素の特異なパラメータの値を学習することである。モデルの学習が、ターゲットリスク要因に大いに関係する部分集合の属性（以下「属性部分集合」という。）を選択することを意味する場合、属性部分集合候補の優良はクラシファイヤおよびスコアリング手順を用いて評価される。

次のステップはモデルを評価することである。モデルを学習した後、その性能は、モデル学習時には用いられない確認データを用いて評価される。該性能は、モデルがターゲットリスク要因のラベルをどれくらい正確に予測するかの推定を与える。しばしば、モデル学習時に交差検定技術を用いて測定された確度は、まだ見ぬデータについてのモデル性能の尺度として用いられる。

下記特許文献１に記載のシステムでは、トレーニングデータおよび属性を無作為に再サンプリングすることにより作成された部分的なトレーニングデータの各サブモデルをトレーニングすることにより、複数の分類サブモデル（仮説）が生成される。そして、これらサブモデルはアンサンブル手順によって組み合わせられる。各サブモデルは属性部分集合の部分的なトレーニングデータによりトレーニングされることから、最終的な属性部分集合が、ターゲットリスク要因に同じレベルの関連性を持つ若干冗長な属性を含んでいたり、トレーニングデータ全体に関してより高い確度を与えるかも知れない幾つかの相補的な属性に欠ける可能性がある。

下記特許文献２には、属性部分集合の選択のために、マルコフ境界手順と共にベイジアンネットワーククラシファイヤを用いるシステムについて記載されている。しかしながら、このシステムは、不均衡なデータからの属性選択に焦点を当てていない。

下記特許文献３のシステムでは、トレーニングデータの前処理中に属性選択がなされ、サンプルを分類するためにサポートベクトルマシンが用いられる。しかしながら、このシステムは、不均衡なデータから最適な属性部分集合を選択すること、および時系列データをどのように前処理するかについての問題に対処するものではない。

下記特許文献４に記載のシステムでは、不均衡なデータのインスタンスは階層的に分類される。第一段階では、代表インスタンスを選択することにより大多数クラスのサイズを縮小する。第二段階では、大多数クラスの縮小後のインスタンスと、少数クラスのすべてのインスタンスを用いてクラシファイヤを構築する。しかしながら、このシステムは、属性部分集合の選択を行うものではない。
米国特許出願公開第２００５／００７１３０１号明細書米国特許出願公開第２００７／０００５２５７号明細書米国特許出願公開第２００５／０２１６４２６号明細書米国特許出願公開第２００３／０２０４５０７号明細書

不均衡なデータを用いて学習されるモデルによってインスタンスのクラスラベルを正確に予測することは極めて困難である。なぜなら、モデル学習時に、大多数クラスが学習のためのモデルにバイアスをかけることから、そのような学習モデルでは、少数クラスからのインスタンスのクラスラベルを正確に予測できないからである。大多数クラスからのインスタンスについてはモデルによりすべて正確に分類される一方、少数クラスからのインスタンスについてはどれひとつとして正確に分類されない場合があり得ることも分かった。少数クラスからのインスタンスの正確な予測に焦点を当ててモデルが設計されている場合、そのようなモデルは、大多数クラスからの非常に大きな数のインスタンスの分類を誤るであろう。このように、伝統的方法の多くは、大多数クラス及び少数クラスそれぞれからのインスタンスを正確に予測することにおけるトレードオフに直面する。一方のクラスの予測率が増加する場合、他方のクラスの予測率は減少する。

あるインスタンスを特徴づけるすべての属性が、必ずしも大多数クラスのインスタンスと少数クラスのインスタンスとの区別に関係するとは言えない。無関係の属性は、他の関係属性を用いて学習されたモデルの性能に否定的に影響することがある。また、無関係属性の値を取得するにはコストと時間がかかることがある。このような理由から、しばしば、モデル選択中に、関係属性部分集合の選択がなされる場合がある。ｎ個の属性があると仮定すると、２^ｎ−１個の候補属性部分集合が存在する。属性数またはデータセット内のインスタンス数が極めて多い場合には、探索空間が大きくなり計算に時間を要することから、最適な属性部分集合を全数探索することは現実的でない。そこで、候補属性部分集合の生成には遺伝的アルゴリズム（ＧＡ）のような発見的探索アルゴリズムが用いられる。しかしながら、ごく少数の属性を伴う最適な属性部分集合は、すべての発見的手法で得られるとは限らない。属性数が非常に多い場合には、属性のおよそ半分が遺伝的アルゴリズムの各候補属性部分集合において選択されてしまう。当面の問題への洞察は、ごく少数の選択された属性により与えられるのである。

あるデータセットのいくつかの属性はターゲットリスク要因に関係することが既知であるが、ターゲット要因と他の属性との関係は不明であるという場合がある。そのような場合、クラシファイヤと組み合わせてテストインスタンスのラベルを極めて正確に予測する、既知属性および未知属性を伴う属性部分集合を見つけ出す必要がある。属性部分集合選択のほとんどの伝統的方法では、データのこのような側面が考慮されていない。

時系列データについては、属性数が多く、対応する探索空間も巨大になる。例えば、６０個の属性に関するデータが毎年の健康診断の際に収集されれば、６年にわたるデータセットの属性の合計は３６０個となる。また、すべての実体について、いつの時点においてもデータが存在するとは限らない。例えば、何人かについては５年分の健康診断データがあり、別の何人かについては３年分の健康診断データしか存在しないというような場合があり得る。したがって、探索空間を縮小するか、各インスタンスを等しい長さにするなどにより適切な手順を用いて時系列データを前処理することが必要である。

場合によっては、モデルは、組織の新入社員の健康診断データのような、過去の時点のデータ（以下、「履歴データ」という。）がない新しいインスタンスのクラスラベルを予測できることが必要である。しかしながら、履歴データを持っているデータによりトレーニングされたモデルは、データに対して何らかの後処理を行なわない限り、ラベルの予測には用いることができない。

本発明はかかる事情を考慮してなされたものであり、大多数クラスのインスタンス数が少数クラスのものよりも非常に大きい不均衡なトレーニングデータを用い、イベントのリスクを正確に予測し、ターゲットリスク要因に高度に関係する属性を同定するリスク予測装置及び方法を提供することを目的とする。

本発明の一観点に係るリスク予測装置は、大多数クラス及び少数クラスからのインスタンスのそれぞれの誤分類コスト及び少数クラスの感度閾値を含み、前記誤分類のコストが既知の場合には前記それぞれの誤分類のコストを表し、前記誤分類のコストが不明である場合には前記少数クラスの感度閾値を表す評価パラメータを入力する評価パラメータユニットと、各々が選択された属性と非選択の属性とを有する複数の候補属性部分集合を発見的探索アルゴリズムにより生成する属性部分集合生成サブユニットと、クラシファイヤによりインスタンス誤分類のトータルコストを算出し、前記選択された属性がインスタンスの分類に関してどの程度良好かをあらわすスコアを前記評価パラメータに基づいたスコアリング手順に従って算出することにより、不均衡なデータの分類について属性部分集合の優良スコアを返す属性部分集合評価サブユニットと、前記優良スコアに基づいて選択される属性部分集合に基づいてリスク予測を行う予測ユニットとを具備し、前記属性部分集合評価サブユニットは、前記誤分類のコストが既知の場合には、前記不均衡なデータのモデルによりインスタンス誤分類の集約されたコストを返し、前記誤分類のコストが未知の場合には、感度と特異性情報を組み合わせることによりスコアを返し、前記モデルにより返された感度が前記閾値よりも低い場合には、感度と特異性のバランスをある程度保つ通常スコアを返し、前記モデルにより返された感度が前記閾値よりも高い場合には、加算スコアを返す。

本発明によれば、大多数クラスのインスタンス数が少数クラスのものよりも非常に大きい不均衡なトレーニングデータを用い、イベントのリスクを正確に予測し、ターゲットリスク要因に高度に関係する属性を同定するリスク予測装置及び方法を提供できる。

本発明の一実施形態は、クラシファイヤおよびスコアリング手順を用いることにより候補属性部分集合の優良スコアを返す評価サブユニットを含む。まず、候補属性部分集合において選択された属性の前処理データがクラシファイヤに与えられる。該クラシファイヤは、交差検定技術を用いてインスタンスを分類し、分類の統計量を返す。該統計量はスコアリング手順において用いられる。該スコアリング手順は、最終的には、誤分類のコストおよび感度閾値のコストに基づいたスコアを算出する。

本実施形態では、大多数クラス及び少数クラスの予測率の間のトレードオフを不均衡なデータについてのモデルにより解決するために、３パラメータ入力ユニットを用いる。該入力ユニットにより大多数クラス及び少数クラスからのインスタンスの誤分類のコストまたは少数クラスの感度閾値のいずれかが与えられる。該３つの入力パラメータの値に基づいて、適切なスコアリング手順が適用される。前記誤分類のコストが与えられるならば、前記モデルによりインスタンス誤分類の集約されたコストが返される。そうでなければ、感度と特異性情報を組み合わせることによりスコアが返される。モデルにより返された感度が閾値よりも低い場合、感度と特異性のバランスをある程度保つ通常スコアが返される。そうでなければ、加算スコアが返される。

交差検定技術を用いるインスタンスの分類中には、トレーニングインスタンスが分割される部分集合（フォールド）の数をクラシファイヤに与える必要がある。部分集合の数は、データのソースに依存する。例えば、生物学データは莫大な数の属性を有しているがインスタンスはごく少数であり、ｌｅａｖｅ−ｏｎｅ−ｏｕｔ交差検定（ＬＯＯＣＶ）が良く適合する。非生物学的なデータは莫大なインスタンス数になるが属性は少数であり、このようなデータについてはＬＯＯＣＶは適用できない。例示的実施形態では、属性数、インスタンス数およびクラス数の情報から部分集合の数を決定する方法について説明する。大多数クラスの誤分類のコストおよび少数クラスの誤分類のコストが上記入力ユニットによって与えられない場合、クラシファイヤがこれらを与える必要がある。これらの値が与えられないならば、学習後のクラシファイヤは、完全に、大多数クラスに向けてバイアスされ、多くの属性部分集合について同一の分類統計量を返すかも知れない。例示的実施形態では、大多数クラスの誤分類のコストおよび少数クラスの誤分類のコストが与えられない場合に、これらをどのようにして算出するかを示す。

本実施形態では、非常に関係のある属性部分集合を得るとともにターゲットリスク要因と属性の関係についての事前情報を利用するために、遺伝的アルゴリズムに基づいた確率的な属性部分集合生成手順を用いる。この手順は、確率ベクトルのサンプリングにより候補属性部分集合を生成する。該確率ベクトルにおける各値は、一つの属性が候補属性部分集合において選択されている確率を規定する。属性についての事前情報は確率ベクトルの初期化および更新の際に用いられる。候補属性部分集合を評価するために、該手順は、上記評価サブユニットを利用する。該手順は、無作為に生成される属性部分集合群から始まり、その各々においてはデータ属性のおよそ半分が選択されるものの、該候補属性部分集合において選択される属性の数は引き続き修正され、最終的には、高度に関係する属性部分集合を出力して終了する。

時系列データについては、属性部分集合のサイズを縮小し、各インスタンスの長さを等しくする前処理手順が用いられる。また、履歴データを持つ新しいインスタンス、または履歴データを持たない新しいインスタンスのラベルを予測するために後処理手順が用いられる。

以下、図面を参照しながら本発明の実施形態を詳細に説明する。

本発明の実施形態は、不均衡なデータセットから高度に関係する属性部分集合を抽出し、新しいインスタンスのラベルを予測するための装置、システムおよび方法である。本システムは、特に、希なイベントを高確度に予測するためのものである。

図１は、本システムの種々の入出力デバイスおよび手順を示す主要ブロック図である。本システムは５つの入力ユニット（１，２，３，４および５）を有する。ユニット１によりトレーニングデータが与えられる。ユニット２により制御パラメータの値が与えられる。ユニット３によりターゲットリスク要因と属性の関係についての事前情報が与えられる。ユニット４により予測データが与えられる。そしてユニット５により評価パラメータの値が与えられる。トレーニングデータまたはテストデータ内の各インスタンスは属性群の値からなるベクトルである。トレーニングデータにおけるすべてのインスタンスはラベル付けされる。すなわち、ターゲットリスク要因の値は既知である。しかし、予測データにおいては、ターゲットリスク要因のラベルは未知である。属性の値は数で示されてもよいし、または名詞であってもよい。データが時系列データである場合、インスタンスは、異なる時点に測定された属性の値群から成る。ここで、２つの時点における同じ属性の値は２つの属性値として扱われる。

評価パラメータ５は、大多数クラス及び少数クラスからのインスタンスの誤分類コスト（ｗ_１，ｗ_２）、および少数クラスの感度閾値（θ∈［０，１］）を含んでいる。すなわち、評価パラメータ５は、（ｗ_１，ｗ_２，θ）の値のベクトルを与える。誤分類コストが既知である場合、値のベクトルは（ｗ_１，ｗ_２，０）になり、誤分類コストが不明の場合、ベクトルは（０，０，θ）になる。誤分類コストの２つの例を以下に示す。

・医療データ：
ｗ_１：人が死亡する場合の生命保険コスト
ｗ_２：種々の医学的診断を行なうためのコスト
・信用リスクデータ：
ｗ_１：ローン不履行者の貸倒損失の額
ｗ_２：ローンを認めることにより得られる利息額
制御パラメータ２は、分類サブ−サブユニット９１１および属性部分集合生成サブユニット９２に対する種々の制御パラメータの値を与える。属性部分集合生成サブユニット９２用の制御パラメータとしては、母集団サイズ（候補属性部分集合のサイズ）、子孫サイズ（初期のイテレーション（繰り返し）後の新しい候補属性部分集合のサイズ）、イテレーション（世代）の最大値、および選択サイズ（確率ベクトルを更新するために選択する属性部分集合の数）がある。分類サブ−サブユニット９１１におけるクラシファイヤ用の制御パラメータには、例えば、ｋ−最近傍法（ｋＮＮ）クラシファイヤ用のｋの値あるいはコスト（Ｃ）、ＲＢＦカーネル用のγの値、およびサポートベクトルマシン（ＳＶＭ）の終了用のεの値がある。

属性３に関する事前情報は、ターゲットリスク要因と属性の関係についての既知の情報を与える、ターゲットリスク要因に関連づけられる属性群の確率のベクトルである。属性について何も分からない場合、対応する値には０がセットされる。これについて例を示す。データセットが９つの属性（ｆ_１，ｆ_２，ｆ_３，ｆ_４，ｆ_５，ｆ_６，ｆ_７，ｆ_８，ｆ_９）から成り、属性ｆ_５およびｆ_８がそれぞれ９０％および８０％のケース・スタディにおいてターゲットリスク要因に対して有効であることが分かっていると仮定すると、事前情報ベクトルは（０，０，０，０，０．９０，０，０，０．８０，０）になる。

トレーニングデータセットを所与として、該システムにおける第一ステップはデータを前処理することである。これはデータ前処理ユニット８を用いて行われる。どのような種類の前処理がなされるかはデータに依存する。例えば、時系列データにおいて、以前の時点における一の属性についての複数の値を、属性部分集合の探索空間を縮小し、または各トレーニングインスタンスを等しい長さにするために、１つの値に集約してもよい。データセットによっては、欠測値の処理が必要であるかもしれない。値集約のステップを図１０に示す。まず、属性のデータ型を得る（ステップＳ８３１）。データ型は数であったり、名詞であるかもしれない。データ型によって（ステップＳ８３２）、名詞語句の値（ステップＳ８３３）または数値（ステップＳ８３４）のいずれかを推定する。名詞語句の値を返す関数ｆ_ｎｏｍ（ｖ_１，ｖ_２，．．．，ｖ_ｎ）の一例は、「モード（最頻値）」関数である。これは、頻出値を返す。例えば、名詞属性「飲酒頻度」の値が（毎日、週１回、毎日、週１回、月１回、毎日、月１回、毎日、毎日）である場合、「飲酒頻度」についての集約された名詞語句の値は「毎日」になる。数値を返す関数ｆ_ｎｕｍ（ｖ_１，ｖ_２，．．．，ｖ_ｎ）の例は、「最大値関数」、「最小値関数」、そして「アベレージ」関数である。時系列データおよび非時系列データにおける欠測値は、種々の方法で処理される（図１１）。まず、値が欠けているかどうかを調べる（ステップＳ８４１）。値が欠けている場合、次に、当該データが時系列データであるかそれとも非時系列データであるかを調べる（ステップＳ８４２）。データが時系列データである場合には、同じ実体の種々の時点での属性の値群を求めるのであるが（ステップＳ８４３）、データが非時系列データである場合には、異なる実体の属性の値群を得るようにする（ステップＳ８４４）。次に、上述した（図１０の）値集約手順を用いて、集約値を推定する（ステップＳ８４５）。

ユニット９は属性部分集合選択ユニットであり、２つのサブユニット、すなわち属性部分集合評価サブユニット９１および属性部分集合生成サブユニット９２から構成される。属性部分集合評価サブユニット９１は２つのサブ−サブユニット、すなわち分類サブ−サブユニット９１１およびスコア計算サブ−サブユニット９１２を含んでおり、属性部分集合の優良スコア、すなわち選択された属性はインスタンスの分類に関してどの程度良好かをあらわすスコアを返す。

分類サブ−サブユニット９１１は、ｋＮＮ、ＳＶＭ、決定木およびニューラルネットワークのようなクラシファイヤを含んでおり、制御パラメータ２、交差検定フォールド決定ユニット６およびコスト計算ユニット７から種々のパラメータの値を得る。クラシファイヤは、属性部分集合に選択属性の前処理データを含んでいるインスタンスを交差検定技術を用いて分類し、真の陽性（ＴＰ）、真の陰性（ＴＮ）、偽陽性（ＦＰ）および偽陰性（ＦＮ）の数を返す。交差検定フォールド決定ユニット６は、トレーニングインスタンスを分割して得られる部分集合の数を決定する。図５は、フォールド数を決定する模範的な手順を示している。マイクロアレイデータセットの場合のように、データセットによっては属性数がインスタンス数よりも非常に大きくなったり、インスタンス数が属性数よりも非常に大きくなる場合がある。

インスタンス数が閾値τよりも大きいかどうかによって（ステップＳ６１）、トレーニングインスタンスをインスタンスの分類中に分割して得られる部分集合の数として、Ｆ（ステップＳ６２）またはインスタンス数（ステップＳ６３）のいずれかを返す。Ｆの値は２、５、１０などである。交差検定において、部分集合の数がインスタンス数と等しい場合、そのような交差検定はｌｅａｖｅ−ｏｎｅ−ｏｕｔ交差検定と呼ばれる（ＬＯＯＣＶ）。τの値の一例は以下の通りである。

τ＝１０＊Ｎｕｍｂｅｒ＿ｏｆ＿ｃｌａｓｓｅｓ（クラス数）＊Ｎｕｍｂｅｒ＿ｏｆ＿ｆｅａｔｕｒｅｓ（属性数）。

図４において、コスト計算ユニット７内部のステップのフローを示す。ここでは、大多数クラスの誤分類のコスト、および少数クラスの誤分類のコストを決定する。ｗ_１およびｗ_２の両方が０以上であるか否かによって（ステップＳ７１）、コスト計算ユニット７は、供給された値を用いるか（ステップＳ７３）、クラス分布からコストを算出する（ステップＳ７２）。クラス分布からコストを計算する例を次に示す。

少数クラスのコスト＝大多数クラスにおけるインスタンス数／トレーニングデータにおけるインスタンスの合計数
大多数クラスのコスト＝少数クラスにおけるインスタンス数／トレーニングデータにおけるインスタンスの合計数
インスタンス分類中のステップのフローを図２に示す。まず、カウンタＴＰ、ＴＮ、ＦＰおよびＦＮの各々を０にセットする（ステップＳ９１１１）。次に、インスタンスを分類し、４つの統計量すなわちＴＰ、ＴＮ、ＦＰおよびＦＮを交差検定を用いて決定する。Ｆ−フォールド交差検定では、トレーニングインスタンスは、Ｆの部分集合に無作為に分割される（ステップＳ９１１２）。クラシファイヤをＦ回トレーニングし、テストする。各時点ｉ（ｉ＝１，２，．．．，Ｆ）において、部分集合ｉにおけるインスタンスはテストインスタンスとして扱われ（ステップＳ９１１３）、残りのインスタンスはクラシファイヤをトレーニングするために用いられる（ステップＳ９１１４およびＳ９１１５）。その後、部分集合ｉにおけるインスタンスのラベルを予測する（ステップＳ９１１６）。また、４つのカウンタＴＰ、ＴＮ、ＦＰおよびＦＮを更新する（ステップＳ９１１７）。Ｆ回のイテレーション（繰り返し）の後、最終的なＴＰ、ＴＮ、ＦＰおよびＦＮを得る。これらはスコア計算サブ−サブユニット９１２において用いられる（ステップＳ９１１９）。ｋＮＮクラシファイヤを用いてテストインスタンスのラベルを予測する例を図８に示す。まず、選択された属性のデータを得る（ステップＳ９１１６１およびＳ９１１６２）。トレーニングインスタンスにおいて、最も近い距離にあるｋ個のインスタンスを決定する（ステップＳ９１１６３）。そして次に、それらのクラスラベルを求める（ステップＳ６１１４）。最終的には、重み付き多数決投票によってテストインスタンスのラベルを予測する（ステップＳ６１１５）。

スコア計算サブ−サブユニット９１２は属性部分集合について適切なスコアを返す役割を担っている。図３は、３つの入力パラメータ（ｗ_１，ｗ_２，θ）、およびクラシファイヤによって返された統計量（ＴＰ，ＴＮ，ＦＰ，ＦＮ）に基づいて、属性部分集合のスコアがどのように算出されるかを示している。感度閾値（θ）（ステップＳ９１２１）の値によって、スコア計算サブ−サブユニット９１２は、誤って分類されたインスタンスのトータルコストを返すか（ステップＳ９１２２）、または感度および特異性情報を用いてスコアを返す（ステップＳ９１２５およびＳ９１２６）。ここで、スコア計算のいくつかの例を挙げて、本システムがどのように動作するかを示す。しかしながら、本実施形態のシステムは以下の例に限定されない。他のスコア計算手順が用いられてもよい。トータルコスト計算の２つの例を以下に示す。

ｆ（ｗ_１，ｗ_２，ＴＰ，ＴＮ，ＦＰ，ＦＮ）＝ｗ_１＊ＦＮ＋ｗ_２＊ＦＰ（１）

通常スコア（ステップＳ９１２６）の３つの例は以下の通りである。

ｆ（ＴＰ，ＴＮ，ＦＰ，ＦＮ）＝１／２（ｓｅｎｓｉｔｉｖｉｔｙ（感度）＋ｓｐｅｃｉｆｉｃｉｔｙ（特異性））（４）
ｆ（ＴＰ，ＴＮ，ＦＰ，ＦＮ）＝（２＊ｐｒｅｃｉｓｉｏｎ（精度）＊ｒｅｃａｌｌ（再現度））／（ｐｒｅｃｉｓｉｏｎ＋ｒｅｃａｌｌ）（５）
ただし、
ｓｅｎｓｉｔｉｖｉｔｙ＝ｒｅｃａｌｌ＝ＴＰ／（ＴＰ＋ＦＮ）であり、
ｓｐｅｃｉｆｉｃｉｔｙ＝ＴＮ／（ＴＮ＋ＦＰ）であり、
ｐｒｅｃｉｓｉｏｎ＝ＴＰ／（ＴＰ＋ＦＰ）である。

加算スコア（ステップＳ９１２５）の３つの例を以下に示す。

φ（λ，ＴＰ，ＴＮ，ＦＰ，ＦＮ）＝λ√ｆ（ＴＰ，ＴＮ，ＦＰ，ＦＮ）（６）
φ（λ，ＴＰ，ＴＮ，ＦＰ，ＦＮ）＝λ＋ｆ（ＴＰ，ＴＮ，ＦＰ，ＦＮ）（７）
φ（λ，ＴＰ，ＴＮ，ＦＰ，ＦＮ）＝λ＊ｆ（ＴＰ，ＴＮ，ＦＰ，ＦＮ）（８）
ただし、ｆ（ＴＰ，ＴＮ，ＦＰ，ＦＮ）∈［０，１］は通常スコアであり、λ＞１例えばλ＝２は加算パラメータである。

属性部分集合生成サブユニット９２は遺伝的アルゴリズムをベースにした手順を用いて、多数の候補属性部分集合を生成する。該サブユニットは、候補属性部分集合の母集団および確率ベクトルを保持する。各候補属性部分集合は０と１を要素とするベクトルである。ベクトル内の値が１である場合、対応する属性は選択されており、そうでなければ、該属性は選択されていない。例えば、データセットが１０個の属性を持つ場合、（１，０，１，０，１，０，１，０，０，１）は、１番目、３番目、５番目、７番目および１０番目の属性が選択されている候補属性部分集合である。確率ベクトルにおける値Ｐ（Ｘ_ｉ，ｔ）は、イテレーションｔにおいて候補属性部分集合内の属性Ｘ_ｉが選択される確率を示す。図６に、属性部分集合生成サブユニット９２内のステップシーケンスを示す。まず、確率ベクトルを次のように初期化する（ステップＳ９２０１）。

Ｐ（Ｘ_ｉ，０）＝ｐ_ｉ（ｐ_ｉ＞０のとき）；０．５（それ以外のとき）（９）
ただし、ｐ_ｉはターゲットリスク要因と属性の関係についての事前情報である。

次に、ｑ個の候補属性部分集合を確率ベクトルのサンプリングにより生成する（ステップＳ９２０３）。ｑの値はイテレーションに依存する。最初のイテレーションにおいて、ｑは母集団のサイズである（ステップＳ９２０２）が、続くイテレーションにおいて、ｑは子孫（新しい候補属性部分集合）のサイズである（ステップＳ９２１０）。図７（ステップＳ９２０３１〜Ｓ９２０３６）は、確率ベクトルを用いて候補属性部分集合がどのように生成されるかを示している。

次に、評価サブユニット９１を用いて属性部分集合を評価し、優良スコアを付す（ステップＳ９２０４）。評価の後に、終了判定基準を満たすかどうかを調べる（ステップＳ９２０５）。終了判定基準の幾つかは以下のとおりである。

Ｉ．最大回数のイテレーションが行われた。

ＩＩ．感度＝１．０および特異性＝１．０である。

あるいはｉｉｉ．連続５回のイテレーションにおいて最良スコアの向上が見られない。

終了判定基準を満たす場合、属性部分集合生成ユニット９２はこれまでに見つかった最良の属性部分集合を返す（ステップＳ９２１１）。そうでなければ、当該イテレーションが最初のイテレーションであるかどうかを判定する（ステップＳ９２０６）。最初のイテレーションを除く他のイテレーションでは、直前のイテレーションの下位ランクの候補属性部分集合を、新たに生成された候補属性部分集合で置き換えることにより、新たな母集団を作成する（ステップＳ９２０７）。ＱおよびＯが母集団サイズおよび子孫サイズを意味し、Ｏ＜Ｑであると仮定する。そうすると、新しい母集団は、直前のイテレーションからの（Ｑ−Ｏ）の最良候補属性部分集合を含み、新たに候補属性部分集合を生成したＯを含むことになる。次のステップ（ステップＳ９２０８）において、最上位ランクからＴ個の候補属性部分集合を選択する。ただし、Ｔは選択サイズである。選択候補属性部分集合を用いて、確率ベクトルを以下のように更新する（ステップＳ９２０９）。

Ｐ（Ｘ_ｉ，ｔ＋１）＝ｐ_ｉ（ｐ_ｉ＞０のとき），ψ（Ｐ（Ｘ_ｉ，ｔ），Ｍ（Ｘ_ｉ，ｔ））（それ以外のとき）（１０）
ただし、ｐ_ｉはターゲットリスク要因と属性Ｘ_ｉの関係についての事前情報であり、Ｍ（Ｘ_ｉ，ｔ）は選択候補属性部分集合内の属性Ｘ_ｉの確率分布であり、ψ（Ｐ（Ｘ_ｉ，ｔ），Ｍ（Ｘ_ｉ，ｔ））は０と１の間の値を返す関数である。

例えば関数ψ（Ｐ（Ｘ_ｉ，ｔ），Ｍ（Ｘ_ｉ，ｔ））は、”Ｇｅｎｅｓｅｌｅｃｔｉｏｎｆｏｒｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｃａｎｃｅｒｓｕｓｉｎｇｐｒｏｂａｂｉｌｉｓｔｉｃｍｏｄｅｌｂｕｉｌｄｉｎｇｇｅｎｅｔｉｃａｌｇｏｒｉｔｈｍ” ｂｙＰａｕｌａｎｄＩｂａ［Ｂｉｏｓｙｓｔｅｍｓ，Ｖｏｌｕｍｅ８２，Ｉｓｓｕｅ（３，Ｄｅｃｅｍｂｅｒ２００５），Ｐａｇｅｓ２０８−２２５］において開示され、ψ（Ｐ（Ｘ_ｉ，ｔ），Ｍ（Ｘ_ｉ，ｔ））＝αβＰ（Ｘ_ｉ，ｔ）＋（１−α）（１−β）Ｍ（Ｘ_ｉ，ｔ）（１１）である。

α∈［０，１］は学習率と呼ばれ、各イテレーションで一定である。また、β∈［０，１］は乱数であり、各イテレーションで変化する。

リスク予測ユニット１１は、データ型に基づいて設計される（図９）。まず、テストインスタンスのデータを前処理する（ステップＳ１１１）。しばしば、ここでの前処理はデータ前処理ユニット８での前処理と同じものであって、例えば欠測値の処理などを行う。実施の形態によっては、ここでの前処理がデータ前処理ユニット８における前処理とは異なるものであってもよい。何ら前処理を必要としない実施形態もあり得る。次に、データの型をチェックする（ステップＳ１１２）。該データが非時系列データである場合、予測データからのテストインスタンスのラベルを図８のステップに従って予測してもよい。時系列データについては、予測データからのテストインスタンスが履歴データを持っていてもよいし、そうでなくてもよい（ステップＳ１１３）。テストインスタンスが履歴データを持つ場合、現在データおよび履歴データの連結により新しいインスタンスを作成する（ステップＳ１１５およびＳ１１６）。そして、残りのインスタンスは、トレーニングデータとして用いる（ステップＳ１１７）。テストインスタンスが履歴データを持たない場合、履歴データの排除によりトレーニングデータを作成する（ステップＳ１１４）。次いで、非時系列データの場合と同様のステップに従って新しいテストインスタンスのラベルを予測する（ステップＳ１１８）。

高度に関係する属性部分集合１０は、ステップ９２１１において属性選択ユニット９により選択された最良の属性部分集合を含む出力単位である。予測値１２は、予測データ４からのテストインスタンスについて予測したクラスラベルを含む出力単位である。

（動作についてのいくつかデータセット例）
（健康診断データおよびライフスタイルデータ）
近年、心臓病および糖尿病にかかるリスクを増加させるメタボリックシンドロームが大きな健康問題として有名になっている。メタボリックシンドロームおよび他の生活習慣病を防止する目的で、職場等においては定期的な健康診断が行なわれる。図１２は、ある組織における１５人の従業員の健康診断データおよびライフスタイルデータの一例を示している。毎年、従業員は診察され、歩行頻度（ＷＦ）、飲酒頻度（ＤＦ）、ボディー・マス・インデックス（ＢＭＩ）、グリコシル化ヘモグロビン（ＨｂＡ１ｃ）および血圧（ＢＰ）に関するデータが集められる。ＷＦ＿１、ＤＦ＿１、ＢＭＩ＿１、ＨｂＡ１ｃ＿１、およびＢＰ＿１は初年度のデータを意味し、ＷＦ＿２、ＤＦ＿２、ＢＭＩ＿２、ＨｂＡ１ｃ＿２、およびＢＰ＿２は２年目のデータを意味する。３年目の従業員の血圧がターゲットリスク要因である。予測データからのテストインスタンスを図１３に示す。そのターゲットリスク要因は未知である。頻繁に飲酒した人々の７０％は、翌年において高血圧が見られる。同様に、高いＢＭＩを有していた人々の８０％についても、翌年において高血圧になる。ターゲット健康リスク要因と属性の関係についてのこのような事前情報を図１５に示す。

当該時系列データセットの前処理ステップを図１４に示す。各従業員について、データを３つのグループに分割する（ステップＳ８２）。

Ｉ．グループ１：最近年のデータ
ＩＩ．グループ２：最近年の前の年のデータ
ｉｉｉ．グループ３：他の年のデータ
グループ３のデータを集約し（ステップＳ８３）、履歴データとして用いる。グループ２からのデータを、欠測値の問題を排除するために前処理し（ステップＳ８４）、現在データとして用いる。グループ１のデータからターゲット属性の複数の値を得る。これらの値はターゲットリスク要因のクラスラベルとして用いられる（ステップＳ８５）。最終的には、これらの値はトレーニングインスタンス（ステップＳ８６）を作成するために連結される。

図１６乃至図２２は、属性部分集合の選択中におけるイテレーションの一連のステップを示している。式（９）を用いて、確率ベクトルを初期化する。ＤＦ＿２およびＢＭＩ＿２に関する事前情報が利用可能であり、該情報は確率ベクトルの初期化中に用いられる。他の属性については、選択の確率を０．５にセットする。この確率ベクトルをサンプリングすることによって、１０個の候補属性部分集合からなる母集団を図１７に示すように生成する。次に、これらの属性部分集合をデータを用いて評価する（図１８）。「スコア」カラムの下の値はあくまで例である。図１９において、候補属性部分集合の総括的評価ステップが詳細に示されている。まず、候補属性部分集合において１を有している属性のデータを保持する。この場合、選択される属性はＨｂＡ１ｃ＿１、ＤＦ＿２およびＢＭＩ＿２である。次に、これらのデータを、サンプルを分類するｋＮＮクラシファイヤに渡す。該クラシファイヤは３つのインスタンスの分類を誤っており、２つを偽陽性とし、１つを偽陰性としている。最終的に、スコア計算サブ−サブユニットは、θ、ＴＰ、ＴＮ、ＦＰおよびＦＮに基づいた値を返す。

次に、候補属性部分集合の半分をスコアに基づいて選択する（図２０）。ランク付けされた上位５つの候補属性部分集合は、候補属性部分集合＃１、＃５、＃６、＃９および＃１０である。選択された属性部分集合から、属性の周辺分布を算出する（図２１）。最後に、図２２に示すように、各属性の確率を式（１０）を用いて更新する。以上により属性部分集合選択中における１回のイテレーションが完了する。

そして、従業員の健康リスクを、図９に示した時系列データのステップに従って予測する。

（信用リスクデータ）
クレジットカードの発行から小企業融資まで、商業銀行および多数の消費者金融会社が様々な消費者金融サービスを提供している。貸倒損失を低下させて収益性を高めるために、消費者金融会社のうちの何社かは近頃、消費者の情報にデータマイニング技術を適用し始めた。この技術を利用する目的は、ローンを認めるかどうかを申込者の個人データに基づいて決定することにある。

図２３は、１６人の顧客の信用リスクデータの一例を示している。１６人の顧客のうち、４人の顧客だけがローンを返済しなかった（「不履行者」という）。図２４は、住宅ローンを申し込む人のデータを示している。課題は、この申込者がローンを返済するか、ローン不履行者になるかどうかを予測することである。その人の生計状態および職種が、ローン返済に影響を与える多数の要素のうちの２つであることが分かっているものとする。図２５は、信用リスクデータの属性についてのこのような事前情報を示す。

これらのデータは非時系列データであるので、健康診断およびライフスタイルデータの場合とは異なる方法により前処理する。前処理が、欠測値の処理を含んでいてもよい。これは図１１のステップに従って行うことができる。

その後、健康診断データおよびライフスタイルデータの場合と同様に、ローン状態に大いに関係する属性を選択することができる。しかしながら、予測データにおけるテストインスタンスのリスクは図８のステップを用いて予測される。

（セキュリティデータ）
監視カメラ画像から異常行動を検出するビデオ監視装置は、列車駅、銀行、スーパーマーケット、空港およびエレベータのような公衆の場所に設置される。これらのビデオ監視装置の目的は、人間の挙動が分かり、異常な事態が起こる場合に必要な処置を講ずることである。図２６に、列車駅におけるセキュリティデータの一例を示す。該データは駅における人の振る舞いが正常であるか異常であるかを判定するために用いられる。図２７に、列車駅における監視下の人物を示す。列車駅で自殺をする人々は、ほとんどの場合、接近中の列車の前方でジャンプすることが分かっている。すなわち、その人の移動軌跡と列車位置は、列車駅での異常行動を検知するための２つの重要な属性である。図２８は、セキュリティデータの属性についてのこの事前情報を示している。

信用リスクデータの場合と同様に、これらのデータは非時系列データであり、欠測値の処理が必要となることがある。この処理は、図１１のステップに従って行うことができる。

その後、健康診断データおよびライフスタイルデータの場合と同様に、列車駅での異常行動の検知に大いに関係する属性を選択することができる。しかしながら、予測データにおけるテストインスタンスのリスクは図８のステップを用いて予測される。

なお、上記実施形態では不均衡なデータを対象とするものとして説明したが、本発明は不均衡なデータに制限されず、均衡なデータにも用いることが可能である。

また、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

種々のユニット、サブユニット、入力および出力を表す主要ブロック図インスタンスを分類し、真の陽性（ＴＰ）、真の陰性（ＴＮ）、偽陽性（ＦＰ）および偽陰性（ＦＮ）の数を返す分類サブ−サブユニット内部の一連のステップを示すフローチャート評価パラメータユニットにより与えられた３つの入力パラメータ（ｗ_１，ｗ_２，θ）、およびクラシファイヤにより返された統計量（ＴＰ，ＴＮ，ＦＰ，ＦＮ）に基づいた属性部分集合スコアの計算のための模範的な手順を示すフローチャート評価パラメータユニットによって誤分類のコストが与えられない場合に、クラシファイヤがこれを計算するための模範的な手順を示すフローチャートトレーニングインスタンスが分割される部分集合の数を計算する模範的な手順を示すフローチャートデータから高度に関係する属性部分集合を選択するために用いられる一連のステップを示すフローチャート確率ベクトルを用いて候補属性部分集合がどのように生成されるかを示すフローチャート模範的なクラシファイヤを用いて、テストインスタンスのラベルがどのように予測されるかを示すフローチャート時系列データおよび非時系列データからのテストインスタンスのラベル予測のための模範的な手順を示すフローチャート一の属性の集約された値をどのように推定するかを示すフローチャート時系列データおよび非時系列データの１つの属性の欠測値をどのように推定するかを示すフローチャート健康診断データおよびライフスタイルデータの一例を示す図健康診断データおよびライフスタイルデータの予測インスタンスの一例がどのようなものであるかを示す図健康診断データおよびライフスタイルデータを前処理する模範的な手順を示すフローチャート健康診断データおよびライフスタイルデータの属性についての事前情報の一例を示す図健康診断データおよびライフスタイルデータにおける属性の初期確率ベクトルの一例を示す図図１６における確率ベクトルのサンプリングにより生成された一式の候補属性部分集合を示す図上記候補属性部分集合の評価後を示す図健康診断データおよびライフスタイルデータの属性部分集合の一例の総括的な評価ステップを示す図図１８における一式の候補属性部分集合からのスコアに基づいて選択されている属性部分集合を示す図図２０における選択された属性部分集合から算出される、属性の周辺分布を示す図図１６および図２１における情報を用いて算出される、上記属性の更新された確率を示す図信用リスクデータの一例を示す図上記信用リスクデータの予測インスタンスの一例がどのようなものかを示す図上記信用リスクデータの属性についての事前情報の一例を示す図列車駅におけるセキュリティデータの一例を示す図上記セキュリティデータの予測インスタンスの一例がどのようなものかを示す図上記セキュリティデータの属性についての事前情報の一例を示す図

符号の説明

６…交差検定フォールド決定ユニット；
７…コスト計算ユニット；
８…データ前処理ユニット；
９…属性部分集合選択ユニット；
１０…リスク予測ユニット

Claims

大多数クラス及び少数クラスからのインスタンスのそれぞれの誤分類コスト及び少数クラスの感度閾値を含み、前記誤分類のコストが既知の場合には前記それぞれの誤分類のコストを表し、前記誤分類のコストが不明である場合には前記少数クラスの感度閾値を表す評価パラメータを入力する評価パラメータユニットと、
各々が選択された属性と非選択の属性とを有する複数の候補属性部分集合を発見的探索アルゴリズムにより生成する属性部分集合生成サブユニットと、
クラシファイヤによりインスタンス誤分類のトータルコストを算出し、前記選択された属性がインスタンスの分類に関してどの程度良好かをあらわすスコアを前記評価パラメータに基づいたスコアリング手順に従って算出することにより、不均衡なデータの分類について属性部分集合の優良スコアを返す属性部分集合評価サブユニットと、
前記優良スコアに基づいて選択される属性部分集合に基づいてリスク予測を行う予測ユニットとを具備し、
前記属性部分集合評価サブユニットは、
前記誤分類のコストが既知の場合には、前記不均衡なデータのモデルによりインスタンス誤分類の集約されたコストを返し、
前記誤分類のコストが未知の場合には、感度と特異性情報を組み合わせることによりスコアを返し、
前記モデルにより返された感度が前記閾値よりも低い場合には、感度と特異性のバランスをある程度保つ通常スコアを返し、
前記モデルにより返された感度が前記閾値よりも高い場合には、加算スコアを返すリスク予測装置。
ターゲットリスク要因と属性の関係についての事前情報を入力するユニットをさらに具備し、
前記属性部分集合生成サブユニットは、
前記候補属性部分集合を生成するために用いられる確率ベクトルを初期化又は更新する際に前記事前情報を組込み、該確率ベクトルをサンプリングすることにより前記候補属性部分集合を生成する請求項１記載のリスク予測装置。
前記大多数クラス及び少数クラスからのインスタンスのそれぞれの誤分類コストが前記評価パラメータによって与えられない場合に、該大多数クラスの誤分類のコスト、および少数クラスの誤分類のコストを決定するユニットをさらに具備する請求項１または２記載のリスク予測装置。
大多数クラス及び少数クラスからのインスタンスのそれぞれの誤分類コスト及び少数クラスの感度閾値を含み、前記誤分類のコストが既知の場合には前記それぞれの誤分類のコストを表し、前記誤分類のコストが不明である場合には前記少数クラスの感度閾値を表す評価パラメータを評価パラメータユニットが入力するステップと、
各々が選択された属性と非選択の属性とを有する複数の候補属性部分集合を属性部分集合生成サブユニットが発見的探索アルゴリズムにより生成するステップと、
クラシファイヤがインスタンス誤分類のトータルコストを算出し、前記選択された属性がインスタンスの分類に関してどの程度良好かをあらわすスコアを属性部分集合評価サブユニットが前記評価パラメータに基づいたスコアリング手順に従って算出することにより、不均衡なデータの分類について属性部分集合の優良スコアを返すステップと、
前記優良スコアに基づいて選択される属性部分集合に基づいて予測ユニットがリスク予測を行うステップとを有し、
前記属性部分集合評価サブユニットは、
前記誤分類のコストが既知の場合には、前記不均衡なデータのモデルによりインスタンス誤分類の集約されたコストを返し、
前記誤分類のコストが未知の場合には、感度と特異性情報を組み合わせることによりスコアを返し、
前記モデルにより返された感度が前記閾値よりも低い場合には、感度と特異性のバランスをある程度保つ通常スコアを返し、
前記モデルにより返された感度が前記閾値よりも高い場合には、加算スコアを返すリスク予測方法。
ターゲットリスク要因と属性の関係についての事前情報を入力するステップをさらに具備し、
前記属性部分集合生成サブユニットは、
前記候補属性部分集合を生成するために用いられる確率ベクトルを初期化又は更新する際に前記事前情報を組込み、該確率ベクトルをサンプリングすることにより前記候補属性部分集合を生成する請求項４記載のリスク予測方法。
前記大多数クラス及び少数クラスからのインスタンスのそれぞれの誤分類コストが前記評価パラメータによって与えられない場合に、該大多数クラスの誤分類のコスト、および少数クラスの誤分類のコストを決定するステップをさらに具備する請求項４または５記載のリスク予測方法。