JP2009237914A - リスク要因を同定するためのリスク予測装置 - Google Patents
リスク要因を同定するためのリスク予測装置 Download PDFInfo
- Publication number
- JP2009237914A JP2009237914A JP2008083434A JP2008083434A JP2009237914A JP 2009237914 A JP2009237914 A JP 2009237914A JP 2008083434 A JP2008083434 A JP 2008083434A JP 2008083434 A JP2008083434 A JP 2008083434A JP 2009237914 A JP2009237914 A JP 2009237914A
- Authority
- JP
- Japan
- Prior art keywords
- attribute
- misclassification
- cost
- data
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】大多数クラスのインスタンス数が少数クラスのものよりも非常に大きい不均衡なトレーニングデータを用い、イベントのリスクを正確に予測し、ターゲットリスク要因に高度に関係する属性を同定するリスク予測装置及び方法を提供する。
【解決手段】大多数クラス及び少数クラスからのインスタンスの誤分類コスト及び少数クラスの感度閾値を含み、誤分類のコストが既知の場合にはそれぞれの誤分類のコストを表し、不明である場合には少数クラスの感度閾値を表す評価パラメータを入力して、候補属性部分集合を生成し、インスタンス誤分類のトータルコストを算出し、選択された属性がインスタンスの分類に関してどの程度良好かをあらわすスコアを評価パラメータに基づいたスコアリング手順に従って算出することにより、不均衡なデータの分類について属性部分集合の優良スコアを返し、優良スコアに基づいて選択される属性部分集合に基づいてリスク予測を行う。
【選択図】図1
【解決手段】大多数クラス及び少数クラスからのインスタンスの誤分類コスト及び少数クラスの感度閾値を含み、誤分類のコストが既知の場合にはそれぞれの誤分類のコストを表し、不明である場合には少数クラスの感度閾値を表す評価パラメータを入力して、候補属性部分集合を生成し、インスタンス誤分類のトータルコストを算出し、選択された属性がインスタンスの分類に関してどの程度良好かをあらわすスコアを評価パラメータに基づいたスコアリング手順に従って算出することにより、不均衡なデータの分類について属性部分集合の優良スコアを返し、優良スコアに基づいて選択される属性部分集合に基づいてリスク予測を行う。
【選択図】図1
Description
本発明は、大多数クラスのインスタンス数が少数クラスのものよりも非常に大きい不均衡なトレーニングデータを用い、イベントのリスクを正確に予測し、ターゲットリスク要因に高度に関係する属性を同定するために用いられるリスク予測装置及びリスク予測方法に関する。
今日、様々な組織および会社では、人、デバイスおよびシステムのような実体イベントにきわめて正確に関連づけてリスクを予測可能なシステムの設計に注力している。イベントには様々な種類のものがあるが、公衆の場所における人物の異常行動、消費者金融会社のローン不履行者、人の心臓発作のような希なイベントについては、その予測が非常に困難であることから特に関心が持たれている。様々な属性に関してイベントが定義され、行動、ローン状態および血圧のようなターゲットリスク要因が決定される。そして、ターゲットリスク要因のラベルが分かっているならば、様々な実体からイベントの属性についてのデータが集められる。あるイベントにおけるターゲットリスク要因の値は、そのイベントが通常のものであるか希なものであるかを示す。通常イベントと希なイベントの解釈は問題に依存する。例えば、消費者金融会社では、ローン不履行者は希なイベントであり、ローンを返した人は通常イベントである。ビデオ監視装置では、人の異常行動は希なイベントであり、人の正常な振る舞いは通常イベントである。収集されたデータは、普通、極めて多数の通常イベントを含んでおり、希なイベントは極少数である。すなわち、データは不均衡であって、希なイベントが少数クラスを形成し、通常イベントは大多数クラスを形成する。以下、イベントのデータのことを「インスタンス」と称し、あるインスタンスにおけるターゲットリスク要因の値のことを「クラスラベル」と称する。
リスク予測システムを設計する際の第一ステップは、大多数クラス及び少数クラスからのラベル付けされたインスタンスのコレクションを用いて、トレーニング対象のモデルを設計することである。モデルの主な要素は、k−最近傍(k- nearest neighbor;kNN)クラシファイヤ、ナイーブベイズクラシファイヤ、決定木、ニューラルネットワークおよびサポートベクトルマシン(SVM)のようなクラシファイヤである。モデルの学習とは、kNNクラシファイヤにおける最も近い隣接値(k)の数、SVMにおける特異なインスタンス(サポートベクトル)の重みの値といった、要素の特異なパラメータの値を学習することである。モデルの学習が、ターゲットリスク要因に大いに関係する部分集合の属性(以下「属性部分集合」という。)を選択することを意味する場合、属性部分集合候補の優良はクラシファイヤおよびスコアリング手順を用いて評価される。
次のステップはモデルを評価することである。モデルを学習した後、その性能は、モデル学習時には用いられない確認データを用いて評価される。該性能は、モデルがターゲットリスク要因のラベルをどれくらい正確に予測するかの推定を与える。しばしば、モデル学習時に交差検定技術を用いて測定された確度は、まだ見ぬデータについてのモデル性能の尺度として用いられる。
下記特許文献1に記載のシステムでは、トレーニングデータおよび属性を無作為に再サンプリングすることにより作成された部分的なトレーニングデータの各サブモデルをトレーニングすることにより、複数の分類サブモデル(仮説)が生成される。そして、これらサブモデルはアンサンブル手順によって組み合わせられる。各サブモデルは属性部分集合の部分的なトレーニングデータによりトレーニングされることから、最終的な属性部分集合が、ターゲットリスク要因に同じレベルの関連性を持つ若干冗長な属性を含んでいたり、トレーニングデータ全体に関してより高い確度を与えるかも知れない幾つかの相補的な属性に欠ける可能性がある。
下記特許文献2には、属性部分集合の選択のために、マルコフ境界手順と共にベイジアンネットワーククラシファイヤを用いるシステムについて記載されている。しかしながら、このシステムは、不均衡なデータからの属性選択に焦点を当てていない。
下記特許文献3のシステムでは、トレーニングデータの前処理中に属性選択がなされ、サンプルを分類するためにサポートベクトルマシンが用いられる。しかしながら、このシステムは、不均衡なデータから最適な属性部分集合を選択すること、および時系列データをどのように前処理するかについての問題に対処するものではない。
下記特許文献4に記載のシステムでは、不均衡なデータのインスタンスは階層的に分類される。第一段階では、代表インスタンスを選択することにより大多数クラスのサイズを縮小する。第二段階では、大多数クラスの縮小後のインスタンスと、少数クラスのすべてのインスタンスを用いてクラシファイヤを構築する。しかしながら、このシステムは、属性部分集合の選択を行うものではない。
米国特許出願公開第2005/0071301号明細書
米国特許出願公開第2007/0005257号明細書
米国特許出願公開第2005/0216426号明細書
米国特許出願公開第2003/0204507号明細書
不均衡なデータを用いて学習されるモデルによってインスタンスのクラスラベルを正確に予測することは極めて困難である。なぜなら、モデル学習時に、大多数クラスが学習のためのモデルにバイアスをかけることから、そのような学習モデルでは、少数クラスからのインスタンスのクラスラベルを正確に予測できないからである。大多数クラスからのインスタンスについてはモデルによりすべて正確に分類される一方、少数クラスからのインスタンスについてはどれひとつとして正確に分類されない場合があり得ることも分かった。少数クラスからのインスタンスの正確な予測に焦点を当ててモデルが設計されている場合、そのようなモデルは、大多数クラスからの非常に大きな数のインスタンスの分類を誤るであろう。このように、伝統的方法の多くは、大多数クラス及び少数クラスそれぞれからのインスタンスを正確に予測することにおけるトレードオフに直面する。一方のクラスの予測率が増加する場合、他方のクラスの予測率は減少する。
あるインスタンスを特徴づけるすべての属性が、必ずしも大多数クラスのインスタンスと少数クラスのインスタンスとの区別に関係するとは言えない。無関係の属性は、他の関係属性を用いて学習されたモデルの性能に否定的に影響することがある。また、無関係属性の値を取得するにはコストと時間がかかることがある。このような理由から、しばしば、モデル選択中に、関係属性部分集合の選択がなされる場合がある。n個の属性があると仮定すると、2n−1個の候補属性部分集合が存在する。属性数またはデータセット内のインスタンス数が極めて多い場合には、探索空間が大きくなり計算に時間を要することから、最適な属性部分集合を全数探索することは現実的でない。そこで、候補属性部分集合の生成には遺伝的アルゴリズム(GA)のような発見的探索アルゴリズムが用いられる。しかしながら、ごく少数の属性を伴う最適な属性部分集合は、すべての発見的手法で得られるとは限らない。属性数が非常に多い場合には、属性のおよそ半分が遺伝的アルゴリズムの各候補属性部分集合において選択されてしまう。当面の問題への洞察は、ごく少数の選択された属性により与えられるのである。
あるデータセットのいくつかの属性はターゲットリスク要因に関係することが既知であるが、ターゲット要因と他の属性との関係は不明であるという場合がある。そのような場合、クラシファイヤと組み合わせてテストインスタンスのラベルを極めて正確に予測する、既知属性および未知属性を伴う属性部分集合を見つけ出す必要がある。属性部分集合選択のほとんどの伝統的方法では、データのこのような側面が考慮されていない。
時系列データについては、属性数が多く、対応する探索空間も巨大になる。例えば、60個の属性に関するデータが毎年の健康診断の際に収集されれば、6年にわたるデータセットの属性の合計は360個となる。また、すべての実体について、いつの時点においてもデータが存在するとは限らない。例えば、何人かについては5年分の健康診断データがあり、別の何人かについては3年分の健康診断データしか存在しないというような場合があり得る。したがって、探索空間を縮小するか、各インスタンスを等しい長さにするなどにより適切な手順を用いて時系列データを前処理することが必要である。
場合によっては、モデルは、組織の新入社員の健康診断データのような、過去の時点のデータ(以下、「履歴データ」という。)がない新しいインスタンスのクラスラベルを予測できることが必要である。しかしながら、履歴データを持っているデータによりトレーニングされたモデルは、データに対して何らかの後処理を行なわない限り、ラベルの予測には用いることができない。
本発明はかかる事情を考慮してなされたものであり、大多数クラスのインスタンス数が少数クラスのものよりも非常に大きい不均衡なトレーニングデータを用い、イベントのリスクを正確に予測し、ターゲットリスク要因に高度に関係する属性を同定するリスク予測装置及び方法を提供することを目的とする。
本発明の一観点に係るリスク予測装置は、大多数クラス及び少数クラスからのインスタンスのそれぞれの誤分類コスト及び少数クラスの感度閾値を含み、前記誤分類のコストが既知の場合には前記それぞれの誤分類のコストを表し、前記誤分類のコストが不明である場合には前記少数クラスの感度閾値を表す評価パラメータを入力する評価パラメータユニットと、各々が選択された属性と非選択の属性とを有する複数の候補属性部分集合を発見的探索アルゴリズムにより生成する属性部分集合生成サブユニットと、クラシファイヤによりインスタンス誤分類のトータルコストを算出し、前記選択された属性がインスタンスの分類に関してどの程度良好かをあらわすスコアを前記評価パラメータに基づいたスコアリング手順に従って算出することにより、不均衡なデータの分類について属性部分集合の優良スコアを返す属性部分集合評価サブユニットと、前記優良スコアに基づいて選択される属性部分集合に基づいてリスク予測を行う予測ユニットとを具備し、前記属性部分集合評価サブユニットは、前記誤分類のコストが既知の場合には、前記不均衡なデータのモデルによりインスタンス誤分類の集約されたコストを返し、前記誤分類のコストが未知の場合には、感度と特異性情報を組み合わせることによりスコアを返し、前記モデルにより返された感度が前記閾値よりも低い場合には、感度と特異性のバランスをある程度保つ通常スコアを返し、前記モデルにより返された感度が前記閾値よりも高い場合には、加算スコアを返す。
本発明によれば、大多数クラスのインスタンス数が少数クラスのものよりも非常に大きい不均衡なトレーニングデータを用い、イベントのリスクを正確に予測し、ターゲットリスク要因に高度に関係する属性を同定するリスク予測装置及び方法を提供できる。
本発明の一実施形態は、クラシファイヤおよびスコアリング手順を用いることにより候補属性部分集合の優良スコアを返す評価サブユニットを含む。まず、候補属性部分集合において選択された属性の前処理データがクラシファイヤに与えられる。該クラシファイヤは、交差検定技術を用いてインスタンスを分類し、分類の統計量を返す。該統計量はスコアリング手順において用いられる。該スコアリング手順は、最終的には、誤分類のコストおよび感度閾値のコストに基づいたスコアを算出する。
本実施形態では、大多数クラス及び少数クラスの予測率の間のトレードオフを不均衡なデータについてのモデルにより解決するために、3パラメータ入力ユニットを用いる。該入力ユニットにより大多数クラス及び少数クラスからのインスタンスの誤分類のコストまたは少数クラスの感度閾値のいずれかが与えられる。該3つの入力パラメータの値に基づいて、適切なスコアリング手順が適用される。前記誤分類のコストが与えられるならば、前記モデルによりインスタンス誤分類の集約されたコストが返される。そうでなければ、感度と特異性情報を組み合わせることによりスコアが返される。モデルにより返された感度が閾値よりも低い場合、感度と特異性のバランスをある程度保つ通常スコアが返される。そうでなければ、加算スコアが返される。
交差検定技術を用いるインスタンスの分類中には、トレーニングインスタンスが分割される部分集合(フォールド)の数をクラシファイヤに与える必要がある。部分集合の数は、データのソースに依存する。例えば、生物学データは莫大な数の属性を有しているがインスタンスはごく少数であり、leave−one−out交差検定(LOOCV)が良く適合する。非生物学的なデータは莫大なインスタンス数になるが属性は少数であり、このようなデータについてはLOOCVは適用できない。例示的実施形態では、属性数、インスタンス数およびクラス数の情報から部分集合の数を決定する方法について説明する。大多数クラスの誤分類のコストおよび少数クラスの誤分類のコストが上記入力ユニットによって与えられない場合、クラシファイヤがこれらを与える必要がある。これらの値が与えられないならば、学習後のクラシファイヤは、完全に、大多数クラスに向けてバイアスされ、多くの属性部分集合について同一の分類統計量を返すかも知れない。例示的実施形態では、大多数クラスの誤分類のコストおよび少数クラスの誤分類のコストが与えられない場合に、これらをどのようにして算出するかを示す。
本実施形態では、非常に関係のある属性部分集合を得るとともにターゲットリスク要因と属性の関係についての事前情報を利用するために、遺伝的アルゴリズムに基づいた確率的な属性部分集合生成手順を用いる。この手順は、確率ベクトルのサンプリングにより候補属性部分集合を生成する。該確率ベクトルにおける各値は、一つの属性が候補属性部分集合において選択されている確率を規定する。属性についての事前情報は確率ベクトルの初期化および更新の際に用いられる。候補属性部分集合を評価するために、該手順は、上記評価サブユニットを利用する。該手順は、無作為に生成される属性部分集合群から始まり、その各々においてはデータ属性のおよそ半分が選択されるものの、該候補属性部分集合において選択される属性の数は引き続き修正され、最終的には、高度に関係する属性部分集合を出力して終了する。
時系列データについては、属性部分集合のサイズを縮小し、各インスタンスの長さを等しくする前処理手順が用いられる。また、履歴データを持つ新しいインスタンス、または履歴データを持たない新しいインスタンスのラベルを予測するために後処理手順が用いられる。
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
本発明の実施形態は、不均衡なデータセットから高度に関係する属性部分集合を抽出し、新しいインスタンスのラベルを予測するための装置、システムおよび方法である。本システムは、特に、希なイベントを高確度に予測するためのものである。
図1は、本システムの種々の入出力デバイスおよび手順を示す主要ブロック図である。本システムは5つの入力ユニット(1,2,3,4および5)を有する。ユニット1によりトレーニングデータが与えられる。ユニット2により制御パラメータの値が与えられる。ユニット3によりターゲットリスク要因と属性の関係についての事前情報が与えられる。ユニット4により予測データが与えられる。そしてユニット5により評価パラメータの値が与えられる。トレーニングデータまたはテストデータ内の各インスタンスは属性群の値からなるベクトルである。トレーニングデータにおけるすべてのインスタンスはラベル付けされる。すなわち、ターゲットリスク要因の値は既知である。しかし、予測データにおいては、ターゲットリスク要因のラベルは未知である。属性の値は数で示されてもよいし、または名詞であってもよい。データが時系列データである場合、インスタンスは、異なる時点に測定された属性の値群から成る。ここで、2つの時点における同じ属性の値は2つの属性値として扱われる。
評価パラメータ5は、大多数クラス及び少数クラスからのインスタンスの誤分類コスト(w1,w2)、および少数クラスの感度閾値(θ∈[0,1])を含んでいる。すなわち、評価パラメータ5は、(w1,w2,θ)の値のベクトルを与える。誤分類コストが既知である場合、値のベクトルは(w1,w2,0)になり、誤分類コストが不明の場合、ベクトルは(0,0,θ)になる。誤分類コストの2つの例を以下に示す。
・医療データ:
w1:人が死亡する場合の生命保険コスト
w2:種々の医学的診断を行なうためのコスト
・信用リスクデータ:
w1:ローン不履行者の貸倒損失の額
w2:ローンを認めることにより得られる利息額
制御パラメータ2は、分類サブ−サブユニット911および属性部分集合生成サブユニット92に対する種々の制御パラメータの値を与える。属性部分集合生成サブユニット92用の制御パラメータとしては、母集団サイズ(候補属性部分集合のサイズ)、子孫サイズ(初期のイテレーション(繰り返し)後の新しい候補属性部分集合のサイズ)、イテレーション(世代)の最大値、および選択サイズ(確率ベクトルを更新するために選択する属性部分集合の数)がある。分類サブ−サブユニット911におけるクラシファイヤ用の制御パラメータには、例えば、k−最近傍法(kNN)クラシファイヤ用のkの値あるいはコスト(C)、RBFカーネル用のγの値、およびサポートベクトルマシン(SVM)の終了用のεの値がある。
w1:人が死亡する場合の生命保険コスト
w2:種々の医学的診断を行なうためのコスト
・信用リスクデータ:
w1:ローン不履行者の貸倒損失の額
w2:ローンを認めることにより得られる利息額
制御パラメータ2は、分類サブ−サブユニット911および属性部分集合生成サブユニット92に対する種々の制御パラメータの値を与える。属性部分集合生成サブユニット92用の制御パラメータとしては、母集団サイズ(候補属性部分集合のサイズ)、子孫サイズ(初期のイテレーション(繰り返し)後の新しい候補属性部分集合のサイズ)、イテレーション(世代)の最大値、および選択サイズ(確率ベクトルを更新するために選択する属性部分集合の数)がある。分類サブ−サブユニット911におけるクラシファイヤ用の制御パラメータには、例えば、k−最近傍法(kNN)クラシファイヤ用のkの値あるいはコスト(C)、RBFカーネル用のγの値、およびサポートベクトルマシン(SVM)の終了用のεの値がある。
属性3に関する事前情報は、ターゲットリスク要因と属性の関係についての既知の情報を与える、ターゲットリスク要因に関連づけられる属性群の確率のベクトルである。属性について何も分からない場合、対応する値には0がセットされる。これについて例を示す。データセットが9つの属性(f1,f2,f3,f4,f5,f6,f7,f8,f9)から成り、属性f5およびf8がそれぞれ90%および80%のケース・スタディにおいてターゲットリスク要因に対して有効であることが分かっていると仮定すると、事前情報ベクトルは(0,0,0,0,0.90,0,0,0.80,0)になる。
トレーニングデータセットを所与として、該システムにおける第一ステップはデータを前処理することである。これはデータ前処理ユニット8を用いて行われる。どのような種類の前処理がなされるかはデータに依存する。例えば、時系列データにおいて、以前の時点における一の属性についての複数の値を、属性部分集合の探索空間を縮小し、または各トレーニングインスタンスを等しい長さにするために、1つの値に集約してもよい。データセットによっては、欠測値の処理が必要であるかもしれない。値集約のステップを図10に示す。まず、属性のデータ型を得る(ステップS831)。データ型は数であったり、名詞であるかもしれない。データ型によって(ステップS832)、名詞語句の値(ステップS833)または数値(ステップS834)のいずれかを推定する。名詞語句の値を返す関数fnom(v1,v2,...,vn)の一例は、「モード(最頻値)」関数である。これは、頻出値を返す。例えば、名詞属性「飲酒頻度」の値が(毎日、週1回、毎日、週1回、月1回、毎日、月1回、毎日、毎日)である場合、「飲酒頻度」についての集約された名詞語句の値は「毎日」になる。数値を返す関数fnum(v1,v2,...,vn)の例は、「最大値関数」、「最小値関数」、そして「アベレージ」関数である。時系列データおよび非時系列データにおける欠測値は、種々の方法で処理される(図11)。まず、値が欠けているかどうかを調べる(ステップS841)。値が欠けている場合、次に、当該データが時系列データであるかそれとも非時系列データであるかを調べる(ステップS842)。データが時系列データである場合には、同じ実体の種々の時点での属性の値群を求めるのであるが(ステップS843)、データが非時系列データである場合には、異なる実体の属性の値群を得るようにする(ステップS844)。次に、上述した(図10の)値集約手順を用いて、集約値を推定する(ステップS845)。
ユニット9は属性部分集合選択ユニットであり、2つのサブユニット、すなわち属性部分集合評価サブユニット91および属性部分集合生成サブユニット92から構成される。属性部分集合評価サブユニット91は2つのサブ−サブユニット、すなわち分類サブ−サブユニット911およびスコア計算サブ−サブユニット912を含んでおり、属性部分集合の優良スコア、すなわち選択された属性はインスタンスの分類に関してどの程度良好かをあらわすスコアを返す。
分類サブ−サブユニット911は、kNN、SVM、決定木およびニューラルネットワークのようなクラシファイヤを含んでおり、制御パラメータ2、交差検定フォールド決定ユニット6およびコスト計算ユニット7から種々のパラメータの値を得る。クラシファイヤは、属性部分集合に選択属性の前処理データを含んでいるインスタンスを交差検定技術を用いて分類し、真の陽性(TP)、真の陰性(TN)、偽陽性(FP)および偽陰性(FN)の数を返す。交差検定フォールド決定ユニット6は、トレーニングインスタンスを分割して得られる部分集合の数を決定する。図5は、フォールド数を決定する模範的な手順を示している。マイクロアレイデータセットの場合のように、データセットによっては属性数がインスタンス数よりも非常に大きくなったり、インスタンス数が属性数よりも非常に大きくなる場合がある。
インスタンス数が閾値τよりも大きいかどうかによって(ステップS61)、トレーニングインスタンスをインスタンスの分類中に分割して得られる部分集合の数として、F(ステップS62)またはインスタンス数(ステップS63)のいずれかを返す。Fの値は2、5、10などである。交差検定において、部分集合の数がインスタンス数と等しい場合、そのような交差検定はleave−one−out交差検定と呼ばれる(LOOCV)。τの値の一例は以下の通りである。
τ=10* Number_of_classes(クラス数)* Number_of_features(属性数)。
図4において、コスト計算ユニット7内部のステップのフローを示す。ここでは、大多数クラスの誤分類のコスト、および少数クラスの誤分類のコストを決定する。w1およびw2の両方が0以上であるか否かによって(ステップS71)、コスト計算ユニット7は、供給された値を用いるか(ステップS73)、クラス分布からコストを算出する(ステップS72)。クラス分布からコストを計算する例を次に示す。
少数クラスのコスト=大多数クラスにおけるインスタンス数/トレーニングデータにおけるインスタンスの合計数
大多数クラスのコスト=少数クラスにおけるインスタンス数/トレーニングデータにおけるインスタンスの合計数
インスタンス分類中のステップのフローを図2に示す。まず、カウンタTP、TN、FPおよびFNの各々を0にセットする(ステップS9111)。次に、インスタンスを分類し、4つの統計量すなわちTP、TN、FPおよびFNを交差検定を用いて決定する。F−フォールド交差検定では、トレーニングインスタンスは、Fの部分集合に無作為に分割される(ステップS9112)。クラシファイヤをF回トレーニングし、テストする。各時点i(i=1,2,...,F)において、部分集合iにおけるインスタンスはテストインスタンスとして扱われ(ステップS9113)、残りのインスタンスはクラシファイヤをトレーニングするために用いられる(ステップS9114およびS9115)。その後、部分集合iにおけるインスタンスのラベルを予測する(ステップS9116)。また、4つのカウンタTP、TN、FPおよびFNを更新する(ステップS9117)。F回のイテレーション(繰り返し)の後、最終的なTP、TN、FPおよびFNを得る。これらはスコア計算サブ−サブユニット912において用いられる(ステップS9119)。kNNクラシファイヤを用いてテストインスタンスのラベルを予測する例を図8に示す。まず、選択された属性のデータを得る(ステップS91161およびS91162)。トレーニングインスタンスにおいて、最も近い距離にあるk個のインスタンスを決定する(ステップS91163)。そして次に、それらのクラスラベルを求める(ステップS6114)。最終的には、重み付き多数決投票によってテストインスタンスのラベルを予測する(ステップS6115)。
大多数クラスのコスト=少数クラスにおけるインスタンス数/トレーニングデータにおけるインスタンスの合計数
インスタンス分類中のステップのフローを図2に示す。まず、カウンタTP、TN、FPおよびFNの各々を0にセットする(ステップS9111)。次に、インスタンスを分類し、4つの統計量すなわちTP、TN、FPおよびFNを交差検定を用いて決定する。F−フォールド交差検定では、トレーニングインスタンスは、Fの部分集合に無作為に分割される(ステップS9112)。クラシファイヤをF回トレーニングし、テストする。各時点i(i=1,2,...,F)において、部分集合iにおけるインスタンスはテストインスタンスとして扱われ(ステップS9113)、残りのインスタンスはクラシファイヤをトレーニングするために用いられる(ステップS9114およびS9115)。その後、部分集合iにおけるインスタンスのラベルを予測する(ステップS9116)。また、4つのカウンタTP、TN、FPおよびFNを更新する(ステップS9117)。F回のイテレーション(繰り返し)の後、最終的なTP、TN、FPおよびFNを得る。これらはスコア計算サブ−サブユニット912において用いられる(ステップS9119)。kNNクラシファイヤを用いてテストインスタンスのラベルを予測する例を図8に示す。まず、選択された属性のデータを得る(ステップS91161およびS91162)。トレーニングインスタンスにおいて、最も近い距離にあるk個のインスタンスを決定する(ステップS91163)。そして次に、それらのクラスラベルを求める(ステップS6114)。最終的には、重み付き多数決投票によってテストインスタンスのラベルを予測する(ステップS6115)。
スコア計算サブ−サブユニット912は属性部分集合について適切なスコアを返す役割を担っている。図3は、3つの入力パラメータ(w1,w2,θ)、およびクラシファイヤによって返された統計量(TP,TN,FP,FN)に基づいて、属性部分集合のスコアがどのように算出されるかを示している。感度閾値(θ)(ステップS9121)の値によって、スコア計算サブ−サブユニット912は、誤って分類されたインスタンスのトータルコストを返すか(ステップS9122)、または感度および特異性情報を用いてスコアを返す(ステップS9125およびS9126)。ここで、スコア計算のいくつかの例を挙げて、本システムがどのように動作するかを示す。しかしながら、本実施形態のシステムは以下の例に限定されない。他のスコア計算手順が用いられてもよい。トータルコスト計算の2つの例を以下に示す。
f(TP,TN,FP,FN)=1/2(sensitivity(感度)+specificity(特異性)) (4)
f(TP,TN,FP,FN)=(2*precision(精度)*recall(再現度))/(precision+recall) (5)
ただし、
sensitivity=recall=TP/(TP+FN)であり、
specificity=TN/(TN+FP)であり、
precision=TP/(TP+FP)である。
f(TP,TN,FP,FN)=(2*precision(精度)*recall(再現度))/(precision+recall) (5)
ただし、
sensitivity=recall=TP/(TP+FN)であり、
specificity=TN/(TN+FP)であり、
precision=TP/(TP+FP)である。
加算スコア(ステップS9125)の3つの例を以下に示す。
φ(λ,TP,TN,FP,FN)=λ√f(TP,TN,FP,FN) (6)
φ(λ,TP,TN,FP,FN)=λ+f(TP,TN,FP,FN) (7)
φ(λ,TP,TN,FP,FN)=λ*f(TP,TN,FP,FN) (8)
ただし、f(TP,TN,FP,FN)∈[0,1]は通常スコアであり、λ>1例えばλ=2は加算パラメータである。
φ(λ,TP,TN,FP,FN)=λ+f(TP,TN,FP,FN) (7)
φ(λ,TP,TN,FP,FN)=λ*f(TP,TN,FP,FN) (8)
ただし、f(TP,TN,FP,FN)∈[0,1]は通常スコアであり、λ>1例えばλ=2は加算パラメータである。
属性部分集合生成サブユニット92は遺伝的アルゴリズムをベースにした手順を用いて、多数の候補属性部分集合を生成する。該サブユニットは、候補属性部分集合の母集団および確率ベクトルを保持する。各候補属性部分集合は0と1を要素とするベクトルである。ベクトル内の値が1である場合、対応する属性は選択されており、そうでなければ、該属性は選択されていない。例えば、データセットが10個の属性を持つ場合、(1,0,1,0,1,0,1,0,0,1)は、1番目、3番目、5番目、7番目および10番目の属性が選択されている候補属性部分集合である。確率ベクトルにおける値P(Xi,t)は、イテレーションtにおいて候補属性部分集合内の属性Xiが選択される確率を示す。図6に、属性部分集合生成サブユニット92内のステップシーケンスを示す。まず、確率ベクトルを次のように初期化する(ステップS9201)。
P(Xi,0)=pi(pi>0のとき);0.5(それ以外のとき) (9)
ただし、piはターゲットリスク要因と属性の関係についての事前情報である。
ただし、piはターゲットリスク要因と属性の関係についての事前情報である。
次に、q個の候補属性部分集合を確率ベクトルのサンプリングにより生成する(ステップS9203)。qの値はイテレーションに依存する。最初のイテレーションにおいて、qは母集団のサイズである(ステップS9202)が、続くイテレーションにおいて、qは子孫(新しい候補属性部分集合)のサイズである(ステップS9210)。図7(ステップS92031〜S92036)は、確率ベクトルを用いて候補属性部分集合がどのように生成されるかを示している。
次に、評価サブユニット91を用いて属性部分集合を評価し、優良スコアを付す(ステップS9204)。評価の後に、終了判定基準を満たすかどうかを調べる(ステップS9205)。終了判定基準の幾つかは以下のとおりである。
I.最大回数のイテレーションが行われた。
II.感度=1.0および特異性=1.0である。
あるいはiii.連続5回のイテレーションにおいて最良スコアの向上が見られない。
終了判定基準を満たす場合、属性部分集合生成ユニット92はこれまでに見つかった最良の属性部分集合を返す(ステップS9211)。そうでなければ、当該イテレーションが最初のイテレーションであるかどうかを判定する(ステップS9206)。最初のイテレーションを除く他のイテレーションでは、直前のイテレーションの下位ランクの候補属性部分集合を、新たに生成された候補属性部分集合で置き換えることにより、新たな母集団を作成する(ステップS9207)。QおよびOが母集団サイズおよび子孫サイズを意味し、O<Qであると仮定する。そうすると、新しい母集団は、直前のイテレーションからの(Q−O)の最良候補属性部分集合を含み、新たに候補属性部分集合を生成したOを含むことになる。次のステップ(ステップS9208)において、最上位ランクからT個の候補属性部分集合を選択する。ただし、Tは選択サイズである。選択候補属性部分集合を用いて、確率ベクトルを以下のように更新する(ステップS9209)。
P(Xi,t+1)=pi(pi>0のとき),ψ(P(Xi,t),M(Xi,t))(それ以外のとき) (10)
ただし、piはターゲットリスク要因と属性Xiの関係についての事前情報であり、M(Xi,t)は選択候補属性部分集合内の属性Xiの確率分布であり、ψ(P(Xi,t),M(Xi,t))は0と1の間の値を返す関数である。
ただし、piはターゲットリスク要因と属性Xiの関係についての事前情報であり、M(Xi,t)は選択候補属性部分集合内の属性Xiの確率分布であり、ψ(P(Xi,t),M(Xi,t))は0と1の間の値を返す関数である。
例えば関数ψ(P(Xi,t),M(Xi,t))は、”Gene selection for classification of cancers using probabilistic model building genetic algorithm” by Paul and Iba [Biosystems, Volume 82, Issue (3, December 2005), Pages 208−225]において開示され、ψ(P(Xi,t),M(Xi,t))=αβP(Xi,t) +(1−α)(1−β)M(Xi,t) (11)である。
α∈[0,1]は学習率と呼ばれ、各イテレーションで一定である。また、β∈[0,1]は乱数であり、各イテレーションで変化する。
リスク予測ユニット11は、データ型に基づいて設計される(図9)。まず、テストインスタンスのデータを前処理する(ステップS111)。しばしば、ここでの前処理はデータ前処理ユニット8での前処理と同じものであって、例えば欠測値の処理などを行う。実施の形態によっては、ここでの前処理がデータ前処理ユニット8における前処理とは異なるものであってもよい。何ら前処理を必要としない実施形態もあり得る。次に、データの型をチェックする(ステップS112)。該データが非時系列データである場合、予測データからのテストインスタンスのラベルを図8のステップに従って予測してもよい。時系列データについては、予測データからのテストインスタンスが履歴データを持っていてもよいし、そうでなくてもよい(ステップS113)。テストインスタンスが履歴データを持つ場合、現在データおよび履歴データの連結により新しいインスタンスを作成する(ステップS115およびS116)。そして、残りのインスタンスは、トレーニングデータとして用いる(ステップS117)。テストインスタンスが履歴データを持たない場合、履歴データの排除によりトレーニングデータを作成する(ステップS114)。次いで、非時系列データの場合と同様のステップに従って新しいテストインスタンスのラベルを予測する(ステップS118)。
高度に関係する属性部分集合10は、ステップ9211において属性選択ユニット9により選択された最良の属性部分集合を含む出力単位である。予測値12は、予測データ4からのテストインスタンスについて予測したクラスラベルを含む出力単位である。
(動作についてのいくつかデータセット例)
(健康診断データおよびライフスタイルデータ)
近年、心臓病および糖尿病にかかるリスクを増加させるメタボリックシンドロームが大きな健康問題として有名になっている。メタボリックシンドロームおよび他の生活習慣病を防止する目的で、職場等においては定期的な健康診断が行なわれる。図12は、ある組織における15人の従業員の健康診断データおよびライフスタイルデータの一例を示している。毎年、従業員は診察され、歩行頻度(WF)、飲酒頻度(DF)、ボディー・マス・インデックス(BMI)、グリコシル化ヘモグロビン(HbA1c)および血圧(BP)に関するデータが集められる。WF_1、DF_1、BMI_1、HbA1c_1、およびBP_1は初年度のデータを意味し、WF_2、DF_2、BMI_2、HbA1c_2、およびBP_2は2年目のデータを意味する。3年目の従業員の血圧がターゲットリスク要因である。予測データからのテストインスタンスを図13に示す。そのターゲットリスク要因は未知である。頻繁に飲酒した人々の70%は、翌年において高血圧が見られる。同様に、高いBMIを有していた人々の80%についても、翌年において高血圧になる。ターゲット健康リスク要因と属性の関係についてのこのような事前情報を図15に示す。
(健康診断データおよびライフスタイルデータ)
近年、心臓病および糖尿病にかかるリスクを増加させるメタボリックシンドロームが大きな健康問題として有名になっている。メタボリックシンドロームおよび他の生活習慣病を防止する目的で、職場等においては定期的な健康診断が行なわれる。図12は、ある組織における15人の従業員の健康診断データおよびライフスタイルデータの一例を示している。毎年、従業員は診察され、歩行頻度(WF)、飲酒頻度(DF)、ボディー・マス・インデックス(BMI)、グリコシル化ヘモグロビン(HbA1c)および血圧(BP)に関するデータが集められる。WF_1、DF_1、BMI_1、HbA1c_1、およびBP_1は初年度のデータを意味し、WF_2、DF_2、BMI_2、HbA1c_2、およびBP_2は2年目のデータを意味する。3年目の従業員の血圧がターゲットリスク要因である。予測データからのテストインスタンスを図13に示す。そのターゲットリスク要因は未知である。頻繁に飲酒した人々の70%は、翌年において高血圧が見られる。同様に、高いBMIを有していた人々の80%についても、翌年において高血圧になる。ターゲット健康リスク要因と属性の関係についてのこのような事前情報を図15に示す。
当該時系列データセットの前処理ステップを図14に示す。各従業員について、データを3つのグループに分割する(ステップS82)。
I.グループ1:最近年のデータ
II.グループ2:最近年の前の年のデータ
iii.グループ3:他の年のデータ
グループ3のデータを集約し(ステップS83)、履歴データとして用いる。グループ2からのデータを、欠測値の問題を排除するために前処理し(ステップS84)、現在データとして用いる。グループ1のデータからターゲット属性の複数の値を得る。これらの値はターゲットリスク要因のクラスラベルとして用いられる(ステップS85)。最終的には、これらの値はトレーニングインスタンス(ステップS86)を作成するために連結される。
II.グループ2:最近年の前の年のデータ
iii.グループ3:他の年のデータ
グループ3のデータを集約し(ステップS83)、履歴データとして用いる。グループ2からのデータを、欠測値の問題を排除するために前処理し(ステップS84)、現在データとして用いる。グループ1のデータからターゲット属性の複数の値を得る。これらの値はターゲットリスク要因のクラスラベルとして用いられる(ステップS85)。最終的には、これらの値はトレーニングインスタンス(ステップS86)を作成するために連結される。
図16乃至図22は、属性部分集合の選択中におけるイテレーションの一連のステップを示している。式(9)を用いて、確率ベクトルを初期化する。DF_2およびBMI_2に関する事前情報が利用可能であり、該情報は確率ベクトルの初期化中に用いられる。他の属性については、選択の確率を0.5にセットする。この確率ベクトルをサンプリングすることによって、10個の候補属性部分集合からなる母集団を図17に示すように生成する。次に、これらの属性部分集合をデータを用いて評価する(図18)。「スコア」カラムの下の値はあくまで例である。図19において、候補属性部分集合の総括的評価ステップが詳細に示されている。まず、候補属性部分集合において1を有している属性のデータを保持する。この場合、選択される属性はHbA1c_1、DF_2およびBMI_2である。次に、これらのデータを、サンプルを分類するkNNクラシファイヤに渡す。該クラシファイヤは3つのインスタンスの分類を誤っており、2つを偽陽性とし、1つを偽陰性としている。最終的に、スコア計算サブ−サブユニットは、θ、TP、TN、FPおよびFNに基づいた値を返す。
次に、候補属性部分集合の半分をスコアに基づいて選択する(図20)。ランク付けされた上位5つの候補属性部分集合は、候補属性部分集合#1、#5、#6、#9および#10である。選択された属性部分集合から、属性の周辺分布を算出する(図21)。最後に、図22に示すように、各属性の確率を式(10)を用いて更新する。以上により属性部分集合選択中における1回のイテレーションが完了する。
そして、従業員の健康リスクを、図9に示した時系列データのステップに従って予測する。
(信用リスクデータ)
クレジットカードの発行から小企業融資まで、商業銀行および多数の消費者金融会社が様々な消費者金融サービスを提供している。貸倒損失を低下させて収益性を高めるために、消費者金融会社のうちの何社かは近頃、消費者の情報にデータマイニング技術を適用し始めた。この技術を利用する目的は、ローンを認めるかどうかを申込者の個人データに基づいて決定することにある。
クレジットカードの発行から小企業融資まで、商業銀行および多数の消費者金融会社が様々な消費者金融サービスを提供している。貸倒損失を低下させて収益性を高めるために、消費者金融会社のうちの何社かは近頃、消費者の情報にデータマイニング技術を適用し始めた。この技術を利用する目的は、ローンを認めるかどうかを申込者の個人データに基づいて決定することにある。
図23は、16人の顧客の信用リスクデータの一例を示している。16人の顧客のうち、4人の顧客だけがローンを返済しなかった(「不履行者」という)。図24は、住宅ローンを申し込む人のデータを示している。課題は、この申込者がローンを返済するか、ローン不履行者になるかどうかを予測することである。その人の生計状態および職種が、ローン返済に影響を与える多数の要素のうちの2つであることが分かっているものとする。図25は、信用リスクデータの属性についてのこのような事前情報を示す。
これらのデータは非時系列データであるので、健康診断およびライフスタイルデータの場合とは異なる方法により前処理する。前処理が、欠測値の処理を含んでいてもよい。これは図11のステップに従って行うことができる。
その後、健康診断データおよびライフスタイルデータの場合と同様に、ローン状態に大いに関係する属性を選択することができる。しかしながら、予測データにおけるテストインスタンスのリスクは図8のステップを用いて予測される。
(セキュリティデータ)
監視カメラ画像から異常行動を検出するビデオ監視装置は、列車駅、銀行、スーパーマーケット、空港およびエレベータのような公衆の場所に設置される。これらのビデオ監視装置の目的は、人間の挙動が分かり、異常な事態が起こる場合に必要な処置を講ずることである。図26に、列車駅におけるセキュリティデータの一例を示す。該データは駅における人の振る舞いが正常であるか異常であるかを判定するために用いられる。図27に、列車駅における監視下の人物を示す。列車駅で自殺をする人々は、ほとんどの場合、接近中の列車の前方でジャンプすることが分かっている。すなわち、その人の移動軌跡と列車位置は、列車駅での異常行動を検知するための2つの重要な属性である。図28は、セキュリティデータの属性についてのこの事前情報を示している。
監視カメラ画像から異常行動を検出するビデオ監視装置は、列車駅、銀行、スーパーマーケット、空港およびエレベータのような公衆の場所に設置される。これらのビデオ監視装置の目的は、人間の挙動が分かり、異常な事態が起こる場合に必要な処置を講ずることである。図26に、列車駅におけるセキュリティデータの一例を示す。該データは駅における人の振る舞いが正常であるか異常であるかを判定するために用いられる。図27に、列車駅における監視下の人物を示す。列車駅で自殺をする人々は、ほとんどの場合、接近中の列車の前方でジャンプすることが分かっている。すなわち、その人の移動軌跡と列車位置は、列車駅での異常行動を検知するための2つの重要な属性である。図28は、セキュリティデータの属性についてのこの事前情報を示している。
信用リスクデータの場合と同様に、これらのデータは非時系列データであり、欠測値の処理が必要となることがある。この処理は、図11のステップに従って行うことができる。
その後、健康診断データおよびライフスタイルデータの場合と同様に、列車駅での異常行動の検知に大いに関係する属性を選択することができる。しかしながら、予測データにおけるテストインスタンスのリスクは図8のステップを用いて予測される。
なお、上記実施形態では不均衡なデータを対象とするものとして説明したが、本発明は不均衡なデータに制限されず、均衡なデータにも用いることが可能である。
また、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
6…交差検定フォールド決定ユニット;
7…コスト計算ユニット;
8…データ前処理ユニット;
9…属性部分集合選択ユニット;
10…リスク予測ユニット
7…コスト計算ユニット;
8…データ前処理ユニット;
9…属性部分集合選択ユニット;
10…リスク予測ユニット
Claims (6)
- 大多数クラス及び少数クラスからのインスタンスのそれぞれの誤分類コスト及び少数クラスの感度閾値を含み、前記誤分類のコストが既知の場合には前記それぞれの誤分類のコストを表し、前記誤分類のコストが不明である場合には前記少数クラスの感度閾値を表す評価パラメータを入力する評価パラメータユニットと、
各々が選択された属性と非選択の属性とを有する複数の候補属性部分集合を発見的探索アルゴリズムにより生成する属性部分集合生成サブユニットと、
クラシファイヤによりインスタンス誤分類のトータルコストを算出し、前記選択された属性がインスタンスの分類に関してどの程度良好かをあらわすスコアを前記評価パラメータに基づいたスコアリング手順に従って算出することにより、不均衡なデータの分類について属性部分集合の優良スコアを返す属性部分集合評価サブユニットと、
前記優良スコアに基づいて選択される属性部分集合に基づいてリスク予測を行う予測ユニットとを具備し、
前記属性部分集合評価サブユニットは、
前記誤分類のコストが既知の場合には、前記不均衡なデータのモデルによりインスタンス誤分類の集約されたコストを返し、
前記誤分類のコストが未知の場合には、感度と特異性情報を組み合わせることによりスコアを返し、
前記モデルにより返された感度が前記閾値よりも低い場合には、感度と特異性のバランスをある程度保つ通常スコアを返し、
前記モデルにより返された感度が前記閾値よりも高い場合には、加算スコアを返すリスク予測装置。 - ターゲットリスク要因と属性の関係についての事前情報を入力するユニットをさらに具備し、
前記属性部分集合生成サブユニットは、
前記候補属性部分集合を生成するために用いられる確率ベクトルを初期化又は更新する際に前記事前情報を組込み、該確率ベクトルをサンプリングすることにより前記候補属性部分集合を生成する請求項1記載のリスク予測装置。 - 前記大多数クラス及び少数クラスからのインスタンスのそれぞれの誤分類コストが前記評価パラメータによって与えられない場合に、該大多数クラスの誤分類のコスト、および少数クラスの誤分類のコストを決定するユニットをさらに具備する請求項1または2記載のリスク予測装置。
- 大多数クラス及び少数クラスからのインスタンスのそれぞれの誤分類コスト及び少数クラスの感度閾値を含み、前記誤分類のコストが既知の場合には前記それぞれの誤分類のコストを表し、前記誤分類のコストが不明である場合には前記少数クラスの感度閾値を表す評価パラメータを評価パラメータユニットが入力するステップと、
各々が選択された属性と非選択の属性とを有する複数の候補属性部分集合を属性部分集合生成サブユニットが発見的探索アルゴリズムにより生成するステップと、
クラシファイヤがインスタンス誤分類のトータルコストを算出し、前記選択された属性がインスタンスの分類に関してどの程度良好かをあらわすスコアを属性部分集合評価サブユニットが前記評価パラメータに基づいたスコアリング手順に従って算出することにより、不均衡なデータの分類について属性部分集合の優良スコアを返すステップと、
前記優良スコアに基づいて選択される属性部分集合に基づいて予測ユニットがリスク予測を行うステップとを有し、
前記属性部分集合評価サブユニットは、
前記誤分類のコストが既知の場合には、前記不均衡なデータのモデルによりインスタンス誤分類の集約されたコストを返し、
前記誤分類のコストが未知の場合には、感度と特異性情報を組み合わせることによりスコアを返し、
前記モデルにより返された感度が前記閾値よりも低い場合には、感度と特異性のバランスをある程度保つ通常スコアを返し、
前記モデルにより返された感度が前記閾値よりも高い場合には、加算スコアを返すリスク予測方法。 - ターゲットリスク要因と属性の関係についての事前情報を入力するステップをさらに具備し、
前記属性部分集合生成サブユニットは、
前記候補属性部分集合を生成するために用いられる確率ベクトルを初期化又は更新する際に前記事前情報を組込み、該確率ベクトルをサンプリングすることにより前記候補属性部分集合を生成する請求項4記載のリスク予測方法。 - 前記大多数クラス及び少数クラスからのインスタンスのそれぞれの誤分類コストが前記評価パラメータによって与えられない場合に、該大多数クラスの誤分類のコスト、および少数クラスの誤分類のコストを決定するステップをさらに具備する請求項4または5記載のリスク予測方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008083434A JP2009237914A (ja) | 2008-03-27 | 2008-03-27 | リスク要因を同定するためのリスク予測装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008083434A JP2009237914A (ja) | 2008-03-27 | 2008-03-27 | リスク要因を同定するためのリスク予測装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009237914A true JP2009237914A (ja) | 2009-10-15 |
Family
ID=41251782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008083434A Withdrawn JP2009237914A (ja) | 2008-03-27 | 2008-03-27 | リスク要因を同定するためのリスク予測装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009237914A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8983890B2 (en) | 2011-12-05 | 2015-03-17 | International Business Machines Corporation | Calculating risk assessment value of event sequence |
WO2017017682A1 (en) * | 2015-07-29 | 2017-02-02 | Agt International Gmbh | Data fusion and classification with imbalanced datasets background |
JP2019153279A (ja) * | 2017-12-25 | 2019-09-12 | ダッソー システムズDassault Systemes | 物理的システムに影響を与えるイベントの予測 |
CN111985782A (zh) * | 2020-07-22 | 2020-11-24 | 西安理工大学 | 基于环境感知的自动驾驶有轨电车运行风险评估方法 |
CN112966778A (zh) * | 2021-03-29 | 2021-06-15 | 上海冰鉴信息科技有限公司 | 针对不平衡样本数据的数据处理方法及装置 |
CN115659243A (zh) * | 2022-12-22 | 2023-01-31 | 四川九通智路科技有限公司 | 基于mems的基础设施风险监测方法及监测系统 |
-
2008
- 2008-03-27 JP JP2008083434A patent/JP2009237914A/ja not_active Withdrawn
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8983890B2 (en) | 2011-12-05 | 2015-03-17 | International Business Machines Corporation | Calculating risk assessment value of event sequence |
US9317804B2 (en) | 2011-12-05 | 2016-04-19 | International Business Machines Corporation | Calculating risk assessment value of event sequence |
WO2017017682A1 (en) * | 2015-07-29 | 2017-02-02 | Agt International Gmbh | Data fusion and classification with imbalanced datasets background |
JP2019153279A (ja) * | 2017-12-25 | 2019-09-12 | ダッソー システムズDassault Systemes | 物理的システムに影響を与えるイベントの予測 |
CN111985782A (zh) * | 2020-07-22 | 2020-11-24 | 西安理工大学 | 基于环境感知的自动驾驶有轨电车运行风险评估方法 |
CN111985782B (zh) * | 2020-07-22 | 2023-08-15 | 西安理工大学 | 基于环境感知的自动驾驶有轨电车运行风险评估方法 |
CN112966778A (zh) * | 2021-03-29 | 2021-06-15 | 上海冰鉴信息科技有限公司 | 针对不平衡样本数据的数据处理方法及装置 |
CN112966778B (zh) * | 2021-03-29 | 2024-03-15 | 上海冰鉴信息科技有限公司 | 针对不平衡样本数据的数据处理方法及装置 |
CN115659243A (zh) * | 2022-12-22 | 2023-01-31 | 四川九通智路科技有限公司 | 基于mems的基础设施风险监测方法及监测系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shen et al. | A new deep learning ensemble credit risk evaluation model with an improved synthetic minority oversampling technique | |
Lee et al. | SCLS: Multi-label feature selection based on scalable criterion for large label set | |
Ortigosa-Hernández et al. | Approaching sentiment analysis by using semi-supervised learning of multi-dimensional classifiers | |
Karthika et al. | A Naïve Bayesian classifier for educational qualification | |
Landeiro et al. | Robust text classification in the presence of confounding bias | |
CN109472462B (zh) | 一种基于多模型堆栈融合的项目风险评级方法及装置 | |
Li et al. | On performance of case-based reasoning in Chinese business failure prediction from sensitivity, specificity, positive and negative values | |
US7840505B2 (en) | Classification tool | |
JP2009237914A (ja) | リスク要因を同定するためのリスク予測装置 | |
Govindarajan et al. | Evaluation of k-nearest neighbor classifier performance for direct marketing | |
Gil-Gonzalez et al. | Learning from multiple annotators using kernel alignment | |
Korovkinas et al. | Support vector machine parameter tuning based on particle swarm optimization metaheuristic | |
CN106227802A (zh) | 一种基于中文自然语言处理和多核分类器的多信源股价预测方法 | |
Pai et al. | Analyzing foreign exchange rates by rough set theory and directed acyclic graph support vector machines | |
Lawless et al. | Interpretable and fair boolean rule sets via column generation | |
Terven et al. | Loss functions and metrics in deep learning. A review | |
Han et al. | Interpretable machine learning assessment | |
Alzubaidi et al. | Projection pursuit Random Forest using discriminant feature analysis model for churners prediction in telecom industry. | |
JP2010272004A (ja) | 判別装置及び判別方法、並びにコンピューター・プログラム | |
Alkurdi | Enhancing Heart Disease Diagnosis Using Machine Learning Classifiers | |
Ali et al. | On optimal degree selection for polynomial kernel with support vector machines: Theoretical and empirical investigations | |
Das et al. | Using graphs and semantic information to improve text classifiers | |
Belciug et al. | A Bayesian framework for extreme learning machine with application for automated cancer detection | |
Pal et al. | A Study on Credit Scoring Models with different Feature Selection and Machine Learning Approaches | |
Zhang et al. | A class of classification and regression methods by multiobjective programming |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20110607 |