JP2013541085A - オブジェクトにスコアを提供する方法及び意思決定支援システム - Google Patents

オブジェクトにスコアを提供する方法及び意思決定支援システム Download PDF

Info

Publication number
JP2013541085A
JP2013541085A JP2013527603A JP2013527603A JP2013541085A JP 2013541085 A JP2013541085 A JP 2013541085A JP 2013527603 A JP2013527603 A JP 2013527603A JP 2013527603 A JP2013527603 A JP 2013527603A JP 2013541085 A JP2013541085 A JP 2013541085A
Authority
JP
Japan
Prior art keywords
node
given
processing means
binary
subspace
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2013527603A
Other languages
English (en)
Inventor
クレメンコン,ステファン
ヴァヤティス,ニコラス
Original Assignee
インスティチュート テレコム−テレコム パリステック
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インスティチュート テレコム−テレコム パリステック filed Critical インスティチュート テレコム−テレコム パリステック
Publication of JP2013541085A publication Critical patent/JP2013541085A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明は、多次元空間からのターゲットアイテムにより表されるオブジェクトにスコアを提供する方法であって、前記スコアは、前記オブジェクトが所与のバイナリな性質を充足する確率を表し、当該方法は、記憶手段に接続される処理手段を有するコンピュータ環境において実行され、当該方法は、(a)前記多次元空間からのサンプルアイテムセットを表すデータを提供し、前記記憶手段に格納するステップであって、各サンプルアイテムは、該サンプルアイテムにより表されるオブジェクトが前記所与のバイナリな性質を充足する確率を表す多値ラベルに関連付けされる、前記提供及び格納するステップと、(b)前記ターゲットアイテムを表すデータを前記記憶手段に格納するステップと、(c)前記処理手段によって、所与の高さを有する有向バイナリツリーを表すデータを生成し、前記記憶手段に格納するステップであって、前記バイナリツリーは、該バイナリツリーにおける自らのポジションに関するインデックス値を有する複数のンモードにより規定され、前記ノードはルートノード、中間ノード及び終端ノードを有し、各ノードは、該ノードがルートノードである場合には関連するサブ空間は前記多次元空間全体であり、該ノードが非終端ノードである場合には関連するサブ空間は、前記非終端ノードの第1チャイルドノード及び第2チャイルドノードにそれぞれ関連する2つの互いに素なサブ空間ε及びεに分割され、前記分割は、前記サブ空間εに属するよう所与の第1ラベル値に関連するサンプルアイテムの個数及び/又は前記サブ空間εに属するよう所与の第2ラベル値に関連するサンプルアイテムの個数を最小化する分類手段に従って前記処理手段により実行され、前記第2ラベル値は、前記サンプルアイテムにより表されるオブジェクトが前記所与の第1ラベル値より前記所与のバイナリな性質を充足する確率が高いことを表す、前記生成及び格納するステップと、(d)前記処理手段によって、前記バイナリツリーの少なくとも各終端ノードとスコアとを前記バイナリツリーにおけるそれのインデックス値に依存して関連付け、前記スコアの値を前記記憶手段に格納するステップと、(e)前記処理手段によって、ターゲットノードを特定するステップであって、前記ターゲットノードは、関連するサブ空間が前記ターゲットアイテムを有する終端ノードである、前記特定するステップと、(f)前記ターゲットノードに関連するスコアの値を出力するステップとを有する方法に関する。

Description

本発明の分野は、意思決定活動を支援する知識ベースシステムのものである。
より詳細には、本発明は、オブジェクトにスコアを提供する方法に関する。
金融から医療までの様々な分野における多くの活動は、リスクを評価し、意思決定を行うことを必要とする。それは、投資を行ったり、所与の病状について患者の処置を開始したり、文書が関連があるか決定したり、製品を不良品として拒絶したり、又は2以上の可能性の間で単に選択するための決定であってもよい。
“意思決定支援システム”と呼ばれるコンピュータツールのファミリは、大量のデータを解析することによって意思決定を行うことを支援する目的を有する。例えば、大量の金融データを知得すると、当該システムは、投資が行われるべきか決定することを試みる。
数学とコンピュータサイエンスとの間のインタフェースにある教師付き分類方法は、“良好な支払人”と“支払不能な支払人”、“関連する文書”と“無関係な文書”、“健康な患者”と“病気の患者”、又は“適合した製品”と“不適合な製品”など、各ケースをバイナリラベルと関連付けることによって、テスト対象のケースを分類することを提案している。しかしながら、このような方法は、あるケースについて最も可能性のあるラベルを予測することしか試みない。誤りを犯すリスクは僅かしか低下しない。
スコアリング/ランキング方法は、他のアプローチを提案する。このような方法の目的は、多数の“良好な支払者”又は“関連する文書”が最大尤度を有するリストの先頭となるように、各ケースを並び替え/順序付けする方法を学習することである。
多変量観察対象を順序づける最も自然な方法は、観察された各ケース(新規又は非新規)にリスク度又は関連度として解釈可能な“スコア”という数値を割り当てるスコアリング関数を利用することである。このスコアリング関数のクオリティは、通常は偽陽性率に関する真陽性率の視覚的表示を可能にする関数基準、すなわち、Receiver Operating Characteristic(ROC)曲線を用いて評価される。情報抽出に広く利用されるRecall−Precision曲線は、陽性のラベルデータの率が極めて高い又は極めて低いとき、識別結果を可視化するための類似したアプローチである。
高次元データの教師付き分類の多数の強力なアルゴリズム(CART、SVM、ブースティング、ランダムフォレスト)がすでに知られているが、“機械学習”タイプのアルゴリズムの何れもスコアリングの問題に専用のものでない。大部分のアプリケーションでは、アプローチは、観察結果の分布のモデル化、情報の切り詰めなどの手作業のデータ前処理に主に基づき、ロジスティック回帰(リニア)又は線形判別解析などの従来の統計方法を利用するものである。これらのアプローチはまた、追加的な次元の追加(“次元の呪い”)に関するデータ量の指数的増加により引き起こされる問題に直面する。また、バイナリ分類方法は、スコアとして“マージンへの距離”を誤って利用することがある。
このため、機械学習に基づき改良されたスコアリング方法が必要とされる。
これらの目的のため、本発明は、多次元空間からのターゲットアイテムにより表現されるオブジェクトにスコアを提供する方法であって、前記スコアは、前記オブジェクトが所与のバイナリな性質を充足する確率を表し、当該方法は、記憶手段に接続される処理手段を有するコンピュータ環境において実行され、
当該方法は、
(a)前記多次元空間からのサンプルアイテムセットを表すデータを提供し、前記記憶手段に格納するステップであって、各サンプルアイテムは、該サンプルアイテムにより表されるオブジェクトが前記所与のバイナリな性質を充足する確率を表す多値ラベルに関連付けされる、前記提供及び格納するステップと、
(b)前記ターゲットアイテムを表すデータを前記記憶手段に格納するステップと、
(c)前記処理手段によって、所与の高さを有する有向バイナリツリーを表すデータを生成し、前記記憶手段に格納するステップであって、前記バイナリツリーは、該バイナリツリーにおける自らのポジションに関するインデックス値を有する複数のンモードにより規定され、前記ノードはルートノード、中間ノード及び終端ノードを有し、各ノードは、該ノードがルートノードである場合には関連するサブ空間は前記多次元空間全体であり、該ノードが非終端ノードである場合には関連するサブ空間は、前記非終端ノードの第1チャイルドノード及び第2チャイルドノードにそれぞれ関連する2つの互いに素なサブ空間ε及びεに分割され、前記分割は、前記サブ空間εに属するよう所与の第1ラベル値に関連するサンプルアイテムの個数及び/又は前記サブ空間εに属するよう所与の第2ラベル値に関連するサンプルアイテムの個数を最小化する分類手段に従って前記処理手段により実行され、前記第2ラベル値は、前記サンプルアイテムにより表されるオブジェクトが前記所与の第1ラベル値より前記所与のバイナリな性質を充足する確率が高いことを表す、前記生成及び格納するステップと、
(d)前記処理手段によって、前記バイナリツリーの少なくとも各終端ノードとスコアとを前記バイナリツリーにおけるそれのインデックス値に依存して関連付け、前記スコアの値を前記記憶手段に格納するステップと、
(e)前記処理手段によって、ターゲットノードを特定するステップであって、前記ターゲットノードは、関連するサブ空間が前記ターゲットアイテムを有する終端ノードである、前記特定するステップと、
(f)前記ターゲットノードに関連するスコアの値を出力するステップと、
を有する方法を提供する。
本方法は、広範なシミュレーションを介し明らかにされた優れたパフォーマンスを可能にする。これは、関数的な最適化問題を実際に解くという事実から生じ、最適なROC曲線により近い適応的な近似に収束する再帰的なスコアリング関数を構成する。
さらに、提案されたリサンプリング(ブーストラップ)の技術は、大量のサンプルを容易に取得することを可能にし、大変信頼できるスコアリングルールをもたらす。さらに、アプローチの非パラメータ的な側面は、ガウス分布にしばしば良好に適合しないデータの処理を可能にする。
しかしながら、最も重要なポイントは、本方法が非統計学者により容易に解釈可能なスコアリングルールの生成を可能にすることである。ここで、スコアリングルールと呼ばれるものは、観察結果のベクトルの各属性又はコンポーネントに対するインパクトを定量化することが可能なシンプルなバイナリルールの組み合わせである。
例えば、医療診断のケースでは、観察ベクトルが血液パラメータの指標のセットから構成されるとき、生成されるスコアリングルールは、“健康な患者”と“病気の患者”の2つのカテゴリを規定する各パラメータに対する値の範囲の形式をもたらす。カテゴリの個数は、もちろん2より大きなものであってもよい。
最後に、これらのルールは、非統計学者のユーザにより直接理解可能になるため、ツリーの先頭のパーツに最も興味のあるパラメータが現れる有向バイナリツリーとして容易に可視化可能である。
本発明の好適であるが、非限定的な特徴は以下のとおりである。
・各ノードのインデックス値は、値のペアを有し、第1インデックス値は、前記バイナリツリーにおける前記ノードの深さを表し、第2インデックス値は、前記ツリーにおける所与の深さレベルにおける前記ノードのポジションを表す。
・前記ルートノードのインデックスは(0,0)であり、インデックスが(d,k)である非終端ノードの第1及び第2チャイルドノードのインデックスはそれぞれ、(d+1,2k)及び(d+1,2k+1)である。
・インデックスが(d,k)であるノードに関連するスコアは、2(1−k/2)であり、Dは前記バイナリツリーの高さである。
・前記分割は、前記処理手段によって、前記サブ空間εに属するよう所与の第1ラベル値に関連するサンプルアイテムの個数と、前記サブ空間εに属するよう所与の第2ラベル値に関連するサンプルアイテムの個数との重み付けされた組み合わせを最小化することによって実行される。
・前記重み付けされた組み合わせのウェートはそれぞれ、互いに素なサブ空間ε及びεに分割されるサブ空間における所与の第2ラベル値に関連するサンプルアイテムのレートと、互いに素なサブ空間ε及びεに分割されるサブ空間における所与の第1ラベル値に関連するサンプルアイテムのレートとである。
・前記分割は、前記処理手段によって、
Figure 2013541085
の値を最小化することによって実行され、(X,Y)...(X,Y)はそれらのバイナリラベルに関連するサンプルアイテムのセットであり、ωは互いに素なサブ空間ε及びεに分割されるサブ空間における所与の第2ラベル値に関連するサンプルアイテムのレートであり、ξは前記第1ラベル値であり、ξは前記第2ラベル値である。
・前記分割中に考慮する関連するサブ空間の次元数及び/又はサンプルアイテム数は、減少される。
・前記多次元空間は、無限次元空間であり、前記分割は、有限次元アイテムへのサンプルアイテムの近似を有する。
・本方法は、(c1)前記処理手段によって、前記形成されたバイナリツリーのサブツリーを選択し、前記バイナリツリーを前記サブツリーにより置換するステップを有し、前記ステップ(c1)は、ステップ(c)に続く。
・ROC(Receiver Operating Characteristic)曲線は、可能な各サブツリーについてステップ(c1)において前記処理手段により構成され、前記記憶手段に格納され、前記選択されたサブツリーは、前記処理手段によって、関連するROC曲線の下方の最も大きな面積を有するものとして決定される。
・ROC曲線は、可能な各サブツリーについてステップ(c1)において前記処理手段により構成され、前記記憶手段に格納され、前記選択されたサブツリーは、関連するROC曲線の下方の最も大きなComplexity−penalizedされた面積を有するものとして決定される。
・前記ステップ(c1)は、前記処理手段により前記可能なサブツリーのセットに対して実行される交差検証テストを有する。
・前記多値ラベルは、前記サンプルアイテムにより表されるオブジェクトが前記所与のバイナリな性質を充足するか否かを示すバイナリラベルであり、前記第1ラベル値は、前記所与のバイナリな性質を充足しないサンプルアイテムに関連するラベル値であり、前記第2ラベル値は、前記所与のバイナリな性質を充足するサンプルアイテムに関連するラベル値である。
・前記多値ラベルは、少なくとも3つの値(1≦ξ≦Ξ)を有し、前記ラベル値は、前記所与のバイナリな性質を充足する確率によって上がり、ラベル値の
Figure 2013541085
個の可能なペアのそれぞれについて、ξ<ξとなるように有向バイナリツリーが形成及び格納され、ξは前記第1ラベル値であり、ξは前記第2ラベル値である。
・前記多値ラベルは、少なくとも3つの値(1≦ξ≦Ξ)を有し、前記ラベル値は、前記処置のバイナリな性質を充足する確率によって上がり、ラベル値ξ=ξ+1の(Ξ−1)個の可能なペア(ξ,ξ)のそれぞれについて、有向バイナリツリーが形成及び格納され、ξは前記第1ラベル値であり、ξは前記第2ラベル値である。
・ステップ(a)において、複数のサンプルアイテムセットが生成及び格納され、各サンプルアイテムセットについて、有向バイナリツリーが形成及び格納される。
・各サンプルアイテムセットは、前記処理手段によって、メインサンプルアイテムセットをリサンプリングすることによって生成されるブーストラップ複製である。
・本方法は、(d1)前記複数の形成されたバイナリツリーを集約し、最良のスコアリングルールを決定するステップをさらに有し、前記ステップ(d1)は、ステップ(c)に続く。
・ステップ(d1)は、
形成された各バイナリツリーについて、前記終端ノードに関連するサブ空間により形成される多次元空間のパーティションを提供し、記憶手段に格納するサブステップと、
前記処理手段によって、共通のサブパーティションを形成するため、前記パーティションを集約するサブステップと、
形成された各バイナリツリーについて、前記共通のサブパーティションの各パーツをスコアリングすることによって、スコアリングルールを提供及び格納するサブステップと、
各スコアリングルールについて、前記スコアリングルールに従ってスコアリングされた前記パーツのランキングを提供及び格納するサブステップと、
前記処理手段によって、前記複数のランキングから中間のランキングを決定し、前記中間のランキングを前記記憶手段に格納するサブステップと、
前記処理手段によって、前記中間のランキングに関連するスコアリングルールを前記最良のスコアリングルールとして選択するサブステップと、
を有する。
・前記中間のランキングを決定するサブステップは、前記処理手段により、各ランキングペアの間の非類似レートを計算し、その他のランキングと最も低い非類似レートを示すランキングを前記中間のランキングとして選択することを含む。
・前記中間のランキングは、
Figure 2013541085
となるようなランキング
Figure 2013541085
であり、
Figure 2013541085
はランキングであり、
Figure 2013541085
はランキングペアの間の非類似レートである。
・前記非類似レートは、
Figure 2013541085
として定義され、
Figure 2013541085
は前記共通のサブパーティションのパーツであり、
Figure 2013541085
はランキング
Figure 2013541085
に従う前記共通のサブパーティションのその他のパーツからのパーツCのランクである。
・前記非類似レートは、
Figure 2013541085
として定義され、
Figure 2013541085
は前記共通のサブパーティションのパーツであり、
Figure 2013541085
はランキング
Figure 2013541085
に従う前記共通のサブパーティションのその他のパーツからのパーツCのランクである。
・前記非類似レートは、
Figure 2013541085
として定義され、
Figure 2013541085
は前記共通のサブパーティションのパーツであり、
Figure 2013541085
はランキング
Figure 2013541085
に従う前記共通のサブパーティションのその他のパーツからのパーツCのランクである。
第2の態様では、本発明は、処理手段、入力手段、出力手段及び記憶手段を有する意思決定支援システムであって、前記処理手段は、本発明の第1の態様の方法を実現するよう構成される意思決定支援システムを提供する。
本発明の上記及び他の課題、特徴及び効果は、添付した図面に関して参照されるべき例示的な実施例の以下の詳細な説明において明らかになるであろう。
図1は、本発明の第1態様による方法に利用されるバイナリツリーの一例を示す。 図2は、本発明の第1態様による方法の実施例に利用されるバイナリサブツリーの一例を示す。 図3は、本発明の第1態様による方法の一例となるテストReceiver Operating Characteristic(ROC)曲線の図である。 図4は、本発明の第1態様による方法の実施例のステップを示す図である。 図5は、本発明の第1態様による方法の実施例に利用されるツリー構造のパーティションにより導かれる最大共通サブパーティションを特徴付けるバイナリサブツリーの一例を示す。 図6aは、本発明の第1態様による方法を示すのに利用されるサンプルアイテムセットの一例を示す。 図6bは、図5aの具体例に関する回帰関数のバイナリレベルセットを示す図である。 図6cは、本発明の第1態様による方法を利用して図5aの具体例から学習されたスコアリング関数のバイナリレベルセットを示す図である。 図6dは、図5cのスコアリング関数の最適なROC曲線とテストROC曲線とを示す図である。
図面を参照して、本発明の好適な実施例による方法が説明される。
[準備]
確率のフレームワークは、標準的なバイナリ分類のものと全く同じである。例えば、ランダムな変数のペアは(X,Y)により表される。ここで、
Figure 2013541085
はバイナリラベルであり、XはYを予測し、高次元の特徴空間
Figure 2013541085
におけるそれの値をとるため、いくつかの観察をモデル化するアイテムである。従って、各ペア(X,Y)はオブジェクトを表し、当該オブジェクトは所与のバイナリな性質を充足するか、又は充足しない。バイナリな性質が充足される場合、Y=+1であり、そうでない場合、Y=−1である。例えば、説明されるように、医療診断に関して、オブジェクトは患者であり、バイナリな性質は、“患者が健康である”というものである。患者に関するアイテムは、患者の体温、年齢及び血液中の所与の抗体及び/又はリンパ球の濃度からなる組であってもよい。
Xは(おそらく多変量の)サンプリングされた曲線(例えば、時間に依存するデータ、すなわち、X=X(t)など)、無限次元アイテムであってもよいことに留意されたい。この“関数”バージョンでは、入力される曲線は有限次元のサブスペースに写像される。
3以上のカテゴリのケースでは、バイナリな性質の組み合わせが利用されてもよい。例えば、“患者は健康である”、“患者は病気Aを有している”及び“病気Bの患者”という3つのカテゴリを管理するため、第1ラベルYは、患者が健康であるか否かを示し、Y=1の場合、第2ラベルYは、病気がA又はBであるかを示す。これら2つのバイナリな性質は、別々に処理可能である。従って、すべてのマルチ分類問題は、1以上のバイナリ分類問題に還元可能である。
あるいは、Yは、バイナリな性質に関する達成の順序付けされた信頼度を表す多値ラベル
Figure 2013541085
であってもよい。特に、Ξ=3である場合、Y=2は、特定の2つの状態の間の不確実性の状態(おそらく)に対応してもよい(バイナリな性質が充足される場合、Y=3であり、当該性質が充足されない場合、Y=1である)。例えば、病気の医療ベンチマークは、0(病気でない)から4(重大な病気)までの5つの値をとる。本発明による方法の実施例は、後述されるように、このようなマルチクラスのケースに利用可能である。
簡単化のため、以下の説明は、単一のバイナリ分類問題に実質的に関連するが、本発明はこのケースに限定されず、当業者は、それが任意のマルチ分類問題に適応させる方法を知るであろう。
従って、オブジェクトのバイナリラベルYの値は一般に未知であり、本発明の目的は、ターゲットアイテムと呼ばれるアイテムXを知り、またサンプルアイテムのセット(X...X)に対するYの値を知ると、Yの値に依存して位置決定を行うことを支援することである。このため、本発明による方法は、ターゲットアイテムXにより表されるオブジェクトにスコアsを提供することを提案し、当該スコアsは、オブジェクトが所与のバイナリな性質を充足する確率、すなわち、Y=+1となる確率を表す。
本方法は、メモリ手段に接続される処理手段を有するコンピュータ環境において実行される。例えば、メモリ手段は、コンピュータのハードドライブであり、処理手段は、コンピュータのプロセッサである。
[スコアリング−データ入力]
まず、ターゲットアイテム及びサンプルアイテムセットを表すデータが、メモリ手段に格納される必要がある。実際、上述されたように、本発明による方法は、機械学習に基づく。従って、ターゲットアイテムにより表されるオブジェクトにスコアを提供するスコア関数は、サンプルアイテムのセットから学習される。
当該セットが提供される必要がある。医療の具体例では、当該セットは健康であると知られている様々な患者の健康パラメータ(Y=+1)と、病気であると知られている様々な患者の健康パラメータ(Y=−1)とから構成されてもよい。
サンプルアイテムの個数は重要である。それらがより多数になると、スコアはより正確になる。さらに、それらは極めて網羅的である必要があり、多次元空間全体の可能な最大サブ空間をカバーする必要がある。例えば、健康パラメータがサンプルアイテムとして利用されるすべての患者が37〜38度の同じ体温を有する場合、39度を超える体温の患者を確実にスコアリングすることは困難になるであろう。
[スコアリング−バイナリランキングツリー]
メモリ手段に格納されているサンプルアイテムセットから、処理手段は、有向バイナリツリーを生成した。実際、本発明による方法は、部分単位の一定のスコアリング関数の特定のファミリ、すなわち、バイナリランキングツリーにより定義されるものに着目している。
まず、有限の深さD≧1のルートのある完全で左右の向きのあるバイナリツリーTを考える。Tのすべての非終端ノードは、サブセット
Figure 2013541085
に関連付けされ、2つのチャイルドノード、すなわち、2つのサブセット
Figure 2013541085
にそれぞれ関連付けされる左右の兄弟を有し、χは慣例的にルートノードに関連付けされるサブセットである。このような(完全な)ランキングツリーは、マスタランキングツリーと呼ばれ、例えば、図1により表される。
このように、バイナリツリーの何れかのレベルにおいて、関連するサブ空間はχの一部を形成する。各ノードにバイナリツリーにおけるそれのポジションに関してインデックス値を与えることによって、バイナリツリーにおけるそれのインデックス値に応じて、バイナリツリーの少なくとも各終端ノードにスコアを関連付けることが可能である。例えば、スコアは、右から左にツリーを探索するときに増加するようにしてもよい。効果的には、各ノードのインデックス値は値のペアからなり、第1インデックス値はバイナリツリーにおけるノードの深さを表し、第2インデックス値はバイナリツリーにおけるノードのポジションを表し、例えば、(d,k)は、
Figure 2013541085
である。この場合、ルートノードのインデックスは(0,0)であり、インデックスが(d,k)の非終端ノードの第1及び第2チャイルドノードのインデックスはそれぞれ、(d+1,2k)及び(d+1,2k+1)である。効果的には、このようなインデックス処理によって、スコアリング関数は、
Figure 2013541085
として選択されてもよい。すなわち、インデックスが(d,k)であるノードに関するスコアは、
Figure 2013541085
である。すなわち、終端ノードは1〜2までにスコアリングされる。このようなスコアリング関数は、図1に示される。
バイナリツリーの終端ノードはχの一部を構成するため、ターゲットアイテムは、1つのみの終端ノードに関連するサブ空間に属し、当該終端ノードは規定されたスコアに対応する。
[スコアリング−関連するサブ空間の分割]
信頼できるスコアリング関数を有するためのキーは、ノードに関連付けされるサブ空間の構築である。ツリーはルートノードから構成され、その後、高さDまでレベル毎に到達する。生成されるノードは、インデックス値とサブ空間とに関連付けされ、メモリ手段に格納される。
関連付けされたサブ空間の生成は、2つのルールに従う。まず、上述されたように、ルートノードに関連付けされるサブ空間は、多次元空間χ全体である。その後、ノードが非終端ノードである場合、それの関連付けされたサブ空間は、それぞれが当該非終端ノードの第1チャイルドノード及び第2チャイルドノードに関連付けされる2つの互いに素であるサブ空間εとεとに分割される。当該分割は、サブ空間εに属するように所与の第1ラベル値
Figure 2013541085
に関連するサンプルアイテムの個数、及び/又はサブ空間εに属するように所与のラベル値
Figure 2013541085
(すなわち、第2ラベル値は、サンプルアイテムにより表されるオブジェクトが所与の第1ラベル値より所与のバイナリな性質を充足する確率が高いことを表す)に関連するサンプルアイテムの個数を最小化する分類手段に従って処理手段により実行される。
上述されるように、簡単化のため、ラベルはバイナリラベルであり、すなわち、Ξ=2であると考えられる。この結果、ξ=−1(当該ラベル値に関するサンプルアイテムは、所与のバイナリな性質を充足しない)であり、ξ=+1(当該ラベル値に関するサンプルアイテムは、所与のバイナリな性質を充足する)である。
すべてのケースにおいて、所与のバイナリな性質を充足する確率は、サブ空間εに属するアイテムに対してより、サブ空間εに属するアイテムに対してより高くなる。第1チャイルドノードが左の兄弟であり、第1チャイルドノードが右の兄弟である場合、ノードが左方にあるほど、関連するそれのスコアはより高くなる。
最善のサブ空間ε及びεを求める方法の問題は、既知のバイナリ分類問題と等価である。実際、効果的には、最小化の必要のある関数は、サブ空間εに属するよう所与のバイナリな性質を充足しないサンプルアイテムの個数と、サブ空間εに属するよう所与のバイナリな性質を充足するサンプルアイテムの個数との重み付けされた組み合わせであり、当該重み付けされた組み合わせにおけるウェートはそれぞれ、例えば、サブ空間の所与のバイナリな性質を充足するサンプルアイテムが互いに素なサブ空間ε及びεに分割されるレートと、サブ空間の所与のバイナリな性質を充足しないサンプルアイテムが互いに素なサブ空間ε及びεに分割されるレートとであり、すなわち、サブ空間Cにおける否定的なサンプルアイテムのレートは、
Figure 2013541085
であり、サブ空間Cにおける肯定的なサンプルアイテムのレートは、
Figure 2013541085
である。ここで、
Figure 2013541085
である。
このようなケースでは、最小化するための関数表現は、
Figure 2013541085
であってもよい。
すなわち、
Figure 2013541085
である。例えば、CART、SVM、ニューラルネットワークなどの教師付き分類方法は、当該表現を最小化するサブ空間ε(及びサブ空間ε)を迅速かつ効率的に求めるため、処理手段により実行されてもよい。
当該分割は完全である必要はないが、効率的である必要はある。正確すぎる分割は、XとYとの間の現実の関係の代わりに、ランダムなエラーやノイズを示し、データにおける軽微な変動を誇張しすぎることになる。このような問題は、オーバフィッティング(overfitting)と呼ばれる。これを回避するため、自由度は分割する際に限定され、サブ空間のよりシンプルな分割と学習速度の増大とを導く。
効果的には、考慮されるサンプルアイテムの個数及び/又は空間の次元数は、バイナリツリーを深化する間に自発的に減少する。例えば、あるレベルから次のレベルまで、サンプルアイテムの10%のみが再利用されてもよい。データランダム化と呼ばれるこのような技術は、オーバフィッティングを防ぎ、大きな次元のケースにおける効率性を向上させるための他の方法である。
例えば、データマイニングの正確なスコアリングのケースにおいて、オブジェクトはウェブページである。次元数は1万を超える可能性があり、サンプルアイテムの個数は数十億を超える可能性がある。オーバフィッティングのリスクは、極めて高い。
[フィルタリング]
入力における“関数”データX(上述されるような無限次元アイテム)のケースでは、“フィルタリング”又は“正規化”方法が、射影を提供することを支援し、すなわち、無限次元アイテムを本発明による方法においてより容易に利用可能な有限次元アイテムに変換することを支援してもよい。このため、変換(例えば、フーリエ変換、ラプラス変換、又は特に好ましくなウェーブレット変換など)と呼ばれる数学演算が、関数データを関数の直交基底により表現することを支援するのに効果的である。
ウェーブレット変換は、信号処理の分野において周知である。フーリエ解析に関して、ウェーブレット変換は、X(t)信号をよりシンプルな要素に分解する(それぞれ、シヌソイドの和とウェーブレットの和)。主たる違いは、ウェーブレットは時間と周波数との双方でローカライズされ、標準的なフーリエ変換は周波数のみにおいてローカライズされる。
ウェーブレットは、ゼロにおいて増加を開始し、その後にゼロに減少する振幅を有する波形の振動である。それは、典型的には、“短い振動”として可視化可能である。
和のウェーブレットは、最もしばしばマザーウェーブレットである1つの生成関数Ψのシフトにより生成される。周知な具体例は、Daubechies、Morlet及びCoiflet関数である。
従って、ウェーブレット係数は、
Figure 2013541085
であり、例えば、
Figure 2013541085
である。
X関数の有限次元のウェーブレットベースの近似は、“フィルタリング”により取得可能であり、すなわち、n個のウェーブレット係数W(a,b)を選択する。例えば、当該n個の係数は、閾値より大きい解像度レベル(“a”パラメータ)のうち最も大きな分散を有する。
この場合、当該近似は、
Figure 2013541085
により与えられる。Daubechies−2ウェーブレット、4の解像度閾値及び37項の近似に基づく具体例が、良好な結果を導いた。
本発明は、ウェーブレットベースフィルタリングに限定されるものでなく、当業者は、本発明による方法を関数データを減少した次元のスパニングセットに投影するための何れかの方法に適応する方法を知っているであろう。
[曲線下の面積]
肯定的な集団と否定的な集団とを区別するための候補のスコアリング関数sの能力は、一般にそれのROC(Receiver Operating Characteristic)曲線により評価され、簡単化のため以下の広範に利用される関数パフォーマンスの指標である。
スコアリング関数sの真のROC曲線は、
Figure 2013541085
により与えられる“確率−確率”プロットである。
慣例的に、ジャンプが発生すると、当該曲線の対応する極値は直線部分により接続され、s(x)のROC曲線は、連続写像
Figure 2013541085
のグラフとしてみなすことができる。
それは、“偽陽性アイテムのレートの関数における真陽性アイテムのレート”として理解できる。
この曲線は、スコアリングパフォーマンスを評価するのに有用な視覚的ツールを提供し、単位正方形[0,1]の左上隅にROC曲線が近くなるほど、スコアリング関数sは良好になる。従って、それは、すべてのスコアリング関数のセット上の半順序を導く。すなわち、すべての(s,s)に対して、sは、
Figure 2013541085
であるとき、sより正確である。
候補sのパフォーマンスは、通常はスカラ量により概略され、ROC曲線の下方の面積(略してAUC)は、
Figure 2013541085
となる。
本発明による方法は、最適なROC曲線を近似する方法としてみなすことができる。実際、提供されるスコアリング関数は、最適なROC曲線の部分毎の線形近似である。すなわち、各終端ノードは、当該近似の線形部分に対応する。
実際、各分割において、εに属するサンプルアイテムは肯定的である必要がある。この場合、それらは“真陽性”である。他方、それらが否定的である場合、それは、それらがεに属するべきであり、実際に“偽陽性”であることを意味する。従って、各分割は、ROC曲線の点を座標として有することに対応する(εにおける否定的なサンプルアイテムのレート、εにおける肯定的なサンプルアイテムのレート)。それは、sを表す部分単位の線形近似の切断点を形成する。
バイナリツリーにおいてより多くのレベルを形成することによって、曲線の新たな切断点が出現し、最適なROC曲線のより精密な近似を導く。関連するバイナリーツリーの異なる高さに対応するROC曲線の連続的な部分単位の線形近似の具体例と、最適なROC曲線とが図3に示される。
[ランキングツリーの剪定]
ROC曲線の良好な近似を有するのに最小数の終端ノードが必要であるが、多数の終端ノードを有することはオーバフィッティングを導き、χを多数のサブ空間にパーティションすることは、ローカルなノイズを明らかにし、分割は不安定になる(使用されるサンプルアイテムセットの若干の修正は、まったく異なるスコアリング関数の学習を導き、この問題は次のパートにおいてさらに議論される)。さらに、各レベルにおいてノード数が2倍になると、形成されるバイナリツリーは、高さが増加すると操作が急激に困難になり、スコアリング方法の計算複雑さはノード数に依存するため、大きなバイナリツリーは処理手段を遅くする。
好適な実施例では、本発明は、形成されるバイナリツリーのサブツリーを処理手段により選択し、バイナリツリーをサブツリーにより置換するステップを有し、当該ステップは、バイナリツリーを形成するステップに続く。バイナリツリーの“サブツリー”という用語は、任意のノードが終端ノードとなりうるバイナリツリーを意味する。他方、ノードは2つのチャイルドを有する。すなわち、これは、少なくとも1つのノードのすべての子孫を削除することによって剪定される初期的には完全なバイナリツリーである。例えば、図2は、図1に示されるバイナリツリーの可能なサブツリーを示す。
この剪定ステップは、大きなツリーを形成し、その後にパフォーマンスを増加させない、又はそれを低下させるノードを削除することによって、バイナリツリーの高さを最適に選択することを意図する。効果的には、ROC曲線は、可能性のある各サブツリーについて処理手段により構成され、記憶手段に格納される。これらの部分単位の線形ROC曲線のそれぞれについて、AUCが処理手段により計算される。
その後、第1の可能性は、最高のAUCを有するサブツリーを処理手段が選択することである。選択されたサブツリーは、最も効率的なものであるが、それは依然として大きなツリーであり、大きな計算複雑さを有する可能性がある。
あるいは、“Complexity−penalized AUC(CPAUC)”と呼ばれる他の基準が利用される。
Figure 2013541085
ただし、#P(T)は終端ノードの個数であり、λはトレーニングパフォーマンスとモデル計算複雑さとの間のトレードオフを規定するチューニングパラメータである。選択されたサブツリーは、最高のCPAUCを有するサブツリーの場合、
Figure 2013541085
である。
λは、おそらく手動により設定される必要があるが、可能なサブツリーのセットTλ(可能なサブツリーセット全体の有限なサブセットである)に対して処理手段により実行される交差検証テストにおり効果的に推定される重要なパラメータである。N−分割交差検証では、オリジナルのサンプルセットが、N個のサブセットにランダムに分割される。N個のサブセットのうち、1つのサブセットがモデルをテストするための検証データとして保持され(すなわち、関連する経験的なROC曲線を構成し、AUCを計算する)、残りの(N−1)個のサブセットがトレーニングデータとして利用される。その後、交差検証処理が、N個のサブサンプルのそれぞれが検証データとしてちょうど1回利用されることによって、N回(分割)繰り返される。当該分割からのN個の結果は、1つの推定値を生成するため平均化(又は合成)可能である。繰り返しのランダムサンプリングに対する当該方法の効果は、すべての観察結果がトレーニングと検証との双方に利用され、各観察結果がちょうど1回検証に利用されることである。交差検証されたAUCを最大化する
Figure 2013541085
の値は、処理手段により決定され、関連するサブツリー
Figure 2013541085
が選択され、記憶手段に格納される。10−分割交差検証が通常利用される。
[ランキングフォレスト−原理]
上述されたスコアリング方法などの再帰的な分割に基づく機械学習方法の主要な問題は不安定性である。上述されるように、利用されるサンプルアイテムセットの若干の修正は、まったく異なるスコアリング関数の学習を導く。
図4に示される好適な実施例では、一緒になってランキングフォレストと呼ばれる複数のバイナリランキングツリーが生成され、AUC基準に関して単一のバイナリランキングツリーのパフォーマンスを向上させるように集約される。このため、複数のサンプルアイテムセットが生成及び格納される。これら異なるセットのそれぞれから、バイナリツリーが形成される。
大きなサンプルアイテムセットは分割されてもよい。あるいは、各サンプルアイテムセットは、ブートストラップ複製であってもよい。ブートストラップ複製は、主要なサンプルアイテムセットを類似することによって生成されるセットである。
従って、K個のサンプルアイテムの異なるB個のセットを取得するため、(N>K)個のサンプルアイテムの1つのセットのみが必要とされる。これは、メインセットDである。その後、B個のブートストラップ複製D ,...,D が、目インセットDから置換サンプルアイテムによる描画により構成される。再帰的な分割の不安定さのため、このようなリサンプリングは、独立したバイナリツリーT ,...,T が形成可能であるサンプルアイテムセットと、関連する学習されたスコアリング関数とを生成するのに十分である。
これらのツリーは、その後に合成される必要がある。
[ランキングフォレスト−集約]
異なるバイナリツリーが異なるサンプルセットから生成されるとき、終端ノードに関連するサブ空間により形成される多次元空間χのパーティションは両立しない。集約の第1の目的は、ランキングフォレストの任意のツリーの終端ノードに関連するサブ空間により形成されるχのパーティションに両立するχの新たなパーティションを構成することである。
このため、形成された各バイナリツリーについて、終端ノードに関連するサブ空間により形成される多次元空間χのパーテイションが提供され、記憶手段に格納され、その後、これらのパーティションは、共通のサブパーティションを形成するのに処理手段により集約される。実際、
Figure 2013541085
がそれぞれバイナリツリーT及びTに関するχの2つのパーティションである場合、共通のサブパーティションは、
Figure 2013541085
の式のサブセットの集まりである。
図式的には、それは、以下の方法でTツリー構造を拡大することによって取得可能である。すなわち、
Figure 2013541085
の任意のkに対して、サブ空間C(1) に関連するTの終端ノードにおいて、C(1) を有するTに対応するサブツリーをルートとして追加する。グローバルルートχから始まる結果として得られた合成されたサブツリーの終端ノードに関連するサブ空間は、図5により示されるように、共通のサブパーティションに対応する(当該サブパーティションのパーツのいくつかはエンプティとすることが可能であることに気付くかもしれない)。この方式は、B>2個のツリー構造のパーティションにより導出されるサブパーティションのすべてのパーツを復元するため繰り返し可能である。計算上の理由のため、集約は、効果的には最も複雑なツリーから開始され、進捗するに従って徐々に複雑さが軽減されたツリーに結び付く。
[ランキングフォレスト−メディアンランキング]
共通のサブパーティションは、異なるツリーに関連するスコアリング関数を比較可能にする。このサブパーティションが形成され、記憶手段に格納されると、ランキングフォレストの形成された各バイナリツリーに対して、スコアリングルールが、共通のサブパーティションの各パーツをスコアリングすることによって提供され、記憶手段に格納される。
次のステップは、各スコアリングルールに対して、当該スコアリングルールに従ってスコアリングされたパーツのランキングを提供及び格納することである。特に、多次元空間χ上の全順序を規定する最も自然な方法は、スコアリング関数により実数直線上に自然順序を移すことであり、すなわち、可測写像
Figure 2013541085
である。χ上のランキング
Figure 2013541085
は、
Figure 2013541085
により定義される。
共通のサブパーティションがシンプルなバイナリツリーに関連する何れかのパーティションより多くのパーツから構成されるとき、いくつかの異なるパーツは同一のスコアを有してもよく、それらのランクに関してそれらを“平等(ex−aequo)”にする。パーツのタンクの確実な比較を可能にするため、共通のサブパーティションP(χ)のパーツCのすべてのアイテムが同一のスコアを有するとき、パーツCのランクは、例えば、
Figure 2013541085
により与えられてもよい。ここで、
Figure 2013541085
は、関係
Figure 2013541085
のみが証明されることを意味する(すなわち、zとz’とは異なるスコアを有する)。
異なるランキングが異なるサンプルセットから生じるため、不安定性のケースでは、共通のサブパーティションの所与のパーツのランクは、ランキング
Figure 2013541085
に従って変化してもよい。これらのランクの変形は、最も不安定なランキングを明らかにする。他方、選択されるべきランキングは、中間のランキング、すなわち、あまり不安定でないランキングと呼ばれる。
このため、効果的には、各ランキングペアの間の非類似レートが処理手段により計算され、その他のランキングと最も低い非類似レートを示すランキングが、中間ランキングとして処理手段により選択される。非類似レートは、2つのランキングの間のランクの可変性を表す基準である。
例えば、中間ランキングは、
Figure 2013541085
となるようなランキング
Figure 2013541085
である。ただし、
Figure 2013541085
はランキングであり、
Figure 2013541085
はランキングペア間の非類似レートである。
異なる式が、共通のサブパーティションのパーツのランクに基づく関数において非類似レートを計算するため当業者に知られている。例えば、以下の3つのうちの1つが利用されてもよい。
−Spearmanランクオーダ相関
Figure 2013541085
ただし、
Figure 2013541085
は、共通のサブパーティションのパーツであり、
Figure 2013541085
は、ランキング
Figure 2013541085
に従う共通のサブパーティションのその他のパーツのうちのパーツCのランクである。
−Spearmanフットルール
Figure 2013541085
ただし、
Figure 2013541085
は、共通のサブパーティションのパーツであり、
Figure 2013541085
は、ランキング
Figure 2013541085
に従う共通のサブパーティションのその他のパーツのうちのパーツCのランクである。
−Kendall tau
Figure 2013541085
ただし、
Figure 2013541085
は、共通のサブパーティションのパーツであり、
Figure 2013541085
は、ランキング
Figure 2013541085
に従う共通のサブパーティションのその他のパーツのうちのパーツCのランクである。
中間のランキングが決定され、記憶手段に格納されると、処理手段は、最終的には中間のランキングに関連するスコアリングルールをベストなスコアリングルールとして選択可能である。
[多値ラベル]
上述されるように、本発明による方法は、マルチクラスデータと両立し、すなわち、多値ラベル
Figure 2013541085
に関連するサンプルアイテムを処理可能である。
このため、複数の二分ランキング問題が効果的に解かれる。
第1実施例では、有向バイナリツリーが、ラベル値ξ=ξ+1の(Ξ−1)個の可能なペア(ξ,ξ)のそれぞれについて形成及び格納される。ここで、第1ラベル値はξであり、第2ラベル値はξである。例えば、ラベルが3値ラベル(no/maybe/yes)である場合、第1の二分問題は、“no”(Y=1)又は“maybe”(Y=2)によりラベル付けされたサンプルアイテムのみを考慮することによって解かれ、第2の二分問題は、“maybe”(Y=2)又は“yes”(Y=3)によりラベル付けされたサンプルアイテムのみを考慮することによって解かれる。
好適な実施例では、
Figure 2013541085
個のラベル値の可能なペア(ξ,ξ)のそれぞれについて、ξ<ξとなるように有向バイナリツリーが形成及び格納される。ここで、第1ラベル値はξであり、第2ラベル値はξである。ここで、上記具体例に関して、第3の二分問題は、“no”(Y=0)又は“yes”(Y=2)によりラベル付けされたサンプルアイテムを考慮することによって解かれる。
双方のケースにおいて、複数の取得されたツリーが合成される必要がある。これは、効果的には、ランキングフォレストと同じ機構により実行され、すなわち、集約及び中間ランキングである。
ランキングフォレストは、マルチクラスランキングと共に利用可能であることに留意されたい。すなわち、複数のサンプルアイテムセットがブートストラップ複製により生成され、各サンプルアイテムセットと各ラベル値ペアとに対して、ツリーが生成される。すなわち、各ラベル値ペアについて、セット数と同程度のツリーが生成される。
これらのツリーはすべて、同時に合成可能であるが、効果的には、ランキングフォレストがまず実行され(ツリーがラベル値ペア毎に合成される)、その後、集約されたツリーが合成される。
[具体例]
本発明による方法の効率性を示すため、図6aに示されるサンプルアイテムの人工的なデータセットが、以下のように生成される。
単位正方形χ=[0,1]は、4つの1/4に分割される。
Figure 2013541085
可測セット
Figure 2013541085
上の一様分布をUにより表すと、クラス分布は、
Figure 2013541085
により与えられる。ここで、H(dx)及びG(dx)はそれぞれ、Y=+1が与えられた条件付き分布X及びY=−1が与えられた条件付き分布Xである。
本例では、2000個のサンプルアイテムが利用される。図6aでは、“+”は所与の性質(Y=+1)を充足するアイテムを表し、“o”は所与の性質(Y=−1)を充足しないアイテムを表す。このセットアップでは、最適なスコアリング関数は、回帰関数
Figure 2013541085
と同様に、部分毎に一定である。
回帰関数は、
Figure 2013541085
となる確率を所与のXに提供する関数である。回帰関数の2レベルセットが、図6bにより示される。正方形の4つの領域が明確に示される。
本発明による方法の結果は、その後、図6cにより示され、図6aのサンプルアイテムセットから学習されたスコアリング関数を表す。マスタランキングツリーは、開示された方法により拡大し、次にブートストラップ複製により上述されたN−分割交差検証手順を介して剪定される。4つのレベルのスコアが、正方形の4つのエリアにほぼ完全に対応して出現することが観察できる。
図6dは、最適なROC曲線と図6cのスコアリング関数のテストROC曲線とを表すグラフである。これら2つの曲線はほとんど区別できないと仮定することができる。
[アプリケーション]
上述されるように、本発明による方法は、多数の産業上又は経済上の用途を可能にする。クレジットスコアリング、医療診断及びデータマイニングの精度スコアリングが説明された。
さらに、本発明による方法は、例えば、クオリティ制御及び/又は故障検出などに効果的である。実際、工場の製造ラインでは、製品のクオリティはいくつかの基準に基づき評価される必要がある。この場合、所与のバイナリな性質は“規格(又は非規格)製品”である。サンプルアイテムセットは、製造ライン上の製品をランダムに抽出し、それらを手作業によりチェックすることによって容易に設定可能である。故障は、例えば、非規格製品の比率が閾値以上である場合、検出可能である。
さらに、本発明による方法は、生物及び化学、特に分子、タンパク質、触媒、遺伝子などのテストに適用可能である。それは、分子(又はタンパク質、触媒)が所与の効果を有することが可能であるか、それの構造と他の既知の分子の構造とを比較することによって予測することを可能にする。
様々な分野において他の多数の用途が想到可能である。
[意思決定支援システム]
第2の態様によると、本発明は、処理手段、入力手段、出力手段及び記憶手段を有する意思決定支援システムに関する。当該意思決定支援システムの処理手段は、上述されたようなスコアリング方法を実現するよう構成される。
入力手段は、ターゲットアイテムを表す入力データとサンプルアイテムセットとを入力することを可能にする。それらは、例えば、ユーザがこれらのデータを手動により入力することを所望する場合、キーボードなどとすることが可能であり、あるいは、サンプルのデータベースを有する何れかのコンピュータよのインタフェースなどとすることが可能である。出力手段は、例えば、表示画面である。
当業者は、本発明を何れか既知のタイプのコンピュータ言語や何れかのタイプのプロセッサに適応する方法を知っているであろう。

Claims (26)

  1. 多次元空間からのターゲットアイテムにより表されるオブジェクトにスコアを提供する方法であって、前記スコアは、前記オブジェクトが所与のバイナリな性質を充足する確率を表し、当該方法は、記憶手段に接続される処理手段を有するコンピュータ環境において実行され、
    当該方法は、
    (a)前記多次元空間からのサンプルアイテムセットを表すデータを提供し、前記記憶手段に格納するステップであって、各サンプルアイテムは、該サンプルアイテムにより表されるオブジェクトが前記所与のバイナリな性質を充足する確率を表す多値ラベルに関連付けされる、前記提供及び格納するステップと、
    (b)前記ターゲットアイテムを表すデータを前記記憶手段に格納するステップと、
    (c)前記処理手段によって、所与の高さを有する有向バイナリツリーを表すデータを生成し、前記記憶手段に格納するステップであって、前記バイナリツリーは、該バイナリツリーにおける自らのポジションに関するインデックス値を有する複数のンモードにより規定され、前記ノードはルートノード、中間ノード及び終端ノードを有し、各ノードは、該ノードがルートノードである場合には関連するサブ空間は前記多次元空間全体であり、該ノードが非終端ノードである場合には関連するサブ空間は、前記非終端ノードの第1チャイルドノード及び第2チャイルドノードにそれぞれ関連する2つの互いに素なサブ空間ε及びεに分割され、前記分割は、前記サブ空間εに属するよう所与の第1ラベル値に関連するサンプルアイテムの個数及び/又は前記サブ空間εに属するよう所与の第2ラベル値に関連するサンプルアイテムの個数を最小化する分類手段に従って前記処理手段により実行され、前記第2ラベル値は、前記サンプルアイテムにより表されるオブジェクトが前記所与の第1ラベル値より前記所与のバイナリな性質を充足する確率が高いことを表す、前記生成及び格納するステップと、
    (d)前記処理手段によって、前記バイナリツリーの少なくとも各終端ノードとスコアとを前記バイナリツリーにおけるそれのインデックス値に依存して関連付け、前記スコアの値を前記記憶手段に格納するステップと、
    (e)前記処理手段によって、ターゲットノードを特定するステップであって、前記ターゲットノードは、関連するサブ空間が前記ターゲットアイテムを有する終端ノードである、前記特定するステップと、
    (f)前記ターゲットノードに関連するスコアの値を出力するステップと、
    を有する方法。
  2. 各ノードのインデックス値は、値のペアを有し、
    第1インデックス値は、前記バイナリツリーにおける前記ノードの深さを表し、第2インデックス値は、前記ツリーにおける所与の深さレベルにおける前記ノードのポジションを表す、請求項1記載の方法。
  3. 前記ルートノードのインデックスは(0,0)であり、
    インデックスが(d,k)である非終端ノードの第1及び第2チャイルドノードのインデックスはそれぞれ、(d+1,2k)及び(d+1,2k+1)である、請求項2記載の方法。
  4. インデックスが(d,k)であるノードに関連するスコアは、2(1−k/2)であり、Dは前記バイナリツリーの高さである、請求項3記載の方法。
  5. 前記分割は、前記処理手段によって、前記サブ空間εに属するよう所与の第1ラベル値に関連するサンプルアイテムの個数と、前記サブ空間εに属するよう所与の第2ラベル値に関連するサンプルアイテムの個数との重み付けされた組み合わせを最小化することによって実行される、請求項1乃至4何れか一項記載の方法。
  6. 前記重み付けされた組み合わせのウェートはそれぞれ、互いに素なサブ空間ε及びεに分割されるサブ空間における所与の第2ラベル値に関連するサンプルアイテムのレートと、互いに素なサブ空間ε及びεに分割されるサブ空間における所与の第1ラベル値に関連するサンプルアイテムのレートとである、請求項5記載の方法。
  7. 前記分割は、前記処理手段によって、
    Figure 2013541085
    の値を最小化することによって実行され、(X,Y)...(X,Y)はそれらのバイナリラベルに関連するサンプルアイテムのセットであり、ωは互いに素なサブ空間ε及びεに分割されるサブ空間における所与の第2ラベル値に関連するサンプルアイテムのレートであり、ξは前記第1ラベル値であり、ξは前記第2ラベル値である、請求項6記載の方法。
  8. 前記分割中に考慮する関連するサブ空間の次元数及び/又はサンプルアイテム数は、減少される、請求項1乃至7何れか一項記載の方法。
  9. 前記多次元空間は、無限次元空間であり、
    前記分割は、有限次元アイテムへのサンプルアイテムの近似を有する、請求項1乃至8何れか一項記載の方法。
  10. (c1)前記処理手段によって、前記形成されたバイナリツリーのサブツリーを選択し、前記バイナリツリーを前記サブツリーにより置換するステップを有し、
    前記ステップ(c1)は、ステップ(c)に続く、請求項1乃至9何れか一項記載の方法。
  11. ROC(Receiver Operating Characteristic)曲線は、可能な各サブツリーについてステップ(c1)において前記処理手段により構成され、前記記憶手段に格納され、
    前記選択されたサブツリーは、前記処理手段によって、関連するROC曲線の下方の最も大きな面積を有するものとして決定される、請求項10記載の方法。
  12. ROC曲線は、可能な各サブツリーについてステップ(c1)において前記処理手段により構成され、前記記憶手段に格納され、
    前記選択されたサブツリーは、関連するROC曲線の下方の最も大きなComplexity−penalizedされた面積を有するものとして決定される、請求項10記載の方法。
  13. 前記ステップ(c1)は、前記処理手段により前記可能なサブツリーのセットに対して実行される交差検証テストを有する、請求項12記載の方法。
  14. 前記多値ラベルは、前記サンプルアイテムにより表されるオブジェクトが前記所与のバイナリな性質を充足するか否かを示すバイナリラベルであり、前記第1ラベル値は、前記所与のバイナリな性質を充足しないサンプルアイテムに関連するラベル値であり、前記第2ラベル値は、前記所与のバイナリな性質を充足するサンプルアイテムに関連するラベル値である、請求項1乃至13何れか一項記載の方法。
  15. 前記多値ラベルは、少なくとも3つの値(1≦ξ≦Ξ)を有し、
    前記ラベル値は、前記所与のバイナリな性質を充足する確率によって上がり、ラベル値の
    Figure 2013541085
    個の可能なペアのそれぞれについて、ξ<ξとなるように有向バイナリツリーが形成及び格納され、ξは前記第1ラベル値であり、ξは前記第2ラベル値である、請求項1乃至13何れか一項記載の方法。
  16. 前記多値ラベルは、少なくとも3つの値(1≦ξ≦Ξ)を有し、
    前記ラベル値は、前記処置のバイナリな性質を充足する確率によって上がり、
    ラベル値ξ=ξ+1の(Ξ−1)個の可能なペア(ξ,ξ)のそれぞれについて、有向バイナリツリーが形成及び格納され、ξは前記第1ラベル値であり、ξは前記第2ラベル値である、請求項1乃至13何れか一項記載の方法。
  17. ステップ(a)において、複数のサンプルアイテムセットが生成及び格納され、
    各サンプルアイテムセットについて、有向バイナリツリーが形成及び格納される、請求項1乃至16何れか一項記載の方法。
  18. 各サンプルアイテムセットは、前記処理手段によって、メインサンプルアイテムセットをリサンプリングすることによって生成されるブーストラップ複製である、請求項17記載の方法。
  19. (d1)前記複数の形成されたバイナリツリーを集約し、最良のスコアリングルールを決定するステップをさらに有し、
    前記ステップ(d1)は、ステップ(c)に続く、請求項15乃至18何れか一項記載の方法。
  20. ステップ(d1)は、
    形成された各バイナリツリーについて、前記終端ノードに関連するサブ空間により形成される多次元空間のパーティションを提供し、記憶手段に格納するサブステップと、
    前記処理手段によって、共通のサブパーティションを形成するため、前記パーティションを集約するサブステップと、
    形成された各バイナリツリーについて、前記共通のサブパーティションの各パーツをスコアリングすることによって、スコアリングルールを提供及び格納するサブステップと、
    各スコアリングルールについて、前記スコアリングルールに従ってスコアリングされた前記パーツのランキングを提供及び格納するサブステップと、
    前記処理手段によって、前記複数のランキングから中間のランキングを決定し、前記中間のランキングを前記記憶手段に格納するサブステップと、
    前記処理手段によって、前記中間のランキングに関連するスコアリングルールを前記最良のスコアリングルールとして選択するサブステップと、
    を有する、請求項19記載の方法。
  21. 前記中間のランキングを決定するサブステップは、前記処理手段により、各ランキングペアの間の非類似レートを計算し、その他のランキングと最も低い非類似レートを示すランキングを前記中間のランキングとして選択することを含む、請求項20記載の方法。
  22. 前記中間のランキングは、
    Figure 2013541085
    となるようなランキング
    Figure 2013541085
    であり、
    Figure 2013541085
    はランキングであり、
    Figure 2013541085
    はランキングペアの間の非類似レートである。
  23. 前記非類似レートは、
    Figure 2013541085
    として定義され、
    Figure 2013541085
    は前記共通のサブパーティションのパーツであり、
    Figure 2013541085
    はランキング
    Figure 2013541085
    に従う前記共通のサブパーティションのその他のパーツからのパーツCのランクである、請求項22記載の方法。
  24. 前記非類似レートは、
    Figure 2013541085
    として定義され、
    Figure 2013541085
    は前記共通のサブパーティションのパーツであり、
    Figure 2013541085
    はランキング
    Figure 2013541085
    に従う前記共通のサブパーティションのその他のパーツからのパーツCのランクである、請求項22記載の方法。
  25. 前記非類似レートは、
    Figure 2013541085
    として定義され、
    Figure 2013541085
    は前記共通のサブパーティションのパーツであり、
    Figure 2013541085
    はランキング
    Figure 2013541085
    に従う前記共通のサブパーティションのその他のパーツからのパーツCのランクである、請求項22記載の方法。
  26. 処理手段、入力手段、出力手段及び記憶手段を有する意思決定支援システムであって、
    前記処理手段は、請求項1乃至25何れか一項記載の方法を実現するよう構成される意思決定支援システム。
JP2013527603A 2010-09-08 2011-09-08 オブジェクトにスコアを提供する方法及び意思決定支援システム Withdrawn JP2013541085A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/877,461 2010-09-08
US12/877,461 US8738534B2 (en) 2010-09-08 2010-09-08 Method for providing with a score an object, and decision-support system
PCT/EP2011/065555 WO2012032118A2 (en) 2010-09-08 2011-09-08 Method for providing with a score an object, and decision-support system

Publications (1)

Publication Number Publication Date
JP2013541085A true JP2013541085A (ja) 2013-11-07

Family

ID=44653298

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013527603A Withdrawn JP2013541085A (ja) 2010-09-08 2011-09-08 オブジェクトにスコアを提供する方法及び意思決定支援システム

Country Status (8)

Country Link
US (2) US8738534B2 (ja)
EP (1) EP2614470B1 (ja)
JP (1) JP2013541085A (ja)
KR (1) KR20140006785A (ja)
CN (1) CN103262104A (ja)
CA (1) CA2810941C (ja)
SG (1) SG188469A1 (ja)
WO (1) WO2012032118A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020170420A1 (ja) * 2019-02-22 2020-08-27 日本電気株式会社 異常検知装置、異常検知方法、及びコンピュータ可読媒体
JP2022521136A (ja) * 2019-03-25 2022-04-06 ボンワイズインコーポレイテッド 歯の骨年齢を決定するための装置、方法及び命令を記録した記録媒体

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8775517B1 (en) 2011-07-12 2014-07-08 Relationship Science LLC Viewing connectivity between user and entity of an information service
US9558165B1 (en) * 2011-08-19 2017-01-31 Emicen Corp. Method and system for data mining of short message streams
US9007944B2 (en) * 2012-10-25 2015-04-14 Microsoft Corporation One-to-many and many-to-one communications on a network
CN103177267B (zh) * 2013-04-22 2017-02-08 山东师范大学 一种时频联合的支持向量机半监督学习方法
CN103268411A (zh) * 2013-05-20 2013-08-28 浙江大学 放化疗规范化质量控制的量化系统
US10579602B2 (en) * 2013-10-07 2020-03-03 Oracle International Corporation Attribute redundancy removal
US10262333B2 (en) 2014-08-07 2019-04-16 Inmobi Pte. Ltd. Linear programming approach for querying a trie data structure
US9826030B1 (en) * 2015-06-04 2017-11-21 Amazon Technologies, Inc. Placement of volume partition replica pairs
CN105931113B (zh) * 2015-11-25 2021-07-13 中国银联股份有限公司 一种评分处理方法及装置
CN107291739A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 网络用户健康状况的评价方法、系统及设备
US10032450B2 (en) * 2016-09-22 2018-07-24 Royal Bank Of Canada System and method for electronic communications
US10628384B2 (en) * 2016-12-09 2020-04-21 Salesforce.Com, Inc. Optimized match keys for fields with prefix structure
US10049302B1 (en) * 2017-07-17 2018-08-14 Sas Institute Inc. Classification system training
KR102128037B1 (ko) * 2019-03-18 2020-06-29 주식회사 로그프레소 다계층 메모리 구조에 최적화된 데이터 인덱스 방법 및 그 방법에 의해 인덱스된 데이터의 검색 방법
US11360990B2 (en) 2019-06-21 2022-06-14 Salesforce.Com, Inc. Method and a system for fuzzy matching of entities in a database system based on machine learning

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7016877B1 (en) * 2000-08-04 2006-03-21 Enfotrust Networks, Inc. Consumer-controlled limited and constrained access to a centrally stored information account
US7016887B2 (en) * 2001-01-03 2006-03-21 Accelrys Software Inc. Methods and systems of classifying multiple properties simultaneously using a decision tree
US7031948B2 (en) * 2001-10-05 2006-04-18 Lee Shih-Jong J Regulation of hierarchic decisions in intelligent systems
JP4038501B2 (ja) * 2003-09-02 2008-01-30 株式会社東芝 逆モデル計算装置及び逆モデル計算方法
US20090012715A1 (en) * 2004-10-26 2009-01-08 Goldfarb-Rumyantzev Alexander S Prediction model of graft survival
US7370039B2 (en) * 2005-04-05 2008-05-06 International Business Machines Corporation Method and system for optimizing configuration classification of software
GB0510511D0 (en) * 2005-05-23 2005-06-29 St Georges Entpr Ltd Diagnosis of tuberculosis

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020170420A1 (ja) * 2019-02-22 2020-08-27 日本電気株式会社 異常検知装置、異常検知方法、及びコンピュータ可読媒体
JPWO2020170420A1 (ja) * 2019-02-22 2021-12-16 日本電気株式会社 異常検知装置、異常検知方法、及びプログラム
JP7306445B2 (ja) 2019-02-22 2023-07-11 日本電気株式会社 異常検知装置、異常検知方法、及びプログラム
JP2022521136A (ja) * 2019-03-25 2022-04-06 ボンワイズインコーポレイテッド 歯の骨年齢を決定するための装置、方法及び命令を記録した記録媒体
JP7202739B2 (ja) 2019-03-25 2023-01-12 ボンワイズインコーポレイテッド 歯の骨年齢を決定するための装置、方法及び命令を記録した記録媒体
US11961235B2 (en) 2019-03-25 2024-04-16 Bonewise Inc. Apparatus, method and recording medium storing instructions for determining bone age of teeth

Also Published As

Publication number Publication date
EP2614470B1 (en) 2021-05-05
WO2012032118A2 (en) 2012-03-15
US20120059790A1 (en) 2012-03-08
CN103262104A (zh) 2013-08-21
EP2614470A2 (en) 2013-07-17
SG188469A1 (en) 2013-04-30
KR20140006785A (ko) 2014-01-16
CA2810941C (en) 2020-08-11
US8738534B2 (en) 2014-05-27
US9235805B2 (en) 2016-01-12
WO2012032118A3 (en) 2012-07-26
CA2810941A1 (en) 2012-03-15
US20130173520A1 (en) 2013-07-04

Similar Documents

Publication Publication Date Title
JP2013541085A (ja) オブジェクトにスコアを提供する方法及び意思決定支援システム
Polat et al. Principles component analysis, fuzzy weighting pre-processing and artificial immune recognition system based diagnostic system for diagnosis of lung cancer
Azuaje et al. Discovering relevance knowledge in data: a growing cell structures approach
Vazirgiannis et al. Uncertainty handling and quality assessment in data mining
Barbariol et al. A review of tree-based approaches for anomaly detection
Andreeva Data modelling and specific rule generation via data mining techniques
CN116805533A (zh) 一种基于数据收集与模拟的脑出血手术风险预测系统
Bermúdez-Chacón et al. Automatic problem-specific hyperparameter optimization and model selection for supervised machine learning: Technical Report: Technical Report
Gunawan et al. C4. 5, K-Nearest Neighbor, Naïve Bayes, and Random Forest Algorithms Comparison to Predict Students' on TIME Graduation
Azmin et al. Soil classification based on machine learning for crop suggestion
Majumdar et al. Heuristic model to improve feature selection based on machine learning in data mining
Bostrom Shapelet transforms for univariate and multivariate time series classification
FURAT et al. Classification of Down Syndrome of Mice Protein Dataset on MongoDB Database
Barach et al. Fuzzy decision trees in medical decision making support systems
Lavesson Evaluation of classifier performance and the impact of learning algorithm parameters
Orabi Alkhen Exploring Advanced Clustering Techniques for Business Descriptions: A Comparative Study and Analysis of DBSCAN, K-Means, and Hierarchical Clustering
Micic et al. Exploring methods for comparing similarity of dimensionally inconsistent multivariate numerical data
Dinov Supervised Classification
Cavalcante Araujo Neto A Framework for Hierarchical Density-Based Clustering Exploration
Lacet Feature Selection Methods for Logical Analysis of Data
Drozdyuk Mining partially ordered sequential rules on unbounded data
Putrama et al. Self-supervised data lakes discovery through unsupervised metadata-driven weighted similarity
Eldbib Design and analysis of rule induction systems
Salama Fuzzy rough data reduction in large datasets with building application software (FRDRS)
Kaur et al. Handling Missing Values in Numeric dataset Using Machine Learning Techniques: A Review

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140905

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20150831