JP2022524006A

JP2022524006A - ディープ・フォレスト・モデルの開発および訓練

Info

Publication number: JP2022524006A
Application number: JP2021552716A
Authority: JP
Inventors: シュウ、ジン; ワン、ルイ; ミンマー、シャオ; フイヤン、ジ; インツァン、シゥ; シュウ、ジン、ジェームス; エアハン、シー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-03-12
Filing date: 2020-03-06
Publication date: 2022-04-27
Anticipated expiration: 2040-03-06
Also published as: JP7398474B2; US11893499B2; WO2020183316A1; CN113557534A; DE112020000545T5; US20200293906A1

Abstract

データを使用して決定木のランダム・フォレストを育成し、フォレストについてのアウト・オブ・バッグ（ＯＯＢ）予測を決定し、ＯＯＢ予測をデータ・セットに付加し、付加されたＯＯＢ予測を含むデータ・セットを使用して追加のフォレストを育成し、追加のフォレストの出力を結合し、その後モデルを利用して訓練データ・セット以外のデータを分類することによる、データ分析用のディープ・フォレスト・モデルの自動化された開発および訓練。

Description

本開示は一般に、データ分析用のモデルの開発および訓練をするためのシステムおよび方法に関する。本開示は詳細には、データを分析するためのモデルの自動的な開発および訓練をするためにディープ・ランダム・フォレストを使用するシステムに関する。

ディープ・ラーニングは周知のものであるが、その理由の少なくとも一部は、深層ニューラル・ネットワークの適用が特に画像および音声情報を含むタスクにおいて成功していることにある。深層ニューラル・ネットワークには欠点もある。深層ニューラル・ネットワークは訓練用データの必要量が大きくなる場合があり、このため深層ニューラル・ネットワークは小スケールのデータには全く適していない。深層ニューラル・ネットワークは、非常に多くのハイパー・パラメータを含む非常に複雑なモデルである。所望の学習精度に達するようにこれらのパラメータを慎重に調整する必要があり、深層ニューラル・ネットワークの訓練は科学またはエンジニアリングよりもむしろアートのようになっている。

Ｚｈｏｕらは、新しいディープ・ラーニングの方法であるｇｃＦｏｒｅｓｔ（ｍｕｌｔｉ－ＧｒａｉｎｅｄＣａｓｃａｄｅＦｏｒｅｓｔ）［Ｚ．－Ｈ．ＺｈｏｕおよびＦ．Ｊｉ、Ｄｅｅｐｆｏｒｅｓｔ：ｔｏｗａｒｄｓａｎａｌｔｅｒｎａｔｉｖｅｔｏｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ、ａｒＸｉｖ：１７０２．０８８３５ｖ２、２０１７］を提案した。この方法は非常に重要なディープ・ラーニングの発想、すなわち、カスケードの各層が、先行する層によって生成された特徴情報を受け取り、その結果を次の層へと出力する、ランダム・フォレストのカスケード構造による表現学習の実現を試みるものである。ｇｃＦｏｒｅｓｔは深層ニューラル・ネットワークに匹敵するが上述した欠点は緩和されている性能を達成できる。

ランダム・フォレストは２００１年にＢｒｅｉｍａｎによって提唱された［Ｌ．Ｂｒｅｉｍａｎ、Ｒａｎｄｏｍｆｏｒｅｓｔｓ、ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ、４５（１）：５～３２、２００１］。これは決定木のアンサンブルである。アンサンブルにおいてこれらの決定木を育成（grow）するとき、特別な処置が適用される。第１に、各木はブートストラップ・サンプルに対して育成（成長させる）される。ブートストラップ・サンプルは訓練データから置換を伴うサンプリングによって取得され、サンプル・サイズは訓練データのサイズと等しい。第２に、各葉ノード（リーフノード）が同じクラスのインスタンスのみを含むまでサンプル上で十分に成長する必要があり、刈込は必要ない。更に重要なことには、木の任意のノードを分割するとき、予測器（予測変数）の一部をランダムに選択し、そこから分割に最良のジニ（gini）値を有するものを選択することである。

データ・インスタンスをスコアリングするとき、ランダム・フォレストは、個々の木からの予測を結合するために多数決を用いる。例えば、３個のクラスｃ１、ｃ２、およびｃ３を有する標的変数ならびにフォレスト中の１０００個の決定木を考慮されたい。３個のクラスに対する投票数がそれぞれ２００、３００、および５００であると仮定する。その場合、ランダム・フォレストはスコアリング中のインスタンスについて、クラス確率のベクトル、すなわち［０．２，０．３，０．５］を報告することになる。ｃ３が最大の予測確率を有するため、そのラベル予測も報告されることになる。

インスタンスが訓練インスタンスである場合、ランダム・フォレストはアウト・オブ・バッグ（Ｏｕｔ－ｏｆ－ｂａｇ）（ＯＯＢ）予測を生成するオプションを提供する。そのような予測は、ブートストラップ・サンプルにそのインスタンスを含んでいない木の投票を用いて計数される結果である。上記の例を続けると、この訓練用のインスタンスを使用していない４００個の木が存在する場合、ｃ１、ｃ２、およびｃ３の投票数はそれぞれ１００、１００、および２００であり、インスタンスについてのＯＯＢ予測（確率ベクトル）は［０．２５，０．２５，０．５０］となる。ラベル予測はｃ３となるが、この理由はこれが最大の確率に対応しているからである。インスタンス・ラベルを訓練データに対するＯＯＢラベル予測と比較することによって、フォレストについてのＯＯＢ精度が算出される。

ｇｃＦｏｒｅｓｔの方法は、新しい特徴情報を生成するために交差検証を使用する。
交差検証は有効であるが課題ももたらす。第１に、ｇｃＦｏｒｅｓｔの方法は、各層に複数のランダム・フォレスト学習器Ｎを含み、学習器ごとにｋ分割交差検証を必要とする。したがって、層ごとに合計でＮ＊ｋ個の学習器が必要である。データ・セットが大きい場合、データ・セットのサイズと共に学習器の数が増えるので性能問題が生じる場合があり、また学習器の構築は１個だけでも高価である。非常に強力な演算能力が要求されることになる。第２に、交差検証と訓練データ・セットから導出される検証データ・セットの必要性とに起因して、訓練データが十分に使用されない場合がある。ｇｃＦｏｒｅｓｔの方法はデータを訓練サンプルと検証サンプルとに分割し、検証サンプルに対する精度が改善できない場合は訓練を停止する。検証サンプルを使用することで、小さいデータの問題は更に悪化する。

ハイパー・パラメータの数が減らされ調整要件が緩和されたディープ・ランダム・フォレストを利用するシステム、方法およびコンピュータ・プログラム製品によって、データが分析され得る。一態様では、ランダム・フォレストの層から機械学習モデルが自動的に構築される。ランダム・フォレストについての決定木がデータ・セットから育成される。ランダム・フォレストを使用して、アウト・オブ・バッグ（ＯＯＢ）予測およびクラス・ラベル予測が決定される。データ・セットの各インスタンスについてのＯＯＢ予測は、データ・セットに付加される。モデルはフォレストのより多くの層を追加することによって拡張される。新しいフォレストはそれぞれ、前の層によって生成された、付加を受けた形式のデータ・セットから育成される。最後のデータ付加層の後ろに、モデル出力を作り出すための結合器層が追加される。

一態様では、ユーザが提供する単一のハイパー・パラメータが１個のフォレストあたりの木の数である方法を使用することによって、コンピューティング・リソースが低減され得る。この態様では、機械学習モデルは、訓練データ・セットと１個のランダム・フォレストあたりの決定木の指定される数とを受け取ることによって、自動的に構築され得る。次いで訓練データ・セットから指定された数の決定木が育成される。訓練データ・セットの各インスタンスについて、ＯＯＢ予測およびクラス・ラベルが決定される。ＯＯＢ予測は各インスタンスの訓練データに付加され、付加を受けたデータ・セットは次いでフォレストの次の層を生成するために使用される。ＯＯＢラベル予測を使用して各層のＯＯＢ精度が決定される。追加の層によるＯＯＢ精度の有意な改善が見られなくなるまで、追加の層が追加される。最後の追加のフォレスト層の出力を統合しモデル出力を提供するための、結合器が追加される。

一態様では、フォレストについての決定木が訓練データ・セットから育成される。１個のフォレストあたりの木の数および木を育成するために使用されるクラス・ベクトル次元数が指定される。複数の層を有するモデルの１つの層あたり１個のフォレストが提供され、この結果分類のためのコンピューティング・リソースの不足が低減される。フォレストについてのアウト・オブ・バッグ（ＯＯＢ）予測が決定される。ＯＯＢ予測は、各データ・セット・インスタンスに関する新しい特徴としてデータ・セットに付加される。ＯＯＢ予測を付加することによって、特徴情報が失われる結果となり得るモデルを使用せずに、各層から後続の層に新しい特徴情報を追加するための手段が提供される。フォレストについてＯＯＢ精度が決定される。記載されるステップを繰り返すことおよび前の層の付加を受けたデータ・セットを訓練に使用することによって、単一のフォレストの追加の層が、新しい層のＯＯＢ精度が有意に改善されなくなるまで追加される。ＯＯＢ精度の使用によって、分析における交差検証の必要性が排除され、計算リソースが更に低減される。最後のフォレストの出力が結合され、この完成したモデルを使用して訓練データ・セットの外部からのデータが分析される。

本発明の実施形態に係るシステムの概略図である。本発明の実施形態に係る動作シークエンスを描いたフローチャートである。本発明の実施形態に係るデータ・フローを描いた図である。本発明の実施形態に係るクラウド・コンピューティング環境を描いた図である。本発明の実施形態に係る抽象化モデル層を描いた図である。

機械学習用途への深層ニューラル・ネットワーク（ＤＮＮ）構造の適用は、これまで成功を収めている。ＤＮＮはいくつかのハイパー・パラメータを含む場合があり、したがって手元の問題およびデータ・セットに合わせた調整が困難な場合がある。ＤＮＮはまた小さいデータ・セットに関連する用途に適用するのが困難な場合もあるが、その理由は、モデルを許容可能な精度レベルまで訓練するために、ＤＮＮでは大きいデータ・セットが必要になる場合があるからである。ＤＮＮ構造の動作の複雑さおよび不透明性の結果、システムは、ＤＮＮ構造を開発または特定する際に、過度の実験を行うことなく所望のまたは必要な精度を達成するために必要な層数および１つの層あたりのノードの観点から最適な構造を決定するのが、困難なものとなり得る。必要とされているのは、小さいデータ・セットであっても適用可能であり、ＤＮＮに関連する手間をかけずに容易に特定および調整でき、最適な精度が達成されると自動的にモデル開発を完了できる、機械学習モデル構造である。

開示されるシステム、方法およびコンピュータ製品は、与えられた訓練データ・セットから置き換えて選択されたブートストラップした訓練データ・セットを使用することにより、小さいデータ・セットに適用可能な、機械学習モデルの開発および訓練を提供する。本発明の実施形態は、モデル開発用の単一のハイパー・パラメータ－１個のフォレストあたりのランダム木の数－だけを記述する。本発明の実施形態は、１つの層あたりのランダム・フォレストが単一である単純化された構造を提供し、精度のそれ以上の改善が見込めない場合にはモデル開発を自動的に停止するが、この結果、計算の複雑さが比較的低い正確なモデルが得られる。ある実施形態では、一層あたり２個以上のフォレストを有するモデルが生成され得る。そのようなフォレストは追加のコンピューティング・リソースを必要とし、モデル精度の有意な改善を何ら示さない場合がある。

ある実施形態では、データ分析用のモデルの開発および訓練をするためのコンピュータ実装方法は、機械学習モデルの開発および構築から開始され得る。このモデルは分類または回帰分析のために使用できる。モデル開発は、モデルが意図している機械学習タスクと関連付けられた訓練データ・セットから行われる。訓練データは、ネットワークを介して提供されても、センサからローカルで取得されても、またはコンピュータ可読媒体を介して提供されてもよい。

データは、数値データ、テキスト・データ、オーディオ・データ、または画像データを含んでもよい。データは、位置、音声、音楽、娯楽、医療、金融情報、乗り物データ、物流データ、販売データ、または機械学習分析に割り当てられる他のデータ・タイプと関連し得る。

モデルが必要とする１個のフォレストあたりのランダム決定木の数を指定しなければならない。数はユーザ入力として指定されてもよく、以前のモデル開発の取り組みに基づくデフォルトの量に設定されてもよい。ある実施形態では、数は５００個の木として指定されてもよい。ある実施形態では、数は乱数発生器または疑似乱数発生器を使用してランダムに選択されてもよい。１個のフォレストあたりの木の数は、モデルに各層／フォレストが追加される際に一定のままであり得る。ある実施形態では、１個のフォレストあたりの木の数は、層／フォレストごとに異なり得る。

各決定木は、訓練データ・セットから置換で選択された、ブートストラップしたデータ・サンプルから育成される。ブートストラップしたサンプルは訓練データ・セットとサイズが等しい。置換を伴う選択は、訓練データ・セットから木を成長させる方法を提供する一方で、訓練データに対する木の過学習（オーバーフィッティング）のリスクを低減する。例として、訓練データ・セット［１，２，３，４，５，６］に関して、置換を伴って選択されたブートストラップしたサンプルは、［１，２，２，３，５，６］で構成される。

各木は、木の各ノードが同じクラスのインスタンスしか含まず剪定が必要なくなるまで、その対応するブートストラップしたサンプルから十分に育成される。各木が育成されるにつれクラス予測器のランダム選択によって木ノードの分割が定義され、最低のジニ不純度値を有する部分的セットがノードを定義するために使用される。クラス・ベクトルの次元の数はモデルを構築するためのパラメータとして指定されてもよく、またはモデルは、可能なクラス・ベクトル次元値の範囲を考慮して開発されてもよい。ジニ不純度値は、データ・セットからランダムに選ばれるデータ・インスタンスが適正にラベル付けされると考えられる尤度を反映している。ゼロのジニ不純度値は、インスタンスの不適正なラベリングの確率が０％であることを示し、ノードの全てのインスタンスが同じクラスのものであることを示している。

例として、訓練データ・セットは、４個のインスタンス属性ｄ、ｅ、ｆ、およびｇと分類ラベルｃとを各々備える、１０００個のデータ・インスタンスを含む。木を育成する際、システムは、データ・セットを分けるためにインスタンス属性の様々な組合せを使用して根ノードにおいてデータを分割した結果を評価することになる。この評価は、ランダム・データ・インスタンスを不適正にラベリングする尤度が最も低い、すなわちクラス不純度が最低である、属性の組合せを選択する。この例の場合、根ノードは属性ｄの値に基づいて分けられる。属性ｄの取り得る各値は根ノードからの枝として定義され、例えば、属性ｄは４個の異なる値ｄ１、ｄ２、ｄ３、およびｄ４を有し、したがって根ノードから４本の枝が定義される。次いで評価プロセスは属性ｄの枝によって定義された各ノードへと進む。ここでもまた、各ノードにおいて枝を定義するために、ランダム・データ・インスタンスを不適正に分類する可能性の最も低いデータ分割を生む属性または属性の組合せが選ばれる。この選択は、データの元の分割によって定義されるノードごとに異なっていてもよい。例えば、ｄ１，ｅ、ｄ２，ｅ、ｄ３，ｆ、およびｄ４，ｇという組合せが、次の枝のセットを定義する。２個以上のクラスのラベル付けされたデータを依然として含むが、枝上に最低数を超えるインスタンスも含んで、指定された最高数のノード・レベルに達していないかまたは別の分割によってクラス不純度を改善できない各枝について、このプロセスが継続される。

ある実施形態では、ランダム木のフォレストについてアウト・オブ・バッグ（ＯＯＢ）予測が計算され得る。ＯＯＢ予測は、ある特定のインスタンスをブートストラップしたデータ・セットの一部として有さなかった全てのランダム木による、その特定の訓練データ・セットのデータ・インスタンスについての投票の総和から導出される次元を備えるベクトルを構成する。例として、３個のクラスｃ１、ｃ２、およびｃ３を有するデータを分析する、５００個のランダム決定木を有するフォレストを考慮されたい。この例では、訓練データのインスタンス１は、木のうちの２００個についてはブートストラップしたデータ・セットの一部ではなかった。これら２００個の木によるインスタンス１の評価は、１００個のｃ１としての分類と、ｃ２およびｃ３の各々についての５０個の分類とをもたらした。インスタンス１についてのフォレストに関するＯＯＢベクトルは［０．５，０．２５，０．２５］になると考えられ、これら３個の次元は、木によって選択されている分類の確率を表す。ＯＯＢ予測ベクトルからの最高確率のクラスとして、各インスタンスについてのＯＯＢラベル予測も決定される。この例では、ＯＯＢラベル予測はｃ１になると考えられる。

ある実施形態では、ＯＯＢ予測クラス・ベクトルは、インスタンスの新しい特徴としてデータ・インスタンスに付加され得る。この例では、データ・セットのインスタンス１は、ベクトル［０．５，０．２５，０．２５］が、フォレストによって決定された新しい特徴としてデータ・インスタンスに付加されると考えられる。次いで付加を受けたデータ・セットはモデルの次の層に渡されて、その層の単一のフォレストの決定木を育成するのに使用される。

ある実施形態では、フォレスト／層のＯＯＢ精度も計算される。ＯＯＢ精度は、ＯＯＢラベル予測とラベル付けされたデータの実際のデータ・ラベルの比較として計算される。この例では、ｃ１とラベル付けされ［０．５，０．２５，０．２５］のＯＯＢ予測を有するインスタンス１は、ｃ１のＯＯＢラベル予測を有し、適正にラベル付けされている。データ・セット全体に対するフォレスト全体のＯＯＢ精度は、ラベル予測によって適正に分類されるインスタンスのパーセンテージとして計算される。

ある実施形態では、元の層から出力された付加を受けたデータ・セットを新しい訓練データ・セットとして使用して、第２のフォレスト／層が生成される。第２のフォレストについての所定の数のランダム木の各木は、付加を受けた訓練データ・セットから置換を伴って採択されたブートストラップしたデータ・セットから育成される。新しいフォレストについてＯＯＢ予測が計算され、これらが訓練データ・セットに更に付加される。新しいフォレストのＯＯＢ精度が決定され、モデルの前のフォレスト／層のＯＯＢ精度と比較される。

反復：フォレスト生成、データ付加、ＯＯＢ予測、およびＯＯＢ精度計算が、現在の層のＯＯＢ精度が先行する層のＯＯＢ精度から有意に変化しなくなるまで継続される。ある実施形態では、０．００５％を超えるＯＯＢ精度の変化を有意な改善と見なす。

ある実施形態では、各層のフォレストの出力は、使用されるモデルの各層についてデータ・セットの各インスタンスに新しい特徴が追加されるように、データ・セットに付加される。この実施形態では、各データ・インスタンスへの新しい特徴の追加によって、そのインスタンスについての決定された新しい情報を後続の層に関する補助的データ・モデルへと凝縮するのではなく、各インスタンスについての新しい情報が後続の各層に提供される。そのような補助的なモデルは結果的に、モデルのフィデリティ問題に起因して特徴情報の喪失をもたらす場合があるが、その理由はモデルが、特定の新しい特徴情報を各インスタンスに付加するのではなく、データ・インスタンスにわたって特徴情報を平滑化する場合があるためである。

新しいフォレストの追加によってＯＯＢ精度が有意に改善されなくなった後で、最後の層の出力を結合するための結合器関数が追加される。結合器として別のランダム・フォレストを使用してもよく、このときＯＯＢ予測またはＯＯＢ精度は計算されない。ある実施形態では、ＸＧＢｏｏｓｔなどの勾配ブースティング関数を最後のフォレストの出力を結合するための関数として使用してもよい。結合器の追加は、モデルに追加された最後のフォレストによってデータ・セットに付加された追加の特徴を活用する。結合器を用いずにモデルを利用すれば、データ・セットに追加されたこの最後のＯＯＢ予測器を考慮しない結果が生じ、得られる予測精度はより低くなるであろう。結合器を層／フォレストへと追加した後では、機械学習のコンテキストにおける訓練データ・セットの範囲外からのデータを分析するという意図する目的のために、モデルを使用できる。

例。

ある実施形態では、データ・セットから機械学習モデルが構築される。データ・セットから決定木のランダム・フォレストが育成される。フォレストについてのＯＯＢ予測が決定され、データ・セットに付加される。付加を受けたデータ・セットから、追加の決定木のフォレストが育成される。モデルに、追加のフォレストの出力を結合しモデル出力を提供するための結合器が追加される。

ある実施形態では、１個のフォレストあたりの決定木の数の指定と共に、訓練データ・セットが受け取られる。データ・セットから、指定された数の決定木を有する第１のランダム・フォレストが育成される。ランダム・フォレストを使用してＯＯＢ予測およびクラス・ラベルが決定される。ＯＯＢ予測は訓練データ・セットに付加される。フォレストのＯＯＢ精度が決定される。付加を受けたデータ・セットから、指定された数の決定木を有する追加のランダム・フォレストが育成される。追加のフォレストについて、ＯＯＢ予測およびクラス・ラベルが決定される。ＯＯＢ予測は既に付加を受けたデータ・セットに付加される。追加のフォレストのＯＯＢ精度が決定され、元のフォレストＯＯＢ精度と比較される。フォレストを育成し、ＯＯＢ予測、クラス・ラベル、および精度を決定し、予測をデータ・セットに付加し、精度を先行するフォレストの精度と比較するプロセスを、新しいフォレストに起因してＯＯＢ精度の有意な（＜０．００５％）改善が見られなくなるまで継続する。最後のフォレストに、モデルの出力を提供するための結合構造が追加される。

ある実施形態では、１個のフォレストあたりの決定木の数の指定およびその決定木に関するクラス・ベクトルの指定と共に、訓練データ・セットが受け取られる。次いで複数の連続層を有するモデルが構築される。各層は、モデルを構築する際のコンピューティング・リソース要件を緩和するように、単一のランダム・フォレストを含む。データ・セットから、指定された数の決定木を有するランダム・フォレストが育成される。ランダム・フォレストを使用してＯＯＢ予測およびクラス・ラベルが決定される。ＯＯＢ予測は訓練データ・セットに付加される。フォレストのＯＯＢ精度が決定される。付加を受けたデータ・セットから、指定された数の決定木を有する追加のフォレストが育成される。追加のフォレストについて、ＯＯＢ予測およびクラス・ラベルが決定される。ＯＯＢ予測は既に付加を受けたデータ・セットに付加される。追加のフォレストのＯＯＢ精度が決定され、元のフォレストのＯＯＢ精度と比較される。フォレストを育成し、ＯＯＢ予測、クラス・ラベル、および精度を決定し、予測をデータ・セットに付加し、精度を先行するフォレストの精度と比較するプロセスを、新しいフォレストに起因してＯＯＢ精度の有意な（＜０．００５％）改善が見られなくなるまで継続する。最後のフォレストに、モデルの出力を提供するための結合構造が追加される。

実験結果。

本発明の実施形態を構築し、標準的なデータ・セットを使用して以下の標準と比較した。ランダム・フォレスト・モデル、ＸＧＢｏｏｓｔモデル、およびｇｃＦｏｒｅｓｔモデル。この実験では、１個のフォレストあたりの木の数が５００個と指定され、ランダムに選択される属性の数は√ｄ（ｄはデータ・インスタンス属性の数）であり、各木は純粋な葉ノードまで育成される。ランダム・フォレストおよびＸＧＢｏｏｓｔの結合器の各々を用いて本発明の実施形態を構築した。ＸＧＢｏｏｓｔでは、デフォルト設定を使用した。ｇｃＦｏｒｅｓｔでは、各層は４個の完全ランダム・フォレストと４個の通常のランダム・フォレストとから成るものであった。３分割のクラス・ベクトルを使用してクラス・ベクトルを生成した。

各データ・セットを訓練サンプル（５０％）および試験サンプル（５０％）へと分割した。訓練サンプルを使用してモデルを訓練し、試験サンプルを使用して訓練されたモデルを評価した。各モデル・タイプの構築、訓練、および評価を、各データ・セットについて５回行った。結果を下の表１に示す。本発明の実施形態は、ランダム・フォレスト結合器を用いる逐次ディープ・フォレスト（ＩＤＦ）、およびＸＧＢｏｏｓｔ結合器を用いるＩＤＦとラベル付けされている。表に示されているように、これらの実施形態の精度は、評価した標準的なデータ・セットのほとんどについて、既知の機械学習モデルＩの精度を上回る。

図１は、開示される発明の実施と関連付けられた例示的なネットワーク・リソースの概略図を提供する。本発明は、命令ストリームを処理する開示されているどの要素のプロセッサにおいても実施され得る。図に示すように、ネットワーク化したクライアント・デバイス１１０はサーバ・サブシステム１０２にワイヤレスで接続する。クライアント・デバイス１０４はネットワーク１１４を介してサーバ・サブシステム１０２にワイヤレスで接続する。クライアント・デバイス１０４および１１０は、機械学習プログラム（図示せず）を、プログラムを実行するための十分なコンピューティング・リソース（プロセッサ、メモリ、ネットワーク通信ハードウェア）と共に含む。図１に示すように、サーバ・サブシステム１０２はサーバ・コンピュータ１５０を含む。図１には、本発明の実施形態に係る、ネットワーク化したコンピュータ・システム１０００内のサーバ・コンピュータ１５０の構成要素のブロック図が描かれている。図１は一実装形態を例示しているに過ぎず、様々な実施形態が実施され得る環境に関してどのような限定も示唆していないことが諒解されるべきである。描かれている環境に対して多くの変更を行うことができる。

サーバ・コンピュータ１５０は、プロセッサ１５４、キャッシュ１６２、メモリ１５８、永続的ストレージ１７０、通信ユニット１５２、入力／出力（Ｉ／Ｏ）インターフェース１５６、および通信ファブリック１４０を含んでもよい。通信ファブリック１４０によって、キャッシュ１６２、メモリ１５８、永続的ストレージ１７０、通信ユニット１５２、および入力／出力（Ｉ／Ｏ）インターフェース１５６の間の通信が提供される。通信ファブリック１４０は、システム内のプロセッサ（例えばマイクロプロセッサ、通信およびネットワーク・プロセッサ、等）、システム・メモリ、周辺デバイス、および任意の他のハードウェア・コンポーネントの間で、データを渡すまたは情報を制御するあるいはその両方を行うように設計された、任意のアーキテクチャを用いて実装され得る。例えば、通信ファブリック１４０は、１つまたは複数のバスを用いて実装することができる。

メモリ１５８および永続的ストレージ１７０は、コンピュータ可読記憶媒体である。この実施形態では、メモリ１５８はランダム・アクセス・メモリ１６０（ＲＡＭ）を含む。一般に、メモリ１５８は、任意の好適な揮発性または不揮発性のコンピュータ可読記憶媒体を含んでもよい。キャッシュ１６２は、最近アクセスしたデータおよび最近アクセスしたデータの近くのデータをメモリ１５８から取り置くことによってプロセッサ１５４の性能を高める、高速メモリである。

本発明の実施形態を実施するために使用されるプログラム命令およびデータ、例えば機械学習プログラム１７５は、キャッシュ１６２を介してサーバ・コンピュータ１５０の対応するプロセッサ１５４のうちの１つまたは複数によって実行されるまたはアクセスされるあるいはその両方であるように、永続的ストレージ１７０に記憶される。この実施形態では、永続的ストレージ１７０は磁気ハード・ディスク・ドライブを含む。磁気ハード・ディスク・ドライブの代替としてまたはこれに加えて、永続的ストレージ１７０は、ソリッド・ステート・ハード・ドライブ、半導体ストレージ・デバイス、読取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭ）、フラッシュ・メモリ、またはプログラム命令もしくはデジタル情報を格納できる任意の他のコンピュータ可読記憶媒体を含んでもよい。

永続的ストレージ１７０が使用する媒体は、取り外し可能であってもよい。例えば、永続的ストレージ１７０のために、取り外し可能なハード・ドライブを使用してもよい。他の例としては、光学および磁気ディスク、サム・ドライブ、ならびにスマート・カードが挙げられ、これらは、やはり永続的ストレージ１７０の一部である別のコンピュータ可読記憶媒体への転送のために、ドライブに挿入される。

通信ユニット１５２は、これらの例では、クライアント・コンピューティング・デバイス１０４および１１０のリソースを含む、他のデータ処理システムまたはデバイスとの通信を行う。これらの例では、通信ユニット１５２は、１つまたは複数のネットワーク・インターフェース・カードを含む。通信ユニット１５２は、物理的通信リンクまたはワイヤレス通信リンクの一方または両方の使用を介して、通信を提供してもよい。ソフトウェア配布プログラム、ならびに本発明の実施のために使用される他のプログラムおよびデータは、通信ユニット１５２を介してサーバ・コンピュータ１５０の永続的ストレージ１７０にダウンロードされてもよい。

Ｉ／Ｏインターフェース１５６により、サーバ・コンピュータ１５０に接続され得る他のデバイスに対するデータの入出力が可能になる。例えば、Ｉ／Ｏインターフェース１５６は、キーボード、キーパッド、タッチ・スクリーン、マイクロフォン、デジタル・カメラ、または何らかの他の好適な入力デバイス、あるいはそれらの組合せなどの、外部デバイス１９０への接続を提供し得る。外部デバイス１９０は、例えばサム・ドライブ、携帯型の光学または磁気ディスク、およびメモリ・カードなどの、携帯型コンピュータ可読記憶媒体も含み得る。本発明の実施形態を実施するために使用されるソフトウェアおよびデータ、例えばサーバ・コンピュータ１５０上の機械学習プログラム１７５は、そのような携帯型コンピュータ可読記憶媒体に記憶することができ、Ｉ／Ｏインターフェース１５６を介して永続的ストレージ１７０にロードすることができる。Ｉ／Ｏインターフェース１５６はディスプレイ１８０にも接続する。

ディスプレイ１８０はユーザにデータを表示するための機構を提供するもので、例えばコンピュータ・モニタであり得る。ディスプレイ１８０はまた、タブレット・コンピュータのディスプレイなどのタッチ・スクリーンとしても機能し得る。

図２は、本発明の実施形態の実施と関連付けられた例示的な動作を説明する、フローチャート２００を提供する。プログラム開始後、２１０において訓練データ・セットが受け取られる。訓練データ・セットは、所望のモデルが意図している機械学習タスクと関連付けられた、任意の形態のデータから構成されてもよい。例としては、数値データ、文字データ、オーディオ・データ、ビデオ・データ、および画像データ、ならびにこれらの組合せが挙げられる。２２０において、１個のフォレストあたりのランダム木の数が受け取られる。数はユーザによって選ばれても、データ・セットおよび機械学習タスクの性質に応じて自動的に決定されても、乱数または疑似乱数発生器を使用してランダムに選ばれてもよい。２３０においてランダム木が育成される（ランダム木を成長させる）。各ツリーは、訓練データ・セットと同等のサイズで、訓練データ・セットから置き換え可能に選択されたブートストラップしたデータ・サンプルから成長（育成）させても良い。ブートストラップされるデータは置き換えなしで選択されてもよく、訓練データよりも小さいセットを使用してもよいが、これらの選択は完成したモデルの精度を下げ、モデルを訓練データ・セットに対して過学習（オーバーフィッティング）につながる可能性がある。２４０において、訓練データの各インスタンスについてのアウト・オブ・バッグ（ＯＯＢ）予測およびラベル予測が決定される。ＯＯＢ予測はデータの各インスタンスについての新しい特徴情報を提供するもので、２５０においてデータ・セットの対応するインスタンスに付加される。２６０において、完成したフォレストについてＯＯＢ精度が決定される。ＯＯＢ精度は、各インスタンスについてのＯＯＢラベル予測を使用し、フォレストにわたっておよび訓練データ・セットにわたって適正な予測を集約して計算される。２７０において、ＯＯＢ精度はモデルの前の層からのＯＯＢ精度と比較される。ＯＯＢ精度の有意な（ある実施形態では、０．００５％以上の改善が有意な改善を構成する）改善が見られる場合、方法はステップ２３０に戻り、別の層／フォレストが育成され、モデルに追加される。ある実施形態では、有意な改善の後で、方法はステップ２２０に戻り、新しい層／フォレストにおける木の数を決定することができるが、この数は前の層／フォレストとは異なっていてもよい。ＯＯＢ精度の有意な改善が見られない場合、２８０において、最後の層／フォレストの出力を集約するための結合器（コンバイナー）がモデルに追加されて使用される。この方法のモデルは、ＯＯＢ精度を最適化するために必要な数のフォレスト／層だけで構成される。モデルは、モデルによって決定された新しい特徴情報が転送中にも失われないように、すべての新しい特徴情報（ＯＯＢ予測）を後続の各層に渡す。

図３には、モデルが構築される際の訓練データ・セットの展開が説明されている。図に示すように、データ・セット３００はデータ・インスタンスＸを備えており、フォレスト１３１０への入力として提供される。データ・セット３００の各データ・インスタンスに関して、フォレスト１３１０によってインスタンスＸについてのクラス・ベクトルＰ１が決定され、これがインスタンスＸに付加され、付加を受けたデータ・セット３２０が生み出される。付加を受けたデータ・セット３２０は次いでフォレスト２３３０への入力として提供され、フォレスト２がインスタンスＸについてのクラス・ベクトルＰ２を生み出す。クラス・ベクトルＰ２はインスタンスに付加されて、付加を受けたデータ・セット３４０を生み出す。新しいフォレストのＯＯＢ精度が前のフォレストと比べて有意に改善されなくなるまで、これが継続される。最後に追加されたフォレストの出力を集約するための結合器３６０がモデルに追加されるが、この出力は、図では最後のクラス・ベクトルＰｎを含む付加された全てのクラス・ベクトルを備える、付加を受けたデータ・セット３５０として表されている。結合器３６０の出力３７０は、データ・インスタンスについてのクラス予測を構成する。

本開示はクラウド・コンピューティングについての詳細な説明を含むものの、本明細書に記載する教示の実施はクラウド・コンピューティング環境に限定されないことが理解されるべきである。むしろ、本発明の実施形態は、現在知られているまたは今後開発される、任意の他のタイプのコンピューティング環境と関連させて実施可能である。

クラウド・コンピューティングは、最小限の管理労力またはサービスのプロバイダとの対話で迅速にプロビジョニングおよびリリースできる、自由に構成可能なコンピューティング・リソース（例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス）の共有プールへの、便利なオン・デマンドのネットワーク・アクセスを可能にするための、サービス提供のモデルである。このクラウド・モデルは、少なくとも５つの特徴、少なくとも３つのサービス・モデル、および少なくとも４つの配置モデルを含み得る。

特徴は以下の通りである。

オン・デマンド・セルフ・サービス：クラウド利用者は、サーバ時間およびネットワーク・ストレージなどのコンピューティング機能を、サービスのプロバイダとの人的対話を要することなく、必要に応じて自動的に、一方的にプロビジョニングすることができる。

広範なネットワーク・アクセス：機能はネットワークを介して利用可能であり、異種のシンまたはシック・クライアント・プラットフォーム（例えば、携帯電話、ラップトップ、およびＰＤＡ）による使用を促進する、標準の機構を通じてアクセスされる。

リソース・プーリング：プロバイダのコンピューティング・リソースは、マルチ・テナント・モデルを使用して、様々な物理リソースおよび仮想リソースが需要に応じて動的に割り当ておよび再割り当てされて、複数の利用者にサービスされるようにプールされる。利用者は、より高い抽象化レベル（例えば、国、州、またはデータセンタ）での位置の特定は可能であり得るものの、一般には提供されるリソースの正確な位置は制御できないかまたは把握していないという点で、位置非依存の感覚がある。

迅速なエラスティック性：機能を迅速かつ弾性的に、場合により自動的にプロビジョニングして急速にスケール・アウトする、および迅速にリリースして急速にスケール・インすることができる。利用者には、プロビジョニングのために利用可能な機能は多くの場合見掛け上無限であり、任意の時点で任意の量で購入可能である。

測定サービス：クラウド・システムは、サービスのタイプ（例えば、ストレージ、処理、帯域幅、およびアクティブなユーザ・アカウント）に適したある程度の抽象化レベルでメータリング機能を活用することによって、リソース使用を自動的に制御および最適化する。リソース使用状況を監視、制御、および報告することができ、利用されているサービスのプロバイダおよび利用者の両方に対して透明性がもたらされる。

サービス・モデルは以下の通りである。

ソフトウェア・アズ・ア・サービス（ＳａａＳ）：利用者に提供される機能は、クラウド・インフラストラクチャ上で実行されるプロバイダのアプリケーションを使用することである。これらのアプリケーションは、ウェブ・ブラウザ（例えば、ウェブ・ベースの電子メール）などのシン・クライアント・インターフェースを介して、様々なクライアント・デバイスからアクセス可能である。基礎となるクラウド・インフラストラクチャにはネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション機能さえも含まれるが、利用者はその管理または制御は行わない。ただし、限定されたユーザ専用のアプリケーション構成設定は例外となり得る。

プラットフォーム・アズ・ア・サービス（ＰａａＳ）：利用者に提供される機能は、利用者が製作または取得した、プロバイダがサポートするプログラミング言語およびツールを使用して製作されたアプリケーションを、クラウド・インフラストラクチャ上に配置することである。基礎となるクラウド・インフラストラクチャにはネットワーク、サーバ、オペレーティング・システム、またはストレージが含まれるが、利用者はその管理または制御は行わず、ただし、配置されたアプリケーションおよび場合によってはアプリケーションのホスティング環境構成を制御することはできる。

インフラストラクチャ・アズ・ア・サービス（ＩａａＳ）：利用者に提供される機能は、オペレーティング・システムおよびアプリケーションを含み得る、利用者が任意のソフトウェアを配置および実行できる、処理、ストレージ、ネットワーク、および他の基本的なコンピューティング・リソースのプロビジョニングである。利用者は、基礎となるクラウド・インフラストラクチャを管理または制御することはないが、オペレーティング・システム、ストレージ、配置されたアプリケーションを制御することはでき、場合によっては、選択されたネットワーキング・コンポーネント（例えば、ホスト・ファイアウォール）の限定的な制御も行える。

配置モデルは以下の通りである。

プライベート・クラウド：このクラウド・インフラストラクチャはある組織に対してのみ運用される。これはその組織または第三者によって管理されてもよく、オン・プレミスに存在してもオフ・プレミスに存在してもよい。

コミュニティ・クラウド：このクラウド・インフラストラクチャはいくつかの組織によって共有され、共通の関心（例えばミッション、セキュリティ要件、ポリシ、およびコンプライアンス考慮事項）を有する特定のコミュニティをサポートする。これはそれらの組織または第三者によって管理されてもよく、オン・プレミスに存在してもオフ・プレミスに存在してもよい。

パブリック・クラウド：このクラウド・インフラストラクチャは、一般人または大きな業界グループが利用可能となっており、クラウド・サービスを販売する組織が所有している。

ハイブリッド・クラウド：このクラウド・インフラストラクチャは、２つ以上のクラウド（プライベート、コミュニティ、またはパブリック）の複合体であり、これらのクラウドは独自のエンティティのままであるが、データおよびアプリケーションのポータビリティ（例えばクラウド間のロード・バランシングのためのクラウド・バースティング）を可能にする標準化されたまたは独自の技術によって、１つに結合されている。

クラウド・コンピューティング環境は、ステートレス性、低結合性、モジュール性、および意味相互運用性に焦点を当てて指向されたサービスである。クラウド・コンピューティングの中心となるのは、相互接続されたノードのネットワークを含むインフラストラクチャである。

ここで図４を参照すると、例示のクラウド・コンピューティング環境５０が描かれている。示されているように、クラウド・コンピューティング環境５０は、１つまたは複数のクラウド・コンピューティング・ノード１０を含み、これを用いて、クラウド利用者が使用するローカルのコンピューティング・デバイス、例えば、携帯情報端末（ＰＤＡ）もしくは携帯電話５４Ａ、デスクトップ・コンピュータ５４Ｂ、ラップトップ・コンピュータ５４Ｃ、または自動車コンピュータ・システム５４Ｎ、あるいはそれらの組合せなどが、通信を行うことができる。ノード１０は互いに通信してもよい。これらは、本明細書で上記したような、プライベート、コミュニティ、パブリック、もしくはハイブリッドのクラウド、またはこれらの組合せなどの、１つまたは複数のネットワークにおいて、物理的または仮想的にグループ化されてもよい（図示せず）。このことにより、クラウド・コンピューティング環境５０が、インフラストラクチャ、プラットフォーム、またはソフトウェア、あるいはそれらの組合せを、クラウド利用者がローカルのコンピューティング・デバイス上でリソースを保守する必要のないサービスとして提供することが可能になる。図４に示すいくつかのタイプのローカルのコンピューティング・デバイス５４Ａ～５４Ｎは、単に例を示すことを意図していること、ならびに、コンピューティング・ノード１０およびクラウド・コンピューティング環境５０は、任意のタイプのネットワークまたは（例えばウェブ・ブラウザを使用した）ネットワーク・アドレス指定可能な接続あるいはその両方を介して、任意のタイプのコンピュータ化されたデバイスと通信できることが、理解される。

ここで図５を参照すると、クラウド・コンピューティング環境５０（図４）が提供する１組の機能抽象化層が示されている。図５に示すコンポーネント、層、および機能は、単に例を示すことを意図しており、本発明の実施形態はこれらに限定されないことが、予め理解されるべきである。描かれているように、以下の層および対応する機能が提供される。

ハードウェアおよびソフトウェア層６０は、ハードウェアおよびソフトウェアのコンポーネントを含む。ハードウェア・コンポーネントの例には、メインフレーム６１、ＲＩＳＣ（縮小命令セット・コンピュータ）アーキテクチャ・ベースのサーバ６２、サーバ６３、ブレード・サーバ６４、ストレージ・デバイス６５、ならびにネットワークおよびネットワーキング・コンポーネント６６が含まれる。いくつかの実施形態では、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア６７とデータベース・ソフトウェア６８とを含む。

仮想化層７０は、以下の仮想エンティティの例を提供し得る抽象化層を提供する。仮想サーバ７１、仮想ストレージ７２、仮想プライベート・ネットワークを含む仮想ネットワーク７３、仮想アプリケーションおよびオペレーティング・システム７４、ならびに仮想クライアント７５。

一例では、管理層８０は、以下に記載する機能を提供し得る。リソース・プロビジョニング８１は、クラウド・コンピューティング環境内でタスクを実行するために利用されるコンピューティング・リソースおよび他のリソースの、動的な調達を提供する。メータリングおよびプライシング８２は、クラウド・コンピューティング環境内でリソースが利用される際のコスト追跡、およびこれらのリソースの消費に対する請求処理またはインボイス処理を行う。一例では、これらのリソースはアプリケーション・ソフトウェア・ライセンスを含んでもよい。セキュリティは、クラウド利用者およびタスクについての身元情報の検証、ならびにデータおよび他のリソースの保護を提供する。ユーザ・ポータル８３は、利用者およびシステム管理者にクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理８４は、要求されるサービス・レベルが満たされるように、クラウド・コンピューティング・リソースの割り当ておよび管理を提供する。サービス・レベル・アグリーメント（ＳＬＡ）計画および履行８５は、ＳＬＡによって将来必要となることが予期されるクラウド・コンピューティング・リソースの、事前調整および調達を提供する。

ワークロード層９０は、クラウド・コンピューティング環境が利用され得る機能の例を提供する。この層から提供され得るワークロードおよび機能の例には、マッピングおよびナビゲーション９１、ソフトウェア開発およびライフサイクル管理９２、仮想教室教育配信９３、データ分析処理９４、トランザクション処理９５、ならびに機械学習プログラム１７５が含まれる。

本発明は、任意の可能な技術詳細レベルで組み込まれた、システム、方法、またはコンピュータ・プログラム製品あるいはそれらの組合せであり得る。本発明は、命令ストリームを処理する任意のシングルまたはパラレルのシステムにおいて有益に実施され得る。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有する、コンピュータ可読記憶媒体を含んでもよい。

コンピュータ可読記憶媒体は、命令実行デバイスによって使用される命令を保持および保存できる有形のデバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁ストレージ・デバイス、半導体ストレージ・デバイス、または以上の任意の好適な組合せであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、以下、すなわち、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭもしくはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読取り専用メモリ（ＣＤ－ＲＯＭ）、デジタルバーサタイルディスク（ＤＶＤ）、メモリ・スティック、フロッピー（Ｒ）・ディスク、命令が記録されているパンチ・カードもしくは溝の中の隆起構造などの機械的に符号化されたデバイス、および以上の任意の好適な組合せが含まれる。本明細書において使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝播する電磁波、導波路もしくは他の伝送媒体を通じて伝播する電磁波（例えば、光ファイバ・ケーブルを通過する光パルス）、または配線を介して伝送される電気信号などの、一過性の信号そのものであると解釈されるべきではない。

本明細書に記載するコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、あるいは、ネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくはワイヤレス・ネットワーク、またはその組合せを経由して外部のコンピュータまたは外部ストレージ・デバイスに、ダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはそれらの組合せを備え得る。各コンピューティング／処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースが、ネットワークからコンピュータ可読プログラム命令を受信し、それらのコンピュータ可読プログラム命令を、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に保存されるように転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存型命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路用の構成データ、または、Ｓｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語もしくは類似のプログラミング言語などの手続き型プログラミング言語を含む、１つもしくは複数のプログラミング言語の任意の組合せで書かれた、ソース・コードもしくはオブジェクト・コードのいずれか、であり得る。コンピュータ可読プログラム命令は、専らユーザのコンピュータ上で、スタンド・アロン・ソフトウェア・パッケージとして部分的にユーザのコンピュータ上で、部分的にユーザのコンピュータ上でかつ部分的に遠隔のコンピュータ上で、または専ら遠隔のコンピュータもしくはサーバ上で、実行することができる。後者のシナリオでは、遠隔のコンピュータを、ローカル・エリア・ネットワーク（ＬＡＮ）もしくはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザのコンピュータに接続してもよく、または、外部のコンピュータへの接続を（例えば、インターネット・サービス・プロバイダを利用してインターネットを介して）行ってもよい。いくつかの実施形態では、例えばプログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む電子回路は、本発明の態様を行うために、コンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行して電子回路を個人化することができる。

本明細書には、本発明の実施形態に係る方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して、本発明の態様が記載されている。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組合せを、コンピュータ可読プログラム命令によって実施できることが理解されるであろう。

これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラム可能データ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／動作を実施する手段を作り出すべく、汎用コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供されてマシンを作り出すものであってよい。これらのコンピュータ可読プログラム命令はまた、命令が保存されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／動作の態様を実施する命令を含んだ製品を備えるように、コンピュータ可読記憶媒体に保存され、コンピュータ、プログラム可能データ処理装置、または他のデバイス、あるいはそれらの組合せに特定の方式で機能するように指示できるものであってもよい。

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能装置、または他のデバイスで実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／動作を実施するように、コンピュータによって実行されるプロセスを作り出すべく、コンピュータ、他のプログラム可能データ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラム可能装置、または他のデバイス上で一連の動作ステップを実行させるものであってもよい。

図中のフローチャートおよびブロック図には、本発明の様々な実施形態に係るシステム、方法、およびコンピュータ・プログラム製品の、可能な実装形態のアーキテクチャ、機能性、および動作が説明されている。この関連において、フローチャートまたはブロック図内の各ブロックは、指定された論理機能を実施するための１つまたは複数の実行可能命令を備える、モジュール、セグメント、または命令の一部分を表すことができる。いくつかの代替的実装形態において、ブロック内に記された機能は、図に記されたものとは異なる順序で行われ得る。例えば連続して示される２つのブロックは、実際は実質的に並行して実行され得、またはこれらのブロックは時には関わる機能に応じて、逆の順序で実行され得る。また、ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組合せは、指定された機能もしくは動作を行う、または専用ハードウェアとコンピュータ命令の組合せを実行する、専用ハードウェア・ベースのシステムによって実施され得ることも、留意されるであろう。

本発明の様々な実施形態の説明は例示の目的で提示されてきたが、網羅的であることも開示される実施形態に限定されることも意図していない。当業者には本発明の範囲および思想から逸脱することなく多くの変更および変形が明らかであろう。本明細書で用いられる専門用語は、実施形態の原理、実際の用途、もしくは市場で見られる技術に対する技術的な改善を最もよく説明するように、または、他の当業者が本明細書において開示される実施形態を理解できるように、選択された。

Claims

データ分析用のモデルの開発および訓練をするためのコンピュータ実装方法であって、
１つまたは複数のコンピュータ・プロセッサによって、データ・セットから決定木のランダム・フォレストを育成することと、
１つまたは複数のコンピュータ・プロセッサによって、前記ランダム・フォレストについてのアウト・オブ・バッグ（ＯＯＢ）予測を決定することと、
１つまたは複数のコンピュータ・プロセッサによって、前記アウト・オブ・バッグ予測を前記データ・セットに付加することと、
１つまたは複数のコンピュータ・プロセッサによって、ＯＯＢ予測が付加された前記データ・セットを使用して追加のランダム・フォレストを育成することと、
１つまたは複数のコンピュータ・プロセッサによって、前記追加のランダム・フォレストの出力を結合器と結合することと、
によってモデルを構築することを含む、コンピュータ実装方法。
各ランダム・フォレストは、数値、テキスト、オーディオ、ビデオ、画像データ、位置、音声、音楽、娯楽、医療、金融情報、乗り物、物流、および販売データから成る群から選択されるデータから育成される、請求項１に記載の方法。
データ・セットを使用して前記決定木のランダム・フォレストを成長させることは、前記データ・セットから置換を伴って採択されたブートストラップしたサンプルを使用して各木を成長させ、決定木を成長させることを含む、請求項１に記載の方法。
各ランダム・フォレストのＯＯＢ精度を決定することと、前記ＯＯＢ精度が有意に改善しなくなるまでランダム・フォレストを追加することと、を更に含む、請求項１に記載の方法。
前記結合器は、ランダム・フォレストおよび勾配ブースティング構造から成る群から選択された構造を含む、請求項１に記載の方法。
前記モデルは一連の層を備え、各層は単一のランダム・フォレストを備える、請求項１に記載の方法。
データ分析用のモデルの開発および訓練をするためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品は１つまたは複数のコンピュータ可読ストレージ・デバイスと前記１つまたは複数のコンピュータ可読ストレージ・デバイスに保存されたプログラム命令とを備え、前記プログラム命令は、
１つまたは複数のコンピュータ・プロセッサによって実行されると、前記プロセッサに請求項１ないし６のいずれか一項に記載の方法のステップを実行させる、プログラムされた命令を含む、コンピュータ・プログラム製品。
データ分析用のモデルの開発および訓練をするためのコンピュータ・システムであって、
１つまたは複数のコンピュータ・プロセッサと、
１つまたは複数のコンピュータ可読ストレージ・デバイスと、
前記少なくとも１つのコンピュータ・プロセッサによって実行される、前記１つまたは複数のコンピュータ可読ストレージ・デバイスに保存されたプログラム命令と、を備え、前記プログラム命令は、
前記１つまたは複数のコンピュータ・プロセッサによって実行されると、前記コンピュータ・プロセッサに請求項１ないし６のいずれか一項に記載の方法のステップを実行させる、プログラムされた命令を含む、コンピュータ・システム。
１つまたは複数のコンピュータ・プロセッサによって、訓練データ・セットを受け取ることと、
前記ランダム・フォレストについてのＯＯＢ精度を決定することと、
１つまたは複数のコンピュータ・プロセッサによって、前記追加のランダム・フォレストについてのＯＯＢ精度を決定することと、
１つまたは複数のコンピュータ・プロセッサによって、前記ランダム・フォレストおよび前記追加のランダム・フォレストの前記ＯＯＢ精度を比較することと、
を含む、請求項１に記載の方法。
１つまたは複数のコンピュータ・プロセッサによって、訓練データ・セットを受け取ることと、
１つまたは複数のコンピュータ・プロセッサによって、１個のフォレストあたりの決定された木の数およびクラス・ベクトル指定を受け取ることと、
１つまたは複数のコンピュータ・プロセッサによって、前記訓練データ・セットを使用して第１のフォレストについての前記決定された数の木を育成することと、
１つまたは複数のコンピュータ・プロセッサによって、前記第１のフォレストについての第１のアウト・オブ・バッグ（ＯＯＢ）予測を決定することと、
１つまたは複数のコンピュータ・プロセッサによって、ＯＯＢ予測を前記データ・セットに付加することと、
１つまたは複数のコンピュータ・プロセッサによって、前記第１のフォレストについてのＯＯＢ精度を決定することと、
１つまたは複数のコンピュータ・プロセッサによって、ＯＯＢ予測を付加された前記訓練データ・セットを使用して追加のフォレストについての前記決定された数の木を育成することと、
１つまたは複数のコンピュータ・プロセッサによって、前記追加のフォレストについての追加のＯＯＢ予測を決定することと、
１つまたは複数のコンピュータ・プロセッサによって、追加のＯＯＢ予測を前記データ・セットに付加することと、
１つまたは複数のコンピュータ・プロセッサによって、前記追加のフォレストについての追加のＯＯＢ精度を決定することと、
１つまたは複数のコンピュータ・プロセッサによって、前記追加のＯＯＢ精度が改善されなくなるまでフォレストを追加することと、
１つまたは複数のコンピュータ・プロセッサによって、前記追加のフォレストの出力を結合することと、によって、各層が単一のランダム・フォレストを含む連続層のモデルを構築すること
を含む、請求項９に記載の方法。