JP2017126329A - トレーニングセットの評価 - Google Patents

トレーニングセットの評価 Download PDF

Info

Publication number
JP2017126329A
JP2017126329A JP2016255137A JP2016255137A JP2017126329A JP 2017126329 A JP2017126329 A JP 2017126329A JP 2016255137 A JP2016255137 A JP 2016255137A JP 2016255137 A JP2016255137 A JP 2016255137A JP 2017126329 A JP2017126329 A JP 2017126329A
Authority
JP
Japan
Prior art keywords
observations
computer
query
implemented method
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016255137A
Other languages
English (en)
Other versions
JP6888953B2 (ja
Inventor
グレアント シャビエル
Grehant Xavier
グレアント シャビエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dassault Systemes SE
Original Assignee
Dassault Systemes SE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dassault Systemes SE filed Critical Dassault Systemes SE
Publication of JP2017126329A publication Critical patent/JP2017126329A/ja
Application granted granted Critical
Publication of JP6888953B2 publication Critical patent/JP6888953B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】機械学習システムによって予測される結果の潜在的な発散を評価するための方法、システム、およびプログラムを提供する。【解決手段】目標値に関連付けられる観測値の第1のセットに対してモデルをトレーニングし、トレーニングされたモデルを観測値のランダムに生成した第2のセットに適用する。それにより第2のセットの各観測値に関連付けられた目標値を得て、観測値の第1および第2のセットならびにそれらの関連の目標値をインデックスへインデックス付け、観測値の第1および第2のセットのサブセットの選択を可能にする第1のクエリを受け取り、第1のクエリと第1のセットの観測値だけを返すことになる追加の制約とを含む第2のクエリの生成と、第1のクエリと第2のセットの観測値だけを返すことになる追加の制約とを含む第3のクエリの生成を行う。そして、第2および第3のクエリを使用したインデックスのクエリに対する応答を返す。【選択図】図3

Description

本発明は、コンピュータプログラムおよびシステムの分野に関し、より詳細には、機械学習システムによって予測される結果の潜在的な発散を評価するための方法、システム、およびプログラムに関する。
機械学習では、トレーニングされたモデルが不適切である、入力変数の選出が無効である、またはトレーニングサンプルの選出が新しいデータを表すものでないことにより、予測エラーが発生することがある。時には、モデルの選出が(たとえば、手近の問題のために良好に機能することが知られているモデルに)限定され、入力変数の選出が(たとえば、収集することができる変数に)限定される。
したがって、解析のために発生する問題は、所与のモデル、および入力変数の所与のセットについて、トレーニングサンプルの選出によるエラーのリスク、または目標値が知られている観測値のセット(このセットは、タグ付きデータとも呼ばれる)の使用可能性をいかに評価するかである。
トレーニングされたモデルをテストするための方法が開発されている。第1の方法は、デルタおよびガンマテストと呼ばれる。特許文献1に提示されているガンマテストは、滑らかなモデルのエラーを、トレーニングサンプルだけに基づいて推定する。滑らかなモデルは、その出力が入力の滑らかな関数であるモデル(ニューラルネットワークなど)である。滑らかな関数は、有限部分一階および二階微分を伴う関数である。直感的に、これは、どの方向にわたっても関数の曲線が滑らかであり、角度をなさないことを意味する。デルタテストは、滑らかなモデルを必要とせず、連続的モデルを必要とする。連続的モデルは、その出力が入力の連続関数であるモデルである。連続関数は、点の系列Sが点Pに収束する場合、S上のその値がP上のその値に向かう関数である。デルタテストは、ガンマテストに対して前方である。これはモデルに関して、より弱い仮定をするが、同様の質でモデルのエラーを推定するために、より大きなデータセット密度を必要とする。
しかし、この方法には欠点がある。特に、これは制限された種類のモデルに適用される。デルタおよびガンマテストは、観測値の実際の目標値と滑らかな関数によって生成することができる目標値との間のエラーを推定する。出力は、必ずしもあらゆるモデルで入力の滑らかな関数でない。いくつかのタイプの人工ニューラルネットワークにとっては事実であるが、現在、多数の機械学習問題に対する最高の実行手法として選ばれる決定木またはスタブに基づくアンサンブル法にとっては事実でない。
第2の方法は、非特許文献2で論じられている交差検証である。交差検証は、使用可能なタグ付きデータをトレーニングデータとテストデータに分けることにある。モデルは、トレーニングデータに基づいてトレーニングされ、次いでテストデータに基づいてテストされる。テストされるとき、トレーニングされたモデルの出力は、標的データの実際の値に比較される。K分割は、使用可能なタグ付きデータをよりよく使用するために複数(K個、たとえばK=5)の交差検証にある。最初の交差検証では、タグ付きデータがおおよそ同じサイズのK個のセットに分割される(タグ付きデータのサイズが複数のKとは異なり得るのでおおよそである)。次いで、各連続する実行について、テストデータセットは、以前にテストセットで(以前の実行で)使用されていないサンプルで作成され、各実行でのトレーニングデータは、タグ付きデータセットの残りである。モデルの性能が各実行について測定される。最終的な性能尺度は、典型的にはすべての実行の平均である。
第3の方法は、エラー率が異なるサイズのトレーニングセットについてプロットされる交差検証の特定の場合である。より具体的には、この第3の方法は、2つのエラー率曲線をプロットすることにある。一方は、トレーニングセットからの観測値でのモデルのエラーに対応し、他方は、テストセットからの観測値でのモデルのエラーに対応する。トレーニングセットの観測値でのエラー率は、トレーニングセットサイズに関して連続的に減少すべきであり、一方、テストセットの観測値でのエラー率は、少なくともより低いトレーニングセットサイズについて減少すべきである。それより後で増大し始める点があり得る。この変曲点が、トレーニングセットの最適なサイズであり、それより前でアンダーフィッティングが発生し、それより後でオーバーフィッティングが発生する。この点が存在しない場合、オーバーフィッティングはなく、最適なトレーニングセットが最大である。
これらの第2の方法および第3の方法は、モデルをトレーニングするためにすべての使用可能なタグ付きデータを使用することを可能にはしない。理想的な場合(モデルがオーバーフィッティングしないとき)には、モデルをトレーニングするために可能な限り多くのデータを使用することが有益であり、その結果、実際には、モデルは一般にすべての使用可能なタグ付きデータでトレーニングされる。これらの場合には、これらの方法は、トレーニングされるモデルが生産で実行することになるときその性能を正確に測定しない。これは、タグ付きデータがほとんどないとき問題である。
これらの方法のいずれも、トレーニングデータの選出に関連するエラーのリスクを補償しない。トレーニング時に使用可能なすべてのタグ付きデータがトレーニングに使用されるときでさえ、これらの方法は、トレーニング時に使用可能なタグ付きデータの分布に関連するエラーのリスクを補償しない。実際には、これは重要な問題である。なぜなら、タグ付きデータが収集されたとき発生した状況をタグ付きデータが表すにすぎず、これは、将来発生し得る状況とは異なり得るからである。データを必ずしも収集することができない場合、使用可能なタグ付きデータは、発生した状況のサブセット、すなわち、データを収集することが可能であったとき発生した状況を表すにすぎず、これは、可能な状況のセット全体を表すものではないことがある。
たとえば、交差検証は、テストセットの観測値に似た、すなわち使用可能なタグ付きデータ内で見出された観測値に似た観測値でのエラーのリスクを評価することを可能にするにすぎない。
トレーニングセットとテストセットでのエラー率を比較し、一方、トレーニングセットのサイズを変えることの問題は、まさにトレーニングセットのサイズを変えるにすぎず、トレーニングセット内の観測値の選出ではないことである。これは、トレーニングセット内の観測値がすべての可能な観測値を表すものであると考えられること、およびそれらが完璧にランダムな順序で取り込まれると考えられることを意味する。たとえば、すべての観測値が可能な観測値の空間の小さいエリア内に位置する2クラス分類モデルのトレーニングセットを考える場合である。このモデルは、その特定の部分空間内の2クラス間でいかに区別するかという些細な詳細を学習することになる。観測値の空間の他のエリア内の2クラス間でいかに区別するかは学習しないことになる。このモデルは、トレーニングセットのサイズのせいではなくトレーニングセット内の観測値の分布のせいでオーバーフィッティングすることになる。
デルタおよびガンマテストは、使用可能なタグ付きデータをトレーニングセットとテストセットに分割することを必要としない。しかし、それらは、依然として使用可能なタグ付きデータがすべての可能な入力データ(将来の入力データを含む)を表すものであると考える。
したがって、これらの方法を用いるリスク評価がないことは、現象が通常、時間と共に進展するので問題である。その結果、トレーニングデータの分布は、何らかの点で時代遅れになる。たとえば、自動車レースでいつピットストップをするかという予測は、通常、サーキットと車の挙動を説明する入力データに依拠する。たとえば、気候の変化と共に、極端な温度が、フォーミュラワンサーキットで初めて発生することがある。極端な温度は、タイヤの密着、ならびにエンジンとブレーキパッドの挙動に影響を及ぼし得る。しかし、極端な温度の結果は、モデルによって学習されない可能性がある。特にこれらの温度が現在のサーキットで以前に決してみられなかった場合、そのような状況は、使用可能なタグ付きデータでは捕捉されなかった可能性がある。ピットストップを行うのに最適な瞬間を決定する助けとなるように使用される機械学習モデルは、通常とは非常に異なる状況において不適切な推奨をもたらす可能性がある。ピットストップにおけるフォーミュラワンカーでの不適切な動作または不適切なタイミングは、チームのパフォーマンスを低下させるだけでなく、危険な状況をもたらす可能性がある。
この状況の中で、機械学習システムによって予測される結果の潜在的な発散を評価することが依然として求められている。
Stefansson, Adoalbjorn, N. Koncar, and Antonia J. Jones. "A note on the gamma test." Neural Computing & Applications 5.3 (1997): 131−133 Kohavi, Ron. "A study of cross−validation and bootstrap for accuracy estimation and model selection." Ijcai. Vol. 14. No. 2. 1995
したがって、機械学習システムによって予測される結果の潜在的な発散を評価するためのコンピュータ実施方法が提供される。本方法は、
− 観測値の第1のセットに対してモデルをトレーニングするステップであって、各観測値は、目標値に関連付けられる、ステップと、
− 観測値の第2のセットを生成するステップと、
− トレーニングされたモデルを第2のセットに適用し、それにより第2のセットの各観測値に関連付けられた目標値を得るステップと、
− 観測値の第1および第2のセットならびにそれらの関連の目標値をインデックスへインデックス付けするステップと、
− 観測値の第1および第2のセットのサブセットの選択を可能にする第1のクエリを受け取るステップと、
− 第1のクエリと、第1のセットの観測値だけを返すことになる追加の制約とを含む第2のクエリを生成するステップと、
− 第1のクエリと、第2のセットの観測値だけを返すことになる追加の制約とを含む第3のクエリを生成するステップと、
− 第2および第3のクエリを使用してインデックスをクエリするステップと、
− 第2および第3のクエリに対する応答を返すステップとを含む。
本方法は、以下の1つまたは複数を含んでもよい。
− 観測値の第1のセットの各観測値は、1つまたは複数の変数に関連付けられ、各変数は、値に関連付けられる。
− 観測値の第1のセットに対してモデルをトレーニングするステップの前に、第1のセットの1つまたは複数の変数を連続的なセグメントに対して、または離散集合に対して定義する。
− 観測値の第2のセットのランダムな生成は、第1のセットの各変数に対して、確率分布を関連付ける。
− 確率分布は、第1のセットの前記各変数に従って決定される。
− 確率分布関数は、一様確率分布である。
− 少なくとも1つの確率変数ジェネレータを使用することによって、連続的なセグメントにわたって、または離散集合に対して値を生成し、少なくとも1つの確率変数ジェネレータから得られた値の組合せを計算する。
− 変数間の依存性を決定し、決定された依存性を満たさない計算された組合せの中の組合せを除去する。
− 確率変数の組合せを計算することは、確率変数の組合せすべてを計算することを含む。
− 観測値の第1のセットは、第1の行列に格納され、観測値の第2のセットは、第2の行列に格納される。
− 観測値の第2のセットは、ランダムに生成されたものとしてマークされる。
− インデックス付けするステップにて、観測値のインデックス付けされた第2のセットは、観測値がランダムに生成されたことを示すメタデータに関連付けられる。
− 返すステップの前に、第2のクエリと第3のクエリの結果を比較する。
本方法を実行するための命令を含むコンピュータプログラムがさらに提供される。
このコンピュータプログラムが記録されているコンピュータ可読記憶媒体がさらに提供される。
メモリに結合されたプロセッサを備えるシステムがさらに提供され、メモリには、このコンピュータプログラムが記録されている。
次に、本発明の実施形態について、非限定的な例として、添付の図面を参照して述べる。
モデルをトレーニングするための観測値の行列の一例の図である。 自然観測値および合成観測値を含む観測値の行列の一例の図である。 本方法の一例の図である。 本方法を実行するためのシステムの一例の図である。
図3の流れ図を参照すると、機械学習システムによって予測される結果の潜在的な発散を評価するためのコンピュータ実施方法が提案されている。本方法は、観測値の第1のセットに対してモデルをトレーニングするステップであって、各観測値は、目標値に関連付けられる、ステップを含む。本方法は、観測値の第2のセットをランダムに生成するステップをさらに含む。次いで、トレーニングされたモデルが観測値の第2のセットに適用される。その結果、目標値が得られ、第2のセットの各観測値に関連付けられる。次いで、本方法は、観測値の第1のセットおよび観測値の第2のセットならびにそれらの関連の目標値をインデックスへインデックス付けするステップを含む。次に、第1のクエリが受け取られ、第1のクエリは、観測値の第1および第2のセットのサブセットの選択を可能にする。第2のクエリは、第1のものから生成され、第1のクエリと、第1のセットの観測値だけを返すことになる追加の制約とを含む。第3のクエリもまた第1のものから生成され、第1のクエリと、第2のセットの観測値だけを返すことになる追加の制約とを含む。次に、第2および第3のクエリを使用してインデックスがクエリされる。第2および第3のクエリに対する応答が返される。
そのような方法は、機械学習システムによって予測される結果の潜在的な発散の評価を改善する。実際、使用可能なタグ付きデータ(タグ付きデータは、目標値が知られている観測値のセットである)に関連するリスクを評価することは、使用可能なタグ付きデータを将来のデータと比較することにある。将来のデータは使用可能でないため、本発明はこの問題を、使用可能なタグ付きデータを理論的に可能なデータと比較することによって解決する。少なくとも将来のデータは理論的に可能であり、その結果、将来のデータに関する最悪の場合のシナリオが理論的に可能なデータに含まれる。
リスクはモデルの正確さに関係付けることができ、モデルが間違っている場合には、モデルからの出力に基づいて何らかの誤った判断が下される可能性がある。しかし、所与の(可能な、または将来の観測値のセット内の)観測値において、同様の観測値に対応するタグ付きデータがない場合、モデルの正確さを予測する方法はない。
本発明は、可能な観測値すべてにおいてモデル正確さの粗い推定値を提供することによってこの問題を解決する。この推定値は、その点周りでの使用可能なタグ付き観測値の密度である。基本的に、点周りでのトレーニングデータが密であるほど、モデルはよりよくトレーニングされることになり、その点周りでよりよく機能することになる。本発明では、この粗い推定値を提供することは、合成データに関するクエリに対する応答(任意の可能な観測値を表すことを可能にする)、および使用可能なタグ付きデータに関するクエリに対する応答(その点周りでのタグ付きデータの密度を表すことを可能にする)を提供することにある。
リスクはモデルによって返される値に関係付けることができ、モデルからの出力に基づいて行動しようと決めた場合には、モデルの出力は、下されることになる判断を決定する。リスクがこれらの判断に関連しており、その結果、リスクがモデルの出力に関連している。たとえば、判断は、自動車レースにおけるピットストップ中になされる調整の一部として機械部品に加えられる力とすることができ、リスクは、その機械部品が自動車レースの残りのラップ中に破損することである。
本発明は、タグ付きデータによってカバーされない理論的に可能な点におけるモデルの値を明らかにする。なぜなら、本発明によれば、モデルは合成サンプル上でさえ動作し、モデルの出力は、対応する入力と共にインデックス付けされるからである。
リスクを評価することは、通常「もし〜したらどうなる」という質問を含む。本発明は、これをクエリにより解決する。ユーザは、データを説明する1またはいくつかの変数に関する明細で表してそれらのクエリを指定する。たとえば、レース前に、サーキット上の温度がレース中に極値に達すると予想されることをチームが理解している場合、チームは、予想される温度を指定するクエリを発行することによってレースのためのモデルの正確さについて質問することができる。さらに、レース中、予想されないにわか雨など新しい状況が展開した場合、チームはやはり、機械学習モデルを使用することによって、またそれをトレーニングするために使用されたデータを与えられて提供される推奨をどう納得するか理解するために、にわか雨の発生を含む現在の状況を説明するいくつかの値を指定するクエリを発行することができる。次いで、そのクエリを使用し、1つは使用可能なタグ付きデータに関し、1つは合成サンプルに関する2つのクエリを生成し、その特定の質問についてさえ、上記の利益を得る。
本発明は、任意の種類のモデル、たとえば機械学習に同じようにあてはまる。これは、モデルに関して仮定をしない。本発明は、完全に使用可能なタグ付きデータを使用しモデルをトレーニングし、次いで合成サンプルを使用し、それをテストすることを可能にする。本発明は、使用可能なタグ付きデータがすべての可能なデータを完璧に表すものであること、またはそれらのセット内のデータの順序が完璧にランダムであることという仮定に依拠しない。これは、すべての可能な観測値を表すために使用可能なタグ付きデータに依拠しないからである。その代わりに、可能な観測値の理論的な分布に基づいて合成サンプルを生成する。テストサンプルは合成であるため、我々は、モデルをこれらのサンプルに適用する前に標的変数の関連の値を有していない。合成サンプルはタグ付けされない。その結果、本方法は、サンプルに関するエラー率を返さない。代わりに、トレーニングセット内のサンプルに似た、または似ていないサンプルに関する予測の変動性を提供する。本方法は、リスクがあるかどうか(トレーニングデータが理論的に可能なデータを表さない場合)を提供して、そのリスクがどのように起こり得るか(どの次元に相違があるか)理解し、(トレーニングデータによってカバーされないエリアにおける)予測の理論的な変動性に関連するリスクを評価することを可能にする。
本方法は、コンピュータによって実施される。これは、本方法のステップ(または実質的にすべてのステップ)が少なくとも1つのコンピュータ、または任意の同様のシステムによって実行されることを意味する。したがって、本方法のステップは、コンピュータによって、おそらくは完全に自動で、または半自動で実行される。例では、本方法のステップの少なくともいくつかをトリガすることは、ユーザ−コンピュータインタラクションを通じて実行され得る。必要とされるユーザ−コンピュータインタラクションのレベルは、予見される自動のレベルに依存し、ユーザの望みを実施するための必要とバランスをとってもよい。例では、このレベルは、ユーザによって定義され、および/または予め定義されてもよい。
本方法のコンピュータ実施の典型的な例は、この目的のために適合されたシステムで本方法を実行することである。このシステムは、メモリに結合されたプロセッサとグラフィカルユーザインターフェースとを含んでもよく、メモリには本方法を実行するための命令を含むコンピュータプログラムが記録されている。また、メモリは、データベースを記憶してもよい。メモリは、そのようなストレージのために適合された任意のハードウェアであり、おそらくはいくつかの物理的に異なる部分(たとえば、プログラムのための部分、またおそらくはデータベースのための部分)を含む。
「データベース」は、検索および取出しのために編成されたデータ(すなわち、情報)の任意の集まりを意味する(たとえば所定の構造化言語、たとえばSQLに基づく、たとえばリレーショナルデータベース)。メモリに記憶されたとき、データベースは、コンピュータによる迅速な検索および取出しを可能にする。実際、データベースは、様々なデータ処理操作と共にデータの記憶、取出し、修正、および削除を容易にするように構造化される。データベースは、そのそれぞれが1つまたは複数のフィールドからなるレコードに分解することができるファイルまたはファイルのセットからなってもよい。フィールドは、データ記憶の基本単位である。ユーザは、主にクエリを通じてデータを取り出してもよい。ユーザは、キーワードおよび分類コマンドを使用して、多数のレコード内のフィールドを迅速に検索、再編、グループ化、および選択し、使用されるデータベース管理システムの規則に従ってデータの特定の集合体に関するレポートを取り出す、または作成することができる。
インデックス付けは、観測値を、それらの目標値を含めて、変数の予め定義されたセットに対する値によってクエリを最適化するように意図された方法で記憶することを意味する。有限の数の可能な値を有する変数は、逆リスト内に格納されるべきである。たとえば、自動車レースの所与のラップ中の雨の発生が「雨なし」のための0と「雨」のための1で表される場合、この変数のためには可能な値が2つしかない。逆リストは、各値についてポインタのリストを有する値のリストである。各ポインタは、この値が発生する記憶された観測値を指す。逆リストは、値による迅速なクエリを可能にする。変数によっては、順序の概念および値間の差が重要である。たとえば、ラップL1が温度T1=22Cで発生し、ラップL2が温度T2=23Cで発生し、ラップL3が温度T3=30Cで発生する場合、L1およびL2は、温度に関してL2およびL3より似ている。これらの変数の場合、セグメントによるクエリに意味がある。インデックスでは、これらの値は、典型的にはセグメントによってクエリを迅速にする構造内(メモリ内)に記憶される。インデックス付けされたとき、これらの変数は、典型的には、最も速い読出しアクセスを提供する、サポートされた物理メモリに記憶される。これは、所与の変数の値がセグメントに入り得るすべての観測値の迅速なクエリを可能にするためである。セグメントによるクエリのための1つの手法は、離散化された値(あるレベルの精度に丸められる)をインデックス付けすること、およびセグメント内に含まれる離散的な値すべてをクエリすることである。インデックスは、データを関連のメタデータを有するドキュメントとして記憶する。ドキュメントは観測値であり、関連の入力および目標値はメタデータである。ドキュメントのメタデータは、ドキュメントが使用可能なタグ付きデータからの観測値を表すか、または合成サンプルからの観測値か決定するのに十分なものであるべきである。たとえば、特定のメタデータを、この情報を含むように設定することができる。
本方法は、概して観測値のセットを操作する。観測値は、変数のセットであり、各変数は、値に関連付けられる。変数は、システムの、またはその一部の状態、あるいはシステムもしくはその一部に関連する、またはシステムもしくはその一部に対して影響を有する要素の状態を表す。たとえば、車の観測値の変数は、車の温度、油圧、瞬間燃料消費、レース中の平均燃料消費、タイヤの種類、空気の温度、天気(雨、晴天、雪)...とすることができる。変数は、変数の状態を定量化する値に関連付けられる。観測値は、所与の時点でのシステムの状態を表す。したがって、観測値のセットは、異なる時点での変数の値である。実際には、システムは、航空宇宙、建築、建設、消費財、ハイテクデバイス、産業機器、輸送、海洋、および/またはオフショア石油/ガス生産もしくは輸送を含めて、様々な無限の産業分野に属することができる。したがって、本方法によって使用される観測値のセットは、陸上輸送手段のシステムまたはその一部(たとえば、車および軽量トラック機器、レーシングカー、オートバイ、トラックおよびモータ機器、トラックおよびバス、列車を含む)、航空輸送手段のシステムまたはその一部(たとえば、機体機器、航空宇宙機器、推進機器、防衛製品、航空機機器、宇宙機器を含む)、船舶輸送手段のシステムまたはその一部(たとえば、海軍機器、商船、オフショア機器、ヨットおよび作業船、海洋機器を含む)、一般機械システムまたは機械システムの一部(たとえば、産業用製造機械、自動車重機械または機器、据え付け機器、産業機器製品、金属製品、タイヤ製造製品を含む)、電気機械または電子部品システムまたはその一部(たとえば、家電、防犯および/または制御および/または計器製品、コンピューティングおよび通信機器、半導体、医療デバイスおよび機器を含む)、消費財(たとえば、家具、住宅および庭製品、レジャー用品、ファッション製品、耐久消費財小売業者の製品、非耐久財小売業者の製品を含む)、包装(たとえば、食品および飲料およびたばこ、美容およびパーソナルケア、家庭製品の包装を含む)など、任意の機械システムであってよい産業システムに関連する変数を含んでもよい。
図1は、観測値の一例を示す。各線12は、観測値を表し、各列14(図1には、見やすくするために1つだけが点線で表されている)は、変数に対応し、各矩形18は、観測値のための変数の値を表す。この例では、観測値のセットは、行列10に格納される。各観測値は、その値が「入力変数」(観測値を説明するためにトレーニングされたモデルの入力として提供されるため)としても知られるいわゆる「記述変数」に対して説明される。興味深いことに、セットの各観測値は、セットの他の観測値と同じ変数を含む。各観測値について、1つまたは複数の変数を空とすることができる、すなわち値に関連付けられないことを理解されたい。各観測値は、「入力変数」としても知られるいわゆる「標的変数」に対する対応する値に関連付けられる。標的変数は、トレーニングされたモデルが新しい観測値について評価しなければならない変数である。標的変数は、モデルのユーザがシステムの挙動を理解する、および/または予測する、および/または反応する助けとなる情報を提供し得る意味で、モデルのユーザにとって意味がある。この例では、標的変数はまた、行列16に格納される。各観測値の値および標的変数は、行列10、16を含む単一の行列に格納することができることを理解されたい。観測値および標的変数は、タグ付きデータのセットを形成する(またそのように称される)。各標的変数は、各観測値についての値、いわゆる目標値を伴うことを理解されたい。
図4は、システムの一例を示し、このシステムは、クライアントコンピュータシステム、たとえば、ユーザのワークステーションである。
この例のクライアントコンピュータは、内部通信バス1000に接続された中央処理ユニット(CPU)1010と、やはりバスに接続されたランダムアクセスメモリ(RAM)1070とを含む。クライアントコンピュータは、バスに接続されたビデオランダムアクセスメモリ1100に関連付けられているグラフィカル処理ユニット(GPU)1110をさらに備える。ビデオRAM1100は、当技術分野でフレームバッファとしても知られている。大容量記憶デバイスコントローラ1020は、ハードドライブ1030など大容量メモリデバイスへのアクセスを管理する。コンピュータプログラムおよびデータを有形に実施するのに適した大容量メモリデバイスは、例として、EPROM、EEPROM、およびフラッシュメモリデバイス、内部ハードディスクおよび取外し式ディスクなど磁気ディスク、光磁気ディスク、ならびにCD−ROMディスク1040など、半導体メモリデバイスを含む、すべての形態の不揮発性メモリを含む。前述のいずれかは、特別に設計されたASIC(特定用途向け集積回路)によって補われても、それらに組み込まれてもよい。ネットワークアダプタ1050は、ネットワーク1060へのアクセスを管理する。また、クライアントコンピュータは、カーソル制御デバイス、キーボードなど、ハプティックデバイス1090を含んでもよい。カーソル制御デバイスは、クライアントコンピュータ内で、ユーザがディスプレイ1080上の任意の場所にカーソルを選択的に位置決めすることを可能にするために使用される。さらに、カーソル制御デバイスは、ユーザが様々なコマンドを選択し、制御信号を入力することを可能にする。カーソル制御デバイスは、制御信号をシステムに入力するためにいくつかの信号生成デバイスを含む。典型的には、カーソル制御デバイスはマウスであってもよく、マウスのボタンは、信号を生成するために使用される。代替として、またはそれに加えて、クライアントコンピュータシステムは、感応式パッドおよび/または感応式スクリーンを含んでもよい。
コンピュータプログラムは、コンピュータによって実行可能な命令を含んでもよく、これらの命令は、上記のシステムに本方法を実行させるための手段を含む。プログラムは、システムのメモリを含めて、任意のデータ記憶媒体に記憶可能であってよい。プログラムは、たとえば、デジタル電子回路内で、またはコンピュータハードウェア、ファームウェア、ソフトウェア内で、またはそれらの組合せで実施されてもよい。プログラムは、装置、たとえばプログラム可能なプロセッサによって実行可能であるように機械可読記憶デバイス内で有形に実施される製品として実施されてもよい。方法ステップは、命令のプログラムを実行し、入力データに作用し出力を生成することによって本方法の機能を実行するプログラム可能なプロセッサによって実行されてもよい。したがって、プロセッサはプログラム可能であり、データ記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信し、それらにデータおよび命令を送信するように結合されてもよい。アプリケーションプログラムは、上位手続き型もしくはオブジェクト指向プログラミング言語で、または望むならアセンブリもしくは機械言語で実施されてもよい。いずれの場合も、言語は、コンパイル型またはインタープリタ型言語であってよい。プログラムは、完全インストールプログラムであっても更新プログラムであってもよい。システム上でプログラムを適用することは、いずれの場合も、本方法を実行するための命令をもたらす。
機械学習アルゴリズムによって予測されるシステムの挙動の潜在的な発散を評価することにより、システムの適正な使用を確保するプロセスの少なくとも一部であるアクション、またはシステムとのインタラクションが指定される。したがって、本方法は、システムの予測される挙動に応答しての通常のアクション、およびシステムの実際の挙動とその予測された挙動との間で潜在的な発散が検出された場合のフォールバックアクションをプログラミングすることを含み得る。潜在的な発散は、経験的データ(タグ付きデータ)が新しい状況を適切に表すことができない場合検出されることになる。したがって、フォールバックは、経験的データに依拠しない理論的考察またはエキスパートルールに基づく判断システムに基づいてもよい。
次に図3を参照して、本発明の一例について論じる。
ステップS10では、観測値の第1のセットをトレーニングすることによって、トレーニングされたモデルが得られる。観測値のセットは、図1を参照して論じたものであり、観測値のセットの各観測値は、目標値に関連付けられる。したがって、モデルは、標的変数の対応する値に関連付けられた(タグ付けされた)観測値を使用してトレーニングされる意味で、タグ付きデータに対してトレーニングされる。これらの観測値は、いわゆるトレーニングセットを形成する。モデルのトレーニングは、機械学習の分野で知られているように実行される。トレーニングされたモデルは、典型的には、ストレージに、たとえば実行のためにはランダムアクセスメモリに、永続性のためにはファイルシステムに記憶される。観測値の第1のセットは、観測値の各変数に関連付けられた値が現実の世界から観測された(または測定された)値であることに関係して自然サンプルと称することができる。たとえば、所与の時点で測定される回転機械の回転速度は、変数「回転速度」の自然値である。
次に、ステップS20で、確率変数生成アルゴリズムを使用して、観測値の第2のセットが生成される。観測値のこの第2のセットは、第1のものと同じ構造を有する。すなわち、第2のセットの各観測値が同じ変数を有し、変数に関連付けられた値だけが異なり得る。観測値の第2のセットは、合成サンプルとも称され、ここで合成という用語は、自然サンプルという用語と対比され、変数の値は、観測されておらず、計算されている。
合成観測値の生成は、以下のように実施されてよい。観測値は、観測値のセットの観測値を特徴付ける変数に関連するいくつかの値によって説明される。トレーニングされたモデルは、これらの値が入力で与えられたとき、セットの対応する観測値に関連付けられる目標値を生成する。たとえば、回転機械の故障の確率を予測するためには、モデルは、入力で、回転機械の回転速度、機械加工される部品の材料、切削冷媒、切削流体、切削の深さ、切削速度、インサート形状、インサートサイズなどをとり得る。いくつかのモデルは、数値(行列)計算によって機能し、数値入力を期待する。その結果、トレーニング用にも予測用にも、これらの入力データのいずれかを、モデルに入力される前に、数値に変換することができる。たとえば、変数「切削冷媒」は、水、鉱油、空気...であってよい。切削冷媒は、水について0、鉱油について1、空気について2で変換させることができる。あるいは、変数「切削冷媒」は、「切削冷媒が水を含む」「切削冷媒がミネラルを含む」「切削冷媒が空気を含む」など、いくつかのバイナリ変数に変換させることができる。これらの変数のそれぞれは、真について1、偽について0として表すことができるバイナリ値をとる。
いくつかの変数は、無限のセットで定義されてもよい。しかし、物理的な観測値は、現実的な値の区間に制限され得る。たとえば、実際には、回転機械の回転速度は、区間[10,2000]の毎分回転数(rpm)に制限される可能性があり、2000rpmを超える回転は、理論的には受け入れられるが、実際には使用されない。したがって、観測値の第1のセットの変数(記述変数)は、連続的なセグメントに対して、または離散集合に対して定義されてよく、これは変数に依存する。したがって、ステップS10でのトレーニングされるモデルは、連続的なセグメントに対して、または離散集合に対して定義された変数と共に、観測値の第1のセットでトレーニングすることができる。連続的なセグメントに対して、または離散集合に対して定義された観測値のこの第1のセットは、第2のセットを生成するために使用されることになる。
いま、記述変数が連続的なセグメントに対して、または離散集合に対して定義されたので、理論的な確率分布を各変数に対して関連付けることが可能である。したがって、確率分布の選出は、変数に依存する。たとえば、回転機械の回転速度に関連付けられる理論的な確率は、最小回転速度および最大回転速度以外の情報が知られていない場合、セグメント[10rpm,2000rpm]に対する一様分布に基づくことができる。一様確率分布は、セグメントまたはセットのすべての値の確率が等しいことを指定する。メトリックが非一様分布、たとえば正規分布、ポアソン分布、パレート分布などを生成するプロセスの結果であることを知っているとき、非一様分布が使用されることがある。あるいは、第1の変数が他の変数の関数であることが知られている場合、第1の変数の値は、他の変数のための値を生成し、第1の変数の対応する値を毎回計算することによって生成することができる。
以後、変数の可能な値のセグメントまたはセットにわたって、また各変数に以前に関連付けられた、関連の確率分布に従って、ランダムサンプルを生成することが可能である。これは、既知の技法を使用することによって実行される。実際には、それらは、一般にモンテカルロ法で使用される確率変数ジェネレータにある。したがって、確率変数ジェネレータは、観測値の各変数について理論的に可能な値を返す。
説明のために、確率変数ジェネレータは、ランダム変数の特定の結果を、それらの定義範囲でそれらの確率分布に従って生成するプログラムである。
各変数のランダムサンプルが計算された後で、ランダム観測値が生成される。この目的のために、各変数について生成された値が組み合わされ、したがって、ランダムに生成される観測値の第2のセットは、これらのランダム値の可能な組合せすべてをカバーする。
観測値の合成セット(第2のセット)を生成するこのステップでは、ランダムサンプルのすべての組合せが計算された。観測値の第2のセットのサイズを削減するために、現実的でない(すなわち、実際に観測されないであろう)観測値が抑圧される。これは、観測値のセットの変数間に依存性があるかどうか決定することによって実行され得る。これらの依存性は、アプリオリに知られていることを理解されたい。これらの依存性を使用し、それらの依存性を満たさないランダムサンプルの組合せの計算することを防止することができ、またはそれらを、それらの依存性を満たさないランダムサンプルの組合せを除去するために使用することができる。たとえば、今年公開されたインサート形状は、公開日より古い観測値において部品の機械加工のために使用することはできなかった。
このステップで、観測値の第2のセットがランダムに生成された。しかし、この第2のセットは、目標値に関連付けられておらず、使用可能なタグ付きデータ(第1のセット)は、合成データが含まない目標値を含む。第2のセットの標的データを計算するために、ステップS20で、トレーニングされたモデルが、ランダムに生成された第2のセットに対して適用される。各合成観測値がトレーニングされたモデルに入力され、目標値がモデルの出力に設定される。目標値が得られ、第2のセットの各観測値に関連付けられる。トレーニングされたモデルを第2のセットに対して適用することは、当技術分野で知られているように実行される。第2のセットおよびその目標値は、第1のセットとして、すなわち、図1を参照して論じられている行列を使用することによって記憶することができることが好ましい。
本方法のこのステップでは、観測値の2つのセットが使用可能である。これらの2つのセットは、図2に示されているように、行列10、16内で(または単一の行列内でも)マージされてもよい。図2では、実線で表されている観測値が第1のセットの観測値(および変数)であり、一方、点線で表されている観測値が第2のセットの観測値(および変数)である。興味深いことに、行列10、16は、各観測値について、観測値が自然のものであるか生成されたか否かの情報を含む補足行列20に関連付けることができる。したがって、各観測値は、自然なもの、または生成されたものとして、たとえば自然なものについて値0、生成されたものについて値1としてマークされる。
次に、ステップS30で、観測値の2つのセットおよびそれらの関連の目標値から、インデックスが構築される。インデックスについては、上記で論じられている。インデックスという用語は、ここではプロセスの数、記憶デバイス、サーバ、またはアドレスに関して制約なしで使用される。具体的な場合は、別個のプロセスが、異なるサーバに位置するデータにアクセスするように働くインデックスである。一実施では、1つのプロセスが自然観測値の要求に応答してもよく、別のプロセスが、生成された観測値の要求に応答してもよく、観測値のこれらの2つのセットが、異なるロケーションに記憶されてもよく、2つのプロセスが、異なるアドレス(URL)を使用してアクセス可能であってもよい。これは、自然観測値の入来する流れを最もよくサポートするハードウェアサーバが、生成された観測値の入来する流れを最もよくサポートするハードウェアサーバと同じでないことがあるとき有利となり得る。また、これは、記憶された生成された観測値を変えるために自然観測値を収集する、またはその逆であるプロセスを保護するために有利となり得る。
インデックスの一例として、1つではなく2つのインデックス、すなわち、情報の各セットのためのインデックスが構築され得る。すなわち、このインデックスは、観測値の第1のセットのための第1のインデックスと、観測値の第2のセットのための第2のインデックスとを含む。この例では、2つのセットの行列はマージされないことが好ましい。また、補足行列20は必要でない。なぜなら、観測値が第1のセットまたは第2のセットに属するという制約がクエリのURLの選出によって指定されるからである。
次いで、ステップS40で、第1のクエリがインデックスによって受け取られる。クエリは、データを説明する1またはいくつかの変数で表して指定される。クエリは、ユーザによって記述されてもよい。クエリは、回答を要求するシステムによって自動的に記述されてもよい。たとえば、回転機械の動作を指令するシステムは、新しい回転速度での穿孔の結果に対して要求してもよい。たとえば、クエリは、「もしアルミニウム部品を、水をクーラとして、切削の深さ0.5mm、タイプBのインサート形状の場合、穿孔したらどうなる」であり得る。コマンドシステムによって要求される回答は、穿孔の結果の予想される品質の尺度、たとえば結果の滑らかさの尺度である。したがって、異なる回転速度に対応する複数のそのようなクエリを発行することにより、コマンドシステムは、最良の結果をもたらす回転速度を選択することができる。したがって、クエリは、インデックス付けされたドキュメントに対する制約の和である。たとえば、上記のクエリは、(それだけには限らないが)以下の形態、すなわち、「128.0.0.1:10000/q?cooler:water AND cut_depth:0.5 AND insert_shape:B」をとることが可能である。ホスト128.0.0.1上のポート10000をリッスンするプロセスが、クエリストリング「cooler:water AND cut_depth:0.5 AND insert_shape:B」でクエリされることになり、変数「cooler」に対応する逆リスト内の値「water」に関連し、かつ変数「cut_depth」に対応する逆リスト内の値「0.5」に関連し、かつ変数「insert_shape」に対応する逆リスト内の値「B」に関連するドキュメントすべてを取り出すことによって応答することになる。
このクエリの結果として、ステップS40の第1のクエリから、2つのクエリが生成される。生成は、第1のクエリが2つのクエリ、すなわち第2のクエリおよび第3のクエリに変形されることを意味する。これらは、同時に生成されても、順に生成されてもよく、第2のものが第3のものより前に生成されても、第3の要求が第2のものより前に生成されてもかまわない。
第2のクエリは、サーバによって生成され(S50)、ステップS40の第1のクエリと、第1のセットの1つまたは複数の観測値だけを返すことになる追加の制約とを含む。
第3のクエリは、サーバによって生成され(S52)、ステップS40の第1のクエリと、第2のセットの1つまたは複数の観測値だけを返すことになる追加の制約とを含む。
第2のクエリおよび第3のクエリの生成の結果として、第2および第3の生成されたクエリを共に使用して、インデックスがクエリされる。
したがって、クエリされたインデックスは、2つの結果を返す(ステップS60)。第1の結果は、第2のクエリによって提供され、クエリに一致する第1のセットの使用可能な観測値を含む。したがって、第2のクエリに対する応答は、第1のセットの使用可能なタグ付きデータを提供し、これは、タグ付きデータの密度を表すことを可能にする。第2の結果は、第3のクエリによって提供され、クエリに一致する第2のセットの使用可能な観測値を含む。したがって、合成データに対するこのクエリは、任意の可能な観測値を表すサンプルを表すことを可能にする。
これらの2つの結果から、2つの結果間で比較を実行することができる。この比較は、N個の観測値の各隣接値について実行されてもよい。この隣接値内で、第1のセットの観測値の数を計数し、第1のセットの観測値の数が高いほど、モデルはより良好である。それに対して、第1のセットの観測値の数が低いほど、モデルは悪化する。Kが隣接値内の第1のセットの観測値の数、N−Kが第2のセットの観測値の数である場合、K/Nは、隣接値内の自然観測値の密度である。所与の新しい観測値周りでのサイズNの隣接値内の自然観測値の密度のパーセンタイル値(サイズNの他の隣接値内の自然観測値の密度に比べて)は、その新しい観測値のためのモデルの相対的な潜在的発散を説明する新しいメトリックである。これは、モデルによって提供される予測における相対的な信頼の尺度として働くことができる。モデルに依拠すること、または依拠しないことを選ぶパーセンタイル値は、とりわけ、発散のコスト、および代替のフォールバック判断システムの期待される質に依存する。
ステップS10、S20、S30、S50、S52、S60、およびS70は、観測値の第1のセットを記憶するサーバによって実施されることが好ましい。ステップS40は、典型的には、サーバに接続されるクライアント上で実行される。サーバとクライアントは共に、図4を参照して表されているシステムとすることができる。他の実施が企図され得ることを理解されたい。たとえば、ステップS50およびステップS52は、サーバ側ではなくクライアント側で実行されてもよい。別の代替形態では、比較がクライアント上で実行されてもよい。

Claims (15)

  1. 機械学習システムによって予測される結果の潜在的な発散を評価するためのコンピュータ実施方法であって、
    観測値の第1のセットに対してモデルをトレーニングするステップ(S10)であって、各観測値は、目標値に関連付けられる、ステップと、
    観測値の第2のセットを生成するステップと、
    前記トレーニングされたモデルを前記第2のセットに適用し(S20)、それにより前記第2のセットの各観測値に関連付けられた目標値を得るステップと、
    観測値の前記第1および第2のセットならびにそれらの関連の目標値をインデックスへインデックス付けするステップ(S30)と、
    観測値の前記第1および第2のセットのサブセットの選択を可能にする第1のクエリを受け取るステップ(S40)と、
    前記第1のクエリと、前記第1のセットの観測値だけを返すことになる追加の制約とを含む第2のクエリを生成するステップ(S50)と、
    前記第1のクエリと、前記第2のセットの観測値だけを返すことになる追加の制約とを含む第3のクエリを生成するステップ(S52)と、
    前記第2および第3のクエリを使用して前記インデックスをクエリするステップと、
    前記第2および第3のクエリに対する応答を返すステップ(S60)と
    を含むことを特徴とする方法。
  2. 観測値の前記第1のセットの各観測値は、1つまたは複数の変数に関連付けられ、各変数は、値に関連付けられることを特徴とする請求項1に記載のコンピュータ実施方法。
  3. 観測値の第1のセットに対してモデルをトレーニングする前記ステップの前に、
    前記第1のセットの前記1つまたは複数の変数を連続的なセグメントに対して、または離散集合に対して定義するステップをさらに含むことを特徴とする請求項2に記載のコンピュータ実施方法。
  4. 観測値の前記第2のセットのランダムな生成は、
    前記第1のセットの各変数に対して、確率分布を関連付けることを含むことを特徴とする請求項3に記載のコンピュータ実施方法。
  5. 前記確率分布は、前記第1のセットの前記各変数に従って決定されることを特徴とする請求項4に記載のコンピュータ実施方法。
  6. 確率分布関数は、一様確率分布であることを特徴とする請求項3乃至5のいずれか一項に記載のコンピュータ実施方法。
  7. 少なくとも1つの確率変数ジェネレータを使用することによって、前記連続的なセグメントにわたって、または離散集合に対して値を生成するステップと、
    前記少なくとも1つの確率変数ジェネレータから得られた前記値の組合せを計算するステップと
    をさらに含むことを特徴とする請求項3乃至6のいずれか一項に記載のコンピュータ実施方法。
  8. 前記変数間の依存性を決定するステップと、
    前記決定された依存性を満たさない前記計算された組合せの中の組合せを除去するステップと
    をさらに含むことを特徴とする請求項7に記載のコンピュータ実施方法。
  9. 前記確率変数の組合せを計算することは、前記確率変数の前記組合せすべてを計算することを含むことを特徴とする請求項7または8に記載のコンピュータ実施方法。
  10. 観測値の前記第1のセットは、第1の行列に格納され、観測値の第2のセットは、第2の行列に格納されることを特徴とする請求項1乃至9のいずれか一項に記載のコンピュータ実施方法。
  11. 観測値の前記第2のセットは、ランダムに生成されたものとしてマークされることを特徴とする請求項1乃至10のいずれか一項に記載のコンピュータ実施方法。
  12. インデックス付けする前記ステップにて、観測値の前記インデックス付けされた第2のセットは、前記第2のセットの前記観測値がランダムに生成されたことを示すメタデータに関連付けられることを特徴とする請求項11に記載のコンピュータ実施方法。
  13. 返す前記ステップの前に、
    前記第2のクエリと前記第3のクエリの結果を比較するステップをさらに含むことを特徴とする請求項1乃至12のいずれか一項に記載のコンピュータ実施方法。
  14. 請求項1乃至13のいずれか一項に記載の方法を実行するための命令を含むことを特徴とするコンピュータプログラム。
  15. メモリに結合されたプロセッサを備えるシステムであって、前記メモリには、請求項14に記載のコンピュータプログラムが記録されていることを特徴とするシステム。
JP2016255137A 2015-12-31 2016-12-28 トレーニングセットの評価 Active JP6888953B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP15307193.1A EP3188038B1 (en) 2015-12-31 2015-12-31 Evaluation of a training set
EP15307193.1 2015-12-31

Publications (2)

Publication Number Publication Date
JP2017126329A true JP2017126329A (ja) 2017-07-20
JP6888953B2 JP6888953B2 (ja) 2021-06-18

Family

ID=55699281

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016255137A Active JP6888953B2 (ja) 2015-12-31 2016-12-28 トレーニングセットの評価

Country Status (4)

Country Link
US (1) US11176481B2 (ja)
EP (1) EP3188038B1 (ja)
JP (1) JP6888953B2 (ja)
CN (1) CN107016400B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019185377A (ja) * 2018-04-10 2019-10-24 株式会社ライナロジクス 情報処理装置及び情報処理プログラム
KR20200056340A (ko) * 2018-11-14 2020-05-22 가톨릭대학교 산학협력단 개선된 gbtd 알고리즘을 이용한 에너지 절도 검출 시스템 및 방법

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102075715B1 (ko) * 2018-05-29 2020-02-10 국방과학연구소 공격 주체 분류 장치 및 방법
US11562225B2 (en) 2018-11-26 2023-01-24 International Business Machines Corporation Automatic monitoring and adjustment of machine learning model training
JP7268402B2 (ja) * 2019-02-28 2023-05-08 富士通株式会社 抽出プログラム、抽出方法及び抽出装置
CN112418304B (zh) * 2020-11-19 2021-10-29 北京云从科技有限公司 Ocr模型训练方法、系统及装置
CN113553044B (zh) * 2021-07-20 2022-06-21 同济大学 结合pac学习理论和主动学习的时间自动机模型的生成方法
JP2023061477A (ja) * 2021-10-20 2023-05-02 富士通株式会社 プログラム、データ処理方法及びデータ処理装置
US20230196091A1 (en) * 2021-12-21 2023-06-22 Paypal, Inc. Feature deprecation architectures for neural networks
US11921692B1 (en) * 2022-09-16 2024-03-05 Capital One Services, Llc Computer-based systems configured for automatically updating a database based on an initiation of a dynamic machine-learning verification and methods of use thereof

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002006953A1 (fr) * 2000-07-06 2002-01-24 Yamatake Corporation Capteur logiciel et dispositif d'evaluation correspondant
US20120284213A1 (en) * 2011-05-04 2012-11-08 Google Inc. Predictive Analytical Modeling Data Selection

Family Cites Families (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US722127A (en) 1901-12-02 1903-03-03 Doctor Franklin Morgan Steam-heating plant.
US5742806A (en) * 1994-01-31 1998-04-21 Sun Microsystems, Inc. Apparatus and method for decomposing database queries for database management system including multiprocessor digital data processing system
JP3946562B2 (ja) 2002-04-08 2007-07-18 本田技研工業株式会社 行動制御装置及び方法
JP2004326200A (ja) 2003-04-21 2004-11-18 Mitsubishi Heavy Ind Ltd 自動機械、機械の自動運転システム、及び、機械の自動運転方法
US7197497B2 (en) * 2003-04-25 2007-03-27 Overture Services, Inc. Method and apparatus for machine learning a document relevance function
US7231375B2 (en) * 2003-10-10 2007-06-12 Microsoft Corporation Computer aided query to task mapping
US7664734B2 (en) * 2004-03-31 2010-02-16 Google Inc. Systems and methods for generating multiple implicit search queries
US7707220B2 (en) 2004-07-06 2010-04-27 Icosystem Corporation Methods and apparatus for interactive searching techniques
JP2006252333A (ja) 2005-03-11 2006-09-21 Nara Institute Of Science & Technology データ処理方法、データ処理装置およびそのプログラム
KR100544514B1 (ko) * 2005-06-27 2006-01-24 엔에이치엔(주) 검색 쿼리 연관성 판단 방법 및 시스템
JP2007041950A (ja) 2005-08-04 2007-02-15 Sharp Corp 生産シミュレーション管理装置
US7599893B2 (en) * 2005-10-13 2009-10-06 Aureon Laboratories, Inc. Methods and systems for feature selection in machine learning based on feature contribution and model fitness
US7818315B2 (en) * 2006-03-13 2010-10-19 Microsoft Corporation Re-ranking search results based on query log
US7262722B1 (en) * 2006-06-26 2007-08-28 Intel Corporation Hardware-based CABAC decoder with parallel binary arithmetic decoding
US7496568B2 (en) 2006-11-30 2009-02-24 International Business Machines Corporation Efficient multifaceted search in information retrieval systems
US20100030647A1 (en) 2008-07-31 2010-02-04 Yahoo! Inc. Advertisement selection for internet search and content pages
US8671093B2 (en) * 2008-11-18 2014-03-11 Yahoo! Inc. Click model for search rankings
US8341095B2 (en) * 2009-01-12 2012-12-25 Nec Laboratories America, Inc. Supervised semantic indexing and its extensions
CN101860449B (zh) * 2009-04-09 2014-02-19 华为技术有限公司 一种数据查询方法、装置及系统
US20100306235A1 (en) * 2009-05-28 2010-12-02 Yahoo! Inc. Real-Time Detection of Emerging Web Search Queries
US8234295B2 (en) * 2009-06-03 2012-07-31 International Business Machines Corporation Managing uncertain data using Monte Carlo techniques
US9684741B2 (en) * 2009-06-05 2017-06-20 Microsoft Technology Licensing, Llc Presenting search results according to query domains
KR20150040384A (ko) * 2009-06-10 2015-04-14 아브 이니티오 테크놀로지 엘엘시 테스트 데이터의 생성
CN101840430B (zh) * 2010-04-28 2012-02-29 北京握奇数据系统有限公司 智能卡数据库多表操作方法及装置
US20110295897A1 (en) * 2010-06-01 2011-12-01 Microsoft Corporation Query correction probability based on query-correction pairs
KR20120010433A (ko) * 2010-07-26 2012-02-03 엘지전자 주식회사 영상표시기기의 동작 방법
US8498950B2 (en) * 2010-10-15 2013-07-30 Yahoo! Inc. System for training classifiers in multiple categories through active learning
US8738549B2 (en) * 2010-12-21 2014-05-27 International Business Machines Corporation Predictive modeling
DE102011076780B4 (de) * 2011-05-31 2021-12-09 Airbus Operations Gmbh Verfahren und Vorrichtung zur Zustandsüberwachung, Computerprogrammprodukt
US8762299B1 (en) 2011-06-27 2014-06-24 Google Inc. Customized predictive analytical model training
US8843427B1 (en) 2011-07-01 2014-09-23 Google Inc. Predictive modeling accuracy
FR2978585B1 (fr) * 2011-07-26 2013-08-16 Airbus Operations Sas Procede et dispositif d'estimation automatique d'un vecteur parametre de vol d'un aeronef, ainsi que methode et ensemble de detection d'une panne affectant un tel vecteur
US8768866B2 (en) 2011-10-21 2014-07-01 Sas Institute Inc. Computer-implemented systems and methods for forecasting and estimation using grid regression
US8538946B1 (en) * 2011-10-28 2013-09-17 Google Inc. Creating model or list to identify queries
US9147129B2 (en) * 2011-11-18 2015-09-29 Honeywell International Inc. Score fusion and training data recycling for video classification
US9298693B2 (en) * 2011-12-16 2016-03-29 Microsoft Technology Licensing, Llc Rule-based generation of candidate string transformations
JP2013143009A (ja) 2012-01-11 2013-07-22 Hitachi Ltd 設備状態監視方法およびその装置
US8983991B2 (en) * 2012-07-27 2015-03-17 Facebook, Inc. Generating logical expressions for search queries
US8756241B1 (en) * 2012-08-06 2014-06-17 Google Inc. Determining rewrite similarity scores
US20140046879A1 (en) 2012-08-13 2014-02-13 Predixion Software, Inc. Machine learning semantic model
US9524473B2 (en) 2012-08-31 2016-12-20 Nutonian, Inc. System and method for auto-query generation
EP3865056A1 (en) 2012-09-14 2021-08-18 InteraXon Inc. Systems and methods for collecting, analyzing, and sharing bio-signal and non-bio-signal data
JP5983333B2 (ja) * 2012-11-13 2016-08-31 富士通株式会社 検索処理方法、データ生成方法及び情報処理装置
US10013477B2 (en) * 2012-11-19 2018-07-03 The Penn State Research Foundation Accelerated discrete distribution clustering under wasserstein distance
US20140188768A1 (en) 2012-12-28 2014-07-03 General Electric Company System and Method For Creating Customized Model Ensembles On Demand
EP2750056A1 (en) * 2012-12-31 2014-07-02 Facebook, Inc. Structuring ambiguous structured search queries on online social networks
US9135567B2 (en) * 2013-01-18 2015-09-15 International Business Machines Corporation Transductive lasso for high-dimensional data regression problems
US20140358828A1 (en) * 2013-05-29 2014-12-04 Purepredictive, Inc. Machine learning generated action plan
US9082084B2 (en) * 2013-06-28 2015-07-14 Linkedin Corporation Facilitating machine learning in an online social network
US20150032609A1 (en) * 2013-07-29 2015-01-29 International Business Machines Corporation Correlation of data sets using determined data types
CN104516910B (zh) 2013-09-26 2018-01-12 Sap欧洲公司 在客户端服务器环境中推荐内容
WO2015053774A1 (en) * 2013-10-10 2015-04-16 Ge Intelligent Platforms, Inc. Correlation and annotation of time series data sequences to extracted or existing discrete data
JP6109037B2 (ja) 2013-10-23 2017-04-05 本田技研工業株式会社 時系列データ予測装置、時系列データ予測方法、及びプログラム
CN104636389B (zh) * 2013-11-14 2018-03-27 博雅网络游戏开发(深圳)有限公司 实现Hbase数据库实时查询的方法和系统
CN104679771B (zh) 2013-11-29 2018-09-18 阿里巴巴集团控股有限公司 一种个性化数据搜索方法和装置
WO2015084968A1 (en) * 2013-12-03 2015-06-11 University Of Massachusetts System and methods for predicting probable relationships between items
CN104765731B (zh) * 2014-01-02 2018-05-18 国际商业机器公司 数据库查询优化方法和设备
US20150242760A1 (en) 2014-02-21 2015-08-27 Microsoft Corporation Personalized Machine Learning System
CN105095614A (zh) * 2014-04-18 2015-11-25 国际商业机器公司 更新预测模型的方法和装置
US10255319B2 (en) 2014-05-02 2019-04-09 Google Llc Searchable index
GB2541625A (en) * 2014-05-23 2017-02-22 Datarobot Systems and techniques for predictive data analytics
US10963810B2 (en) * 2014-06-30 2021-03-30 Amazon Technologies, Inc. Efficient duplicate detection for machine learning data sets
CN104239212B (zh) * 2014-09-28 2017-04-12 北京国双科技有限公司 测试用例的查询方法及装置、测试用例的建立方法及装置
US9630318B2 (en) * 2014-10-02 2017-04-25 Brain Corporation Feature detection apparatus and methods for training of robotic navigation
US9818242B2 (en) * 2014-12-16 2017-11-14 University Of Southern California Gas turbine engine anomaly detections and fault identifications
US10176253B2 (en) * 2015-01-28 2019-01-08 International Business Machines Corporation Fusion of cluster labeling algorithms by analyzing sub-clusters
FR3032273B1 (fr) * 2015-01-30 2019-06-21 Safran Aircraft Engines Procede, systeme et programme d'ordinateur pour phase d'apprentissage d'une analyse acoustique ou vibratoire d'une machine
US9135559B1 (en) * 2015-03-20 2015-09-15 TappingStone Inc. Methods and systems for predictive engine evaluation, tuning, and replay of engine performance
US11347191B2 (en) * 2015-07-29 2022-05-31 Illinois Tool Works Inc. System and method to facilitate welding software as a service
US9865101B2 (en) * 2015-10-30 2018-01-09 Wipro Limited Methods for detecting one or more aircraft anomalies and devices thereof
US20170124152A1 (en) * 2015-11-02 2017-05-04 LeapYear Technologies, Inc. Differentially private processing and database storage
US10839302B2 (en) * 2015-11-24 2020-11-17 The Research Foundation For The State University Of New York Approximate value iteration with complex returns by bounding
US20170185913A1 (en) * 2015-12-29 2017-06-29 International Business Machines Corporation System and method for comparing training data with test data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002006953A1 (fr) * 2000-07-06 2002-01-24 Yamatake Corporation Capteur logiciel et dispositif d'evaluation correspondant
US20120284213A1 (en) * 2011-05-04 2012-11-08 Google Inc. Predictive Analytical Modeling Data Selection

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019185377A (ja) * 2018-04-10 2019-10-24 株式会社ライナロジクス 情報処理装置及び情報処理プログラム
JP7378112B2 (ja) 2018-04-10 2023-11-13 株式会社ライナロジクス 情報処理装置及び情報処理プログラム
KR20200056340A (ko) * 2018-11-14 2020-05-22 가톨릭대학교 산학협력단 개선된 gbtd 알고리즘을 이용한 에너지 절도 검출 시스템 및 방법
KR102357475B1 (ko) * 2018-11-14 2022-02-04 가톨릭대학교 산학협력단 개선된 gbtd 알고리즘을 이용한 에너지 절도 검출 시스템 및 방법

Also Published As

Publication number Publication date
JP6888953B2 (ja) 2021-06-18
CN107016400B (zh) 2023-01-24
EP3188038A1 (en) 2017-07-05
CN107016400A (zh) 2017-08-04
US20170193052A1 (en) 2017-07-06
EP3188038B1 (en) 2020-11-04
US11176481B2 (en) 2021-11-16

Similar Documents

Publication Publication Date Title
JP6888953B2 (ja) トレーニングセットの評価
US9026550B2 (en) Temporal pattern matching in large collections of log messages
JP6940278B2 (ja) 予め計算されたモデルの結果の検索
US7480667B2 (en) System and method for using anchor text as training data for classifier-based search systems
US8560531B2 (en) Search tool that utilizes scientific metadata matched against user-entered parameters
JP6299596B2 (ja) クエリ類似度評価システム、評価方法、及びプログラム
US20090327266A1 (en) Index Optimization for Ranking Using a Linear Model
JP2013109725A5 (ja)
US9129020B2 (en) Search results through interest circles
KR101955244B1 (ko) 논문 평가 방법 및 전문가 추천 방법
CN116257663A (zh) 面向无人地面车辆的异常检测与关联分析方法及相关设备
JP2006164256A5 (ja)
JP6360016B2 (ja) 診断装置、診断システム、機器、及び、診断方法
Wan et al. Uncertainty Quantification and Optimal Robust Design for Machining Operations
US8433428B2 (en) Systems and methods for managing machine tools
JP7495777B2 (ja) 物理的システムに影響を与えるイベントの予測
WO2019103773A1 (en) Automatically identifying alternative functional capabilities of designed artifacts
Kenett et al. Experimental Learning: Generate high information quality by comparing alternative experimental designs.
CN109284328B (zh) 一种关系型数据的处理方法、装置、服务器及介质
KR101722643B1 (ko) Rdd 관리 방법, rdd 관리 장치 및 rdd 관리 프로그램을 저장하는 저장매체
JP2008299413A (ja) パラメータ決定支援装置
JP2015045995A (ja) 仮想データベースシステム管理装置、管理方法及び管理プログラム
US20220406098A1 (en) Smart system for rapid and accurate aircraft maintenance decision making
JP7200577B2 (ja) 情報処理装置、情報処理システム、情報処理方法、及びプログラム。
Kim et al. Measuring the effectiveness of selective search index partitions without supervision

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210331

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210420

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210520

R150 Certificate of patent or registration of utility model

Ref document number: 6888953

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250