JP2022518646A

JP2022518646A - 機械学習モデルのための動的なデータ選択

Info

Publication number: JP2022518646A
Application number: JP2021517369A
Authority: JP
Inventors: ケール，サムシュワー・マロチ; デサイ，ウトカルシュ・ミリンド; クリシュナムールティ，ビジャヤラクシュミ
Original assignee: オラクル・インターナショナル・コーポレイション
Priority date: 2019-01-30
Filing date: 2019-07-05
Publication date: 2022-03-16
Anticipated expiration: 2039-07-05
Also published as: EP3918541A1; CN112789633A; WO2020159568A1; JP7308262B2; US20200242511A1

Abstract

実施の形態は、動的なデータ選択を用いる機械学習予測モデルを実装する。訓練済みの機械学習モデルが生成する複数のデータ予測にアクセスすることができる。ここで、データ予測は、対応する観測データを含む。アクセスしたデータ予測の数および対応する観測データに基づいて機械学習モデルの正解率を算出することができる。アクセスすることおよび算出することは、可変数のデータ予測を用いて繰り返され得る。可変数のデータ予測は、前回のイテレーション中に実行された操作に基づいて調整され、算出した正解率が所与のイテレーション中に正解率基準を満たさない場合、機械学習モデルに対する訓練がトリガされ得る。

Description

関連出願の相互参照
本願は、２０１９年１月３０日に出願されたインド特許出願第２０１９４１００３８０３号の優先権の利益を主張する２０１９年７月１日に出願された米国特許出願第１６／４５８，９２４号の優先権の利益を主張するものであり、それらすべての開示内容を引用により本明細書に援用する。

分野
本開示の実施の形態は、全体的に、機械学習モデルのための動的なデータ選択に関する。

背景
教師あり学習ベースのデータ予測から顔認識まで、人工知能（「ＡＩ（Artificial Intelligence）」）の実装によって、明確な利益がもたらされた。しかしながら、異なるシステム間でしばしば異なる実装固有の問題など、ＡＩを取り巻く課題は残ったままである。ＡＩモデルの訓練には多くのリソースが必要とされ、時に混乱が生じる。これに加えて、ＡＩモデルの再訓練は、モデル正解率およびシステム効率の両方に影響を与え得る。したがって、リソース使用と人工知能モデルの性能との均衡を取ることができるツールによって、このツールのユーザに明確な利益をもたらすことができるようになる。

概要
本開示の実施の形態は、全体的に、関連技術を大幅に改善する機械学習モデルのための動的なデータ選択のためのシステムおよび方法を対象とする。

訓練済みの機械学習モデルが生成する複数のデータ予測にアクセスすることができる。ここで、データ予測は、対応する観測データを含む。アクセスしたデータ予測の数および対応する観測データに基づいて機械学習モデルの正解率を算出することができる。アクセスすることおよび算出することは、可変数のデータ予測を用いて繰り返され得る。可変数のデータ予測は、前回のイテレーション（繰り返し）中に実行された操作に基づいて調整され、算出した正解率が所与のイテレーション中に正解率基準を満たさない場合、機械学習モデルに対する訓練がトリガされ得る。

実施の形態の特徴および利点を以下の説明に記載する。または、当該特徴および利点は、当該説明から明らかになるであろう。あるいは、当該特徴および利点は本開示を実施することによって分かるであろう。

さらに別の実施の形態、詳細、利点、および変形例は、添付の図面と共に、以下の好ましい実施の形態についての詳細な説明から明らかになるであろう。

例示的な実施の形態に係る、機械学習モデルのための動的なデータ選択のためのシステムを示す図である。例示的な実施の形態に係る、システムに操作可能に連結されるコンピューティングデバイスのブロック図である。例示的な実施の形態に係る、機械学習モデルの訓練をトリガするための動的なデータ選択についてのフローチャートである。例示的な実施の形態に係る、機械学習モデルの訓練をトリガするための動的なデータ選択についてのフローチャートである。例示的な実施の形態に係る、機械学習モデルの訓練をトリガするための動的なデータ選択についてのフローチャートである。例示的な実施の形態に係る、機械学習モデルのための動的なデータ選択についてのフローチャートである。例示的な実施の形態に係る、総合サプライヤー、在庫、および本明細書に開示するプランニング作業および供給作業が改善された物流システムを示す図である。

詳細な説明
実施の形態は、機械学習モデルのための動的なデータ選択を行う。いくつかの実施の形態では、訓練データを利用して機械学習モデルを（たとえば、教師あり学習を介して）訓練することができる。その後、訓練済みモデルを利用して、入力データに基づいたデータ予測を生成することができる。時には、たとえば、モデルを再訓練するまたは訓練を更新することによって、訓練済みの機械学習モデルを更新することができる。

いくつかの実施の形態では、正解率メトリクスを用いて、再訓練または更新済みの訓練をトリガすることができる。たとえば、訓練済みの機械学習モデルの実装には、今後しばらくしてから観測されるデータ点のデータ予測を生成するものもある。このように、過去のデータ予測は、対応する観測データ点を含み得る。これらの２つの値に基づいた正解率メトリクスを用いて再訓練または更新済みの訓練をトリガすることができる。たとえば、正解率メトリクスを正解率基準と比較することができ、この比較に基づいて訓練をトリガすることができる。

いくつかの実施の形態では、過去のデータ予測の数および対応する観測データ点ペアの数は、正解率メトリクスに影響し得る。たとえば、観測データが利用可能になると、これらのデータ点ペアのセットを生成することができるようになる。正解率判断は、選択されるこれらのデータ点ペアの数によって異なり得る。データ点ペアが多数あることによって、これらのデータ点の任意の特定のサブセットの重要性が希薄になり得る。たとえば、１ヶ月分のデータ点ペアを用いて正解率を判断した場合、先週のデータ点ペアは、その月の別の日により、希薄になってしまう。別の例では、２週間分のデータ点ペアを用いて正解率を判断した場合、先週のデータ点ペアは、正解率メトリクスにとってかなり重要である。

いくつかの実装では、データ点ペアからなる第１の数がデータ点ペアからなる第２の数よりも小さい場合、第１の数に基づく正解率メトリクスは、第２の数に基づく正解率メトリクスよりも再訓練または更新済みの訓練をトリガする可能性が高い。すなわち、いくつかの実装では、少ない数のデータ点ペアのほうが、正解率基準を満たさない正解率メトリクスを生成する可能性が高いので、再訓練または更新済みの訓練をトリガする可能性が高い。

機械学習モデルの訓練では多くのリソースを必要とし得るので、選択的に再訓練するまたは機械学習モデルの訓練を更新することによって正解率とリソース効率および実用性との均衡を取ることができる。実施の形態は、可変数のデータ点ペアを用いて正解率メトリクスを繰り返し算出し、正解率メトリクスが正解率基準を満たさない場合に再訓練または更新済みの訓練を所与のイテレーション（繰り返し）においてトリガし得る。

たとえば、所与のイテレーションにおいて、データ点ペアの数は、（たとえば、前回のイテレーションで用いられた）以前のデータ点ペア数、係数値（たとえば、複数のイテレーションにわたって調整される動的な値）、および前回の再訓練または更新済みの訓練のステータス（たとえば、モデルが再訓練されたか以前のイテレーションで更新済みの訓練が行われたか）に基づき得る。したがって、正解率を査定するために用いられるデータ点ペアの数は、複数のイテレーションにわたって変化する。したがって、再訓練または更新済みの訓練をトリガする可能性も変化する。予測正解率とリソース使用およびシステム停止との均衡を取ることにより、この設定された可能性によって実装が全体的に改善される。

たとえば、いくつかの従来の実装では、正解率を算出するために用いられる固定数のデータ点ペアのオプションが与えられる。しかしながら、これらの例では、算出した正解率は、暗黙的フィードバック評価サイクルまたはイテレーションを通して汎用的である。実施の形態において説明するように、点の動的選択によって柔軟かつ選択的な正解率算出が可能になり、これによって機械学習の実装を向上させることができる。正解率算出に対するこれらの改良によって訓練における決定を向上させることができ、より有効なリソース利用が可能になる。

ここで、本開示の実施の形態を詳細に説明する。実施の形態の例は、添付の図面に示している。以下の詳細な説明では、本開示の十分な理解のため、いくつかの具体的な詳細を説明する。しかしながら、これらの具体的な詳細がなくても本開示を実施することができることは、当業者であれば分かるであろう。その他の場合、周知の方法、プロシージャ、構成要素、論理積回路については、実施の形態の局面を不必要に曖昧にしないために、詳細を説明しない。可能な限り、同一の要素には同一の参照番号を付す。

図１は、例示的な実施の形態に係る、機械学習モデルのための動的なデータ選択のためのシステムを示す図である。システム１００は、機械学習モデル１０２と、訓練データ１０４と、入力データ１０６と、予測１０８、観測データ１１０とを含む。いくつかの実施の形態では、機械学習モデル１０２は、１つ以上の機械学習要素（たとえば、ニューラルネットワーク、サポートベクターマシン、ベイジアンネットワークなど）を備えた設計モデルであり得る。訓練データ１０４は、機械学習モデル１０２を訓練可能な任意のデータセットであり得る（たとえば、教師あり学習用のラベル付けされたデータなど、対応するラベルを有する特徴セット）。いくつかの実施の形態では、訓練データ１０４を用いて機械学習モデル１０２を訓練して、訓練済みの機械学習モデルを作成することができる。

いくつかの実施の形態では、入力データ１０６（たとえば、特徴からなる入力セット）を訓練済み機械学習モデルに入力して予測１０８を生成することができる。いくつかの実装では、予測１０８は、観測可能なデータ点を表し得る。したがって、ある時点において、予測１０８内の所与の予測は、当該所与の予測に対応する観測データ点を含み得る。すなわち、観測データ１１０内の所与の観測データ点は、予測１０８内の所与の予測が予測しようと試みたデータに対応し得る。

たとえば、訓練済みの機械学習モデルは、時間経過に伴う車両のガソリンのレベルを予測するように構成されてもよい。したがって、この訓練済みモデルによって生成された予測は、将来のある時点におけるガソリンレベルを含み得る。この予測に対応する将来のある時点において、車両の実際のガソリンレベルが観測（たとえば、取得して格納）され得る。ある時点における予測ガソリンレベルを、ある時点における観測ガソリンレベルと比較して、正解率を算出することができるようになる。

実施の形態では、予測１０８および観測データ１１０は、過去のデータ予測および対応する観測データ点を表すデータ点ペアを含み得る。実施の形態は、機械学習モデル１０２の正解率を算出する際に、これらのデータ点ペアの動的な選択を行う。たとえば、様々なイテレーションにおいて動的な数のこれらの点を取って機械学習モデル１０２の正解率を査定し、正解率が基準を満たさない場合、機械学習モデル１０２の再訓練または更新済みの訓練がトリガされ得る。たとえば、観測データ１１０を用いて、再訓練または更新済みの訓練の一部として訓練データ１０４を更新することができる。実施の形態では、機械学習モデル１０２の再訓練または更新済みの訓練が行われると、新たに訓練されたモデルの正解率が繰り返し査定され得る。

図２は、実施の形態に係る、コンピュータサーバ／システム２００のブロック図である。システム２００の全体または一部を用いて図１に示す要素のいずれかが実装されてもよい。図２に示すように、システム２００は、プロセッサ２２２およびメモリ２１４など、システム２００の様々な構成要素間で情報を伝達するように構成されたバスデバイス２１２および／またはその他の通信機構（複数可）を備えてもよい。これに加えて、プロセッサ２２２からその他のデバイスにネットワーク（図示せず）上で送信されるデータを符号化し、当該ネットワーク上でその他のシステムから受信したプロセッサ２２２宛てのデータを復号化することによって、通信装置２２０は、プロセッサ２２２とその他のデバイスとの間の接続性を可能にしてもよい。

たとえば、通信装置２２０は、ワイヤレスネットワーク通信を提供するように構成されたネットワークインターフェースカードを備えてもよい。赤外線、無線、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ－Ｆｉ、および／またはセルラー通信を含む様々なワイヤレス通信技術が用いられてもよい。あるいは、通信装置２２０は、Ｅｔｈｅｒｎｅｔ接続など、有線ネットワーク接続（複数可）を提供するように構成されてもよい。

プロセッサ２２２は、システム２００の計算機能および制御機能を実行するための１つ以上の汎用プロセッサまたは特定用途向けプロセッサを備えてもよい。プロセッサ２２２は、マイクロ処理装置など、１つの集積回路を備えてもよく、連携して動作してプロセッサ２２２の機能を実現する複数の集積回路デバイスおよび／または複数の配線基板を備えてもよい。これに加えて、プロセッサ２２２は、オペレーティングシステム２１５、予測モジュール２１６、およびその他のアプリケーション２１８など、メモリ２１４内に格納されたコンピュータプログラムを実行してもよい。

システム２００は、情報およびプロセッサ２２２によって実行される命令を格納するためのメモリ２１４を備えてもよい。メモリ２１４は、データを取得、提示、修正、および格納するための様々なコンポーネントを備えてもよい。たとえば、メモリ２１４は、プロセッサ２２２によって実行されると機能を提供するソフトウェアモジュールを格納してもよい。モジュールは、システム２００のオペレーティングシステム機能を提供するオペレーティングシステム２１５を含んでもよい。モジュールは、オペレーティングシステム２１５と、機械学習モデルのための動的なデータ選択および本明細書に開示されているすべてのその他の機能を実現する正解率モジュール２１６と、その他のアプリケーションモジュール２１８とを含んでもよい。オペレーティングシステム２１５は、システム２００のオペレーティングシステム機能を提供する。場合によっては、正解率モジュール２１６は、インメモリ構成として実装されてもよい。いくつかの実装では、システム２００が正解率モジュール２１６の機能を実行した場合、本明細書に開示の機能を実行する従来にない専門的なコンピュータシステムが実装される。

非一時的なメモリ２１４は、プロセッサ２２２がアクセスし得る様々なコンピュータ読み取り可能な媒体を含んでもよい。たとえば、メモリ２１４は、ランダムアクセスメモリ（「ＲＡＭ（random access memory）」）、ダイナミックＲＡＭ（「ＤＲＡＭ（dynamic RAM）」）、スタティックＲＡＭ（「ＳＲＡＭ（static RAM）」）、読み取り専用メモリ（「ＲＯＭ（read only memory）」）、フラッシュメモリ、キャッシュメモリ、および／またはその他の種類の非一時的なコンピュータ読み取り可能な媒体の任意の組合せを含んでもよい。プロセッサ２２２は、さらに、液晶ディスプレイ（「ＬＣＤ（Liquid Crystal Display）」）など、ディスプレイ２２４にバス２１２を介して連結される。キーボード２２６、およびコンピュータマウスなどのカーソル制御デバイス２２８が通信装置２１２にさらに連結されて、ユーザをシステム２００にインターフェース接続することを可能にする。

いくつかの実施の形態では、システム２００は、より大規模なシステムの一部であり得る。そのため、システム２００は、１つ以上の追加の機能モジュール２１８を備えて追加機能を含めることができる。その他のアプリケーションモジュール２１８は、Ｏｒａｃｌｅ（登録商標）ＣｌｏｕｄＩｎｆｒａｓｔｒｕｃｔｕｒｅ、Ｏｒａｃｌｅ（登録商標）ＣｌｏｕｄＰｌａｔｆｏｒｍ、Ｏｒａｃｌｅ（登録商標）ＣｌｏｕｄＡｐｐｌｉｃａｔｉｏｎｓなどの様々なモジュールを含んでもよい。正解率モジュール２１６、その他のアプリケーションモジュール２１８、およびその他の適したシステム２００の構成要素は、Ｏｒａｃｌｅ（登録商標）ＩｏＴＡｎａｌｙｔｉｃｓ、Ｏｒａｃｌｅ（登録商標）ＤａｔａＳｃｉｅｎｃｅＣｌｏｕｄ、Ｏｒａｃｌｅ（登録商標）ＣｕｓｔｏｍｅｒＥｘｐｅｒｉｅｎｃｅＣｌｏｕｄ、Ｏｒａｃｌｅ（登録商標）ＥｎｔｅｒｐｒｉｓｅＲｅｓｏｕｒｃｅＰｌａｎｎｉｎｇＣｌｏｕｄ、Ｏｒａｃｌｅ（登録商標）ＭａｎｕｆａｃｔｕｒｉｎｇＣｌｏｕｄ、その他の適応型インテリジェンスＯｒａｃｌｅ（登録商標）アプリケーション、任意の適切なＯｒａｃｌｅ（登録商標）プロダクトもしくはサービスのデータサイエンスツールキット、またはその他の適したプロダクトもしくはサービスの様々なモジュールを含めることができる。

バス２１２にデータベース２１７が連結されており、モジュール２１６および２１８のための集中ストレージを提供し、かつ、たとえば、プランニングモジュール２１６またはその他のデータソースから受信したデータを格納する。データベース２１７は、論理的に関連したレコードまたはファイルからなる統合コレクションにデータを格納することができる。データベース２１７は、運用データベース、アナリティカルデータベース、データウェアハウス、分散データベース、エンドユーザデータベース、外部データベース、ナビゲーショナルデータベース、インメモリデータベース、ドキュメント指向データベース、リアルタイムデータベース、リレーショナルデータベース、オブジェクト指向データベース、非リレーショナルデータベース、ＮｏＳＱＬデータベース、Ｈａｄｏｏｐ（登録商標）分散型ファイルシステム（「ＨＦＤＳ（Hadoop distributed file system）」）、または当技術分野で周知のその他のデータベースであり得る。

１つのシステムとして図示しているが、システム２００の機能は分散システムとして実装されてもよい。たとえば、まとめてシステム２００を表す複数の異なるコンピュータ間でメモリ２１４およびプロセッサ２２２を分散してもよい。一実施の形態において、システム２００は、デバイス（たとえば、スマートフォン、タブレット端末、コンピュータなど）の一部であってもよい。実施の形態では、システム２００は、当該デバイスとは別であってもよいし、開示の機能を遠隔でデバイスに提供してもよい。さらには、システム２００の１つ以上の構成要素を省略してもよい。たとえば、ユーザデバイスまたは消費者向けデバイスとしての機能の場合、システム２００は、スマートフォンであってもよいし、プロセッサ、メモリ、およびディスプレイを含み、図２に示すその他の構成要素のうちの１つ以上を含まず、かつ、アンテナ、トランシーバ、またはその他の適したワイヤレスデバイスコンポーネントなど図２に示されていない追加コンポーネントを含むその他のワイヤレスデバイスであってもよい。さらには、本明細書に開示の機能を実行するように実装された場合、システム２００は、需要予想を提供するように特別に用意された特定用途向けコンピュータである。

実施の形態は、訓練済みの機械学習モデルの正解率を算出するために使われるデータ点ペアの数の動的な選択を対象とする。たとえば、暗黙的フィードバック評価部（たとえば、Ｏｒａｃｌｅ（登録商標）データサイエンスツールキットシステムなど、データサイエンスツールキットシステムのモジュール）は、モデルの性能を定期的に評価し、モデルの性能が基準を満たさない場合（たとえば、正解率メトリクスが基準を満たさない場合）、正解率に基づいて訓練をトリガすることができる。いくつかの実施の形態では、このアルゴリズムは、初期数のデータ点ペアを使用した後、前回のイテレーションで行われた操作に基づいて（たとえば、前回のイテレーションで再訓練をトリガされたかどうかに基づいて）この数を増やす／減らす。

たとえば、時には、訓練済みモデルの性能が標準を満たさない場合（たとえば、正解率が基準を満たさない場合）に自動的に訂正操作を行うために（たとえば、Ｏｒａｃｌｅ（登録商標）ＩｏＴＡｎａｌｙｔｉｃｓの）データサイエンスツールキットが用いられる。いくつかのデータサイエンスツールキットプロバイダは、正解率算出メカニズムを用いてモデルの性能を測定する。しかしながら、この正解率は、正解率を算出するために使われたデータ点ペアの数に基づいている。暗黙的フィードバック評価部（たとえば、データサイエンスツールキットシステムにおけるモジュール）の実施の形態は、訓練済みモデルの性能を定期的に評価して、性能が特定の許容範囲を外れた際に自動的に適切な操作（たとえば、機械学習モデルの再訓練／更新済み訓練など）を行う。データ点の選択は、この評価に影響を与え得る。

正解率の算出は、考慮されるデータ点の数によって異なるため、固定のデータ点を選択した場合、暗黙的フィードバック評価イテレーションにおいて再訓練または更新済みの訓練が行われる可能性は全く変化しない。データ点の動的な選択に基づいて、実施の形態では、いくつかのイテレーションでは再訓練の可能性が少ない一方で、他のイテレーションでは再訓練の可能性が高かったりする。予測する訓練は非常に多くのリソースを必要とする作業であり得るので、実施の形態は有効であり、コンピューティングリソース／クラスタリソースを最適に利用できる。

データ点の数を選択することが正解率の算出にどのような影響を与えるかについて説明するために、次のシナリオを考える。レンタカー会社が、ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ（「ＩｏＴ」）アセットモニタリングアプリケーション（たとえば、Ｏｒａｃｌｅ（登録商標）ＩｏＴＡｓｓｅｔＭｏｎｉｔｏｒｉｎｇＡｐｐｌｉｃａｔｉｏｎ）を利用して所有する車を管理する計画を立てる。車には、指定された間隔で車の電流パルス（たとえば、測定値）を提供することができるセンサ（たとえば、ＩｏＴデバイス）が取り付けら得る。

実施の形態では、資産管理アプリケーションのユーザとして、レンタカー会社は、いくつかのデバイスモデルを用いて車というアセットタイプを作成できてもよい。たとえば、燃料タンクについて、属性：燃料残量（ｆｕｅｌＬｅｖｅｌ）、温度などを用いて作成されたデバイスモデルがある場合を考える。実施の形態では、会社は、１時間ごとの車の燃料残量を追跡してメトリクス／主要性能指標（「ＫＰＩ：ＫｅｙＰｅｒｆｏｒｍａｎｃｅＩｎｄｉｃａｔｏｒ」）：「ＴｒａｃｋｔｈｅＡＶＧ（ｆｕｅｌＬｅｖｅｌ）ＨＯＵＲＬＹ」を作成したいと考える。

また、いくつかの実施の形態では、会社は、将来の燃料残量の測定値を予測したいと考え、「ｐｒｅｄｉｃｔＡＶＧ（ｆｕｅｌＬｅｖｅｌ）ｆｏｒｎｅｘｔｄａｙ」を用いてＰＲＥＤＩＣＴＩＯＮを作成し得る。たとえば、翌日のＡＶＧ（ｆｕｅｌＬｅｖｅｌ）を予測するために用いられる機械学習モデルを訓練することができる。いくつかの実施の形態では、機械学習モデルを訓練／展開した７日後、正解率チェックを用いて訓練済み機械学習モデルの正解率を判断することができる。たとえば、平均相対誤差が以下の通りである場合、正解率の算出は、１－平均相対誤差であり得る。

ここで、「ｘｉ」は、予測量の実績値であり得、「ｙｉ」は、予測であり得、「ｎ」は、変数が予測される異なる時刻の数であり得る。その他の適した正解率メトリクスが用いられてもよい。正解率を評価するために利用可能なデータ点ペアが５つあるが、３つのデータ点を選択して正解率を評価する場合を考える。

実施の形態では、上記の正解率を求める数式を用いると、３つのデータ点には次の誤差ができる：ａｂｓ（１０－１５）／１０＝０．５、ａｂｓ（１５－１０）／１５＝０．３３、およびａｂｓ（２０－２４）／２０＝０．２。加算および「ｎ」による対応する除算によって、（０．５＋０．３３＋０．２）／３＝０．３４となり、１－絶対相対誤差は、１－０．３４＝０．６６となる。

３つのデータ点ではなく４つのデータ点をサンプリングしてアルゴリズムの正解率を算出する場合を考える。

実施の形態では、上記の平均相対誤差数式を用いると、４つのデータ点には次の誤差ができる：ａｂｓ（１０－１５）／１０＝０．５、ａｂｓ（１５－１０）／１５＝０．３３、ａｂｓ（２０－２４）／２０＝０．２、およびａｂｓ（２０－３０）／２０＝０．５。加算および「ｎ」による対応する除算によって、（０．５＋０．３３＋０．２＋０．５）／４＝０．３８となり、１－絶対相対誤差は、１－０．３８＝０．６２となる。いくつかの実施の形態では、ペアではなくデータ点が誤差算出用に多数の値を含むことができる。

このシナリオは、正解率の算出がデータ点の数の選択にどのように依存しているかを例証している。この数を動的に（たとえば、時々）選択することによって、特に、再訓練が頻繁に実行されてしまうリスク、過激な変化があった場合に必ず再訓練が実行されてしまうリスクを減らすという利点がある。

図３Ａ～図３Ｃは、例示的な実施の形態に係る、機械学習モデルの訓練をトリガするための動的なデータ選択についてのフローチャートを示す図である。いくつかの実施の形態では、図３Ａ～図３Ｃ、および以下の図４の機能は、メモリまたはその他のコンピュータ読み取り可能な媒体、または有形の媒体に格納されたソフトウェアによって実現されて、プロセッサによって実行される。その他の実施の形態では、各機能は、（たとえば、特定用途向け集積回路（「ＡＳＩＣ（application specific integrated circuit）」）、プログラマブルゲートアレイ（「ＰＧＡ（programmable gate array）」）、フィールドプログラマブルゲートアレイ（「ＦＰＧＡ（field programmable gate array）」）などの利用によって）ハードウェアによって実行されてもよく、ハードウェアとソフトウェアとの任意の組合せによって実行されてもよい。実施の形態では、図３Ａ～図３Ｃおよび図４の機能は、図２のシステム２００の１つ以上の要素によって実行することができる。

いくつかの実施の形態では、機械学習モデルを設計、訓練、および格納することができる。図３Ａの３０２Ａにおいて、機械学習モデルを訓練し得る。図１に戻ると、訓練データ１０４を用いて機械学習モデル１０２を訓練し得る。

機械学習モデル１０２の設計は、任意の適切な機械学習モデル構成要素（たとえば、ニューラルネットワーク、サポートベクターマシン、専用の回帰モデルなど）を含み得る。たとえば、（たとえば、訓練／勾配算出のための）所与のコスト関数を有するニューラルネットワークを実装することができる。このニューラルネットワークは、任意の数の隠れ層（たとえば、０、１つ、２つ、３つ、またはそれ以上）を含み得、フィードフォワードニューラルネットワーク、回帰型ニューラルネットワーク、畳み込みニューラルネットワーク、モジュラーニューラルネットワーク、およびその他の適したタイプを含み得る。いくつかの実施の形態では、たとえば、実装された隠れ層の数に基づいてこのニューラルネットワークを深層学習用に設定することができる。いくつかの例では、ベイジアンネットワークを同様に実装することができ、または、その他の種類の教師あり学習モデルを同様に実装することができる。

たとえば、場合によっては１つ以上のカーネル（たとえば、ガウスカーネル、線形カーネルなど）を有するサポートベクターマシンを実装することができる。いくつかの実施の形態では、機械学習モデル１０２は、複数のモデルを積み重ねたものであり得、たとえば、第１モデルの出力が第２モデルの入力に与えられる。いくつかの実装は、複数の予測モデルからなる複数の層を含み得る。また、いくつかの実施の形態では、機械学習モデル１０２の特徴量を決定することもできる。たとえば、特徴量エンジニアリングを用いて、１つ以上の機械学習モデルによって実装される特徴量のセットを生成することができる。

いくつかの実施の形態では、訓練中、再訓練中、および／または更新済みの訓練中に機械学習モデル１０２の設計を調整することができる。調整として、ニューラルネットワークにある隠れ層の数の調整、サポートベクターマシンを実装するために用いるカーネル算出の調整などを挙げることができる。また、この調整は、機械学習モデルが使用する特徴量の調整／選択も含み得る。訓練されると所望の性能（たとえば、所望の正解率レベルの予測を行う、所望のリソース利用／時間メトリクスに従って動作するなど）を実現する機械学習モデル１０２の設定を達成するために、実施の形態は、訓練中に様々な調整設定（たとえば、それぞれ異なるバージョンの機械学習モデルおよび特徴量）を実施することを含む。

いくつかの実施の形態では、機械学習モデルの再訓練および機械学習モデルの訓練を更新することは、更新済み訓練データを用いてモデルを訓練することを含み得る。たとえば、訓練データを更新して観測データや（たとえば、教師あり学習で使用するために）ラベル付けされたデータを組み込むことができる。

３０４Ａでは、訓練済みモデルおよび対応するメタデータを格納し得る。たとえば、機械学習モデル１０２を訓練し得、実装によってはモデルに関するメタデータを有する結果として得られる訓練済み機械学習モデルを格納し得る。たとえば、格納されたメタデータは、正解率を算出するために用いられる点の数（たとえば、デフォルト値、複数のイテレーションを実行することによって生成された数）、係数値（ｆａｃｔｏｒＶａｌｕｅ）（たとえば、２などのデフォルト値、または複数のイテレーションを実行した後の計算値）、開示の実施の形態によって算出される正解率などのモデル正解率（ｍｏｄｅｌＡｃｃｕｒａｃｙ）であり得る。

いくつかの実施の形態では、訓練済み機械学習モデルのフィードバックサイクルまたは評価判断（たとえば、イテレーション）は、ある期間の後に実行され得る。たとえば、この期間は、一定の期間（たとえば、数時間、数日、１週間、２週間、１ヶ月、四半期など）または予め定められた観測データ量（たとえば、評価用の３０個のアクセス可能なデータ点ペア、５０個の点、数百個の点、数千個の点など）のような予め定められた量であり得る。アルゴリズムの複数のイテレーションを実行する期間は、特定の実装、データ点を観測する割合、正解率が落ちる割合、およびその他の要因によって異なり得る。

図３Ｂは、評価サイクルの第１イテレーションを示す図である。３０２Ｂでは、係数値を決定し得る。たとえば、デフォルト係数値を決定し得る（たとえば、２、３、またはその他の適した数）。いくつかの実装では、デフォルト係数値は、実装仕様によって異なってもよく、任意の適切なデフォルト係数値が実装され得る。

３０４Ｂでは、データ点の数を選択し得る。たとえば、利用可能なデータ点ペアからのデフォルトの数の最初の選択（たとえば、訓練済みモデル作成日から利用可能になるデータ点のうちの５０％）を決定し得る。デフォルト数は、その他の適した割合または数字であり得、また、いくつかの実施の形態では、実装依存であり得る。実施の形態では、次の数式を用いてデフォルトのデータ点の数を求め得る：データ点の数＝０．５・（ｃｕｒｒｅｎｔＴｉｍｅ（現在時刻）－ｔｒａｉｎｅｄＭｏｄｅｌＣｒｅａｔｅｄＴｉｍｅ（訓練済みモデル作成時刻））／ｓｍａｌｌｅｓｔＫｐｉＦｒｅｑｎ（最小Ｋｐｉ頻度）。たとえば、主要性能指標（「ＫＰＩ」）が１時間毎であって期間が７日間である場合、データ点の数は、０．５・（７日／１時間）＝０．５・１６８＝８４となり得る。

３０６Ｂでは、データ点の数がデータ点の閾値数などの基準を満たすかどうかを判断し得る。たとえば、データ点の閾値数は、３０であってもよく、場合によっては、モデルを訓練してからの観測データに基づいて３０個のデータ点を生成しなくてもよい（たとえば、期間が時間で定義されている場合、生成されるデータ点の数は変数であってもよい）。任意の適切な基準またはデータ点の閾値数が使用され得る。３０８Ｂでは、データ点の数がこの基準を満たさない場合（たとえば、最小データ点数以下の場合）、このイテレーションの間は再訓練または更新済みの訓練はトリガされない。

３１０Ｂでは、データ点の数が基準を満たさない場合（たとえば、最小データ点数以上の場合）、正解率メトリクスを計算し得る。図１に戻ると、正解率メトリクスは、予測１０８からの予測データ点と観測データ１１０からの対応する観測データ点との比較に基づき得る。たとえば、訓練済みの機械学習モデルがデータ予測を生成し得、対応するデータ点が後で観測され得、これによって正解率を算出するために利用できるデータ点ペアが生成されることを考える。正解率メトリクスとして、平均相対誤差、１－平均相対誤差、平均絶対パーセント誤差、平均絶対誤差、平均二乗偏差などを挙げることができる。

いくつかの実施の形態では、訓練済みモデルは、物流モデルであり得、正解率は、１つ以上の要素に基づいてもよい。Ｆ１値などの正解率メトリクスが実装され得る。たとえば、Ｆ１は、モデルの適合率（たとえば、陽性の予測値）および再現率（たとえば、感度）によって決まり得る。適合率は、モデルのすべての真（たとえば、モデルの真陽性＋偽陽性）に対する真陽性（たとえば、ラベル付けされた陽性に対応するモデルによる予測陽性）の割合であり得る。再現率は、すべてのラベル付けされた陽性（たとえば、モデルの真陽性＋偽陰性）に対する真陽性の割合であり得る。その他の適した適合率および再現率の定義を同様に実装することができる。Ｆ１値関数は、Ｆ１＝２×（適合率×再現率）／（適合率＋再現率）であり得る。Ｆ１値についてのその他の適した定義が実装され得る。いくつかの実施の形態では、その他の適した物流モデル正解率メトリクスが実装される。

３１２Ｂでは、算出された正解率メトリクスが正解率基準を満たすかどうかを判断し得る。たとえば、算出された訓練済み機械学習モデルの正解率が閾値正解率（たとえば、２５％、５０％、７５％など）よりも大きいかどうかを判断し得る。いくつかの実施の形態は、正解率メトリクスが誤差メトリクスとして算出され得るので、誤差メトリクスを誤差基準と比較して、誤差が閾値よりも大きいかどうかを判断し得る。

３０８Ｂでは、正解率メトリクスが正解率基準を満たした場合（たとえば、正解率メトリクスが正解率閾値よりも大きい、または誤差メトリクスが誤差閾値未満の場合）、このイテレーションでは再訓練または更新済みの訓練はトリガされない。３１２Ｂでは、正解率メトリクスが正解率基準を満たさない場合（たとえば、正解率メトリクスが正解率閾値未満、または誤差メトリクスが誤差閾値よりも大きい場合）、再訓練または更新済みの訓練がトリガされる。たとえば、観測データ１１０を用いて訓練データ１０４が更新され得、機械学習モデル１０２の再訓練または更新済みの訓練が実行され得る。いくつかの実施の形態では、再訓練がトリガされた場合、機械学習モデル１０２を訓練して格納する。いくつかの実装では、訓練済みモデル情報（たとえば、訓練済みモデルおよびメタデータ）とともに、係数値およびいくつかの点も保存され得る。いくつかの実施の形態では、フィードバック永続記憶に暗黙的フィードバックを記録し得る。

図３Ｃは、評価サイクルの「ｎ」番目のイテレーションを示す図である。３０２Ｃでは、係数値を決定し得る。たとえば、係数値は、「ｎ－１」番目のイテレーションにおける係数値に基づき得る。いくつかの実施の形態では、「ｎ－１」番目の係数値を静的な値（たとえば、０．９５、０．９０、０．８５など）で乗算して、「ｎ」番目のイテレーションの係数値を決定し得る。その他の適した係数値の決定方法を用いることも可能である。

３０４Ｃでは、データ点の数を選択し得る。たとえば、決定されたデータ点の数は、「ｎ」番目のイテレーションの係数値、および「ｎ－１」番目のイテレーションで実行された操作（たとえば、再訓練または再訓練なし）に基づき得る。いくつかの実施の形態では、「ｎ－１」番目のイテレーションにおいて再訓練がトリガされた場合、「ｎ－１」番目のイテレーションにおけるデータ点の数を係数値で乗算し得、「ｎ－１」番目のイテレーションにおいて再訓練がトリガされなかった場合、「ｎ－１」番目のイテレーションにおけるデータ点の数を係数値で除算し得る。すなわち、前回のイテレーションで訓練があった場合は点の数が増やされ得、前回のイテレーションで訓練がなかった場合は減らされ得る。

したがって、現在のイテレーションの場合、前回行われた操作に基づいて、前回のイテレーションで使われた点の数が増やされたり減らされたりし得る。いくつかの実施の形態では、前回のイテレーションで再訓練が行われた場合、係数値で乗算することによってデータ点の数を増やし得、係数値で除算してデータ点の数を減らし得る。

いくつかの実施の形態では、３０６Ｃ、３０８Ｃ、３１０Ｃ、３１２Ｃ、および３１４Ｃの機能は、３０６Ｂ、３０８Ｂ、３１０Ｂ、３１２Ｂ、および３１４Ｂの機能に類似し得る。たとえば、３０６Ｃにおいて、データ点の数が、データ点の閾値数など、基準を満たすかどうかを判断し得る。データ点の数が基準を満たさない場合（たとえば、最小データ点数以下である場合）、３０８Ｃでは、イテレーション中に再訓練または更新済みの訓練はトリガされない。

３１０Ｃでは、データ点の数が基準を満たした場合（たとえば、最小データ点数以上であった場合）、正解率メトリクスを計算し得る。３１２Ｃでは、算出された正解率メトリクスが正解率基準を満たすかどうかを判断し得る。３０８Ｃでは、正解率メトリクスが正解率基準を満たした場合（たとえば、正解率メトリクスが正解率閾値よりも大きい場合、または誤差メトリクスが誤差閾値未満の場合）、イテレーションにおいて再訓練または更新済みの訓練はトリガされない。３１２Ｃでは、正解率メトリクスが正解率基準を満たさない場合（たとえば、正解率メトリクスが正解率閾値未満、または誤差メトリクスが誤差閾値よりも大きい場合）、再訓練または更新済みの訓練がトリガされる。

いくつかの実施の形態では、係数値は、デフォルト値（たとえば、図３Ｂの３０２Ｂに従って、２という値など）で開始され得、フィードバックイテレーションにおいて何らかの固定値で減らされ得る（たとえば、３０２Ｃに示すように）。いくつかの実施の形態では、係数値が終了値（たとえば、１、またはその他の適した値）に達した場合、点の動的選択を終了し得る。次に、係数値がこの終了値に達したときの前回のイテレーションでのデータ点の数を今後の評価サイクル／フィードバックイテレーションごとに使用し得る。

いくつかの実施の形態では、可変数個のデータ点およびフィードバックイテレーションを用いて、特定のモデル／機械学習実装の正解率を査定するのに適したデータ点の数（たとえば、係数値が１に達した場合）を決定し得る。複数のイテレーションを実行したあとに決定されるデータ点の数は、このようなイテレーションサイクルが無い静的なデータ点の数の選択に適している。なぜならば、少なくとも、決定したデータ点の数をこれらのイテレーションが当該特定のモデル／実装に特化させているためである。たとえば、モデルごとの項目によってこれらの項目の終了値が異なり得るので、それぞれ異なるモデル／実装について、これらのイテレーションによって決定されるデータ点の数は異なり得る。

したがって、実施の形態は、性能を向上させるために、モデル正解率を査定する際に用いるデータ点の数を特定のモデル／実装に特化させる。この向上した性能は、たとえば、再訓練の決定が向上することによるより良いリソース利用を含み得る。査定されたモデルの正解率に基づいてモデルの再訓練がトリガされ得るので、正解率査定を改善するデータ点の数もその正解率査定に基づいた再訓練の決定を改善させ得る。

次の擬似コードは、実施の形態の例示的な実装を表す。

図１に戻ると、任意の種類の適したデータ予測を実行するように機械学習モデル１０２を設計して訓練することができる。たとえば、生成したデータ予測を、物理的な測定値（たとえば、物質的な物の速度、加速度、位置、物性、量、またはその他の適した物理的な測定値）、コンピューティング環境またはネットワークにおける測定値など、ＩｏＴ（「ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ」）接続されたデバイスによって測定された値に結びつけることができる。いくつかの例では、生成したデータ予測を、小売売上高、在庫、返品、様々なサブルート（たとえば、Ｄ２Ｃ（ＤｉｒｅｃｔｔｏＣｏｎｓｕｍｅｒ）、店舗、サードパーティなど、異なる場所、市場、配達／返品ルート）内のこれらの要素のいずれか、または企業組織についてのその他の適したデータなど、企業組織に関する値に結びつけることができる。

いくつかの実施の形態では、機械予測に従って配送を行うことができる。たとえば、機械予測は、需要予想、在庫予測などであり得、予想／予測に基づいて倉庫とストア間の配送を行うことができる。

図４は、例示的な実施の形態に係る、動的なデータ点選択を用いた機械学習予測モデルを実装するためのフロー図である。４０２では、訓練済みの機械学習モデルが生成した複数のデータ予測にアクセスし得る。ここで、データ予測は、観測データに対応する。たとえば、後の時点で観測されるデータ点についてのデータ予測を生成し得る。アクセスした複数のデータ予測は、データ点ペアを生成できるように、対応する観測データを有し得る。

４０４では、アクセスした複数のデータ予測および対応する観測データに基づいて機械学習モデルの正解率を算出し得る。たとえば、この正解率は、データ予測とそれらの対応する観測データとの比較に基づく正解率メトリクスであり得る。

４０６では、可変数のデータ予測を用いてアクセスと算出を繰り返し得る。ここで、可変数のデータ予測は、前回のイテレーション中に実行された操作に基づいて調整され、算出した正解率が所与のイテレーション中に正解率基準を満たさない場合、機械学習モデルに対する訓練がトリガされる。たとえば、複数のイテレーションを、当該イテレーションの期間に応じて一定の時間実行し得る。

いくつかの実施の形態では、前回のイテレーション中に訓練がトリガされたかどうかに基づいて現在のイテレーションの可変数のデータ予測を調整し得る。いくつかの実施の形態では、前回のイテレーションとは、現在のイテレーションの直前のイテレーションである。

いくつかの実施の形態では、前回のイテレーション中に訓練がトリガされた場合、現在のイテレーションのデータ予測の数が増やされ、前回のイテレーション中に訓練がトリガされなかった場合、データ予測の数が減らされる。たとえば、前回のイテレーション中に訓練トリガされた場合、現在のイテレーションのデータ予測の数を係数で乗算し、前回のイテレーション中に訓練がトリガされなかった場合、係数でデータ予測の数を除算する。いくつかの実施の形態では、この係数の値は、複数のイテレーションにわたって減少する。例では、係数の値は初期化され、係数は、１以上の値である。

いくつかの実施の形態では、トリガされた訓練は、訓練済み機械学習モデルに対する再訓練または更新済みの訓練であり得る。いくつかの実施の形態では、訓練がトリガされた場合、次のアクセスおよび算出のイテレーションは、トリガされた訓練が生成した機械学習モデルによって生成されたデータ予測を利用する。

いくつかの実施の形態では、この繰り返しは所定時間に従って行われる。たとえば、所定時間は、所定時間、または対応する観測データを有する所定量のデータ予測であり得る。

４０８では、設定されたデータ予測の数がこの繰り返しに基づいて決定されるよう、可変数のデータ予測を用いたアクセスおよび算出を複数のイテレーションが実行された後に終了し得る。ここで、繰り返しの後、設定されたデータ予測の数を利用して機械学習モデルの正解率を算出し、この正解率を用いて機械学習モデルの訓練をトリガする。

実施の形態は、企業（たとえば、小売店）に需要予想の予想正解率を求めるために改良された機械学習モデルを利用するためのメカニズムを提供することによって、予想ソリューションに対する従来の手法を改善することができる。多くの状況では、需要予想はサプライチェーンの推進力であり、これが不正確であった場合、割り当て、プランニング、および補充が上手く行われない。その結果、リソース使用が非効率になってしまう。一般に、予想が高かった場合、アイテムは売れ残ってしまう。これらを値引き販売しなければならなくなるか、廃棄を増やしてしまうことになる。予想が低かった場合、需要が満たされず、小売店は販売機会を失い、顧客満足が低下してしまう。その結果、両方の場合もリソース使用が非効率になってしまう。実施の形態は、信頼できる需要予想を実現するための技術を提供するので、サプライチェーンおよび企業間でのリソース利用の効率を改善させることができる。

図５は、例示的な実施の形態に係る、総合サプライヤー、在庫、および、本明細書に開示の在庫管理を備える物流システムを示す図である。図５に示すように、システム５００は、エンタープライズビジネスシステム５７０を備えることができる。エンタープライズビジネスシステム５７０は、倉庫５８０を利用して企業の所在地５０１～５０４に関する商品の在庫を管理するためのコードと、倉庫５８０から商品を消費者に直接配送するためのコードとを実行する。エンタープライズビジネスシステム５７０は、クラウドネットワーク５５０またはその他の種類の通信ネットワークを介して１つ以上の在庫システム５２０と通信を行っている。いくつかの実施の形態では、エンタープライズビジネスシステム５７０のプランニング／予想ソフトウェアは、様々な商品の予想在庫レベルを提供する予想を生成することができる。在庫システム５２０および倉庫５８０は、これらの予想在庫レベルに基づいて企業の所在地５０１～５０４宛ての配送および企業の所在地５０１～５０４からの配送を行うことができる。いくつかの実施の形態では、訓練済みの機械学習モデルを利用することによってこれらの予想在庫レベルを改善することができるようになるので、より効率的な配送プロセスを生成できるようになる。

在庫システム５２０は、在庫を保管して、アイテムを企業の所在地５０１～５０４および消費者の所在地（たとえば、消費者の自宅）までトラック５１０～５１３またはその他の輸送機構を使って配達するための輸送物流を提供する。一実施の形態において、在庫システム５２０は、プランニング／予想ソフトウェアが生成する旬のプランなど、エンタープライズビジネスシステム５１０からの入力を用いて在庫レベルを判断し、商品の量および企業の所在地５０１～５０４への配達のタイミングを判断するＥｎｔｅｒｐｒｉｓｅＲｅｓｏｕｒｃｅＰｌａｎｎｉｎｇ（「ＥＲＰ」）専門コンピュータシステムまたは専門の在庫管理システムを実装する。

倉庫５８０は、在庫システム５２０に基づいて１つ以上の商品を企業の所在地５０１～５０４に供給し、商品を消費者の所在地（たとえば、消費者の自宅）に配送するフルフィルメント倉庫である。一実施の形態において、倉庫５８０は、プランニング／予想ソフトウェアが生成する旬のプランなど、エンタープライズビジネスシステム５１０からの入力を用いて商品の量および在庫システム５２０および／または企業の所在地５０１～５０４への配達のタイミングを判断するＥＲＰ専門コンピュータシステムまたは専門のサプライヤーシステムを実装する。いくつかの実施の形態では、たとえば企業の所在地５０１～５０４への返品に基づいて、倉庫５８０は、企業の所在地から配送を受け付けて、たとえば、企業の所在地が供給過多になっておらず、商品の種類が豊富であることを確保する。

実施の形態は、機械学習モデルのための動的なデータ選択を行う。いくつかの実施の形態では、訓練データを利用して機械学習モデルを（たとえば、教師あり学習を介して）訓練することができる。その後、訓練済みモデルを利用して、入力データに基づいたデータ予測を生成することができる。時には、たとえば、モデルを再訓練するまたは訓練を更新することによって、訓練済みの機械学習モデルを更新することができる。

いくつかの実施の形態では、過去のデータ予測の数および対応する観測データ点ペアの数は、正解率メトリクスに影響し得る。たとえば、観測データが利用可能になると、これらのデータ点ペアのセットを生成することができるようになる。正解率判断は、選択されるこれらのデータ点ペアの数によって異なり得る。多数のデータ点ペアによって、これらのデータ点の任意の特定のサブセットの重要性が希薄になり得る。たとえば、１ヶ月分のデータ点ペアを用いて正解率を判断した場合、先週のデータ点ペアは、その月の別の日により、希薄になってしまう。別の例では、２週間分のデータ点ペアを用いて正解率を判断した場合、先週のデータ点ペアは、正解率メトリクスにとってかなり重要である。

機械学習モデルの訓練では、多くのリソースを必要とし得るので、選択的に再訓練するまたは機械学習モデルの訓練を更新することによって、正解率とリソース効率および実用性との均衡を取ることができる。実施の形態は、可変数のデータ点ペアを用いて正解率メトリクスを繰り返し算出し、正解率メトリクスが正解率基準を満たさない場合に再訓練または更新済みの訓練が所与のイテレーション（繰り返し）においてトリガされ得る。

本明細書を通して説明した本開示の特徴、構造、または特性を任意の適切な方法で組み合わせて１つ以上の実施の形態にしてもよい。たとえば、本明細書を通した「一実施の形態」、「いくつかの実施の形態」、「特定の実施の形態」、「特定の実施の形態」、またはその他の同様の文言の使用は、実施の形態に関して説明した特定の特徴、構造、または特性が本開示の少なくとも１つの実施の形態に含まれてもよいことを指している。よって、本明細書を通した「一実施の形態」、「いくつかの実施の形態」、「特定の実施の形態」、「特定の実施の形態」いうフレーズ、またはその他の同様の文言の出現は、必ずしもすべてが同じグループの実施の形態を指しているわけではなく、記載の特徴、構造、または特性を任意の適切な方法で組み合わせて１つ以上の実施の形態としてもよい。

上述した実施の形態を異なる順序のステップで実施してもよいこと、および／または開示の構成とは異なる構成の要素を用いて実施してもよいことは、当業者であれば容易に理解できるであろう。そのため、本開示は、概要を説明した実施の形態を考慮しているが、本開示の趣旨および範囲から逸脱しないで特定の変更例、変形例、および別の構成も明らかになることは、当業者に明らかになるであろう。そのため、本開示の範囲を特定するために添付の特許請求の範囲を参照されたい。

Claims

動的なデータ選択を用いる機械学習予測モデルを実装するための方法であって、
訓練済みの機械学習モデルが生成する複数のデータ予測にアクセスするステップを含み、前記データ予測は、対応する観測データから構成され、前記方法は、さらに、
前記アクセスしたデータ予測の数および前記対応する観測データに基づいて前記機械学習モデルの正解率を算出するステップと、
可変数のデータ予測を用いて前記アクセスするステップおよび前記算出するステップを繰り返すステップとを含み、
前記可変数のデータ予測は、前回のイテレーション（繰り返し）中に実行された操作に基づいて調整され、
前記算出した正解率が所与のイテレーション中に正解率基準を満たさない場合、前記機械学習モデルに対する訓練がトリガされる、方法。
現在のイテレーションの前記可変数のデータ予測は、前記前回のイテレーション中に訓練がトリガされたかどうかに基づいて調整される、請求項１に記載の方法。
前記前回のイテレーションは、前記現在のイテレーションの直前のイテレーションから構成される、請求項２に記載の方法。
前記トリガされた訓練は、前記訓練済み機械学習モデルに対する再訓練または更新済みの訓練から構成される、請求項２に記載の方法。
訓練がトリガされた場合、前記アクセスするステップおよび前記算出するステップの次のイテレーションは、前記トリガされた訓練が生成した前記機械学習モデルによって生成されたデータ予測を用いる、請求項２に記載の方法。
前記繰り返すステップは、所定時間に従って実行される、請求項２に記載の方法。
前記所定時間は、所定期間、または対応する観測データを有する所定量のデータ予測である、請求項６に記載の方法。
前記前回のイテレーション中に訓練がトリガされた場合、前記現在のイテレーションの前記データ予測の数は増やされ、前記前回のイテレーション中に訓練がトリガされなかった場合、前記データ予測の数は減らされる、請求項６に記載の方法。
前記前回のイテレーション中に訓練がトリガされた場合、前記現在のイテレーションの前記データ予測の数は係数で乗算され、前記前回のイテレーション中に訓練がトリガされなかった場合、前記データ予測の数は係数で除算される、請求項８に記載の方法。
前記係数は、１以上の値から構成される、請求項９に記載の方法。
前記係数の前記値は、複数のイテレーションにわたって減らされる、請求項１０に記載の方法。
設定されたデータ予測の数が前記繰り返すステップに基づいて決定されるよう、複数の前記イテレーションを実行した後に前記アクセスするステップおよび前記算出するステップを前記可変数のデータ予測を用いて終了するステップをさらに含み、前記繰り返すステップの後、前記設定されたデータ予測の数は、前記機械学習モデルの正解率を算出するために用いられ、前記正解率は、前記機械学習モデルの訓練をトリガするために用いられる、請求項１１に記載の方法。
動的なデータ選択を用いる機械学習予測モデルを実装するためのシステムであって、
プロセッサと、
前記プロセッサによって実行される命令を格納したメモリとを備え、前記命令は、
訓練済みの機械学習モデルが生成する複数のデータ予測にアクセスするように前記プロセッサを構成し、前記データ予測は、対応する観測データから構成され、前記命令は、さらに、
前記アクセスしたデータ予測の数および前記対応する観測データに基づいて前記機械学習モデルの正解率を算出し、
可変数のデータ予測を用いて前記アクセスすることおよび前記算出することを繰り返すように前記プロセッサを構成し、
前記可変数のデータ予測は、前回のイテレーション（繰り返し）中に実行された操作に基づいて調整され、
前記算出した正解率が所与のイテレーション中に正解率基準を満たさない場合、前記機械学習モデルに対する訓練がトリガされる、システム。
現在のイテレーションの前記可変数のデータ予測は、前記前回のイテレーション中に訓練がトリガされたかどうかに基づいて調整され、前記前回のイテレーションは、前記現在のイテレーションの直前のイテレーションから構成される、請求項１３に記載のシステム。
前記繰り返すことは、所定時間に従って実行され、前記所定時間は、所定期間、または対応する観測データを有する所定量のデータ予測である、請求項１４に記載のシステム。
前記前回のイテレーション中に訓練がトリガされた場合、前記現在のイテレーションの前記データ予測の数は増やされ、前記前回のイテレーション中に訓練がトリガされなかった場合、前記データ予測の数は減らされる、請求項１５に記載のシステム。
前記前回のイテレーション中に訓練がトリガされた場合、前記現在のイテレーションの前記データ予測の数は係数で乗算され、前記前回のイテレーション中に訓練がトリガされなかった場合、前記データ予測の数は係数で除算される、請求項１６に記載のシステム。
前記係数は、１以上の値から構成され、前記係数の前記値は、複数のイテレーションにわたって減らされる、請求項１７に記載のシステム。
前記命令は、
設定されたデータ予測の数が前記繰り返すことに基づいて決定されるよう、複数の前記イテレーションを実行した後に前記アクセスすることおよび前記算出することを前記可変数のデータ予測を用いて終了するように前記プロセッサをさらに構成し、前記繰り返すことの後、前記設定されたデータ予測の数は、前記機械学習モデルの正解率を算出するために用いられ、前記正解率は、前記機械学習モデルの訓練をトリガするために用いられる、請求項１８に記載のシステム。
命令を格納した非一時的なコンピュータ読み取り可能な媒体であって、前記命令は、プロセッサによって実行されると、前記プロセッサに、動的なデータ選択を用いる機械学習予測モデルを実装させ、前記命令は、前記プロセッサに、
訓練済みの機械学習モデルが生成する複数のデータ予測にアクセスさせ、前記データ予測は、対応する観測データから構成され、前記命令は、さらに、前記プロセッサに、
前記アクセスしたデータ予測の数および前記対応する観測データに基づいて前記機械学習モデルの正解率を算出させ、
可変数のデータ予測を用いて前記アクセスすることおよび前記算出することを繰り返させ、
前記可変数のデータ予測は、前回のイテレーション（繰り返し）中に実行された操作に基づいて調整され、
前記算出した正解率が所与のイテレーション中に正解率基準を満たさない場合、前記機械学習モデルに対する訓練がトリガされる、非一時的なコンピュータ読み取り可能な媒体。