JP7186200B2

JP7186200B2 - データ管理方法

Info

Publication number: JP7186200B2
Application number: JP2020124924A
Authority: JP
Inventors: ミンキュチュ
Original assignee: スアラブカンパニーリミテッド
Priority date: 2019-07-26
Filing date: 2020-07-22
Publication date: 2022-12-08
Anticipated expiration: 2040-07-22
Also published as: KR102270169B1; US20210027179A1; JP2021022377A; KR20210012761A; EP3789927A1

Description

本開示は、コンピューティング装置を利用して行うデータ処理方法に関し、具体的にはマシンラーニングモデルの学習用データ管理ソリューションに関するものである。

マシンラーニングに基づく人工知能技術の発展により、マシンラーニングモデルを学習させるために求められるデータの重要性が高まってきている。例えば、自動運転自動車にはｐｉｘｅｌ－ｗｉｓｅｌａｂｅｌの画像が最低１億枚必要だとされている。このようなデータの重要性は、ＧＩＧＯ（Ｇａｒｂａｇｅ－ＩｎＧａｒｂａｇｅ－Ｏｕｔ）という言葉で表すことができる。

データの重要性については、多くの人が共感するところであるが、あるデータをどれだけ収集すべきかに係る解決策は明確ではない。従って、当業者には、マシンラーニングモデルの学習に関し必要なデータ収集戦略を策定するソリューションに関するニーズが存在し得る。

米国特許公開公報１６／０２７１６１は、マシンラーニングトレーニングデータ選択のための方法を開示している。

本開示は、前述の背景技術に対応して案出されたものであり、マシンラーニングモデルの学習用データ収集ソリューションを提供するものである。

本開示の技術的課題は、以上で述べた技術的課題に限定されず、以上で触れていないさらなる技術的課題も、以下の記載から当業者に明確に理解できるものである。

前述のような課題を解決するための本開示の一実施例に基づき、コンピューターで読み取り可能な保存媒体に保存されたコンピュータープログラムが開示される。前述のコンピュータープログラムは、１つ以上のプロセッサーに以下の段階を実行させるための命令を含み、前述の段階は、全体データセットから２つ以上のトレーニングデータセットを生成する段階－前述の２つ以上のトレーニングデータセットは、相異するデータサブセットを含む、サンプリングされたデータサブセットのペアを少なくとも１つ含む－、及び前述の２つ以上のトレーニングデータセットに基づき、１つ以上のネットワーク関数を含む複数の推論モデルを学習させる段階、を含むことができる。

また、前述の２つ以上のトレーニングデータセットはそれぞれ、学習データセットと検証データセットを含むことができる。

また、全体データセットから２つ以上のトレーニングデータセットを生成する段階は、前述の全体データセットをＭ個のサブセットに分割する段階、及び前述の分割されたＭ個のサブセットの中から少なくとも１つのサブセットをテストデータセットに割り当てる段階、を含むことができる。

また、全体データセットから２つ以上のトレーニングデータセットを生成する段階は、同じデータを含まないようにランダムに選択された任意のデータを、テストデータセットに割り当てる段階、を含むことができる。

また、全体データセットから２つ以上のトレーニングデータセットを生成する段階は、前述の全体データセットの中から前述のテストデータセットを除いたデータセットをＮ個のサブセットに分割する段階、及び前述の分割されたＮ個のサブセットの中から少なくとも１つのサブセットを検証データセットに割り当てる段階、を含むことができる。

前述のような課題を解決するための本開示の一実施例に基づき、コンピューターで読み取り可能な保存媒体に保存されたコンピュータープログラムが開示される。前述のコンピュータープログラムは、１つ以上のプロセッサーに以下の段階を実行させるための命令を含み、前述の段階は、前述の２つ以上のトレーニングデータセットに基づき学習された１つ以上のネットワーク関数を含む複数の推論モデルに基づき、任意のデータに対する複数の推論結果を生成する段階、及び前述の任意のデータに対する複数の推論結果と実際の結果との対応関係を提供する段階、を含むことができる。

また、前述の推論結果は、前述の推論モデルが前述の任意のデータに対して推論した分類結果と、前述の分類結果に係る確信度スコア（ｃｏｎｆｉｄｅｎｃｅｓｃｏｒｅ）とを含むことができる。

また、前述の任意のデータに対する複数の推論結果と実際の結果との対応関係を提供する段階は、前述の任意のデータに対する複数の推論結果に基づき任意のデータに対する単一の推論結果を決定する段階、及び前述の単一の推論結果（７００）と前述の実際の結果との対応関係を提供する段階、を含むことができる。

また、前述の段階は：前述の任意のデータに対する評価結果を提供する段階、をさらに含むことができる。

また、前述の任意のデータに対する評価結果を提供する段階は、前述の複数の推論結果及びそれに対応する実際の結果に基づき前述の任意のデータに対する評価結果を提供する段階、を含むことができる。

また、前述の推論結果及びそれに対応する実際の分類結果に基づき前述の任意のデータに対する評価結果を提供する段階は、前述の複数の推論結果に基づき、前述の任意のデータに対する推論信頼度スコアを演算する段階、前述の任意のデータに付けられたラベルと前述の実際の結果とが一致するか否かと、前述の推論信頼度スコアに対応する評価結果を提供する段階、を含むことができる。

また、前述の複数の推論モデルは、相異する形を含む２つ以上のネットワーク関数を含むことができる。

前述のような課題を解決するための本開示の一実施例に基づき、データ収集戦略を策定するためのコンピューティング装置が開示される。前述のコンピューティング装置は、プロセッサー、通信部、及びメモリー、を含み、前述のプロセッサーは、全体データセットから２つ以上のトレーニングデータセットを生成し－前述の２つ以上のトレーニングデータセットは相異するデータサブセットを含むサンプリングされたデータセットのペアを少なくとも１つ含む－、前述の２つ以上のトレーニングデータセットに基づき、１つ以上のネットワーク関数を含む複数の推論モデルを学習させることができる。

前述のような課題を解決するための本開示の一実施例に基づきデータ収集戦略を策定するためのコンピューティング装置が開示される。前述のコンピューティング装置は、プロセッサー、通信部、及びメモリー、を含み、前述のプロセッサーは、前述の２つ以上のトレーニングデータセットに基づき学習された１つ以上のネットワーク関数を含む複数の推論モデルに基づき、任意のデータに対する複数の推論結果を生成し、前述の任意のデータに対する複数の推論結果と実際の結果との対応関係を提供することができる。

本開示から得られる技術的解決手段は、以上で述べた解決手段に限られず、以上で述べられていないさらなる解決手段が、以下の記載により、本開示が属する技術分野において通常の知識を持つ者に明確に理解されることができる。

本開示は、マシンラーニングモデルの学習用データ収集ソリューションに関するものである。

本開示から得られる効果は以上で述べた効果に限られず、以上で述べられていないさらなる効果が、以下の記載により、本開示が属する技術分野において通常の知識を持つ者に明確に理解されることができる。

これから多様な様相について、図面を参照しながら記載するが、ここで類似の参照番号は、総括的に類似の構成要素を指すために使われる。以下の実施例において、説明目的で、多数の特定の細部事項が１つ以上の様相を総体的に理解できるようにするために提示される。しかし、これらの（複数の）様相がこれらの具体的な細部事項がなくても実施されることができることは明らかである。

本開示の一実施例に係るデータ収集戦略の策定を実行するコンピューティング装置の構成を示すブロック図である。本開示の一実施例に係る人工神経網の一部を示す概略図である。本開示の一実施例に係るコンピューティング装置のプロセッサーが、複数の推論モデルを学習させる一例を示すフローチャートである。本開示の一実施例に係るコンピューティング装置のプロセッサーが、全体データセットから複数のトレーニングデータセットを生成する一例を示す図面である。本開示の一実施例に係るコンピューティング装置のプロセッサーが、複数のトレーニングデータセットを生成する一例を示すフローチャートである。本開示の一実施例に係るコンピューティング装置のプロセッサーが、複数の推論モデルを生成する一例を示す図面である。本開示の一実施例に係るコンピューティング装置のプロセッサーが、データ収集戦略を策定する一例を示すフローチャートである。本開示の一実施例に係るコンピューティング装置のプロセッサーが、複数の推論結果を生成する一例を示す図面である。本開示の一実施例に係るコンピューティング装置のプロセッサーが、任意のデータに対する複数の推論結果と実際の結果との対応関係を提供する一例を示すフローチャートである。本開示の一実施例に係るコンピューティング装置のプロセッサーが、確信度スコアを生成する一例を示す図面である。本開示の一実施例に係るコンピューティング装置のプロセッサーが、任意のデータに対する評価結果を提供する一例を示すフローチャートである。本開示の一実施例に係るプロセッサーが、任意のデータに対する評価結果を提供する一例を示す図面である。本開示の複数の実施例が具現化されることのできる例示的なコンピューティング環境を示す簡略で一般的な概略図である。

本明細書において、「コンポーネント」、「モジュール」、「システム」等の用語は、コンピューター関連エンティティ、ハードウェア、ファームウェア、ソフトウェア、ソフトウェアとハードウェアとの組み合わせ、またはソフトウェアの実行を指す。例えば、コンポーネントは、プロセッサー（１１０）上で実行される処理手順（procedure）、プロセッサー（１１０）、オブジェクト、実行スレッド、プログラム、及び／またはコンピューターになり得るが、これらに限定されるものではない。例えば、コンピューティング装置（１００）で実行されるアプリケーションとコンピューティング装置（１００）は、両方ともコンポーネントになり得る。１つ以上のコンポーネントは、プロセッサー（１１０）及び／または実行スレッドの中に常駐することができる。１つのコンポーネントは、１つのコンピューターの中でローカル化されることができる。１つのコンポーネントは、２つ以上のコンピューターに配分されることができる。また、このようなコンポーネントは、その内部に保存された多様なデータ構造を持つ、コンピューターで読み取り可能な多様な媒体で実行することができる。コンポーネントは、例えば１つ以上のデータパケットを持つ信号（例えば、ローカルシステム、分散システムにおいて、他のコンポーネントと相互作用する１つのコンポーネントからのデータ及び／または信号を通じて、他のシステムと、インターネットのようなネットワークを通じて伝送されるデータ）によってローカル及び／または遠隔処理等を通じて通信することができる。

さらに、ここで用いられる用語「または」は、排他的な「または」ではなく、内包的「または」を意味する意図で使われる。つまり、特に特定されておらず、文脈上明確ではない場合、「ＸはＡまたはＢを利用する」は、自然な内包的置換のうち１つを意味する意図を持つ。つまり、ＸがＡを利用したり、ＸがＢを利用したり、またはＸがＡ及びＢの両方を利用する場合、「ＸはＡまたはＢを利用する」は、これらのいずれにも当てはまるとすることができる。また、本明細書における「及び／または」という用語は、取り挙げられた関連アイテムのうち、１つ以上のアイテムの可能なすべての組み合わせを指し、それらを含むと理解されるべきである。

また、述語としての「含む（含める）」及び／または修飾語として「含む（含める）」という用語は、当該特徴及び／または構成要素が存在することを意味するものと理解されるべきである。ただし、述語としての「含む（含める）」及び／または修飾語として「含む（含める）」という用語は、１つ以上の他のさらなる特徴、構成要素及び／またはこれらのグループが存在すること、または追加されることを排除しないものと理解されるべきである。また、特に特定されていない場合や、単数の形を示すことが文脈上明確でない場合、本明細書と請求範囲において単数は、一般的に「１つまたはそれ以上」を意味するものと解釈されるべきである。

当業者は、さらに、ここに開示される実施例に係るものとして説明された多様な例示的論理的ブロック、構成、モジュール、回路、手段、ロジック及びアルゴリズム段階が、電子ハードウェア、コンピューターソフトウェア、またはその両方の組み合わせによって実現できることを認識すべきである。ハードウェアとソフトウェアとの相互交換性を明確に例示するために、多様な例示的コンポーネント、ブロック、構成、手段、ロジック、モジュール、回路及び段階が、それらの機能性の側面から一般的に上述された。そのような機能性がハードウェアとしてまたはソフトウェアとして実装されるか否かは、全般的なシステムに係る特定のアプリケーション（ａｐｐｌｉｃａｔｉｏｎ）及び設計制限によって決まる。熟練した技術者は、個々の特定アプリケーションのために多様な方法で説明された機能を実現できる。ただし、そのような実現に係る決定が本開示内容の領域を逸脱するものと解釈されてはならない。

ここに示す実施例に係る説明は、本開示の技術分野において通常の知識を持つ者が本発明を利用したりまたは実施できるように提供される。このような実施例に対する多様な変形は、本開示の技術分野において通常の知識を持つ者には明確である。ここに定義された一般的な原理は、本開示の範囲を逸脱することなく他の実施例に適用されることができる。従って、本発明はここに示す実施例だけに限定されるものではない。本発明はここに示す原理及び新規な特徴と一貫する最広義の範囲で解釈されるべきである。

本開示の一実施例におけるサーバーには、サーバーのサーバー環境を実装するための他の構成が含まれることが可能である。サーバーは形を問わずあらゆる装置をすべて含むことができる。サーバーはデジタル機器として、ラップトップコンピューター、ノートパソコン、デスクトップコンピューター、ウェブパッド、携帯電話のようにプロセッサー（１１０）を搭載しておりメモリーを備えた演算能力を持つデジタル機器になり得る。サーバーはサービスを処理するウェブサーバーになり得る。前述のサーバーの種類は例示に過ぎず、本開示はこれによって限定されない。

本明細書におけるネットワーク関数は、人工神経網（２００）、ニューラルネットワークと相互交換可能な形で使われることができる。本明細書におけるネットワーク関数は、１つ以上のニューラルネットワークを含むこともでき、この場合、ネットワーク関数の出力は、１つ以上のニューラルネットワークの出力のアンサンブル（ｅｎｓｅｍｂｌｅ）になり得る。

本明細書において、モデルはネットワーク関数を含むことができる。モデルは１つ以上のネットワーク関数を含むこともでき、この場合、モデルの出力は、１つ以上のネットワーク関数の出力のアンサンブルになり得る。

図１は、本開示の一実施例に係るデータ収集戦略の策定を実行するコンピューティング装置の構成を示すブロック図である。

コンピューティング装置（１００）は、プロセッサー（１１０）と保存部（１２０）を含むことができる。プロセッサー（１１０）は、１つ以上のコアで構成されることができ、コンピューティング装置（１００）の中央処理装置（ＣＰＵ：ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、汎用グラフィック処理装置（ＧＰＧＰＵ：ｇｅｎｅｒａｌｐｕｒｐｏｓｅｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、テンサー処理装置（ＴＰＵ：ｔｅｎｓｏｒｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）等のデータ収集戦略を策定するためのプロセッサー（１１０）を含むことができる。プロセッサー（１１０）は、保存部（１２０）に保存されたコンピュータープログラムを読み取り、本開示の一実施例に係るデータ収集戦略を策定するための方法を実行することができる。本開示の一実施例に基づき、プロセッサー（１１０）は、神経網（２００）の学習のための計算を実行することができる。プロセッサー（１１０）は、ディープラーニング（ＤＬ：ｄｅｅｐｌｅａｒｎｉｎｇ）において学習のための入力データの処理、入力データからのフィーチャー（ｆｅａｔｕｒｅ）抽出、誤差計算、逆伝播（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）を利用した神経網（２００）の重み更新等の神経網（２００）の学習のための計算を実行することができる。

プロセッサー（１１０）のＣＰＵ、ＧＰＧＰＵ及びＴＰＵのうち、少なくとも１つがトレーニングデータセット（４００）を生成し、複数の推論モデル（５００）の学習を処理することができる。また、本開示の一実施例において、複数のコンピューティング装置（１００）のプロセッサー（１１０）を一緒に使って、学習されたモデルを利用した複数の推論結果（６００）を生成し、複数の推論結果（６００）と実際の結果（ｇｒｏｕｎｄｔｒｕｔｈ）との対応関係を提供することができる。また、本開示の一実施例に係るコンピューティング装置（１００）で実行されるコンピュータープログラムは、ＣＰＵ、ＧＰＧＰＵまたはＴＰＵで実行可能プログラムになり得る。

保存部（１２０）は、本開示の一実施例に係るデータ収集戦略を策定する方法を実行するためのコンピュータープログラムを保存することができ、保存されたコンピュータープログラムは、プロセッサー（１１０）によって読み取られ実行されることができる。

本開示の実施例に係る保存部（１２０）は、プロセッサー（１１０）の動作のためのプログラムを保存することができ、入／出力されるデータ（例えば、サービスへのアクセス情報、ユーザー情報、代替サービスへのアクセス情報等）を一時的または永久に保存することもできる。前述の保存部（１２０）は、ディスプレイや音響に係るデータを保存することができる。保存部（１２０）は、フラッシュメモリータイプ（ｆｌａｓｈｍｅｍｏｒｙｔｙｐｅ）、ハードディスクタイプ（ｈａｒｄｄｉｓｋｔｙｐｅ）、マルチメディアカードマイクロタイプ（ｍｕｌｔｉｍｅｄｉａｃａｒｄｍｉｃｒｏｔｙｐｅ）、カードタイプのメモリー（例えばＳＤまたはＸＤメモリー等）、ラム（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、ＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ロム（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ＰＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、磁気メモリー、磁気ディスク、光ディスクのうち、少なくとも１つのタイプの保存媒体を含むことができる。

図２は、本開示の一実施例に係る人工神経網の一部を示す概略図である。

本明細書を通して、神経網（２００）、ネットワーク関数、ニューラルネットワーク（ｎｅｕｒａｌｎｅｔｗｏｒｋ）は同じ意味で使われることができる。神経網（２００）は、一般的に「ノード」と称されることのできる相互連結された計算単位の集合により構成されることができる。このようなノードは、「ニューロン（ｎｅｕｒｏｎ）」と称されることもできる。神経網（２００）は、少なくとも１つ以上のノードを含めて構成される。神経網（２００）を構成するノード（またはニューロン）は、１つ以上のリンクによって相互連結されることができる。

神経網（２００）内部で、リンクによって繋がっている１つ以上のノードは、相対的に入力ノードと出力ノードの関係を形成することができる。入力ノードと出力ノードという概念は、相対的なものであり、あるノードに対し出力ノードの関係にある任意のノードは、他のノードとの関係においては入力ノードになることがあり、その逆のことも成立することができる。前述のように、入力ノードと出力ノードとの関係は、リンクを中心にして生成されることができる。１つの入力ノードに１つ以上の出力ノードがリンクによって繋がることができ、その逆も成立することができる。

１つのリンクによって繋がっている入力ノードと出力ノードとの関係において、出力ノードは入力ノードに入力されたデータに基づきその値が決まることができる。ここで入力ノードと出力ノードとを相互連結するノードには重み（ｗｅｉｇｈｔ）が付けられることができる。重みは可変的なものになることもあり、神経網（２００）が求める機能を遂行するために、ユーザーまたはアルゴリズムによって変わることができる。例えば、１つの出力ノードに１つ以上の入力ノードがそれぞれリンクによって相互連結されている場合、出力ノードは前述の出力ノードと繋がっている複数の入力ノードに入力された値と、各入力ノードに対応するリンクに設定された重みに基づき出力ノードの値を決めることができる。

前述のように、神経網（２００）は、１つ以上のノードが１つ以上のリンクによって相互連結され神経網（２００）の中で入力ノードと出力ノードの関係を形成する。神経網（２００）の中でノードとリンクの数、ノードとリンクとの間の相関関係、各リンクに付与された重みの値によって、神経網（２００）の特徴が決まることができる。例えば、同じ数のノードとリンクが存在し、リンクの重みの値が異なる２つの神経網（２００）が存在する場合、２つの神経網（２００）は、異なるものと認識されることができる。

図２に示すように、神経網（２００）は、１つ以上のノードを含めて構成されることができる。神経網（２００）を構成するノードのうち一部は、第１入力ノードからの距離に基づき、１つのレイヤー（ｌａｙｅｒ）を構成することができる。例えば、第１入力ノードからの距離がｎであるノードの集合は、ｎレイヤーを構成することができる。第１入力ノードからの距離は、第１入力ノードから当該ノードにたどり着くために経由しなければならないリンクの最低限の数によって定義されることができる。しかし、このようなレイヤーの定義は説明のための仮のものであり、神経網（２００）の中でレイヤーの位置は、前述のものと異なる方法によって定義されることができる。例えば、ノードのレイヤーは、最終出力ノードからの距離によって定義されることもできる。

第１入力ノードは、神経網（２００）の中のノードのうち他のノードとの関係においてリンクを経由せずにデータが直接入力される１つ以上のノードを意味することができる。または、神経網（２００）ネットワークの中で、リンクを基準にしたノード間の関係において、リンクによって綱がっている他の入力ノードを持たないノードを意味することができる。これと同様に、最終出力ノードは、神経網（２００）の中のノードのうち、他のノードとの関係において、出力ノードを持たない１つ以上のノードを意味することができる。また、ヒドンノードは、第１入力ノードや最終出力ノードではない、神経網（２００）を構成するノードを意味することができる。図２では出力ノードが省略されている。本開示の一実施例に係る神経網（２００）は、入力レイヤーのノードが出力レイヤーに近いヒドンレイヤーのノードより多いことがあり、入力レイヤーからヒドンレイヤーへ展開するにつれノードの数が減っていく形の神経網（２００）になり得る。

ディープニューラルネットワーク（ＤＮＮ：ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ、深層神経網（２００））は、入力レイヤーと出力レイヤー以外に複数のヒドンレイヤーを含む神経網（２００）を意味することができる。ディープニューラルネットワークを利用するとデータの潜在的な構造（ｌａｔｅｎｔｓｔｒｕｃｔｕｒｅｓ）を把握することができる。つまり、写真、文章、ビデオ、音声、音楽の潜在的な構造（例えば、ある物が写真の中にあるのか、文章の内容と感情はどのようなものなのか、音声の内容と感情はどのようなものなのか等）を把握することができる。ディープニューラルネットワークは、畳み込みニューラルネットワーク（ＣＮＮ：ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）、リカレントニューラルネットワーク（ＲＮＮ：ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）、制限ボルツマンマシン（ＲＢＭ：ｒｅｓｔｒｉｃｔｅｄｂｏｌｔｚｍａｎｎｍａｃｈｉｎｅ）、深層信頼ネットワーク（ＤＢＮ：ｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋ）、Ｑネットワーク、Ｕネットワーク、シャムネットワーク等を含むことができる。

図３は、本開示の一実施例に係るコンピューティング装置のプロセッサーが、複数の推論モデルを学習させる一例を示すフローチャートである。

図３を参照すると、プロセッサー（１１０）は全体データセット（３００）から２つ以上のトレーニングデータセット（４００）を生成することができる（Ｓ１００）。

プロセッサー（１１０）は、相異するデータサブセットを含むサンプリングされたデータセットのペアを少なくとも１つ含むトレーニングデータセット（４００）を生成することができる。

本開示の複数の実施例に係るトレーニングデータセット（４００）は、全体データセット（３００）と同じデータを含むことができる。トレーニングデータセット（４００）は、データサブセットとして、学習データセット、検証データセット及びテストデータセットを含むことができる。ただし、トレーニングデータセット（４００）を構成する学習データセット、検証データセット及びテストデータセットは、相互排他的（ｍｕｔｕａｌｌｙｅｘｃｌｕｓｉｖｅ）な１つ以上のデータサブセットになり得る。ここで、データサブセットは全体データセット（３００）からサンプリング（ｓａｍｐｌｉｎｇ）されることができる。つまり、トレーニングデータセット（４００）は、サンプリングされたデータサブセットのペアで構成されることができる。

ここで全体データセット（３００）は、本開示における推論モデル（５００）を学習させるための全体データと定義されることができる。本開示の複数の実施例に係る全体データセット（３００）は、すでにラベル付け（Ｌａｂｅｌ）されていることがあり得る。全体データセット（３００）に対するラベル付け（Ｌａｂｅｌｉｎｇ）は、手作業またはラベル付けするためにトレーニングされた分類器／分類モデルによって行われることができる。

複数の推論モデル（５００）を生成するために、複数のトレーニングデータセット（４００）は、全体データセット（３００）からそれぞれ派生されることができる。トレーニングデータセット（４００）に関する詳しい内容は、図４の説明で後述する。

一般的に本開示に係る推論モデル（５００）と類似したネットワーク関数のトレーニングのためのデータセットは、固定のテストセットを持つように設定される。これはトレーニングされたネットワーク関数の性能を客観的に評価するためである。従って、固定のテストセットは、データに係わる観点を示すものではなく、モデルの性能に係わる観点だけを示すものに過ぎない。

これに対し、相異するデータサブセットのペアによって構成されたトレーニングデータセット（４００）に基づき複数の推論モデル（５００）を学習させる場合、複数の推論モデル（５００）は、全体データセット（３００）に含まれたデータに対してテストを行う。その結果、全体データセット（３００）に含まれた各データに対する予測正確度、学習有効性を調べることができる。つまり、どの類型のデータが上手くトレーニングされており、どのデータがそうでないかを調べることができる。従って、各トレーニングデータセットが相異するデータサブセットのペアを持つようにすることで、ユーザーがデータ収集戦略を策定するための観点を得るようにすることができる。

プロセッサー（１１０）は、生成された２つ以上のトレーニングデータセット（４００）に基づき、１つ以上のネットワーク関数を含む複数の推論モデル（５００）を学習させることができる（Ｓ２００）。

プロセッサー（１１０）は、複数の推論モデル（５００）を学習させることにより全体データセット（３００）に含まれた各データに対する評価を行う複数の推論モデル（５００）を生成することができる。

本開示に係るプロセッサー（１１０）は、複数のトレーニングデータセット（４００）に基づき、複数の推論モデル（５００）を学習させることができる。後述するが、プロセッサー（１１０）は、複数の推論モデル（５００）から生成された複数の予測結果を総合して各データに対する評価を行うことができる。

プロセッサー（１１０）は、複数の予測結果を総合するためにアンサンブル手法を利用することができる。ここでアンサンブル手法とは、与えられた資料でいくつかの予測モデルを作成し、これらを組み合わせて１つの最終的な予測モデルを作成する方法と定義されることができる。

本開示に係るプロセッサー（１１０）は、平均、多数決、ベイズ推論等をアンサンブル手法を実行するための具体的な方法として利用することができる。前述のアンサンブル手法を実行するための具体的な方法は例示に過ぎず、本開示はこれに限定されない。

上述の複数の推論モデル（５００）はそれぞれ複数のトレーニングデータセット（４００）に対応する。推論モデル（５００）はそれぞれトレーニングデータセット（４００）に含まれたデータサブセットのペアのうち、学習データに基づき学習される。１つのトレーニングデータセット（４００）から複数の推論モデル（５００）が生成されることができ、この場合プロセッサー（１１０）は、検証データに基づき、どのモデルを本開示に係るデータ収集戦略を策定する方法を実現するための複数の推論モデル（５００）の一つとして提供するかを決めることができる。決められた複数の推論モデル（５００）はそれぞれ全体データセット（３００）に対して推論結果を生成することができる。ここで推論結果は、特定のデータに対する分類結果（例えば、ラベル）と、当該分類結果に対する確信度スコアとを含むことができる。ただし、分類結果と確信度スコアは、推論結果に関する一例に過ぎず、推論結果に含まれることのできるデータは、これに限定されない。

ここで確信度スコアは、任意のデータに対して設定されることのできる個々のラベルに対する確率と定義されることができる。例えば、Ａという画像に対し、犬と分類される確率が０．４、猫と分類される確率が０．６だとすると、画像Ａの確信度スコアは、犬に対しては０．４、猫に対しては０．６になり得る。前述の確信度スコアは例示に過ぎず本開示はこれに限定されない。

相異するデータサブセットのペアで構成されたトレーニングデータセット（４００）に基づき、複数の推論モデル（５００）を学習させる場合、複数の推論モデル（５００）は、全体データセット（３００）に含まれたデータに対してテストを行う。その結果、現在の全体データセット（３００）の全体に対する評価が可能な複数のモデルが生成されることができる。これによって、本開示に係るデータ収集方法に関わるユーザーは、データ収集戦略を策定するための観点を得ることができる。

図４は、本開示の一実施例に係るコンピューティング装置のプロセッサーが、全体データセットから複数のトレーニングデータセットを生成する一例を示す図面である。

１つのデータセットから複数のトレーニングデータセット（４００）を生成するために、一般的にＫ－分割交差検証（Ｋ－ＦｏｌｄＣｒｏｓｓＶａｌｉｄａｔｉｏｎ）手法が利用されることができる。Ｋ－分割交差検証とは、データセットをいくつかのサブセットに分けて、各サブセットをテストセットまたは検証セットとして使い、テストセットまたは検証セットではないサブセットを学習セットとして利用する方法と定義されることができる。これはモデルを学習させるためのデータが十分ではないとき有効なやり方になり得る。

本開示に係るデータ収集戦略を策定する方法は、さらに、上述のようにテストデータセットも可変的に設定することができる。

従って、トレーニングデータセット（４００）は、相異する学習データセット、検証データセット及びテストデータセットを含むことができる。

ここで、本開示の複数の実施例に係るプロセッサー（１１０）は、全体データセット（３００）から２つ以上のトレーニングデータセット（４００）を生成するとき、同じデータを含まないようにランダムに選択された任意のデータをテストデータセットに割り当てることができる。つまり、各トレーニングデータセット（４００）のテストデータセットは相互排他的になり得る。

上述のように複数のテストデータセットを構成すると、全体データセット（３００）に含まれたデータはすべて少なくとも１回は推論モデル（５００）によって学習・検証・テストの段階をすべて通ることになる。つまり、全体データセットに含まれた各データは、複数のトレーニングデータセットに含まれながら、学習データセット、検証データセット、テストデータセットにそれぞれ含まれることができる。

その結果、全体データセット（３００）に含まれた各データに対する予測正確度を調べることができる。つまり、どの類型のデータが上手くトレーニングされており、どのデータがそうでないかを調べることができる。従って、各トレーニングデータセットが相異するデータサブセットのペアを持つようにすることで、各データが学習、検証、テストの用途すべてにおいて使われるようにすることができ、ユーザーがデータ収集戦略を策定するための観点を得るようにすることができる。

図５は、本開示の一実施例に係るコンピューティング装置のプロセッサーが、複数のトレーニングデータセットを生成する一例を示すフローチャートである。

図５を参照すると、プロセッサー（１１０）は、全体データセットをＭ個のサブセットに分割することができる（Ｓ１１０）。

プロセッサー（１１０）は、分割されたＭ個のサブセットの中から、少なくとも１つのサブセットをテストデータセットに割り当てることができる（Ｓ１２０）。

これはＭ‐分割交差検証（Ｍ－ＦｏｌｄＣｒｏｓｓＴｅｓｔ）を行うためのテストデータセットを選択するための一例である。従ってテストデータセットを生成するための具体的な方法はこれに限定されない。

プロセッサー（１１０）は、全体データセット（３００）のうち前述のテストデータセットを除いたデータセットをＮ個のサブセットに分割することができる（Ｓ１３０）。

プロセッサー（１１０）は、分割されたＮ個のサブセットの中から、少なくとも１つのサブセットを検証データセットに割り当てることができる（Ｓ１４０）。

上述のように、トレーニングデータセット（４００）に含まれたデータサブセットはそれぞれ相互排他的である。つまり、同じデータを含むことができない。従って、先にテストデータセットが決まると、残りの部分に対してＮ‐交差検証を行って検証データセットに割り当てることができる。テストデータセットと検証データセットがすべて決まると、プロセッサー（１１０）は、割り当てられていない残りのデータをすべて学習データセットに割り当てることができる。つまり、複数のトレーニングデータセット（４００）はそれぞれ学習データセット、テストデータセット、検証データセットに構成されることができる。各トレーニングデータセット（４００）に含まれたテストデータセットは相互排他的になり得る。

図６は、本開示の一実施例に係るコンピューティング装置のプロセッサーが、複数の推論モデルを生成する一例を示す図面である。

プロセッサー（１１０）は、２つ以上のトレーニングデータセット（４００）に基づき、複数の推論モデル（５００）を生成することができる。上述のように、トレーニングデータセット（４００）１つに対して１つ以上の推論モデル（５００）が生成されることができる。この時前述の複数の推論モデル（５００）のうち１つになり得る推論モデル（５００）の決定は、検証データセットに基づいて行われることができる。

ここで、複数の推論モデル（５００）の各ネットワーク関数の形は、相異するものにもなり得る。周知のように、ディープラーニングを実行するためのネットワーク関数の形は、多様なものがあり得る。従って、複数の推論モデル（５００）はそれぞれ同じ形、もしくは異なる形のネットワーク関数から成ることがあり得る。

推論モデル（５００）のネットワーク関数の形を多様な形に構成する場合、同じデータに対して色々なモデルを通じて得られた結果を得ることができる。本発明の目的である、データ評価によるデータ収集戦略策定において、多様な形のネットワーク関数によるデータ評価結果（８００）を導入すれば、データを多角的に見ることができる。また特定のデータ類型に偏った結果が出ることを避けられるため、複数のモデルの結果を総合してデータに対する評価を行いやすくなる。本開示の一実施例に係るデータ管理方法は、データ別、モデル別の推論正確度、学習の容易性等を判断するようにすることで、データ観点やモデル観点において最適化されたモデル構成に対する洞察を提供することができる。

図７は、本開示の一実施例に係るコンピューティング装置のプロセッサーが、データ収集戦略を策定する一例を示すフローチャートである。

図７を参照すると、プロセッサー（１１０）は２つ以上のトレーニングデータセット（４００）に基づき学習された、１つ以上のネットワーク関数を含む複数の推論モデル（５００）に基づき、任意のデータに対する複数の推論結果（６００）を生成することができる（Ｓ３００）。

段階（Ｓ３００）によると、データセット（３００）に含まれた各データに対して、複数の推論モデル（５００）それぞれの分類値に対する推論結果が生成される。つまり、推論モデル（５００）＃１、推論モデル（５００）＃２、…、推論モデル（５００）＃ＮＭがそれぞれ、データ＃１、データ＃２、データ＃３、…、データ＃Ｎに対する分類値に対する推論結果を生成することができる。ここで推論結果は、予測ラベルとラベル予測結果に対する確信度スコアを含むことができる。

ここで、任意のデータとは、全体データセット（３００）に含まれたデータの中から、任意に選択された１つのデータと定義されることができる。

プロセッサー（１１０）は、生成された任意のデータに対する複数の推論結果（６００）と実際の結果との対応関係を提供することができる（Ｓ４００）。

ここで実際の結果は、全体データセット（３００）に対するグラウンドトゥルース（Ｇｒｏｕｎｄｔｒｕｔｈ）データを意味することができる。実際の結果は、ある対象に対する実測結果を意味することができる。例えば、子犬に係る写真の実際の結果は、子犬になり得る。上述のラベルは、基本的に、ある対象に対して観測者が設定した分類値に過ぎないため、実際の結果とラベルは相異することがある。

本開示の複数の実施例に係る推論結果と実際の結果との対応関係は、分類結果そのものまたは分類結果に係る情報と定義されることができる。例えば、対応関係は分類結果に係る確信度スコアになり得る。

プロセッサー（１１０）が対応関係に係る情報を提供することにより、全体データセット（３００）に含まれたデータのうち、どの類型のデータについて学習が上手く行われていないか判断することができる。従って、本開示に係るデータ収集戦略がユーザーによって策定されることができる。

プロセッサー（１１０）は、任意のデータに対する評価結果（８００）を提供することができる（Ｓ５００）。

プロセッサー（１１０）は、任意のデータの実際の結果と推論結果との間の対応関係を示すとともに、さらに進んで、任意のデータに対する評価結果（８００）を提供することができる。評価結果（８００）は、推論結果、ラベル及び実際の結果に基づく分析だけでなく、分析結果に基づくデータ収集戦略を含むことができる。これについては図１２の説明で詳しく述べる。

図８は、本開示の一実施例に係るコンピューティング装置のプロセッサーが、複数の推論結果を生成する一例を示す図面である。

プロセッサー（１１０）が生成する複数の推論結果（６００）は、複数の推論モデル（５００）がそれぞれ全体データセット（３００）に含まれた各データに対して推論した分類結果と定義されることができる。つまり、推論モデル（５００）＃１、推論モデル（５００）＃２、…、推論モデル（５００）＃ＮＭがそれぞれデータ＃１、データ＃２、データ＃３、…、データ＃Ｎに対する分類値に対する推論結果を生成することができる。ここで推論結果は予測ラベルとラベル予測結果に対する確信度スコアを含むことができる。

プロセッサー（１１０）は、生成された推論結果を総合して単一の推論結果（７００）または推論信頼度スコアを生成できるようになる。これについては図１０の説明で詳しく後述する。

図９は、本開示の一実施例に係るコンピューティング装置のプロセッサーが、任意のデータに対する複数の推論結果と実際の結果との対応関係を提供する一例を示すフローチャートである。

図９を参照すると、プロセッサー（１１０）は、任意のデータに対する複数の推論結果（６００）に基づき、任意のデータに対する単一の推論結果（７００）を決めることができる（Ｓ４１０）。

ここで単一の推論結果（７００）は、複数の推論結果（６００）に基づき（またはこれを総合して）任意のデータに対して生成される１つの結果を意味する。単一の推論結果（７００）は、当該データのラベルに対する推論信頼度スコアになり得る。例えば、複数のモデルにおいてすべて特定の画像に写っているオブジェクトに対して子犬というラベルが付けられた場合、推論モデル（５００）が当該データに図示されたオブジェクトを犬と予測する確率（信頼度）値の平均が０．８８だったら、単一の推論結果（７００）は０．８８になり得る。前述の記載は、例示に過ぎず、本開示はこれに限定されない。

ここでアンサンブル手法とは、与えられた資料でいくつかの予測モデルを作成し、これらを組み合わせて１つの最終的な予測モデルを作成する方法と定義されることができる。

本開示に係るプロセッサー（１１０）は、平均、多数決、ベイズ推論等をアンサンブル手法を実現するための具体的な方法として利用することができる。

上述のようにアンサンブル手法等を利用して単一の推論結果（７００）を生成する場合、単一のモデルによる推論に比べ、より良い性能が得られるとされている。データに対する分類予測結果が正確になるほど適切なデータ収集戦略の策定が可能になる。

プロセッサー（１１０）は決められた単一の推論結果（７００）と前述の実際の結果との対応関係を提供することができる（Ｓ４２０）。

本開示の複数の実施例に係る対応関係は、分類結果そのものまたは分類結果に係る情報と定義されることができる。例えば、対応関係は分類結果に対する確信度スコアになり得る。

プロセッサー（１１０）が対応関係に係る情報を提供することで、全体データセット（３００）に含まれたデータのうち、どの類型のデータに対して学習が上手く行われていないか判断することができる。従って、本開示に係るデータ収集戦略がユーザーによって策定されることができる。

図１０は、本開示の一実施例に係るコンピューティング装置のプロセッサーが、確信度スコアを生成する一例を示す図面である。

ここで単一の推論結果（７００）は、複数の推論結果（６００）に基づき（またはこれを総合して）任意のデータに対して生成される１つの結果を意味する。単一の推論結果（７００）は、当該データのラベルに対する推論信頼度スコアになり得る。

図１０を参照すると、画像＃１に対する単一の推論結果（７００）は犬に対する０．８８の推論信頼度スコアになり得る。

上述のようにアンサンブル手法を利用した単一の推論結果（７００）は、単一モデルによる推論結果よりもっと正確な性能を持つとされており、より適切なデータ収集戦略の策定が可能になる。

図１１は、本開示の一実施例に係るコンピューティング装置のプロセッサーが、任意のデータに対する評価結果を提供する一例を示すフローチャートである。

図１１を参照すると、プロセッサー（１１０）は、複数の推論結果（６００）に基づき任意のデータに対する推論信頼度スコアを演算することができる（Ｓ５１０）。

プロセッサー（１１０）は、推論結果に含まれた分類予測結果と実際の結果とが一致するか否かと、推論信頼度スコアに対応する評価結果（８００）を提供することができる（Ｓ５２０）。

分類予測結果や実際の結果と推論信頼度スコアに基づき評価結果（８００）を提供する一例は、図１２の説明で詳しく説明する。

図１２は、本開示の一実施例に係るプロセッサーが、任意のデータに対する評価結果を提供する一例を示す図面である。

プロセッサー（１１０）は、任意のデータに対する複数の推論結果（６００）に基づき任意のデータに対する単一の推論結果（７００）を決めることができる。さらに、プロセッサー（１１０）は、単一の推論結果（７００）と実際の結果との対応関係とを提供することができる。プロセッサー（１１０）は、任意のデータに対する評価結果（８００）を提供することができ、これは前述の複数の推論結果（６００）と実際の結果に基づくものになり得る。

以下に、コンピューティング装置（１００）のプロセッサー（１１０）が、任意のデータに対する評価結果（８００）を提供し、データ収集戦略を策定する一例を説明する。ただし、以下に述べる内容は、評価結果（８００）の提供とデータ収集戦略の策定に係る一例に過ぎず、評価結果（８００）の提供やデータ収集戦略の策定は、これに限定されない。

図１２に示すように、任意のデータに対する評価結果（８００）が提供されることができる。評価結果（８００）は、実際の結果とラベルとが一致するかどうかと、推論信頼度スコアの度合い（信頼度が高い、中間、低い）を含むことができる。推論信頼度スコアのレベル（高い、中間、低い）は、推論信頼度スコアと予め設定されている少なくとも１つ以上のしきい値によって決まることができる。

図１２に示す各データの例示である画像＃１、画像＃２、画像＃３を例に挙げ、推論信頼度スコアレベルの決定について説明する。本開示に係るプロセッサー（１１０）は、推論信頼度スコアのレベルを決めるための第１しきい値を０．３に、第２しきい値を０．８に設定することができる。この場合において、画像＃１の推論信頼度スコアの０．８８は、第２しきい値より大きいため画像＃１の推論信頼度スコアレベルは、「高い」となり、画像＃２の推論信頼度スコアである０．１は、第１しきい値より小さいため推論信頼度スコアレベルは「低い」となり、画像＃３の推論信頼度スコアの０．５は、第１しきい値よりは大きく第２しきい値よりは小さいため画像＃３の推論信頼度スコアのレベルは、「中間」となるよう決められることができる。前述の推論信頼度との比較は例示に過ぎず、本開示はこれに限定されない。

このような評価資料は、ユーザーに直接提供されたり、データ収集戦略を策定するための基礎資料として利用ことができる。ラベルと実際の結果は、一致することもあれば一致しないこともあり、データ収集戦略としては、「維持」・「ラベル訂正」・「当該類型のデータ追加」があり得る。維持は、当該類型のデータに対するさらなる収集や加工が不要であることを意味することができる。ラベル訂正は付けられたラベルが実際の結果と相異しているためラベルを実際の結果に合わせる作業が必要であることを意味することができる。当該類型のデータ追加は、特定の類型のデータに対する学習が上手く行われていないため、当該データと類似したデータをさらに収集する活動が求められることを意味することができる。本開示の一実施例において、当該データと類似したデータは、当該データの分類クラスに属するデータを含むことができる。

図１２によると、任意のデータに対する評価結果（８００）は、実際の結果とラベルとが一致しており、推論信頼度が高い類型のデータ（第１類型）を含むことができる。この場合、複数の推論モデル（５００）は、第１類型のデータを上手く予測できるように上手くトレーニングされているとみることができる。従って、複数の推論モデル（５００）をトレーニングさせるための第１類型のデータは、十分であると評価されることができる。従って、第１類型のデータに対してはデータのさらなる収集またはラベル訂正が不要で、「維持」というデータ収集戦略がユーザーに提供されることができる。図１２の例示において、画像＃１は、例えば、犬の画像（つまり、実際の結果（ｇｒｏｕｎｄｔｒｕｔｈ）が犬である画像）を含み、犬のラベルを含むことが可能である。推論モデルは、画像＃１に対し画像＃１が犬を含む確率を０．８８の推論信頼度と分類することができる。この場合、画像＃１は、実際の結果とラベルが一致し、推論モデルが高い推論信頼度と推定したため、推論モデルの学習が容易で、学習データが十分な第１類型のデータに分類されることができる。前述の推論信頼度は例示に過ぎず本開示はこれに限定されない。

また、プロセッサー（１１０）は、第１類型のデータに対して提供されるデータ収集戦略をタグすることができる。例えば、図１２の画像＃１に「維持」、「重み付け」、「データ拡張（ａｕｇｍｅｎｔａｔｉｏｎ）の実行」等のタグが付けられることができる。プロセッサー（１１０）は、画像＃１に付けられたデータ収集戦略に係るタグに基づき、画像＃１に対し何ら措置を取らなかったり、学習において当該データに重みを付けることもでき、画像＃１に基づきデータ拡張（ａｕｇｍｅｎｔａｔｉｏｎ）を行うことで類似の画像をさらに生成することもできる。

任意のデータに対する評価結果（８００）は、実際の結果とラベルが相異しており推論信頼度が低い類型のデータ（第２類型）を含むことができる。これはラベルが間違っていることになり得る。従って、複数の推論モデル（５００）は、実際の結果に対し高い推論信頼度を見せているとみることができる。この場合、ラベルだけ間違っており、複数の推論モデル（５００）が十分に上手くトレーニングされた類型のデータだとすることができる。従ってこの場合には、「ラベル訂正」のデータ収集戦略が提供されることができる。

プロセッサー（１１０）は、推論信頼度が予め設定されているしきい値以下のデータに対し、実際の結果とラベルが相異していると判断することができる。ここで予め設定されているしきい値は、推論結果に基づき当該クラスにデータを分類するためのしきい値より遥かに低いしきい値になり得る。例えば、０．９以上の推論信頼度を持つデータを当該クラスに分類する場合、プロセッサー（１１０）がラベルが実際の結果と相異していると判断するための推論信頼度のしきい値は、０．１以下になり得る。つまり、学習データ不足等の理由で推論信頼度が低いと判断するためのしきい値より、ラベルが実際の結果と相異しているかどうかを判断するためのしきい値が低いことがあり得る。

プロセッサー（１１０）は、当該データのラベルのクラスに属する他のデータに対する推論信頼度が予め設定されているしきい値以上の場合は、推論信頼度が予め設定されているしきい値以下のデータに対して、当該データのラベルが実際の結果と相異していると判断することができる。つまり、当該データのクラスに属する他のデータに対しては推論信頼度が高い場合、当該クラスに対しては学習が上手く行われたと判断できるが、当該データに対してのみ推論信頼度が低い場合は、これは実際の結果とラベルが相異していることである可能性がある。

図１２の例示において、画像＃２は、例えば、犬の画像を含みながら猫のラベルを含むことがあり得る。推論モデルは、画像＃２に対して、画像＃２が猫を含む確率を０．１の推論信頼度に分類することができる。この場合、画像＃２は、実際の結果とラベルが一致しておらず、推論モデルが低い推論信頼度と推定したため、推論モデルの学習が容易ではないと理解されることができる。従って、プロセッサー（１１０）は、画像＃２をラベルに誤りがあった第２類型のデータに分類することができる。前述の推論信頼度は、例示に過ぎず本開示はこれに限定されない。

第２類型のデータに分類されるデータは、ラベルと実際の結果とが一致しないとみることができる。従って、学習時に第２類型のデータに対してラベルを訂正することが考慮されることができる。また、プロセッサー（１１０）は、第２類型のデータに対して提供されるデータ収集戦略をタグすることができる。例えば、図１２の画像＃２に「ラベル訂正」等のタグが付けられることができる。この場合、プロセッサー（１１０）は、ラベル訂正等のタグが付いたデータをユーザーに提供してラベルが修正されるようにすることができる。また、プロセッサー（１１０）は、この場合、他のクラスに対して推論信頼度が予め設定されているしきい値以上の場合、他のクラスのラベルを当該データの疑似ラベルに決めることができる。

また、第２類型のデータは、実際の結果とラベル付けが相異しており、推論モデルの学習性能に否定的な影響を提供することができるため、第２類型のデータの学習における価値を評価して、学習から排除することもできる。

学習データを評価して学習から排除することに関する具体的な説明は、本出願においてその全体が参照として統合されるＤａｔａＤｒｏｐｏｕｔ：ＯｐｔｉｍｉｚｉｎｇＴｒａｉｎｉｎｇＤａｔａｆｏｒＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、Ｗａｎｇｅｔａｌ．においてより具体的に議論される。

任意のデータに対する評価結果（８００）は、実際の結果とラベルとが相異しており推論信頼度が低いか中間程度である類型のデータ（第３類型）を含むことができる。この場合、複数の推論モデル（５００）がまだ十分にトレーニングされていないと判断されることができる。従って、このような類型のデータについてはさらなるトレーニングのために「当該類型のデータ追加」のデータ収集戦略が提供されることができる。

図１２の例示において画像＃３は、例えば、猫の画像を含み、猫のラベルを含むことがあり得る。推論モデルは、画像＃３に対し、画像＃３が猫を含む確率を０．５の推論信頼度に分類することができる。この場合、画像＃３は、実際の結果とラベルが一致しており推論モデルが中間程度の推論信頼度と推定したため、推論モデルの学習が容易ではないと理解されることができる。従って、プロセッサー（１１０）は、画像＃３を当該類型のデータの追加が必要な第３類型のデータに分類することができる。前述の推論信頼度は、例示に過ぎず本開示はこれに限定されない。

プロセッサー（１１０）は、推論信頼度が予め設定されているしきい値以下のデータに対して、当該データに対して推論モデルの学習が不足していると判断することができる。例えば、プロセッサー（１１０）は、推論信頼度が予め設定されているしきい値以下のデータのラベルのクラスに属する他のデータの数、当該クラスのラベルを持つデータの全体データセットでの比率等に基づき、推論信頼度が予め設定されているしきい値以下のデータに対して、当該クラスのデータが不足していると判断することができる。つまり、推論信頼度が低い場合、データの数が不足したりラベルが間違ってることがあり得るため、プロセッサー（１１０）は、当該クラスの他のデータの数に基づき当該クラスのデータの数が不足していると判断することができる。

第３類型のデータに分類されるデータは、学習のためのデータが十分ではないとみることができる。従って、学習時に第３類型のデータに対してデータのさらなる収集だけでなく重みを付けたり、データ拡張（ａｕｇｍｅｎｔａｔｉｏｎ）を行うことが考慮されることができる。また、プロセッサー（１１０）は、第３類型のデータに対して提供されるデータ収集戦略をタグすることができる。例えば、図１２の画像＃３に「重み付け」、「データ拡張（ａｕｇｍｅｎｔａｔｉｏｎ）の実行」、「データ追加収集」等のタグが付けられることができる。前述の第３類型のデータに分類されるデータに対する重み付けは、例えば、当該クラスに属するデータの学習時の学習率（ｌｅａｒｎｉｎｇｒａｔｅ）を高く設定して、当該クラスに属するデータに対してより早く誤差が収束するようにすることもできる。

上述した内容に基づき、本開示に係るデータ収集戦略を策定する方法を利用するユーザーは、手元のデータに対するさらなる処理を決めることができる。例えば、第３類型のデータに分類されたデータに付いているタグによって、第３類型やそれに類似したデータに対する重み付け、データ拡張（ａｕｇｍｅｎｔａｔｉｏｎ）等が行われることができる。従って、人工知能やディープラーニングモデルのトレーニングのためのデータの収集が効率よく行われることができる。

図１３は、本開示の複数の実施例によって実現できる例示的なコンピューティング環境を示す簡略で一般的な概略図である。

図１３に示すコンピューター（１１０２）は、本開示に係るデータ収集戦略方法が行われるコンピューティング装置（１００）のうち少なくとも１つに対応されることができる。

本開示の内容が一般的に１つ以上のコンピューター上で実行されることのできるコンピューターで実行可能な命令と関連付けられて前述されているが、当業者なら本開示の内容が、他のプログラムモジュールと結合して及び／またはハードウェアとソフトウェアとの組み合わせによって実現されることができることをよく理解するだろう。

一般的に、本明細書におけるモジュールは、特定のタスクを実行したり特定の抽象的なデータ類型を実装するルーティン、プロシージャ、プログラム、コンポーネント、データ構造、その他等々を含む。また、当業者なら本開示の方法がシングルプロセッサーまたはマルチプロセッサーコンピューターシステム、ミニコンピューター、メインフレームコンピューターはもちろん、パーソナルコンピューター、ハンドヘルドコンピューティング装置、マイクロプロセッサー－基盤またはプログラム可能な家電製品、その他等々（これらはそれぞれ１つ以上の関連する装置と繋がって動作することができる）をはじめとする、他のコンピューターシステム構成によって実施されることができることをよく理解できるだろう。

本開示の説明された実施例は、さらに、あるタスクが通信ネットワークを通じて繋がっている遠隔処理装置によって行われる分散コンピューティング環境で実施されることができる。分散コンピューティング環境において、プログラムモジュールは、ローカルや遠隔メモリー保存装置の両方に位置することができる。

コンピューターは通常コンピューターで読み取り可能な多様な媒体を含む。コンピューターによってアクセス可能な媒体として、揮発性及び非揮発性媒体、一時的（ｔｒａｎｓｉｔｏｒｙ）及び非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）媒体、移動式及び非移動式媒体を含む。制限ではなく例として、コンピューターで読み取り可能な媒体は、コンピューターで読み取り可能な保存媒体及びコンピューターで読み取り可能な伝送媒体を含むことができる。

コンピューターで読み取り可能な保存媒体は、コンピューターで読み取り可能な命令、データ構造、プログラムモジュールまたはその他のデータのような情報を保存する任意の方法または技術によって実装される揮発性及び非揮発性媒体、一時的及び非一時的媒体、移動式及び非移動式媒体を含む。コンピューターで読み取り可能な保存媒体はＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリーまたはその他のメモリー技術、ＣＤ－ＲＯＭ、ＤＶＤ（ｄｉｇｉｔａｌｖｉｄｅｏｄｉｓｋ）またはその他の光ディスク保存装置、磁気カセット、磁気テープ、磁気ディスク保存装置またはその他の磁気保存装置、またはコンピューターによってアクセスされることができ、必要な情報を保存するのに使われることのできる任意のその他の媒体を含むが、これに限定されない。

コンピューターで読み取り可能な伝送媒体は、通常、搬送波（ｃａｒｒｉｅｒｗａｖｅ）またはその他の伝送メカニズム（ｔｒａｎｓｐｏｒｔｍｅｃｈａｎｉｓｍ）のような被変調データ信号（ｍｏｄｕｌａｔｅｄｄａｔａｓｉｇｎａｌ）にコンピューターで読み取り可能な命令、データ構造、プログラムモジュールまたはその他のデータ等を実装し、すべての情報伝達媒体を含む。被変調データ信号という用語は、信号の中で情報をエンコードするように、その信号の特性のうち一つ以上を設定または変更した信号を意味する。制限ではなく例として、コンピューターで読み取り可能な伝送媒体は、有線ネットワークまたは直接配線接続（ｄｉｒｅｃｔ－ｗｉｒｅｄｃｏｎｎｅｃｔｉｏｎ）のような有線媒体、そして音響、ＲＦ、赤外線、その他の無線媒体のような無線媒体を含む。前述の媒体のうち、いずれかによる任意の組み合わせもまたコンピューターで読み取り可能な伝送媒体の範囲の中に入るものとする。

コンピューター（１１０２）を含む本開示の多様な側面を実現する例示的な環境（１１００）が示されており、コンピューター（１１０２）は、処理装置（１１０４）、システムメモリー（１１０６）、システムバス（１１０８）を含む。システムバス（１１０８）は、システムメモリー（１１０６）（これに限定されない）をはじめとするシステムコンポーネントを処理装置（１１０４）につなげる。処理装置（１１０４）は、多様な商用プロセッサー（１１０）のうち任意のプロセッサー（１１０）になり得る。デュエルプロセッサー（１１０）とその他のマルチプロセッサー（１１０）アーキテクチャもまた処理装置（１１０４）として利用されることができる。

システムバス（１１０８）は、メモリーバス、周辺装置バス、そして多様な商法バスアーキテクチャの中から、任意のものを使用するローカルバスにさらに相互連結されることのできるいくつかの類型のバス構造のうちいずれかになり得る。システムメモリー（１１０６）は、読み取り専用メモリー（ＲＯＭ）（１１１０）やランダムアクセスメモリー（ＲＡＭ）（１１１２）を含む。基本的な入出力システム（ＢＩＯＳ）は、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ等の非揮発性メモリー（１１１０）に保存され、このＢＩＯＳは、起動中の時等にコンピューター（１１０２）の中の複数の構成要素間の情報のやりとりをサポートする基本的なルーティンを含む。ＲＡＭ（１１１２）は、またデータをキャッシュするための静的ＲＡＭ等の高速ＲＡＭを含むことができる。

コンピューター（１１０２）においては、また、内蔵型ハードディスクドライブ（ＨＤＤ）（１１１４）（例えば、ＥＩＤＥ、ＳＡＴＡ）（この内蔵型ハードディスクドライブ（１１１４）はまた適切なシャシー（図示は省略）の中で外付け型の用途で構成されることができる）、磁気フロッピーディスクドライブ（ＦＤＤ）（１１１６）（例えば、移動式ディスケット（１１１８）から読み取ったりそれに書き込むためのものである）及び光ディスクドライブ（１１２０）（例えば、ＣＤ－ＲＯＭディスク（１１２２）を読み取ったり、ＤＶＤ等のその他の高容量光媒体から読み取ったり、それに書き込むためのものである）を含む。ハードディスクドライブ（１１１４）、磁気ディスクドライブ（１１１６）及び光ディスクドライブ（１１２０）はそれぞれハードディスクドライブインターフェース（１１２４）、磁気ディスクドライブインターフェース（１１２６）及び光ドライブインターフェース（１１２８）によってシステムバス（１１０８）に繋がることができる。外付け型ドライブの実装のためのインターフェース（１１２４）は、例えば、UＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）やＩＥＥＥ１３９４インターフェース技術のうち、少なくとも１つまたはその両方を含む。

これらのドライブ及びこれらに係るコンピューターで読み取り可能な媒体は、データ、データ構造、コンピューターで実行可能な命令、その他等々の非揮発性保存を提供する。コンピューター（１１０２）の場合、ドライブ及び媒体は、任意のデータを適切なデジタル形式に保存することに対応する。前述におけるコンピューターで読み取り可能な保存媒体に係る説明が、ＨＤＤ、移動式磁気ディスク及びＣＤまたはＤＶＤ等の移動式光媒体について触れているが、当業者ならジップドライブ（ｚｉｐｄｒｉｖｅ）、磁気カセット、フラッシュメモリーカード、カートリッジ、その他等々のコンピューターにより読み取り可能な他の類型の保存媒体もまた例示的な運営環境で使われることができ、さらに、これらの媒体のうち任意のある媒体が、本開示の方法を実行するためのコンピューターで実行可能な命令を含むことができることをよく理解できるだろう。

運営システム（１１３０）、１つ以上のアプリケーションプログラム（１１３２）、その他のプログラムモジュール（１１３４）及びプログラムデータ（１１３６）をはじめとする多数のプログラムモジュールが、ドライブ及びＲＡＭ（１１１２）に保存されることができる。運営システム、アプリケーション、モジュール及び／またはデータの全部またはその一部分がまたＲＡＭ（１１１２）にキャッシュされることができる。本開示が商業的に利用可能な様々な運営システムまたは複数の運営システムの組み合わせにより実装されることができることをよく理解できるだろう。

ユーザーは、１つ以上の有線・無線の入力装置、例えば、キーボード（１１３８）及びマウス（１１４０）等のポインティング装置を通じてコンピューター（１１０２）に命令及び情報を入力することができる。その他の入力装置（図示は省略）としてはマイク、ＩＲリモコン、ジョイスティック、ゲームパッド、スタイラスペン、タッチスクリーン、その他等々があり得る。これら及びその他の入力装置が、よくシステムバス（１１０８）に繋がっている入力装置インターフェース（１１４２）を通じて処理装置（１１０４）に繋がることがあるが、並列ポート、ＩＥＥＥ１３９４直列ポート、ゲームポート、ＵＳＢポート、ＩＲインターフェース、その他等々のその他のインターフェースによって繋がることができる。

モニター（１１４４）または他の類型のディスプレイ装置も、ビデオアダプター（１１４６）等のインターフェースを通じてシステムバス（１１０８）に繋がる。モニター（１１４４）に加えて、コンピューターは一般的にスピーカー、プリンター、その他等々のその他の周辺出力装置（図示は省略）を含む。

コンピューター（１１０２）は、有線及び／または無線通信による（複数の）遠隔コンピューター（１１４８）等の１つ以上の遠隔コンピューターへの論理的接続を利用し、ネットワーク化された環境で動作することができる。（複数の）遠隔コンピューター（１１４８）は、ワークステーション、サーバーコンピューター、ルーター、パーソナルコンピューター、携帯用コンピューター、マイクロプロセッサー基盤娯の楽機器、ピア装置またはその他の通常のネットワークノードになることができ、一般的にコンピューター（１１０２）について述べられた構成要素のうち、多数またはその全部を含むが、簡略化するために、メモリー保存装置（１１５０）のみ図示されている。図示されている論理的接続は、近距離通信網（ＬＡＮ）（１１５２）及び／または、より大きいネットワーク、例えば、遠距離通信網（ＷＡＮ）（１１５４）における有線・無線の接続を含む。このようなＬＡＮ及びＷＡＮのネットワーキング環境は、オフィスや会社では一般的なもので、イントラネット等の全社的コンピューターネットワーク（ｅｎｔｅｒｐｒｉｓｅ－ｗｉｄｅｃｏｍｐｕｔｅｒｎｅｔｗｏｒｋ）を容易にし、これらはすべて全世界のコンピューターネットワーク、例えば、インターネットに繋がることができる。

ＬＡＮネットワーキング環境で使われるとき、コンピューター（１１０２）は、有線及び／または無線通信ネットワークインターフェース、または、アダプター（１１５６）を通じてローカルネットワーク（１１５２）に繋がる。アダプター（１１５６）は、ＬＡＮ（１１５２）への有線または無線通信を容易にすることができ、このＬＡＮ（１１５２）は、また無線アダプター（１１５６）と通信するためにそれに設置されている無線アクセスポイントを含む。ＷＡＮネットワーキング環境で使われるとき、コンピューター（１１０２）はモデム（１１５８）を含むことができたり、ＷＡＮ（１１５４）上の通信サーバーに繋がったり、またはインターネットを通じる等、ＷＡＮ（１１５４）を通じて通信を設定するその他の手段を持つ。内蔵型又は外付け型、そして、有線または無線装置になり得るモデム（１１５８）は、直列ポートインターフェース（１１４２）を通じてシステムバス（１１０８）に繋がる。ネットワーク化された環境において、コンピューター（１１０２）について説明されたプログラムモジュールまたはその一部分が、遠隔メモリー／保存装置（１１５０）に保存されることができる。図示されたネットワーク接続が例示的なものであり、複数のコンピューター間で通信リンクを設定する他の手段が使われることができるということはよく理解できるだろう。

コンピューター（１１０２）は、無線通信で配置されて動作する任意の無線装置またはオブジェクト、例えば、プリンター、スキャナー、デスクトップ及び／または携帯用コンピューター、ＰＤＡ（ｐｏｒｔａｂｌｅｄａｔａａｓｓｉｓｔａｎｔ）、通信衛生、無線で検出可能なタグに係る任意の装備または場所及、及び電話と通信する動作をする。これは、少なくともＷｉ－Ｆｉ（登録商標）及びブルートゥース（登録商標）無線技術を含む。従って、通信は、従来のネットワークのように予め定義された構造であったり、単純に少なくとも２つの装置の間でのアドホック通信（ａｄｈｏｃｃｏｍｍｕｎｉｃａｔｉｏｎ）になり得る。

Ｗｉ－Ｆｉ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）は、有線で繋がっていなくても、インターネット等への接続を可能にする。Ｗｉ－Ｆｉは、このような装置、例えば、コンピューターが室内及び室外で、つまり基地局の通話圏内のどこからでもデータを送受信できるようにするセル電話のような無線技術である。Ｗｉ－Ｆｉネットワークは、安全で信頼性があり、高速である無線接続を提供するためにＩＥＥＥ８０２．１１（ａ、ｂ、ｇ、その他）という無線技術を使う。コンピューターを互いに、インターネットに及び有線ネットワーク（ＩＥＥＥ８０２．３またはイーサネットを使う）に接続するためにＷｉ－Ｆｉが使われることができる。Ｗｉ－Ｆｉネットワークは、非認可２．４や５GHzの無線帯域において、例えば、１１Ｍｂｐｓ（８０２．１１ａ）または５４Ｍｂｐｓ（８０２．１１ｂ）のデータレートで動作したり、両帯域（デュエル帯域）を含む製品で動作することができる。

本開示の技術分野において通常の知識を持つ者は、ここに開示された実施例に係る説明で取り挙げられた多様な例示的な論理ブロック、モジュール、プロセッサー（１１０）、手段、回路、アルゴリズム段階が電子ハードウェア、（利便性のために、ここでは「ソフトウェア」と称される）多様な形のプログラムまたは設計コード、またはこれらすべての結合により実装されることができることを理解できるだろう。ハードウェア及びソフトウェアのこのような相互互換性を明確に説明するために、多様な例示的なコンポーネント、ブロック、モジュール、回路、段階がこれらの機能に着目して上記で一般的に説明された。このような機能がハードウェアやソフトウェアで実装されることについては、特定のアプリケーションおよび全体システムに対して付与される設計上の制限によって決まる。本開示の技術分野において通常の知識を持つ者は、個々の特定のアプリケーションについて多様な手法で説明された機能を実現することができるが、このような実現の決定は、本開示の範囲を逸脱するものと解釈されてはならない。

ここに示された多様な実施例は、方法、装置、または標準プログラミング及び／またはエンジニアリング技術を使った製造物品（ａｒｔｉｃｌｅ）によって実現できる。用語「製造物品」は、任意のコンピューターで読み取り可能な装置からアクセス可能なコンピュータープログラム、キャリアー、または媒体（ｍｅｄｉａ）を含む。例えば、コンピューターで読み取り可能な保存媒体は、磁気保存装置（例えば、ハードディスク、フロッピーディスク、磁気ストリップ等）、光学ディスク（例えば、ＣＤ、ＤＶＤ等）、スマートカード及びラッシュメモリー装置（例えば、ＥＥＰＲＯＭ、カード、スティック、キードライブ等）を含むが、これらに限定されるものではない。用語「機械で読み取り可能な媒体」は、（複数の）命令及び／またはデータを保存、保持、及び／または伝達できる無線チャンネル及び多様な他の媒体を含むが、これらに限定されるものではない。

示されたプロセスにおける複数の段階の特定の順番または階層構造は、例示的なアプローチの一例であることを理解すべきである。設計上の優先順位に基づき、本開示の範囲内で、プロセスにおける段階の特定の順番または階層構造が再配列されることができることを理解すべきである。添付の方法請求項は、サンプルとしての順番で、多様な段階のエレメントを提供するが、示された特定の順番または階層構造に限定されることを意味するわけではない。

示された実施例に対する説明は、任意の本開示の技術分野において通常の知識を持つ者が、本開示を利用したりまたは実施できるように提供される。このような実施例に対する多様な変形は、本開示の技術分野において通常の知識を持つ者にとっては明確であり、ここに定義された一般的な原理は、本開示の範囲を逸脱することなく他の実施例に適用されることができる。従って、本開示はここに示す実施例によって限定されるものではなく、ここに示す原理及び新規な特徴と一貫する最広義の範囲で解釈されるべきである。

Claims

コンピューターで読み取り可能な保存媒体に保存されたコンピュータープログラムであって、前記コンピュータープログラムは１つ以上のプロセッサーに以下の段階を実行させるための命令を含み、
前記段階は、
全体データセットから２つ以上のトレーニングデータセットを生成する段階と、
前記２つ以上のトレーニングデータセットに基づいて、１つ以上のネットワーク関数を含む複数の推論モデルを学習させる段階であって、前記複数の推論モデルは前記全体データセットに含まれた各データに対する評価を行う、段階と、
前記複数の推論モデルに基づき、任意のデータに対する複数の推論結果を生成する段階と、
前記任意のデータに対する前記複数の推論結果に基づいて、データ収集戦略を策定するための評価結果を提供する段階と、
を含み、
前記全体データセットから前記２つ以上のトレーニングデータセットを生成する段階は、
前記全体データセットをＭ個のサブセットに分割する段階と、
前記分割されたＭ個のサブセットの中から少なくとも１つのサブセットをテストデータセットに割り当てる段階と、
前記全体データセットの中で前記テストデータセットを除いたデータセットをＮ個のサブセットに分割する段階と、
前記分割されたＮ個のサブセットの中から少なくとも１つのサブセットを検証データセットに割り当てる段階と、
前記テストデータセット及び前記検証データセットの割り当て後、割り当てられていない残りのサブセットをすべて学習データセットに割り当てる段階と、
を含み、
割り当てられた前記サブセットは相互に排他的であり、
前記複数の推論モデルの各々は、前記学習データに基づき学習され、前記検証データに基づき、前記データ収集戦略を策定するための前記複数の推論モデルの一つを決める、ことを特徴とするコンピュータープログラム。
前記全体データセットから前記２つ以上のトレーニングデータセットを生成する段階は、
同じデータを含まないようにランダムに選択された任意のデータをテストデータセットに割り当てる段階、を含むことを特徴とする請求項１に記載のコンピュータープログラム。
前記任意のデータに対する前記複数の推論結果と実際の結果（ｇｒｏｕｎｄｔｒｕｔｈ）との対応関係を提供する段階、を含むことを特徴とする請求項１に記載のコンピュータープログラム。
前記推論結果は、前記推論モデルが前記任意のデータに対して推論した分類結果と、前記分類結果に係る確信度スコア（ｃｏｎｆｉｄｅｎｃｅｓｃｏｒｅ）とを含むことを特徴とする請求項１に記載のコンピュータープログラム。
前記任意のデータに対する複数の推論結果と実際の結果との対応関係を提供する段階は、
前記任意のデータに対する複数の推論結果に基づき任意のデータに対する単一の推論結果を決定する段階、及び
前記単一の推論結果と前記実際の結果との対応関係を提供する段階、を含むことを特徴とする請求項３に記載のコンピュータープログラム。
前記評価結果を提供する段階は、
前記複数の推論結果及びそれに対応する実際の結果に基づき前記任意のデータに対する評価結果を提供する段階、を含むことを特徴とする請求項１に記載のコンピュータープログラム。
前記複数の推論結果及びそれに対応する実際の結果に基づき前記任意のデータに対する評価結果を提供する段階は、
前記複数の推論結果に基づき、前記任意のデータに対する推論信頼度スコアを演算する段階、及び
前記任意のデータにラベル付けされたラベルと前記実際の結果が一致するか否かと、前記推論信頼度スコアに対応する評価結果を提供する段階、
を含むことを特徴とする請求項６に記載のコンピュータープログラム。
前記複数の推論モデルは、相異する形態を含む２つ以上のネットワーク関数を含むことを特徴とする請求項１に記載のコンピュータープログラム。
データ収集戦略を策定するためのコンピューティング装置であって、
プロセッサー、
通信部、及び
保存部、を含み、
前記プロセッサーは、
全体データセットから２つ以上のトレーニングデータセットを生成し、
前記２つ以上のトレーニングデータセットに基づいて、１つ以上のネットワーク関数を含む複数の推論モデルを学習させ、
前記複数の推論モデルに基づき、任意のデータに対する複数の推論結果を生成し、
前記任意のデータに対する前記複数の推論結果に基づいて、データ収集戦略を策定するための評価結果を提供する、
ように構成され、
前記複数の推論モデルは前記全体データセットに含まれた各データに対する評価を行うものであり、
前記全体データセットから前記２つ以上のトレーニングデータセットを生成することは、
前記全体データセットをＭ個のサブセットに分割することと、
前記分割されたＭ個のサブセットの中から少なくとも１つのサブセットをテストデータセットに割り当てる段階と、
前記全体データセットの中で前記テストデータセットを除いたデータセットをＮ個のサブセットに分割することと、
前記分割されたＮ個のサブセットの中から少なくとも１つのサブセットを検証データセットに割り当てることと、
前記テストデータセット及び前記検証データセットの割り当て後、割り当てられていない残りのサブセットをすべて学習データセットに割り当てることと、
を含み、
割り当てられた前記データセットは相互に排他的であり、
前記複数の推論モデルの各々は、前記学習データに基づき学習され、前記検証データに基づき、前記データ収集戦略を策定するための前記複数の推論モデルの一つを決める、ことを特徴とするコンピューティング装置。