JP2021033544A

JP2021033544A - 学習データの精練方法及び計算機システム

Info

Publication number: JP2021033544A
Application number: JP2019151646A
Authority: JP
Inventors: 玲周; Rei Shu; 大輔田代; Daisuke Tashiro; 田中　剛; Tsuyoshi Tanaka; 剛田中; 渡辺　聡; Satoshi Watanabe; 聡渡辺
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2021-03-01
Anticipated expiration: 2039-08-22
Also published as: JP7141371B2

Abstract

【課題】モデルの予測精度を向上させる学習データセットを生成する。【解決手段】学習データの精練方法であって、計算機は、学習データセット及び検証データセットを格納するＤＢと接続し、検証データセットからサンプルデータセットを複数生成するステップと、複数の学習データの各々について、学習データが、一つのサンプルデータセットに対するモデルの予測精度に与える影響の強さを表すスコアを算出するステップと、スコアに基づいて、サンプルデータセットに対するモデルの予測精度に悪影響を与える有害学習データを特定するステップと、スコアに基づいて、有害学習データを削除するか否かを判定するステップと、判定の結果に基づいて学習データセットから有害学習データが削除された精練学習データセットを生成するステップと、を含む。【選択図】図１

Description

本発明は、機械学習に用いる学習データの精練方法に関する。

近年、ＡＩを活用した様々なサービスが提供されている。任意の事象の予測を行うＡＩを実現するモデルを生成する方法として、機械学習を利用する方法が知られている。機械学習のアルゴリズムの一つとして教師あり学習がある。教師あり学習は、入力及び正解ラベルから構成される学習データを用いた学習である。

教師あり学習を用いてモデルを生成する場合、質の高い学習データを用いて学習を行うことによって過学習を抑制し、また、予測精度が向上させることができる。ここで、質の高い学習データとは、モデルの予測精度の向上効果が高い学習データを表す。

したがって、教師あり学習では、使用する学習データを適切に選択することが重要である。この課題に対して特許文献１に記載の技術が知られている。

特許文献１には、「ノイズデータ除去支援装置は、或る時点における、入力変数の値および出力変数の実績値を包含する履歴レコードを、複数時点について格納するデータ記憶部と、ノイズ判定閾値を所定範囲内で変化させながら、入力変数の値から予測された出力変数の予測値と出力変数の実績値との差分が、ノイズ判定閾値以下の履歴レコードを抽出し、抽出した履歴レコードに基づいて、入力変数値から出力変数値を予測する予測関数とその予測誤差を算出し、算出された予測誤差が他に比べて小さなノイズ判定閾値を選択して出力する事前予測部と、を備える。」ことが記載されている。

特開２０１７−１０１１１号公報

Pang Wei Koh, Percy Liang、「Understanding Black-box Predictions via Influence Functions」、arXiv preprint arXiv:1703.04730 (2017)

特許文献１に記載の技術では、学習前に、ノイズ判定閾値以下の履歴レコード（学習データ）を選択している。しかし、ノイズと判定された履歴レコードを用いて学習を行うことによって、予測精度が向上する場合もあり、また、ノイズと判定されていない履歴レコードを用いて学習を行うことによって、予測精度が低下する場合もある。したがって、学習データがモデルの予測精度に実際に与える影響を考慮して、学習データを選択する必要がある。

学習データがモデルの予測精度に与える影響を示す情報として、非特許文献１に記載の影響度を用いる方法が考えられる。

しかし、影響度は用いたテストデータに依存するため、影響度に基づいて選択された学習データセットは、テストデータにオーバフィットしたデータセットになる可能性がある。そのため、当該学習データセットを用いて生成されたモデルの予測精度が必ずしも向上するとは限らない。例えば、影響度の算出に用いたテストデータとは異なるテストデータに対するモデルの予測精度が低い可能性もある。

本発明は、予測精度の向上に貢献する学習データから構成される学習データセットを生成する方法及びシステムを実現する。

本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、計算機システムが実行する学習データの精練方法であって、前記計算機システムは、プロセッサ及び前記プロセッサに接続される記憶装置を有する計算機を有し、前記計算機は、モデルの生成に用いる複数の学習データから構成される学習データセット及び前記モデルの予測精度の検証に用いる複数の検証データから構成される検証データセットを格納するデータベースとアクセス可能な状態で接続し、前記学習データの精練方法は、前記プロセッサが、前記検証データセットから前記複数の検証データを含むサンプルデータセットを複数生成する第１のステップと、前記プロセッサが、前記学習データセットに含まれる前記複数の学習データの各々について、前記学習データが、一つのサンプルデータセットに対する前記モデルの予測精度に与える影響の強さを表すスコアを算出する第２のステップと、前記プロセッサが、前記サンプルデータセットにおける前記複数の学習データの各々の前記スコアに基づいて、当該サンプルデータセットに対する前記モデルの予測精度に悪影響を与える有害学習データを特定する第３のステップと、前記プロセッサが、前記複数のサンプルデータセットの各々における前記有害学習データの前記スコアに基づいて、前記有害学習データを削除するか否かを判定する第４のステップと、前記プロセッサが、前記判定の結果に基づいて前記学習データセットから前記有害学習データが削除された精練学習データセットを生成する第５のステップと、を含む。

本発明によれば、モデルの予測精度の向上に貢献する学習データから構成される学習データセットを生成できる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

実施例１の計算機の構成の一例を示す図である。実施例１の影響度情報のデータ構造の一例を示す図である。実施例１のスコア情報のデータ構造の一例を示す図である。実施例１の閾値情報のデータ構造の一例を示す図である。実施例１の計算機によって提供されるＧＵＩの一例を示す図である。実施例１の計算機が実行する処理の概要を説明するフローチャートである。実施例１の計算機によって提供されるＧＵＩの一例を示す図である。実施例１の計算機が実行する影響度情報生成処理の一例を説明するフローチャートである。実施例１の計算機が実行する学習データセット精練処理の一例を説明するフローチャートである。実施例１の計算機が実行するスコア算出処理の一例を説明するフローチャートである。実施例１の計算機が実行する閾値設定処理の一例を説明するフローチャートである。実施例１の計算機が実行する有害学習データ削除処理の一例を説明するフローチャートである。実施例２の計算機の構成の一例を示す図である。実施例２の計算機によって提供されるＧＵＩの一例を示す図である。実施例２の計算機が実行する処理の概要を説明するフローチャートである。実施例２の計算機によって提供されるＧＵＩの一例を示す図である。

以下、本発明の実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施例の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。

以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。

本明細書等における「第１」、「第２」、「第３」等の表記は、構成要素を識別するために付するものであり、必ずしも、数又は順序を限定するものではない。

図面等において示す各構成の位置、大きさ、形状、及び範囲等は、発明の理解を容易にするため、実際の位置、大きさ、形状、及び範囲等を表していない場合がある。したがって、本発明では、図面等に開示された位置、大きさ、形状、及び範囲等に限定されない。

図１は、実施例１の計算機の構成の一例を示す図である。

計算機１００は、学習データセットから、モデルの予測精度に悪影響を与える学習データを削除し、予測精度の向上に寄与する学習データから構成される学習データセットを生成する。以下の説明では、あるデータセットに対するモデルの予測精度に悪影響を与える学習データを有害学習データと記載する。また、有害学習データが削除された学習データセットを精練学習データセットと記載する。

計算機１００は、プロセッサ１０１、ネットワークインタフェース１０２、主記憶装置１０３、及び副記憶装置１０４を備える。各ハードウェア構成は内部バスを介して互いに接続される。また、計算機１００には、キーボード、マウス、及びタッチパネル等の入力装置１０５、並びに、ディスプレイ及びプリンタ等の出力装置１０６が接続される。

プロセッサ１０１は、主記憶装置１０３に格納されるプログラムを実行する。プロセッサ１０１がプログラムにしたがって処理を実行することによって、学習部１１２等、特定の機能を実現する機能部（モジュール）として動作する。以下の説明では、機能部を主語に処理を説明する場合、プロセッサ１０１が当該機能部を実現するプログラムを実行していることを示す。

ネットワークインタフェース１０２は、ネットワークを介して他の計算機と通信を行うためのインタフェースである。

主記憶装置１０３は、メモリ等の記憶装置であり、プロセッサ１０１が実行するプログラム及び当該プログラムが使用する情報を格納する。また、主記憶装置１０３は、プログラムが一時的に使用するワークエリアを含む。

副記憶装置１０４は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）及びＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置であり、データを永続的に格納する。

ここで、主記憶装置１０３に格納されるプログラム、及び、副記憶装置１０４に格納される情報について説明する。

副記憶装置１０４は、学習データ１２１、検証データ１２２、モデル情報１２３、影響度情報１２４、スコア情報１２５、及び閾値情報１２６を格納する。

学習データ１２１は、任意の事象を予測するモデル（予測器）を生成するために用いるデータである。学習データ１２１は、複数の項目の特徴量及び正解ラベルから構成される。検証データ１２２は、影響度を算出するために用いるデータである。以下の説明では、複数の学習データ１２１から構成されるデータセットを学習データセットと記載し、複数の検証データ１２２から構成されるデータセットを検証データセットと記載する。

実施例１では、計算機１００が学習データセット及び検証データセットを保持しているが、計算機１００がアクセス可能なストレージシステム等に格納されてもよい。

モデル情報１２３は、モデルの構造及びパラメータ等を格納する情報である。モデルがニューラルネットワークである場合、層の数、各層のノード数、ノード間の接続、及び重み係数等がモデル情報１２３に格納される。

影響度情報１２４は、学習データが、検証データに対するモデルの予測精度に与える影響の強さを表す影響度を管理するための情報である。影響度情報１２４のデータ構造の詳細は図２を用いて説明する。

スコア情報１２５は、学習データが、検証データセットから生成されるサンプルデータセットに対するモデルの予測精度に与える影響の強さを表すスコアを管理するための情報である。後述するように、スコアは影響度から算出される。スコア情報１２５のデータ構造の詳細は図３を用いて説明する。

閾値情報１２６は、サンプルデータセットにおける有害学習データを抽出する場合に用いる閾値を管理するための情報である。閾値情報１２６のデータ構造の詳細は図４を用いて説明する。

主記憶装置１０３は、データ受付部１１１、学習部１１２、影響度情報生成部１１３、学習データセット精練部１１４、及び出力部１１５を実現するプログラムを格納する。

データ受付部１１１は、各種操作を受け付けるためのＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）を提供し、ＵＩを介した入力を受け付ける。データ受付部１１１は、学習データセット及び検証データセットの入力を受け付けた場合、副記憶装置１０４に各データセットを格納する。出力部１１５は、モデル及び有害学習データに関する情報等、各種情報を出力する。

学習部１１２は、学習データセットを用いてモデルを生成するための学習処理を実行する。学習部１１２は、学習処理によって生成されたモデルに関する情報をモデル情報１２３として保存する。

影響度情報生成部１１３は、影響度を算出し、算出結果に基づいて影響度情報１２４を生成する。影響度は、例えば、非特許文献１に記載の算出方法を用いて算出できる。なお、本発明は影響度の算出方法に限定されない。

ここで、非特許文献１に記載の影響度の算出方法について説明する。影響度情報生成部１１３は、学習データセット、検証データセット、及びモデルを用いて、評価対象の学習データを学習データセットに含めた場合のモデルのパラメータの変動傾向を示す値を算出し、また、モデルのパラメータを変動させた場合における任意のテストデータに対する予測結果の変動傾向を示す値を算出する。影響度情報生成部１１３は、二つの値を用いて影響度を算出する。影響度情報生成部１１３は、一つの評価対象の学習データ１２１について、検証データ１２２の数だけ影響度を算出する。影響度が正の場合、モデルの予測精度を向上することを示し、影響度が負の場合、モデルの予測精度が低下することを示す。

学習データセット精練部１１４は、学習データの影響度に基づいてスコアを算出し、スコアに基づいて抽出された有害学習データを学習データセットから削除する。学習データセット精練部１１４は、スコア情報１２５及び閾値情報１２６を生成する。

なお、各機能部については、複数の機能部を一つの機能部にまとめてもよいし、一つの機能部を機能毎に複数の機能部に分けてもよい。なお、複数の計算機から構成される計算機システムを用いて同様の機能を実現してもよい。この場合、各計算機が少なくとも一つの機能部を有する。

図２は、実施例１の影響度情報１２４のデータ構造の一例を示す図である。

影響度情報１２４は、行列形式のデータであり、行は学習データ１２１に対応し、列は検証データ１２２に対応する。

Ｔ＿ｋはｋ行目の学習データ１２１の識別情報を表し、Ｖ＿ｊはｊ列目の検証データ１２２の識別情報を表す。セルには影響度が格納される。例えば、ｋ行ｊ列には、検証データ（Ｖ＿ｊ）１２２に対する予測を行う場合に、学習データ（Ｔ＿ｋ）がモデルの予測精度に与える影響の強さを表す影響度が格納される。一つの行は、影響度を成分とするベクトルとして扱うことができる。

したがって、影響度情報１２４は、行ベクトルを羅列することによって生成された影響度行列を管理するための情報である。

図３は、実施例１のスコア情報１２５のデータ構造の一例を示す図である。

スコア情報１２５は、行列形式のデータであり、行はサンプルデータセットに対応し、列は学習データ１２１に対応する。ここで、サンプルデータセットは、検証データセットから任意の数の検証データ１２２をサンプリングすることによって生成されたデータセットである。

Ｓａｍｐｌｅ＿ｎはｎ行目のサンプルデータセットの識別情報を表す。セルにはスコアが格納される。

図４は、実施例１の閾値情報１２６のデータ構造の一例を示す図である。

閾値情報１２６は、サンプルデータセット４０１及び閾値４０２から構成されるエントリを含む。一つのサンプルデータセットに対して一つのエントリが存在する。

サンプルデータセット４０１は、サンプルデータセットの識別情報を格納するフィールドである。閾値４０２は、サンプルデータセットに対して設定された閾値を格納するフィールドである。

図５は、実施例１の計算機１００によって提供されるＧＵＩの一例を示す図である。

ＧＵＩ５００は、計算機１００に処理の実行を要求する場合に提供されるＵＩであり、出力装置１０６に表示される。ＧＵＩ５００は、データ設定欄５１０、パラメータ設定欄５２０、出力設定欄５３０、及び実行ボタン５４０を含む。

データ設定欄５１０は、学習データセット及び検証データセットに関する設定を行うための欄である。データ設定欄５１０は、学習データセット欄５１１及び検証データセット欄５１２を含む。

学習データセット欄５１１は、学習データセットを指定するための欄である。学習データセット欄５１１には、学習データセットの格納場所を示すパス又は学習データセットを格納するファイル名等が設定される。検証データセット欄５１２は、検証データセットを指定するための欄である。検証データセット欄５１２には、検証データセットの格納場所を示すパス又は検証データセットを格納するファイル名等が設定される。

パラメータ設定欄５２０は、処理に使用する各種パラメータを設定するための欄である。パラメータ設定欄５２０は、サンプリング回数欄５２１、サンプリング割合欄５２２、ラジオボタン５２３、５２４、及び閾値欄５２５を含む。

サンプリング回数欄５２１は、サンプリングの回数、すなわち、生成するサンプルデータセットの数を指定するための欄である。サンプリング割合欄５２２は、検証データセットから取得する検証データ１２２の割合、すなわち、一つのサンプルデータセットに含まれる検証データ１２２の数を指定するための欄である。

ラジオボタン５２３は、閾値情報１２６を事前に設定する場合に選択される。ラジオボタン５２４は、閾値情報１２６を設定しない場合に選択される。閾値欄５２５は、設定する閾値情報１２６を指定するための欄である。閾値欄５２５には、閾値情報１２６の格納場所を示すパス又は閾値情報１２６を格納するファイル名等が設定される。

出力設定欄５３０は、出力する情報及び情報の格納場所に関する設定を行うための欄である。出力設定欄５３０は、モデル保存欄５３１、学習データ保存欄５３２、及びチェック欄５３３、５３４を含む。

モデル保存欄５３１は、有害学習データが削除される前の学習データセットを用いて生成されたモデルのモデル情報１２３の格納場所を指定するための欄である。学習データ保存欄５３２は、有害学習データが削除された後の学習データセット（精練学習データセット）の格納場所を指定するための欄である。

チェック欄５３３、５３４は、表示する情報を指定するためのチェック欄である。スコア情報１２５を表示する場合、チェック欄５３３が操作され、閾値情報１２６を表示する場合、チェック欄５３４が操作される。

実行ボタン５４０は、処理の実行を指示するための操作ボタンである。ユーザが実行ボタン５４０を操作した場合、パラメータ設定欄５２０及び出力設定欄５３０に設定した情報を含む実行要求がデータ受付部１１１に送信される。

図６は、実施例１の計算機１００が実行する処理の概要を説明するフローチャートである。図７は、実施例１の計算機１００によって提供されるＧＵＩの一例を示す図である。

計算機１００は、実行要求を受け付けた場合、以下で説明する処理を実行する。

データ受付部１１１は、初期化処理を実行する（ステップＳ１０１）。具体的には、以下のような処理が実行される。

（Ｓ１０１−１）データ受付部１１１は、指定されたパスから学習データセット及び検証データセットを取得し、副記憶装置１０４に格納する。

（Ｓ１０１−２）データ受付部１１１は、モデル情報１２３、影響度情報１２４、スコア情報１２５、及び閾値情報１２６を初期化する。

影響度情報１２４の初期化では、データ受付部１１１は、行の数が学習データセットに含まれる学習データ１２１の数と一致し、列の数が検証データセットに含まれる検証データ１２２の数と一致する行列を生成する。当該行列のセルは全て空欄である。また、スコア情報１２５の初期化では、データ受付部１１１は、行の数がサンプル回数と一致し、列の数が学習データセットに含まれる学習データ１２１の数と一致する行列を生成する。当該行列のセルは全て空欄である。

なお、実行要求に、閾値情報１２６を指定する情報が含まれる場合、データ受付部１１１は、指定されたパスから閾値情報１２６を取得し、副記憶装置１０４に格納する。以上がステップＳ１０１の処理の説明である。

次に、学習部１１２は、学習データセットを用いて学習処理を実行する（ステップＳ１０２）。学習部１１２は、学習処理によって生成されたモデルの情報を、モデル保存欄５３１で指定されたパスにモデル情報１２３として格納する。なお、本発明は、学習方法及び学習するモデルの種類に限定されない。

次に、影響度情報生成部１１３は、学習データセット、検証データセット、及びモデル情報１２３を用いて、影響度情報生成処理を実行する（ステップＳ１０３）。影響度情報生成処理が実行されることによって影響度情報１２４が生成される。影響度情報生成処理の詳細は図８を用いて説明する。

次に、学習データセット精練部１１４は、学習データセット、検証データセット、及び影響度情報１２４を用いて、学習データセット精練処理を実行する（ステップＳ１０４）。当該処理が実行されることによって、精練学習データセットが生成される。学習データセット精練処理の詳細は図９を用いて説明する。

次に、出力部１１５は、出力情報を生成し、出力する（ステップＳ１０５）。その後、計算機１００は処理を終了する。

例えば、出力部１１５は、図７に示すようなＧＵＩ７００を表示するための出力情報を生成する。ここで、ＧＵＩ７００について説明する。

ＧＵＩ７００は、出力情報を表示する場合に提供されるＵＩであり、出力装置１０６に表示される。ＧＵＩ７００は、精練学習データセット欄７０１、スコア情報欄７０２、及び閾値情報欄７０３を含む。

精練学習データセット欄７０１は、精練学習データセットの格納場所を表示するための欄である。スコア情報欄７０２は、スコア情報１２５を表示するための欄である。スコア情報欄７０２に表示されるスコア情報１２５には、総合スコアを示す行が追加される。閾値情報欄７０３は、閾値情報１２６を表示するための欄である。閾値情報欄７０３に表示される閾値情報１２６には、総合閾値を示すエントリが追加される。

図８は、実施例１の計算機１００が実行する影響度情報生成処理の一例を説明するフローチャートである。

影響度情報生成部１１３は、変数Ｊを初期化し（ステップＳ２０１）、また、変数Ｋを初期化する（ステップＳ２０２）。変数Ｊは検証データ１２２の識別番号を表す変数であり、変数Ｋは学習データ１２１の識別番号を表す変数である。

具体的には、影響度情報生成部１１３は、変数Ｊ及び変数Ｋのそれぞれに１を設定する。このとき、影響度情報生成部１１３は、検証データセットに含まれる検証データ１２２の数をＪｍａｘに設定し、学習データセットに含まれる学習データ１２１の数をＫｍａｘに設定する。

次に、影響度情報生成部１１３は、検証データセットから変数Ｊに対応する検証データ１２２を取得し、また、学習データセットから変数Ｋに対応する学習データ１２１を取得する（ステップＳ２０３）。

次に、影響度情報生成部１１３は、変数Ｊに対応する検証データ１２２、変数Ｋに対応する学習データ１２１、及びモデルを用いて影響度を算出する（ステップＳ２０４）。なお、影響度の算出方法は非特許文献１に記載されているため、詳細な説明は省略する。

次に、影響度情報生成部１１３は、影響度情報１２４を更新する（ステップＳ２０５）。

具体的には、影響度情報生成部１１３は、影響度情報１２４のＫ行Ｊ列に対応するセルに算出された影響度を設定する。

次に、影響度情報生成部１１３は、変数Ｋの値がＫｍａｘに一致するか否かを判定する（ステップＳ２０６）。すなわち、学習データセットに含まれる全ての学習データ１２１について処理が完了したか否かが判定される。

変数Ｋの値がＫｍａｘに一致しないと判定された場合、影響度情報生成部１１３は、変数Ｋに１を加算した値を変数Ｋに設定し（ステップＳ２０７）、その後、ステップＳ２０３に戻る。

変数Ｋの値がＫｍａｘに一致すると判定された場合、影響度情報生成部１１３は、変数Ｊの値がＪｍａｘに一致するか否かを判定する（ステップＳ２０８）。すなわち、検証データセットに含まれる全ての検証データ１２２について処理が完了したか否かが判定される。

変数Ｊの値がＪｍａｘに一致しないと判定された場合、影響度情報生成部１１３は、変数Ｊに１を加算した値を変数Ｊに設定し（ステップＳ２０９）、その後、ステップＳ２０２に戻る。

変数Ｊの値がＪｍａｘに一致すると判定された場合、影響度情報生成部１１３は、影響度情報生成処理を終了する。

図９は、実施例１の計算機１００が実行する学習データセット精練処理の一例を説明するフローチャートである。

学習データセット精練部１１４は、変数ｉを初期化する（ステップＳ３０１）。変数ｉはサンプルデータセットの識別番号を表す変数である。

具体的には、学習データセット精練部１１４は、変数ｉに１を設定する。このとき、学習データセット精練部１１４は、サンプリング回数欄５２１に設定された値Ｎをワークエリアに格納する。

次に、学習データセット精練部１１４は、検証データセットからサンプルデータセットを生成する（ステップＳ３０２）。

具体的には、学習データセット精練部１１４は、サンプリング割合欄５２２に設定された値に基づいて、検証データセットから所定の数の検証データ１２２をランダムにサンプリングし、サンプルデータセットを生成する。学習データセット精練部１１４は、生成されたサンプルデータセットに識別情報として変数ｉの値を設定する。

なお、サンプルデータセットは、サンプリング以外の手法を用いて生成されてもよい。例えば、学習データセット精練部１１４は、所定のルールに基づいて、検証データセットを分割することによってサンプルデータセットを生成する。

次に、学習データセット精練部１１４は、サンプルデータセットを用いてスコア算出処理を実行する（ステップＳ３０３）。スコア算出処理の詳細は図１０を用いて説明する。

次に、学習データセット精練部１１４は、スコア算出処理の結果を用いて閾値設定処理を実行する（ステップＳ３０４）。閾値設定処理の詳細は図１１を用いて説明する。

なお、ユーザによって閾値情報１２６が設定されている場合、閾値設定処理は実行されない。

次に、学習データセット精練部１１４は、サンプルデータセットにおける有害学習データ１２１を抽出する（ステップＳ３０５）。具体的には、以下のような処理が実行される。

（Ｓ３０５−１）学習データセット精練部１１４は、学習データセットの中からターゲット学習データ１２１を選択する。

（Ｓ３０５−２）学習データセット精練部１１４は、閾値情報１２６からサンプルデータセットの閾値を取得する。また、学習データセット精練部１１４は、スコア情報１２５から、サンプルデータセット及びターゲット学習データ１２１の組合せに対応するスコア（サンプルデータセットにおけるターゲット学習データ１２１のスコア）を取得する。例えば、ターゲット学習データ１２１の識別番号がｋである場合、学習データセット精練部１１４は、スコア情報１２５のｉ行ｋ列のセルに格納される値を取得する。

（Ｓ３０５−３）学習データセット精練部１１４は、取得されたスコアとサンプルデータセットの閾値とを比較し、比較結果に基づいてターゲット学習データ１２１が有害学習データ１２１であるか否かを判定する。例えば、スコアが閾値より小さい場合、学習データセット精練部１１４は、ターゲット学習データ１２１がサンプルデータセットにおける有害学習データ１２１であると判定する。

（Ｓ３０５−４）学習データセット精練部１１４は、学習データセットに含まれる全ての学習データ１２１に対して処理を実行したか否かを判定する。学習データセットに含まれる全ての学習データ１２１に対して処理を実行していないと判定された場合、学習データセット精練部１１４は（Ｓ３０５−１）に戻り、同様の処理を実行する。

（Ｓ３０５−５）学習データセットに含まれる全ての学習データ１２１に対して処理を実行したと判定された場合、学習データセット精練部１１４は、有害学習データ１２１と判定された学習データ１２１を要素とする有害学習データ集合をサンプルデータセットの識別番号と対応づけてワークエリアに格納する。その後、学習データセット精練部１１４はステップＳ３０５の処理を終了する。

なお、学習データセット精練部１１４は閾値を用いなくてもよい。この場合、学習データセット精練部１１４は、スコアの小さい順にｍ個の学習データ１２１を選択し、当該学習データを有害学習データに決定する。以上がステップＳ３０５の処理の説明である。

次に、学習データセット精練部１１４は、変数ｉの値がＮに一致するか否かを判定する（ステップＳ３０６）。すなわち、サンプル回数が上限に達しか否かが判定される。

変数ｉの値がＮに一致しないと判定された場合、学習データセット精練部１１４は、変数ｉに１を加算した値を変数ｉに設定し（ステップＳ３０７）、その後、ステップＳ３０２に戻る。

変数ｉの値がＮに一致すると判定された場合、学習データセット精練部１１４は有害学習データ削除処理を実行し（ステップＳ３０８）、その後、学習データセット精練処理を終了する。有害学習データ削除処理の詳細は図１２を用いて説明する。

ステップＳ３０２からステップＳ３０５までの処理が繰り返し実行されることによって、各サンプルデータセットにおける有害学習データ１２１が抽出される。抽出された有害学習データ１２１はサンプルデータセットに依存する。そこで、学習データセット精練部１１４は、有害学習データ削除処理において、総合的な指標を用いて抽出された有害学習データ１２１の中から削除する有害学習データ１２１を決定する。

図１０は、実施例１の計算機１００が実行するスコア算出処理の一例を説明するフローチャートである。

学習データセット精練部１１４は、変数Ｋを初期化する（ステップＳ４０１）。変数Ｋは学習データ１２１の識別番号を表す変数である。具体的には、学習データセット精練部１１４は変数Ｋに１を設定する。

次に、学習データセット精練部１１４は、影響度情報１２４から、サンプルデータセットに含まれる検証データ１２２に対する学習データの影響度を取得する（ステップＳ４０２）。

具体的には、学習データセット精練部１１４は、影響度情報１２４を参照し、学習データ１２１に対応するＫ行目の、サンプルデータセットに含まれる検証データ１２２に対応するセルの値を取得する。学習データセット精練部１１４は、検証データ１２２の識別番号と、取得されたセルの値を成分とするベクトルとを対応づけてワークエリアに格納する。以下の説明では、取得されたセルの値を成分とするベクトルを影響度ベクトルと記載する。

例えば、識別番号が１、２、５である検証データ１２２から構成されるサンプルデータセットの場合、Ｋ行１列、Ｋ行２列、Ｋ行５列のセルの値を成分とする影響度ベクトルが生成される。

次に、学習データセット精練部１１４は、サンプルデータセットにおける学習データ１２１のスコアを算出する（ステップＳ４０３）。

例えば、学習データセット精練部１１４は、影響度ベクトルの各成分の合計値をスコアとして算出する。また、学習データセット精練部１１４は、影響度ベクトルと係数ベクトルとの内積をスコアとして算出する。なお、本発明はスコアの算出方法に限定されない。

次に、学習データセット精練部１１４はスコア情報１２５を更新する（ステップＳ４０４）。

具体的には、学習データセット精練部１１４は、スコア情報１２５のｉ行目Ｋ列のセルに算出されたスコアを設定する。

次に、学習データセット精練部１１４は、変数Ｋの値がＫｍａｘに一致するか否かを判定する（ステップＳ４０５）。すなわち、学習データセットに含まれる全ての学習データ１２１について処理が完了したか否かが判定される。

変数Ｋの値がＫｍａｘに一致しないと判定された場合、学習データセット精練部１１４は、変数Ｋに１を加算した値を変数Ｋに設定し（ステップＳ４０６）、その後、ステップＳ４０２に戻る。

変数Ｋの値がＫｍａｘに一致すると判定された場合、学習データセット精練部１１４はスコア算出処理を終了する。以上の処理によって、ｉ行目の全てのセルにスコアが設定される。

図１１は、実施例１の計算機１００が実行する閾値設定処理の一例を説明するフローチャートである。

学習データセット精練部１１４は、変数ｉに対応するサンプルデータセットにおける学習データ１２１のスコアに基づいて、学習データ１２１をソートする（ステップＳ５０１）。

具体的には、学習データセット精練部１１４は、スコア情報１２５のｉ行をスコアセットとして取得する。学習データセット精練部１１４は、スコアセットに含まれる各学習データ１２１のスコアの小さい順に学習データ１２１をソートする。

次に、学習データセット精練部１１４は、変数Ｘを初期化する（ステップＳ５０２）。変数Ｘは学習データの削除数を表す変数である。

具体的には、学習データセット精練部１１４は変数Ｘに０を設定する。

次に、学習データセット精練部１１４は、学習データ１２１をＸ件削除した評価用学習データセットを生成する（ステップＳ５０３）。

具体的には、学習データセット精練部１１４は、ソート順（スコアが小さい順）に、Ｘ件の学習データ１２１を削除した評価用学習データセットを生成し、ワークエリアに格納する。

学習データセット精練部１１４は、評価用学習データセットを含む評価モデルの生成指示を学習部１１２に出力する（ステップＳ５０４）。

このとき、学習部１１２は、生成指示を受け付けた場合、評価用学習データセットを用いて学習処理を実行する。学習部１１２は、生成された評価モデルをワークエリアに格納する。

学習データセット精練部１１４は、評価モデルが生成された後、サンプルデータセットに含まれる検証データ１２２を評価モデルに入力することによって、当該評価モデルの予測精度を算出する（ステップＳ５０５）。

このとき、学習データセット精練部１１４は、変数Ｘの値と予測精度とを対応づけたデータをワークエリアに格納する。

次に、学習データセット精練部１１４は、変数Ｘが０であるか否かを判定する（ステップＳ５０６）。すなわち、ループ処理の初回の処理であるか否かが判定される。

変数Ｘが０であると判定された場合、学習データセット精練部１１４はステップＳ５０８に進む。

変数Ｘが０でないと判定された場合、学習データセット精練部１１４は、終了条件を満たすか否かを判定する（ステップＳ５０７）。

本実施例では、予測精度の変化傾向に関する終了条件を設定する。例えば、学習データセット精練部１１４は、今回の予測精度が前回の予測精度より小さい場合、終了条件を満たすと判定する。なお、終了条件は一例であってこれに限定されない。

終了条件を満たさないと判定された場合、学習データセット精練部１１４はステップＳ５０８に進む。

ステップＳ５０８では、学習データセット精練部１１４は変数Ｘにαを加算した値を変数Ｘに設定し（ステップＳ５０８）、その後、ステップＳ５０３に戻る。αは任意に設定できる。例えば、αは１０である。

終了条件を満たすと判定された場合、学習データセット精練部１１４は、現在の学習データセットに含まれる学習データ１２１のスコアに基づいて閾値を算出する（ステップＳ５０９）。

例えば、学習データセット精練部１１４は、最も小さいスコアを閾値として算出する。

次に、学習データセット精練部１１４は、閾値情報１２６を更新し（ステップＳ５１０）、その後、閾値設定処理を終了する。

具体的には、学習データセット精練部１１４は、閾値情報１２６にエントリを追加し、追加されたエントリのサンプルデータセット４０１に変数ｉの値を設定し、閾値４０２に算出された閾値を設定する。

図１２は、実施例１の計算機１００が実行する有害学習データ削除処理の一例を説明するフローチャートである。

学習データセット精練部１１４は、閾値情報１２６に基づいて、総合閾値を算出する（ステップＳ６０１）。

例えば、学習データセット精練部１１４は、閾値４０２の最小値、閾値４０２の平均値、又は閾値４０２の重み付き平均値を総合閾値として算出する。

次に、学習データセット精練部１１４は、各サンプルデータセットの有害学習データ１２１の抽出結果に基づいて、削除候補の有害学習データを特定する（ステップＳ６０２）。

例えば、学習データセット精練部１１４は、サンプルデータセットの有害学習データ集合の和集合又は共通部分に含まれる有害学習データ１２１を削除候補として特定する。

学習データセット精練部１１４は、特定された有害学習データ１２１に識別番号を付与する。また、学習データセット精練部１１４は、特定された有害学習データの数をＹｍａｘに設定する。

次に、学習データセット精練部１１４は変数Ｙを初期化する（ステップＳ６０３）。変数Ｙは削除候補の有害学習データの識別番号を表す変数である。

具体的には、学習データセット精練部１１４は、変数Ｙに１を設定する。このとき、学習データセット精練部１１４は、ワークエリアにオリジナルの学習データセットのコピーを格納する。

次に、学習データセット精練部１１４は、変数Ｙに対応する有害学習データ１２１の総合スコアを算出する（ステップＳ６０４）。

具体的には、学習データセット精練部１１４は、スコア情報１２５の有害学習データに対応する列の値を取得する。すなわち、各サンプルデータセットにおける有害学習データのスコアが取得される。学習データセット精練部１１４は、取得したスコアを用いて有害学習データ１２１の総合スコアを算出する。

例えば、学習データセット精練部１１４は、取得したスコアの最大値、取得したスコアの平均値、又は取得したスコアの重み付き平均値を総合スコアとして算出する。

次に、学習データセット精練部１１４は、有害学習データ１２１の総合スコアが総合閾値より小さいか否かを判定する（ステップＳ６０５）。

有害学習データ１２１の総合スコアが総合閾値以上であると判定された場合、学習データセット精練部１１４はステップＳ６０７に進む。

有害学習データ１２１の総合スコアが総合閾値より小さいと判定された場合、学習データセット精練部１１４は、ワークエリアに格納される学習データセットから当該有害学習データ１２１を削除する（ステップＳ６０６）。その後、学習データセット精練部１１４はステップＳ６０７に進む。

ステップＳ６０７では、学習データセット精練部１１４は、変数Ｙの値がＹｍａｘに一致するか否かを判定する（ステップＳ６０７）。すなわち、全ての削除候補の有害学習データ１２１について処理が完了したか否かが判定される。

変数Ｙの値がＹｍａｘに一致しないと判定された場合、学習データセット精練部１１４は、変数Ｙに１を加算した値を変数Ｙに設定し（ステップＳ６０８）、その後、ステップＳ６０４に戻る。

変数Ｙの値がＹｍａｘに一致すると判定された場合、学習データセット精練部１１４は有害学習データ削除処理を終了する。

実施例１によれば、計算機１００は、複数のサンプルデータセットの各々について有害学習データを抽出し、統合的な指標（統合スコア）に基づいて削除する有害学習データ１２１を決定する。これによって、特定のデータセット（サンプルデータセット）にオーバフィットした学習データセットとなることを防止することができる。

すなわち、計算機１００は、予測精度を向上できる学習データセットを生成することができる。また、当該学習データセットを用いてモデルを生成することによって、予測精度が高いモデルをユーザに提供することができる。

実施例２の計算機１００は、精練学習データセットを用いて生成されたモデルの評価を行う。以下、実施例１との差異を中心に実施例２について説明する。

図１３は、実施例２の計算機１００の構成の一例を示す図である。

実施例２の計算機１００のハードウェア構成は実施例１と同一である。実施例２の計算機１００はソフトウェア構成が異なる。具体的には、主記憶装置１０３には評価部１１６を実現するプログラムが格納され、副記憶装置１０４にはテストデータ１２７及び評価情報１２８が格納される。

評価部１１６はモデルの予測精度等の評価を行う。テストデータ１２７は、モデルの予測精度を評価するために用いるデータである。以下の説明では、複数のテストデータ１２７をテストデータセットと記載する。評価情報１２８は評価部１１６が行った評価の結果を格納する。

実施例２では、検証データ１２２及びテストデータ１２７を別々のデータとして用意しているが、検証データ１２２をテストデータ１２７として用いてもよい。

図１４は、実施例２の計算機１００によって提供されるＧＵＩの一例を示す図である。

パラメータ設定欄５２０は、実施例１で説明した欄と同一の欄である。実行ボタン５４０は、実施例１で説明したボタンと同一のボタンである。実施例２では、データ設定欄５１０及び出力設定欄５３０が一部異なる。

データ設定欄５１０は、学習データセット欄５１１、検証データセット欄５１２、及びテストデータセット欄５１３を含む。学習データセット欄５１１及び検証データセット欄５１２は、実施例１で説明した欄と同一の欄である。テストデータセット欄５１３は、評価部１１６がモデルの評価を行うために使用するテストデータセットを指定するための欄である。テストデータセット欄５１３には、テストデータセットの格納場所を示すパス又はテストデータセットを格納するファイル名等が設定される。

出力設定欄５３０は、モデル保存欄５３１、学習データ保存欄５３２、新規モデル保存欄５３５、評価結果保存欄５３６、及びチェック欄５３３、５３４を含む。

モデル保存欄５３１、学習データ保存欄５３２、及びチェック欄５３３、５３４は実施例１で説明した欄と同一の欄である。新規モデル保存欄５３５は、精練学習データセットを用いて生成されたモデルのモデル情報１２３の格納場所を指定するための欄である。評価結果保存欄５３６は、評価情報１２８の格納場所を指定するための欄である。

図１５は、実施例２の計算機１００が実行する処理の概要を説明するフローチャートである。図１６は、実施例２の計算機１００によって提供されるＧＵＩの一例を示す図である。

ステップＳ１０１からステップＳ１０４までの処理は実施例１で説明した処理と同一の処理である。

学習データセット精練処理が実行された後、学習部１１２は、精練学習データセットを用いて学習処理を実行する（ステップＳ１１１）。学習部１１２は、学習処理によって生成されたモデルの情報を、新規モデル保存欄５３５で指定されたパスにモデル情報１２３として格納する。なお、学習処理が実行する学習処理は、ステップＳ１０２と同一の処理である。

次に、評価部１１６は、テストデータセット及びモデル情報１２３を用いて、評価処理を実行する（ステップＳ１１２）。

具体的には、評価部１１６は、テストデータセットを用いて、有害学習データ１２１が削除される前の学習データセットを用いて生成されたモデルの予測精度を算出し、また、テストデータセットを用いて、精練学習データセットを用いて生成されたモデルの予測精度を算出する。評価部１１６は、各モデルの予測精度の情報を含む評価情報１２８を生成し、副記憶装置１０４に格納する。

例えば、図１６に示すようなＧＵＩ７００を表示するための出力情報が生成される。ここで、ＧＵＩ７００について説明する。

ＧＵＩ７００は、出力情報を表示する場合に提供されるＵＩであり、出力装置１０６に表示される。ＧＵＩ７００は、精練学習データセット欄７０１、スコア情報欄７０２、閾値情報欄７０３、評価情報欄７０４、及び予測精度欄７０５、７０６を含む。

精練学習データセット欄７０１、スコア情報欄７０２、及び閾値情報欄７０３は、実施例１で説明した欄と同一の欄である。評価情報欄７０４は、評価情報１２８の格納場所を表示するための欄である。予測精度欄７０５は、有害学習データ１２１が削除される前の学習データセットを用いて生成されたモデルの予測精度を表示する欄である。予測精度欄７０６は、精練学習データセットを用いて生成されたモデルの予測精度を表示する欄である。

実施例２によれば、オリジナルの学習データセットを用いて生成されたモデル及び精練学習データセットを用いて生成されたモデルのそれぞれの評価を行うことによって、精練学習データセットの有用性を客観的に評価することができる。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、光ディスク、光磁気ディスク、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｐｙｔｈｏｎ、Ｊａｖａ（登録商標）等の広範囲のプログラム又はスクリプト言語で実装できる。

さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はＣＤ−ＲＷ、ＣＤ−Ｒ等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。

上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。

１００計算機
１０１プロセッサ
１０２ネットワークインタフェース
１０３主記憶装置
１０４副記憶装置
１０５入力装置
１０６出力装置
１１１データ受付部
１１２学習部
１１３影響度情報生成部
１１４学習データセット精練部
１１５出力部
１１６評価部
１２１学習データ
１２２検証データ
１２３モデル情報
１２４影響度情報
１２５スコア情報
１２６閾値情報
１２７テストデータ
１２８評価情報
５００、７００ＧＵＩ

Claims

計算機システムが実行する学習データの精練方法であって、
前記計算機システムは、プロセッサ及び前記プロセッサに接続される記憶装置を有する計算機を有し、
前記計算機は、モデルの生成に用いる複数の学習データから構成される学習データセット及び前記モデルの予測精度の検証に用いる複数の検証データから構成される検証データセットを格納するデータベースとアクセス可能な状態で接続し、
前記学習データの精練方法は、
前記プロセッサが、前記検証データセットから前記複数の検証データを含むサンプルデータセットを複数生成する第１のステップと、
前記プロセッサが、前記学習データセットに含まれる前記複数の学習データの各々について、前記学習データが、一つのサンプルデータセットに対する前記モデルの予測精度に与える影響の強さを表すスコアを算出する第２のステップと、
前記プロセッサが、前記サンプルデータセットにおける前記複数の学習データの各々の前記スコアに基づいて、当該サンプルデータセットに対する前記モデルの予測精度に悪影響を与える有害学習データを特定する第３のステップと、
前記プロセッサが、前記複数のサンプルデータセットの各々における前記有害学習データの前記スコアに基づいて、前記有害学習データを削除するか否かを判定する第４のステップと、
前記プロセッサが、前記判定の結果に基づいて前記学習データセットから前記有害学習データが削除された精練学習データセットを生成する第５のステップと、を含むことを特徴とする学習データの精練方法。
請求項１に記載の学習データの精練方法であって、
前記第４のステップは、
前記プロセッサが、前記複数のサンプルデータセットの各々における前記有害学習データの前記スコアに基づいて、前記有害学習データの総合スコアを算出するステップと、
前記プロセッサが、前記有害学習データの総合スコアに基づいて、前記有害学習データを削除するか否かを判定するステップと、を含むことを特徴とする学習データの精練方法。
請求項１に記載の学習データの精練方法であって、
前記データベースは、前記複数のサンプルデータセットの各々に対して設定される閾値を管理するための閾値情報を格納し、
前記第３のステップは、前記プロセッサが、前記サンプルデータセットにおける前記複数の学習データの各々の前記スコアと、前記サンプルデータセットに対して設定された前記閾値との比較結果に基づいて、前記有害学習データを特定するステップを含むことを特徴とする学習データの精練方法。
請求項３に記載の学習データの精練方法であって、
前記プロセッサが、前記サンプルデータセットにおける前記複数の学習データの各々の前記スコアに基づいて、前記学習データセットから少なくとも一つの学習データを削除して評価用学習データセットを生成するステップと、
前記プロセッサが、前記評価用学習データセットを用いて評価モデルを生成するステップと、
前記プロセッサが、前記サンプルデータセットに対する前記評価モデルの予測精度の変化傾向、及び、前記サンプルデータセットにおける、前記評価用学習データセットに含まれる前記複数の学習データの各々の前記スコアに基づいて、前記サンプルデータセットの閾値を決定し、前記決定された閾値を前記閾値情報に設定するステップと、を含むことを特徴とする学習データの精練方法。
請求項１に記載の学習データの精練方法であって、
前記第１のステップは、前記プロセッサが、前記検証データセットに含まれる前記複数の検証データをサンプリングすることによって、前記複数のサンプルデータセットを生成するステップを含むことを特徴とする学習データの精練方法。
プロセッサ及び前記プロセッサに接続される記憶装置を有する計算機を備える計算機システムであって、
前記計算機は、
モデルの生成に用いる複数の学習データから構成される学習データセット及び前記モデルの予測精度の検証に用いる複数の検証データから構成される検証データセットを格納するデータベースとアクセス可能な状態で接続し、
前記検証データセットから前記複数の検証データを含むサンプルデータセットを複数生成し、
前記学習データセットに含まれる前記複数の学習データの各々について、前記学習データが、一つのサンプルデータセットに対する前記モデルの予測精度に与える影響の強さを表すスコアを算出し、
前記サンプルデータセットにおける前記複数の学習データの各々の前記スコアに基づいて、当該サンプルデータセットに対する前記モデルの予測精度に悪影響を与える有害学習データを特定し、
前記複数のサンプルデータセットの各々における前記有害学習データの前記スコアに基づいて、前記有害学習データを削除するか否かを判定し、
前記判定の結果に基づいて前記学習データセットから前記有害学習データが削除された精練学習データセットを生成することを特徴とする計算機システム。
請求項６に記載の計算機システムであって、
前記計算機は、
前記複数のサンプルデータセットの各々における前記有害学習データの前記スコアに基づいて、前記有害学習データの総合スコアを算出し、
前記有害学習データの総合スコアに基づいて、前記有害学習データを削除するか否かを判定することを特徴とする計算機システム。
請求項６に記載の計算機システムであって、
前記データベースは、前記複数のサンプルデータセットの各々に対して設定される閾値を管理するための閾値情報を格納し、
前記計算機は、前記サンプルデータセットにおける前記複数の学習データの各々の前記スコアと前記サンプルデータセットに対して設定された前記閾値との比較結果に基づいて、前記有害学習データを特定することを特徴とする計算機システム。
請求項８に記載の計算機システムであって、
前記計算機は、
前記サンプルデータセットにおける前記複数の学習データの各々の前記スコアに基づいて、前記学習データセットから少なくとも一つの学習データを削除して評価用学習データセットを生成し、
前記評価用学習データセットを用いて評価モデルを生成し、
前記サンプルデータセットに対する前記評価モデルの予測精度の変化傾向、及び、前記サンプルデータセットにおける、前記評価用学習データセットに含まれる前記複数の学習データの各々の前記スコアに基づいて、前記サンプルデータセットの閾値を決定し、前記決定された閾値を前記閾値情報に設定することを特徴とする計算機システム。
請求項６に記載の計算機システムであって、
前記計算機は、前記検証データセットに含まれる前記複数の検証データをサンプリングすることによって、前記複数のサンプルデータセットを生成することを特徴とする計算機システム。