JP2023013082A

JP2023013082A - 学習データの選択方法及び計算機システム

Info

Publication number: JP2023013082A
Application number: JP2021117000A
Authority: JP
Inventors: ウシンリョウ; Yuxin Liang; 正史恵木; Masashi Egi
Original assignee: Hitachi Solutions Ltd
Current assignee: Hitachi Solutions Ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2023-01-26
Also published as: US20230019364A1

Abstract

【課題】予測器の予測精度を向上させる学習データを正確かつ容易に選択する。【解決手段】計算機システムは、複数の学習データと、異なる学習条件の下で生成された、複数の予測器を管理するための情報と、を格納するデータベースと接続し、ターゲット予測器を選択し、複数のテストデータの各々について、学習データがテストデータに対するターゲット予測器の予測精度に与える影響の強さを表す影響度を算出し、複数の予測器の各々について、予測器と対応付けられる、学習データの複数の影響度に基づいて、学習データの影響スコアを算出し、複数の学習データの各々の複数の影響スコアに基づいて、複数の学習データの中から使用する学習データを選択する。【選択図】図１０

Description

本発明は、機械学習に使用する学習データの選択方法に関する。

近年、ＡＩを活用した様々なサービスが提供されている。任意の事象の予測を行うＡＩを実現するモデルを生成する方法として、機械学習を利用する方法が知られている。機械学習のアルゴリズムの一つとして教師あり学習がある。教師あり学習は、入力及び正解ラベルから構成される学習データを用いた学習である。

教師あり学習を用いてモデルを生成する場合、質の高い学習データを用いて学習を行うことによって過学習を抑制し、また、予測精度が向上することができる。ここで、質の高い学習データとは、モデルの予測精度の向上効果が高い学習データを表す。また、特定の状況又は用途に適合させたモデルにチューニングするためには、状況又は用途が考慮された学習データを用いて学習を行う必要がある。

したがって、教師あり学習では、使用する学習データを適切に選択することが重要である。この課題に対して特許文献１に記載の技術が知られている。

特許文献１には、「予測器を構築するために用いる学習データに関する解析を行う計算機システムが実行する学習データの解析方法であって、計算機システムは計算機を備え、計算機は、複数の学習データを格納するデータベースと接続し、計算機が、データベースからターゲット学習データを選択するステップと、ターゲット学習データが、複数のテストデータに対する予測器の予測精度に与える影響の強さを表す影響スコアを算出するステップと、複数の学習データの各々の影響スコアに基づいて、複数の学習データの中から、予測器を構築するために入力する学習データセットに含める学習データを選択するステップと、を含む。」ことが記載されている。

特開２０２０－０３０７３８号公報

Pang Wei Koh, Percy Liang、「Understanding Black-box Predictions via Influence Functions」、arXiv preprint arXiv:1703.04730 (2017)

学習データセット及びハイパーパラメータ等の学習条件が異なると、入力されたデータに対する予測器の振る舞いが異なる。特許文献１に記載の技術では、任意の学習条件の下で学習された予測器を用いているため、影響スコアが予測器の特性（学習条件）に依存する可能性がある。したがって、当該影響スコアを用いても予測精度が向上しない可能性がある。

本発明は、前述の課題を鑑みてなされたものである。すなわち、特定の学習条件の下で生成された予測器に依存しない指標を用いて、目的とする事象の予測の予測精度の向上に貢献する学習データを選択する方法及びシステムを実現する。

本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、計算機システムが実行する、予測器を生成するために用いる学習データの選択方法であって、前記計算機システムは、プロセッサ及び前記プロセッサに接続されるメモリを有する計算機を含み、複数の学習データと、異なる学習条件の下で生成された、複数の予測器を管理するための情報と、を格納するデータベースと接続し、前記学習データの選択方法は、前記計算機が、複数の前記予測器の中からターゲット予測器を選択し、複数のテストデータの各々について、前記学習データが前記テストデータに対する前記ターゲット予測器の予測精度に与える影響の強さを表す影響度を算出する第１のステップと、前記計算機が、前記予測器と、複数の前記テストデータの各々に対する、前記学習データの前記影響度と、を対応付けて記録する第２のステップと、前記計算機が、複数の前記予測器の各々について、前記予測器と対応付けられる、前記学習データの複数の前記影響度に基づいて、前記学習データの影響スコアを算出する第３のステップと、前記計算機が、複数の前記予測器の各々と、前記学習データの前記影響スコアとを対応付けて記録する第４のステップと、前記計算機が、複数の前記学習データの各々の複数の前記影響スコアに基づいて、複数の前記学習データの中から使用する前記学習データを選択することによって学習データセットを生成する第５のステップと、を含む。

本発明の一形態によれば、予測精度の向上に貢献する学習データを選択できる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

実施例１の計算機システムの構成の一例を示す図である。実施例１の計算機のハードウェア構成の一例を示す図である。実施例１の学習履歴情報のデータ構造の一例を示す図である。実施例１の影響度情報のデータ構造の一例を示す図である。実施例１の影響度情報のデータ構造の一例を示す図である。実施例１の影響スコア情報のデータ構造の一例を示す図である。実施例１のデータ受付部によって提供されるＵＩの一例を示す図である。実施例１のデータ受付部によって提供されるＵＩの一例を示す図である。実施例１の計算機が実行する処理を説明するフローチャートである。実施例１の計算機が実行する学習継続判定処理を説明するフローチャートである。実施例１の計算機が実行する処理を説明するフローチャートである。実施例１の計算機が実行する影響スコア算出処理を説明するフローチャートである。実施例１の計算機が実行する出力情報生成処理を説明するフローチャートである。実施例１の計算機が実行する出力情報生成処理を説明するフローチャートである。実施例１の計算機によって出力される情報の一例を示す図である。実施例１の計算機によって出力される情報の一例を示す図である。

以下、本発明の実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施例の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。

以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。

本明細書等における「第１」、「第２」、「第３」等の表記は、構成要素を識別するために付するものであり、必ずしも、数又は順序を限定するものではない。

図面等において示す各構成の位置、大きさ、形状、及び範囲等は、発明の理解を容易にするため、実際の位置、大きさ、形状、及び範囲等を表していない場合がある。したがって、本発明では、図面等に開示された位置、大きさ、形状、及び範囲等に限定されない。

図１は、実施例１の計算機システムの構成の一例を示す図である。

計算機システムは、計算機１００－１、１００－２、１００－３、及び端末１０１から構成される。計算機１００－１、１００－２、１００－３、及び端末１０１は、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）及びＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等のネットワーク１０５を介して互いに接続される。ネットワーク１０５の接続方式は、有線及び無線のいずれでもよい。

以下の説明では、計算機１００－１、１００－２、１００－３を区別しない場合、計算機１００と記載する。

端末１０１は、ユーザが操作する計算機であり、図示しない、プロセッサ、主記憶装置、副記憶装置、ネットワークインタフェース、入力装置、及び出力装置を有する。端末１０１は、テストデータデータベース１４０を管理する。テストデータデータベース１４０は、予測器１２２の予測精度を検証するためのテストデータを格納する。テストデータは複数の項目の特徴量から構成される。

本明細書では、予測精度の検証に用いる複数のテストデータをテストデータセットと記載する。

なお、端末１０１は、テストデータデータベース１４０を管理していなくてもよい。この場合、学習データデータベース１２４に格納される一部又は全部の学習データがテストデータとして扱われる。

計算機１００－１は、端末１０１からの操作を受け付けるＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）を提供する計算機である。計算機１００－１は、データ受付部１１０及び結果出力部１１１を有する。

データ受付部１１０は、ＵＩを介して、端末１０１からの入力を受け付ける。結果出力部１１１は、ＵＩを介して、計算機１００－２、１００－３が実行した処理の結果を出力する。

計算機１００－２は、モデル（予測器１２２）を生成するための学習処理を実行し、また、モデルを用いて任意の事象の予測を行う。計算機１００－２は、学習条件設定部１２０、学習部１２１、及び予測器１２２を有し、また、学習履歴情報１２３及び学習データデータベース１２４を管理する。

予測器１２２は、入力されたデータを用いて任意の事象の予測を行う。学習条件設定部１２０は、予測器１２２を生成するための学習処理における学習条件を設定する。ここで、学習条件は、（１）学習処理に使用する複数の学習データ及び複数の学習データの入力順（学習順）、並びに（２）ハイパーパラメータを含む概念である。本実施例の学習条件には、少なくとも、学習処理に使用する複数の学習データ及び複数の学習データの入力順が含まれているものとする。学習部１２１は、学習処理を実行する。

学習履歴情報１２３は、学習条件及び学習結果から構成される学習履歴を管理するための情報である。学習履歴情報１２３のデータ構造については図３を用いて説明する。学習データデータベース１２４は、学習処理に使用する学習データを格納する。学習データは複数の項目の特徴量及び正解ラベルから構成される。

本明細書では、学習処理に用いる複数の学習データを学習データセットと記載する。後述するように、学習データデータベース１２４に格納される学習データの中から学習データセットに含める学習データが選択される。

計算機１００－３は、予測器１２２を生成するために使用する学習データを選択する。ここで、「予測器１２２の生成」は、新規に予測器１２２を生成すること、及び、再学習によって予測器１２２を再生成することを含む概念である。計算機１００－３は、影響スコア算出部１３０及び学習データ選択部１３１を有し、また、影響度情報１３２及び影響スコア情報１３３を管理する。

影響スコア算出部１３０は、学習データが、テストデータセットに対する予測器１２２の予測精度に与える影響の強さを表す影響スコアを算出する。本実施例の影響スコアは、任意のテストデータに対する予測を行う場合に、学習データが予測器１２２の予測精度に与える影響の強さを表す影響度を用いて算出される。影響度は、非特許文献１に記載の算出方法を用いて算出できる。なお、本実施例は、影響スコア及び影響度の算出方法に限定されない。

ここで、非特許文献１に記載の影響度の算出方法について説明する。影響スコア算出部１３０は、複数の学習データ、テストデータ、及び予測器１２２を用いて、評価対象の学習データを学習データセットに含めた場合の予測器１２２のパラメータの変動傾向を示す値を算出し、また、予測器１２２のパラメータを変動させた場合における任意のテストデータに対する予測結果の変動傾向を示す値を算出する。影響スコア算出部１３０は、二つの値を用いて影響度を算出する。影響スコア算出部１３０は、一つの評価対象の学習データについて、テストデータの数だけ影響度を算出する。影響度が正の場合、予測器１２２の予測精度を向上することを示し、影響度が負の場合、予測器１２２の予測精度が低下することを示す。

影響度を用いて算出される影響スコアは、テストデータ群に対する予測において、学習データが予測器１２２の予測精度に与える影響の強さを表す。

学習データ選択部１３１は、学習データの影響スコアに基づいて、学習データセットに含める学習データを選択する。

影響度情報１３２は、学習データの影響度を管理するための情報である。影響度情報１３２のデータ構造については図４Ａ及び図４Ｂを用いて説明する。影響スコア情報１３３は、学習データの影響スコアを管理するための情報である。影響スコア情報１３３のデータ構造については図５を用いて説明する。

ここで、計算機１００のハードウェア構成について説明する。図２は、実施例１の計算機１００のハードウェア構成の一例を示す図である。

計算機１００は、プロセッサ２０１、主記憶装置２０２、副記憶装置２０３、及びネットワークインタフェース２０４を有する。各ハードウェア構成は内部バスを介して互いに接続される。なお、計算機１００は、副記憶装置２０３を有していなくてもよい。また、計算機１００は、入力装置及び出力装置を有してもよい。

プロセッサ２０１は、主記憶装置２０２に格納されるプログラムを実行する。プロセッサ２０１がプログラムにしたがって処理を実行することによって、影響スコア算出部１３０等、特定の機能を実現する機能部（モジュール）として動作する。以下の説明では、機能部を主語に処理を説明する場合、プロセッサ２０１が当該機能部を実現するプログラムを実行していることを示す。

主記憶装置２０２は、プロセッサ２０１が実行するプログラム及び当該プログラムが使用する情報を格納する。また、主記憶装置２０２は、プログラムが一時的に使用するワークエリアを含む。

計算機１００－１の主記憶装置２０２には、データ受付部１１０及び結果出力部１１１を実現するためのプログラムが格納される。計算機１００－２の主記憶装置２０２には、学習条件設定部１２０、学習部１２１、及び予測器１２２を実現するためのプログラムが格納される。なお、予測器１２２を定義するパラメータの値は、学習履歴情報１２３に格納される。計算機１００－３の主記憶装置２０２には、影響スコア算出部１３０及び学習データ選択部１３１を実現するためのプログラムが格納される。

副記憶装置２０３は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）及びＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等、データを永続的に格納する。

計算機１００－２の副記憶装置２０３は、学習履歴情報１２３及び学習データデータベース１２４を格納する。なお、学習データデータベース１２４は、計算機１００－２がアクセス可能なストレージシステムに格納されてもよい。計算機１００－３の副記憶装置２０３は、影響度情報１３２及び影響スコア情報１３３を格納する。

なお、各計算機１００が有する各機能部については、複数の機能部を一つの機能部にまとめてもよいし、一つの機能部を機能毎に複数の機能部に分けてもよい。また、各計算機１００が有する機能部を一つの計算機１００にまとめてもよい。

図３は、実施例１の学習履歴情報１２３のデータ構造の一例を示す図である。

学習履歴情報１２３は、テーブル形式のデータであり、学習条件ＩＤ３０１、学習順序３０２、ハイパーパラメータ３０３、及び学習結果３０４を含むエントリを格納する。一つの学習条件に対して一つのエントリが存在する。なお、エントリに含まれるフィールドは前述したものに限定されない。前述したフィールドのいずれかを含まなくてもよいし、また、他のフィールドを含んでもよい。

学習条件ＩＤ３０１は、学習条件の識別情報を格納するフィールドである。本実施例の学習条件の識別情報は、記号「Ｐ」と識別番号とを組み合わせたものとする。また、学習データの識別情報は、記号「Ｌ」と識別番号とを組み合わせたものとし、テストデータの識別情報は、記号「Ｔ」と識別番号とを組み合わせたものとする。

学習順序３０２は、学習データセットに含まれる学習データ及び学習データの入力順に関する情報を格納するフィールド群である。本実施例では、学習データデータベース１２４に格納される複数の学習データから複数のサブセット（バッチ）を生成し、バッチごとに予測器１２２を定義するパラメータを更新する学習処理が実行される。学習順序３０２は、バッチの数だけフィールドを含む。一つのフィールドには、入力順に並べられた学習データの識別情報が格納される。

ハイパーパラメータ３０３は、学習処理で使用するハイパーパラメータを格納するフィールド群である。ハイパーパラメータ３０３は、学習率及びエポック数等を格納するフィールドを含む。

学習結果３０４は、学習処理の結果を格納するフィールド群である。学習結果３０４は、バッチの数だけフィールドを含む。一つのフィールドには、予測器１２２を定義するパラメータの値及び予測精度が学習結果として格納される。

図４Ａ及び図４Ｂは、実施例１の影響度情報１３２のデータ構造の一例を示す図である。

図４Ａは、影響度情報１３２のデータ構造のイメージを示す図である。影響度情報１３２は、学習データ、テストデータ、及び学習条件をインデックスとする３次元配列のデータである。

図４Ｂは、学習条件ＩＤ３０１が「Ｐ＿１」の２次元配列４００を示す。

Ｌ＿ｉはｉ行目の学習データの識別情報を表し、Ｔ＿ｈはｈ列目のテストデータの識別情報を表す。セルには影響度が格納される。例えば、ｉ行ｈ列には、テストデータ（Ｔ＿ｈ）に対する予測を行う場合に、学習データ（Ｌ＿ｉ）が予測器１２２の予測精度に与える影響の強さを表す影響度が格納される。一つの行は、一つの学習データの影響度を成分とするベクトルとして扱うことができる。以下の説明では、影響度を成分とするベクトルを学習データの影響度ベクトルと記載する。

したがって、影響度情報１３２は、学習条件ごとに、影響度ベクトルを羅列することによって生成された影響度行列（２次元配列４００）を管理するための情報である。

図５は、実施例１の影響スコア情報１３３のデータ構造の一例を示す図である。

影響スコア情報１３３は、学習データＩＤ５０１、影響スコア５０２、及び統合影響スコア５０３から構成されるエントリを複数含む。一つの学習データに対して一つのエントリが存在する。なお、エントリに含まれるフィールドは前述したものに限定されない。前述したフィールドのいずれかを含まなくてもよいし、また、他のフィールドを含んでもよい。

学習データＩＤ４０１は、学習データの識別情報を格納するフィールドである。影響スコア４０２は、学習データの影響スコアを格納するフィールド群である。影響スコア４０２には、学習条件の数だけフィールドを含む。各フィールドには、学習条件に対応する予測器１２２を用いて算出された影響スコアが格納される。統合影響スコア５０３は、各学習条件の予測器１２２を用いて算出された学習データの影響スコアから算出される統合影響スコアを格納するフィールドである。

図６及び図７は、実施例１のデータ受付部１１０によって提供されるＵＩの一例を示す図である。

図６に示すＧＵＩ６００は、データ受付部１１０によって提供されるＵＩであり、端末１０１の出力装置に表示される。ＧＵＩ６００は、データセット設定欄６１０、学習条件設定欄６２０、出力選択欄６３０、及び実行ボタン６４０を含む。

データセット設定欄６１０は、学習データセット及びテストデータセットに関する情報（データセット設定情報）を設定するための欄である。データセット設定欄６１０は、学習データセット設定欄６１１、ラジオボタン６１２、ラジオボタン６１３、及びテストデータセット設定欄６１４を含む。

学習データセット設定欄６１１は、デフォルトの学習データセットを設定するための欄である。学習データセット設定欄６１１には、学習データデータベース１２４の格納場所を示すパス等が設定される。

ラジオボタン６１２は、テストデータセットを入力する場合に選択される。ラジオボタン６１３は、テストデータセットを入力しない場合に選択される。テストデータセット設定欄６１４は、入力するテストデータセットを設定するための欄である。テストデータセット設定欄６１４には、テストデータセットの格納場所を示すパス又はテストデータセットに対応するファイル等が設定される。ラジオボタン６１２が操作された場合に、テストデータセット設定欄６１４への入力が有効化される。

学習条件設定欄６２０は、学習条件に関する情報（学習条件設定情報）を設定するための欄である。学習条件設定欄６２０は、学習条件数設定欄６２１、バッチサイズ設定欄６２２、学習率探索範囲６２３、及び学習率減衰６２４を含む。

学習条件数設定欄６２１は、生成する学習条件の最大数を設定するための欄である。バッチサイズ設定欄６２２は、バッチに含める学習データの数、すなわち、バッチサイズを設定する欄である。学習率探索範囲６２３は、学習率の範囲を設定する欄である。学習率減衰６２４は、学習率の減衰の幅を設定する欄である。

出力選択欄６３０は、出力する情報を選択するための欄である。出力選択欄６３０は、チェックボックス６３１、６３２、６３３、６３４、６３５、及び学習条件ＩＤ設定欄６３６を含む。

チェックボックス６３１は、影響スコア及び影響度に関する情報を出力する場合に選択される。チェックボックス６３２は、特定の学習条件の影響度に関する情報を出力する場合に選択される。学習条件ＩＤ設定欄６３６は、学習条件の識別情報を設定する欄である。チェックボックス６３１が操作された場合に、チェックボックス６３２及び学習条件ＩＤ設定欄６３６への入力が有効化される。

チェックボックス６３３は、影響スコアに基づいて選択された学習データから構成される学習データセットを出力する場合に選択される。チェックボックス６３４は、影響スコアに基づいて選択された学習データから構成される学習データセットを用いて生成された予測器１２２を出力する場合に選択される。チェックボックス６３５は、影響スコアに基づいて学習データを選択する場合に使用する閾値と予測精度との関係を示す学習効果を出力する場合に選択される。

以下の説明では、チェックボックス６３１に対応する要求を影響スコア出力要求と記載し、チェックボックス６３３に対応する要求を学習データセット出力要求と記載し、チェックボックス６３４に対応する要求を予測器出力要求と記載し、チェックボックス６３５に対応する要求を学習効果出力要求と記載する。なお、チェックボックス６３２が操作された場合、影響スコア出力要求には学習条件の識別情報が含まれる。

実行ボタン６４０は、処理の実行を指示するための操作ボタンである。ユーザが実行ボタン６４０を操作した場合、データセット設定欄６１０、学習条件設定欄６２０、出力選択欄６３０のそれぞれに設定した情報を含む実行要求がデータ受付部１１０に送信される。データ受付部１１０は、実行要求を受信した場合、計算機１００－２に学習指示を送信し、計算機１００－２から応答を受信した後、計算機１００－３に学習データ選択指示を送信する。

学習指示には、データセット設定情報及び学習条件設定情報が含まれる。学習データ選択指示には、出力選択欄６３０の操作に応じた要求が含まれる。

図７に示すＡＰＩ７００は、データ受付部１１０によって提供されるＵＩである。

ユーザはＡＰＩ７００に対してコマンドを入力することによって、学習データ、テストデータ、学習条件、及び出力する情報に関する設定を行う。

図８は、実施例１の計算機１００－２が実行する処理を説明するフローチャートである。

計算機１００－２は、実行要求を受け付けた計算機１００－１から学習指示を受信した場合、以下で説明する処理を実行する。

学習条件設定部１２０は、学習指示に含まれるデータセット設定情報及び学習条件設定情報を取得する（ステップＳ１０１）。このとき、学習条件設定部１２０は、生成する学習条件の最大数Ｉｍａｘ及びバッチ数Ｓｍａｘを設定する。なお、バッチの数は外部入力として与えてもよいし、バッチサイズ及び学習データデータベース１２４に格納される学習データの数から自動的に算出してもよい。

学習条件設定部１２０は、変数Ｉを初期化する（ステップＳ１０２）。変数Ｉは学習条件の識別番号を表す変数である。

学習条件設定部１２０は、学習データデータベース１２４に格納される学習データを用いて、複数のバッチを生成する（ステップＳ１０３）。

具体的には、学習条件設定部１２０は、学習条件設定情報に含まれるバッチサイズ及びデータセット設定情報に基づいて、学習データデータベース１２４から所定の数の学習データをランダムに選択し、複数の学習データの入力順を決定することによって、Ｓｍａｘ個のバッチを生成する。

このとき、学習条件設定部１２０は、学習履歴情報１２３にエントリを追加し、当該エントリの学習条件ＩＤ３０１に変数Ｉに対応する識別情報を設定する。例えば、変数Ｉが３の場合、識別情報「Ｐ＿３」が学習条件ＩＤ３０１に設定される。学習条件設定部１２０は、追加されたエントリの学習順序３０２の各フィールドに、バッチに含まれる学習データを入力順に設定する。

学習条件設定部１２０は、学習条件設定情報に基づいて、学習率等のハイパーパラメータを決定する（ステップＳ１０４）。

本実施例では、学習条件設定部１２０は、学習率及び減衰幅を決定する。このとき、学習条件設定部１２０は、学習履歴情報１２３に追加されたエントリのハイパーパラメータ３０３に、決定されたハイパーパラメータを設定する。また、学習条件設定部１２０は、学習部１２１に、学習条件の識別情報を含む学習指示を出力する。

学習部１２１は、変数Ｓを初期化する（ステップＳ１０５）。変数Ｓはバッチの識別番号を表す変数である。

学習部１２１は、変数Ｓに対応するバッチに含まれる学習データを用いて予測器１２２のパラメータを学習する（ステップＳ１０６）。

具体的には、学習部１２１は、学習履歴情報１２３を参照し、学習指示に含まれる学習条件の識別情報に対応するエントリを検索し、当該エントリの学習順序３０２の変数Ｓに対応するバッチと、当該エントリのハイパーパラメータ３０３とに基づいて学習処理を実行する。本実施例では、入力順にしたがって学習が行われる。また、学習部１２１は、学習条件の識別情報に対応するエントリの学習結果３０４の変数Ｓに対応するフィールドに、予測器１２２のパラメータの値及び予測精度を設定する。

学習部１２１は、学習継続判定処理を実行し（ステップＳ１０７）、当該処理の結果に基づいて、学習を継続するか否かを判定する（ステップＳ１０８）。

学習を継続しないと判定された場合、学習部１２１は、学習条件設定部１２０に、学習の停止を示す応答を出力する。学習条件設定部１２０は、応答を受信した場合、ステップＳ１１１に進む。

本実施例では、影響度の算出が見込めない状態が検知された場合、計算機１００－２は、現在の学習条件の学習を終了する。

学習を継続すると判定された場合、学習部１２１は、学習条件設定部１２０に、学習の継続を示す応答を出力する。学習条件設定部１２０は、応答を受信した場合、変数Ｓの値がＳｍａｘに一致するか否かを判定する（ステップＳ１０９）。すなわち、全てのバッチについて処理が完了したか否かを判定される。

変数Ｓの値がＳｍａｘに一致しないと判定された場合、学習条件設定部１２０は、変数Ｓに１を加算した値を変数Ｓに設定し（ステップＳ１１０）、その後、ステップＳ１０６に戻る。この場合、別のバッチを用いて同様の処理が実行される。

変数Ｓの値がＳｍａｘに一致すると判定された場合、学習条件設定部１２０はステップＳ１１１に進む。

ステップＳ１１１では、学習条件設定部１２０は、変数Ｉの値がＩｍａｘに一致するか否かを判定する（ステップＳ１１１）。すなわち、学習条件の最大数に達したか否かが判定される。

変数Ｉの値がＩｍａｘに一致しないと判定された場合、学習条件設定部１２０は、変数Ｉに１を加算した値を変数Ｉに設定し（ステップＳ１１２）、その後、ステップＳ１０３に戻る。この場合、新たな学習条件が設定され、新たな学習条件の下で同様の処理が実行される。

変数Ｉの値がＩｍａｘに一致すると判定された場合、学習条件設定部１２０は処理を終了する。このとき、学習条件設定部１２０は、データ受付部１１０に、処理の完了を示す応答を送信する。

図９は、実施例１の計算機１００－２が実行する学習継続判定処理を説明するフローチャートである。

学習部１２１は、予測器１２２のパラメータの勾配を算出する（ステップＳ２０１）。パラメータの勾配を算出する方法は公知の技術であるため詳細な説明は省略する。

学習部１２１は、パラメータの勾配に基づいて、継続条件を満たすか否かを判定する（ステップＳ２０２）。

例えば、学習部１２１は、パラメータの勾配が０又はパラメータの勾配が閾値より大きいか否かを判定する。パラメータの勾配が０又はパラメータの勾配が閾値より大きい場合、継続条件を満たさないと判定される。

継続条件を満たすと判定された場合、学習部１２１は、学習の継続と判定し（ステップＳ２０３）、その後、学習継続判定処理を終了する。

継続条件を満たさないと判定された場合、学習部１２１は、学習の停止と判定し（ステップＳ２０４）、その後、学習継続判定処理を終了する。

図１０は、実施例１の計算機１００－３が実行する処理を説明するフローチャートである。

計算機１００－３は、実行要求を受け付けた計算機１００－１から学習データ選択指示を受信した場合、以下で説明する処理を実行する。

影響スコア算出部１３０は、初期化処理を実行する（ステップＳ３０１）。具体的には、以下のような処理が実行される。

（Ｓ３０１－１）影響スコア算出部１３０は、学習データデータベース１２４から複数の学習データを取得する。

影響スコア算出部１３０は、学習データ選択指示にデータセット設定欄６１０のラジオボタン６１２の操作情報が含まれる場合、取得した複数の学習データから学習データセットを生成し、学習データ選択指示に含まれるテストデータセットを取得する。影響スコア算出部１３０は、各データセットに含まれるデータに識別番号を付与する。

影響スコア算出部１３０は、学習データ選択指示にデータセット設定欄６１０のラジオボタン６１３の操作情報が含まれる場合、取得した複数の学習データの中から、所定の数の学習データをテストデータとして選択する。影響スコア算出部１３０は、テストデータとして選択された学習データを除く複数の学習データから学習データセットを生成し、また、所定の数のテストデータからテストデータセットを生成する。影響スコア算出部１３０は、各データセットに含まれるデータに識別番号を付与する。

なお、本実施例は、学習データデータベース１２４からテストデータを選択する方法に限定されない。例えば、影響スコア算出部１３０は、ランダムにテストデータが選択する。なお、テストデータの数は任意に設定できる。当該数は任意のタイミングで更新できる。

（Ｓ３０１－２）影響スコア算出部１３０は、影響度情報１３２及び影響スコア情報１３３を初期化する。

以上がステップＳ３０１の処理の説明である。

次に、影響スコア算出部１３０は、変数Ｉを初期化し（ステップＳ３０２）、変数Ｊを初期化し（ステップＳ３０３）、また、変数Ｋを初期化する（ステップＳ３０４）。変数Ｉは学習条件の識別番号を表す変数であり、変数Ｊはテストデータの識別番号を表す変数であり、変数Ｋは学習データの識別番号を表す変数である。

具体的には、影響スコア算出部１３０は、変数Ｉ、変数Ｊ、及び変数Ｋのそれぞれに１を設定する。

ステップＳ３０２では、影響スコア算出部１３０は、生成する学習条件の最大数をＩｍａｘに設定し、変数Ｉに対応する２次元配列４００を影響度情報１３２に追加する。また、影響スコア算出部１３０は、学習履歴情報１２３にアクセスし、変数Ｉに対応するエントリの学習結果３０４から予測器１２２を定義するパラメータの値を取得する。ここでは、学習条件Ｉに対応するエントリの学習結果３０４のうち、最も予測精度が高いパラメータの値が取得されるものとする。ステップＳ３０３では、影響スコア算出部１３０は、テストデータセットに含まれるテストデータの数をＪｍａｘに設定し、また、ステップＳ３０４では、学習データセットに含まれる学習データの数をＫｍａｘに設定する。

次に、影響スコア算出部１３０は、テストデータセットから変数Ｊに対応するテストデータを取得し、また、学習データセットから変数Ｋに対応する学習データを取得する（ステップＳ３０５）。

次に、影響スコア算出部１３０は、テストデータ（Ｊ）、学習データ（Ｋ）、及び学習条件（Ｉ）に対応する予測器１２２を用いて影響度を算出し（ステップＳ３０６）、変数Ｉに対応する２次元配列４００のＫ行Ｊ列に対応するセルに算出された影響度を設定する。なお、影響度の算出方法は非特許文献１に記載されているため、詳細な説明は省略する。

次に、影響スコア算出部１３０は、変数Ｋの値がＫｍａｘに一致するか否かを判定する（ステップＳ３０７）。すなわち、全ての学習データについて処理が完了したか否かが判定される。

変数Ｋの値がＫｍａｘに一致しないと判定された場合、影響スコア算出部１３０は、変数Ｋに１を加算した値を変数Ｋに設定し（ステップＳ３０８）、その後、ステップＳ３０５に戻る。

変数Ｋの値がＫｍａｘに一致すると判定された場合、影響スコア算出部１３０は、変数Ｊの値がＪｍａｘに一致するか否かを判定する（ステップＳ３０９）。すなわち、全てのテストデータについて処理が完了したか否かが判定される。

変数Ｊの値がＪｍａｘに一致しないと判定された場合、影響スコア算出部１３０は、変数Ｊに１を加算した値を変数Ｊに設定し（ステップＳ３１０）、その後、ステップＳ３０４に戻る。

変数Ｊの値がＪｍａｘに一致すると判定された場合、影響スコア算出部１３０は、変数Ｉの値がＩｍａｘに一致するか否かを判定する（ステップＳ３１１）。すなわち、新たな学習条件を生成するか否かが判定される。

変数Ｉの値がＩｍａｘに一致しないと判定された場合、影響スコア算出部１３０は、変数Ｉに１を加算した値を変数Ｉに設定し（ステップＳ３１２）、その後、ステップＳ３０３に戻る。

変数Ｉの値がＩｍａｘに一致すると判定された場合、影響スコア算出部１３０は、影響スコア算出処理を実行する（ステップＳ３１３）。影響スコア算出処理の詳細は図１１を用いて説明する。

次に、影響スコア算出部１３０は、出力情報生成処理を実行する（ステップＳ３１４）。その後、影響スコア算出部１３０は処理を終了する。出力情報生成処理の詳細は図１２Ａ及び図１２Ｂを用いて説明する。

なお、一つの学習データに対して複数のテストデータを選択し、影響度を算出してもよい。すなわち、ステップＳ３０３とステップＳ３０４とを入れ替え、また、ステップＳ３０７及びステップＳ３０８とステップＳ３０９及びステップＳ３１０とを入れ替えてもよい。

図１１は、実施例１の計算機１００－３が実行する影響スコア算出処理を説明するフローチャートである。

影響スコア算出部１３０は、変数Ｋを初期化する（ステップＳ４０１）。

具体的には影響スコア算出部１３０は、変数Ｋに１を設定し、学習データセットに含まれる学習データの数をＫｍａｘに設定する。また、影響スコア算出部１３０は、影響スコア情報１３３にエントリを追加し、学習データＩＤ５０１に学習データの識別情報を設定する。

影響スコア算出部１３０は、変数Ｉを初期化する（ステップＳ４０２）。

具体的には影響スコア算出部１３０は、変数Ｉに１を設定する。

次に、影響スコア算出部１３０は、影響度情報１３２の変数Ｉに対応する２次元配列４００のＫ行目を、学習データの影響度ベクトルとして取得する（ステップＳ４０３）。

次に、影響スコア算出部１３０は、学習データの影響度ベクトルを用いて学習データの影響スコアを算出し、影響スコア情報１３３に登録する（ステップＳ４０４）。

本実施例は、影響スコアの算出方法に限定されない。例えば、影響スコア算出部１３０は、影響度ベクトルの各成分の合計値又は平均値を影響スコアとして算出する。また、影響スコア算出部１３０は、任意の係数ベクトルと影響度ベクトルとの内積を影響スコアとして算出する。

影響スコア算出部１３０は、影響スコア情報１３３を参照して、変数Ｋに対応するエントリを検索し、当該エントリの影響スコア５０２の変数Ｉに対応するフィールドに算出された影響スコアを設定する。

次に、影響スコア算出部１３０は、変数Ｉの値がＩｍａｘに一致するか否かを判定する（ステップＳ４０５）。すなわち、全ての学習条件について処理が完了したか否かが判定される。

変数Ｉの値がＩｍａｘに一致しないと判定された場合、影響スコア算出部１３０は、変数Ｉに１を加算した値を変数Ｉに設定し（ステップＳ４０６）、その後、ステップＳ４０３に戻る。

変数Ｉの値がＩｍａｘに一致すると判定された場合、影響スコア算出部１３０は、統合影響スコアを算出し（ステップＳ４０７）、影響スコア情報１３３に登録する。

具体的には、影響スコア算出部１３０は、影響スコア情報１３３を参照して、変数Ｋに対応するエントリを検索する。影響スコア算出部１３０は、検索されたエントリの影響スコア５０２に格納される複数の影響スコアを用いて統合影響スコアを算出する。例えば、影響スコアの平均値、影響スコアの加重平均等を統合影響スコアとして算出する方法が考えられる。重みは、予測器１２２の予測精度に基づいて決定する方法が考えられる。

影響スコア算出部１３０は、当該エントリの統合影響スコア５０３に算出された統合影響スコアを設定する。

次に、影響スコア算出部１３０は、変数Ｋの値がＫｍａｘに一致するか否かを判定する（ステップＳ４０８）。すなわち、全ての学習データについて処理が完了したか否かが判定される。

変数Ｋの値がＫｍａｘに一致しないと判定された場合、影響スコア算出部１３０は、変数Ｋに１を加算した値を変数Ｋに設定し（ステップＳ４０９）、その後、ステップＳ４０２に戻る。このとき、影響スコア算出部１３０は、影響スコア情報１３３にエントリを追加し、学習データＩＤ５０１に学習データの識別情報を設定する。

変数Ｋの値がＫｍａｘに一致すると判定された場合、影響スコア算出部１３０は影響スコア算出処理を終了する。

図１２Ａ及び図１２Ｂは、実施例１の計算機１００－３が実行する出力情報生成処理を説明するフローチャートである。図１３及び図１４は、実施例１の計算機１００－３によって出力される情報の一例を示す図である。

影響スコア算出部１３０は、学習データ選択指示に影響スコア出力要求が含まれるか否かを判定する（ステップＳ５０１）。

学習データ選択指示に影響スコア出力要求が含まれないと判定された場合、影響スコア算出部１３０は、ステップＳ５０５に進む。

学習データ選択指示に影響スコア出力要求が含まれると判定された場合、影響スコア算出部１３０は、学習条件が指定されているか否かを判定する（ステップＳ５０２）。

具体的には、影響スコア算出部１３０は、影響スコア出力要求に学習条件の識別情報が含まれるか否かを判定する。影響スコア出力要求に学習条件の識別情報が含まれる場合、影響スコア算出部１３０は、学習条件が指定されていると判定する。

学習条件が指定されていないと判定された場合、影響スコア算出部１３０は、計算機１００－１を介して、影響スコア情報１３３を出力する（ステップＳ５０３）。その後、影響スコア算出部１３０はステップＳ５０５に進む。

この場合、計算機１００－１の結果出力部１１１は、影響スコア情報１３３を表示するための表示情報を生成し、当該表示情報を端末１０１に送信する。

学習条件が指定されていると判定された場合、影響スコア算出部１３０は、計算機１００－１を介して、影響度データ及び影響スコア情報１３３を出力する（ステップＳ５０４）。その後、影響スコア算出部１３０はステップＳ５０５に進む。

ここで、影響度データは、指定された学習条件に対応する２次元配列４００である。

この場合、計算機１００－１の結果出力部１１１は、影響度データ及び影響スコア情報１３３を表示するための表示情報を生成し、当該表示情報を端末１０１に送信する。端末１０１には、図１３に示すような出力画面１３００が表示される。

図１３に示すような影響度データをユーザに提示することによって、ユーザは、入力するデータの特性に合わせて学習データを容易に選択することができる。また、ユーザは、テストデータに対する予測器１２２の予測精度を向上させる学習データを追加する必要があるか否かを容易に判定することができる。

ステップＳ５０５では、影響スコア算出部１３０は、学習データ選択指示に学習データセット出力要求が含まれるか否かを判定する（ステップＳ５０５）。

学習データ選択指示に学習データセット出力要求が含まれないと判定された場合、影響スコア算出部１３０は、ステップＳ５０８に進む。

学習データ選択指示に学習データセット出力要求が含まれると判定された場合、影響スコア算出部１３０は、学習データ選択部１３１に学習データセットの生成を指示する（ステップＳ５０６）。

学習データ選択部１３１は、影響スコア算出部１３０から指示を受け付けた場合、影響スコア情報１３３に基づいて学習データを選択する。選択方法は、例えば、以下のような方法が考えられる。

（選択方法１）学習データ選択部１３１は、学習条件を選択し、影響スコア５０２の学習条件に対応する列を参照して、影響スコアが小さい順にｎ個の学習データを選択する。学習データ選択部１３１は、全ての学習条件について同様の処理を実行する。学習データ選択部１３１は、学習データデータベース１２４から、選択された学習データを除くことによって学習データセットを生成する。ただし、ｎはあらかじめ設定されているものとする。ただし、ｎは任意のタイミングで更新できる。

（選択方法２）学習データ選択部１３１は、学習条件を選択し、影響スコア５０２の学習条件に対応する列を参照して、影響スコアが第１閾値より小さい学習データを選択する。学習データ選択部１３１は、全ての学習条件について同様の処理を実行する。学習データ選択部１３１は、前述の処理結果に基づいて、各学習データについて、影響スコアが第１閾値より小さくなった回数をカウントする。学習データ選択部１３１は、学習データデータベース１２４から、回数が第２閾値より大きい学習データを除くことによって学習データセットを生成する。なお、第１閾値及び第２閾値はあらかじめ設定されているものとする。ただし、第１閾値及び第２閾値は任意のタイミングで更新できる。

（選択方法３）学習データ選択部１３１は、学習データデータベース１２４から、統合影響スコアが閾値より小さい学習データを除くことによって学習データセットを生成する。なお、閾値はあらかじめ設定されているものとする。ただし、閾値は任意のタイミングで更新できる。

なお、選択方法１及び選択方法２では、予測精度に基づいて設定される重みを用いて補正された影響スコアを用いてもよい。選択方法１及び選択方法２では、影響スコアの絶対値を基準に判定してもよい。選択方法３では、統合影響スコアの絶対値を基準に判定してもよい。

次に、影響スコア算出部１３０は、計算機１００－１を介して、生成された学習データセットを出力する（ステップＳ５０７）。その後、影響スコア算出部１３０はステップＳ５０８に進む。

ステップＳ５０８では、影響スコア算出部１３０は、学習データ選択指示に予測器出力要求が含まれるか否かを判定する（ステップＳ５０８）。

学習データ選択指示に予測器出力要求が含まれないと判定された場合、影響スコア算出部１３０は、ステップＳ５１１に進む。

学習データ選択指示に予測器出力要求が含まれると判定された場合、影響スコア算出部１３０は、学習データ選択部１３１に学習データセットの生成を指示する（ステップＳ５０９）。学習データ選択部１３１が実行する処理はステップＳ５０６で説明した処理と同一である。

次に、影響スコア算出部１３０は、生成された学習データセットとともに学習処理の実行要求を計算機１００－２に送信する（ステップＳ５１０）。その後、影響スコア算出部１３０は、ステップＳ５１１に進む。なお、実行要求には、選択された学習データの識別情報を含めてもよい。

計算機１００－２の学習部１２１は、学習処理の実行要求を受信した場合、学習データ選択部１３１によって生成された学習データセットを用いて予測器１２２の学習処理を実行する。学習部１２１は、計算機１００－１を介して、学習データセットを用いた学習処理によって生成された予測器１２２を出力する。

ステップＳ５１１では、影響スコア算出部１３０は、学習データ選択指示に学習効果出力要求が含まれるか否かを判定する（ステップＳ５１１）。

学習データ選択指示に学習効果出力要求が含まれないと判定された場合、影響スコア算出部１３０は出力情報生成処理を終了する。

学習データ選択指示に学習効果出力要求が含まれると判定された場合、影響スコア算出部１３０は、学習データセットを生成するために用いる閾値を初期化する（ステップＳ５１２）。

例えば、選択方法１の場合、影響スコア算出部１３０は変数ｎを１に設定する。

次に、影響スコア算出部１３０は、学習データ選択部１３１に学習データセットの生成を指示する（ステップＳ５１３）。当該指示には閾値の情報が含まれる。学習データ選択部１３１が実行する処理はステップＳ５０６で説明した処理と同一である。

次に、影響スコア算出部１３０は、生成された学習データセットとともに学習処理の実行要求を計算機１００－２に送信する（ステップＳ５１４）。なお、実行要求には、選択された学習データの識別情報を含めてもよい。

計算機１００－２の学習部１２１は、学習処理の実行要求を受信した場合、学習データ選択部１３１によって生成された学習データセットを用いて予測器１２２の学習処理を実行する。学習部１２１は、学習データセットを用いた学習処理によって生成された予測器１２２の予測精度を計算機１００－３に送信する。影響スコア算出部１３０は閾値及び予測精度を対応付けたデータを記録する。

次に、影響スコア算出部１３０は、検証を終了するか否かを判定する（ステップＳ５１５）。例えば、影響スコア算出部１３０は、検証回数が閾値より大きいか否かを判定する。検証回数が閾値より大きい場合、影響スコア算出部１３０は、検証を終了すると判定する。なお、検証回数はあらかじめ設定されているものとする。ただし、検証回数は任意のタイミングで更新できる。

検証を終了しないと判定された場合、影響スコア算出部１３０は、閾値を更新し（ステップＳ５１６）、その後、ステップＳ５１３に戻る。

検証を終了すると判定された場合、影響スコア算出部１３０は、閾値及び予測精度を対応付けデータに基づいて、閾値及び予測精度の関係を示す学習効果情報を生成し、計算機１００－１を介して、学習効果情報を出力する（ステップＳ５１７）。その後、影響スコア算出部１３０は、出力情報生成処理を終了する。

例えば、選択方法１の場合、図１４に示すように、データの除去数ｎと予測精度との関係を示すグラフを表示する出力画面１４００が提示される。

なお、計算機１００－３は、計算機１００－２と連携して、学習履歴情報１２３を出力してもよい。ユーザは、提示された学習履歴情報１２３を介して、任意の学習条件の影響度の参照要求を送信する。この場合、計算機１００－３は、指定された学習条件の２次元配列４００を出力する。

実施例１によれば、計算機１００－３は、影響スコアに基づいて、予測精度を向上する学習データを効率的かつ容易に選択できる。異なる学習条件の下で生成された予測器１２２を用いた影響スコアを用いることによって、特定の学習条件に対する依存をできる。選択された学習データを用いて予測器１２２を生成することによって、予測精度が高い予測器１２２をユーザに提供することができる。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、光ディスク、光磁気ディスク、ＣＤ－Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｐｙｔｈｏｎ、Ｊａｖａ（登録商標）等の広範囲のプログラム又はスクリプト言語で実装できる。

さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はＣＤ－ＲＷ、ＣＤ－Ｒ等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。

上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。

１００計算機
１０１端末
１０５ネットワーク
１１０データ受付部
１１１結果出力部
１２０学習条件設定部
１２１学習部
１２２予測器
１２３学習履歴情報１２３
１２４学習データデータベース
１３０影響スコア算出部
１３１学習データ選択部
１３２影響度情報
１３３影響スコア情報
１４０テストデータデータベース
２０１プロセッサ
２０２主記憶装置
２０３副記憶装置
２０４ネットワークインタフェース
６００ＧＵＩ
７００ＡＰＩ

Claims

計算機システムが実行する、予測器を生成するために用いる学習データの選択方法であって、
前記計算機システムは、
プロセッサ及び前記プロセッサに接続されるメモリを有する計算機を含み、
複数の学習データと、異なる学習条件の下で生成された、複数の予測器を管理するための情報と、を格納するデータベースと接続し、
前記学習データの選択方法は、
前記計算機が、複数の前記予測器の中からターゲット予測器を選択し、複数のテストデータの各々について、前記学習データが前記テストデータに対する前記ターゲット予測器の予測精度に与える影響の強さを表す影響度を算出する第１のステップと、
前記計算機が、前記予測器と、複数の前記テストデータの各々に対する、前記学習データの前記影響度と、を対応付けて記録する第２のステップと、
前記計算機が、複数の前記予測器の各々について、前記予測器と対応付けられる、前記学習データの複数の前記影響度に基づいて、前記学習データの影響スコアを算出する第３のステップと、
前記計算機が、複数の前記予測器の各々と、前記学習データの前記影響スコアとを対応付けて記録する第４のステップと、
前記計算機が、複数の前記学習データの各々の複数の前記影響スコアに基づいて、複数の前記学習データの中から使用する前記学習データを選択することによって学習データセットを生成する第５のステップと、
を含むことを特徴とする学習データの選択方法。
請求項１に記載の学習データの選択方法であって、
前記第５のステップは、
前記計算機が、複数の前記予測器の各々について、前記予測器と対応付けられる、複数の前記学習データの各々の前記影響スコアに基づいて、除外する前記学習データを選択する選択処理を実行するステップと、
前記計算機が、複数の前記予測器の各々についての前記選択処理の結果に基づいて、複数の前記学習データの中から使用する前記学習データを選択するステップと、
を含むことを特徴とする学習データの選択方法。
請求項２に記載の学習データの選択方法であって、
前記学習条件は、前記予測器を生成するために用いた複数の前記学習データ及び複数の前記学習データの入力順番を含むことを特徴とする学習データの選択方法。
請求項３に記載の学習データの選択方法であって、
前記学習条件は、前記予測器を生成するための学習処理のハイパーパラメータを含むことを特徴とする学習データの選択方法。
請求項４に記載の学習データの選択方法であって、
前記計算機が、異なる前記学習条件の下で前記予測器を生成する第６のステップを含み、
前記第６のステップは、
前記計算機が、前記データベースから所定の数の前記学習データを選択し、選択された複数の前記学習データの入力順番を決定することによってバッチを生成する第７のステップと、
前記計算機が、前記ハイパーパラメータを設定する第８のステップと、
前記計算機が、複数の前記バッチの中からターゲットバッチを選択し、設定された前記ハイパーパラメータ及び前記ターゲットバッチに含まれる複数の前記学習データを用いて前記学習処理を実行し、前記ターゲットバッチに含まれる複数の前記学習データ、決定された前記入力順番、設定された前記ハイパーパラメータ、及び生成された前記予測器を対応付けて前記情報に格納する第９のステップと、
前記計算機が、前記学習処理の結果に基づいて、学習を継続するか否かを判定する第１０のステップと、
前記計算機が、学習を継続すると判定された場合、全ての前記バッチについて処理が完了したか否かを判定する第１１のステップと、
前記計算機が、全ての前記バッチについて処理が完了していないと判定された場合、前記第９のステップ及び前記第１０のステップを実行する第１２のステップと、
を含むことを特徴とする学習データの選択方法。
請求項５に記載の学習データの選択方法であって、
前記計算機が、生成する前記予測器の数、前記バッチを構成する前記学習データの数、前記ハイパーパラメータを調整するための値を入力するインタフェースを提供するステップを含むことを特徴とする学習データの選択方法。
プロセッサ及び前記プロセッサに接続されるメモリを有する計算機を備える計算機システムであって、
複数の学習データと、異なる学習条件の下で生成された、複数の予測器を管理するための情報と、を格納するデータベースと接続し、
前記計算機は、
複数の前記予測器の中からターゲット予測器を選択し、複数のテストデータの各々について、前記学習データが前記テストデータに対する前記ターゲット予測器の予測精度に与える影響の強さを表す影響度を算出する第１の処理と、
前記予測器と、複数の前記テストデータの各々に対する、前記学習データの前記影響度と、を対応付けて記録する第２の処理と、
複数の前記予測器の各々について、前記予測器と対応付けられる、前記学習データの複数の前記影響度に基づいて、前記学習データの影響スコアを算出する第３の処理と、
複数の前記予測器の各々と、前記学習データの前記影響スコアとを対応付けて記録する第４の処理と、
複数の前記学習データの各々の複数の前記影響スコアに基づいて、複数の前記学習データの中から使用する前記学習データを選択することによって学習データセットを生成する第５の処理と、
を実行することを特徴とする計算機システム。
請求項７に記載の計算機システムであって、
前記計算機は、前記第５の処理において、
複数の前記予測器の各々について、前記予測器と対応付けられる、複数の前記学習データの各々の前記影響スコアに基づいて、除外する前記学習データを選択する選択処理を実行し、
複数の前記予測器の各々についての前記選択処理の結果に基づいて、複数の前記学習データの中から使用する前記学習データを選択する、ことを特徴とする計算機システム。
請求項８に記載の計算機システムであって、
前記学習条件は、前記予測器を生成するために用いた複数の前記学習データ及び複数の前記学習データの入力順番を含むことを特徴とする計算機システム。
請求項９に記載の計算機システムであって、
前記学習条件は、前記予測器を生成するための学習処理のハイパーパラメータを含むことを特徴とする計算機システム。
請求項１０に記載の計算機システムであって、
前記計算機は、異なる前記学習条件の下で前記予測器を生成する第６の処理を実行し、
前記計算機は、前記第６の処理において、
前記データベースから所定の数の前記学習データを選択し、選択された複数の前記学習データの入力順番を決定することによってバッチを生成する第７の処理と、
前記ハイパーパラメータを設定する第８の処理と、
複数の前記バッチの中からターゲットバッチを選択し、設定された前記ハイパーパラメータ及び前記ターゲットバッチに含まれる複数の前記学習データを用いて前記学習処理を実行し、前記ターゲットバッチに含まれる複数の前記学習データ、決定された前記入力順番、設定された前記ハイパーパラメータ、及び生成された前記予測器を対応付けて前記情報に格納する第９の処理と、
前記学習処理の結果に基づいて、学習を継続するか否かを判定する第１０の処理と、
学習を継続すると判定された場合、全ての前記バッチについて処理が完了したか否かを判定する第１１の処理と、
全ての前記バッチについて処理が完了していないと判定された場合、前記第９の処理及び前記第１０の処理を実行する第１２の処理と、
を実行することを特徴とする計算機システム。
請求項１１に記載の計算機システムであって、
前記計算機は、生成する前記予測器の数、前記バッチを構成する前記学習データの数、前記ハイパーパラメータを調整するための値を入力するインタフェースを提供することを特徴とする計算機システム。