JP2023013082A - 学習データの選択方法及び計算機システム - Google Patents

学習データの選択方法及び計算機システム Download PDF

Info

Publication number
JP2023013082A
JP2023013082A JP2021117000A JP2021117000A JP2023013082A JP 2023013082 A JP2023013082 A JP 2023013082A JP 2021117000 A JP2021117000 A JP 2021117000A JP 2021117000 A JP2021117000 A JP 2021117000A JP 2023013082 A JP2023013082 A JP 2023013082A
Authority
JP
Japan
Prior art keywords
learning
learning data
influence
predictor
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021117000A
Other languages
English (en)
Inventor
ウシン リョウ
Yuxin Liang
正史 恵木
Masashi Egi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2021117000A priority Critical patent/JP2023013082A/ja
Priority to US17/675,445 priority patent/US20230019364A1/en
Publication of JP2023013082A publication Critical patent/JP2023013082A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • G06F18/2185Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】予測器の予測精度を向上させる学習データを正確かつ容易に選択する。【解決手段】計算機システムは、複数の学習データと、異なる学習条件の下で生成された、複数の予測器を管理するための情報と、を格納するデータベースと接続し、ターゲット予測器を選択し、複数のテストデータの各々について、学習データがテストデータに対するターゲット予測器の予測精度に与える影響の強さを表す影響度を算出し、複数の予測器の各々について、予測器と対応付けられる、学習データの複数の影響度に基づいて、学習データの影響スコアを算出し、複数の学習データの各々の複数の影響スコアに基づいて、複数の学習データの中から使用する学習データを選択する。【選択図】図10

Description

本発明は、機械学習に使用する学習データの選択方法に関する。
近年、AIを活用した様々なサービスが提供されている。任意の事象の予測を行うAIを実現するモデルを生成する方法として、機械学習を利用する方法が知られている。機械学習のアルゴリズムの一つとして教師あり学習がある。教師あり学習は、入力及び正解ラベルから構成される学習データを用いた学習である。
教師あり学習を用いてモデルを生成する場合、質の高い学習データを用いて学習を行うことによって過学習を抑制し、また、予測精度が向上することができる。ここで、質の高い学習データとは、モデルの予測精度の向上効果が高い学習データを表す。また、特定の状況又は用途に適合させたモデルにチューニングするためには、状況又は用途が考慮された学習データを用いて学習を行う必要がある。
したがって、教師あり学習では、使用する学習データを適切に選択することが重要である。この課題に対して特許文献1に記載の技術が知られている。
特許文献1には、「予測器を構築するために用いる学習データに関する解析を行う計算機システムが実行する学習データの解析方法であって、計算機システムは計算機を備え、計算機は、複数の学習データを格納するデータベースと接続し、計算機が、データベースからターゲット学習データを選択するステップと、ターゲット学習データが、複数のテストデータに対する予測器の予測精度に与える影響の強さを表す影響スコアを算出するステップと、複数の学習データの各々の影響スコアに基づいて、複数の学習データの中から、予測器を構築するために入力する学習データセットに含める学習データを選択するステップと、を含む。」ことが記載されている。
特開2020-030738号公報
Pang Wei Koh, Percy Liang、「Understanding Black-box Predictions via Influence Functions」、arXiv preprint arXiv:1703.04730 (2017)
学習データセット及びハイパーパラメータ等の学習条件が異なると、入力されたデータに対する予測器の振る舞いが異なる。特許文献1に記載の技術では、任意の学習条件の下で学習された予測器を用いているため、影響スコアが予測器の特性(学習条件)に依存する可能性がある。したがって、当該影響スコアを用いても予測精度が向上しない可能性がある。
本発明は、前述の課題を鑑みてなされたものである。すなわち、特定の学習条件の下で生成された予測器に依存しない指標を用いて、目的とする事象の予測の予測精度の向上に貢献する学習データを選択する方法及びシステムを実現する。
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、計算機システムが実行する、予測器を生成するために用いる学習データの選択方法であって、前記計算機システムは、プロセッサ及び前記プロセッサに接続されるメモリを有する計算機を含み、複数の学習データと、異なる学習条件の下で生成された、複数の予測器を管理するための情報と、を格納するデータベースと接続し、前記学習データの選択方法は、前記計算機が、複数の前記予測器の中からターゲット予測器を選択し、複数のテストデータの各々について、前記学習データが前記テストデータに対する前記ターゲット予測器の予測精度に与える影響の強さを表す影響度を算出する第1のステップと、前記計算機が、前記予測器と、複数の前記テストデータの各々に対する、前記学習データの前記影響度と、を対応付けて記録する第2のステップと、前記計算機が、複数の前記予測器の各々について、前記予測器と対応付けられる、前記学習データの複数の前記影響度に基づいて、前記学習データの影響スコアを算出する第3のステップと、前記計算機が、複数の前記予測器の各々と、前記学習データの前記影響スコアとを対応付けて記録する第4のステップと、前記計算機が、複数の前記学習データの各々の複数の前記影響スコアに基づいて、複数の前記学習データの中から使用する前記学習データを選択することによって学習データセットを生成する第5のステップと、を含む。
本発明の一形態によれば、予測精度の向上に貢献する学習データを選択できる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
実施例1の計算機システムの構成の一例を示す図である。 実施例1の計算機のハードウェア構成の一例を示す図である。 実施例1の学習履歴情報のデータ構造の一例を示す図である。 実施例1の影響度情報のデータ構造の一例を示す図である。 実施例1の影響度情報のデータ構造の一例を示す図である。 実施例1の影響スコア情報のデータ構造の一例を示す図である。 実施例1のデータ受付部によって提供されるUIの一例を示す図である。 実施例1のデータ受付部によって提供されるUIの一例を示す図である。 実施例1の計算機が実行する処理を説明するフローチャートである。 実施例1の計算機が実行する学習継続判定処理を説明するフローチャートである。 実施例1の計算機が実行する処理を説明するフローチャートである。 実施例1の計算機が実行する影響スコア算出処理を説明するフローチャートである。 実施例1の計算機が実行する出力情報生成処理を説明するフローチャートである。 実施例1の計算機が実行する出力情報生成処理を説明するフローチャートである。 実施例1の計算機によって出力される情報の一例を示す図である。 実施例1の計算機によって出力される情報の一例を示す図である。
以下、本発明の実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施例の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。
以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。
本明細書等における「第1」、「第2」、「第3」等の表記は、構成要素を識別するために付するものであり、必ずしも、数又は順序を限定するものではない。
図面等において示す各構成の位置、大きさ、形状、及び範囲等は、発明の理解を容易にするため、実際の位置、大きさ、形状、及び範囲等を表していない場合がある。したがって、本発明では、図面等に開示された位置、大きさ、形状、及び範囲等に限定されない。
図1は、実施例1の計算機システムの構成の一例を示す図である。
計算機システムは、計算機100-1、100-2、100-3、及び端末101から構成される。計算機100-1、100-2、100-3、及び端末101は、WAN(Wide Area Network)及びLAN(Local Area Network)等のネットワーク105を介して互いに接続される。ネットワーク105の接続方式は、有線及び無線のいずれでもよい。
以下の説明では、計算機100-1、100-2、100-3を区別しない場合、計算機100と記載する。
端末101は、ユーザが操作する計算機であり、図示しない、プロセッサ、主記憶装置、副記憶装置、ネットワークインタフェース、入力装置、及び出力装置を有する。端末101は、テストデータデータベース140を管理する。テストデータデータベース140は、予測器122の予測精度を検証するためのテストデータを格納する。テストデータは複数の項目の特徴量から構成される。
本明細書では、予測精度の検証に用いる複数のテストデータをテストデータセットと記載する。
なお、端末101は、テストデータデータベース140を管理していなくてもよい。この場合、学習データデータベース124に格納される一部又は全部の学習データがテストデータとして扱われる。
計算機100-1は、端末101からの操作を受け付けるUI(User Interface)を提供する計算機である。計算機100-1は、データ受付部110及び結果出力部111を有する。
データ受付部110は、UIを介して、端末101からの入力を受け付ける。結果出力部111は、UIを介して、計算機100-2、100-3が実行した処理の結果を出力する。
計算機100-2は、モデル(予測器122)を生成するための学習処理を実行し、また、モデルを用いて任意の事象の予測を行う。計算機100-2は、学習条件設定部120、学習部121、及び予測器122を有し、また、学習履歴情報123及び学習データデータベース124を管理する。
予測器122は、入力されたデータを用いて任意の事象の予測を行う。学習条件設定部120は、予測器122を生成するための学習処理における学習条件を設定する。ここで、学習条件は、(1)学習処理に使用する複数の学習データ及び複数の学習データの入力順(学習順)、並びに(2)ハイパーパラメータを含む概念である。本実施例の学習条件には、少なくとも、学習処理に使用する複数の学習データ及び複数の学習データの入力順が含まれているものとする。学習部121は、学習処理を実行する。
学習履歴情報123は、学習条件及び学習結果から構成される学習履歴を管理するための情報である。学習履歴情報123のデータ構造については図3を用いて説明する。学習データデータベース124は、学習処理に使用する学習データを格納する。学習データは複数の項目の特徴量及び正解ラベルから構成される。
本明細書では、学習処理に用いる複数の学習データを学習データセットと記載する。後述するように、学習データデータベース124に格納される学習データの中から学習データセットに含める学習データが選択される。
計算機100-3は、予測器122を生成するために使用する学習データを選択する。ここで、「予測器122の生成」は、新規に予測器122を生成すること、及び、再学習によって予測器122を再生成することを含む概念である。計算機100-3は、影響スコア算出部130及び学習データ選択部131を有し、また、影響度情報132及び影響スコア情報133を管理する。
影響スコア算出部130は、学習データが、テストデータセットに対する予測器122の予測精度に与える影響の強さを表す影響スコアを算出する。本実施例の影響スコアは、任意のテストデータに対する予測を行う場合に、学習データが予測器122の予測精度に与える影響の強さを表す影響度を用いて算出される。影響度は、非特許文献1に記載の算出方法を用いて算出できる。なお、本実施例は、影響スコア及び影響度の算出方法に限定されない。
ここで、非特許文献1に記載の影響度の算出方法について説明する。影響スコア算出部130は、複数の学習データ、テストデータ、及び予測器122を用いて、評価対象の学習データを学習データセットに含めた場合の予測器122のパラメータの変動傾向を示す値を算出し、また、予測器122のパラメータを変動させた場合における任意のテストデータに対する予測結果の変動傾向を示す値を算出する。影響スコア算出部130は、二つの値を用いて影響度を算出する。影響スコア算出部130は、一つの評価対象の学習データについて、テストデータの数だけ影響度を算出する。影響度が正の場合、予測器122の予測精度を向上することを示し、影響度が負の場合、予測器122の予測精度が低下することを示す。
影響度を用いて算出される影響スコアは、テストデータ群に対する予測において、学習データが予測器122の予測精度に与える影響の強さを表す。
学習データ選択部131は、学習データの影響スコアに基づいて、学習データセットに含める学習データを選択する。
影響度情報132は、学習データの影響度を管理するための情報である。影響度情報132のデータ構造については図4A及び図4Bを用いて説明する。影響スコア情報133は、学習データの影響スコアを管理するための情報である。影響スコア情報133のデータ構造については図5を用いて説明する。
ここで、計算機100のハードウェア構成について説明する。図2は、実施例1の計算機100のハードウェア構成の一例を示す図である。
計算機100は、プロセッサ201、主記憶装置202、副記憶装置203、及びネットワークインタフェース204を有する。各ハードウェア構成は内部バスを介して互いに接続される。なお、計算機100は、副記憶装置203を有していなくてもよい。また、計算機100は、入力装置及び出力装置を有してもよい。
プロセッサ201は、主記憶装置202に格納されるプログラムを実行する。プロセッサ201がプログラムにしたがって処理を実行することによって、影響スコア算出部130等、特定の機能を実現する機能部(モジュール)として動作する。以下の説明では、機能部を主語に処理を説明する場合、プロセッサ201が当該機能部を実現するプログラムを実行していることを示す。
主記憶装置202は、プロセッサ201が実行するプログラム及び当該プログラムが使用する情報を格納する。また、主記憶装置202は、プログラムが一時的に使用するワークエリアを含む。
計算機100-1の主記憶装置202には、データ受付部110及び結果出力部111を実現するためのプログラムが格納される。計算機100-2の主記憶装置202には、学習条件設定部120、学習部121、及び予測器122を実現するためのプログラムが格納される。なお、予測器122を定義するパラメータの値は、学習履歴情報123に格納される。計算機100-3の主記憶装置202には、影響スコア算出部130及び学習データ選択部131を実現するためのプログラムが格納される。
副記憶装置203は、HDD(Hard Disk Drive)及びSSD(Solid State Drive)等、データを永続的に格納する。
計算機100-2の副記憶装置203は、学習履歴情報123及び学習データデータベース124を格納する。なお、学習データデータベース124は、計算機100-2がアクセス可能なストレージシステムに格納されてもよい。計算機100-3の副記憶装置203は、影響度情報132及び影響スコア情報133を格納する。
なお、各計算機100が有する各機能部については、複数の機能部を一つの機能部にまとめてもよいし、一つの機能部を機能毎に複数の機能部に分けてもよい。また、各計算機100が有する機能部を一つの計算機100にまとめてもよい。
図3は、実施例1の学習履歴情報123のデータ構造の一例を示す図である。
学習履歴情報123は、テーブル形式のデータであり、学習条件ID301、学習順序302、ハイパーパラメータ303、及び学習結果304を含むエントリを格納する。一つの学習条件に対して一つのエントリが存在する。なお、エントリに含まれるフィールドは前述したものに限定されない。前述したフィールドのいずれかを含まなくてもよいし、また、他のフィールドを含んでもよい。
学習条件ID301は、学習条件の識別情報を格納するフィールドである。本実施例の学習条件の識別情報は、記号「P」と識別番号とを組み合わせたものとする。また、学習データの識別情報は、記号「L」と識別番号とを組み合わせたものとし、テストデータの識別情報は、記号「T」と識別番号とを組み合わせたものとする。
学習順序302は、学習データセットに含まれる学習データ及び学習データの入力順に関する情報を格納するフィールド群である。本実施例では、学習データデータベース124に格納される複数の学習データから複数のサブセット(バッチ)を生成し、バッチごとに予測器122を定義するパラメータを更新する学習処理が実行される。学習順序302は、バッチの数だけフィールドを含む。一つのフィールドには、入力順に並べられた学習データの識別情報が格納される。
ハイパーパラメータ303は、学習処理で使用するハイパーパラメータを格納するフィールド群である。ハイパーパラメータ303は、学習率及びエポック数等を格納するフィールドを含む。
学習結果304は、学習処理の結果を格納するフィールド群である。学習結果304は、バッチの数だけフィールドを含む。一つのフィールドには、予測器122を定義するパラメータの値及び予測精度が学習結果として格納される。
図4A及び図4Bは、実施例1の影響度情報132のデータ構造の一例を示す図である。
図4Aは、影響度情報132のデータ構造のイメージを示す図である。影響度情報132は、学習データ、テストデータ、及び学習条件をインデックスとする3次元配列のデータである。
図4Bは、学習条件ID301が「P_1」の2次元配列400を示す。
L_iはi行目の学習データの識別情報を表し、T_hはh列目のテストデータの識別情報を表す。セルには影響度が格納される。例えば、i行h列には、テストデータ(T_h)に対する予測を行う場合に、学習データ(L_i)が予測器122の予測精度に与える影響の強さを表す影響度が格納される。一つの行は、一つの学習データの影響度を成分とするベクトルとして扱うことができる。以下の説明では、影響度を成分とするベクトルを学習データの影響度ベクトルと記載する。
したがって、影響度情報132は、学習条件ごとに、影響度ベクトルを羅列することによって生成された影響度行列(2次元配列400)を管理するための情報である。
図5は、実施例1の影響スコア情報133のデータ構造の一例を示す図である。
影響スコア情報133は、学習データID501、影響スコア502、及び統合影響スコア503から構成されるエントリを複数含む。一つの学習データに対して一つのエントリが存在する。なお、エントリに含まれるフィールドは前述したものに限定されない。前述したフィールドのいずれかを含まなくてもよいし、また、他のフィールドを含んでもよい。
学習データID401は、学習データの識別情報を格納するフィールドである。影響スコア402は、学習データの影響スコアを格納するフィールド群である。影響スコア402には、学習条件の数だけフィールドを含む。各フィールドには、学習条件に対応する予測器122を用いて算出された影響スコアが格納される。統合影響スコア503は、各学習条件の予測器122を用いて算出された学習データの影響スコアから算出される統合影響スコアを格納するフィールドである。
図6及び図7は、実施例1のデータ受付部110によって提供されるUIの一例を示す図である。
図6に示すGUI600は、データ受付部110によって提供されるUIであり、端末101の出力装置に表示される。GUI600は、データセット設定欄610、学習条件設定欄620、出力選択欄630、及び実行ボタン640を含む。
データセット設定欄610は、学習データセット及びテストデータセットに関する情報(データセット設定情報)を設定するための欄である。データセット設定欄610は、学習データセット設定欄611、ラジオボタン612、ラジオボタン613、及びテストデータセット設定欄614を含む。
学習データセット設定欄611は、デフォルトの学習データセットを設定するための欄である。学習データセット設定欄611には、学習データデータベース124の格納場所を示すパス等が設定される。
ラジオボタン612は、テストデータセットを入力する場合に選択される。ラジオボタン613は、テストデータセットを入力しない場合に選択される。テストデータセット設定欄614は、入力するテストデータセットを設定するための欄である。テストデータセット設定欄614には、テストデータセットの格納場所を示すパス又はテストデータセットに対応するファイル等が設定される。ラジオボタン612が操作された場合に、テストデータセット設定欄614への入力が有効化される。
学習条件設定欄620は、学習条件に関する情報(学習条件設定情報)を設定するための欄である。学習条件設定欄620は、学習条件数設定欄621、バッチサイズ設定欄622、学習率探索範囲623、及び学習率減衰624を含む。
学習条件数設定欄621は、生成する学習条件の最大数を設定するための欄である。バッチサイズ設定欄622は、バッチに含める学習データの数、すなわち、バッチサイズを設定する欄である。学習率探索範囲623は、学習率の範囲を設定する欄である。学習率減衰624は、学習率の減衰の幅を設定する欄である。
出力選択欄630は、出力する情報を選択するための欄である。出力選択欄630は、チェックボックス631、632、633、634、635、及び学習条件ID設定欄636を含む。
チェックボックス631は、影響スコア及び影響度に関する情報を出力する場合に選択される。チェックボックス632は、特定の学習条件の影響度に関する情報を出力する場合に選択される。学習条件ID設定欄636は、学習条件の識別情報を設定する欄である。チェックボックス631が操作された場合に、チェックボックス632及び学習条件ID設定欄636への入力が有効化される。
チェックボックス633は、影響スコアに基づいて選択された学習データから構成される学習データセットを出力する場合に選択される。チェックボックス634は、影響スコアに基づいて選択された学習データから構成される学習データセットを用いて生成された予測器122を出力する場合に選択される。チェックボックス635は、影響スコアに基づいて学習データを選択する場合に使用する閾値と予測精度との関係を示す学習効果を出力する場合に選択される。
以下の説明では、チェックボックス631に対応する要求を影響スコア出力要求と記載し、チェックボックス633に対応する要求を学習データセット出力要求と記載し、チェックボックス634に対応する要求を予測器出力要求と記載し、チェックボックス635に対応する要求を学習効果出力要求と記載する。なお、チェックボックス632が操作された場合、影響スコア出力要求には学習条件の識別情報が含まれる。
実行ボタン640は、処理の実行を指示するための操作ボタンである。ユーザが実行ボタン640を操作した場合、データセット設定欄610、学習条件設定欄620、出力選択欄630のそれぞれに設定した情報を含む実行要求がデータ受付部110に送信される。データ受付部110は、実行要求を受信した場合、計算機100-2に学習指示を送信し、計算機100-2から応答を受信した後、計算機100-3に学習データ選択指示を送信する。
学習指示には、データセット設定情報及び学習条件設定情報が含まれる。学習データ選択指示には、出力選択欄630の操作に応じた要求が含まれる。
図7に示すAPI700は、データ受付部110によって提供されるUIである。
ユーザはAPI700に対してコマンドを入力することによって、学習データ、テストデータ、学習条件、及び出力する情報に関する設定を行う。
図8は、実施例1の計算機100-2が実行する処理を説明するフローチャートである。
計算機100-2は、実行要求を受け付けた計算機100-1から学習指示を受信した場合、以下で説明する処理を実行する。
学習条件設定部120は、学習指示に含まれるデータセット設定情報及び学習条件設定情報を取得する(ステップS101)。このとき、学習条件設定部120は、生成する学習条件の最大数Imax及びバッチ数Smaxを設定する。なお、バッチの数は外部入力として与えてもよいし、バッチサイズ及び学習データデータベース124に格納される学習データの数から自動的に算出してもよい。
学習条件設定部120は、変数Iを初期化する(ステップS102)。変数Iは学習条件の識別番号を表す変数である。
学習条件設定部120は、学習データデータベース124に格納される学習データを用いて、複数のバッチを生成する(ステップS103)。
具体的には、学習条件設定部120は、学習条件設定情報に含まれるバッチサイズ及びデータセット設定情報に基づいて、学習データデータベース124から所定の数の学習データをランダムに選択し、複数の学習データの入力順を決定することによって、Smax個のバッチを生成する。
このとき、学習条件設定部120は、学習履歴情報123にエントリを追加し、当該エントリの学習条件ID301に変数Iに対応する識別情報を設定する。例えば、変数Iが3の場合、識別情報「P_3」が学習条件ID301に設定される。学習条件設定部120は、追加されたエントリの学習順序302の各フィールドに、バッチに含まれる学習データを入力順に設定する。
学習条件設定部120は、学習条件設定情報に基づいて、学習率等のハイパーパラメータを決定する(ステップS104)。
本実施例では、学習条件設定部120は、学習率及び減衰幅を決定する。このとき、学習条件設定部120は、学習履歴情報123に追加されたエントリのハイパーパラメータ303に、決定されたハイパーパラメータを設定する。また、学習条件設定部120は、学習部121に、学習条件の識別情報を含む学習指示を出力する。
学習部121は、変数Sを初期化する(ステップS105)。変数Sはバッチの識別番号を表す変数である。
学習部121は、変数Sに対応するバッチに含まれる学習データを用いて予測器122のパラメータを学習する(ステップS106)。
具体的には、学習部121は、学習履歴情報123を参照し、学習指示に含まれる学習条件の識別情報に対応するエントリを検索し、当該エントリの学習順序302の変数Sに対応するバッチと、当該エントリのハイパーパラメータ303とに基づいて学習処理を実行する。本実施例では、入力順にしたがって学習が行われる。また、学習部121は、学習条件の識別情報に対応するエントリの学習結果304の変数Sに対応するフィールドに、予測器122のパラメータの値及び予測精度を設定する。
学習部121は、学習継続判定処理を実行し(ステップS107)、当該処理の結果に基づいて、学習を継続するか否かを判定する(ステップS108)。
学習を継続しないと判定された場合、学習部121は、学習条件設定部120に、学習の停止を示す応答を出力する。学習条件設定部120は、応答を受信した場合、ステップS111に進む。
本実施例では、影響度の算出が見込めない状態が検知された場合、計算機100-2は、現在の学習条件の学習を終了する。
学習を継続すると判定された場合、学習部121は、学習条件設定部120に、学習の継続を示す応答を出力する。学習条件設定部120は、応答を受信した場合、変数Sの値がSmaxに一致するか否かを判定する(ステップS109)。すなわち、全てのバッチについて処理が完了したか否かを判定される。
変数Sの値がSmaxに一致しないと判定された場合、学習条件設定部120は、変数Sに1を加算した値を変数Sに設定し(ステップS110)、その後、ステップS106に戻る。この場合、別のバッチを用いて同様の処理が実行される。
変数Sの値がSmaxに一致すると判定された場合、学習条件設定部120はステップS111に進む。
ステップS111では、学習条件設定部120は、変数Iの値がImaxに一致するか否かを判定する(ステップS111)。すなわち、学習条件の最大数に達したか否かが判定される。
変数Iの値がImaxに一致しないと判定された場合、学習条件設定部120は、変数Iに1を加算した値を変数Iに設定し(ステップS112)、その後、ステップS103に戻る。この場合、新たな学習条件が設定され、新たな学習条件の下で同様の処理が実行される。
変数Iの値がImaxに一致すると判定された場合、学習条件設定部120は処理を終了する。このとき、学習条件設定部120は、データ受付部110に、処理の完了を示す応答を送信する。
図9は、実施例1の計算機100-2が実行する学習継続判定処理を説明するフローチャートである。
学習部121は、予測器122のパラメータの勾配を算出する(ステップS201)。パラメータの勾配を算出する方法は公知の技術であるため詳細な説明は省略する。
学習部121は、パラメータの勾配に基づいて、継続条件を満たすか否かを判定する(ステップS202)。
例えば、学習部121は、パラメータの勾配が0又はパラメータの勾配が閾値より大きいか否かを判定する。パラメータの勾配が0又はパラメータの勾配が閾値より大きい場合、継続条件を満たさないと判定される。
継続条件を満たすと判定された場合、学習部121は、学習の継続と判定し(ステップS203)、その後、学習継続判定処理を終了する。
継続条件を満たさないと判定された場合、学習部121は、学習の停止と判定し(ステップS204)、その後、学習継続判定処理を終了する。
図10は、実施例1の計算機100-3が実行する処理を説明するフローチャートである。
計算機100-3は、実行要求を受け付けた計算機100-1から学習データ選択指示を受信した場合、以下で説明する処理を実行する。
影響スコア算出部130は、初期化処理を実行する(ステップS301)。具体的には、以下のような処理が実行される。
(S301-1)影響スコア算出部130は、学習データデータベース124から複数の学習データを取得する。
影響スコア算出部130は、学習データ選択指示にデータセット設定欄610のラジオボタン612の操作情報が含まれる場合、取得した複数の学習データから学習データセットを生成し、学習データ選択指示に含まれるテストデータセットを取得する。影響スコア算出部130は、各データセットに含まれるデータに識別番号を付与する。
影響スコア算出部130は、学習データ選択指示にデータセット設定欄610のラジオボタン613の操作情報が含まれる場合、取得した複数の学習データの中から、所定の数の学習データをテストデータとして選択する。影響スコア算出部130は、テストデータとして選択された学習データを除く複数の学習データから学習データセットを生成し、また、所定の数のテストデータからテストデータセットを生成する。影響スコア算出部130は、各データセットに含まれるデータに識別番号を付与する。
なお、本実施例は、学習データデータベース124からテストデータを選択する方法に限定されない。例えば、影響スコア算出部130は、ランダムにテストデータが選択する。なお、テストデータの数は任意に設定できる。当該数は任意のタイミングで更新できる。
(S301-2)影響スコア算出部130は、影響度情報132及び影響スコア情報133を初期化する。
以上がステップS301の処理の説明である。
次に、影響スコア算出部130は、変数Iを初期化し(ステップS302)、変数Jを初期化し(ステップS303)、また、変数Kを初期化する(ステップS304)。変数Iは学習条件の識別番号を表す変数であり、変数Jはテストデータの識別番号を表す変数であり、変数Kは学習データの識別番号を表す変数である。
具体的には、影響スコア算出部130は、変数I、変数J、及び変数Kのそれぞれに1を設定する。
ステップS302では、影響スコア算出部130は、生成する学習条件の最大数をImaxに設定し、変数Iに対応する2次元配列400を影響度情報132に追加する。また、影響スコア算出部130は、学習履歴情報123にアクセスし、変数Iに対応するエントリの学習結果304から予測器122を定義するパラメータの値を取得する。ここでは、学習条件Iに対応するエントリの学習結果304のうち、最も予測精度が高いパラメータの値が取得されるものとする。ステップS303では、影響スコア算出部130は、テストデータセットに含まれるテストデータの数をJmaxに設定し、また、ステップS304では、学習データセットに含まれる学習データの数をKmaxに設定する。
次に、影響スコア算出部130は、テストデータセットから変数Jに対応するテストデータを取得し、また、学習データセットから変数Kに対応する学習データを取得する(ステップS305)。
次に、影響スコア算出部130は、テストデータ(J)、学習データ(K)、及び学習条件(I)に対応する予測器122を用いて影響度を算出し(ステップS306)、変数Iに対応する2次元配列400のK行J列に対応するセルに算出された影響度を設定する。なお、影響度の算出方法は非特許文献1に記載されているため、詳細な説明は省略する。
次に、影響スコア算出部130は、変数Kの値がKmaxに一致するか否かを判定する(ステップS307)。すなわち、全ての学習データについて処理が完了したか否かが判定される。
変数Kの値がKmaxに一致しないと判定された場合、影響スコア算出部130は、変数Kに1を加算した値を変数Kに設定し(ステップS308)、その後、ステップS305に戻る。
変数Kの値がKmaxに一致すると判定された場合、影響スコア算出部130は、変数Jの値がJmaxに一致するか否かを判定する(ステップS309)。すなわち、全てのテストデータについて処理が完了したか否かが判定される。
変数Jの値がJmaxに一致しないと判定された場合、影響スコア算出部130は、変数Jに1を加算した値を変数Jに設定し(ステップS310)、その後、ステップS304に戻る。
変数Jの値がJmaxに一致すると判定された場合、影響スコア算出部130は、変数Iの値がImaxに一致するか否かを判定する(ステップS311)。すなわち、新たな学習条件を生成するか否かが判定される。
変数Iの値がImaxに一致しないと判定された場合、影響スコア算出部130は、変数Iに1を加算した値を変数Iに設定し(ステップS312)、その後、ステップS303に戻る。
変数Iの値がImaxに一致すると判定された場合、影響スコア算出部130は、影響スコア算出処理を実行する(ステップS313)。影響スコア算出処理の詳細は図11を用いて説明する。
次に、影響スコア算出部130は、出力情報生成処理を実行する(ステップS314)。その後、影響スコア算出部130は処理を終了する。出力情報生成処理の詳細は図12A及び図12Bを用いて説明する。
なお、一つの学習データに対して複数のテストデータを選択し、影響度を算出してもよい。すなわち、ステップS303とステップS304とを入れ替え、また、ステップS307及びステップS308とステップS309及びステップS310とを入れ替えてもよい。
図11は、実施例1の計算機100-3が実行する影響スコア算出処理を説明するフローチャートである。
影響スコア算出部130は、変数Kを初期化する(ステップS401)。
具体的には影響スコア算出部130は、変数Kに1を設定し、学習データセットに含まれる学習データの数をKmaxに設定する。また、影響スコア算出部130は、影響スコア情報133にエントリを追加し、学習データID501に学習データの識別情報を設定する。
影響スコア算出部130は、変数Iを初期化する(ステップS402)。
具体的には影響スコア算出部130は、変数Iに1を設定する。
次に、影響スコア算出部130は、影響度情報132の変数Iに対応する2次元配列400のK行目を、学習データの影響度ベクトルとして取得する(ステップS403)。
次に、影響スコア算出部130は、学習データの影響度ベクトルを用いて学習データの影響スコアを算出し、影響スコア情報133に登録する(ステップS404)。
本実施例は、影響スコアの算出方法に限定されない。例えば、影響スコア算出部130は、影響度ベクトルの各成分の合計値又は平均値を影響スコアとして算出する。また、影響スコア算出部130は、任意の係数ベクトルと影響度ベクトルとの内積を影響スコアとして算出する。
影響スコア算出部130は、影響スコア情報133を参照して、変数Kに対応するエントリを検索し、当該エントリの影響スコア502の変数Iに対応するフィールドに算出された影響スコアを設定する。
次に、影響スコア算出部130は、変数Iの値がImaxに一致するか否かを判定する(ステップS405)。すなわち、全ての学習条件について処理が完了したか否かが判定される。
変数Iの値がImaxに一致しないと判定された場合、影響スコア算出部130は、変数Iに1を加算した値を変数Iに設定し(ステップS406)、その後、ステップS403に戻る。
変数Iの値がImaxに一致すると判定された場合、影響スコア算出部130は、統合影響スコアを算出し(ステップS407)、影響スコア情報133に登録する。
具体的には、影響スコア算出部130は、影響スコア情報133を参照して、変数Kに対応するエントリを検索する。影響スコア算出部130は、検索されたエントリの影響スコア502に格納される複数の影響スコアを用いて統合影響スコアを算出する。例えば、影響スコアの平均値、影響スコアの加重平均等を統合影響スコアとして算出する方法が考えられる。重みは、予測器122の予測精度に基づいて決定する方法が考えられる。
影響スコア算出部130は、当該エントリの統合影響スコア503に算出された統合影響スコアを設定する。
次に、影響スコア算出部130は、変数Kの値がKmaxに一致するか否かを判定する(ステップS408)。すなわち、全ての学習データについて処理が完了したか否かが判定される。
変数Kの値がKmaxに一致しないと判定された場合、影響スコア算出部130は、変数Kに1を加算した値を変数Kに設定し(ステップS409)、その後、ステップS402に戻る。このとき、影響スコア算出部130は、影響スコア情報133にエントリを追加し、学習データID501に学習データの識別情報を設定する。
変数Kの値がKmaxに一致すると判定された場合、影響スコア算出部130は影響スコア算出処理を終了する。
図12A及び図12Bは、実施例1の計算機100-3が実行する出力情報生成処理を説明するフローチャートである。図13及び図14は、実施例1の計算機100-3によって出力される情報の一例を示す図である。
影響スコア算出部130は、学習データ選択指示に影響スコア出力要求が含まれるか否かを判定する(ステップS501)。
学習データ選択指示に影響スコア出力要求が含まれないと判定された場合、影響スコア算出部130は、ステップS505に進む。
学習データ選択指示に影響スコア出力要求が含まれると判定された場合、影響スコア算出部130は、学習条件が指定されているか否かを判定する(ステップS502)。
具体的には、影響スコア算出部130は、影響スコア出力要求に学習条件の識別情報が含まれるか否かを判定する。影響スコア出力要求に学習条件の識別情報が含まれる場合、影響スコア算出部130は、学習条件が指定されていると判定する。
学習条件が指定されていないと判定された場合、影響スコア算出部130は、計算機100-1を介して、影響スコア情報133を出力する(ステップS503)。その後、影響スコア算出部130はステップS505に進む。
この場合、計算機100-1の結果出力部111は、影響スコア情報133を表示するための表示情報を生成し、当該表示情報を端末101に送信する。
学習条件が指定されていると判定された場合、影響スコア算出部130は、計算機100-1を介して、影響度データ及び影響スコア情報133を出力する(ステップS504)。その後、影響スコア算出部130はステップS505に進む。
ここで、影響度データは、指定された学習条件に対応する2次元配列400である。
この場合、計算機100-1の結果出力部111は、影響度データ及び影響スコア情報133を表示するための表示情報を生成し、当該表示情報を端末101に送信する。端末101には、図13に示すような出力画面1300が表示される。
図13に示すような影響度データをユーザに提示することによって、ユーザは、入力するデータの特性に合わせて学習データを容易に選択することができる。また、ユーザは、テストデータに対する予測器122の予測精度を向上させる学習データを追加する必要があるか否かを容易に判定することができる。
ステップS505では、影響スコア算出部130は、学習データ選択指示に学習データセット出力要求が含まれるか否かを判定する(ステップS505)。
学習データ選択指示に学習データセット出力要求が含まれないと判定された場合、影響スコア算出部130は、ステップS508に進む。
学習データ選択指示に学習データセット出力要求が含まれると判定された場合、影響スコア算出部130は、学習データ選択部131に学習データセットの生成を指示する(ステップS506)。
学習データ選択部131は、影響スコア算出部130から指示を受け付けた場合、影響スコア情報133に基づいて学習データを選択する。選択方法は、例えば、以下のような方法が考えられる。
(選択方法1)学習データ選択部131は、学習条件を選択し、影響スコア502の学習条件に対応する列を参照して、影響スコアが小さい順にn個の学習データを選択する。学習データ選択部131は、全ての学習条件について同様の処理を実行する。学習データ選択部131は、学習データデータベース124から、選択された学習データを除くことによって学習データセットを生成する。ただし、nはあらかじめ設定されているものとする。ただし、nは任意のタイミングで更新できる。
(選択方法2)学習データ選択部131は、学習条件を選択し、影響スコア502の学習条件に対応する列を参照して、影響スコアが第1閾値より小さい学習データを選択する。学習データ選択部131は、全ての学習条件について同様の処理を実行する。学習データ選択部131は、前述の処理結果に基づいて、各学習データについて、影響スコアが第1閾値より小さくなった回数をカウントする。学習データ選択部131は、学習データデータベース124から、回数が第2閾値より大きい学習データを除くことによって学習データセットを生成する。なお、第1閾値及び第2閾値はあらかじめ設定されているものとする。ただし、第1閾値及び第2閾値は任意のタイミングで更新できる。
(選択方法3)学習データ選択部131は、学習データデータベース124から、統合影響スコアが閾値より小さい学習データを除くことによって学習データセットを生成する。なお、閾値はあらかじめ設定されているものとする。ただし、閾値は任意のタイミングで更新できる。
なお、選択方法1及び選択方法2では、予測精度に基づいて設定される重みを用いて補正された影響スコアを用いてもよい。選択方法1及び選択方法2では、影響スコアの絶対値を基準に判定してもよい。選択方法3では、統合影響スコアの絶対値を基準に判定してもよい。
次に、影響スコア算出部130は、計算機100-1を介して、生成された学習データセットを出力する(ステップS507)。その後、影響スコア算出部130はステップS508に進む。
ステップS508では、影響スコア算出部130は、学習データ選択指示に予測器出力要求が含まれるか否かを判定する(ステップS508)。
学習データ選択指示に予測器出力要求が含まれないと判定された場合、影響スコア算出部130は、ステップS511に進む。
学習データ選択指示に予測器出力要求が含まれると判定された場合、影響スコア算出部130は、学習データ選択部131に学習データセットの生成を指示する(ステップS509)。学習データ選択部131が実行する処理はステップS506で説明した処理と同一である。
次に、影響スコア算出部130は、生成された学習データセットとともに学習処理の実行要求を計算機100-2に送信する(ステップS510)。その後、影響スコア算出部130は、ステップS511に進む。なお、実行要求には、選択された学習データの識別情報を含めてもよい。
計算機100-2の学習部121は、学習処理の実行要求を受信した場合、学習データ選択部131によって生成された学習データセットを用いて予測器122の学習処理を実行する。学習部121は、計算機100-1を介して、学習データセットを用いた学習処理によって生成された予測器122を出力する。
ステップS511では、影響スコア算出部130は、学習データ選択指示に学習効果出力要求が含まれるか否かを判定する(ステップS511)。
学習データ選択指示に学習効果出力要求が含まれないと判定された場合、影響スコア算出部130は出力情報生成処理を終了する。
学習データ選択指示に学習効果出力要求が含まれると判定された場合、影響スコア算出部130は、学習データセットを生成するために用いる閾値を初期化する(ステップS512)。
例えば、選択方法1の場合、影響スコア算出部130は変数nを1に設定する。
次に、影響スコア算出部130は、学習データ選択部131に学習データセットの生成を指示する(ステップS513)。当該指示には閾値の情報が含まれる。学習データ選択部131が実行する処理はステップS506で説明した処理と同一である。
次に、影響スコア算出部130は、生成された学習データセットとともに学習処理の実行要求を計算機100-2に送信する(ステップS514)。なお、実行要求には、選択された学習データの識別情報を含めてもよい。
計算機100-2の学習部121は、学習処理の実行要求を受信した場合、学習データ選択部131によって生成された学習データセットを用いて予測器122の学習処理を実行する。学習部121は、学習データセットを用いた学習処理によって生成された予測器122の予測精度を計算機100-3に送信する。影響スコア算出部130は閾値及び予測精度を対応付けたデータを記録する。
次に、影響スコア算出部130は、検証を終了するか否かを判定する(ステップS515)。例えば、影響スコア算出部130は、検証回数が閾値より大きいか否かを判定する。検証回数が閾値より大きい場合、影響スコア算出部130は、検証を終了すると判定する。なお、検証回数はあらかじめ設定されているものとする。ただし、検証回数は任意のタイミングで更新できる。
検証を終了しないと判定された場合、影響スコア算出部130は、閾値を更新し(ステップS516)、その後、ステップS513に戻る。
検証を終了すると判定された場合、影響スコア算出部130は、閾値及び予測精度を対応付けデータに基づいて、閾値及び予測精度の関係を示す学習効果情報を生成し、計算機100-1を介して、学習効果情報を出力する(ステップS517)。その後、影響スコア算出部130は、出力情報生成処理を終了する。
例えば、選択方法1の場合、図14に示すように、データの除去数nと予測精度との関係を示すグラフを表示する出力画面1400が提示される。
なお、計算機100-3は、計算機100-2と連携して、学習履歴情報123を出力してもよい。ユーザは、提示された学習履歴情報123を介して、任意の学習条件の影響度の参照要求を送信する。この場合、計算機100-3は、指定された学習条件の2次元配列400を出力する。
実施例1によれば、計算機100-3は、影響スコアに基づいて、予測精度を向上する学習データを効率的かつ容易に選択できる。異なる学習条件の下で生成された予測器122を用いた影響スコアを用いることによって、特定の学習条件に対する依存をできる。選択された学習データを用いて予測器122を生成することによって、予測精度が高い予測器122をユーザに提供することができる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD-R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Python、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。
100 計算機
101 端末
105 ネットワーク
110 データ受付部
111 結果出力部
120 学習条件設定部
121 学習部
122 予測器
123 学習履歴情報123
124 学習データデータベース
130 影響スコア算出部
131 学習データ選択部
132 影響度情報
133 影響スコア情報
140 テストデータデータベース
201 プロセッサ
202 主記憶装置
203 副記憶装置
204 ネットワークインタフェース
600 GUI
700 API

Claims (12)

  1. 計算機システムが実行する、予測器を生成するために用いる学習データの選択方法であって、
    前記計算機システムは、
    プロセッサ及び前記プロセッサに接続されるメモリを有する計算機を含み、
    複数の学習データと、異なる学習条件の下で生成された、複数の予測器を管理するための情報と、を格納するデータベースと接続し、
    前記学習データの選択方法は、
    前記計算機が、複数の前記予測器の中からターゲット予測器を選択し、複数のテストデータの各々について、前記学習データが前記テストデータに対する前記ターゲット予測器の予測精度に与える影響の強さを表す影響度を算出する第1のステップと、
    前記計算機が、前記予測器と、複数の前記テストデータの各々に対する、前記学習データの前記影響度と、を対応付けて記録する第2のステップと、
    前記計算機が、複数の前記予測器の各々について、前記予測器と対応付けられる、前記学習データの複数の前記影響度に基づいて、前記学習データの影響スコアを算出する第3のステップと、
    前記計算機が、複数の前記予測器の各々と、前記学習データの前記影響スコアとを対応付けて記録する第4のステップと、
    前記計算機が、複数の前記学習データの各々の複数の前記影響スコアに基づいて、複数の前記学習データの中から使用する前記学習データを選択することによって学習データセットを生成する第5のステップと、
    を含むことを特徴とする学習データの選択方法。
  2. 請求項1に記載の学習データの選択方法であって、
    前記第5のステップは、
    前記計算機が、複数の前記予測器の各々について、前記予測器と対応付けられる、複数の前記学習データの各々の前記影響スコアに基づいて、除外する前記学習データを選択する選択処理を実行するステップと、
    前記計算機が、複数の前記予測器の各々についての前記選択処理の結果に基づいて、複数の前記学習データの中から使用する前記学習データを選択するステップと、
    を含むことを特徴とする学習データの選択方法。
  3. 請求項2に記載の学習データの選択方法であって、
    前記学習条件は、前記予測器を生成するために用いた複数の前記学習データ及び複数の前記学習データの入力順番を含むことを特徴とする学習データの選択方法。
  4. 請求項3に記載の学習データの選択方法であって、
    前記学習条件は、前記予測器を生成するための学習処理のハイパーパラメータを含むことを特徴とする学習データの選択方法。
  5. 請求項4に記載の学習データの選択方法であって、
    前記計算機が、異なる前記学習条件の下で前記予測器を生成する第6のステップを含み、
    前記第6のステップは、
    前記計算機が、前記データベースから所定の数の前記学習データを選択し、選択された複数の前記学習データの入力順番を決定することによってバッチを生成する第7のステップと、
    前記計算機が、前記ハイパーパラメータを設定する第8のステップと、
    前記計算機が、複数の前記バッチの中からターゲットバッチを選択し、設定された前記ハイパーパラメータ及び前記ターゲットバッチに含まれる複数の前記学習データを用いて前記学習処理を実行し、前記ターゲットバッチに含まれる複数の前記学習データ、決定された前記入力順番、設定された前記ハイパーパラメータ、及び生成された前記予測器を対応付けて前記情報に格納する第9のステップと、
    前記計算機が、前記学習処理の結果に基づいて、学習を継続するか否かを判定する第10のステップと、
    前記計算機が、学習を継続すると判定された場合、全ての前記バッチについて処理が完了したか否かを判定する第11のステップと、
    前記計算機が、全ての前記バッチについて処理が完了していないと判定された場合、前記第9のステップ及び前記第10のステップを実行する第12のステップと、
    を含むことを特徴とする学習データの選択方法。
  6. 請求項5に記載の学習データの選択方法であって、
    前記計算機が、生成する前記予測器の数、前記バッチを構成する前記学習データの数、前記ハイパーパラメータを調整するための値を入力するインタフェースを提供するステップを含むことを特徴とする学習データの選択方法。
  7. プロセッサ及び前記プロセッサに接続されるメモリを有する計算機を備える計算機システムであって、
    複数の学習データと、異なる学習条件の下で生成された、複数の予測器を管理するための情報と、を格納するデータベースと接続し、
    前記計算機は、
    複数の前記予測器の中からターゲット予測器を選択し、複数のテストデータの各々について、前記学習データが前記テストデータに対する前記ターゲット予測器の予測精度に与える影響の強さを表す影響度を算出する第1の処理と、
    前記予測器と、複数の前記テストデータの各々に対する、前記学習データの前記影響度と、を対応付けて記録する第2の処理と、
    複数の前記予測器の各々について、前記予測器と対応付けられる、前記学習データの複数の前記影響度に基づいて、前記学習データの影響スコアを算出する第3の処理と、
    複数の前記予測器の各々と、前記学習データの前記影響スコアとを対応付けて記録する第4の処理と、
    複数の前記学習データの各々の複数の前記影響スコアに基づいて、複数の前記学習データの中から使用する前記学習データを選択することによって学習データセットを生成する第5の処理と、
    を実行することを特徴とする計算機システム。
  8. 請求項7に記載の計算機システムであって、
    前記計算機は、前記第5の処理において、
    複数の前記予測器の各々について、前記予測器と対応付けられる、複数の前記学習データの各々の前記影響スコアに基づいて、除外する前記学習データを選択する選択処理を実行し、
    複数の前記予測器の各々についての前記選択処理の結果に基づいて、複数の前記学習データの中から使用する前記学習データを選択する、ことを特徴とする計算機システム。
  9. 請求項8に記載の計算機システムであって、
    前記学習条件は、前記予測器を生成するために用いた複数の前記学習データ及び複数の前記学習データの入力順番を含むことを特徴とする計算機システム。
  10. 請求項9に記載の計算機システムであって、
    前記学習条件は、前記予測器を生成するための学習処理のハイパーパラメータを含むことを特徴とする計算機システム。
  11. 請求項10に記載の計算機システムであって、
    前記計算機は、異なる前記学習条件の下で前記予測器を生成する第6の処理を実行し、
    前記計算機は、前記第6の処理において、
    前記データベースから所定の数の前記学習データを選択し、選択された複数の前記学習データの入力順番を決定することによってバッチを生成する第7の処理と、
    前記ハイパーパラメータを設定する第8の処理と、
    複数の前記バッチの中からターゲットバッチを選択し、設定された前記ハイパーパラメータ及び前記ターゲットバッチに含まれる複数の前記学習データを用いて前記学習処理を実行し、前記ターゲットバッチに含まれる複数の前記学習データ、決定された前記入力順番、設定された前記ハイパーパラメータ、及び生成された前記予測器を対応付けて前記情報に格納する第9の処理と、
    前記学習処理の結果に基づいて、学習を継続するか否かを判定する第10の処理と、
    学習を継続すると判定された場合、全ての前記バッチについて処理が完了したか否かを判定する第11の処理と、
    全ての前記バッチについて処理が完了していないと判定された場合、前記第9の処理及び前記第10の処理を実行する第12の処理と、
    を実行することを特徴とする計算機システム。
  12. 請求項11に記載の計算機システムであって、
    前記計算機は、生成する前記予測器の数、前記バッチを構成する前記学習データの数、前記ハイパーパラメータを調整するための値を入力するインタフェースを提供することを特徴とする計算機システム。
JP2021117000A 2021-07-15 2021-07-15 学習データの選択方法及び計算機システム Pending JP2023013082A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021117000A JP2023013082A (ja) 2021-07-15 2021-07-15 学習データの選択方法及び計算機システム
US17/675,445 US20230019364A1 (en) 2021-07-15 2022-02-18 Selection method of learning data and computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021117000A JP2023013082A (ja) 2021-07-15 2021-07-15 学習データの選択方法及び計算機システム

Publications (1)

Publication Number Publication Date
JP2023013082A true JP2023013082A (ja) 2023-01-26

Family

ID=84891693

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021117000A Pending JP2023013082A (ja) 2021-07-15 2021-07-15 学習データの選択方法及び計算機システム

Country Status (2)

Country Link
US (1) US20230019364A1 (ja)
JP (1) JP2023013082A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11935277B2 (en) * 2019-03-14 2024-03-19 Nec Corporation Generation method, training data generation device and program

Also Published As

Publication number Publication date
US20230019364A1 (en) 2023-01-19

Similar Documents

Publication Publication Date Title
CN205176828U (zh) 条件分支预测器逻辑单元
US11853893B2 (en) Execution of a genetic algorithm having variable epoch size with selective execution of a training algorithm
US9934344B2 (en) Enhanced parameter tuning for very-large-scale integration synthesis
CN111210046B (zh) 优化装置及优化装置的控制方法
US11809977B2 (en) Weakly supervised reinforcement learning
US20160132787A1 (en) Distributed, multi-model, self-learning platform for machine learning
US20190303196A1 (en) Method and apparatus for automatically scheduling jobs in computer numerical control machines using machine learning approaches
JP6975692B2 (ja) 計算機システム及び予測器が出力した予測値の根拠に関連する情報の提示方法
US20150379075A1 (en) Maintaining diversity in multiple objective function solution optimization
JP7145059B2 (ja) モデルの予測根拠提示システム及びモデルの予測根拠提示方法
JP2020123164A (ja) 計算機システム及び入力データに対する予測結果の根拠に関する情報の提示方法
JP7141371B2 (ja) 学習データの精練方法及び計算機システム
JP2019016165A (ja) 設計支援装置、設計支援方法および設計支援プログラム
US20160321032A1 (en) Determining recommended optimization strategies for software development
CN110633802A (zh) 策略搜索装置、方法及记录介质
EP3739473B1 (en) Optimization device and method of controlling optimization device
JPWO2014087590A1 (ja) 最適化装置、最適化方法および最適化プログラム
JP2023013082A (ja) 学習データの選択方法及び計算機システム
JP7097261B2 (ja) 学習データの解析方法及び計算機システム
CN113919504A (zh) 信息处理系统、信息处理方法及计算机可读存储介质
WO2021140884A1 (ja) モデルを再利用する方法及びコンピュータシステム
JP7050028B2 (ja) 計算機システム及び機械学習の制御方法
US10331823B2 (en) Method and system of fast nested-loop circuit verification for process and environmental variation and hierarchical circuits
CN113191527A (zh) 一种基于预测模型进行人口预测的预测方法及装置
JPWO2021033515A1 (ja) 情報処理装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240130