JP7321406B2 - バリデーション方法決定装置およびバリデーション方法決定方法 - Google Patents

バリデーション方法決定装置およびバリデーション方法決定方法 Download PDF

Info

Publication number
JP7321406B2
JP7321406B2 JP2023529257A JP2023529257A JP7321406B2 JP 7321406 B2 JP7321406 B2 JP 7321406B2 JP 2023529257 A JP2023529257 A JP 2023529257A JP 2023529257 A JP2023529257 A JP 2023529257A JP 7321406 B2 JP7321406 B2 JP 7321406B2
Authority
JP
Japan
Prior art keywords
data
validation method
validation
unit
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023529257A
Other languages
English (en)
Other versions
JPWO2022269733A1 (ja
Inventor
潤 丸田
玄太 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2022269733A1 publication Critical patent/JPWO2022269733A1/ja
Application granted granted Critical
Publication of JP7321406B2 publication Critical patent/JP7321406B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本開示は、バリデーション方法決定装置およびバリデーション方法決定方法に関する。
機械学習により作成された予測器は、実運用する前に予測性能を評価する必要がある。例えば、予測対象の正解の値が既に分かっているデータから、学習データとテストデータとを抽出し、さらに学習データとバリデーションデータとを抽出し、学習データを用いて学習した予測器の予測性能を、バリデーションデータを用いて評価する。
また、予測器の予測性能を見積もる方法として、ホールドアウト検証および交差検証(Cross-validation)が知られている。例えば、非特許文献1には交差検証が記載されている。
M.Stone, "Cross-Validatory Choice and Assessment of Statistical Predictions", Journal of the Royal Statistical Society. Series B (Methodological), Vol.36, No.2, pp.111-147, 1974.
予測器の予測性能を評価する従来の技術では、バリデーションデータがランダムに抽出された場合、予測器の予測性能の評価に適したバリデーションデータが得られない可能性があるという課題があった。
例えば、バリデーションデータがランダムに抽出された場合、学習データおよびバリデーションデータには含まれない未知のカテゴリのテストデータが生成されることがある。この場合、バリデーションデータを用いてテストデータの未知のカテゴリに対する予測器の予測性能は評価できない。予測性能を正しく見積もれない予測器は、運用段階において予測精度が著しく劣化する。
本開示は上記課題を解決するものであり、予測器の予測性能の評価に適したバリデーションデータを得ることができる、バリデーション方法決定装置およびバリデーション方法決定方法を得ることを目的とする。
本開示に係るバリデーション方法決定装置は、予測器の学習に用いる学習データおよび予測器の予測精度の測定に用いるテストデータを取得するデータ取得部と、学習データ、テストデータおよび両データを構成するカラムデータのデータ種別を示すデータ種別情報を用いて、学習データと予測対象に対応したバリデーションデータとを抽出するバリデーション方法を推薦するバリデーション方法推薦部と、推薦されたバリデーション方法から、予測器の予測性能の評価に用いるバリデーション方法を決定するバリデーション方法決定部と、を備える。
本開示によれば、学習データ、テストデータおよび両データを構成するカラムデータのデータ種別を示すデータ種別情報を用いて、学習データと、予測対象に対応したバリデーションデータとを抽出するバリデーション方法を推薦し、推薦されたバリデーション方法から、予測器の予測性能の評価に用いられるバリデーション方法を決定する。
本開示に係るバリデーション方法決定装置は、予測対象に対応したバリデーションデータが抽出されるバリデーション方法を決定できるので、予測器の予測性能の評価に適したバリデーションデータを得ることができる。
実施の形態1に係るバリデーション方法決定装置の構成を示すブロック図である。 ログデータの一例を示す図である。 実施の形態1に係るバリデーション方法決定方法を示すフローチャートである。 実施の形態1におけるバリデーション方法の推薦処理例(1)を示すフローチャートである。 実施の形態1におけるバリデーション方法の推薦処理例(2)を示すフローチャートである。 3-フォールドの交差検証において、教師ラベルの割合が同一でかつ教師ラベルが重複しないように、学習データとバリデーションデータとに分けたデータを示すイメージ図である。 3-フォールドの交差検証において、教師ラベルの割合が同一でかつ教師ラベルが重複するように、学習データとバリデーションデータとに分けたデータを示すイメージ図である。 3-フォールドの交差検証において、グループ単位で学習データとバリデーションデータとに分けたデータを示すイメージ図である。 ビルIDが付与されたカラムデータにおける学習データおよびテストデータのデータ数を示すグラフである。 ビルIDが付与されたカラムデータにおける学習データおよびテストデータのデータ数と、バリデーションデータの抽出例(1)とを示すグラフである。 ビルIDが付与されたカラムデータにおける学習データおよびテストデータのデータ数と、バリデーションデータの抽出例(2)とを示すグラフである。 バリデーション方法の推薦処理例(3)を示すフローチャートである。 3-フォールドの交差検証において、対象カラムの数値データを小さい順にソートして学習データとバリデーションデータとに分けたデータを示すイメージ図である。 3-フォールドの交差検証において、対象カラムの周期性を伴った数値データを小さい順にソートして学習データとバリデーションデータに分けたデータを示すイメージ図である。 図15Aおよび図15Bは、実施の形態1に係るバリデーション方法決定装置の機能を実現するハードウェア構成を示すブロック図である。 実施の形態2に係るバリデーション方法決定装置の構成を示すブロック図である。 実施の形態2に係るバリデーション方法決定方法を示すフローチャートである。 実施の形態2におけるバリデーション方法の推薦処理例(1)を示すフローチャートである。 実施の形態2におけるバリデーション方法の推薦処理例(2)を示すフローチャートである。 実施の形態2におけるバリデーション方法の推薦処理例(3)を示すフローチャートである。
実施の形態1.
図1は、実施の形態1に係るバリデーション方法決定装置1の構成を示すブロック図である。図1において、バリデーション方法決定装置1は、学習データD1_1、テストデータD1_2およびデータ種別情報D1_3を用いて、学習データと予測対象に対応したバリデーションデータとを抽出するバリデーション方法を示す推薦情報D2を生成する。バリデーション方法決定装置1は、推薦情報D2が示すバリデーション方法から、予測器の予測性能の評価に用いるバリデーション方法を決定する。
バリデーション方法決定装置1が決定したバリデーション方法を示す情報D3は、図1において図示しないバリデーション装置に出力される。バリデーション装置は、情報D3が示すバリデーション方法に従って学習データD1_1からバリデーションデータを取得し、取得したバリデーションデータを用いて予測器の予測性能を評価する。なお、予測器は、学習データD1_1を用いて学習された予測器である。
学習データD1_1およびテストデータD1_2は、例えば、予測対象の事例に関するログデータから抽出される。図2は、ログデータの一例を示す図である。ログデータは、予測対象の正解の値が既に分かっているデータの集合であり、カラムデータによって構成される。カラムデータは、ログデータに含まれる特徴量ごとのデータの集合である。
図2に示すログデータにはカラムデータC1~C4が含まれ、カラムデータC1~C4は、特徴量名称N1が示す特徴量ごとのデータの集合である。図2において、特徴量名称N1は、「日付」、「温度」、「動作状態」、および「その他」である。
学習データD1_1およびテストデータD1_2はログデータから抽出される。これにより、学習データD1_1およびテストデータD1_2には、カラムデータが含まれる。データ種別情報D1_3は、データ集合である各カラムデータのデータ種別を示す情報である。例えば、図2に示すログデータにおいて、データ種別情報D1_3には、データ種別として、「日時」、「数値」、「カテゴリ」および「その他」が含まれる。
日時データは、事例に関する日時を示すデータである。例えば、特徴量「日付」に対応するカラムデータC1は、データ種別が「日時」のデータ集合である。特徴量が「日付」であり、かつデータ種別が「日時」であるデータには、図2に示すように、「2021/1/11 1:00」および「2021/1/11 13:00」といった年月日および時刻を示すデータが含まれる。
数値データは、量的変数または量的データである。例えば、特徴量「温度」に対応するカラムデータC2は、データ種別が「数値」のデータ集合である。特徴量が「温度」であり、かつデータ種別が「数値」であるデータには、図2に示すように、「25.6」および「30.1」といった温度を示すデータが含まれる。
カテゴリデータは、質的変数または質的データである。例えば、特徴量「動作状態」に対応するカラムデータC3は、データ種別が「カテゴリ」のデータ集合である。特徴量が「動作状態」であり、かつデータ種別が「カテゴリ」であるデータには、図2に示すように、「正常」および「異常」を示すデータが含まれる。その他のデータは、日時、数値およびカテゴリのいずれにも該当しないデータである。例えば、特徴量「その他」に対応するカラムデータC4は、データ種別が「その他」のデータ集合である。
図1に示すように、バリデーション方法決定装置1は、データ取得部11、バリデーション方法推薦部12およびバリデーション方法決定部13を備える。
図3は、実施の形態1に係るバリデーション方法決定方法を示すフローチャートであって、データ取得部11、バリデーション方法推薦部12およびバリデーション方法決定部13による一連の動作を示している。データ取得部11は、学習データD1_1、テストデータD1_2およびデータ種別情報D1_3を取得する(ステップST1)。学習データD1_1およびテストデータD1_2は、例えば図2に示したログデータから抽出されたデータである。
学習データD1_1は、予測器の学習に用いるデータの集合である。テストデータD1_2は、学習データD1_1を用いて学習された予測器の予測精度の測定に用いるテストの集合である。データ種別情報D1_3は、学習データD1_1およびテストデータD1_2を構成するカラムデータのデータ種別を示す情報である。
例えば、データ取得部11は、バリデーション方法決定装置1とは別に設けられたバリデーション装置から、学習データD1_1、テストデータD1_2およびデータ種別情報D1_3を取得する。データ取得部11が取得した学習データD1_1、テストデータD1_2およびデータ種別情報D1_3は、バリデーション方法推薦部12に出力される。
続いて、バリデーション方法推薦部12は、学習データD1_1、テストデータD1_2およびデータ種別情報D1_3に基づいて、学習データから予測対象に対応したバリデーションデータを抽出するバリデーション方法を推薦する(ステップST2)。バリデーション方法推薦部12が推薦するバリデーション方法を示す推薦情報D2は、バリデーション方法決定部13に出力される。
バリデーション方法決定部13は、バリデーション方法推薦部12によって推薦されたバリデーション方法から、予測器の予測性能の評価に用いるバリデーション方法を決定する(ステップST3)。例えば、バリデーション方法決定部13は、推薦情報D2が示すバリデーション方法を用いるか否かを判定して、予測器の予測性能の評価に用いると判定したバリデーション方法を示す情報D3を、外部装置(例えば、バリデーション装置)に出力する。上記バリデーション装置は、バリデーションデータを用いて予測器の予測性能を評価する装置である。
例えば、バリデーション方法推薦部12は、データ種別情報D1_3に基づいて、学習データD1_1におけるカラムデータについて、バリデーション方法を推薦する順序付けを行う。学習データC1_1が図2に示したログデータから抽出された学習データである場合、バリデーション方法推薦部12は、例えば、「日付」のカラムデータC1、「温度」のカラムデータC2、「動作状態」のカラムデータC3および「その他」のカラムデータC4の順で推薦情報D2を生成する。
バリデーション方法決定部13は、「日付」のカラムデータC1に関する推薦情報D2が示すバリデーション方法を、予測器の予測性能の評価に用いなかった場合に、バリデーション方法推薦部12は、次の「温度」のカラムデータC2に関する推薦情報D2を生成してバリデーション方法決定部13に出力する。バリデーション方法決定装置1は、これらの処理を、バリデーション方法決定部13が予測器の予測性能の評価に用いるバリデーション方法を決定するまで繰り返す。
なお、バリデーション方法推薦部12は、カラムデータに関する推薦情報D2が生成されなかった場合、すなわち、カラムデータを用いてバリデーション方法を推薦できなかった場合、次のカラムデータに関する推薦情報D2の生成処理に移行する。例えば、カラムデータの順序付けは、バリデーション方法推薦部12に予め設定されたルールに基づいて行われる。
ルールには、各カラムデータに予め設定した順番が用いられる。また、カラムデータのデータ種別に応じた順番を規定するルールであってもよい。例えば、質的データのカラムデータを優先するルールであってもよいし、量的データのカラムデータを優先するルールであってもよい。
図4は、実施の形態1における、バリデーション方法の推薦処理例(1)を示すフローチャートであり、バリデーション方法推薦部12による処理の一例を示している。
バリデーション方法推薦部12は、データ種別情報D1_3を用いて、学習データD1_1およびテストデータD1_2から、データ種別が「日時」であるカラムデータC1を抽出する。次に、バリデーション方法推薦部12は、学習データD1_1のカラムデータC1に含まれる最も新しい日時よりもテストデータD1_2のカラムデータC1に含まれる最も古い日時が新しいか否かを判定する(ステップST1A)。
学習データD1_1のカラムデータC1に含まれる最も新しい日時よりもテストデータD1_2のカラムデータC1に含まれる最も古い日時が新しい場合(ステップST1A;YES)、バリデーション方法推薦部12は、第1のバリデーション方法を示す推薦情報D2を生成し、この推薦情報D2をバリデーション方法決定部13に出力する(ステップST2A)。
バリデーション方法推薦部12は、日時のカラムデータC1における学習データD1_1とテストデータD1_2の分布差異に基づいて、学習データD1_1とバリデーションデータの時系列の順序関係を保つように、学習データD1_1とバリデーションデータとを抽出するバリデーション方法を推薦する。例えば、バリデーション方法推薦部12は、第1のバリデーション方法として、学習データD1_1における時系列的に過去のデータを予測器の学習に用い、時系列的に未来のデータをバリデーションデータとして抽出するバリデーション方法を推薦する。
学習データD1_1のカラムデータC1に含まれる最も新しい日時よりもテストデータD1_2のカラムデータC1に含まれる最も古い日時が古いか両日時が同じであると判定した場合(ステップST1A;NO)、バリデーション方法推薦部12は、バリデーション方法の推薦処理の対象として次のカラムデータを確認する(ステップST3A)。これにより、カラムデータC2についてのバリデーション方法推薦処理が行われる。
図5は、実施の形態1における、バリデーション方法の推薦処理例(2)を示すフローチャートであり、バリデーション方法推薦部12による処理の一例を示している。
バリデーション方法推薦部12は、データ種別情報D1_3を用いて、学習データD1_1およびテストデータD1_2からデータ種別が「カテゴリ」であるカラムデータC3を抽出する。次に、バリデーション方法推薦部12は、カラムデータC3における、学習データD1_1の分布とテストデータD1_2の分布との重複が閾値以上であるか否かを判定する(ステップST1B)。分布が重複する部分では、学習データD1_1とテストデータD1_2とで同じデータが含まれる。
学習データD1_1の分布とテストデータD1_2の分布との重複が閾値以上であると判定した場合(ステップST1B;YES)、バリデーション方法推薦部12は、第2のバリデーション方法を示す推薦情報D2を生成して、この推薦情報D2をバリデーション方法決定部13に出力する(ステップST2B)。例えば、バリデーション方法推薦部12は、第2のバリデーション方法として、教師ラベルの割合が同一になるように、学習データD1_1とバリデーションデータとを抽出するバリデーション方法を推薦する。
また、学習データD1_1の分布とテストデータD1_2の分布との重複が閾値未満である場合(ステップST1B;NO)、バリデーション方法推薦部12は、第3のバリデーション方法を示す推薦情報D2を生成し、この推薦情報D2をバリデーション方法決定部13に出力する(ステップST3B)。例えば、バリデーション方法推薦部12は、第3のバリデーション方法として、グループ単位で学習データD1_1とバリデーションデータとを抽出するバリデーション方法を推薦する。グループは、属性またはルールによりまとめられたデータの集合である。
例えば、3-フォールド(k=3)の交差検証において、教師ラベルの割合が同一になるように、学習データD1_1とバリデーションデータとに分けるバリデーション方法について説明する。図6は、3-フォールドの交差検証において、教師ラベルの割合が同一かつ教師ラベルが重複しないように学習データD1_1とバリデーションデータに分けたデータを示すイメージ図である。図7は、3-フォールドの交差検証において、教師ラベルの割合が同一でかつ教師ラベルが重複するように、学習データD1_1とバリデーションデータに分けたデータを示すイメージ図である。
図6および図7は、機械学習のタスクが分類問題であり、教師ラベル(分類クラス)がA、BおよびCの3種類存在することを想定している。3-フォールドの交差検証(CV)における3回のイテレーションに対応する各データは、データインデックスが付与された150個のデータ集合である。これらのデータは、クラスA、BおよびCのうち、クラスAには15個のデータが属し、クラスBには45個のデータが属し、クラスCには90個のデータが属する。
図6および図7に示すように、1回目のイテレーション、2回目のイテレーションおよび3回目のイテレーションのそれぞれに用いるデータは、教師ラベルの割合がクラスA:クラスB:クラスC=1:3:6で同一である。クラスAに属する15個のデータ集合、クラスBに属する45個のデータ集合およびクラスCに属する90個のデータ集合は学習データとバリデーションデータに分けられる。これらの処理を行うバリデーション方法が第2のバリデーション方法である。
図6における1回目のイテレーション、2回目のイテレーションおよび3回目のイテレーションのそれぞれに用いるデータは、データインデックスの重複が存在せず教師ラベルの重複は存在しない。これに対し、図7における1回目のイテレーション、2回目のイテレーションおよび3回目のイテレーションのそれぞれに用いるデータには、互いにデータインデックスが重複し、教師ラベルが重複しているデータが存在する。
図8は、3-フォールドの交差検証において、グループ単位で学習データとバリデーションデータに分けたデータを示すイメージ図である。図8に示すデータは、A~Fの6つのグループに分かれているカラムデータを想定しており、100個のデータ集合である。3-フォールドの交差検証を行うため、1回目のイテレーション、2回目のイテレーションおよび3回目のイテレーションのそれぞれに用いるデータは、学習データとバリデーションデータに分けられている。
バリデーション方法推薦部12は、ある一つのグループに属するデータが学習データとバリデーションデータに分けられないように、グループ単位で学習データとバリデーションデータに分ける第3のバリデーション方法を推薦する。例えば、グループAのデータは、1回目のイテレーションに用いるデータがバリデーションデータとされ、2回目のイテレーションに用いるデータおよび3回目のイテレーションに用いるデータは学習データとされる。これらの処理を行うバリデーション方法が第3のバリデーション方法である。
図9は、ビルIDが付与されたカラムデータにおける学習データおよびテストデータのデータ数を示すグラフである。図9に示すデータは、複数のビルにおいて消費される電力値を予測するタスクを想定したデータであり、ビルIDが付与されたカラムデータにより構成される。図9のグラフは、ビルIDが付与されたカラムデータにおける学習データの分布とテストデータの分布を示している。ビルIDは、前述したグループに相当する。
図9において、学習データの分布とテストデータの分布には、ビルIDの重複がない。このため、図9に示す学習データおよびテストデータを用いるタスクは、学習データには存在しない未知のビルにおける消費電力値を予測するタスクとなる。
図10は、ビルIDが付与されたカラムデータにおける学習データおよびテストデータのデータ数とバリデーションデータの抽出例(1)とを示すグラフである。図10に示すように、学習データとバリデーションデータでビルIDが重複しないように、学習データからバリデーションデータが抽出される。このバリデーション方法が第3のバリデーション方法である。第3のバリデーション方法によって抽出されたバリデーションデータは、学習データとの間でビルIDの重複がないため、予測器の汎用能力を適切に評価することができる。
図11は、ビルIDが付与されたカラムデータにおける学習データおよびテストデータのデータ数とバリデーションデータの抽出例(2)とを示すグラフである。図11に示すように、学習データとバリデーションデータでビルIDが重複した状態で学習データからバリデーションデータが抽出される。学習データとの間でビルIDの重複があるバリデーションデータを用いると、予測器の汎用能力を正しく見積もることができない。
図12は、バリデーション方法の推薦処理例(3)を示すフローチャートであり、バリデーション方法推薦部12による処理の一例を示している。
バリデーション方法推薦部12は、データ種別情報D1_3を用いて、学習データD1_1およびテストデータD1_2から、データ種別が「数値」であるカラムデータC2を抽出する。続いて、バリデーション方法推薦部12は、カラムデータC2における、学習データD1_1の最大値がテストデータD1_2の最小値よりも小さいか否か、または、学習データD1_1の最小値がテストデータD1_2の最大値よりも大きいか否かを判定する(ステップST1C)。
学習データD1_1の最大値がテストデータD1_2の最小値よりも小さい、または、学習データD1_1の最小値がテストデータD1_2の最大値よりも大きいと判定した場合(ステップST1C;YES)、バリデーション方法推薦部12は、第4のバリデーション方法を示す推薦情報D2を生成し、この推薦情報D2をバリデーション方法決定部13に出力する(ステップST2C)。例えば、バリデーション方法推薦部12は、第4のバリデーション方法として、学習データD1_1とテストデータD1_2との大小関係を保つように、学習データD1_1とバリデーションデータを抽出するバリデーション方法を推薦する。
学習データD1_1の最大値がテストデータD1_2の最小値以上、または、学習データD1_1の最小値がテストデータD1_2の最大値以下と判定した場合(ステップST1C;NO)、バリデーション方法推薦部12は、カラムデータC2における、学習データD1_1の分布とテストデータD1_2の分布との重複が閾値以上であるか否かを判定する(ステップST3C)。
学習データD1_1の分布とテストデータD1_2の分布との重複が閾値以上であると判定した場合(ステップST3C;YES)、バリデーション方法推薦部12は、第2のバリデーション方法を示す推薦情報D2を生成して、推薦情報D2をバリデーション方法決定部13に出力する(ステップST4C)。第2のバリデーション方法は、教師ラベルの割合が同一になるように、学習データD1_1とバリデーションデータを抽出するバリデーション方法である。
学習データD1_1の分布とテストデータD1_2の分布との重複が閾値未満であると判定した場合(ステップST3C;NO)、バリデーション方法推薦部12は、第5のバリデーション方法を示す推薦情報D2を生成し、推薦情報D2をバリデーション方法決定部13に出力する(ステップST4C)。例えば、バリデーション方法推薦部12は、第5のバリデーション方法として、学習データD1_1とテストデータD1_2との局在関係を保つように、学習データD1_1とバリデーションデータを抽出するバリデーション方法を推薦する。
図13は、3-フォールドの交差検証において、対象カラムの数値データを小さい順にソートして学習データとバリデーションデータに分けたデータを示すイメージ図である。数値データが「温度」であり、低温(0度未満)、通常(0度以上、40度未満)および高温(40度以上)といった温度範囲が設定され、注目の温度範囲であるときに、注目の温度範囲以外の温度範囲における目的変数を予測するタスクを想定する。
前述したタスクは、図13に示すように、数値データを小さい領域と大きい領域とに分割するバリデーション方法が適している。すなわち、学習データおよびテストデータは、数値が小さいデータがデータインデックスの値が小さい「小」領域に局在化され、数値が大きいデータがデータインデックスの値が大きい「大」領域に局在化され、数値が中間のデータが、「小」領域と「大」領域との間に局在化している。バリデーション方法推薦部12は、第5のバリデーション方法として、学習データD1_1とテストデータD1_2との局在関係を保つように、学習データD1_1とバリデーションデータを抽出するバリデーション方法を推薦する。
例えば、1回目のイテレーション、2回目のイテレーションおよび3回目のイテレーションのそれぞれに用いるデータにおいて、数値が小さい領域の数値データが、教師ラベルであるクラスAに属するデータに分割され、1回目のイテレーションはバリデーションデータとされ、2回目および3回目のイテレーションは学習データとされている。
数値が小さい領域と大きい領域との中間領域である数値データが、クラスBに属するデータに分割され、1回目および3回目のイテレーションは学習データとされ、2回目のイテレーションはバリデーションデータとされている。
数値が大きい領域の数値データがクラスCに属するデータに分割され、1回目および2回目のイテレーションは学習データとされ、3回目のイテレーションはバリデーションデータとされている。
図14は、3-フォールドの交差検証において、対象カラムの周期性を伴った数値データを小さい順にソートして学習データとバリデーションデータに分けたデータを示すイメージ図である。図14に示すように、前半部分、中間部分および後半部分で異なるデータ集合が周期的に現れる数値データである場合、周期内の前半部分の領域、中間部分の領域および後半部分の領域に局在化された数値データの集合を、クラスA~Cに分割するバリデーション方法が適している。
例えば、1回目のイテレーション、2回目のイテレーションおよび3回目のイテレーションのそれぞれに用いるデータにおいて、数値が小さい領域の数値データが周期性に応じてクラスA~Cに属するデータに分割され、数値が小さい領域と大きい領域との中間領域である数値データが周期性に応じてクラスA~Cに属するデータに分割され、数値が大きい領域の数値データが周期性に応じてクラスA~C属するデータに分割されている。
また、1回目のイテレーションに用いるデータにおいて、クラスAに属するデータは、バリデーションデータとされ、クラスBおよびクラスCに属するデータは学習データとされる。2回目のイテレーションに用いるデータにおいて、クラスAおよびクラスCに属するデータは学習データとされ、クラスBに属するデータはバリデーションデータとされる。3回目のイテレーションに用いるデータにおいて、クラスAおよびクラスBに属するデータは学習データとされ、クラスCに属するデータはバリデーションデータとされる。
バリデーション方法決定部13は、推薦情報D2に基づいて、バリデーション方法推薦部12によって推薦されたバリデーション方法を使用するか否かを決定する。バリデーション方法を決定する基準は、バリデーション方法決定部13に設定されたルールを用いてもよい。例えば、バリデーション方法決定部13は、学習データD1_1およびテストデータD1_2が特定のデータ種別である場合、必ず推薦されたバリデーション方法を使用するという条件を規定したルールを使用してもよい。
また、バリデーション方法推薦部12は、バリデーション方法決定部13が、推薦したバリデーション方法を使用しない場合、このバリデーション方法の特定に使用したカラムデータカラムの特徴量を、バリデーション方法の推薦処理から除外してもよい。
バリデーション方法決定装置1における、データ取得部11、バリデーション方法推薦部12およびバリデーション方法決定部13の機能は、処理回路によって実現される。
すなわち、バリデーション方法決定装置1は、図3に示したステップST1からステップST3の各処理を実行するための処理回路を備える。処理回路は、専用のハードウェアであってもよいが、メモリに記憶されたプログラムを実行するCPU(Central Processing Unit)であってもよい。
図15Aは、バリデーション方法決定装置1の機能を実現するハードウェア構成を示すブロック図である。図15Bは、バリデーション方法決定装置1の機能を実現するソフトウェアを実行するハードウェア構成を示すブロック図である。図15Aおよび図15Bにおいて、入力インタフェース100は、外部装置から、バリデーション方法決定装置1へ出力された学習データD1_1、テストデータD1_2およびデータ種別情報D1_3を中継するインタフェースである。出力インタフェース101は、バリデーション方法決定装置1から不図示のバリデーション装置へ出力される情報D3を中継するインタフェースである。
処理回路が図15Aに示す専用のハードウェアの処理回路102である場合、処理回路102は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、または、これらを組み合わせたものが該当する。バリデーション方法決定装置1における、データ取得部11、バリデーション方法推薦部12およびバリデーション方法決定部13の機能は別々の処理回路で実現されてもよく、これらの機能が一つの処理回路で実現されてもよい。
処理回路が図15Bに示すプロセッサ103である場合、バリデーション方法決定装置1における、データ取得部11、バリデーション方法推薦部12およびバリデーション方法決定部13の機能は、ソフトウェア、ファームウェアまたはソフトウェアとファームウェアとの組み合わせによって実現される。なお、ソフトウェアまたはファームウェアは、プログラムとして記述されてメモリ104に記憶される。
プロセッサ103は、メモリ104に記憶されたプログラムを読み出して実行することで、バリデーション方法決定装置1における、データ取得部11、バリデーション方法推薦部12およびバリデーション方法決定部13の機能を実現する。
例えば、バリデーション方法決定装置1は、プロセッサ103によって実行されるときに、図3に示すフローチャートにおけるステップST1からステップST3までの各処理が結果的に実行されるプログラムを記憶するためのメモリ104を備えている。これらのプログラムは、データ取得部11、バリデーション方法推薦部12およびバリデーション方法決定部13が行う処理の手順または方法をコンピュータに実行させる。メモリ104は、コンピュータを、データ取得部11、バリデーション方法推薦部12およびバリデーション方法決定部13として機能させるためのプログラムが記憶されたコンピュータ可読記憶媒体であってもよい。
メモリ104は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically-EPROM)などの不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVDなどが該当する。
バリデーション方法決定装置1における、データ取得部11、バリデーション方法推薦部12およびバリデーション方法決定部13の機能の一部が専用のハードウェアで実現され、一部がソフトウェアまたはファームウェアで実現されてもよい。
例えば、データ取得部11は、専用のハードウェアである処理回路102によって機能が実現され、バリデーション方法推薦部12およびバリデーション方法決定部13は、プロセッサ103がメモリ104に記憶されたプログラムを読み出して実行することにより機能が実現される。このように、処理回路はハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせにより上記機能を実現することができる。
以上のように、実施の形態1に係るバリデーション方法決定装置1は、学習データD1_1、テストデータD1_2およびデータ種別情報D1_3を用いて、学習データと予測対象に対応したバリデーションデータとを抽出するバリデーション方法を推薦し、推薦したバリデーション方法から、予測器の予測性能の評価に用いるバリデーション方法を決定する。従来、予測器の予測性能の評価に適したバリデーションデータを得るためにはノウハウが必要であり、適切にバリデーションデータを抽出することが困難であった。
これに対して、バリデーション方法決定装置1は、予測対象に対応したバリデーションデータを抽出するバリデーション方法を決定できるので、特別なノウハウを必要とせず、予測器の予測性能の評価に適したバリデーションデータを得ることができる。
また、実施の形態1に係るバリデーション方法決定方法においても、同様の効果が得られる。
実施の形態1に係るバリデーション方法決定装置1において、バリデーション方法推薦部12は、学習データとバリデーションデータとの時系列の順序関係を保つように、学習データとバリデーションデータを抽出するバリデーション方法を推薦する。例えば、予測対象が日時データである予測器の予測性能の評価に適したバリデーションデータを得ることができる。
実施の形態1に係るバリデーション方法決定装置1において、バリデーション方法推薦部12は、教師ラベルの割合が同一になるように、学習データとバリデーションデータを抽出するバリデーション方法を推薦する。例えば、予測対象が質的データである予測器の予測性能の評価に適したバリデーションデータを得ることができる。
実施の形態1に係るバリデーション方法決定装置1において、バリデーション方法推薦部12は、グループ単位で学習データとバリデーションデータとを抽出するバリデーション方法を推薦する。例えば、予測対象が質的データである予測器の予測性能の評価に適したバリデーションデータを得ることができる。
実施の形態1に係るバリデーション方法決定装置1において、バリデーション方法推薦部12は、学習データD1_1とテストデータD1_2との大小関係を保つように、学習データとバリデーションデータを抽出するバリデーション方法を推薦する。例えば、予測対象が数値データである予測器の予測性能の評価に適したバリデーションデータを得ることができる。
実施の形態1に係るバリデーション方法決定装置1において、バリデーション方法推薦部12は、学習データD1_1とテストデータD1_2との局在関係を保つように、学習データとバリデーションデータとを抽出するバリデーション方法を推薦する。例えば、予測対象が数値データである予測器の予測性能の評価に適したバリデーションデータを得ることができる。
実施の形態2.
図16は、実施の形態2に係るバリデーション方法決定装置1Aの構成を示すブロック図である。図16において、バリデーション方法決定装置1Aは、データ取得部11A、バリデーション方法推薦部12A、バリデーション方法決定部13A、データ種別判定部14、分布計算部15、順序付け部16、およびユーザフィードバック部17を備える。データ取得部11Aは、学習データD1_1およびテストデータD1_2を取得し、取得した学習データD1_1およびテストデータD1_2をバリデーション方法推薦部12Aとデータ種別判定部14に出力する。
バリデーション方法推薦部12Aは、データ取得部11Aにより取得された学習データD1_1およびテストデータD1_2と、データ種別判定部14により生成されたデータ種別情報D1_3と、分布計算部15により算出された分布情報D1_4と、順序付け部16により算出された順序情報D1_5を用いて、学習データとバリデーションデータとを抽出するバリデーション方法を推薦する。バリデーション方法推薦部12Aが推薦するバリデーション方法を示す推薦情報D2は、バリデーション方法決定部13Aに出力される。また、バリデーション方法推薦部12Aは、さらに、任意のデータおよび情報D8を用いて、バリデーション方法を推薦してもよい。
バリデーション方法決定部13Aは、ユーザフィードバック部17からのフィードバック情報D7に基づいて、推薦情報D2が示すバリデーション方法を、予測値の予測性能の評価に用いるか否かを決定する。バリデーション方法決定部13Aは、予測器の予測性能の評価に用いると判定したバリデーション方法を示す情報D3を、外部装置(例えば、図16において不図示のバリデーション装置)に出力する。
データ種別判定部14は、データ取得部11Aから取得した学習データD1_1およびテストデータD1_2を用いて、これらのデータを構成するカラムデータのデータ種別を判定することにより、データ種別情報D1_3を生成する。例えば、データ種別判定部14は、学習データD1_1およびテストデータD1_2のカラムデータのデータ型または要素数に基づいて、データ種別情報D1_3を生成する。
分布計算部15は、学習データD1_1の分布とテストデータD1_2の分布との差異を算出し、算出した分布差異を示す分布情報を生成してバリデーション方法推薦部12Aに出力する。例えば、分布計算部15は、カラムデータにおける学習データD1_1の分布とテストデータD1_2の分布との重なり度合いまたは数値データのユークリッド距離に基づいて、分布情報D1_4を算出する。
順序付け部16は、データ種別情報D1_3および分布情報D1_4を用いて、バリデーションデータを抽出するカラムデータの順序付けを行い、カラムデータの順序付けを示す順序情報D1_5をバリデーション方法推薦部12Aに出力する。例えば、順序付け部16は、学習データD1_1とテストデータD1_2との分布の重なり具合が閾値以上であるか否かに基づいた順序付けを行ってもよいし、数値データのユークリッド距離が閾値以上であるか否かに基づいた順序付けを行ってもよいし、これらを組み合わせに基づいた順序付けを行ってもよい。さらに、順序付け部16は、学習データD1_1およびテストデータD1_2についての一つの分布情報D1_4に基づいて順序付けしても、複数の分布情報D1_4に基づく順序付けを行ってもよい。
ユーザフィードバック部17は、バリデーション方法の推薦に関する提示情報D4を出力し、提示情報D4に対するフィードバック情報D5をバリデーション方法推薦部12Aに出力するフィードバック部である。バリデーション方法推薦部12Aは、フィードバック情報D5に応じたバリデーション方法を推薦する。また、ユーザフィードバック部17は、バリデーション方法の決定に関する提示情報D6を出力して、提示情報D6に対するフィードバック情報D7をバリデーション方法決定部13Aに出力する。バリデーション方法決定部13Aは、フィードバック情報D7に基づいて、推薦されたバリデーション方法を、予測器の予測性能の評価に用いるか否かを決定する。
図17は、実施の形態2に係るバリデーション方法決定方法を示すフローチャートであり、バリデーション方法決定装置1Aによる一連の処理を示している。
データ取得部11Aは、学習データD1_1およびテストデータD1_2を取得する(ステップST1D)。データ取得部11Aは、学習データD1_1およびテストデータD1_2を、バリデーション方法推薦部12A、データ種別判定部14および分布計算部15にそれぞれ出力する。
データ種別判定部14は、学習データD1_1およびテストデータD1_2を用いて、これらのデータを構成するカラムデータのデータ種別を判定する(ステップST2D)。データ種別判定部14は、判定結果のデータ種別を示すデータ種別情報D1_3を、分布計算部15および順序付け部16に出力する。
分布計算部15は、学習データD1_1、テストデータD1_2およびデータ種別情報D1_3を用いて、学習データD1_1とテストデータD1_2との分布差異を算出する(ステップST3D)。分布計算部15は、算出した分布差異を示す分布情報D1_4を生成し、分布情報D1_4をバリデーション方法推薦部12Aに出力する。
順序付け部16は、データ種別情報D1_3および分布情報D1_4を用いて、学習データD1_1およびテストデータD1_2におけるカラムデータの順序付けを行う(ステップST4D)。順序付け部16は、カラムデータの順序付けを示す順序情報D1_5をバリデーション方法推薦部12Aに出力する。例えば、カラムデータに対して、バリデーション方法推薦処理の順番を示すパラメータiが設定される。
バリデーション方法推薦部12Aは、i番目のカラムデータについてのバリデーション方法の推薦処理を行う(ステップST5D)。例えば、バリデーション方法推薦部12Aは、順序情報D1_5が示すパラメータiの値(処理順序)が最も小さいカラムデータについて、データ種別情報D1_3および分布情報D1_4を用いてバリデーション方法の推薦情報D2を生成し、推薦情報D2をバリデーション方法決定部13Aに出力する。
また、バリデーション方法推薦部12Aは、推薦情報D2をバリデーション方法決定部13Aに出力する前に、推薦するバリデーション方法を、ユーザに確認させるための提示情報D4を生成し、提示情報D4をユーザフィードバック部17に出力してもよい。
ユーザフィードバック部17は、提示情報D4をユーザに提示する。例えば、ユーザフィードバック部17は、図16において不図示の表示装置または音声出力装置において提示情報D4を出力する。
ユーザフィードバック部17は、提示情報D4に対するユーザからのフィードバック情報D5を取得すると、フィードバック情報D5をバリデーション方法推薦部12Aに出力する。バリデーション方法推薦部12Aは、フィードバック情報D5に対応したバリデーション方法を示す推薦情報D2を生成し、推薦情報D2をバリデーション方法決定部13Aに出力する。
次に、バリデーション方法決定部13Aは、推薦情報D2が示すバリデーション方法を使用するか否かを判定する(ステップST6D)。また、バリデーション方法決定部13Aは、バリデーション方法を決定する前に、推薦されたバリデーション方法を、ユーザに確認させるための提示情報D6を生成し、提示情報D6をユーザフィードバック部17に出力してもよい。ユーザフィードバック部17は、提示情報D6をユーザに提示する。
ユーザフィードバック部17は、提示情報D6に対するユーザからのフィードバック情報D7を取得すると、フィードバック情報D7をバリデーション方法決定部13Aに出力する。バリデーション方法決定部13Aは、フィードバック情報D7に基づいて、推薦されたバリデーション方法を使用するか否かを判定する。
推薦情報D2が示すバリデーション方法を使用すると判定した場合(ステップST6D;YES)、バリデーション方法決定部13Aは、バリデーション方法推薦部12Aにより推薦されたバリデーション方法を、予測器の予測性能の評価に用いるバリデーション方法に決定する(ステップST7D)。バリデーション方法決定部13Aは、使用を決定したバリデーション方法を示す情報D3を、外部装置(例えば、バリデーション装置)に出力する。
また、推薦情報D2が示すバリデーション方法を使用しないと判定した場合(ステップST6D;NO)、バリデーション方法決定部13Aは、その旨をバリデーション方法推薦部12Aに通知する。バリデーション方法推薦部12Aは、上記通知を受けると、パラメータiを+1加算し(ステップST8D)、次の順番のカラムデータに対し、ステップST5Dからの処理を繰り返す。ステップST5DからステップST7Dまでの処理は、バリデーション方法が決定されるまで繰り返し実行される。
なお、バリデーション方法決定装置1Aにおけるデータ取得部11A、バリデーション方法推薦部12A、バリデーション方法決定部13A、データ種別判定部14、分布計算部15、順序付け部16およびユーザフィードバック部17の機能は、図15Aまたは図15Bに示した処理回路によって実現される。すなわち、バリデーション方法決定装置1Aは、図17に示したステップST1DからステップST8Dまでの処理を実行するための処理回路を備える。処理回路は、専用のハードウェアであってもよいが、メモリに記憶されたプログラムを実行するCPUであってもよい。
図18は、実施の形態2におけるバリデーション方法の推薦処理例(1)を示すフローチャートであり、バリデーション方法推薦部12Aによる処理の一例を示している。
バリデーション方法推薦部12Aは、データ種別情報D1_3を用いて、学習データD1_1およびテストデータD1_2からデータ種別が「日時」であるカラムデータC1を抽出する。バリデーション方法推薦部12Aは、学習データD1_1のカラムデータC1に含まれる最も新しい日時よりも、テストデータD1_2のカラムデータC1に含まれる最も古い日時が新しいか否かを判定する(ステップST1E)。
学習データD1_1のカラムデータC1に含まれる最も新しい日時よりもテストデータD1_2のカラムデータC1に含まれる最も古い日時が新しい場合(ステップST1E;YES)、バリデーション方法推薦部12Aは、「過去のデータから未来のデータを予測したいか」をユーザに問い合わせるための提示情報D4を生成し、生成した提示情報D4をユーザフィードバック部17に出力する。
ユーザフィードバック部17は、上記提示情報D4をユーザに提示する。これにより、バリデーション方法推薦部12Aは、過去のデータから未来のデータを予測したいか否かを判定する(ステップST2E)。ユーザフィードバック部17は、提示情報D4に対するフィードバック情報D5をバリデーション方法推薦部12Aに出力する。
バリデーション方法推薦部12Aは、フィードバック情報D5を用いて、ユーザが過去のデータから未来のデータを予測したいと判定した場合(ステップST2E;YES)、第1のバリデーション方法を示す推薦情報D2を生成し、この推薦情報D2をバリデーション方法決定部13に出力する(ステップST3E)。
バリデーション方法推薦部12Aは、日時のカラムデータC1における学習データD1_1とテストデータD1_2の分布差異に基づいて、学習データD1_1とバリデーションデータの時系列の順序関係を保つように、学習データD1_1とバリデーションデータとを抽出するバリデーション方法を推薦する。例えば、バリデーション方法推薦部12Aは、第1のバリデーション方法として、学習データD1_1における時系列的に過去のデータを予測器の学習に用い、時系列的に未来のデータをバリデーションデータとして抽出するバリデーション方法を推薦する。
バリデーション方法推薦部12Aは、学習データD1_1のカラムデータC1に含まれる最も新しい日時よりもテストデータD1_2のカラムデータC1に含まれる最も古い日時が古いか両日時が同じであると判定した場合(ステップST1E;NO)、あるいは、ユーザが過去のデータから未来のデータを予測したくないと判定した場合(ステップST2E;NO)、バリデーション方法の推薦処理の対象として次のカラムデータを確認する(ステップST4E)。
図19は、実施の形態2におけるバリデーション方法の推薦処理例(2)を示すフローチャートであり、バリデーション方法推薦部12Aによる処理の一例を示している。
バリデーション方法推薦部12Aは、データ種別情報D1_3を用いて、学習データD1_1およびテストデータD1_2からデータ種別が「カテゴリ」であるカラムデータC3を抽出する。次に、バリデーション方法推薦部12Aは、カラムデータC3における、学習データD1_1の分布とテストデータD1_2の分布との重複が閾値以上であるか否かを判定する(ステップST1F)。
学習データD1_1の分布とテストデータD1_2の分布との重複が閾値以上であると判定した場合(ステップST1F;YES)、バリデーション方法推薦部12Aは、第2のバリデーション方法を示す推薦情報D2を生成し、推薦情報D2をバリデーション方法決定部13Aに出力する(ステップST2F)。例えば、バリデーション方法推薦部12Aは、第2のバリデーション方法として、教師ラベルの割合が同一になるように、学習データD1_1とバリデーションデータとを抽出するバリデーション方法を推薦する。
また、学習データD1_1の分布とテストデータD1_2の分布との重複が閾値未満である場合(ステップST1F;NO)、バリデーション方法推薦部12Aは、「未知のカテゴリに対して予測したいか」をユーザに問い合わせるための提示情報D4を生成して、生成した提示情報D4をユーザフィードバック部17に出力する。
ユーザフィードバック部17は、上記提示情報D4をユーザに提示する。これにより、バリデーション方法推薦部12Aは、未知のカテゴリに対して予測したいか否かを判定する(ステップST3F)。ユーザフィードバック部17は、提示情報D4に対するフィードバック情報D5をバリデーション方法推薦部12Aに出力する。
バリデーション方法推薦部12Aは、フィードバック情報D5を用いて、ユーザが未知のカテゴリに対して予測したくないと判定した場合(ステップST3F;NO)、ステップST2Fの処理に移行する。
バリデーション方法推薦部12Aは、フィードバック情報D5を用いて、ユーザが未知のカテゴリに対して予測したいと判定した場合(ステップST3F;YES)、第3のバリデーション方法を示す推薦情報D2を生成し、この推薦情報D2をバリデーション方法決定部13Aに出力する(ステップST4F)。例えば、バリデーション方法推薦部12Aは、第3のバリデーション方法として、グループ単位で学習データD1_1とバリデーションデータとを抽出するバリデーション方法を推薦する。
図20は、実施の形態2におけるバリデーション方法の推薦処理例(3)を示すフローチャートであり、バリデーション方法推薦部12Aによる処理の一例を示している。
バリデーション方法推薦部12Aは、データ種別情報D1_3を用いて、学習データD1_1およびテストデータD1_2から、データ種別が「数値」であるカラムデータC2を抽出する。続いて、バリデーション方法推薦部12Aは、カラムデータC2における、学習データD1_1の最大値がテストデータD1_2の最小値よりも小さいか否か、または、学習データD1_1の最小値がテストデータD1_2の最大値よりも大きいか否かを判定する(ステップST1G)。
学習データD1_1の最大値がテストデータD1_2の最小値よりも小さい、または、学習データD1_1の最小値がテストデータD1_2の最大値よりも大きいと判定した場合(ステップST1G;YES)、バリデーション方法推薦部12Aは、「学習データとテストデータの大小関係を保ったまま予測したいか」をユーザに問い合わせるための提示情報D4を生成して、生成した提示情報D4をユーザフィードバック部17に出力する。
ユーザフィードバック部17は、上記提示情報D4をユーザに提示する。これにより、バリデーション方法推薦部12Aは、学習データとテストデータの大小関係を保ったまま予測したいか否かを判定する(ステップST2G)。ユーザフィードバック部17は、提示情報D4に対するフィードバック情報D5を、バリデーション方法推薦部12Aに出力する。
バリデーション方法推薦部12Aは、フィードバック情報D5を用いて、ユーザが学習データとテストデータの大小関係を保ったまま予測したいと判定した場合(ステップST2G;YES)、第4のバリデーション方法を示す推薦情報D2を生成し、推薦情報D2をバリデーション方法決定部13Aに出力する(ステップST3G)。例えば、バリデーション方法推薦部12Aは、第4のバリデーション方法として、学習データD1_1とテストデータD1_2との大小関係を保つように、学習データD1_1とバリデーションデータを抽出するバリデーション方法を推薦する。
学習データD1_1の最大値がテストデータD1_2の最小値以上、または、学習データD1_1の最小値がテストデータD1_2の最大値以下と判定した場合(ステップST1G;NO)、あるいは、ユーザが学習データとテストデータの大小関係を保ったまま予測したくないと判定した場合(ステップST2G;NO)、バリデーション方法推薦部12Aは、カラムデータC2における、学習データD1_1の分布とテストデータD1_2の分布との重複が閾値以上であるか否かを判定する(ステップST4G)。
学習データD1_1の分布とテストデータD1_2の分布との重複が閾値以上であると判定した場合(ステップST4G;YES)、バリデーション方法推薦部12Aは、第2のバリデーション方法を示す推薦情報D2を生成し、推薦情報D2をバリデーション方法決定部13Aに出力する(ステップST5G)。第2のバリデーション方法は、教師ラベルの割合が同一になるように、学習データD1_1とバリデーションデータを抽出するバリデーション方法である。
学習データD1_1の分布とテストデータD1_2の分布との重複が閾値未満であると判定した場合(ステップST4G;NO)、バリデーション方法推薦部12Aは、第5のバリデーション方法を示す推薦情報D2を生成して、推薦情報D2をバリデーション方法決定部13に出力する(ステップST6G)。例えば、バリデーション方法推薦部12Aは、第5のバリデーション方法として、学習データD1_1とテストデータD1_2との局在関係を保つように、学習データD1_1とバリデーションデータを抽出するバリデーション方法を推薦する。
なお、バリデーション方法推薦部12または12Aは、学習データD1_1とテストデータD1_2との分布の重なり度合い(Overlap)、要約統計量(例えば、最大、最小、中央値、平均値、分散値、任意の分位点値)の比較、ユークリッド距離、マハラノビス距離、チェビシェフ距離、ハミング距離、マンハッタン距離、ミンコフスキー距離、DTW(Dynamic Time Warping、動的時間伸縮法)距離、CTW(Canonical Time Warping)距離、Histogram Intersection、KLダイバージェンス、JSダイバージェンス、ピアソン距離および相対ピアソン距離のいずれか、またはこれらの組み合わせを用いて、バリデーション方法の推薦を行ってもよい。
また、データ種別判定部14は、値のデータ型(int(整数),float(小数),str(文字),bool(真偽),datetime(日付、時刻),nan)、値の要素数、値の頻度、データのラベル名、周期性(年月日、時刻)、相関値(偏自己相関係数、目的変数との相関係数)、データの要約統計量、ラグ特徴量、上記値の大小関係を組み合わせてデータ種別を判定してもよい。
分布計算部15は、学習データD1_1とテストデータD1_2との分布の重なり度合い(Overlap)、要約統計量(例えば、最大、最小、中央値、平均値、分散値、任意の分位点値)の比較、ユークリッド距離、マハラノビス距離、チェビシェフ距離、ハミング距離、マンハッタン距離、ミンコフスキー距離、DTW(Dynamic Time Warping、動的時間伸縮法)距離、CTW(Canonical Time Warping)距離、Histogram Intersection、KLダイバージェンス、JSダイバージェンス、ピアソン距離および相対ピアソン距離のいずれか、またはこれらの組み合わせを用いて、分布情報D1_4を生成してもよい。
以上のように、実施の形態2に係るバリデーション方法決定装置1Aは、学習データD1_1およびテストデータD1_2を構成するカラムデータのデータ種別を判定してデータ種別情報D1_3を生成するデータ種別判定部14を備える。バリデーション方法決定装置1Aは、学習データD1_1およびテストデータD1_2を用いて、これらのデータを構成するカラムデータのデータ種別を判定することができる。
実施の形態2に係るバリデーション方法決定装置1Aは、学習データD1_1の分布とテストデータD1_2の分布との差異を算出し、算出した分布差異を示す分布情報D1_4を出力する分布計算部15を備える。バリデーション方法推薦部12Aは、分布情報D1_4に基づいてバリデーション方法を推薦する。バリデーション方法決定装置1Aは、学習データD1_1およびテストデータD1_2を用いて、学習データD1_1とテストデータD1_2との分布差異を算出することができる。
実施の形態2に係るバリデーション方法決定装置1Aは、データ種別情報D1_3および分布情報D1_4を用いて、バリデーションデータを抽出するカラムデータの順序付けを行い、カラムデータの順序付けを示す順序情報を出力する順序付け部16を備えた。
バリデーション方法決定装置1Aは、データ種別情報D1_3および分布情報D1_4を用いて、カラムデータの順序付けを行うことができる。
実施の形態2に係るバリデーション方法決定装置1Aは、バリデーション方法の推薦に関する提示情報D4を出力し、提示情報D4に対するフィードバック情報D5をバリデーション方法推薦部12Aに出力するユーザフィードバック部17を備える。バリデーション方法推薦部12Aは、取得したフィードバック情報D5に応じたバリデーション方法を推薦する。バリデーション方法推薦部12Aは、ユーザからのフィードバック情報D5に応じたバリデーション方法を、バリデーション方法決定部13Aに推薦することが可能である。
実施の形態2に係るバリデーション方法決定装置1Aは、バリデーション方法の決定に関する提示情報D6を出力し、提示情報D6に対するフィードバック情報D7をバリデーション方法決定部13Aに出力するユーザフィードバック部17を備える。バリデーション方法決定部13Aは、取得したフィードバック情報D7に基づいて、推薦されたバリデーション方法を、予測器の予測性能の評価に用いるか否かを決定する。
バリデーション方法決定装置1Aは、ユーザからのフィードバック情報D7を用いて、予測器の予測性能の評価に用いるバリデーション方法を決定することが可能である。
実施の形態2に係るバリデーション方法決定装置1Aにおいて、ユーザフィードバック部17は、過去のデータを用いて未来のデータを予測するか否かの問い合わせ情報を提示情報として出力し、提示情報に対するフィードバック情報をバリデーション方法推薦部12Aに出力する。バリデーション方法推薦部12Aは、過去のデータを用いて未来のデータを予測することを示すフィードバック情報を取得した場合に、学習データとバリデーションデータとの時系列の順序関係を保つように、学習データとバリデーションデータとを抽出するバリデーション方法を推薦する。このように、バリデーション方法推薦部12Aは、ユーザからのフィードバック情報D5に応じたバリデーション方法を、バリデーション方法決定部13Aに推薦することが可能である。
実施の形態2に係るバリデーション方法決定装置1Aにおいて、ユーザフィードバック部17は、未知のカテゴリについて予測するか否かの問い合わせ情報を提示情報として出力し、提示情報に対するフィードバック情報をバリデーション方法推薦部12Aに出力する。バリデーション方法推薦部12Aは、未知のカテゴリについて予測することを示すフィードバック情報を取得した場合、グループ単位で学習データとバリデーションデータを抽出するバリデーション方法を推薦する。バリデーション方法推薦部12Aは、未知のカテゴリについて予測しないことを示すフィードバック情報を取得した場合には、教師ラベルの割合が同一になるように、学習データとバリデーションデータとを抽出するバリデーション方法を推薦する。このように、バリデーション方法推薦部12Aは、ユーザからのフィードバック情報D5に応じたバリデーション方法を、バリデーション方法決定部13Aに推薦することが可能である。
実施の形態2に係るバリデーション方法決定装置1Aにおいて、ユーザフィードバック部17は、学習データとテストデータとの大小関係を保ったまま予測するか否かの問い合わせ情報を提示情報として出力し、提示情報に対するフィードバック情報をバリデーション方法推薦部12Aに出力する。
バリデーション方法推薦部12Aは、学習データとテストデータとの大小関係を保ったまま予測することを示すフィードバック情報を取得した場合、学習データとテストデータとの大小関係を保つように、学習データとバリデーションデータとを抽出するバリデーション方法を推薦する。
また、バリデーション方法推薦部12Aは、学習データとテストデータとの大小関係を保ったまま予測をしないことを示すフィードバック情報を取得し、かつ学習データの分布とテストデータの分布との分布差異が閾値以上である場合、教師ラベルの割合が同一になるように、学習データとバリデーションデータとを抽出するバリデーション方法を推薦する。さらに、バリデーション方法推薦部12Aは、学習データとテストデータとの大小関係を保ったまま予測をしないことを示すフィードバック情報を取得し、かつ学習データの分布とテストデータの分布との分布差異が閾値未満である場合には、学習データとテストデータとの局在関係を保つように、学習データとバリデーションデータとを抽出するバリデーション方法を推薦する。
このように、バリデーション方法推薦部12Aは、ユーザからのフィードバック情報D5に応じたバリデーション方法を、バリデーション方法決定部13Aに推薦することが可能である。
なお、各実施の形態の組み合わせまたは実施の形態のそれぞれの任意の構成要素の変形もしくは実施の形態のそれぞれにおいて任意の構成要素の省略が可能である。
本開示に係るバリデーション方法決定装置は、一般的な機械学習の教師ありのタスクに有効であり、例えば、識別に関するタスク、回帰(予測)に関するタスクまたはこれらに関するAutoML(Automated Machine Learning)システムに利用可能である。
1,1A バリデーション方法決定装置、11,11A データ取得部、12,12A バリデーション方法推薦部、13,13A バリデーション方法決定部、14 データ種別判定部、15 分布計算部、16 順序付け部、17 ユーザフィードバック部、100 入力インタフェース、101 出力インタフェース、102 処理回路、103 プロセッサ、104 メモリ。

Claims (15)

  1. 予測器の学習に用いる学習データおよび前記予測器の予測精度の測定に用いるテストデータを取得するデータ取得部と、
    前記学習データ、前記テストデータおよび両データを構成するカラムデータのデータ種別を示すデータ種別情報を用いて、前記学習データと予測対象に対応したバリデーションデータとを抽出するバリデーション方法を推薦するバリデーション方法推薦部と、
    推薦されたバリデーション方法から、前記予測器の予測性能の評価に用いるバリデーション方法を決定するバリデーション方法決定部と、を備えた
    ことを特徴とするバリデーション方法決定装置。
  2. 前記バリデーション方法推薦部は、前記学習データと前記バリデーションデータの時系列の順序関係を保つように、前記学習データと前記バリデーションデータを抽出するバリデーション方法を推薦する
    ことを特徴とする請求項1に記載のバリデーション方法決定装置。
  3. 前記バリデーション方法推薦部は、教師ラベルの割合が同一になるように、前記学習データと前記バリデーションデータを抽出するバリデーション方法を推薦する
    ことを特徴とする請求項1に記載のバリデーション方法決定装置。
  4. 前記バリデーション方法推薦部は、グループ単位で前記学習データと前記バリデーションデータを抽出するバリデーション方法を推薦する
    ことを特徴とする請求項1に記載のバリデーション方法決定装置。
  5. 前記バリデーション方法推薦部は、前記学習データと前記テストデータとの大小関係を保つように、前記学習データと前記バリデーションデータを抽出するバリデーション方法を推薦する
    ことを特徴とする請求項1に記載のバリデーション方法決定装置。
  6. 前記バリデーション方法推薦部は、前記学習データと前記テストデータとの局在関係を保つように、前記学習データと前記バリデーションデータを抽出するバリデーション方法を推薦する
    ことを特徴とする請求項1に記載のバリデーション方法決定装置。
  7. 前記学習データおよび前記テストデータをそれぞれ構成するカラムデータのデータ種別を判定して前記データ種別情報を生成するデータ種別判定部を備えた
    ことを特徴とする請求項1に記載のバリデーション方法決定装置。
  8. 前記学習データの分布と前記テストデータの分布との差異を算出し、算出した分布差異を示す分布情報を出力する分布計算部を備え、
    前記バリデーション方法推薦部は、前記分布情報に基づいてバリデーション方法を推薦する
    ことを特徴とする請求項1に記載のバリデーション方法決定装置。
  9. 前記データ種別情報および前記分布情報を用いて、前記バリデーションデータを抽出するカラムデータの順序付けを行い、カラムデータの順序付けを示す順序情報を出力する順序付け部を備えた
    ことを特徴とする請求項8に記載のバリデーション方法決定装置。
  10. バリデーション方法の推薦に関する提示情報を出力し、前記提示情報に対するフィードバック情報を前記バリデーション方法推薦部に出力するフィードバック部を備え、
    前記バリデーション方法推薦部は、取得した前記フィードバック情報に対応するバリデーション方法を推薦する
    ことを特徴とする請求項1に記載のバリデーション方法決定装置。
  11. バリデーション方法の決定に関する提示情報を出力し、前記提示情報に対するフィードバック情報を前記バリデーション方法決定部に出力するフィードバック部を備え、
    前記バリデーション方法決定部は、取得した前記フィードバック情報に基づいて、推薦されたバリデーション方法を、前記予測器の予測性能の評価に用いるか否かを決定する
    ことを特徴とする請求項1に記載のバリデーション方法決定装置。
  12. 前記フィードバック部は、過去のデータを用いて未来のデータを予測するか否かの問い合わせ情報を前記提示情報として出力し、前記提示情報に対する前記フィードバック情報を前記バリデーション方法推薦部に出力し、
    前記バリデーション方法推薦部は、過去のデータを用いて未来のデータを予測することを示す前記フィードバック情報を取得した場合に、前記学習データと前記バリデーションデータの時系列の順序関係を保つように、前記学習データと前記バリデーションデータを抽出するバリデーション方法を推薦する
    ことを特徴とする請求項10に記載のバリデーション方法決定装置。
  13. 前記フィードバック部は、未知のカテゴリについて予測するか否かの問い合わせ情報を前記提示情報として出力し、前記提示情報に対する前記フィードバック情報を前記バリデーション方法推薦部に出力し、
    前記バリデーション方法推薦部は、
    未知のカテゴリについて予測することを示す前記フィードバック情報を取得した場合、グループ単位で前記学習データと前記バリデーションデータを抽出するバリデーション方法を推薦し、
    未知のカテゴリについて予測しないことを示す前記フィードバック情報を取得した場合は、教師ラベルの割合が同一になるように前記学習データと前記バリデーションデータを抽出するバリデーション方法を推薦する
    ことを特徴とする請求項10に記載のバリデーション方法決定装置。
  14. 前記フィードバック部は、前記学習データと前記テストデータとの大小関係を保ったまま予測するか否かの問い合わせ情報を前記提示情報として出力し、前記提示情報に対する前記フィードバック情報を前記バリデーション方法推薦部に出力し、
    前記バリデーション方法推薦部は、
    前記学習データと前記テストデータとの大小関係を保ったまま予測することを示す前記フィードバック情報を取得した場合に、前記学習データと前記テストデータの大小関係を保つように、前記学習データと前記バリデーションデータを抽出するバリデーション方法を推薦し、
    前記学習データと前記テストデータとの大小関係を保ったまま予測をしないことを示す前記フィードバック情報を取得し、かつ前記学習データの分布と前記テストデータの分布との分布差異が閾値以上である場合に、教師ラベルの割合が同一になるように、前記学習データと前記バリデーションデータを抽出するバリデーション方法を推薦し、
    前記学習データと前記テストデータとの大小関係を保ったまま予測をしないことを示す前記フィードバック情報を取得し、かつ前記学習データの分布と前記テストデータの分布との分布差異が閾値未満である場合に、前記学習データと前記テストデータの局在関係を保つように、前記学習データと前記バリデーションデータを抽出するバリデーション方法を推薦する
    ことを特徴とする請求項10に記載のバリデーション方法決定装置。
  15. データ取得部が、予測器の学習に用いる学習データおよび前記予測器の予測精度の測定に用いるテストデータを取得するステップと、
    バリデーション方法推薦部が、前記学習データ、前記テストデータおよび両データを構成するカラムデータのデータ種別を示すデータ種別情報を用いて、前記学習データと予測対象に対応したバリデーションデータとを抽出するバリデーション方法を推薦するステップと、
    バリデーション方法決定部が、推薦されたバリデーション方法から、前記予測器の予測性能の評価に用いるバリデーション方法を決定するステップと、を備えた
    ことを特徴とするバリデーション方法決定方法。
JP2023529257A 2021-06-22 2021-06-22 バリデーション方法決定装置およびバリデーション方法決定方法 Active JP7321406B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/023501 WO2022269733A1 (ja) 2021-06-22 2021-06-22 バリデーション方法決定装置およびバリデーション方法決定方法

Publications (2)

Publication Number Publication Date
JPWO2022269733A1 JPWO2022269733A1 (ja) 2022-12-29
JP7321406B2 true JP7321406B2 (ja) 2023-08-04

Family

ID=84545281

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023529257A Active JP7321406B2 (ja) 2021-06-22 2021-06-22 バリデーション方法決定装置およびバリデーション方法決定方法

Country Status (5)

Country Link
US (1) US20240078468A1 (ja)
EP (1) EP4343642A1 (ja)
JP (1) JP7321406B2 (ja)
CN (1) CN117651956A (ja)
WO (1) WO2022269733A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200349467A1 (en) 2019-05-02 2020-11-05 Nicholas John Teague Preparing Structured Data Sets for Machine Learning

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7218274B2 (ja) * 2019-11-05 2023-02-06 株式会社 ディー・エヌ・エー 化合物の性質を予測するための化合物性質予測装置、化合物性質予測プログラム及び化合物性質予測方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200349467A1 (en) 2019-05-02 2020-11-05 Nicholas John Teague Preparing Structured Data Sets for Machine Learning

Also Published As

Publication number Publication date
WO2022269733A1 (ja) 2022-12-29
JPWO2022269733A1 (ja) 2022-12-29
US20240078468A1 (en) 2024-03-07
CN117651956A (zh) 2024-03-05
EP4343642A1 (en) 2024-03-27

Similar Documents

Publication Publication Date Title
US9047559B2 (en) Computer-implemented systems and methods for testing large scale automatic forecast combinations
JP6636071B2 (ja) コンピュータ実装方法、コンピュータシステム及びコンピュータ装置
Shepperd Software project economics: a roadmap
Dejaeger et al. Data mining techniques for software effort estimation: a comparative study
Zhang et al. Applications and comparisons of four time series models in epidemiological surveillance data
US20240012882A1 (en) Technology for building and managing data models
US20130024167A1 (en) Computer-Implemented Systems And Methods For Large Scale Automatic Forecast Combinations
Chougule et al. A fuzzy logic based approach for modeling quality and reliability related customer satisfaction in the automotive domain
CN110472802B (zh) 一种数据特征评估方法、装置及设备
JPWO2016151618A1 (ja) 予測モデル更新システム、予測モデル更新方法および予測モデル更新プログラム
CN111783867A (zh) 机器学习算法选择方法及装置
Acebes et al. On the project risk baseline: Integrating aleatory uncertainty into project scheduling
Acebes et al. Stochastic earned duration analysis for project schedule management
Doumpos Robustness analysis in decision aiding, optimization, and analytics
Adegboye et al. Algorithmic trading with directional changes
US11995667B2 (en) Systems and methods for business analytics model scoring and selection
JP7321406B2 (ja) バリデーション方法決定装置およびバリデーション方法決定方法
CN115481803A (zh) 基于行业拥挤度的金融时间序列预测方法、装置及设备
US20190205804A1 (en) Information processing device, information processing method and computer readable medium
JP2016532949A (ja) 従来の予測子の将来的変化を予測するためにある期間にわたって精選され、分析されたデータシグナルから重大変化属性を導出するためのシステム及び方法
CA3160715A1 (en) Systems and methods for business analytics model scoring and selection
KR20220097822A (ko) 비정형 기업 데이터를 이용한 기업성장 예측 시스템
Bao et al. Dynamic financial distress prediction based on Kalman filtering
JP4230890B2 (ja) モデル同定装置,モデル同定プログラム及びモデル同定装置の動作方法
Saif Software Effort Estimation for Successful Software Application Development

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230602

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230602

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230627

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230725

R150 Certificate of patent or registration of utility model

Ref document number: 7321406

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150