JP2021179858A

JP2021179858A - 学習データセット作成支援装置および学習データセット作成支援方法

Info

Publication number: JP2021179858A
Application number: JP2020085448A
Authority: JP
Inventors: 啓伸來間; Hironobu Kuruma; 直人佐藤; Naoto Sato; 誠石川; Makoto Ishikawa; 恭平小山; Kyohei Koyama; 秀人野口; Hideto Noguchi
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2021-11-18
Also published as: US20210357695A1

Abstract

【課題】教師あり機械学習に用いる学習データセットを効率的かつ適宜に洗練可能とする。【解決手段】学習データセット作成支援装置１００において、教師あり機械学習に用いる学習データを正解ラベルとともに複数保持する記憶装置１０１と、前記学習データを記憶装置より順次取得して特徴量ベクトルを抽出する処理と、所定のアルゴリズムにしたがって特徴量ベクトルの追加または削除の少なくともいずれか一つを行う編集処理と、前記編集された特徴量ベクトルから学習データを生成する処理と、を実行する演算装置１０４を含む構成とする。【選択図】図２

Description

本発明は、学習データセット作成支援装置および学習データセット作成支援方法に関する。

機械学習のうち教師あり機械学習では、実世界からデータを収集し、当該データが入力されたときに期待する出力である正解ラベル、を付与した学習データ（訓練データとテストデータ）を作成する。また、上述の訓練データを教師データとして、正解ラベルとデータの特徴との対応をモデルに学習させ、当該モデルにテストデータを与えて学習の精度を評価する。
こうした機械学習における学習データは、上述のモデルの精度を担保する意味で、想定している入力データ空間を適宜にカバーし、適宜なラベルが付与されているものが必要となる。つまり、学習データを適宜に生成することは重要な意義がある。

データの生成に関連する従来技術としては、例えば、与えられたデータに類似するデータを新規に生成するエンコーダ・デコーダを、ニューラルネットワークによって構成する方法（非特許文献１参照）が知られている。

この技術では、エンコーダとデコーダから構成され、エンコーダは与えられたデータセットからデータが持つ隠れ変数を推測してその値の分布をガウス分布に正規化して出力し、デコーダは分布からサンプリングした隠れ変数の値をもとにデータを生成する。

こうした技術によれば、隠れ変数の値をデコーダに入力することで、元のデータに類似する新規のデータを生成することができる。

また、より自然なデータを生成するよう、エンコーダ・デコーダを強化学習（または準強化学習）するための、正解ラベルのない訓練データ生成方法（特許文献１参照）なども提案されている。

この技術においては、デコーダが生成したデータを（一般に複数の）目標について評価し、デコーダの訓練にフィードバックする。こうした技術によれば、与えた目標のもとで有用な新規データを生成できることとなる。

ＶａｒｉａｔｉｏｎａｌＡｕｔｏＥｎｃｏｄｅｒ（ＶＡＥ）Ｋｉｎｇｍａ、Ｄ．Ｐ．、Ｗｅｌｌｉｎｇ、Ｍ．：ＡｕｔｏＥｎｃｏｄｉｎｇＶａｒｉａｔｉｏｎａｌＢａｙｅｓ、ａｒＸｉｖ：１３１２．６１１４ｖ１０（２０１４）

ＷＯ２０１９０６７８３Ａ１

素朴に収集した学習データセットでは学習の進行を制御することが困難であり、意図しない学習が行われる可能性がある。例えば、学習データの欠落、正解ラベルが異なる学習データの不用意な近接、および学習意図とは異なる特徴が優勢、といった問題が生じうる
。
ところが従来技術においては、生成するデータを隠れ変数の値で指定する必要があり、意図した学習を行うことを目的とした学習データ生成の用途には適さない。また、統計量空間（ＳｔｏｃｈａｓｔｉｃＬａｙｅｒ）でデータを分析・編集するしくみを持たず、教師あり機械学習に適合する正解ラベルを持つ学習データの生成が難しいという課題もある。

そこで本発明の目的は、教師あり機械学習に用いる学習データセットを効率的かつ適宜に洗練可能とする技術を提供することにある。

上記課題を解決する本発明の学習データセット作成支援装置は、教師あり機械学習に用いる学習データを正解ラベルとともに複数保持する記憶装置と、
前記学習データを記憶装置より順次取得して特徴量ベクトルを抽出する処理と、所定のアルゴリズムにしたがって特徴量ベクトルの追加または削除の少なくともいずれか一つを行う編集処理と、前記編集された特徴量ベクトルから学習データを生成する処理と、を実行する演算装置、を備えることを特徴とする。

また、本発明の学習データセット作成支援方法は、情報処理装置が、教師あり機械学習に用いる学習データを正解ラベルとともに複数保持する記憶装置を備えて、前記学習データを記憶装置より順次取得して特徴量ベクトルを抽出する処理と、所定のアルゴリズムにしたがって特徴量ベクトルの追加または削除の少なくともいずれか一つを行う編集処理と、前記編集された特徴量ベクトルから学習データを生成する処理と、を実行することを特徴とする。

本発明によれば、教師あり機械学習に用いる学習データセットを効率的かつ適宜に洗練可能となる。

本実施形態の学習データセット作成支援装置の構成例を示す図である本実施形態における学習データセット作成支援装置のハードウェア構成例を示す図である。本実施形態の学習データセット作成支援方法のフロー例を示す図である本実施形態の学習データセット作成支援方法のフロー例を示す図である本実施形態の学習データセット作成支援方法のフロー例を示す図である本実施形態の学習データセット作成支援方法のフロー例を示す図である本実施形態の学習データセット作成支援方法のフロー例を示す図である。本実施形態の学習データセット作成支援方法のフロー例を示す図である本実施形態の学習データセット作成支援方法のフロー例を示す図である。本実施形態の学習データセット作成支援方法のフロー例を示す図である本実施形態の学習データセット作成支援方法のフロー例を示す図である。本実施形態の学習データセット作成支援方法のフロー例を示す図である本実施形態の学習データセット作成支援方法のフロー例を示す図である。本実施形態の学習データセット作成支援方法のフロー例を示す図である本実施形態の学習データセット作成支援方法のフロー例を示す図である。本実施形態の学習データセット作成支援方法のフロー例を示す図である本実施形態の学習データセット作成支援方法のフロー例を示す図である。本実施形態の学習データセット作成支援方法のフロー例を示す図である本実施形態における特徴量ベクトル集積処理に関する説明図である。本実施形態における特徴量ベクトル編集処理に関する説明図である。本実施形態における特徴量ベクトル表示画面の例を示す図である。本実施形態における特徴量ベクトル表示画面上の編集操作例を示す図である。本実施形態における学習データセット洗練に関する説明図である。本実施形態における外れ値テストデータ生成に関する説明図である。本実施形態における連続する学習データ生成に関する説明図である。本実施形態における連続する生成される学習データ例を示す図である

＜＜全体構成＞＞
以下に本発明の実施形態について図面を用いて詳細に説明する。図１は、本実施形態の学習データセット作成支援装置１００の構成例を示す図である。

図１に示す学習データセット作成支援装置１００は、教師あり機械学習に用いる学習データセットを効率的かつ適宜に洗練可能とするコンピュータ装置である。

この学習データセット作成支援装置１００は、入力部１１０、データセット保持部１１１、特徴量ベクトル抽出部１１２、特徴量ベクトル保持部１１３、特徴量ベクトル解析部１１４、特徴量ベクトル編集部１１５、データ生成部１１６、および出力部１１７を備えて、教師あり学習に用いる学習データセット５１の、特徴量空間での分析に基づく洗練を行う。

こうした学習データセット作成支援装置１００は、入力部１１０（また、操作者が操作する所定の端末等）を介して、処理対象となる学習データセット５０の各学習データ（データと正解ラベルの組）を取得し、この各学習データに識別番号を付与してデータセット保持部１１１において保持する。

また、学習データセット作成支援装置１００は、データセット保持部１１１で保持する学習データセット５０の各学習データを特徴量ベクトル抽出部１１２に入力し、特徴量ベクトルを抽出する。この特徴量ベクトル抽出部１１２は、例えば、ニューラルネットワークのエンジンを有しており（或いは外部装置から呼び出して利用可能）、当該エンジンを使った特徴量抽出を行うものとなる。

また、学習データセット作成支援装置１００は、上述のように抽出した特徴量ベクトルのデータを特徴量ベクトル保持部１１３に一旦格納し、特徴量ベクトル解析部１１４（および必要に応じて特徴量ベクトル編集部１１５）の処理対象とする。

学習データセット作成支援装置１００は、特徴量ベクトル解析部１１４により、上述の特徴量ベクトルに関して、その正解ラベルによる集積を実行し、所定の判定値にしたがって削除すべき特徴量ベクトルの特定、および追加すべき特徴量ベクトルの特定を実行する。

また、学習データセット作成支援装置１００は、特徴量ベクトル編集部１１５により、上述の特徴量ベクトル解析部１１４により特定した、削除対象の特徴量ベクトルの削除や、追加すべき特徴量ベクトルの追加といった編集処理を実行し、当該処理の結果を特徴量ベクトル保持部１１３に反映させる。

また、学習データセット作成支援装置１００は、特徴量ベクトル保持部１１３で保持する特徴量ベクトルについて、データ生成部１１６におけるニューラルネットワークのエン
ジンによって学習データを生成する。

また、学習データセット作成支援装置１００は、上述のとおり生成した学習データと正解ラベルをデータセット保持部１１１に格納する。

なお、学習データセット作成支援装置１００は、データセット保持部１１１で更新された学習データセットを評価し、所定の閾値を満たす場合は出力部１１７により機械学習機構２００に出力する。一方、所定の閾値を満たさない場合、上記各処理を繰り返す。

一方、機械学習機構２００は、上述の学習データセット作成支援装置１００から得た学習データセット５１を入力として機械学習を実行し、学習済モデル２１０を得ることとなる。

他方、推論機構２５０は、上述の学習済モデル２１０を得て、これに対して実データたる入力データ２５１を入力し、出力データ２５２を得る。
＜＜ハードウェア構成＞＞
また、本実施形態における学習データセット作成支援装置１００のハードウェア構成は図２に示す如くとなる。すなわち学習データセット作成支援装置１００は、記憶装置１０１、メモリ１０３、演算装置１０４、入力装置１０５、出力装置１０６、および通信装置１０７を備えている。

このうち記憶装置１０１は、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。

また、メモリ１０３は、ＲＡＭなど揮発性記憶素子で構成される。

また、演算装置１０４は、記憶装置１０１に保持されるプログラム１０２をメモリ１０３に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうＣＰＵである。このプログラム１０２は、エンコーダ／デコーダを実装するニューラルネットワークのエンジン１０２１が含まれている。

また、入力装置１０５は、操作者からのキー入力や音声入力を受け付ける、キーボードやマウス、マイクなどの適宜な装置である。

また、出力装置１０６は、演算装置１０４での処理データの表示を行うディスプレイ、スピーカー等の適宜な装置である。

また、通信装置１０７は、適宜なネットワークを介して他装置（例えば、機械学習機構２００など）との通信処理を担うネットワークインターフェイスカードである。

なお、上述のデータセット保持部１１１および特徴量ベクトル保持部１１３は、記憶装置１０１またはメモリ１０３にて実装されるものとする。
＜＜学習データセット作成支援方法：メインフロー＞＞
以下、本実施形態における学習データセット作成支援方法の実際手順について図に基づき説明する。以下で説明する学習データセット作成支援方法に対応する各種動作は、学習データセット作成支援装置１００がメモリ等に読み出して実行するプログラムによって実現される。そして、このプログラムは、以下に説明される各種の動作を行うためのコードから構成されている。

図３は、本実施形態における学習データセット作成支援方法のメインフロー例を示す図
である。このフローが示す各処理の詳細については別途フローにて説明する。よって、本図では処理の概要を示すものとする。

ここではまず、学習データセット作成支援装置１００は、入力部１１０より、学習データセットの入力を受け付けて取得する（ｓ１）。

また、学習データセット作成支援装置１００は、学習データセットの各学習データ（データと正解ラベルの組）に識別番号を付け、データセット保持部１１１に格納する（ｓ２）。

また、学習データセット作成支援装置１００は、学習データセットのデータに関して所定の閾値を満たすように、特徴量ベクトル抽出部１１２とデータ生成部１１６のパラメタを調整する（ｓ３）。

また、学習データセット作成支援装置１００は、パラメタ調整済の特徴量ベクトル抽出部１１２により学習データセットの全ての学習データからＮ次元の特徴量ベクトルを抽出し、特徴量ベクトル保持部１１３に格納する（ｓ４）。

また、学習データセット作成支援装置１００は、特徴量ベクトル解析部１１４により、特徴量ベクトル保持部１１３の正解ラベルが同じ特徴量ベクトルが集積するよう、Ｎ次元の座標軸からｋ個（ｋ≦Ｎ）の座標軸を選出する（ｓ５）。

また、学習データセット作成支援装置１００は、特徴量ベクトル保持部１１３の特徴量ベクトルをｋ次元の特徴量ベクトルに変換する（ｓ６）。

また、学習データセット作成支援装置１００は、特徴量ベクトル編集部１１５により、ｋ次元の特徴量ベクトルを編集する（ｓ７）。

また、学習データセット作成支援装置１００は、上述の編集の結果、特徴量ベクトルのデータ追加が生じるか判定する（ｓ８）。

また、学習データセット作成支援装置１００は、上述の判定の結果、データ追加となった場合（ｓ８：追加）、所定の判定値にしたがって追加する特徴量ベクトルを正解ラベルとともに生成する（ｓ９）。

また、学習データセット作成支援装置１００は、特徴量ベクトル解析部１１４により、追加する特徴量ベクトルをＮ次元に拡張し、これを特徴量ベクトル保持部１１３に格納する（ｓ１０）。

一方、上述の判定の結果、データ追加ではなく削除であった場合（ｓ８：削除）、学習データセット作成支援装置１００は、所定の判定値にしたがって削除する特徴量ベクトルを選び、その識別番号を例えばメモリ１０３に記録する（ｓ１１）。

また、学習データセット作成支援装置１００は、ここまでの処理で編集処理が終了したか、例えば、操作者による指示の有無またはｓ７での編集対象の残り有無に基づき判定し（ｓ１２）、編集終了でなかった場合（ｓ１２：ＮＯ）、処理をｓ７に戻す。

一方、上述の判定の結果、編集終了となった場合（ｓ１２：ＹＥＳ）、学習データセット作成支援装置１００は、ｓ１３に処理を遷移させる。

また、学習データセット作成支援装置１００は、データ生成部１１６により、追加された特徴量ベクトルからデータを生成し、正解ラベルとともにデータセット保持部１１に追加する（ｓ１３）。

また、学習データセット作成支援装置１００は、ｓ１１でメモリ１０３に記録しておいた識別番号の学習データをデータセット保持部１１１から削除する（ｓ１４）。

また、学習データセット作成支援装置１００は、出力部１１７により、データセット保持部１１１から学習データセットを出力し（ｓ１５）、処理を終了する。
＜＜学習データセット作成支援方法：パラメタ調整フロー＞＞
上述のｓ３のパラメタ調整の処理について、図４Ａおよび図４Ｂに基づき説明する。図４Ａは、ニューラルネットワークで構成した場合の特徴量抽出部１１２とデータ生成部１１６のパラメタ調整処理、図４Ｂは、論理プログラムで構成した場合の特徴量抽出部１１２とデータ生成部１１６のパラメタ調整処理、のそれぞれの処理フローを示す図である。

この場合、図４Ａにおいて、学習データセット作成支援装置１００は、入力データセットのデータをエンコーダに、エンコーダの出力をデコーダに入力する（ｓ２０）。

また、学習データセット作成支援装置１００は、入力データセットからエンコーダが生成するＮ次元特徴量の分布とＮ次元ガウス分布の差が減少するようエンコーダのパラメタを調整する（ｓ２１）。

また、学習データセット作成支援装置１００は、Ｎ次元特徴量ベクトルからデコーダが生成するデータと、入力データセット内のデータの間の差が減少するようエンコーダとデコーダのパラメタを調整し（ｓ２２）、処理を終了する。

すなわち、入力データセットを使った強化学習における所定の目標関数値が最小となるよう、ＶａｒｉａｔｉｏｎａｌＡｕｔｏＥｎｃｏｄｅｒＶＡＥ）等の方法により、ネットワークのパラメタを調整するのである。例えば、ＶＡＥを用いる場合、目標関数は、入力データセットからエンコーダが生成するＮ次元特徴量の分布とＮ次元ガウス分布の間の差、および、Ｎ次元特徴量ベクトルからデコーダが生成するデータと、入力データセット内のデータの間の差、となる。

一方、図４Ｂにおいて、学習データセット作成支援装置１００は、入力データセットのデータを構成するｐ個の指標について、全データの平均値を求める（ｓ２５）。

また、学習データセット作成支援装置１００は、ｐ次元の平均値ベクトルがｐ次元座標空間の原点になるよう、データを平行移動する（ｓ２６）。

また、学習データセット作成支援装置１００は、変数ｉを０とし（ｓ２６）、これを後述するｓ３０の実行に応じて順次インクリメントする（ｓ２７）。

また、学習データセット作成支援装置１００は、ｐ次元座標空間を回転し、データと原点の距離の和が最大になる射影軸への回転パラメタを得る（ｓ２８）。

また、学習データセット作成支援装置１００は、ｐ射影軸周りに座標空間を回転し、データの距離の和が最大になる次の射影軸への回転パラメタを得る（ｓ２９）。

上述のインクリメント（ｓ３０）の結果、ｉの値がＮ（次元）となった場合（ｓ３０：ＹＥＳ）、学習データセット作成支援装置１００は、データのｐ個の指標値の組とＮ個の
射影軸への射影値の組の間の変換パラメタを得て（ｓ３１）、処理を終了する。
＜＜学習データセット作成支援方法：次元縮退フロー＞＞
続いて、上述のｓ６における次元縮退の処理について図５Ａに基づき説明する。この次元縮退処理は、Ｎ次元の特徴量ベクトルを、正解ラベルと最も良く対応するｋ次元のベクトルに変換する処理となる。

この場合、学習データセット作成支援装置１００は、処理対象の特徴量ベクトルの座標値を区間［０、１］に正規化する（ｓ３５）。

また、学習データセット作成支援装置１００は、各正解ラベルについて特徴量ベクトルの平均座標値を求める（ｓ３６）。

また、学習データセット作成支援装置１００は、全ての正解ラベルの平均座標値を覆うエンベロープを求める（ｓ３７）。

また、学習データセット作成支援装置１００は、エンベロープの最大幅を表す座標軸をｋ個選び出す（ｓ３８）。

また、学習データセット作成支援装置１００は、Ｎ次元の特徴量ベクトルをｋ次元の特徴量ベクトルに変換し（ｓ３９）、処理を終了する。
＜＜学習データセット作成支援方法：特徴量ベクトル正規化フロー＞＞
上述の次元縮退処理フローのうち、ｓ３５の処理の詳細について図５Ｂに基づき説明する。この場合、学習データセット作成支援装置１００は、変数ｉを１とし（ｓ４０）、これを後述するｓ４５の判定結果に応じて順次インクリメントする（ｓ４６）。

続いて、学習データセット作成支援装置１００は、全ての特徴量ベクトルのｉ座標値の最小値ｍｉｎ（ｉ）を求める（ｓ４１）。

また、学習データセット作成支援装置１００は、全ての特徴量ベクトルのｉ座標値の最大値ｍａｘ（ｉ）を求める（ｓ４２）。

また、学習データセット作成支援装置１００は、全ての特徴量ベクトルのｉ座標値についてｓ４４を行う（ｓ４３）。

また、学習データセット作成支援装置１００は、ｉ座標値：＝（ｉ座標値−ｍｉｎ（ｉ））／（ｍａｘ（ｉ）−ｍｉｎ（ｉ））、を実行する（ｓ４４）。

また、学習データセット作成支援装置１００は、上述の変数ｉの値がＮ（次元）となった場合（ｓ４５：ＹＥＳ）、処理を終了する。
＜＜学習データセット作成支援方法：平均座標値算出フロー＞＞
続いて、情報処理装置次元縮退処理フローのうち、ｓ３６の処理の詳細について図５Ｃに基づき説明する。この場合、学習データセット作成支援装置１００は、正解ラベルを１つ選び、Ｌとする（ｓ５０）。

また、学習データセット作成支援装置１００は、変数ｉを１とし（ｓ５１）、これを後述するｓ５７の判定結果に応じて順次インクリメントする（ｓ５８）。

続いて、学習データセット作成支援装置１００は、配列変数ａｖｅｒａｇｅ（Ｌ、ｉ）を０に初期化定する（ｓ５２）。

また、学習データセット作成支援装置１００は、正解ラベルがＬの特徴量ベクトルを一つ選択する（ｓ５３）。

また、学習データセット作成支援装置１００は、ａｖｅｒａｇｅ（Ｌ、ｉ）に特徴量ベクトルの座標軸ｉの座標値を加算する（ｓ５４）。

続いて、学習データセット作成支援装置１００は、最後の特徴量ベクトルか判定し（ｓ５５）、最後の特徴量ベクトルではない場合（ｓ５５：ＮＯ）、処理をｓ５３に戻す。

一方、上述の判定の結果、最後の特徴量ベクトルであった場合（ｓ５５：ＹＥＳ）、学習データセット作成支援装置１００は、ａｖｅｒａｇｅ（Ｌ、ｉ）を正解ラベルＬの特徴量ベクトルの数で割って、正解ラベルＬの特徴量ベクトル平均値のｉ座標値とする（ｓ５６）。

また、学習データセット作成支援装置１００は、上述の変数ｉがＮである場合（ｓ５７：ＹＥＳ）、最後の正解ラベルか否か判定する（ｓ５９）。

上述の判定の結果、最後の正解ラベルでない場合（ｓ５９：ＮＯ）、学習データセット作成支援装置１００は、処理をｓ５０に戻す。一方、最後の正解ラベルである場合（ｓ５９：ＹＥＳ）、学習データセット作成支援装置１００は、処理を終了する。
＜＜学習データセット作成支援方法：平均座標値エンベロープ算出フロー＞＞
続いて、情報処理装置次元縮退処理フローのうち、ｓ３７の処理の詳細について図５Ｄに基づき説明する。この場合、学習データセット作成支援装置１００は、変数ｉを１とし（ｓ５１）、これを後述するｓ６２の判定結果に応じて順次インクリメントする（ｓ６３）。

続いて、学習データセット作成支援装置１００は、ｒａｎｇｅ（ｉ）：＝ｍａｘ（ｉ）−ｍｉｎ（ｉ）、を算定する（ｓ６１）。

また、学習データセット作成支援装置１００は、上述の変数ｉがＮに達した場合（ｓ６２：ＹＥＳ）、エンベロープ幅ｒａｎｇｅ（ｉ）の値が大きい座標軸ｉをｋ個選び（ｓ６４）、処理を終了する。
＜＜学習データセット作成支援方法：座標軸選出フロー＞＞
続いて、情報処理装置次元縮退処理フローのうち、ｓ３８の処理の詳細について図５Ｅに基づき説明する。この場合、学習データセット作成支援装置１００は、正解ラベルを１つ選び、Ｌとする（ｓ６５）。

また、学習データセット作成支援装置１００は、上述のラベルＬの平均座標値を、エンベロープの最小座標値および最大座標値の初期値とし（ｓ６６）、残りの正解ラベルの平均座標値について以後の処理を実行する。

すなわち、学習データセット作成支援装置１００は、次の正解ラベルＬを選択し（ｓ６７）、変数ｉ（座標軸）に１をセットする（ｓ６８）。

また、学習データセット作成支援装置１００は、変数ｘに、上述のｓ６７で選択したラベルＬの平均座標値の座標軸ｉの値をセットし（ｓ６９）、この変数ｘが、エンベロープの最小座標値の座標軸ｉの値よりも小さいか判定する（ｓ７０）。

上述の判定の結果、変数ｘが、エンベロープの最小座標値の座標軸ｉの値よりも小さい場合（ｓ７０：ＹＥＳ）、学習データセット作成支援装置１００は、最小座標値の座標軸
ｉの値を、変数ｘの値で更新し（ｓ７１）、処理をｓ７４に進める。

一方、上述の判定の結果、変数ｘが、エンベロープの最小座標値の座標軸ｉの値よりも小さくない場合（ｓ７０：ＮＯ）、学習データセット作成支援装置１００は、エンベロープの最大座標値の座標軸ｉの値よりも、上述の変数ｘが大きいか判定する（ｓ７２）。

上述の判定の結果、エンベロープの最大座標値の座標軸ｉの値よりも、上述の変数ｘが大きい場合（ｓ７２：ＹＥＳ）、学習データセット作成支援装置１００は、最大座標値の座標軸ｉの値を、変数ｘの値で更新し（ｓ７３）、処理をｓ７４に進める。

一方、上述の判定の結果、エンベロープの最大座標値の座標軸ｉの値よりも、上述の変数ｘが大きくない場合（ｓ７２：ＮＯ）、学習データセット作成支援装置１００は、処理をｓ７４に進める。

また、学習データセット作成支援装置１００は、上述の変数ｉがＮか否か判定し（ｓ７４）、この判定の結果、変数ｉがＮであった場合（ｓ７４：ＹＥＳ）、処理をｓ７６に進める。

続いて、学習データセット作成支援装置１００は、正解ラベルの終わりに達したか判定し（ｓ７６）、終わりに達していない場合（ｓ７６：ＮＯ）、処理をｓ６７に戻す。

他方、上述の判定の結果、終わりに達していた場合（ｓ７６：ＹＥＳ）、学習データセット作成支援装置１００は、処理を終了する。
＜＜学習データセット作成支援方法：特徴ベクトル変換フロー＞＞
続いて、情報処理装置次元縮退処理フローのうち、ｓ３９の処理の詳細について図５Ｆに基づき説明する。この場合、学習データセット作成支援装置１００は、処理対象の特徴量ベクトルから、特徴量ベクトルを一つ選択する（ｓ７７）。

続いて、学習データセット作成支援装置１００は、ｋ個の座標軸以外の座標値をマスクし、ｋ次元のベクトルを生成する（ｓ７８）。

続いて、学習データセット作成支援装置１００は、処理対象のうち最後の特徴量ベクトルについて上述のｓ７８を実行したか判定する（ｓ７９）。

上述の判定の結果、ｓ７８の対象が最後の特徴量ベクトルであった場合（ｓ７８：ＹＥＳ）、学習データセット作成支援装置１００は処理を終了する。
＜＜学習データセット作成支援方法：特徴量ベクトル集積フロー＞＞
続いて、図３のメインフローにおけるｓ５に関連した特徴量ベクトル集積処理のフローについて、図６Ａおよび図６Ｂ、図１２に基づき説明する。

この場合、学習データセット作成支援装置１００は、正解ラベルを１つ選び、Ｌとする（ｓ８０）。

また、学習データセット作成支援装置１００は、上述のラベルＬの特徴量ベクトル全てに未処理マークを付与し（ｓ８１）、そのうち１つを選択する（ｓ８２）。

続いて、学習データセット作成支援装置１００は、ｓ８２で選択した特徴量ベクトルの未処理マークを処理済みに変更し（ｓ８３）、全ての座標軸ｉについて所定の距離ｒ以内の正解ラベルＬの特徴量ベクトルを探索する（ｓ８４）。

上述の探索の結果、対応する特徴量ベクトルが存在しなかった場合（ｓ８５：ＮＯ）、学習データセット作成支援装置１００は、処理をｓ８２に戻す。

一方、上述の探索の結果、対応する特徴量ベクトルが存在した場合（ｓ８５：ＹＥＳ）、学習データセット作成支援装置１００は、図１２の座標空間１０００で例示するように、ｓ８２で選択しているラベルＬの特徴量ベクトルを中心に、辺の長さが２ｒの多角形（図１２の例では矩形）を座標空間上で作成する（ｓ８６）。

続いて、学習データセット作成支援装置１００は、ｓ８４の探索で見つかった特徴量ベクトル全てについて、処理Ｘを実行する（ｓ８７）。

また、学習データセット作成支援装置１００は、全ての正解ラベルについて上述の処理を実行しているか判定し（ｓ８８）、未完であれば（ｓ８８：ＮＯ）、処理をｓ８０に戻す。

他方、上述の判定の結果、全ての正解ラベルについて処理を完了している場合（ｓ８８：ＹＥＳ）、学習データセット作成支援装置１００は、処理を終了する。

なお、上述の処理Ｘのフローは図６Ｂに示す。この処理Ｘを実行する学習データセット作成支援装置１００は、上述の処理マークが未処理か判定し（ｓ９０）、未処理ではないすなわち処理済みである場合（ｓ９０：ＮＯ）、処理を終了する。

一方、上述の判定の結果、処理マークが未処理である場合（ｓ９０：ＹＥＳ）、学習データセット作成支援装置１００は、当該特徴量ベクトルの処理マークを処理済みに変更する（ｓ９１）。

続いて、学習データセット作成支援装置１００は、処理対象の特徴量ベクトルを中心に、辺の長さが２ｒの多角形を座標空間上で作成する（ｓ９２）。

また、学習データセット作成支援装置１００は、距離ｒ以内の正解ラベルＬの特徴量ベクトル全てに対して、再帰的に処理Ｘを実行し（ｓ９３）、処理を終了する。
＜＜学習データセット作成支援方法：パラメタ調整およびデータ生成フロー＞＞
続いて、生成符号を介した、特徴量抽出部１１２とデータ生成部１１６のパラメタ調整処理の例と、データ生成例について図７、図８に基づき説明する。

この場合、学習データセット作成支援装置１００は、生成符号とその分布の入力を、例えば操作者から受け付ける（ｓ１００）。この生成符号の例としては、例えば、０．１２、０．４５、１．５６、．．．．、０．３３、といった値のセットを想定できる。また、生成符号の分布の例としては、全ての生成符号について、特徴量ベクトルの対応が一様といったものを想定できる。

また、学習データセット作成支援装置１００は、データセットを特徴量ベクトル抽出部１１２に入力する（ｓ１０１）。

続いて、学習データセット作成支援装置１００は、上述のデータセットから特徴量ベクトル抽出部１１２が生成する特徴量ベクトルと、それに最も近い生成符号の差が減少するよう特徴量ベクトル抽出部１１２のパラメタを調整する（ｓ１０２）。

また、学習データセット作成支援装置１００は、生成符号に与えられた分布と生成符号に対応付けた特徴量ベクトルの分布の差が減少するよう、特徴量ベクトル抽出部１１２の
パラメタを調整する（ｓ１０３）。

続いて、学習データセット作成支援装置１００は、特徴量ベクトルに対応付けられた生成符号をデータ生成部１１６に入力する（ｓ１０４）。

また、学習データセット作成支援装置１００は、生成符号からデータ生成部１１６が生成するデータとｓ１０１のデータセット内のデータとの間の差が減少するよう特徴量ベクトル抽出部１１２とデータ生成部１１６のパラメタを調整する（ｓ１０５）。

続いて、学習データセット作成支援装置１００は、ｓ１０５における調整の結果、生成符号からデータ生成部１１６が生成するデータとｓ１０１のデータセット内のデータとの間の差が最小となった場合（ｓ１０６：ＹＥＳ）、処理を終了する。

一方、データ生成部１１６は、図８で例示するように、データを生成する特徴量ベクトルに最も近い生成符号を選択し（ｓ１１０）、当該生成符号からデータを生成し（ｓ１１１）、処理を終了する。
＜＜学習データセット作成支援方法：特徴量ベクトル表示フロー＞＞
続いて、特徴量ベクトルの表示処理について図９、図１３に基づき説明する。この表示処理は、例えば、図３のフローにおけるｓ７の編集処理に際し、操作者に向けて行われる形態を想定できる。

学習データセット作成支援装置１００は、正解ラベルに基づく次元縮退処理（上述の図５Ａのフロー）で選択したｋ個の座標軸から、操作者の指定により、ないしはエンベロープ幅の大きい順にｄ個の特徴量ベクトルを選択する（ｓ１２０）。

また、学習データセット作成支援装置１００は、ｋ次元の特徴量ベクトルとその近傍（例：一辺２ｒの矩形範囲）について、上記ｄ個の座標軸以外の座標軸をマスクし、ｄ次元の特徴量ベクトルとｄ次元の多角形を得る（ｓ１２１）。

続いて、学習データセット作成支援装置１００は、上述の特徴量ベクトルに正解ラベルを示す記号を付与し、座標平面上にプロットする（ｓ１２２）。

また、学習データセット作成支援装置１００は、各特徴量ベクトルの近傍を示す多角形を表示面にプロットし（ｓ１２３）、処理を終了する。
＜＜学習データセット作成支援方法：特徴量ベクトル編集フロー＞＞
続いて、操作者の指示に従った特徴量ベクトル編集処理の例について、図１０および図１４、図１５に基づき説明する。また、こうした編集すなわち学習データの洗練の具体的なイメージを、図１６、図１７に例示する。

まず、学習データセット作成支援装置１００は、操作者の指示が特徴量ベクトルの追加か否か判定する（ｓ１２５）。

上述の判定の結果、当該指示が追加であった場合（ｓ１２５：追加）、学習データセット作成支援装置１００は、操作者のメニュー選択により正解ラベルを得る（ｓ１２６）。図１６の例では、正解ラベル「１」および「７」に関して、それぞれの学習データ（数字「１」の画像、および数字「７」の画像）が対応している状況を示している。

続いて、学習データセット作成支援装置１００は、操作者が画面上で指定した座標から、ｄ次元の特徴量ベクトルを生成し表示する（ｓ１２７）。ここで生成し表示する特徴量ベクトルの例としては、図１５における点ａ（同一ラベルの近傍をつなぐ特徴量ベクトル
）、点ｄ（近傍の境界上の特徴量ベクトル）が想定できる。

図１６の例では、正解ラベル「１」の近傍の集積における、特徴量ベクトルの密度が薄い領域に特徴量ベクトルを追加するケースを示している。また、図１７の例では、正解ラベル「１」の近傍の集積における境界上に特徴量ベクトルを追加するケースを示している。

また、学習データセット作成支援装置１００は、生成した特徴量ベクトルを、同一ラベルで距離の近い特徴量ベクトルを使って補間し、ｋ次元の特徴量ベクトルに拡張し（ｓ１２８）、処理を終了する。

一方、上述のｓ１２５での判定の結果、当該指示が削除であった場合（ｓ１２５：削除）、学習データセット作成支援装置１００は、操作者が画面上で指定した座標から、削除するｄ次元の特徴量ベクトルを得る（ｓ１２９）。

ここで削除する特徴量ベクトルの例としては、図１５における点ｂ（近傍の内にある他ラベルの特徴量ベクトル）、点ｃ（近傍外に孤立した特徴量ベクトル）、点ｅ（近傍内の過剰な特徴量ベクトル）が想定できる。図１６の例では、正解ラベル「７」の近傍の集積における、正解ラベル「１」の特徴量ベクトルを削除するケースを示している。

また、学習データセット作成支援装置１００は、削除対象特徴量ベクトルがｄ次元で縮退表示されている場合には、表示座標軸を変えるよう操作者に促すメッセージを通知する（ｓ１３０）。

続いて、学習データセット作成支援装置１００は、特徴量ベクトルの識別番号を、例えばメモリ１０３に記録する（ｓ１３１）。

また、学習データセット作成支援装置１００は、削除対象特徴量ベクトルと近傍を画面から削除する（ｓ１３２）。

続いて、学習データセット作成支援装置１００は、特徴量ベクトルの集積処理により、近傍を再計算し（ｓ１３３）、処理を終了する。
＜＜学習データセット作成支援方法：連続する学習データ生成フロー＞＞
続いて、連続する学習データの生成フローについて図１１、図１８、および図１９に基づき説明する。

この場合、学習データセット作成支援装置１００は、操作者が画面１４００（図１８）上で引いた線分１４０１の座標値を所与の間隔で検出する（ｓ１４０）。

また、学習データセット作成支援装置１００は、上述の線分１４０１の起点１４０２の座標値から終点１４０３の座標値まで順に以下を行う（ｓ１４１）。

続いて、学習データセット作成支援装置１００は、上述の座標値からｄ次元の特徴量ベクトルを生成する（ｓ１４２）。

また、学習データセット作成支援装置１００は、上述の座標値が他の特徴量ベクトルの近傍内かチェックする（ｓ１４３）。

続いて、学習データセット作成支援装置１００は、上述のチェックの結果が、近傍内であったか否か判定する（ｓ１４４）。

また、学習データセット作成支援装置１００は、上述の判定の結果、近傍内でなかった場合（ｓ１４４：ＮＯ）、最も近い近傍の正解ラベルを、生成した特徴量ベクトルの正解ラベルとし（ｓ１４５）、処理をｓ１５０に遷移する。

一方、上述の判定の結果、近傍内であった場合（ｓ１４４：ＹＥＳ）、学習データセット作成支援装置１００は、複数の正解ラベルの近傍が重なっているかチェックする（ｓ１４６）。

また、学習データセット作成支援装置１００は、上述のチェックの結果が、複数の正解ラベルの近傍が重なっているか判定する（ｓ１４７）。

上述の判定の結果、複数の正解ラベルの近傍が重なっている場合（ｓ１４７：ＹＥＳ）、学習データセット作成支援装置１００は、最も密度の高い近傍の正解ラベルを、生成した特徴量ベクトルの正解ラベルとする（ｓ１４８）。

一方、上述の判定の結果、複数の正解ラベルの近傍が重なっていない場合（ｓ１４７：ＮＯ）、学習データセット作成支援装置１００は、近傍の正解ラベルを、生成した特徴量ベクトルの正解ラベルとする（ｓ１４９）。

続いて、学習データセット作成支援装置１００は、生成した特徴量ベクトルを、同一正解ラベルで距離の近い特徴量ベクトルを使って補間し、ｋ次元の特徴量ベクトルに拡張し（ｓ１５０）、処理を終了する。こうして生成される学習データの例は、図１９で例示するように、正解ラベル「１」に関しては、１らしいイメージから他のラベル（例：７）に連続的に近づくような遷移を見せる学習データのセットとなる。同様に、正解ラベル「７」に関しては、７らしいイメージから他のラベル（例：１）に連続的に近づくような遷移を見せる学習データのセットとなる。

以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。

こうした本実施形態においては、エンコーダで抽出した特徴量ベクトルを正解ラベルに基づいて集積することで、正解ラベルに対して学習意図とは異なる特徴を持つデータを検出し、正解ラベルに対する学習データの過不足を検出し、特徴が類似するにもかかわらず正解ラベルが異なるデータを検出することができる。

また、正解ラベルを基準に特徴量ベクトルを削除することにより、上記で検出した正解ラベルに対して不適切な特徴を持つデータを除去すること、上記で検出した正解ラベルに対して冗長な学習データを除去すること、上記で検出した特徴が類似し正解ラベルが異なるデータを整理すること、が可能となる。

また、特徴量ベクトルを正解ラベルとともに生成し、デコーダを使ってデータを生成することにより、上記で検出した正解ラベルに対して不足する学習データを補足すること、正解ラベルの集積の境界にある極端な学習データを補足すること、操作者が指定した正解ラベルと特徴量を持つ学習データを補足すること、が可能となる。

すなわち、教師あり機械学習に用いる学習データセットを効率的かつ適宜に洗練可能となる。

本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態
における学習データセット作成支援装置において、前記演算装置は、前記編集処理に際し、前記抽出した特徴量ベクトルを正解ラベルに基づいて解析する処理を実行し、前記解析の結果にしたがって特徴量ベクトルの追加または削除の少なくともいずれか一つを行うものである、としてもよい。

これによれば、特徴量ベクトルの追加、削除の処理がより精度良好なものとなる。ひいては、教師あり機械学習に用いる学習データセットをより効率的かつ適宜に洗練可能となる。

また、本実施形態の学習データセット作成支援装置において、前記演算装置は、前記特徴量ベクトルの解析に際し、正解ラベルが同一かつベクトル間の距離が所定の閾値以下である特徴量ベクトルを集積するものである、としてもよい。

これによれば、以後の編集の対象となりうる好適な特徴量ベクトル群を効率的に抽出することが可能である。ひいては、教師あり機械学習に用いる学習データセットをより効率的かつ適宜に洗練可能となる。

また、本実施形態の学習データセット作成支援装置において、前記演算装置は、前記編集処理に際し、前記集積を経た特徴量ベクトル群において、ベクトル密度が所定の閾値より低い領域への特徴量ベクトル追加を実行するものである、としてもよい。

これによれば、入力データ空間における学習データの欠落を回避可能となる。ひいては、教師あり機械学習に用いる学習データセットをより効率的かつ適宜に洗練可能となる。

また、本実施形態の学習データセット作成支援装置において、前記演算装置は、前記編集処理に際し、前記集積を経た特徴量ベクトル群からの距離が所定の閾値以下で、かつ正解ラベルが異なる特徴量ベクトルの削除を実行するものである、としてもよい。

これによれば、学習モデルの頑健性に悪影響を及ぼしうる特徴量ベクトルを削除することが可能となる。ひいては、教師あり機械学習に用いる学習データセットをより効率的かつ適宜に洗練可能となる。

また、本実施形態の学習データセット作成支援装置において、前記演算装置は、前記編集処理に際し、前記集積を経た特徴量ベクトル群の縁辺への特徴量ベクトルの追加を実行するものである、としてもよい。

これによれば、学習モデルの頑健性を高める特徴量ベクトルの追加が可能となる。ひいては、教師あり機械学習に用いる学習データセットをより効率的かつ適宜に洗練可能となる。

また、本実施形態の学習データセット作成支援装置において、前記演算装置は、前記編集処理に際し、前記集積を経た特徴量ベクトル群におけるベクトル密度が所定の閾値より高いまたは低い部分にあるベクトルの削除をさらに実行するものである、としてもよい。

これによれば、過度に偏った学習結果（意図と異なるもの）につながりうる学習データの生成を回避可能となる。ひいては、教師あり機械学習に用いる学習データセットをより効率的かつ適宜に洗練可能となる。

また、本実施形態の学習データセット作成支援装置において、前記演算装置は、前記学習データから抽出した特徴量ベクトルを、特徴量ベクトル空間の距離に基づいて評価し、
当該評価の結果を、前記特徴量ベクトルの抽出処理におけるパラメタにフィードバックする処理をさらに実行するものである、としてもよい。

これによれば、エンコーダにおける処理精度を向上可能となる。ひいては、教師あり機械学習に用いる学習データセットをより効率的かつ適宜に洗練可能となる。

また、本実施形態の学習データセット作成支援装置において、前記演算装置は、前記特徴量ベクトルから生成した学習データを、学習データ空間の距離に基づいて評価し、当該評価の結果を、前記学習データの生成処理におけるパラメタにフィードバックする処理をさらに実行するものである、としてもよい。

これによれば、デコーダにおける処理精度を向上可能となる。ひいては、教師あり機械学習に用いる学習データセットをより効率的かつ適宜に洗練可能となる。

また、本実施形態の学習データセット作成支援装置において、前記演算装置は、前記学習データの生成に際し、前記特徴量ベクトルを所定の生成符号のいずれかに対応付けるとともに、当該対応付けの分布を操作する処理をさらに実行するものである、としてもよい。

これによれば、学習モデルにおける頑健性を向上させ、出力結果の精度向上を図ることができる。ひいては、教師あり機械学習に用いる学習データセットをより効率的かつ適宜に洗練可能となる。

また、本実施形態の学習データセット作成支援装置において、前記演算装置は、前記編集処理に際し、多次元の中から操作者が指定した特徴量又は所定の閾値により選択した特徴量に対応した所定次元の座標軸を用いて、特徴量ベクトルを表示する処理をさらに実行するものである、としてもよい。

これによれば、多次元の特徴量ベクトルを、操作者が認識可能でかつ学習対象として有為な次元に変換可能となる。ひいては、教師あり機械学習に用いる学習データセットをより効率的かつ適宜に洗練可能となる。

また、本実施形態の学習データセット作成支援装置において、前記演算装置は、前記編集処理に際し、操作者の指示にしたがって特徴量ベクトルを編集する処理をさらに実行するものである、としてもよい。

これによれば、知見ある操作者による特徴量ベクトルの編集が可能となる。ひいては、教師あり機械学習に用いる学習データセットをより効率的かつ適宜に洗練可能となる。

また、本実施形態の学習データセット作成支援装置において、前記演算装置は、前記特徴量ベクトルの抽出、前記特徴量ベクトルの解析、前記特徴量ベクトルの編集処理、および前記学習データの生成処理、の一連の処理を、所定の指標に基づく特徴量ベクトルの評価値が、予め定めた閾値に達するまで繰り返すものである、としてもよい。

これによれば、学習データセット作成を、特徴量ベクトルの洗練の観点で効率化することが可能となる。ひいては、教師あり機械学習に用いる学習データセットをより効率的かつ適宜に洗練可能となる。

５０、５１学習データセット
１００学習データセット作成支援装置
１０１記憶装置
１０２プログラム
１０３メモリ
１０４演算装置
１０５入力装置
１０６出力装置
１０７通信装置
１１０入力部
１１１データセット保持部
１１２特徴量ベクトル抽出部
１１３特徴量ベクトル保持部
１１４特徴量ベクトル解析部
１１５特徴量ベクトル編集部
１１６データ生成部
１１７出力部
２００機械学習機構
２１０学習済モデル
２５０推論機構
２５１入力データ
２５２出力データ

Claims

教師あり機械学習に用いる学習データを正解ラベルとともに複数保持する記憶装置と、
前記学習データを記憶装置より順次取得して特徴量ベクトルを抽出する処理と、所定のアルゴリズムにしたがって特徴量ベクトルの追加または削除の少なくともいずれか一つを行う編集処理と、前記編集された特徴量ベクトルから学習データを生成する処理と、を実行する演算装置、
を備えることを特徴とする学習データセット作成支援装置。
前記演算装置は、
前記編集処理に際し、前記抽出した特徴量ベクトルを正解ラベルに基づいて解析する処理を実行し、前記解析の結果にしたがって特徴量ベクトルの追加または削除の少なくともいずれか一つを行うものである、
ことを特徴とする請求項１に記載の学習データセット作成支援装置。
前記演算装置は、
前記特徴量ベクトルの解析に際し、正解ラベルが同一かつベクトル間の距離が所定の閾値以下である特徴量ベクトルを集積するものである、
ことを特徴とする請求項２に記載の学習データセット作成支援装置。
前記演算装置は、
前記編集処理に際し、前記集積を経た特徴量ベクトル群において、ベクトル密度が所定の閾値より低い領域への特徴量ベクトル追加を実行するものである、
ことを特徴とする請求項３に記載の学習データセット作成支援装置。
前記演算装置は、
前記編集処理に際し、前記集積を経た特徴量ベクトル群からの距離が所定の閾値以下で、かつ正解ラベルが異なる特徴量ベクトルの削除を実行するものである、
ことを特徴とする請求項３に記載の学習データセット作成支援装置。
前記演算装置は、
前記編集処理に際し、前記集積を経た特徴量ベクトル群の縁辺への特徴量ベクトルの追加を実行するものである、
ことを特徴とする請求項３に記載の学習データセット作成支援装置。
前記演算装置は、
前記編集処理に際し、前記集積を経た特徴量ベクトル群におけるベクトル密度が所定の閾値より高いまたは低い部分にあるベクトルの削除をさらに実行するものである、
ことを特徴とする請求項３に記載の学習データセット作成支援装置。
前記演算装置は、
前記学習データから抽出した特徴量ベクトルを、特徴量ベクトル空間の距離に基づいて評価し、当該評価の結果を、前記特徴量ベクトルの抽出処理におけるパラメタにフィードバックする処理をさらに実行するものである、
ことを特徴とする請求項１に記載の学習データセット作成支援装置。
前記演算装置は、
前記特徴量ベクトルから生成した学習データを、学習データ空間の距離に基づいて評価し、当該評価の結果を、前記学習データの生成処理におけるパラメタにフィードバックする処理をさらに実行するものである、
ことを特徴とする請求項１に記載の学習データセット作成支援装置。
前記演算装置は、
前記学習データの生成に際し、前記特徴量ベクトルを所定の生成符号のいずれかに対応付けるとともに、当該対応付けの分布を操作する処理をさらに実行するものである、
ことを特徴とする請求項１に記載の学習データセット作成支援装置。
前記演算装置は、
前記編集処理に際し、多次元の中から操作者が指定した特徴量又は所定の閾値により選択した特徴量に対応した所定次元の座標軸を用いて、特徴量ベクトルを表示する処理をさらに実行するものである、
ことを特徴とする請求項１に記載の学習データセット作成支援装置。
前記演算装置は、
前記編集処理に際し、操作者の指示にしたがって特徴量ベクトルを編集する処理をさらに実行するものである、
ことを特徴とする請求項１に記載の学習データセット作成支援装置。
前記演算装置は、
前記特徴量ベクトルの抽出、前記特徴量ベクトルの編集処理、および前記学習データの生成処理、の一連の処理を、所定の指標に基づく特徴量ベクトルの評価値が、予め定めた閾値に達するまで繰り返すものである、
ことを特徴とする請求項１に記載の学習データセット作成支援装置。
情報処理装置が、
教師あり機械学習に用いる学習データを正解ラベルとともに複数保持する記憶装置を備えて、
前記学習データを記憶装置より順次取得して特徴量ベクトルを抽出する処理と、所定のアルゴリズムにしたがって特徴量ベクトルの追加または削除の少なくともいずれか一つを行う編集処理と、前記編集された特徴量ベクトルから学習データを生成する処理と、
を実行することを特徴とする学習データセット作成支援方法。