JP2021179858A - 学習データセット作成支援装置および学習データセット作成支援方法 - Google Patents

学習データセット作成支援装置および学習データセット作成支援方法 Download PDF

Info

Publication number
JP2021179858A
JP2021179858A JP2020085448A JP2020085448A JP2021179858A JP 2021179858 A JP2021179858 A JP 2021179858A JP 2020085448 A JP2020085448 A JP 2020085448A JP 2020085448 A JP2020085448 A JP 2020085448A JP 2021179858 A JP2021179858 A JP 2021179858A
Authority
JP
Japan
Prior art keywords
learning data
data set
creation support
support device
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020085448A
Other languages
English (en)
Inventor
啓伸 來間
Hironobu Kuruma
直人 佐藤
Naoto Sato
誠 石川
Makoto Ishikawa
恭平 小山
Kyohei Koyama
秀人 野口
Hideto Noguchi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020085448A priority Critical patent/JP2021179858A/ja
Priority to US17/201,035 priority patent/US20210357695A1/en
Publication of JP2021179858A publication Critical patent/JP2021179858A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】教師あり機械学習に用いる学習データセットを効率的かつ適宜に洗練可能とする。【解決手段】学習データセット作成支援装置100において、教師あり機械学習に用いる学習データを正解ラベルとともに複数保持する記憶装置101と、前記学習データを記憶装置より順次取得して特徴量ベクトルを抽出する処理と、所定のアルゴリズムにしたがって特徴量ベクトルの追加または削除の少なくともいずれか一つを行う編集処理と、前記編集された特徴量ベクトルから学習データを生成する処理と、を実行する演算装置104を含む構成とする。【選択図】図2

Description

本発明は、学習データセット作成支援装置および学習データセット作成支援方法に関する。
機械学習のうち教師あり機械学習では、実世界からデータを収集し、当該データが入力されたときに期待する出力である正解ラベル、を付与した学習データ(訓練データとテストデータ)を作成する。また、上述の訓練データを教師データとして、正解ラベルとデータの特徴との対応をモデルに学習させ、当該モデルにテストデータを与えて学習の精度を評価する。
こうした機械学習における学習データは、上述のモデルの精度を担保する意味で、想定している入力データ空間を適宜にカバーし、適宜なラベルが付与されているものが必要となる。つまり、学習データを適宜に生成することは重要な意義がある。
データの生成に関連する従来技術としては、例えば、与えられたデータに類似するデータを新規に生成するエンコーダ・デコーダを、ニューラルネットワークによって構成する方法(非特許文献1参照)が知られている。
この技術では、エンコーダとデコーダから構成され、エンコーダは与えられたデータセットからデータが持つ隠れ変数を推測してその値の分布をガウス分布に正規化して出力し、デコーダは分布からサンプリングした隠れ変数の値をもとにデータを生成する。
こうした技術によれば、隠れ変数の値をデコーダに入力することで、元のデータに類似する新規のデータを生成することができる。
また、より自然なデータを生成するよう、エンコーダ・デコーダを強化学習(または準強化学習)するための、正解ラベルのない訓練データ生成方法(特許文献1参照)なども提案されている。
この技術においては、デコーダが生成したデータを(一般に複数の)目標について評価し、デコーダの訓練にフィードバックする。こうした技術によれば、与えた目標のもとで有用な新規データを生成できることとなる。
Variational Auto Encoder(VAE) Kingma、D.P.、Welling、M.:Auto Encoding Variational Bayes、arXiv:1312.6114v10(2014)
WO201906783A1
素朴に収集した学習データセットでは学習の進行を制御することが困難であり、意図しない学習が行われる可能性がある。例えば、学習データの欠落、正解ラベルが異なる学習データの不用意な近接、および学習意図とは異なる特徴が優勢、といった問題が生じうる

ところが従来技術においては、生成するデータを隠れ変数の値で指定する必要があり、意図した学習を行うことを目的とした学習データ生成の用途には適さない。また、統計量空間(Stochastic Layer)でデータを分析・編集するしくみを持たず、教師あり機械学習に適合する正解ラベルを持つ学習データの生成が難しいという課題もある。
そこで本発明の目的は、教師あり機械学習に用いる学習データセットを効率的かつ適宜に洗練可能とする技術を提供することにある。
上記課題を解決する本発明の学習データセット作成支援装置は、教師あり機械学習に用いる学習データを正解ラベルとともに複数保持する記憶装置と、
前記学習データを記憶装置より順次取得して特徴量ベクトルを抽出する処理と、所定のアルゴリズムにしたがって特徴量ベクトルの追加または削除の少なくともいずれか一つを行う編集処理と、前記編集された特徴量ベクトルから学習データを生成する処理と、を実行する演算装置、を備えることを特徴とする。
また、本発明の学習データセット作成支援方法は、情報処理装置が、教師あり機械学習に用いる学習データを正解ラベルとともに複数保持する記憶装置を備えて、前記学習データを記憶装置より順次取得して特徴量ベクトルを抽出する処理と、所定のアルゴリズムにしたがって特徴量ベクトルの追加または削除の少なくともいずれか一つを行う編集処理と、前記編集された特徴量ベクトルから学習データを生成する処理と、を実行することを特徴とする。
本発明によれば、教師あり機械学習に用いる学習データセットを効率的かつ適宜に洗練可能となる。
本実施形態の学習データセット作成支援装置の構成例を示す図である 本実施形態における学習データセット作成支援装置のハードウェア構成例を示す図である。 本実施形態の学習データセット作成支援方法のフロー例を示す図である 本実施形態の学習データセット作成支援方法のフロー例を示す図である 本実施形態の学習データセット作成支援方法のフロー例を示す図である 本実施形態の学習データセット作成支援方法のフロー例を示す図である 本実施形態の学習データセット作成支援方法のフロー例を示す図である。 本実施形態の学習データセット作成支援方法のフロー例を示す図である 本実施形態の学習データセット作成支援方法のフロー例を示す図である。 本実施形態の学習データセット作成支援方法のフロー例を示す図である 本実施形態の学習データセット作成支援方法のフロー例を示す図である。 本実施形態の学習データセット作成支援方法のフロー例を示す図である 本実施形態の学習データセット作成支援方法のフロー例を示す図である。 本実施形態の学習データセット作成支援方法のフロー例を示す図である 本実施形態の学習データセット作成支援方法のフロー例を示す図である。 本実施形態の学習データセット作成支援方法のフロー例を示す図である 本実施形態の学習データセット作成支援方法のフロー例を示す図である。 本実施形態の学習データセット作成支援方法のフロー例を示す図である 本実施形態における特徴量ベクトル集積処理に関する説明図である。 本実施形態における特徴量ベクトル編集処理に関する説明図である。 本実施形態における特徴量ベクトル表示画面の例を示す図である。 本実施形態における特徴量ベクトル表示画面上の編集操作例を示す図である。 本実施形態における学習データセット洗練に関する説明図である。 本実施形態における外れ値テストデータ生成に関する説明図である。 本実施形態における連続する学習データ生成に関する説明図である。 本実施形態における連続する生成される学習データ例を示す図である
<<全体構成>>
以下に本発明の実施形態について図面を用いて詳細に説明する。図1は、本実施形態の学習データセット作成支援装置100の構成例を示す図である。
図1に示す学習データセット作成支援装置100は、教師あり機械学習に用いる学習データセットを効率的かつ適宜に洗練可能とするコンピュータ装置である。
この学習データセット作成支援装置100は、入力部110、データセット保持部111、特徴量ベクトル抽出部112、特徴量ベクトル保持部113、特徴量ベクトル解析部114、特徴量ベクトル編集部115、データ生成部116、および出力部117を備えて、教師あり学習に用いる学習データセット51の、特徴量空間での分析に基づく洗練を行う。
こうした学習データセット作成支援装置100は、入力部110(また、操作者が操作する所定の端末等)を介して、処理対象となる学習データセット50の各学習データ(データと正解ラベルの組)を取得し、この各学習データに識別番号を付与してデータセット保持部111において保持する。
また、学習データセット作成支援装置100は、データセット保持部111で保持する学習データセット50の各学習データを特徴量ベクトル抽出部112に入力し、特徴量ベクトルを抽出する。この特徴量ベクトル抽出部112は、例えば、ニューラルネットワークのエンジンを有しており(或いは外部装置から呼び出して利用可能)、当該エンジンを使った特徴量抽出を行うものとなる。
また、学習データセット作成支援装置100は、上述のように抽出した特徴量ベクトルのデータを特徴量ベクトル保持部113に一旦格納し、特徴量ベクトル解析部114(および必要に応じて特徴量ベクトル編集部115)の処理対象とする。
学習データセット作成支援装置100は、特徴量ベクトル解析部114により、上述の特徴量ベクトルに関して、その正解ラベルによる集積を実行し、所定の判定値にしたがって削除すべき特徴量ベクトルの特定、および追加すべき特徴量ベクトルの特定を実行する。
また、学習データセット作成支援装置100は、特徴量ベクトル編集部115により、上述の特徴量ベクトル解析部114により特定した、削除対象の特徴量ベクトルの削除や、追加すべき特徴量ベクトルの追加といった編集処理を実行し、当該処理の結果を特徴量ベクトル保持部113に反映させる。
また、学習データセット作成支援装置100は、特徴量ベクトル保持部113で保持する特徴量ベクトルについて、データ生成部116におけるニューラルネットワークのエン
ジンによって学習データを生成する。
また、学習データセット作成支援装置100は、上述のとおり生成した学習データと正解ラベルをデータセット保持部111に格納する。
なお、学習データセット作成支援装置100は、データセット保持部111で更新された学習データセットを評価し、所定の閾値を満たす場合は出力部117により機械学習機構200に出力する。一方、所定の閾値を満たさない場合、上記各処理を繰り返す。
一方、機械学習機構200は、上述の学習データセット作成支援装置100から得た学習データセット51を入力として機械学習を実行し、学習済モデル210を得ることとなる。
他方、推論機構250は、上述の学習済モデル210を得て、これに対して実データたる入力データ251を入力し、出力データ252を得る。
<<ハードウェア構成>>
また、本実施形態における学習データセット作成支援装置100のハードウェア構成は図2に示す如くとなる。すなわち学習データセット作成支援装置100は、記憶装置101、メモリ103、演算装置104、入力装置105、出力装置106、および通信装置107を備えている。
このうち記憶装置101は、SSD(Solid State Drive)やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。
また、メモリ103は、RAMなど揮発性記憶素子で構成される。
また、演算装置104は、記憶装置101に保持されるプログラム102をメモリ103に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうCPUである。このプログラム102は、エンコーダ/デコーダを実装するニューラルネットワークのエンジン1021が含まれている。
また、入力装置105は、操作者からのキー入力や音声入力を受け付ける、キーボードやマウス、マイクなどの適宜な装置である。
また、出力装置106は、演算装置104での処理データの表示を行うディスプレイ、スピーカー等の適宜な装置である。
また、通信装置107は、適宜なネットワークを介して他装置(例えば、機械学習機構200など)との通信処理を担うネットワークインターフェイスカードである。
なお、上述のデータセット保持部111および特徴量ベクトル保持部113は、記憶装置101またはメモリ103にて実装されるものとする。
<<学習データセット作成支援方法:メインフロー>>
以下、本実施形態における学習データセット作成支援方法の実際手順について図に基づき説明する。以下で説明する学習データセット作成支援方法に対応する各種動作は、学習データセット作成支援装置100がメモリ等に読み出して実行するプログラムによって実現される。そして、このプログラムは、以下に説明される各種の動作を行うためのコードから構成されている。
図3は、本実施形態における学習データセット作成支援方法のメインフロー例を示す図
である。このフローが示す各処理の詳細については別途フローにて説明する。よって、本図では処理の概要を示すものとする。
ここではまず、学習データセット作成支援装置100は、入力部110より、学習データセットの入力を受け付けて取得する(s1)。
また、学習データセット作成支援装置100は、学習データセットの各学習データ(データと正解ラベルの組)に識別番号を付け、データセット保持部111に格納する(s2)。
また、学習データセット作成支援装置100は、学習データセットのデータに関して所定の閾値を満たすように、特徴量ベクトル抽出部112とデータ生成部116のパラメタを調整する(s3)。
また、学習データセット作成支援装置100は、パラメタ調整済の特徴量ベクトル抽出部112により学習データセットの全ての学習データからN次元の特徴量ベクトルを抽出し、特徴量ベクトル保持部113に格納する(s4)。
また、学習データセット作成支援装置100は、特徴量ベクトル解析部114により、特徴量ベクトル保持部113の正解ラベルが同じ特徴量ベクトルが集積するよう、N次元の座標軸からk個(k≦N)の座標軸を選出する(s5)。
また、学習データセット作成支援装置100は、特徴量ベクトル保持部113の特徴量ベクトルをk次元の特徴量ベクトルに変換する(s6)。
また、学習データセット作成支援装置100は、特徴量ベクトル編集部115により、k次元の特徴量ベクトルを編集する(s7)。
また、学習データセット作成支援装置100は、上述の編集の結果、特徴量ベクトルのデータ追加が生じるか判定する(s8)。
また、学習データセット作成支援装置100は、上述の判定の結果、データ追加となった場合(s8:追加)、所定の判定値にしたがって追加する特徴量ベクトルを正解ラベルとともに生成する(s9)。
また、学習データセット作成支援装置100は、特徴量ベクトル解析部114により、追加する特徴量ベクトルをN次元に拡張し、これを特徴量ベクトル保持部113に格納する(s10)。
一方、上述の判定の結果、データ追加ではなく削除であった場合(s8:削除)、学習データセット作成支援装置100は、所定の判定値にしたがって削除する特徴量ベクトルを選び、その識別番号を例えばメモリ103に記録する(s11)。
また、学習データセット作成支援装置100は、ここまでの処理で編集処理が終了したか、例えば、操作者による指示の有無またはs7での編集対象の残り有無に基づき判定し(s12)、編集終了でなかった場合(s12:NO)、処理をs7に戻す。
一方、上述の判定の結果、編集終了となった場合(s12:YES)、学習データセット作成支援装置100は、s13に処理を遷移させる。
また、学習データセット作成支援装置100は、データ生成部116により、追加された特徴量ベクトルからデータを生成し、正解ラベルとともにデータセット保持部11に追加する(s13)。
また、学習データセット作成支援装置100は、s11でメモリ103に記録しておいた識別番号の学習データをデータセット保持部111から削除する(s14)。
また、学習データセット作成支援装置100は、出力部117により、データセット保持部111から学習データセットを出力し(s15)、処理を終了する。
<<学習データセット作成支援方法:パラメタ調整フロー>>
上述のs3のパラメタ調整の処理について、図4Aおよび図4Bに基づき説明する。図4Aは、ニューラルネットワークで構成した場合の特徴量抽出部112とデータ生成部116のパラメタ調整処理、図4Bは、論理プログラムで構成した場合の特徴量抽出部112とデータ生成部116のパラメタ調整処理、のそれぞれの処理フローを示す図である。
この場合、図4Aにおいて、学習データセット作成支援装置100は、入力データセットのデータをエンコーダに、エンコーダの出力をデコーダに入力する(s20)。
また、学習データセット作成支援装置100は、入力データセットからエンコーダが生成するN次元特徴量の分布とN次元ガウス分布の差が減少するようエンコーダのパラメタを調整する(s21)。
また、学習データセット作成支援装置100は、N次元特徴量ベクトルからデコーダが生成するデータと、入力データセット内のデータの間の差が減少するようエンコーダとデコーダのパラメタを調整し(s22)、処理を終了する。
すなわち、入力データセットを使った強化学習における所定の目標関数値が最小となるよう、Variational AutoEncoder VAE )等の方法により、ネットワークのパラメタを調整するのである。例えば、VAEを用いる場合、目標関数は、入力データセットからエンコーダが生成するN次元特徴量の分布とN次元ガウス分布の間の差、および、N次元特徴量ベクトルからデコーダが生成するデータと、入力データセット内のデータの間の差、となる。
一方、図4Bにおいて、学習データセット作成支援装置100は、入力データセットのデータを構成するp個の指標について、全データの平均値を求める(s25)。
また、学習データセット作成支援装置100は、p次元の平均値ベクトルがp次元座標空間の原点になるよう、データを平行移動する(s26)。
また、学習データセット作成支援装置100は、変数iを0とし(s26)、これを後述するs30の実行に応じて順次インクリメントする(s27)。
また、学習データセット作成支援装置100は、p次元座標空間を回転し、データと原点の距離の和が最大になる射影軸への回転パラメタを得る(s28)。
また、学習データセット作成支援装置100は、p射影軸周りに座標空間を回転し、データの距離の和が最大になる次の射影軸への回転パラメタを得る(s29)。
上述のインクリメント(s30)の結果、iの値がN(次元)となった場合(s30:YES)、学習データセット作成支援装置100は、データのp個の指標値の組とN個の
射影軸への射影値の組の間の変換パラメタを得て(s31)、処理を終了する。
<<学習データセット作成支援方法:次元縮退フロー>>
続いて、上述のs6における次元縮退の処理について図5Aに基づき説明する。この次元縮退処理は、N次元の特徴量ベクトルを、正解ラベルと最も良く対応するk次元のベクトルに変換する処理となる。
この場合、学習データセット作成支援装置100は、処理対象の特徴量ベクトルの座標値を区間[0、1]に正規化する(s35)。
また、学習データセット作成支援装置100は、各正解ラベルについて特徴量ベクトルの平均座標値を求める(s36)。
また、学習データセット作成支援装置100は、全ての正解ラベルの平均座標値を覆うエンベロープを求める(s37)。
また、学習データセット作成支援装置100は、エンベロープの最大幅を表す座標軸をk個選び出す(s38)。
また、学習データセット作成支援装置100は、N次元の特徴量ベクトルをk次元の特徴量ベクトルに変換し(s39)、処理を終了する。
<<学習データセット作成支援方法:特徴量ベクトル正規化フロー>>
上述の次元縮退処理フローのうち、s35の処理の詳細について図5Bに基づき説明する。この場合、学習データセット作成支援装置100は、変数iを1とし(s40)、これを後述するs45の判定結果に応じて順次インクリメントする(s46)。
続いて、学習データセット作成支援装置100は、全ての特徴量ベクトルのi座標値の最小値min(i)を求める(s41)。
また、学習データセット作成支援装置100は、全ての特徴量ベクトルのi座標値の最大値max(i)を求める(s42)。
また、学習データセット作成支援装置100は、全ての特徴量ベクトルのi座標値についてs44を行う(s43)。
また、学習データセット作成支援装置100は、i座標値:=(i座標値−min(i))/(max(i)−min(i))、を実行する(s44)。
また、学習データセット作成支援装置100は、上述の変数iの値がN(次元)となった場合(s45:YES)、処理を終了する。
<<学習データセット作成支援方法:平均座標値算出フロー>>
続いて、情報処理装置次元縮退処理フローのうち、s36の処理の詳細について図5Cに基づき説明する。この場合、学習データセット作成支援装置100は、正解ラベルを1つ選び、Lとする(s50)。
また、学習データセット作成支援装置100は、変数iを1とし(s51)、これを後述するs57の判定結果に応じて順次インクリメントする(s58)。
続いて、学習データセット作成支援装置100は、配列変数average(L、i)を0に初期化定する(s52)。
また、学習データセット作成支援装置100は、正解ラベルがLの特徴量ベクトルを一つ選択する(s53)。
また、学習データセット作成支援装置100は、average(L、i)に特徴量ベクトルの座標軸iの座標値を加算する(s54)。
続いて、学習データセット作成支援装置100は、最後の特徴量ベクトルか判定し(s55)、最後の特徴量ベクトルではない場合(s55:NO)、処理をs53に戻す。
一方、上述の判定の結果、最後の特徴量ベクトルであった場合(s55:YES)、学習データセット作成支援装置100は、average(L、i)を正解ラベルLの特徴量ベクトルの数で割って、正解ラベルLの特徴量ベクトル平均値のi座標値とする(s56)。
また、学習データセット作成支援装置100は、上述の変数iがNである場合(s57:YES)、最後の正解ラベルか否か判定する(s59)。
上述の判定の結果、最後の正解ラベルでない場合(s59:NO)、学習データセット作成支援装置100は、処理をs50に戻す。一方、最後の正解ラベルである場合(s59:YES)、学習データセット作成支援装置100は、処理を終了する。
<<学習データセット作成支援方法:平均座標値エンベロープ算出フロー>>
続いて、情報処理装置次元縮退処理フローのうち、s37の処理の詳細について図5Dに基づき説明する。この場合、学習データセット作成支援装置100は、変数iを1とし(s51)、これを後述するs62の判定結果に応じて順次インクリメントする(s63)。
続いて、学習データセット作成支援装置100は、range(i):=max(i)−min(i)、を算定する(s61)。
また、学習データセット作成支援装置100は、上述の変数iがNに達した場合(s62:YES)、エンベロープ幅range(i)の値が大きい座標軸iをk個選び(s64)、処理を終了する。
<<学習データセット作成支援方法:座標軸選出フロー>>
続いて、情報処理装置次元縮退処理フローのうち、s38の処理の詳細について図5Eに基づき説明する。この場合、学習データセット作成支援装置100は、正解ラベルを1つ選び、Lとする(s65)。
また、学習データセット作成支援装置100は、上述のラベルLの平均座標値を、エンベロープの最小座標値および最大座標値の初期値とし(s66)、残りの正解ラベルの平均座標値について以後の処理を実行する。
すなわち、学習データセット作成支援装置100は、次の正解ラベルLを選択し(s67)、変数i(座標軸)に1をセットする(s68)。
また、学習データセット作成支援装置100は、変数xに、上述のs67で選択したラベルLの平均座標値の座標軸iの値をセットし(s69)、この変数xが、エンベロープの最小座標値の座標軸iの値よりも小さいか判定する(s70)。
上述の判定の結果、変数xが、エンベロープの最小座標値の座標軸iの値よりも小さい場合(s70:YES)、学習データセット作成支援装置100は、最小座標値の座標軸
iの値を、変数xの値で更新し(s71)、処理をs74に進める。
一方、上述の判定の結果、変数xが、エンベロープの最小座標値の座標軸iの値よりも小さくない場合(s70:NO)、学習データセット作成支援装置100は、エンベロープの最大座標値の座標軸iの値よりも、上述の変数xが大きいか判定する(s72)。
上述の判定の結果、エンベロープの最大座標値の座標軸iの値よりも、上述の変数xが大きい場合(s72:YES)、学習データセット作成支援装置100は、最大座標値の座標軸iの値を、変数xの値で更新し(s73)、処理をs74に進める。
一方、上述の判定の結果、エンベロープの最大座標値の座標軸iの値よりも、上述の変数xが大きくない場合(s72:NO)、学習データセット作成支援装置100は、処理をs74に進める。
また、学習データセット作成支援装置100は、上述の変数iがNか否か判定し(s74)、この判定の結果、変数iがNであった場合(s74:YES)、処理をs76に進める。
続いて、学習データセット作成支援装置100は、正解ラベルの終わりに達したか判定し(s76)、終わりに達していない場合(s76:NO)、処理をs67に戻す。
他方、上述の判定の結果、終わりに達していた場合(s76:YES)、学習データセット作成支援装置100は、処理を終了する。
<<学習データセット作成支援方法:特徴ベクトル変換フロー>>
続いて、情報処理装置次元縮退処理フローのうち、s39の処理の詳細について図5Fに基づき説明する。この場合、学習データセット作成支援装置100は、処理対象の特徴量ベクトルから、特徴量ベクトルを一つ選択する(s77)。
続いて、学習データセット作成支援装置100は、k個の座標軸以外の座標値をマスクし、k次元のベクトルを生成する(s78)。
続いて、学習データセット作成支援装置100は、処理対象のうち最後の特徴量ベクトルについて上述のs78を実行したか判定する(s79)。
上述の判定の結果、s78の対象が最後の特徴量ベクトルであった場合(s78:YES)、学習データセット作成支援装置100は処理を終了する。
<<学習データセット作成支援方法:特徴量ベクトル集積フロー>>
続いて、図3のメインフローにおけるs5に関連した特徴量ベクトル集積処理のフローについて、図6Aおよび図6B、図12に基づき説明する。
この場合、学習データセット作成支援装置100は、正解ラベルを1つ選び、Lとする(s80)。
また、学習データセット作成支援装置100は、上述のラベルLの特徴量ベクトル全てに未処理マークを付与し(s81)、そのうち1つを選択する(s82)。
続いて、学習データセット作成支援装置100は、s82で選択した特徴量ベクトルの未処理マークを処理済みに変更し(s83)、全ての座標軸iについて所定の距離r以内の正解ラベルLの特徴量ベクトルを探索する(s84)。
上述の探索の結果、対応する特徴量ベクトルが存在しなかった場合(s85:NO)、学習データセット作成支援装置100は、処理をs82に戻す。
一方、上述の探索の結果、対応する特徴量ベクトルが存在した場合(s85:YES)、学習データセット作成支援装置100は、図12の座標空間1000で例示するように、s82で選択しているラベルLの特徴量ベクトルを中心に、辺の長さが2rの多角形(図12の例では矩形)を座標空間上で作成する(s86)。
続いて、学習データセット作成支援装置100は、s84の探索で見つかった特徴量ベクトル全てについて、処理Xを実行する(s87)。
また、学習データセット作成支援装置100は、全ての正解ラベルについて上述の処理を実行しているか判定し(s88)、未完であれば(s88:NO)、処理をs80に戻す。
他方、上述の判定の結果、全ての正解ラベルについて処理を完了している場合(s88:YES)、学習データセット作成支援装置100は、処理を終了する。
なお、上述の処理Xのフローは図6Bに示す。この処理Xを実行する学習データセット作成支援装置100は、上述の処理マークが未処理か判定し(s90)、未処理ではないすなわち処理済みである場合(s90:NO)、処理を終了する。
一方、上述の判定の結果、処理マークが未処理である場合(s90:YES)、学習データセット作成支援装置100は、当該特徴量ベクトルの処理マークを処理済みに変更する(s91)。
続いて、学習データセット作成支援装置100は、処理対象の特徴量ベクトルを中心に、辺の長さが2rの多角形を座標空間上で作成する(s92)。
また、学習データセット作成支援装置100は、距離r以内の正解ラベルLの特徴量ベクトル全てに対して、再帰的に処理Xを実行し(s93)、処理を終了する。
<<学習データセット作成支援方法:パラメタ調整およびデータ生成フロー>>
続いて、生成符号を介した、特徴量抽出部112とデータ生成部116のパラメタ調整処理の例と、データ生成例について図7、図8に基づき説明する。
この場合、学習データセット作成支援装置100は、生成符号とその分布の入力を、例えば操作者から受け付ける(s100)。この生成符号の例としては、例えば、0.12、0.45、1.56、....、0.33、といった値のセットを想定できる。また、生成符号の分布の例としては、全ての生成符号について、特徴量ベクトルの対応が一様といったものを想定できる。
また、学習データセット作成支援装置100は、データセットを特徴量ベクトル抽出部112に入力する(s101)。
続いて、学習データセット作成支援装置100は、上述のデータセットから特徴量ベクトル抽出部112が生成する特徴量ベクトルと、それに最も近い生成符号の差が減少するよう特徴量ベクトル抽出部112のパラメタを調整する(s102)。
また、学習データセット作成支援装置100は、生成符号に与えられた分布と生成符号に対応付けた特徴量ベクトルの分布の差が減少するよう、特徴量ベクトル抽出部112の
パラメタを調整する(s103)。
続いて、学習データセット作成支援装置100は、特徴量ベクトルに対応付けられた生成符号をデータ生成部116に入力する(s104)。
また、学習データセット作成支援装置100は、生成符号からデータ生成部116が生成するデータとs101のデータセット内のデータとの間の差が減少するよう特徴量ベクトル抽出部112とデータ生成部116のパラメタを調整する(s105)。
続いて、学習データセット作成支援装置100は、s105における調整の結果、生成符号からデータ生成部116が生成するデータとs101のデータセット内のデータとの間の差が最小となった場合(s106:YES)、処理を終了する。
一方、データ生成部116は、図8で例示するように、データを生成する特徴量ベクトルに最も近い生成符号を選択し(s110)、当該生成符号からデータを生成し(s111)、処理を終了する。
<<学習データセット作成支援方法:特徴量ベクトル表示フロー>>
続いて、特徴量ベクトルの表示処理について図9、図13に基づき説明する。この表示処理は、例えば、図3のフローにおけるs7の編集処理に際し、操作者に向けて行われる形態を想定できる。
学習データセット作成支援装置100は、正解ラベルに基づく次元縮退処理(上述の図5Aのフロー)で選択したk個の座標軸から、操作者の指定により、ないしはエンベロープ幅の大きい順にd個の特徴量ベクトルを選択する(s120)。
また、学習データセット作成支援装置100は、k次元の特徴量ベクトルとその近傍(例:一辺2rの矩形範囲)について、上記d個の座標軸以外の座標軸をマスクし、d次元の特徴量ベクトルとd次元の多角形を得る(s121)。
続いて、学習データセット作成支援装置100は、上述の特徴量ベクトルに正解ラベルを示す記号を付与し、座標平面上にプロットする(s122)。
また、学習データセット作成支援装置100は、各特徴量ベクトルの近傍を示す多角形を表示面にプロットし(s123)、処理を終了する。
<<学習データセット作成支援方法:特徴量ベクトル編集フロー>>
続いて、操作者の指示に従った特徴量ベクトル編集処理の例について、図10および図14、図15に基づき説明する。また、こうした編集すなわち学習データの洗練の具体的なイメージを、図16、図17に例示する。
まず、学習データセット作成支援装置100は、操作者の指示が特徴量ベクトルの追加か否か判定する(s125)。
上述の判定の結果、当該指示が追加であった場合(s125:追加)、学習データセット作成支援装置100は、操作者のメニュー選択により正解ラベルを得る(s126)。図16の例では、正解ラベル「1」および「7」に関して、それぞれの学習データ(数字「1」の画像、および数字「7」の画像)が対応している状況を示している。
続いて、学習データセット作成支援装置100は、操作者が画面上で指定した座標から、d次元の特徴量ベクトルを生成し表示する(s127)。ここで生成し表示する特徴量ベクトルの例としては、図15における点a(同一ラベルの近傍をつなぐ特徴量ベクトル
)、点d(近傍の境界上の特徴量ベクトル)が想定できる。
図16の例では、正解ラベル「1」の近傍の集積における、特徴量ベクトルの密度が薄い領域に特徴量ベクトルを追加するケースを示している。また、図17の例では、正解ラベル「1」の近傍の集積における境界上に特徴量ベクトルを追加するケースを示している。
また、学習データセット作成支援装置100は、生成した特徴量ベクトルを、同一ラベルで距離の近い特徴量ベクトルを使って補間し、k次元の特徴量ベクトルに拡張し(s128)、処理を終了する。
一方、上述のs125での判定の結果、当該指示が削除であった場合(s125:削除)、学習データセット作成支援装置100は、操作者が画面上で指定した座標から、削除するd次元の特徴量ベクトルを得る(s129)。
ここで削除する特徴量ベクトルの例としては、図15における点b(近傍の内にある他ラベルの特徴量ベクトル)、点c(近傍外に孤立した特徴量ベクトル)、点e(近傍内の過剰な特徴量ベクトル)が想定できる。図16の例では、正解ラベル「7」の近傍の集積における、正解ラベル「1」の特徴量ベクトルを削除するケースを示している。
また、学習データセット作成支援装置100は、削除対象特徴量ベクトルがd次元で縮退表示されている場合には、表示座標軸を変えるよう操作者に促すメッセージを通知する(s130)。
続いて、学習データセット作成支援装置100は、特徴量ベクトルの識別番号を、例えばメモリ103に記録する(s131)。
また、学習データセット作成支援装置100は、削除対象特徴量ベクトルと近傍を画面から削除する(s132)。
続いて、学習データセット作成支援装置100は、特徴量ベクトルの集積処理により、近傍を再計算し(s133)、処理を終了する。
<<学習データセット作成支援方法:連続する学習データ生成フロー>>
続いて、連続する学習データの生成フローについて図11、図18、および図19に基づき説明する。
この場合、学習データセット作成支援装置100は、操作者が画面1400(図18)上で引いた線分1401の座標値を所与の間隔で検出する(s140)。
また、学習データセット作成支援装置100は、上述の線分1401の起点1402の座標値から終点1403の座標値まで順に以下を行う(s141)。
続いて、学習データセット作成支援装置100は、上述の座標値からd次元の特徴量ベクトルを生成する(s142)。
また、学習データセット作成支援装置100は、上述の座標値が他の特徴量ベクトルの近傍内かチェックする(s143)。
続いて、学習データセット作成支援装置100は、上述のチェックの結果が、近傍内であったか否か判定する(s144)。
また、学習データセット作成支援装置100は、上述の判定の結果、近傍内でなかった場合(s144:NO)、最も近い近傍の正解ラベルを、生成した特徴量ベクトルの正解ラベルとし(s145)、処理をs150に遷移する。
一方、上述の判定の結果、近傍内であった場合(s144:YES)、学習データセット作成支援装置100は、複数の正解ラベルの近傍が重なっているかチェックする(s146)。
また、学習データセット作成支援装置100は、上述のチェックの結果が、複数の正解ラベルの近傍が重なっているか判定する(s147)。
上述の判定の結果、複数の正解ラベルの近傍が重なっている場合(s147:YES)、学習データセット作成支援装置100は、最も密度の高い近傍の正解ラベルを、生成した特徴量ベクトルの正解ラベルとする(s148)。
一方、上述の判定の結果、複数の正解ラベルの近傍が重なっていない場合(s147:NO)、学習データセット作成支援装置100は、近傍の正解ラベルを、生成した特徴量ベクトルの正解ラベルとする(s149)。
続いて、学習データセット作成支援装置100は、生成した特徴量ベクトルを、同一正解ラベルで距離の近い特徴量ベクトルを使って補間し、k次元の特徴量ベクトルに拡張し(s150)、処理を終了する。こうして生成される学習データの例は、図19で例示するように、正解ラベル「1」に関しては、1らしいイメージから他のラベル(例:7)に連続的に近づくような遷移を見せる学習データのセットとなる。同様に、正解ラベル「7」に関しては、7らしいイメージから他のラベル(例:1)に連続的に近づくような遷移を見せる学習データのセットとなる。
以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。
こうした本実施形態においては、エンコーダで抽出した特徴量ベクトルを正解ラベルに基づいて集積することで、正解ラベルに対して学習意図とは異なる特徴を持つデータを検出し、正解ラベルに対する学習データの過不足を検出し、特徴が類似するにもかかわらず正解ラベルが異なるデータを検出することができる。
また、正解ラベルを基準に特徴量ベクトルを削除することにより、上記で検出した正解ラベルに対して不適切な特徴を持つデータを除去すること、上記で検出した正解ラベルに対して冗長な学習データを除去すること、上記で検出した特徴が類似し正解ラベルが異なるデータを整理すること、が可能となる。
また、特徴量ベクトルを正解ラベルとともに生成し、デコーダを使ってデータを生成することにより、上記で検出した正解ラベルに対して不足する学習データを補足すること、正解ラベルの集積の境界にある極端な学習データを補足すること、操作者が指定した正解ラベルと特徴量を持つ学習データを補足すること、が可能となる。
すなわち、教師あり機械学習に用いる学習データセットを効率的かつ適宜に洗練可能となる。
本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態
における学習データセット作成支援装置において、前記演算装置は、前記編集処理に際し、前記抽出した特徴量ベクトルを正解ラベルに基づいて解析する処理を実行し、前記解析の結果にしたがって特徴量ベクトルの追加または削除の少なくともいずれか一つを行うものである、としてもよい。
これによれば、特徴量ベクトルの追加、削除の処理がより精度良好なものとなる。ひいては、教師あり機械学習に用いる学習データセットをより効率的かつ適宜に洗練可能となる。
また、本実施形態の学習データセット作成支援装置において、前記演算装置は、前記特徴量ベクトルの解析に際し、正解ラベルが同一かつベクトル間の距離が所定の閾値以下である特徴量ベクトルを集積するものである、としてもよい。
これによれば、以後の編集の対象となりうる好適な特徴量ベクトル群を効率的に抽出することが可能である。ひいては、教師あり機械学習に用いる学習データセットをより効率的かつ適宜に洗練可能となる。
また、本実施形態の学習データセット作成支援装置において、前記演算装置は、前記編集処理に際し、前記集積を経た特徴量ベクトル群において、ベクトル密度が所定の閾値より低い領域への特徴量ベクトル追加を実行するものである、としてもよい。
これによれば、入力データ空間における学習データの欠落を回避可能となる。ひいては、教師あり機械学習に用いる学習データセットをより効率的かつ適宜に洗練可能となる。
また、本実施形態の学習データセット作成支援装置において、前記演算装置は、前記編集処理に際し、前記集積を経た特徴量ベクトル群からの距離が所定の閾値以下で、かつ正解ラベルが異なる特徴量ベクトルの削除を実行するものである、としてもよい。
これによれば、学習モデルの頑健性に悪影響を及ぼしうる特徴量ベクトルを削除することが可能となる。ひいては、教師あり機械学習に用いる学習データセットをより効率的かつ適宜に洗練可能となる。
また、本実施形態の学習データセット作成支援装置において、前記演算装置は、前記編集処理に際し、前記集積を経た特徴量ベクトル群の縁辺への特徴量ベクトルの追加を実行するものである、としてもよい。
これによれば、学習モデルの頑健性を高める特徴量ベクトルの追加が可能となる。ひいては、教師あり機械学習に用いる学習データセットをより効率的かつ適宜に洗練可能となる。
また、本実施形態の学習データセット作成支援装置において、前記演算装置は、前記編集処理に際し、前記集積を経た特徴量ベクトル群におけるベクトル密度が所定の閾値より高いまたは低い部分にあるベクトルの削除をさらに実行するものである、としてもよい。
これによれば、過度に偏った学習結果(意図と異なるもの)につながりうる学習データの生成を回避可能となる。ひいては、教師あり機械学習に用いる学習データセットをより効率的かつ適宜に洗練可能となる。
また、本実施形態の学習データセット作成支援装置において、前記演算装置は、前記学習データから抽出した特徴量ベクトルを、特徴量ベクトル空間の距離に基づいて評価し、
当該評価の結果を、前記特徴量ベクトルの抽出処理におけるパラメタにフィードバックする処理をさらに実行するものである、としてもよい。
これによれば、エンコーダにおける処理精度を向上可能となる。ひいては、教師あり機械学習に用いる学習データセットをより効率的かつ適宜に洗練可能となる。
また、本実施形態の学習データセット作成支援装置において、前記演算装置は、前記特徴量ベクトルから生成した学習データを、学習データ空間の距離に基づいて評価し、当該評価の結果を、前記学習データの生成処理におけるパラメタにフィードバックする処理をさらに実行するものである、としてもよい。
これによれば、デコーダにおける処理精度を向上可能となる。ひいては、教師あり機械学習に用いる学習データセットをより効率的かつ適宜に洗練可能となる。
また、本実施形態の学習データセット作成支援装置において、前記演算装置は、前記学習データの生成に際し、前記特徴量ベクトルを所定の生成符号のいずれかに対応付けるとともに、当該対応付けの分布を操作する処理をさらに実行するものである、としてもよい。
これによれば、学習モデルにおける頑健性を向上させ、出力結果の精度向上を図ることができる。ひいては、教師あり機械学習に用いる学習データセットをより効率的かつ適宜に洗練可能となる。
また、本実施形態の学習データセット作成支援装置において、前記演算装置は、前記編集処理に際し、多次元の中から操作者が指定した特徴量又は所定の閾値により選択した特徴量に対応した所定次元の座標軸を用いて、特徴量ベクトルを表示する処理をさらに実行するものである、としてもよい。
これによれば、多次元の特徴量ベクトルを、操作者が認識可能でかつ学習対象として有為な次元に変換可能となる。ひいては、教師あり機械学習に用いる学習データセットをより効率的かつ適宜に洗練可能となる。
また、本実施形態の学習データセット作成支援装置において、前記演算装置は、前記編集処理に際し、操作者の指示にしたがって特徴量ベクトルを編集する処理をさらに実行するものである、としてもよい。
これによれば、知見ある操作者による特徴量ベクトルの編集が可能となる。ひいては、教師あり機械学習に用いる学習データセットをより効率的かつ適宜に洗練可能となる。
また、本実施形態の学習データセット作成支援装置において、前記演算装置は、前記特徴量ベクトルの抽出、前記特徴量ベクトルの解析、前記特徴量ベクトルの編集処理、および前記学習データの生成処理、の一連の処理を、所定の指標に基づく特徴量ベクトルの評価値が、予め定めた閾値に達するまで繰り返すものである、としてもよい。
これによれば、学習データセット作成を、特徴量ベクトルの洗練の観点で効率化することが可能となる。ひいては、教師あり機械学習に用いる学習データセットをより効率的かつ適宜に洗練可能となる。
50、51 学習データセット
100 学習データセット作成支援装置
101 記憶装置
102 プログラム
103 メモリ
104 演算装置
105 入力装置
106 出力装置
107 通信装置
110 入力部
111 データセット保持部
112 特徴量ベクトル抽出部
113 特徴量ベクトル保持部
114 特徴量ベクトル解析部
115 特徴量ベクトル編集部
116 データ生成部
117 出力部
200 機械学習機構
210 学習済モデル
250 推論機構
251 入力データ
252 出力データ

Claims (14)

  1. 教師あり機械学習に用いる学習データを正解ラベルとともに複数保持する記憶装置と、
    前記学習データを記憶装置より順次取得して特徴量ベクトルを抽出する処理と、所定のアルゴリズムにしたがって特徴量ベクトルの追加または削除の少なくともいずれか一つを行う編集処理と、前記編集された特徴量ベクトルから学習データを生成する処理と、を実行する演算装置、
    を備えることを特徴とする学習データセット作成支援装置。
  2. 前記演算装置は、
    前記編集処理に際し、前記抽出した特徴量ベクトルを正解ラベルに基づいて解析する処理を実行し、前記解析の結果にしたがって特徴量ベクトルの追加または削除の少なくともいずれか一つを行うものである、
    ことを特徴とする請求項1に記載の学習データセット作成支援装置。
  3. 前記演算装置は、
    前記特徴量ベクトルの解析に際し、正解ラベルが同一かつベクトル間の距離が所定の閾値以下である特徴量ベクトルを集積するものである、
    ことを特徴とする請求項2に記載の学習データセット作成支援装置。
  4. 前記演算装置は、
    前記編集処理に際し、前記集積を経た特徴量ベクトル群において、ベクトル密度が所定の閾値より低い領域への特徴量ベクトル追加を実行するものである、
    ことを特徴とする請求項3に記載の学習データセット作成支援装置。
  5. 前記演算装置は、
    前記編集処理に際し、前記集積を経た特徴量ベクトル群からの距離が所定の閾値以下で、かつ正解ラベルが異なる特徴量ベクトルの削除を実行するものである、
    ことを特徴とする請求項3に記載の学習データセット作成支援装置。
  6. 前記演算装置は、
    前記編集処理に際し、前記集積を経た特徴量ベクトル群の縁辺への特徴量ベクトルの追加を実行するものである、
    ことを特徴とする請求項3に記載の学習データセット作成支援装置。
  7. 前記演算装置は、
    前記編集処理に際し、前記集積を経た特徴量ベクトル群におけるベクトル密度が所定の閾値より高いまたは低い部分にあるベクトルの削除をさらに実行するものである、
    ことを特徴とする請求項3に記載の学習データセット作成支援装置。
  8. 前記演算装置は、
    前記学習データから抽出した特徴量ベクトルを、特徴量ベクトル空間の距離に基づいて評価し、当該評価の結果を、前記特徴量ベクトルの抽出処理におけるパラメタにフィードバックする処理をさらに実行するものである、
    ことを特徴とする請求項1に記載の学習データセット作成支援装置。
  9. 前記演算装置は、
    前記特徴量ベクトルから生成した学習データを、学習データ空間の距離に基づいて評価し、当該評価の結果を、前記学習データの生成処理におけるパラメタにフィードバックする処理をさらに実行するものである、
    ことを特徴とする請求項1に記載の学習データセット作成支援装置。
  10. 前記演算装置は、
    前記学習データの生成に際し、前記特徴量ベクトルを所定の生成符号のいずれかに対応付けるとともに、当該対応付けの分布を操作する処理をさらに実行するものである、
    ことを特徴とする請求項1に記載の学習データセット作成支援装置。
  11. 前記演算装置は、
    前記編集処理に際し、多次元の中から操作者が指定した特徴量又は所定の閾値により選択した特徴量に対応した所定次元の座標軸を用いて、特徴量ベクトルを表示する処理をさらに実行するものである、
    ことを特徴とする請求項1に記載の学習データセット作成支援装置。
  12. 前記演算装置は、
    前記編集処理に際し、操作者の指示にしたがって特徴量ベクトルを編集する処理をさらに実行するものである、
    ことを特徴とする請求項1に記載の学習データセット作成支援装置。
  13. 前記演算装置は、
    前記特徴量ベクトルの抽出、前記特徴量ベクトルの編集処理、および前記学習データの生成処理、の一連の処理を、所定の指標に基づく特徴量ベクトルの評価値が、予め定めた閾値に達するまで繰り返すものである、
    ことを特徴とする請求項1に記載の学習データセット作成支援装置。
  14. 情報処理装置が、
    教師あり機械学習に用いる学習データを正解ラベルとともに複数保持する記憶装置を備えて、
    前記学習データを記憶装置より順次取得して特徴量ベクトルを抽出する処理と、所定のアルゴリズムにしたがって特徴量ベクトルの追加または削除の少なくともいずれか一つを行う編集処理と、前記編集された特徴量ベクトルから学習データを生成する処理と、
    を実行することを特徴とする学習データセット作成支援方法。
JP2020085448A 2020-05-14 2020-05-14 学習データセット作成支援装置および学習データセット作成支援方法 Pending JP2021179858A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020085448A JP2021179858A (ja) 2020-05-14 2020-05-14 学習データセット作成支援装置および学習データセット作成支援方法
US17/201,035 US20210357695A1 (en) 2020-05-14 2021-03-15 Device and method for supporting generation of learning dataset

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020085448A JP2021179858A (ja) 2020-05-14 2020-05-14 学習データセット作成支援装置および学習データセット作成支援方法

Publications (1)

Publication Number Publication Date
JP2021179858A true JP2021179858A (ja) 2021-11-18

Family

ID=78511572

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020085448A Pending JP2021179858A (ja) 2020-05-14 2020-05-14 学習データセット作成支援装置および学習データセット作成支援方法

Country Status (2)

Country Link
US (1) US20210357695A1 (ja)
JP (1) JP2021179858A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022196433A1 (ja) * 2021-03-15 2022-09-22 オムロン株式会社 モデル生成装置、分類装置、データ生成装置、モデル生成方法、及びモデル生成プログラム
WO2023139750A1 (ja) * 2022-01-21 2023-07-27 ファナック株式会社 データセット作成装置及びコンピュータ読み取り可能な記録媒体

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9672355B2 (en) * 2011-09-16 2017-06-06 Veracode, Inc. Automated behavioral and static analysis using an instrumented sandbox and machine learning classification for mobile security
GB2555192B (en) * 2016-08-02 2021-11-24 Invincea Inc Methods and apparatus for detecting and identifying malware by mapping feature data into a semantic space
US20180211380A1 (en) * 2017-01-25 2018-07-26 Athelas Inc. Classifying biological samples using automated image analysis
US11295210B2 (en) * 2017-06-05 2022-04-05 D5Ai Llc Asynchronous agents with learning coaches and structurally modifying deep neural networks without performance degradation
US10816981B2 (en) * 2018-04-09 2020-10-27 Diveplane Corporation Feature analysis in computer-based reasoning models
US20200193552A1 (en) * 2018-12-18 2020-06-18 Slyce Acquisition Inc. Sparse learning for computer vision
US10755128B2 (en) * 2018-12-18 2020-08-25 Slyce Acquisition Inc. Scene and user-input context aided visual search
US11756291B2 (en) * 2018-12-18 2023-09-12 Slyce Acquisition Inc. Scene and user-input context aided visual search
US11374944B2 (en) * 2018-12-19 2022-06-28 Cisco Technology, Inc. Instant network threat detection system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022196433A1 (ja) * 2021-03-15 2022-09-22 オムロン株式会社 モデル生成装置、分類装置、データ生成装置、モデル生成方法、及びモデル生成プログラム
WO2023139750A1 (ja) * 2022-01-21 2023-07-27 ファナック株式会社 データセット作成装置及びコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
US20210357695A1 (en) 2021-11-18

Similar Documents

Publication Publication Date Title
EP1589473A2 (en) Using tables to learn trees
CN109409398B (zh) 图像处理装置、图像处理方法以及存储介质
KR100886407B1 (ko) 정보 처리 장치 및 그 제어방법
US20020159642A1 (en) Feature selection and feature set construction
JP2021179858A (ja) 学習データセット作成支援装置および学習データセット作成支援方法
US10332291B2 (en) Content aware image editing
JP2765335B2 (ja) 隆線方向パターン平滑化方法およびその装置
Pham et al. RULES-5: a rule induction algorithm for classification problems involving continuous attributes
WO2021194490A1 (en) Method and system for improved attention map guidance for visual recognition in images
CN116341059A (zh) 基于相似度的隧道智能设计方法
Castillo et al. Object detection in digital documents based on machine learning algorithms
Levner et al. Automated feature extraction for object recognition
Miranda et al. Instance selection for geometric semantic genetic programming
CN111310810B (zh) 基于差分学习和粒子群的特征选择的图像分类方法及系统
Cui et al. StableDrag: Stable Dragging for Point-based Image Editing
JPH07271916A (ja) 学習パターン生成装置及びこれを用いた文字認識装置
US20200250578A1 (en) Computer, method of generating learning data, and computer system
CN113361530A (zh) 使用交互手段的图像语义精准分割及优化方法
Li et al. Deep reinforcement learning for automatic thumbnail generation
CN112699909B (zh) 信息识别方法、装置、电子设备及计算机可读存储介质
JPH0461558A (ja) 画像処理方法
Grover et al. Automated Detection of Breast Cancer Metastases in Whole Slide Images
CN116701378A (zh) 信创环境下基于人工智能实现数据清洗的方法、装置、处理器及其计算机可读存储介质
Marchesoni-Acland et al. On the Domain Generalization Capabilities of Interactive Segmentation Methods
Luo et al. RotationDrag: Point-based Image Editing with Rotated Diffusion Features

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240402

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240430

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240514