JP2021179858A - 学習データセット作成支援装置および学習データセット作成支援方法 - Google Patents
学習データセット作成支援装置および学習データセット作成支援方法 Download PDFInfo
- Publication number
- JP2021179858A JP2021179858A JP2020085448A JP2020085448A JP2021179858A JP 2021179858 A JP2021179858 A JP 2021179858A JP 2020085448 A JP2020085448 A JP 2020085448A JP 2020085448 A JP2020085448 A JP 2020085448A JP 2021179858 A JP2021179858 A JP 2021179858A
- Authority
- JP
- Japan
- Prior art keywords
- learning data
- data set
- creation support
- support device
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 129
- 239000013598 vector Substances 0.000 claims abstract description 213
- 238000012545 processing Methods 0.000 claims abstract description 40
- 238000010801 machine learning Methods 0.000 claims abstract description 31
- 238000012217 deletion Methods 0.000 claims abstract description 8
- 230000037430 deletion Effects 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims description 86
- 238000012549 training Methods 0.000 claims description 28
- 238000000605 extraction Methods 0.000 claims description 18
- 238000009825 accumulation Methods 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000010365 information processing Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 abstract description 4
- 238000007670 refining Methods 0.000 abstract description 3
- 230000007850 degeneration Effects 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2193—Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
こうした機械学習における学習データは、上述のモデルの精度を担保する意味で、想定している入力データ空間を適宜にカバーし、適宜なラベルが付与されているものが必要となる。つまり、学習データを適宜に生成することは重要な意義がある。
。
ところが従来技術においては、生成するデータを隠れ変数の値で指定する必要があり、意図した学習を行うことを目的とした学習データ生成の用途には適さない。また、統計量空間(Stochastic Layer)でデータを分析・編集するしくみを持たず、教師あり機械学習に適合する正解ラベルを持つ学習データの生成が難しいという課題もある。
前記学習データを記憶装置より順次取得して特徴量ベクトルを抽出する処理と、所定のアルゴリズムにしたがって特徴量ベクトルの追加または削除の少なくともいずれか一つを行う編集処理と、前記編集された特徴量ベクトルから学習データを生成する処理と、を実行する演算装置、を備えることを特徴とする。
以下に本発明の実施形態について図面を用いて詳細に説明する。図1は、本実施形態の学習データセット作成支援装置100の構成例を示す図である。
ジンによって学習データを生成する。
<<ハードウェア構成>>
また、本実施形態における学習データセット作成支援装置100のハードウェア構成は図2に示す如くとなる。すなわち学習データセット作成支援装置100は、記憶装置101、メモリ103、演算装置104、入力装置105、出力装置106、および通信装置107を備えている。
<<学習データセット作成支援方法:メインフロー>>
以下、本実施形態における学習データセット作成支援方法の実際手順について図に基づき説明する。以下で説明する学習データセット作成支援方法に対応する各種動作は、学習データセット作成支援装置100がメモリ等に読み出して実行するプログラムによって実現される。そして、このプログラムは、以下に説明される各種の動作を行うためのコードから構成されている。
である。このフローが示す各処理の詳細については別途フローにて説明する。よって、本図では処理の概要を示すものとする。
<<学習データセット作成支援方法:パラメタ調整フロー>>
上述のs3のパラメタ調整の処理について、図4Aおよび図4Bに基づき説明する。図4Aは、ニューラルネットワークで構成した場合の特徴量抽出部112とデータ生成部116のパラメタ調整処理、図4Bは、論理プログラムで構成した場合の特徴量抽出部112とデータ生成部116のパラメタ調整処理、のそれぞれの処理フローを示す図である。
射影軸への射影値の組の間の変換パラメタを得て(s31)、処理を終了する。
<<学習データセット作成支援方法:次元縮退フロー>>
続いて、上述のs6における次元縮退の処理について図5Aに基づき説明する。この次元縮退処理は、N次元の特徴量ベクトルを、正解ラベルと最も良く対応するk次元のベクトルに変換する処理となる。
<<学習データセット作成支援方法:特徴量ベクトル正規化フロー>>
上述の次元縮退処理フローのうち、s35の処理の詳細について図5Bに基づき説明する。この場合、学習データセット作成支援装置100は、変数iを1とし(s40)、これを後述するs45の判定結果に応じて順次インクリメントする(s46)。
<<学習データセット作成支援方法:平均座標値算出フロー>>
続いて、情報処理装置次元縮退処理フローのうち、s36の処理の詳細について図5Cに基づき説明する。この場合、学習データセット作成支援装置100は、正解ラベルを1つ選び、Lとする(s50)。
<<学習データセット作成支援方法:平均座標値エンベロープ算出フロー>>
続いて、情報処理装置次元縮退処理フローのうち、s37の処理の詳細について図5Dに基づき説明する。この場合、学習データセット作成支援装置100は、変数iを1とし(s51)、これを後述するs62の判定結果に応じて順次インクリメントする(s63)。
<<学習データセット作成支援方法:座標軸選出フロー>>
続いて、情報処理装置次元縮退処理フローのうち、s38の処理の詳細について図5Eに基づき説明する。この場合、学習データセット作成支援装置100は、正解ラベルを1つ選び、Lとする(s65)。
iの値を、変数xの値で更新し(s71)、処理をs74に進める。
<<学習データセット作成支援方法:特徴ベクトル変換フロー>>
続いて、情報処理装置次元縮退処理フローのうち、s39の処理の詳細について図5Fに基づき説明する。この場合、学習データセット作成支援装置100は、処理対象の特徴量ベクトルから、特徴量ベクトルを一つ選択する(s77)。
<<学習データセット作成支援方法:特徴量ベクトル集積フロー>>
続いて、図3のメインフローにおけるs5に関連した特徴量ベクトル集積処理のフローについて、図6Aおよび図6B、図12に基づき説明する。
<<学習データセット作成支援方法:パラメタ調整およびデータ生成フロー>>
続いて、生成符号を介した、特徴量抽出部112とデータ生成部116のパラメタ調整処理の例と、データ生成例について図7、図8に基づき説明する。
パラメタを調整する(s103)。
<<学習データセット作成支援方法:特徴量ベクトル表示フロー>>
続いて、特徴量ベクトルの表示処理について図9、図13に基づき説明する。この表示処理は、例えば、図3のフローにおけるs7の編集処理に際し、操作者に向けて行われる形態を想定できる。
<<学習データセット作成支援方法:特徴量ベクトル編集フロー>>
続いて、操作者の指示に従った特徴量ベクトル編集処理の例について、図10および図14、図15に基づき説明する。また、こうした編集すなわち学習データの洗練の具体的なイメージを、図16、図17に例示する。
)、点d(近傍の境界上の特徴量ベクトル)が想定できる。
<<学習データセット作成支援方法:連続する学習データ生成フロー>>
続いて、連続する学習データの生成フローについて図11、図18、および図19に基づき説明する。
における学習データセット作成支援装置において、前記演算装置は、前記編集処理に際し、前記抽出した特徴量ベクトルを正解ラベルに基づいて解析する処理を実行し、前記解析の結果にしたがって特徴量ベクトルの追加または削除の少なくともいずれか一つを行うものである、としてもよい。
当該評価の結果を、前記特徴量ベクトルの抽出処理におけるパラメタにフィードバックする処理をさらに実行するものである、としてもよい。
100 学習データセット作成支援装置
101 記憶装置
102 プログラム
103 メモリ
104 演算装置
105 入力装置
106 出力装置
107 通信装置
110 入力部
111 データセット保持部
112 特徴量ベクトル抽出部
113 特徴量ベクトル保持部
114 特徴量ベクトル解析部
115 特徴量ベクトル編集部
116 データ生成部
117 出力部
200 機械学習機構
210 学習済モデル
250 推論機構
251 入力データ
252 出力データ
Claims (14)
- 教師あり機械学習に用いる学習データを正解ラベルとともに複数保持する記憶装置と、
前記学習データを記憶装置より順次取得して特徴量ベクトルを抽出する処理と、所定のアルゴリズムにしたがって特徴量ベクトルの追加または削除の少なくともいずれか一つを行う編集処理と、前記編集された特徴量ベクトルから学習データを生成する処理と、を実行する演算装置、
を備えることを特徴とする学習データセット作成支援装置。 - 前記演算装置は、
前記編集処理に際し、前記抽出した特徴量ベクトルを正解ラベルに基づいて解析する処理を実行し、前記解析の結果にしたがって特徴量ベクトルの追加または削除の少なくともいずれか一つを行うものである、
ことを特徴とする請求項1に記載の学習データセット作成支援装置。 - 前記演算装置は、
前記特徴量ベクトルの解析に際し、正解ラベルが同一かつベクトル間の距離が所定の閾値以下である特徴量ベクトルを集積するものである、
ことを特徴とする請求項2に記載の学習データセット作成支援装置。 - 前記演算装置は、
前記編集処理に際し、前記集積を経た特徴量ベクトル群において、ベクトル密度が所定の閾値より低い領域への特徴量ベクトル追加を実行するものである、
ことを特徴とする請求項3に記載の学習データセット作成支援装置。 - 前記演算装置は、
前記編集処理に際し、前記集積を経た特徴量ベクトル群からの距離が所定の閾値以下で、かつ正解ラベルが異なる特徴量ベクトルの削除を実行するものである、
ことを特徴とする請求項3に記載の学習データセット作成支援装置。 - 前記演算装置は、
前記編集処理に際し、前記集積を経た特徴量ベクトル群の縁辺への特徴量ベクトルの追加を実行するものである、
ことを特徴とする請求項3に記載の学習データセット作成支援装置。 - 前記演算装置は、
前記編集処理に際し、前記集積を経た特徴量ベクトル群におけるベクトル密度が所定の閾値より高いまたは低い部分にあるベクトルの削除をさらに実行するものである、
ことを特徴とする請求項3に記載の学習データセット作成支援装置。 - 前記演算装置は、
前記学習データから抽出した特徴量ベクトルを、特徴量ベクトル空間の距離に基づいて評価し、当該評価の結果を、前記特徴量ベクトルの抽出処理におけるパラメタにフィードバックする処理をさらに実行するものである、
ことを特徴とする請求項1に記載の学習データセット作成支援装置。 - 前記演算装置は、
前記特徴量ベクトルから生成した学習データを、学習データ空間の距離に基づいて評価し、当該評価の結果を、前記学習データの生成処理におけるパラメタにフィードバックする処理をさらに実行するものである、
ことを特徴とする請求項1に記載の学習データセット作成支援装置。 - 前記演算装置は、
前記学習データの生成に際し、前記特徴量ベクトルを所定の生成符号のいずれかに対応付けるとともに、当該対応付けの分布を操作する処理をさらに実行するものである、
ことを特徴とする請求項1に記載の学習データセット作成支援装置。 - 前記演算装置は、
前記編集処理に際し、多次元の中から操作者が指定した特徴量又は所定の閾値により選択した特徴量に対応した所定次元の座標軸を用いて、特徴量ベクトルを表示する処理をさらに実行するものである、
ことを特徴とする請求項1に記載の学習データセット作成支援装置。 - 前記演算装置は、
前記編集処理に際し、操作者の指示にしたがって特徴量ベクトルを編集する処理をさらに実行するものである、
ことを特徴とする請求項1に記載の学習データセット作成支援装置。 - 前記演算装置は、
前記特徴量ベクトルの抽出、前記特徴量ベクトルの編集処理、および前記学習データの生成処理、の一連の処理を、所定の指標に基づく特徴量ベクトルの評価値が、予め定めた閾値に達するまで繰り返すものである、
ことを特徴とする請求項1に記載の学習データセット作成支援装置。 - 情報処理装置が、
教師あり機械学習に用いる学習データを正解ラベルとともに複数保持する記憶装置を備えて、
前記学習データを記憶装置より順次取得して特徴量ベクトルを抽出する処理と、所定のアルゴリズムにしたがって特徴量ベクトルの追加または削除の少なくともいずれか一つを行う編集処理と、前記編集された特徴量ベクトルから学習データを生成する処理と、
を実行することを特徴とする学習データセット作成支援方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020085448A JP2021179858A (ja) | 2020-05-14 | 2020-05-14 | 学習データセット作成支援装置および学習データセット作成支援方法 |
US17/201,035 US20210357695A1 (en) | 2020-05-14 | 2021-03-15 | Device and method for supporting generation of learning dataset |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020085448A JP2021179858A (ja) | 2020-05-14 | 2020-05-14 | 学習データセット作成支援装置および学習データセット作成支援方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021179858A true JP2021179858A (ja) | 2021-11-18 |
Family
ID=78511572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020085448A Pending JP2021179858A (ja) | 2020-05-14 | 2020-05-14 | 学習データセット作成支援装置および学習データセット作成支援方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20210357695A1 (ja) |
JP (1) | JP2021179858A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022196433A1 (ja) * | 2021-03-15 | 2022-09-22 | オムロン株式会社 | モデル生成装置、分類装置、データ生成装置、モデル生成方法、及びモデル生成プログラム |
WO2023139750A1 (ja) * | 2022-01-21 | 2023-07-27 | ファナック株式会社 | データセット作成装置及びコンピュータ読み取り可能な記録媒体 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9672355B2 (en) * | 2011-09-16 | 2017-06-06 | Veracode, Inc. | Automated behavioral and static analysis using an instrumented sandbox and machine learning classification for mobile security |
GB2555192B (en) * | 2016-08-02 | 2021-11-24 | Invincea Inc | Methods and apparatus for detecting and identifying malware by mapping feature data into a semantic space |
US20180211380A1 (en) * | 2017-01-25 | 2018-07-26 | Athelas Inc. | Classifying biological samples using automated image analysis |
US11295210B2 (en) * | 2017-06-05 | 2022-04-05 | D5Ai Llc | Asynchronous agents with learning coaches and structurally modifying deep neural networks without performance degradation |
US10816981B2 (en) * | 2018-04-09 | 2020-10-27 | Diveplane Corporation | Feature analysis in computer-based reasoning models |
US20200193552A1 (en) * | 2018-12-18 | 2020-06-18 | Slyce Acquisition Inc. | Sparse learning for computer vision |
US10755128B2 (en) * | 2018-12-18 | 2020-08-25 | Slyce Acquisition Inc. | Scene and user-input context aided visual search |
US11756291B2 (en) * | 2018-12-18 | 2023-09-12 | Slyce Acquisition Inc. | Scene and user-input context aided visual search |
US11374944B2 (en) * | 2018-12-19 | 2022-06-28 | Cisco Technology, Inc. | Instant network threat detection system |
-
2020
- 2020-05-14 JP JP2020085448A patent/JP2021179858A/ja active Pending
-
2021
- 2021-03-15 US US17/201,035 patent/US20210357695A1/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022196433A1 (ja) * | 2021-03-15 | 2022-09-22 | オムロン株式会社 | モデル生成装置、分類装置、データ生成装置、モデル生成方法、及びモデル生成プログラム |
WO2023139750A1 (ja) * | 2022-01-21 | 2023-07-27 | ファナック株式会社 | データセット作成装置及びコンピュータ読み取り可能な記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
US20210357695A1 (en) | 2021-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1589473A2 (en) | Using tables to learn trees | |
CN109409398B (zh) | 图像处理装置、图像处理方法以及存储介质 | |
KR100886407B1 (ko) | 정보 처리 장치 및 그 제어방법 | |
US20020159642A1 (en) | Feature selection and feature set construction | |
JP2021179858A (ja) | 学習データセット作成支援装置および学習データセット作成支援方法 | |
US10332291B2 (en) | Content aware image editing | |
JP2765335B2 (ja) | 隆線方向パターン平滑化方法およびその装置 | |
Pham et al. | RULES-5: a rule induction algorithm for classification problems involving continuous attributes | |
WO2021194490A1 (en) | Method and system for improved attention map guidance for visual recognition in images | |
CN116341059A (zh) | 基于相似度的隧道智能设计方法 | |
Castillo et al. | Object detection in digital documents based on machine learning algorithms | |
Levner et al. | Automated feature extraction for object recognition | |
Miranda et al. | Instance selection for geometric semantic genetic programming | |
CN111310810B (zh) | 基于差分学习和粒子群的特征选择的图像分类方法及系统 | |
Cui et al. | StableDrag: Stable Dragging for Point-based Image Editing | |
JPH07271916A (ja) | 学習パターン生成装置及びこれを用いた文字認識装置 | |
US20200250578A1 (en) | Computer, method of generating learning data, and computer system | |
CN113361530A (zh) | 使用交互手段的图像语义精准分割及优化方法 | |
Li et al. | Deep reinforcement learning for automatic thumbnail generation | |
CN112699909B (zh) | 信息识别方法、装置、电子设备及计算机可读存储介质 | |
JPH0461558A (ja) | 画像処理方法 | |
Grover et al. | Automated Detection of Breast Cancer Metastases in Whole Slide Images | |
CN116701378A (zh) | 信创环境下基于人工智能实现数据清洗的方法、装置、处理器及其计算机可读存储介质 | |
Marchesoni-Acland et al. | On the Domain Generalization Capabilities of Interactive Segmentation Methods | |
Luo et al. | RotationDrag: Point-based Image Editing with Rotated Diffusion Features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240402 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240430 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240514 |