JP2023104464A - Machine learning data set evaluation support device and machine learning data set evaluation support method - Google Patents
Machine learning data set evaluation support device and machine learning data set evaluation support method Download PDFInfo
- Publication number
- JP2023104464A JP2023104464A JP2022005461A JP2022005461A JP2023104464A JP 2023104464 A JP2023104464 A JP 2023104464A JP 2022005461 A JP2022005461 A JP 2022005461A JP 2022005461 A JP2022005461 A JP 2022005461A JP 2023104464 A JP2023104464 A JP 2023104464A
- Authority
- JP
- Japan
- Prior art keywords
- data set
- evaluation
- inference
- learning
- learning data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 235
- 238000010801 machine learning Methods 0.000 title claims abstract description 127
- 238000000034 method Methods 0.000 title claims description 52
- 238000004458 analytical method Methods 0.000 claims abstract description 41
- 238000011157 data evaluation Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims description 31
- 230000010365 information processing Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 40
- 238000010586 diagram Methods 0.000 description 30
- 238000012549 training Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Abstract
Description
本発明は、機械学習データセット評価支援装置及び機械学習データセット評価支援方法に関するものである。 The present invention relates to a machine learning dataset evaluation support device and a machine learning dataset evaluation support method.
IoTデータなど各種ビッグデータを活用した、様々な装置類の監視や制御、故障予知、或いは自動運転時の物体認識など、実に広範な分野で機械学習技術が導入されている。そうした分野での機械学習技術においては、人が正解データを付与するため学習精度が高く、学習速度も早い、教師あり機械学習が有用である。 Machine learning technology has been introduced in a wide range of fields, such as monitoring and control of various devices, failure prediction, and object recognition during automatic driving using various big data such as IoT data. In machine learning technology in such fields, supervised machine learning, which has high learning accuracy and fast learning speed because humans give correct data, is useful.
教師あり機械学習に際しては、実世界からデータを収集し、当該データがAIモデルに入力された際に期待する出力値、つまり正解ラベルを付与した学習データセット(訓練データとテストデータ)を作成する。このうち訓練データを教師データとしてAIモデルに学習させ、テストデータを使って学習済みAIモデルの精度を評価する。 In supervised machine learning, data is collected from the real world, and the output value expected when the data is input to the AI model, that is, a learning data set (training data and test data) with correct labels is created. . Of these, training data is used as teacher data to make an AI model learn, and test data is used to evaluate the accuracy of the trained AI model.
こうした機械学習に関連する従来技術としては、例えば、データの適切なクレンジング処理が困難であるといった課題を踏まえ、入力データから機械学習アルゴリズムに適した学習用データを生成するための学習データ生成装置(特許文献1参照)などが提案されている。 Conventional technologies related to machine learning include, for example, learning data generation devices ( See Patent Document 1) and the like have been proposed.
この技術は、学習データを生成するために入力データに対してクレンジング処理を行う処理手段と、機械学習アルゴリズムを備え、前記機械学習アルゴリズムを用いて、学習データに基づいて学習モデルを生成する生成手段と、を有する学習データ生成装置であって、前記生成手段は、前記機械学習アルゴリズムとして、種類が異なる、複数の機械学習アルゴリズムを備え、前記処理手段は、入力データに対して、複数の前記機械学習アルゴリズムのそれぞれに対応して、第1のクレンジング処理を行うことを特徴とする学習データ生成装置である。 This technology includes processing means for performing cleansing processing on input data to generate learning data, and a machine learning algorithm, and generating means for generating a learning model based on the learning data using the machine learning algorithm. and, wherein the generating means includes a plurality of machine learning algorithms of different types as the machine learning algorithms, and the processing means processes input data with a plurality of the machine learning algorithms The learning data generation device is characterized by performing a first cleansing process corresponding to each learning algorithm.
上述の学習データセットに望まれる要件は以下のとおりである。想定する入力データを学習データセットがカバーしていること、頑健(入力値の微小なずれに対して安定)なAIモデルが構成できること、及び、学習データに付与されているラベルが妥当であること、である。 The desired requirements for the above training data set are as follows. The learning data set covers the assumed input data, a robust AI model (stable against small deviations in input values) can be constructed, and the labels assigned to the learning data are appropriate. , is.
しかし、特段の工夫なく素朴に収集した学習データセットでは、学習の進行を制御することが困難である。そのため、意図しない学習が行われる可能性がある。例えば、学習データが不足するケース、正解ラベルが異なる学習データの不用意な近接が生じるケース、及び、学習意図とは異なる特徴が優勢となるケースが該当する。 However, it is difficult to control the progress of learning with a learning data set simply collected without special ingenuity. Therefore, unintended learning may occur. For example, there is a shortage of learning data, a case in which learning data with different correct labels are inadvertently approached, and a case in which a feature different from the learning intent is dominant.
一方、従来技術によれば、学習データのクレンジングを機械学習アルゴリズムの特徴に基づいて行う構成となっている。そのため、生成された学習モデルによる推論の特性をフ
ィードバックする形での、学習データの洗練はできない。
On the other hand, according to the conventional technology, cleansing of learning data is performed based on the features of the machine learning algorithm. Therefore, it is not possible to refine the learning data by feeding back the inference characteristics of the generated learning model.
そこで本発明の目的は、不適切な学習や学習不足を回避する、洗練された学習データセットの構成を可能とする技術を提供することにある。 SUMMARY OF THE INVENTION Accordingly, an object of the present invention is to provide a technique that enables the construction of a sophisticated learning data set that avoids inappropriate learning and insufficient learning.
上記課題を解決する本発明の機械学習データセット評価支援装置は、教師あり機械学習に用いる学習データセット及びラベル情報を保持する学習データセット保持部と、所定の評価データセットを複数の学習済みAIモデルに入力し、複数の推論結果を得る推論実行部と、前記複数の推論結果の間の差異を、前記複数の学習済みAIモデルそれぞれにおける推論結果の確信度及び推論結果の安定度から解析する差異解析部と、前記差異の解析結果に基づいて、前記評価データセットを評価するデータ評価部と、前記評価データセットの評価結果に基づいて前記学習データセット保持部に保持されている学習データセット及びラベル情報を編集する学習データセット編集部と、を備えることを特徴とする。 A machine learning data set evaluation support device of the present invention for solving the above problems includes a learning data set holding unit that holds a learning data set and label information used for supervised machine learning, and a predetermined evaluation data set for a plurality of trained AIs. An inference execution unit that obtains a plurality of inference results by inputting data into the model, and analyzes the difference between the plurality of inference results from the certainty of the inference result and the stability of the inference result in each of the plurality of trained AI models. a difference analysis unit; a data evaluation unit that evaluates the evaluation data set based on the analysis result of the difference; and a learning data set held in the learning data set holding unit based on the evaluation result of the evaluation data set. and a learning data set editing unit that edits the label information.
また、本発明の機械学習データセット評価支援方法は、情報処理装置が、教師あり機械学習に用いる学習データセット及びラベル情報を記憶装置で保持し、所定の評価データセットを複数の学習済みAIモデルに入力し、複数の推論結果を得る処理と、前記複数の推論結果の間の差異を、前記複数の学習済みAIモデルそれぞれにおける推論結果の確信度及び推論結果の安定度から解析する処理と、前記差異の解析結果に基づいて、前記評価データセットを評価する処理と、前記評価データセットの評価結果に基づいて前記記憶装置に保持されている学習データセット及びラベル情報を編集する処理を、実行することを特徴とする。 Further, in the machine learning data set evaluation support method of the present invention, the information processing device holds learning data sets and label information used for supervised machine learning in a storage device, and a predetermined evaluation data set is stored in a plurality of trained AI models. , a process of obtaining a plurality of inference results, and a process of analyzing the difference between the plurality of inference results from the confidence of the inference result and the stability of the inference result in each of the plurality of trained AI models; executing a process of evaluating the evaluation data set based on the difference analysis result, and a process of editing the learning data set and label information held in the storage device based on the evaluation result of the evaluation data set. characterized by
本発明によれば、不適切な学習や学習不足を回避する、洗練された学習データセットの構成が可能となる。 According to the present invention, it is possible to construct a sophisticated training data set that avoids improper or under-learning.
<機械学習データセット評価支援装置の構成例>
以下に本発明の実施形態について図面を用いて詳細に説明する。図1は、本実施形態の機械学習データセット評価支援装置100の機能構成例を示す図である。図1に示す機械学習データセット評価支援装置100は、不適切な学習や学習不足を回避する、洗練された学習データセットの構成を可能とするコンピュータである。
<Configuration example of machine learning dataset evaluation support device>
Embodiments of the present invention will be described in detail below with reference to the drawings. FIG. 1 is a diagram showing a functional configuration example of a machine learning dataset
本実施形態の機械学習データセット評価支援装置100は、図1で示すように、評価データセット保持部110、推論実行部111、学習済みAIモデル保持部112、差異解析部113、データ評価部114、学習データセット編集部115、及び、学習データセット保持部116を有している。
As shown in FIG. 1, the machine learning dataset
このうち評価データセット保持部110は、評価データセット125を保持している。また、学習済みAIモデル保持部112は、学習済みAIモデル118を保持している。また、学習データセット保持部116は、学習データセット126及びラベル情報127を保持している。
Of these, the evaluation data set
学習データセット126は、例えば、実世界から収集された訓練データである。また、ラベル情報127は、訓練データである学習データセットがAIモデルに入力されたときに期待する出力つまり正解ラベルの情報である。
Learning data set 126 is, for example, training data collected from the real world. Also, the
また、評価データセット125は、そうして学習が進んだAIモデルすなわち学習済みAIモデル118のそれぞれに入力する対象となる。その場合、学習済みAIモデル118から、複数の推論結果を得ることとなる。 In addition, the evaluation data set 125 is a target to be input to each of the AI models that have been trained in this way, that is, the trained AI models 118 . In that case, a plurality of inference results will be obtained from the trained AI model 118 .
機械学習データセット評価支援装置100は、具体的には、サーバ装置、パーソナルコンピュータなどを想定できる。
Specifically, the machine learning dataset
<ハードウェア構成>
また、本実施形態の機械学習データセット評価支援装置100のハードウェア構成は、図2に以下の如くとなる。
<Hardware configuration>
Further, the hardware configuration of the machine learning dataset
すなわち機械学習データセット評価支援装置100は、記憶装置101、メモリ103、演算装置104、入力装置105、出力装置106、および通信装置107を備える。
That is, the machine learning dataset
このうち記憶装置101は、SSD(Solid State Drive)やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。 Among them, the storage device 101 is composed of an appropriate non-volatile storage element such as an SSD (Solid State Drive) or a hard disk drive.
また、メモリ103は、RAMなど揮発性記憶素子で構成される。
Also, the
また、演算装置104は、記憶装置101に保持されるプログラム102をメモリ103に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうCPUである。
また、入力装置105は、ユーザからのキー入力や音声入力を受け付けるキーボードやマウス、マイクといった装置である。
The
また、出力装置106は、演算装置104での処理結果の出力を行うディスプレイやスピーカー等の装置である。
Also, the
また、通信装置107は、適宜なネットワークと接続して、ユーザ端末等との通信処理を担うネットワークインターフェイスカード等を想定する。ただし、機械学習データセット評価支援装置100がスタンドアロンマシンである場合、本通信装置107は省略可能である。
Also, the
なお、記憶装置101内には、本実施形態の機械学習データセット評価支援装置として必要な機能を実装する為のプログラム102に加えて、評価データセット保持部110における評価データセット125、学習データセット保持部115における学習データセット126及びラベル情報127、学習済みAIモデル保持部112における学習済みAIモデル118が少なくとも記憶されている。ただし、これらについての詳細は後述する。
In the storage device 101, in addition to the
また、プログラム102は、演算装置104により実行されることで、推論実行部111、差異解析部113、データ評価部114、及び学習データセット編集部115、の各機能を実装することになる。
Also, the
このうち推論実行部111は、評価データセット保持部110で保持する評価データセットを複数の学習済みAIモデル118に入力し、複数の推論結果を得るものである。
Among these, the inference execution unit 111 inputs the evaluation data set held in the evaluation data
なお、この推論実行部111は、複数の学習済みAIモデル118として、学習時に学習データセットないしモデル構造を変化させて訓練したAIモデルを用いる、ものとしてもよい。 Note that the inference execution unit 111 may use, as the plurality of trained AI models 118, AI models trained by changing the learning data set or model structure during learning.
また、推論実行部111は、複数の学習済みAIモデルとして、推論時にモデル構造を変化させた学習済みAIモデルを用いる、ものとしてもよい。 Also, the inference execution unit 111 may use, as a plurality of trained AI models, trained AI models whose model structures have been changed at the time of inference.
また、推論実行部111は、複数の学習済みAIモデルを逐次的に実行して複数の推論結果を得るものとしてもよい。 Also, the inference execution unit 111 may sequentially execute a plurality of trained AI models to obtain a plurality of inference results.
また、推論実行部111は、複数の学習済みAIモデルを並列に実行して複数の推論結果を同時に得るものとしてもよい。 Also, the inference execution unit 111 may execute a plurality of trained AI models in parallel to obtain a plurality of inference results at the same time.
また、差異解析部113は、上述の推論実行部111で得た複数の推論結果の間の差異を、複数の学習済みAIモデル118それぞれにおける推論結果の確信度及び推論結果の安定度から解析するものである。
In addition, the
また、データ評価部114は、差異解析部113にて得た上述の差異の解析結果に基づいて、評価データセット125を評価するものである。
The
また、学習データセット編集部115は、評価データセット125の評価結果に基づいて、学習データセット保持部116に保持されている学習データセット126及びラベル情報127を編集するものである。
Also, the learning data
なお、上述の学習データセット編集部115は、推論実行部111による推論結果の確信度が所定の閾値より大きい評価データに類似しかつ評価対象データの推論結果と正解ラベルが異なる学習データを、学習データセット126から削除するものとしてもよい。
Note that the above-described learning data
また、学習データセット編集部115は、推論実行部111による推論結果の確信度が所定の閾値より小さい評価データに類似する学習データを、学習データセット126から削除するものとしてもよい。
Also, the learning data
また、学習データセット編集部115は、推論実行部111による推論結果の確信度が所定の閾値より大きく、安定度が所定の閾値より小さい評価データに類似する学習データを生成し、学習データセット126に追加するものとしてもよい。
In addition, the learning data
なお、図1ではなく図25に基づき後述するが、機械学習データセット評価支援装置100は、上述の他にも、解析結果表示部117を有する。この解析結果表示部117は、差異解析部113での解析結果を出力装置106に表示するものである。
Note that the machine learning dataset
<フロー例>
以下、本実施形態における機械学習データセット評価支援方法の実際手順について図に基づき説明する。以下で説明する機械学習データセット評価支援方法に対応する各種動作は、機械学習データセット評価支援装置100がメモリ等に読み出して実行するプログラムによって実現される。そして、このプログラムは、以下に説明される各種の動作を行うためのコードから構成されている。
<Flow example>
The actual procedure of the machine learning data set evaluation support method according to the present embodiment will be described below with reference to the drawings. Various operations corresponding to the machine-learning dataset evaluation support method described below are implemented by a program that the machine-learning dataset
図3は、本実施形態における機械学習データセット評価支援方法のフロー例を示す図である。この場合、機械学習データセット評価支援装置100は、学習済みAIモデル118を取得する(301)。この学習済みAIモデル118は、記憶装置101の学習済みAIモデル保持部112で予め保持しているものである。
FIG. 3 is a diagram showing a flow example of the machine learning data set evaluation support method according to this embodiment. In this case, the machine learning dataset
続いて、機械学習データセット評価支援装置100の推論実行部111は、評価データセット保持部110の評価データセット125から1つの評価データを、ステップ301で得ている学習済みAIモデル118に入力し、推論処理を実行する(302)。この推論処理の詳細は図4~図8に基づき後述する。
Subsequently, the inference execution unit 111 of the machine learning dataset
次に、機械学習データセット評価支援装置100の差異解析部113は、ステップ302での推論処理の結果の確信度と安定度を解析し、これを例えばメモリ103に記録する(303)。
Next, the
続いて、機械学習データセット評価支援装置100は、ここまでのステップでの処理対象が、評価データセット125に含まれる未処理の評価データのうち最後の評価データであったか判定する(304)。
Subsequently, the machine learning dataset
上述の判定の結果、最後の評価データではない場合(304:NO)、機械学習データセット評価支援装置100は、処理をステップ302に戻す。
As a result of the above determination, if the evaluation data is not the last one (304: NO), the machine learning dataset
一方、上述の判定の結果、最後の評価データである場合(304:YES)、機械学習データセット評価支援装置100のデータ評価部114は、当該評価データを評価し、その結果を、例えばメモリ103に記録する(305)。このデータ評価部114の処理の詳細は図12などに基づき後述する。
On the other hand, as a result of the above determination, if it is the last evaluation data (304: YES), the
また、機械学習データセット評価支援装置100の学習データセット編集部115は、学習データセット保持部116の学習データセット126とラベル情報127を編集し(306)、本フローを終了する。この学習データセット編集部115の処理の詳細は、図14などに基づき後述する。ここまでの処理により、不適切な学習や学習不足を回避する、洗練された学習データセットが生成された。
Also, the learning data
<推論実行部のフロー例1>
続いて図4において、本実施形態の推論実行部111が、学習データセットを変化させた学習データセットによる学習で、複数のAIモデルを生成する処理のフロー例を示す。
<Flow example 1 of the inference execution part>
Next, FIG. 4 shows an example flow of processing in which the inference execution unit 111 of the present embodiment generates a plurality of AI models through learning using a learning data set obtained by changing the learning data set.
この場合、機械学習データセット評価支援装置100の推論実行部111は、例えば、入力装置105から学習前AIモデルを取得する(401)。
In this case, the inference execution unit 111 of the machine learning dataset
続いて、機械学習データセット評価支援装置100の推論実行部111は、引数iに1をセットする(402)。
Subsequently, the inference execution unit 111 of the machine learning dataset
次に、機械学習データセット評価支援装置100の推論実行部111は、学習データセット保持部115の学習データセット126から、複数の学習データを取得する(403)。
Next, the inference executing unit 111 of the machine learning dataset
続いて、機械学習データセット評価支援装置100の推論実行部111は、学習データセット保持部115のラベル情報127から、上述のステップ403で得た学習データのラベルを取得する(404)。
Subsequently, the inference executing unit 111 of the machine learning dataset
次に、機械学習データセット評価支援装置100の推論実行部111は、ステップ403、ステップ404で得た学習データとラベルを教師データとして、ステップ401で得ている学習前AIモデルを訓練する(405)。
Next, the inference execution unit 111 of the machine learning dataset
また、機械学習データセット評価支援装置100の推論実行部111は、ステップ405での訓練で得た学習済みAIモデル118を学習済みAIモデル保持部112に格納する(406)。
In addition, the inference execution unit 111 of the machine learning dataset
ここで機械学習データセット評価支援装置100の推論実行部111は、引数iの値を
インクリメントし(407)、ステップ408に遷移する。
Here, the inference execution unit 111 of the machine learning dataset
次に、機械学習データセット評価支援装置100の推論実行部111は、上述の引数iが予め定めた値Tを越えたか判定する(408)。
Next, the inference execution unit 111 of the machine learning dataset
上述の判定の結果、引数iの値がTを越えていない場合(408:NO)、推論実行部111は、処理をステップ403に戻す。ここでステップ403に戻る場合、学習データセット126が含む学習データのうち未処理のものを次の学習対象とすることの他、学習データの追加、変更、削除を、所定ルールまたはユーザ操作に応じて実行して学習対象とすることも想定できる。 As a result of the above determination, if the value of the argument i does not exceed T (408: NO), the inference executing section 111 returns the process to step 403. Here, when returning to step 403, the learning data included in the learning data set 126 that have not been processed are used as the next learning target, and addition, change, and deletion of the learning data are performed according to a predetermined rule or user operation. It can also be assumed that it is executed as a learning target.
一方、上述の判定の結果、引数iの値がTを越えた場合(408:YES)、推論実行部111は、本フローを終了する。 On the other hand, if the value of the argument i exceeds T as a result of the above determination (408: YES), the inference execution unit 111 terminates this flow.
<推論実行部のフロー例2>
続いて図5において、本実施形態の推論実行部111が、モデル構造を変化させて訓練したAIモデルを取得する処理のフロー例を示す。
<Flow example 2 of the inference execution part>
Next, FIG. 5 shows an example flow of processing in which the inference execution unit 111 of this embodiment obtains an AI model trained by changing the model structure.
この場合、機械学習データセット評価支援装置100の推論実行部111は、例えば、入力装置105から学習前AIモデルを取得する(501)。
In this case, the inference execution unit 111 of the machine learning dataset
続いて、機械学習データセット評価支援装置100の推論実行部111は、引数iに1をセットする(502)。
Subsequently, the inference execution unit 111 of the machine learning dataset
次に、機械学習データセット評価支援装置100の推論実行部111は、学習データセット保持部115の学習データセット126から、複数の学習データを取得する(503)。
Next, the inference executing unit 111 of the machine learning dataset
続いて、機械学習データセット評価支援装置100の推論実行部111は、学習データセット保持部115のラベル情報127から、上述のステップ503で得た学習データのラベルを取得する(504)。
Subsequently, the inference execution unit 111 of the machine learning dataset
次に、機械学習データセット評価支援装置100の推論実行部111は、ステップ501で得ている学習前AIモデルの構造を改変する(505)。この構造の改変は、例えば、AIモデルを構成するニューラルネットワークのうち、所定層(例えば、中間層のうちの或る層)のノードの1つランダムに削除するか、当該ノードと他層の所定ノードとの間の1つのエッジを削除する、といったものを想定できる。
Next, the inference execution unit 111 of the machine learning dataset
また、機械学習データセット評価支援装置100の推論実行部111は、ステップ505で構造を改変した学習前AIモデルに、ステップ503、ステップ504で得ている学習データとラベルを教師データとして与えることで訓練する(506)。
In addition, the inference execution unit 111 of the machine learning dataset
また、機械学習データセット評価支援装置100の推論実行部111は、ステップ506での訓練で得た学習済みAIモデル118を学習済みAIモデル保持部112に格納する(507)。
In addition, the inference execution unit 111 of the machine learning dataset
ここで機械学習データセット評価支援装置100の推論実行部111は、引数iの値をインクリメントし(507)、ステップ508に遷移する。
Here, the inference execution unit 111 of the machine learning dataset
次に、機械学習データセット評価支援装置100の推論実行部111は、上述の引数i
が予め定めた値Tを越えたか判定する(509)。
Next, the inference execution unit 111 of the machine learning dataset
exceeds a predetermined value T (509).
上述の判定の結果、引数iの値がTを越えていない場合(509:NO)、推論実行部111は、処理をステップ505に戻す。一方、上述の判定の結果、引数iの値がTを越えた場合(509:YES)、推論実行部111は、本フローを終了する。 As a result of the above determination, if the value of the argument i does not exceed T (509: NO), the inference execution unit 111 returns the process to step 505. On the other hand, if the value of the argument i exceeds T as a result of the above determination (509: YES), the inference execution unit 111 terminates this flow.
<推論実行部のフロー例3>
続いて図6において、本実施形態の推論実行部111による推論実行処理のフローであり、学習済みAIモデルの推論を順次実行する処理のフロー例を示す。
<Flow example 3 of the inference execution part>
Next, FIG. 6 shows a flow of inference execution processing by the inference execution unit 111 of the present embodiment, and shows an example of a flow of processing for sequentially executing inference of a trained AI model.
この場合、機械学習データセット評価支援装置100の推論実行部111は、評価データセット保持部110の評価データセット125から、評価データを1つ取得する(601)。
In this case, the inference executing unit 111 of the machine learning dataset
続いて、機械学習データセット評価支援装置100の推論実行部111は、学習済みAIモデル保持部112から、T個の学習済みAIモデル118を取得する(602)。
Subsequently, the inference execution unit 111 of the machine learning dataset
次に、機械学習データセット評価支援装置100の推論実行部111は、引数iの値として1をセットする(603)。
Next, the inference execution unit 111 of the machine learning dataset
続いて、機械学習データセット評価支援装置100の推論実行部111は、k番目の学習済みAIモデル118に、ステップ601で得ている評価データを入力して推論を実行する(604)。
Subsequently, the inference execution unit 111 of the machine learning dataset
また、機械学習データセット評価支援装置100の推論実行部111は、上述のステップ605での推論の結果を、例えばメモリ103に格納する(605)。
In addition, the inference execution unit 111 of the machine learning dataset
また、機械学習データセット評価支援装置100の推論実行部111は、引数iの値を1つインクリメントする(606)。
Also, the inference execution unit 111 of the machine learning dataset
続いて、機械学習データセット評価支援装置100の推論実行部111は、上述の引数iの値がTを越えたか判定する(607)。
Subsequently, the inference execution unit 111 of the machine learning dataset
上述の判定の結果、引数iの値がTを越えていない場合(607:NO)、推論実行部111は、処理をステップ604に戻す。 As a result of the above determination, if the value of the argument i does not exceed T (607: NO), the inference executing section 111 returns the process to step 604.
一方、上述の判定の結果、引数iの値がTを越えた場合(607:YES)、推論実行部111は本フローを終了する。 On the other hand, if the value of the argument i exceeds T as a result of the above determination (607: YES), the inference execution unit 111 terminates this flow.
<推論実行部のフロー例4>
続いて図7において、本実施形態における推論実行処理のフローであり、学習済みAIモデルの推論を並列に実行する処理のフロー例を示す。
<Flow example 4 of the inference execution part>
Next, FIG. 7 shows a flow of inference execution processing in the present embodiment, which is an example of a flow of processing for executing inference of trained AI models in parallel.
この場合、機械学習データセット評価支援装置100は、評価データセット保持部110から評価データを1つ取得する(701)。
In this case, the machine learning dataset
続いて、機械学習データセット評価支援装置100は、学習済みAIモデル保持部112からT個の学習済みAIモデル118を取得する(702)。
Subsequently, the machine learning dataset
次に、機械学習データセット評価支援装置100は、ステップ702で得たT個の学習
済みAIモデル118を、推論実行部111に展開する(703)。
Next, the machine learning dataset
続いて、機械学習データセット評価支援装置100の推論実行部111は、ステップ703で展開したT個の学習済みAIモデル118に、ステップ701で得ている評価データを入力して推論を実行する(704)。
Subsequently, the inference execution unit 111 of the machine learning dataset
次に、機械学習データセット評価支援装置100の推論実行部111は、ステップ704での推論の結果を、例えばメモリ103に格納し(705)、本フローを終了する。
Next, the inference execution unit 111 of the machine learning dataset
<推論実行部のフロー例5>
続いて図8において、本実施形態における推論実行処理のフローであり、推論時にモデルの構造を変化させたAIモデルを用いる処理のフロー例を示す。
<Flow example 5 of the inference execution part>
Next, FIG. 8 shows a flow of inference execution processing in this embodiment, which is an example of a flow of processing using an AI model whose model structure is changed at the time of inference.
この場合、機械学習データセット評価支援装置100の推論実行部111は、評価データセット保持部110から評価データを1つ取得する(801)。
In this case, the inference executing unit 111 of the machine learning dataset
また、機械学習データセット評価支援装置100の推論実行部111は、学習済みAIモデル保持部112から学習済みAIモデル118を取得する(802)。
In addition, the inference execution unit 111 of the machine learning dataset
次に、機械学習データセット評価支援装置100の推論実行部111は、引数iの値として1をセットする(803)。
Next, the inference execution unit 111 of the machine learning dataset
続いて、機械学習データセット評価支援装置100の推論実行部111は、ステップ802で得た学習済みAIモデル118の構成要素を一部不活性化する(804)。この場合、構成要素とは、例えば、ニューラルネットワークを構成するノードやエッジであり、一部不活性化とは、ノードの重み値をゼロにする措置やエッジを削除するといったものを想定できる。
Subsequently, the inference execution unit 111 of the machine learning dataset
次に、機械学習データセット評価支援装置100の推論実行部111は、ステップ804で一部不活性化の措置を施した学習済みAIモデル118に、ステップ801で得ている評価データを入力して推論を実行する(805)。
Next, the inference execution unit 111 of the machine learning dataset
また、機械学習データセット評価支援装置100の推論実行部111は、ステップ805での推論の結果を、例えばメモリ103に格納する(806)。
In addition, the inference execution unit 111 of the machine learning dataset
続いて、機械学習データセット評価支援装置100の推論実行部111は、引数iの値をインクリメントし(807)、当該引数iの値が、予め定めたTの値を越えたか判定する(808)。
Subsequently, the inference execution unit 111 of the machine learning dataset
上述の判定の結果、引数iの値がTを越えていない場合(808:NO)、推論実行部111は、処理をステップ804に戻す。 As a result of the above determination, if the value of the argument i does not exceed T (808: NO), the inference executing section 111 returns the process to step 804.
一方、上述の判定の結果、引数iの値がTを越えた場合(808:YES)、推論実行部111は、本フローを終了する。 On the other hand, if the value of the argument i exceeds T as a result of the above determination (808: YES), the inference execution unit 111 terminates this flow.
<差異解析部のフロー例>
続いて図9において、本実施形態の差異解析部113における、推論結果差異解析処理のフロー例を示す。また図10に、本実施形態における推論結果の確信度と安定度の計算方法の一例を示す。
<Flow example of difference analysis part>
Next, FIG. 9 shows an example flow of inference result difference analysis processing in the
この場合、機械学習データセット評価支援装置100の差異解析部113は、推論実行部111によるK個の推論結果をメモリ103より取得する(901)。
In this case, the
また、機械学習データセット評価支援装置100の差異解析部113は、ステップ901で得た推論結果の確信度を計算し、例えば、メモリ103に格納する(902)。
Further, the
次に、機械学習データセット評価支援装置100は、ステップ901で得た推論結果の安定度を計算し、例えば、メモリ103に格納し(903)、本フローを終了する。
Next, the machine learning dataset
なお、上述の差異解析部113による確信度および安定度の計算手法としては、例えば、図10で示すように、分類問題の推論結果を式1201とし、T個の学習済みAIモデル118の推論結果の確率の平均値の式1202とした場合、確信度は式1203で、また、安定度は式1204で算定できる。
As a method of calculating the confidence and stability by the above-described
同様に、回帰問題の推論結果を式1205とし、T個の学習済みAIモデル118の推論結果の確率の平均値の式1206とした場合、確信度は式1207で、また、安定度は式1208で算定できる。
Similarly, when the inference result of the regression problem is expressed by expression 1205 and the mean value of the probability of the inference result of T trained AI models 118 is expressed by expression 1206, the confidence is expressed by
なお、上述のように算定した確信度および安定度の結果は、例えば、図11に示すような構成として出力できる。確信度の分布図1401において、各点は、1つの評価データに対する複数の推論結果について、クラスkであると判定される確率の平均値と推論結果の確信度を表す。また、安定度の分布図1402において、各点は、1つの評価データに対する複数の推論結果について、クラスkであると判定される確率の平均値と推論結果の安定度を表す。 It should be noted that the result of the certainty factor and the stability factor calculated as described above can be output as a configuration as shown in FIG. 11, for example. In the confidence factor distribution diagram 1401, each point represents the average value of the probabilities of being determined to be class k and the confidence factor of the inference result for a plurality of inference results for one evaluation data. In the stability distribution diagram 1402, each point represents the average value of probabilities of being determined to be class k and the stability of the inference results for a plurality of inference results for one piece of evaluation data.
<データ評価部のフロー例>
続いて図12において、本実施形態におけるデータ評価部114のフロー例を示す。この場合、機械学習データセット評価支援装置100のデータ評価部114は、高確信度の閾値、低確信度の閾値、低安定度の閾値を設定する(1001)。
<Flow example of the data evaluation section>
Next, FIG. 12 shows a flow example of the
この場合の設定手法としては、例えば、予め与えられたデフォルト値を使用するもの、分類される評価データが一定割合になるよう機械的に設定するもの、データ密度の高い領域が低い領域と分離されるよう機械的に設定するもの、及び差異解析結果(図11参照)を参照してオペレータが設定するもの、のいずれかを想定する。 As a setting method in this case, for example, a method of using a preset default value, a method of mechanically setting so that the evaluation data to be classified is a constant ratio, and a method of separating areas with high data density from areas with low data density. One is assumed to be mechanically set so as to make the difference, or the other is set by the operator referring to the difference analysis result (see FIG. 11).
具体的な閾値設定の概念例としては、図13の分布図1401に示すように、「1」の周辺のデータは推論結果が「クラスkである」ことの確信度が高く、また、「2」の周辺のデータは推論結果が「クラスkでない」ことの確信度が高いため、「1」と「2」の周辺のデータをカバーするよう高確信度の閾値を設定する。 As a specific conceptual example of threshold setting, as shown in the distribution diagram 1401 of FIG. , a high confidence threshold is set so as to cover the data around '1' and '2'.
また、分布図1402で示すように、推論結果の確信度が低いデータは推論結果が安定せず、確実な認識が困難、という状況の場合、高確信度の閾値>低確信度の閾値となる低確信度の閾値を確信度の低いデータの分布から設定する。 In addition, as shown in the distribution diagram 1402, in the case of data with low confidence of the inference result, the inference result is not stable and it is difficult to recognize with certainty, the threshold of high confidence is greater than the threshold of low confidence. A low-confidence threshold is set from the distribution of low-confidence data.
また、分布図1403で示すように、推論結果の安定度が低いデータは学習によって推論結果が安定して収束する可能性がある状況の場合、安定度の低いデータの分布から低安定度の閾値を設定する。 In addition, as shown in the distribution diagram 1403, in a situation where the inference results of data with low stability of inference results may stably converge by learning, the low stability threshold set.
また、機械学習データセット評価支援装置100のデータ評価部114は、確信度が高確信度の閾値(ステップ1001で設定したもの)以上の評価データを抽出し記録する(
1002)。
In addition, the
1002).
次に、機械学習データセット評価支援装置100のデータ評価部114は、確信度が低確信度の閾値(ステップ1001で設定したもの)未満の評価データを抽出し記録する(1003)。
Next, the
続いて、機械学習データセット評価支援装置100のデータ評価部114は、安定度が低安定度の閾値(ステップ1001で設定したもの)未満の評価データを抽出して記録し(1004)、本フローを終了する。
Subsequently, the
<学習データセット編集部のフロー例>
続いて図14において、本実施形態における学習データセット編集部115での処理フロー例を示す。この場合、機械学習データセット評価支援装置100の学習データセット編集部115は、評価データセット保持部110から評価データを取得する(1101)。
<Flow example of learning data set editor>
Next, FIG. 14 shows an example of the processing flow in the learning data
続いて、機械学習データセット評価支援装置100の学習データセット編集部115は、当該評価データが低確信度を示すものか判定する(1102)。
Subsequently, the learning data
上述の判定の結果、評価データが低確信度を示すものである場合(1102:YES)、学習データセット編集部115は、学習データセット保持部116の学習データセット126から、ステップ1101で得ている評価データに類似する全ての学習データを取得する(1109)。
As a result of the above determination, if the evaluation data indicates low confidence (1102: YES), the learning data
また、学習データセット編集部115は、学習データセット保持部116のラベル情報127から、ステップ1109で得ている学習データのラベルを取得し(1110)、処理をステップ1111に遷移させる。
Also, the learning data
一方、上述の判定の結果、評価データは低確信度を示さないものである場合(1102:NO)、機械学習データセット評価支援装置100の学習データセット編集部115は、当該評価データが高確信度を示すものか判定する(1103)。
On the other hand, as a result of the above determination, if the evaluation data does not indicate the low confidence (1102: NO), the learning
上述の判定の結果、当該評価データが高確信度を示すものではない場合(1103:NO)、機械学習データセット評価支援装置100の学習データセット編集部115は、処理を1116に遷移させる。
As a result of the above determination, if the evaluation data does not indicate high confidence (1103: NO), the learning
一方、上述の判定の結果、評価データが高確信度を示すものである場合(1103:YES)、機械学習データセット評価支援装置100の学習データセット編集部115は、当該評価データが低安定度を示すものか判定する(1104)。
On the other hand, as a result of the above determination, if the evaluation data indicates a high degree of certainty (1103: YES), the learning
上述の判定の結果、当該評価データが低安定度を示すものではない場合(1104:NO)、機械学習データセット評価支援装置100の学習データセット編集部115は、学習データセット保持部116の学習データセット126から、当該評価データに類似する全ての学習データを取得する(1105)。
As a result of the above determination, if the evaluation data does not indicate low stability (1104: NO), the learning data
なお、上述の「類似」について判定する手法としては、例えば、図15で示す式1501及び式1502を用いたものを想定できる。或いは、図16で示すように、類似するデータとその類似度を学習データとして学習させたAIモデルを用意し、類似度を判定する構成1503も想定できる。
It should be noted that, as a method for determining "similarity" described above, for example, a method using equations 1501 and 1502 shown in FIG. 15 can be assumed. Alternatively, as shown in FIG. 16, a
続いて、機械学習データセット評価支援装置100の学習データセット編集部115は、学習データセット保持部16のラベル情報127から、ステップ1105で得ている学習データのラベルを取得する(1106)。
Subsequently, the learning data
また、機械学習データセット評価支援装置100の学習データセット編集部115は、ステップ1106で取得したラベルと、ステップ1101で得ている評価データの推論結果を比較する(1107)。
Also, the learning data
上述の比較の結果、上述のラベルと推論結果が一致する場合(1108:YES)、機械学習データセット評価支援装置100の学習データセット編集部115は、処理をステップ1116に遷移させる。
As a result of the above comparison, if the above label matches the inference result (1108: YES), the learning
他方、上述の判定の結果、ラベルと推論結果が一致しない場合(1108:NO)、機械学習データセット評価支援装置100の学習データセット編集部115は、学習データセット保持部116の学習データセット126から、当該学習データを削除する(1111)。
On the other hand, as a result of the above determination, if the label and the inference result do not match (1108: NO), the learning data
また、機械学習データセット評価支援装置100の学習データセット編集部115は、学習データセット保持部116のラベル情報127から、当該学習データのラベルを削除し(1112)、処理をステップ1116に遷移させる。
Also, the learning data
こうした、評価データにおける確信度と安定度が高いケースにおいて、当該評価データと類似の学習データのラベルと評価データの推論結果が一致しない場合、当該学習データやラベルの削除処理を行うことで、正解ラベルが不適切な学習データの排除が可能となる(図22参照)。なお、学習データセット編集部115は、削除する学習データやラベルの情報を、出力装置106にて表示しても良い。
In such a case where the confidence and stability of the evaluation data are high, if the labels of learning data similar to the evaluation data and the inference results of the evaluation data do not match, the training data and labels are deleted. It becomes possible to exclude learning data with inappropriate labels (see FIG. 22). Note that the learning data
一方、評価データにおける確信度が低いケースにおいて、正解ラベルが異なる学習データの不用意な近接の排除、学習意図とは異なる特徴量が優勢な学習データの排除が可能となる(図23参照)。なお、学習データセット編集部115は、削除する学習データやラベルの情報を、出力装置106にて表示しても良い。
On the other hand, in the case where the degree of certainty in the evaluation data is low, it is possible to eliminate inadvertent proximity of learning data with different correct labels, and to eliminate learning data in which feature amounts different from the learning intention are predominant (see FIG. 23). Note that the learning data
また、評価データにおける確信度が高く、安定度が低いケースにおいて、不足している学習データの補足が可能となる(図24参照)。なお、学習データセット編集部115は、補足する学習データの情報を、出力装置106にて表示しても良い。
In addition, in the case where the evaluation data has a high degree of certainty and a low degree of stability, it is possible to supplement missing learning data (see FIG. 24). Note that the learning data
ここで、上述の処理1104での判定の結果、評価データが低安定度を示すものである場合(1104:YES)、機械学習データセット評価支援装置100の学習データセット編集部115は、当該評価データに類似するデータを生成する(1113)。
Here, as a result of the determination in the process 1104 described above, if the evaluation data indicates low stability (1104: YES), the learning data
なお、この類似するデータの生成は、図16で示すように、生成元のデータの特徴量を微小変化させたデータを生成する手法1601、生成元のデータを微小回転、変形、変色させたデータを生成する手法1602、及びデータ生成ニューラルネットワークを利用してデータを生成する手法1603、などを想定できる。 As shown in FIG. 16, this similar data is generated by a method 1601 of generating data by slightly changing the feature amount of the original data, data by slightly rotating, deforming, or discoloring the original data. and a method 1603 of generating data using a data generating neural network.
また、機械学習データセット評価支援装置100の学習データセット編集部115は、学習データセット保持部116の学習データセット126に、ステップ1113で生成した学習データを追加する(1114)。
Also, the learning data
続いて、機械学習データセット評価支援装置100の学習データセット編集部115は
、学習データセット保持部116のラベル情報127に、ステップ1113で生成した学習データに関するラベルを追加し(1115)、処理をステップ1116に遷移させる。
Subsequently, the learning data
また、機械学習データセット評価支援装置100の学習データセット編集部115は、評価データセット125の評価データのうち未処理のものが残っていないか判定し(1116)、未処理のものが残っている、すなわち今次のフローでの処理対象とした評価データが最後の評価データではない場合(1116:NO)、機械学習データセット評価支援装置100の学習データセット編集部115は、処理を1101に戻す。
In addition, the learning data
一方、上述の判定の結果、未処理のものが残っていない、すなわち今次のフローでの処理対象とした評価データが最後の評価データであった場合(1116:YES)、機械学習データセット評価支援装置100の学習データセット編集部115は、本フローを終了する。
On the other hand, as a result of the above determination, if there are no unprocessed data left, that is, if the evaluation data to be processed in the next flow is the last evaluation data (1116: YES), the machine learning dataset evaluation The learning data
<具体例:実施例1>
続いて、より具体的な例に沿って本実施形態の機械学習データセット評価支援技術について説明する。図17は、実施例1における機械学習データセット評価支援装置100の機能構成を示すブロック図である。
<Specific example: Example 1>
Subsequently, the machine learning data set evaluation support technology of the present embodiment will be described along more specific examples. FIG. 17 is a block diagram showing the functional configuration of the machine learning dataset
基本的な構成については図1で示したものと同様であり、異なる部分は、推論実行部111における学習済みAIモデル保持部112で保持するAIモデルが、標識識別AIモデル118A、である点である。つまり、この場合の学習済みAIモデルは、道路標識のイメージから当該道路標識を判別するものである。
The basic configuration is the same as that shown in FIG. 1, except that the AI model held in the learned AI model holding unit 112 in the inference execution unit 111 is the sign
そこで図18にて、「60」なる数値を示す道路標識に関する、1~4までの計4つの評価データ1801、その推論結果1802、及び差異解析結果1803の各例を示す。また、そうした差異解析結果等に関する閾値1901~1903を図19にて例示する。 Therefore, FIG. 18 shows examples of a total of four evaluation data 1801 from 1 to 4, the inference result 1802, and the difference analysis result 1803 regarding the road sign indicating the numerical value "60". FIG. 19 illustrates threshold values 1901 to 1903 related to such difference analysis results.
また、各評価データに関する評価結果2001を、図20で示す。評価データ1の評価結果は、「確信度が高確信度の閾値以上、安定度が低安定度の閾値以上であり、確信度が高く安定度も高い」というものである。評価データ2の評価結果は、「確信度が低確信度の閾値未満であり、確信度が低い」というものである。評価データ3の評価結果は、「安定度が低安定度の閾値未満であり、安定度が低い」というものである。また、評価データ4の評価結果は、「確信度が高確信度の閾値以上、安定度が低安定度の閾値以上であり、確信度が高く安定度も高い」というものである。
FIG. 20 shows evaluation results 2001 for each evaluation data. The evaluation result of the
こうした評価結果を踏まえると、図21で示すように評価データ1については、推論結果とラベルが一致する類似データを残す。また図22で示すように評価データ4については、推論結果とラベルが一致しない類似データはラベルとともに削除する。また図23で示すように評価データ2については、ラベルとともに学習データを削除する。また図24で示すように評価データ3については、類似データを追加する。
Based on these evaluation results, as shown in FIG. 21, for
<具体例:実施例2>
また、機械学習データセット評価支援装置100が、図25で示すように解析結果表示部117をさらに備える形態についても想定できる。この場合、解析結果表示部117は、図26で示すように、推論結果の確信度を示す分布図2601、2602を出力装置106に表示させる。同様に、解析結果表示部117は、図27で示すように、推論結果の安定度を示す分布図2701、2702を出力装置106に表示させる。
<Specific example: Example 2>
Further, it is possible to assume a mode in which the machine learning dataset
また、解析結果表示部117は、図28で示すように、図26及び図27で示す推論結
果を踏まえた、高確信度、低確信度、及び低安定度の各閾値2801~2803を出力装置106に表示させる。
In addition, as shown in FIG. 28, the analysis
また、解析結果表示部117は、図29で示すように、評価データの評価結果2901を出力装置106に表示させる。
Also, the analysis
以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。 Although the best mode for carrying out the present invention has been specifically described above, the present invention is not limited to this, and can be variously modified without departing from the scope of the invention.
こうした本実施形態によれば、学習済みAIモデルの推論特性を確信度と安定度から分析することで、不適切な学習の原因となるデータを除去し、学習が不足しているデータを追加した、学習データセットを構成可能である。ひいては、不適切な学習や学習不足を回避する、洗練された学習データセットの構成が可能となる。 According to this embodiment, by analyzing the inference characteristics of the trained AI model from the confidence and stability, data that causes inappropriate learning is removed and data that lacks learning is added. , can constitute the training dataset. As a result, it is possible to construct a sophisticated training data set that avoids inappropriate learning and insufficient learning.
本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態の機械学習データセット評価支援装置において、前記解析結果を出力装置に表示する処理をさらに実行するものである、としてもよい。 At least the following will be clarified by the description of this specification. That is, the machine learning dataset evaluation support device of the present embodiment may further execute a process of displaying the analysis result on an output device.
これによれば、複数の推論結果の間の差異を、推論結果の確信度及び推論結果の安定度の観点でユーザに明示できる。 According to this, the difference between a plurality of inference results can be clearly indicated to the user in terms of the certainty of the inference result and the stability of the inference result.
また、本実施形態の機械学習データセット評価支援装置において、前記推論実行部は、前記複数の学習済みAIモデルとして、学習時に学習データセットないしモデル構造を変化させて訓練したAIモデルを用いる、としてもよい。 Further, in the machine learning dataset evaluation support device of the present embodiment, the inference execution unit uses an AI model trained by changing the learning dataset or model structure at the time of learning as the plurality of trained AI models. good too.
これによれば、推論結果として、学習データセットやモデル構造のゆらぎを踏まえたものを効率良く得られることとなる。 According to this, it is possible to efficiently obtain an inference result based on fluctuations in the learning data set and the model structure.
また、本実施形態の機械学習データセット評価支援装置において、前記推論実行部は、前記複数の学習済みAIモデルとして、推論時にモデル構造を変化させた学習済みAIモデルを用いる、としてもよい。 Further, in the machine learning dataset evaluation support device of the present embodiment, the inference execution unit may use, as the plurality of trained AI models, trained AI models whose model structure is changed during inference.
これによれば、1つのモデルを順次変化させることによるモデル数の削減、モデルの推論結果の履歴をモデルの変化に反映することによる推論結果の解析の高精度化を図ることができる。ひいては、不適切な学習や学習不足を回避する、より洗練された学習データセットの構成が可能となる。 According to this, it is possible to reduce the number of models by sequentially changing one model, and to improve the accuracy of the analysis of the inference results by reflecting the history of the inference results of the models in the model changes. As a result, it is possible to construct a more sophisticated learning data set that avoids inappropriate learning and insufficient learning.
また、本実施形態の機械学習データセット評価支援装置において、前記推論実行部は、前記複数の学習済みAIモデルを逐次的に実行して複数の推論結果を得るものである、としてもよい。 Further, in the machine learning dataset evaluation support device of the present embodiment, the inference execution unit may sequentially execute the plurality of trained AI models to obtain a plurality of inference results.
これによれば、一度に実行されるのが1つのモデルのみであることによる推論実行に要する計算資源の減少を図ることができる。 According to this, since only one model is executed at a time, it is possible to reduce computational resources required for inference execution.
また、本実施形態の機械学習データセット評価支援装置において、前記推論実行部は、前記複数の学習済みAIモデルを並列に実行して複数の推論結果を同時に得るものである、としてもよい。 Further, in the machine learning dataset evaluation support device of the present embodiment, the inference execution unit may execute the plurality of trained AI models in parallel to simultaneously obtain a plurality of inference results.
これによれば、複数の推論結果を同時に得ることによる処理時間の短縮を図ることができる。 According to this, it is possible to shorten the processing time by simultaneously obtaining a plurality of inference results.
また、本実施形態の機械学習データセット評価支援装置において、前記学習データセット編集部は、前記推論結果の確信度が所定の閾値より大きい評価データに類似しかつ評価対象データの推論結果と正解ラベルが異なる学習データを、前記学習データセットから削除する処理をさらに実行するものである、としてもよい。 Further, in the machine learning dataset evaluation support device of the present embodiment, the learning dataset editing unit is configured such that the inference result of the inference result is similar to the evaluation data having a certainty greater than a predetermined threshold, and the inference result of the evaluation target data and the correct label may further execute a process of deleting learning data different from the learning data set from the learning data set.
これによれば、正解ラベルが不適切な学習データの排除を図ることができる。 According to this, it is possible to eliminate learning data with inappropriate correct labels.
また、本実施形態の機械学習データセット評価支援装置において、前記学習データセット編集部は、前記推論結果の確信度が所定の閾値より小さい評価データに類似する学習データを、前記学習データセットから削除する処理をさらに実行するものである、としてもよい。 Further, in the machine learning data set evaluation support device of the present embodiment, the learning data set editing unit deletes from the learning data set learning data similar to the evaluation data in which the certainty of the inference result is smaller than a predetermined threshold. It may be assumed that the processing to be performed is further executed.
これによれば、正解ラベルが異なる学習データの不用意な近接の排除、学習意図とは異なる特徴量が優勢な学習データの排除を図ることができる。 According to this, it is possible to eliminate inadvertent proximity of learning data with different correct labels, and to eliminate learning data in which a feature amount different from the learning intention is dominant.
また、本実施形態の機械学習データセット評価支援装置において、前記学習データセット編集部は、前記推論結果の確信度が所定の閾値より大きく、安定度が所定の閾値より小さい評価データに類似する学習データを生成し、前記学習データセットに追加する処理をさらに実行するものである、としてもよい。 Further, in the machine learning data set evaluation support device of the present embodiment, the learning data set editing unit includes a learning data similar to the evaluation data in which the degree of certainty of the inference result is greater than a predetermined threshold and the degree of stability is less than a predetermined threshold. The process of generating data and adding it to the learning data set may be further performed.
これによれば、不足している学習データの補足が可能となる。 According to this, it is possible to supplement missing learning data.
100 機械学習データセット評価支援装置
101 記憶装置
102 プログラム
103 メモリ
104 演算装置
105 入力装置
106 出力装置
107 通信装置
110 評価データセット保持部
111 推論実行部
112 学習済みAIモデル保持部
113 差異解析部
114 データ評価部
115 学習データセット編集部
116 学習データセット保持部
117 解析結果表示部
118 学習済みAIモデル
125 評価データセット
126 学習データセット
127 ラベル情報
100 Machine learning data set evaluation support device 101
Claims (10)
所定の評価データセットを複数の学習済みAIモデルに入力し、複数の推論結果を得る推論実行部と、
前記複数の推論結果の間の差異を、前記複数の学習済みAIモデルそれぞれにおける推論結果の確信度及び推論結果の安定度から解析する差異解析部と、
前記差異の解析結果に基づいて、前記評価データセットを評価するデータ評価部と、
前記評価データセットの評価結果に基づいて前記学習データセット保持部に保持されている学習データセット及びラベル情報を編集する学習データセット編集部と、
を備えることを特徴とする機械学習データセット評価支援装置。 a learning data set holding unit that holds a learning data set and label information used for supervised machine learning;
an inference execution unit that inputs a predetermined evaluation data set to a plurality of trained AI models and obtains a plurality of inference results;
a difference analysis unit that analyzes the difference between the plurality of inference results from the degree of certainty of the inference result and the stability of the inference result in each of the plurality of trained AI models;
a data evaluation unit that evaluates the evaluation data set based on the difference analysis result;
a learning data set editing unit that edits the learning data set and label information held in the learning data set holding unit based on the evaluation result of the evaluation data set;
A machine learning dataset evaluation support device comprising:
教師あり機械学習に用いる学習データセット及びラベル情報を記憶装置で保持し、
所定の評価データセットを複数の学習済みAIモデルに入力し、複数の推論結果を得る処理と、前記複数の推論結果の間の差異を、前記複数の学習済みAIモデルそれぞれにお
ける推論結果の確信度及び推論結果の安定度から解析する処理と、前記差異の解析結果に基づいて、前記評価データセットを評価する処理と、前記評価データセットの評価結果に基づいて前記記憶装置に保持されている学習データセット及びラベル情報を編集する処理を、
実行することを特徴とする機械学習データセット評価支援方法。 The information processing device
holding a learning data set and label information used for supervised machine learning in a storage device;
a process of obtaining a plurality of inference results by inputting a predetermined evaluation data set into a plurality of trained AI models; and a process of analyzing from the stability of the inference result, a process of evaluating the evaluation data set based on the analysis result of the difference, and a learning held in the storage device based on the evaluation result of the evaluation data set The process of editing the dataset and label information,
A machine learning dataset evaluation support method characterized by executing:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022005461A JP2023104464A (en) | 2022-01-18 | 2022-01-18 | Machine learning data set evaluation support device and machine learning data set evaluation support method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022005461A JP2023104464A (en) | 2022-01-18 | 2022-01-18 | Machine learning data set evaluation support device and machine learning data set evaluation support method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023104464A true JP2023104464A (en) | 2023-07-28 |
Family
ID=87379188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022005461A Pending JP2023104464A (en) | 2022-01-18 | 2022-01-18 | Machine learning data set evaluation support device and machine learning data set evaluation support method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023104464A (en) |
-
2022
- 2022-01-18 JP JP2022005461A patent/JP2023104464A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180268296A1 (en) | Machine learning-based network model building method and apparatus | |
Tong et al. | Directed graph contrastive learning | |
JP2005276225A (en) | Tree learning using table | |
CN111861020A (en) | Model deployment method, device, equipment and storage medium | |
Onan et al. | Exploring performance of instance selection methods in text sentiment classification | |
Krawczyk et al. | Instance reduction for one-class classification | |
JP6506360B2 (en) | Method of generating teacher data, method of generating learned model, learned model, computer and program | |
CN114463540A (en) | Segmenting images using neural networks | |
JP2018055384A (en) | Signal adjusting device, signal generation learning device, method, and program | |
JP2015060237A (en) | Prediction model learning device, prediction model learning method, and computer program | |
Thamarai et al. | An evolutionary computation approach for project selection in analogy based software effort estimation | |
JP7073171B2 (en) | Learning equipment, learning methods and programs | |
JP2023104464A (en) | Machine learning data set evaluation support device and machine learning data set evaluation support method | |
JP2019028484A (en) | Attribute identification apparatus, attribute identification model learning apparatus, method and program | |
CN107105052B (en) | Heuristic Web service combination method based on graph planning | |
Rai et al. | Differed restructuring of neural connectome using evolutionary neurodynamic algorithm for improved M2M online learning | |
JP2020030674A (en) | Information processing apparatus, information processing method, and program | |
Li et al. | Feature ranking-guided fuzzy rule interpolation | |
JP2019159918A (en) | Clustering program, clustering method, and clustering apparatus | |
JP2022045731A (en) | Information processing device, information processing system and information processing method | |
JP7160571B2 (en) | Evaluation device, evaluation method and evaluation program | |
EP3614314A1 (en) | Method and apparatus for generating chemical structure using neural network | |
Sabharwal et al. | Analysis of feature ranking techniques for defect prediction in software systems | |
Dzemyda et al. | Data science: new issues, challenges and applications | |
WO2024060066A1 (en) | Text recognition method, and model and electronic device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240312 |