JP7466815B2 - 情報処理装置 - Google Patents
情報処理装置 Download PDFInfo
- Publication number
- JP7466815B2 JP7466815B2 JP2024503806A JP2024503806A JP7466815B2 JP 7466815 B2 JP7466815 B2 JP 7466815B2 JP 2024503806 A JP2024503806 A JP 2024503806A JP 2024503806 A JP2024503806 A JP 2024503806A JP 7466815 B2 JP7466815 B2 JP 7466815B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- learning
- input data
- inference
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 78
- 238000000605 extraction Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 6
- 238000000034 method Methods 0.000 description 140
- 238000012360 testing method Methods 0.000 description 55
- 230000008569 process Effects 0.000 description 42
- 230000006870 function Effects 0.000 description 38
- 238000012549 training Methods 0.000 description 33
- 238000010801 machine learning Methods 0.000 description 25
- 239000011159 matrix material Substances 0.000 description 24
- 238000004364 calculation method Methods 0.000 description 19
- 238000012545 processing Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 238000013527 convolutional neural network Methods 0.000 description 13
- 238000013135 deep learning Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 230000015654 memory Effects 0.000 description 9
- 230000003935 attention Effects 0.000 description 8
- 230000009466 transformation Effects 0.000 description 8
- 238000010200 validation analysis Methods 0.000 description 7
- 241000282326 Felis catus Species 0.000 description 6
- 230000007423 decrease Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000001131 transforming effect Effects 0.000 description 6
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000013434 data augmentation Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000013526 transfer learning Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005293 physical law Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 241000282994 Cervidae Species 0.000 description 1
- 241000009328 Perro Species 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000010332 selective attention Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Description
実施の形態1.
<ハードウェアの構成>
入力に用いるデータは画像データ、グラフデータ、テキストデータ、時間波形データを想定する。また、出力は入力したデータに対して多値分類である。多値分類は例えば0から9までの10値に分類された、いずれかの値を出力する機械学習の一つの手法である。データは教師あり学習、または半教師あり学習である。すなわち、教師あり学習とは各入力データに対して必ず一つ以上の分類値を有しているものである。また半教師あり学習とは、必ずしも全ての入力データが分類値を有していないが、少なくとも各分類値に対して1つ以上の入力データを有するものである。本実施の形態では、上記の教師あり学習や半教師あり学習の入力データに対する分類値を正解ラベルと呼び、入力データに対する正解ラベルが正しく付与されていないデータはラベル誤りと定義する。また上記の入力データと出力データの組をデータセットと呼ぶ。
次に図2を用いて本実施の形態の概要を述べる。図2は、情報処理装置100の構成を示すブロック図である。情報処理装置100は、上述したハードウェア構成によって、制御部10、入力部6、出力部5、通信部7及び記憶部20を備えるように構成されている。
入力データ分類部は、モデル生成部が生成した学習済みモデルに基づく推論によって入力データを分類する。例えば、入力データ分類部15は、モデル生成部が生成した第1学習済みモデルに基づいて入力データを推論して分類する第1学習装置15Aと、モデル生成部が生成した第2学習済みモデルに基づいて入力データを推論して分類する第2学習装置15Bと、を有している。なお、入力データ分類部は、上述した以外の学習済みモデルに基づいて入力データの推論を行う他の学習装置を有していてもよい。制御部10の各構成の詳細については、後述する。
○正解ラベル
正解ラベルは10値分類の場合には0から9までの整数が用いられることが一般的であるが、連続である必要や0から始まる必要は必ずしもない。他にもOne Hot Vectorのように前記の1を(1,0,0)、前記の2を(0,1,0)、前記の3を(0,0,1)のように、該当する正解ラベルの位置のみに1を入れて、10値分類する場合には10×10の行列を出力としても良い。また、分かりやすさのために10値分類を用いて説明を行うが、本実施の形態においては2値分類以上であれば良く、例えば画像認識で有名なデータセットであるImageNetは1,400万枚の画像と、各画像に写っている2万以上の正解ラベルの分類数を有するが、このような大規模なデータセットにも活用することができる。また、回帰問題においては、分類問題とは異なるものの、入力データの正解、及び出力の範囲が例えば0から100までの実数の場合には、0~1、1~2、・・・、99~100というように100個の離散値に変換することで、2値以上に分類する分類問題に変換することもでき、本実施の形態に適用することが可能である。
本実施の形態で述べるラベル誤りはいくつかの場合が存在する。多値分類のデータセットを画像分類問題に使われるCIFAR-10を例に説明する。CIFAR10は、各入力データに対して飛行機、自動車、鳥、猫、鹿、犬、蛙、馬、船、トラックの10値のいずれかのラベルが付与されている。教師あり学習の場合は全ての入力データに対して正解ラベルが付与されており、半教師あり学習の場合は一部の入力データに対してのみ正解ラベルが付与されたデータである。入力データとの一致が取れていないラベルはラベル誤りとなる。例えば、犬の写真が写っているにもかかわらず、ラベルは猫となっている場合には上記の例に該当する。
次に情報処理装置に入力するデータについて、具体的に説明を行う。図5に示す画像の場合には静止画、動画があるが、動画の多値分類問題は静止画を連続的に組み合わせたものとして考えることができるため、本実施の形態では静止画のみの説明を行う。静止画においては、カラー画像とモノクロ画像があり、本実施の形態では情報処理装置への入力が、カラー画像がRGBなど2つ以上のチャネルの組み合わせなのに対して、モノクロ画像は1チャネルでできていること以外は入力データに違いはない。なお、チャネル数が複数ある場合の処理は、情報処理装置のアルゴリズムの違いによって複数あるものの、チャネル間を結合するための全結合による重み行列によって1チャネルにまとめるのが一般的である。ただし、その手法は本実施の形態においてはどのようなものであっても構わない。
データの数はデータセットによって異なるものの、教師あり学習であれば各正解ラベルに対して1,000以上の画像やグラフ、時間波形、文字列などの入力データを用意するのが望ましい。また、一つの正解ラベルにおいて類似のデータの分散が小さい状態は望ましくなく、推論時に期待される結果を包含できる分散を持った学習用のデータセットであるのが望ましい。類似する分散を持っているか確認する一つの手段として、学習データと推論データの全部または一部を入れ替えても同じ推論精度になる場合は、類似する分散であると考えることができる。
○クラスタリング
クラスタリングは入力データの類似度によってデータをグループ分けする手法を指す。多くのクラスタリングにおいて何個のグループに分けるかは、機械学習の設計者または使用者が決めるハイパーパラメータである。本実施の形態においては、正解ラベルの数が決まっているため、正解ラベルと同じ数、例えばCIFAR-10の場合は10個にクラスタリングで分類するのが望ましい。古典的なクラスタリングのアルゴリズムにおいてはK-meansが最も主流であるが、深層学習の登場以降、深層学習ベースのクラスタリングや、勾配ブースティング法など決定木に基づくクラスタリングなども知られており、本実施の形態においてはどのような方法を用いても構わない。本実施の形態においては、多くのデータに対して推論精度を出しやすい深層学習ベースのクラスタリングについて説明する。
上記のクラスタリングは教師なし学習に相当する。機械学習においては一般的に正解ラベルを与える教師あり学習と、正解ラベルを全く与えない教師なし学習と、正解はないが目的として設定した報酬を最大化する強化学習に分類される。半教師学習は教師あり学習と教師なし学習の中間に当たるが、正解ラベルを一部でも用いていることから教師あり学習の一手法として定義することもある。
本実施の形態においては、深層学習ベースの教師なし学習のうち自己教師あり学習と呼ばれる手法を用いる。自己教師あり学習はメタ学習(Meta-Learning)の中の基本的な手法であるシャムネットワーク(Siamese Network)の手法の一つとして検討されている。
自己教師あり学習に必要な特徴量を抽出するための情報処理装置について説明する。第1の学習装置は一般的な分類問題を解くための一般的な教師あり学習と同じであるため、説明しない。また、第1の学習装置と自己教師ありの違いは評価指標を定義する評価関数が異なること、及びクラス分類に必要なソフトマックス関数を用いないことである。第1の学習装置の出力層直前の全結合は必ずしも必要ではなく、全結合に入力する前の特徴量抽出の演算で所望の分類数に集約しても良い。ただし、多くの場合においてソフトマックス関数を施す方が、推論精度が向上する傾向にある。ソフトマックス関数以外にもlog-ソフトマックス関数など、ソフトマックス関数を変形した非線形関数であっても構わない。
ラベル誤りを持つデータを自己教師あり学習によって特徴量抽出し、その結果がクラスター数分の類似集合で構成される第2のデータセットとするとともに、図3に示すように類似性がないデータに関しては除去して、第2のデータセットに含めない。第2のデータセットにおいては、第1のデータセットに付与されたラベルと同じラベルを用いる条件で以下の<実験結果>での結果を得たが、自己教師あり学習の結果で類似集合と判定されたデータのラベルを変更し、第2のデータセットとしても構わない。
第1の学習装置の学習と推論は一般的な深層学習の学習と推論と同様である。具体的には入力データに対して畳み込みやAttentionなどの重み行列を演算し、特徴量を集約するためのクラス分類器である全結合などの手法によって、正解ラベルと同じ数の分類数とし、学習時においてはソフトマックス関数などを施した結果と、正解ラベルの差を演算する。その差を誤差逆伝搬法で出力側から入力側に伝搬させ、重み行列を更新していく方法である。
テストデータに対して第1学習済みモデルで用いる推論を行うのは望ましい使い方である。また、テストデータに対して特徴量抽出部で類似度から分類を行った後に、第1学習済みモデルで推論を行うことも望ましい使い方である。このとき、特徴量抽出部は第1学習済みモデルに使用した第2のデータセット内の複数のデータとの類似度を算出し、類似と判定された入力データのみを抽出するものである。また、テストデータが複数存在する場合には、第1学習済みモデルを作成時と同様に、各テストデータの特徴量を算出し、その結果を用いて類似度を求め、類似と判定されたデータのみに対して第1学習済みモデルで推論を行っても良い。
図9の実験結果を用いて本実施の形態の効果を説明する。図9はデータセットにCIFAR-10のデータを用いた実験結果である。CIFAR-10のデータには前処理でラベルの5%、及び10%のラベル誤りをランダムに与えたデータを作成した。なお、CIFAR-10の学習データは各ラベル5,000個で合計50,000個のデータであるため、5%のラベル誤りの場合においては、各ラベルあたり250個で合計2,500個のラベルに誤りを与えている。
<概要>
実施の形態1でクラスタリングした際に非類似と判定したデータを破棄していたのに対し、本実施の形態に係る情報処理装置200では、非類似と判定したデータである外れ値を集めて第3のデータセットとして定義し、その第3のデータセットを用いて学習を行う方法について説明する。
本実施の形態における外れ値とは、図3に示すように第1のデータセットに対して、クラスタリングを行いN個の類似集合を抽出し、残った非類似データを1つにまとめて外れ値として定義するものである。例えば、実施の形態1の実験で示したCIFAR-10に対してSwAVを適用したときに廃棄した1,336個の入力データが本実施の形態における外れ値に該当する。この外れ値を集めたデータを第3のデータセットとする。
図10に示すとおり、例えば、情報処理装置200は、第1のデータセットをクラスタリングで類似集合に分類されなかった非類似データを、外れ集合である第3のデータセット(第3データセット)とし、(ステップST2のNO、ステップST14)、第3のデータセットに対して外れ値ラベル(第1ラベル)を付与し(ステップST15)、第2のデータセットと組み合わせ第4のデータセット(第4データセット)を作る(ステップST16)。第2のデータセットがN値分類である場合には、外れ値ラベルをN+1にすることで、第4のデータセットはN+1値のラベルを持つデータセットとすることができる。
第2の学習装置の学習は第4のデータセットを用いて行う(ステップST17)。第4のデータセットの内、外れ値ラベルのデータの一部をテストデータとして定義する。外れ値ラベルのデータが、第2のデータセットの各ラベルのデータ数よりも多い場合は第2のデータセットのテストデータと同程度数を選定し、第2のデータセットの各ラベルのデータ数よりも少ない場合は、第2のデータセットと同程度の比で出すのが望ましい。例えばCIFAR-10の場合は、学習データはラベル毎に5,000個ずつあり、テストデータはラベル毎に1,000個ずつあるため、20%をテストデータとしている。
外れ値に判定されたデータが十分に多い場合には、第3の学習装置(不図示)を作ることができる。図11は、情報処理装置200の第3の学習装置に係る処理を示すフローグラフである。第3の学習装置は第1の学習装置と同様、第3のデータセットを使用してN値分類として学習する(ステップST21、ステップST22)。これにより、モデル生成部14によって第3学習済みモデルが生成される。情報処理装置200は、多値分類可能でラベル誤りを含むテストデータセットを取得し(ステップST23)、このテストデータセットを第2の学習装置で推論し、外れ値に分類されるか否かを判定する(ステップST24)。情報処理装置200は、ステップST22及びステップST24の結果に基づいて、第3のデータセットに対する推論結果を出力する(ステップST25)。学習データ、及びテストデータの作成方法は上記の<第4のデータセットを用いた第2の学習装置の学習>と同じであるため繰り返さない。ただし、第3の学習装置を作るためには、10値分類の場合には各ラベルあたり1,000以上のデータ数があることが望ましい。更に、第3のデータセットは入手しにくい異常値が多く含まれるデータとなるため、データの種類にもよるが画像などデータ水増し(Data Augmentation)が使える場合には用いるのが望ましい。
第1のデータセットに含まれない入力データ(学習モデルの生成に使用しなかった入力データ)を第2の学習装置で推論した結果、外れ値ラベルに判定された場合の4通りの処理方法について述べる。1つ目の方法は、外れ値ラベルに判定されたデータ(第1入力データ)を、第1のデータセットで学習した学習装置を用いて推論する方法、2つ目の方法は、外れ値ラベルに判定されたデータを、第2のデータセットで学習した学習装置を用いて推論する方法、3つ目の方法は、外れ値ラベルに判定されたデータを、第3のデータセットで学習した学習装置を用いて推論する方法、4つ目の方法は外れ値ラベルに分類された場合は判定不能と出力することである。
入力データを第2の学習装置で推論し、データ変換部11によって外れ値ラベルに判定された入力データを変形(変換)する処理を行ってから推論する方法について述べる。実施の形態1で述べたように、例えば画像においてはアフィン変換やノイズ重畳などの処理を行うことができる。
図14にテストデータを第2の学習装置で推論し、外れ値に分類された入力データを除去し、外れ値以外に分類された結果の推論精度を計算した結果を示す。図14に示すとおり、CIFAR-10の学習データをそのまま用いた第1のデータセットを10値分類すると、CNNベースのVGG13では20回のエポックで83.78%だったのに対して、第4のデータセットを11値分類する第2の学習装置において、上記と同じCNNベースのVGG13では20回のエポックで84.20%と約0.5%程度の精度の改善が見られた。なお、第2の学習装置で外れ値として分類されたデータは10,000個のテストデータの内521個であり、それらのデータは破棄し、正解ラベルと比較を行わないため推論精度に影響していない。
<概要>
実施の形態1に示したとおり、クラスタリングによって分類する数は、機械学習の設計者が決めなければならないハイパーパラメータとなる。第1のデータセットのように正解ラベルが付与され、分類数が決まっているデータに関しては、その数に分割すれば良いが、実環境におけるデータは分割数が明確に決められない場合が多い。本実施の形態の情報処理装置300による手法はそのような場合において用いることができるものである。
クラスタリングに用いる機械学習は、実施の形態1で説明したように、k-meansや自己教師あり学習などのアルゴリズムを用いることを想定する。それぞれのアルゴリズムは、クラスター数をハイパーパラメータとして定義する必要がある。実施の形態3における情報処理装置300の学習装置は、入力データを定義されたクラスター数に分類するように学習し、モデル生成部14によって第4学習済みモデルを生成する。
実施の形態1、2と同様、分類数が既知のデータであるCIFAR-10のデータを用いて説明する。ただし、実際の対象としているデータセットは分類数が分からないデータであるとする。これは例えば、物理実験で得た2つ以上の測定結果がいくつに分類できるか分からない場合や、商品を購入した客層を何種類に分類できるか分からない場合など、実環境の多くの場面で用いることができる。
図17にクラスターの数を横軸に取り、本実施の形態における目的の指標であるM値分類を行い、ラベルをM値に振り分けたデータの内から80対20で学習データとテストデータを振り分け、学習データで学習し、テストデータで推論した場合の推論結果を縦軸に取った結果を示す。図17に示すようにクラスターの数が10まではクラスタリングで作成したテストデータに対する推論精度は単調増加で上がっていくことが分かる。クラスター数が11の場合は精度が1%程度低下していることからクラスター数10でテストデータに対する推論精度が極大となることが分かる。更にクラスター数を増やしていくと、クラスター数13や18の場合にクラスター数10の場合と同程度の推論精度となることが分かり、複数の極大が出るものの、最小のクラスター数である10を選択するものである。
図18に実施の形態2と同様にクラスタリングで非類似と判定されたデータに対して、新しいラベルを与えて、推論を行う場合のフローグラフを示す。上記のとおりM>Nにおいて、クラスタリングによって第1のデータセットをM値に分類して(ステップST72)、各類似データに新しいラベルを付与しデータセットとする(ステップST73)。また、非類似のデータを一つのデータ集合(非分類データセット)とし、新しいラベル(第2ラベル)を付与し(ステップST74、ステップST75)、M値分類のラベルと結合して第5のデータセット(第5データセット)を構成する(ステップST76)ものである。そして、第5のデータセットをM+1値分類として、学習する第4の学習装置を構成しても良い(ステップST77)。なお、情報処理装置300は、類似データ分類部において、第1データセットとは異なる、正解ラベルを持たない第6のデータセット(第6データセット)を入力データとして用いてもよい。
<概要>
実施の形態1~3に述べた学習装置における出力に対して、情報エントロピーの考え方により、推論結果の確からしさを算出することができる。
本実施形態に係る情報処理装置400は、実施の形態1に係る情報処理装置100に対して、制御部10が情報エントロピー算出部16およびしきい値設定部17を更に備えている。本実施形態に係る情報処理装置400は、推論精度が高い結果ほど情報エントロピーが小さいという効果の発見に基づくものである。例えば実施の形態1~3のVGG13において、推論結果が正解の場合と不正解の場合のソフトマックス関数の出力を、大きい順番でソートして加算平均を取ると以下のようになる。
[0.937, 0.05, 0.01, 0.003, 0.0012, 0.00051, 0.00022, 0.0001,0.00005, 0.00002]
[0.702, 0.207, 0.0563, 0.021, 0.0079, 0.0032, 0.0013, 0.00065, 0.00032, 0.00015]
図21に図20で求めた情報エントロピーを元にしきい値設定部17が設定した、しきい値に基づき推論を行う処理のフローグラフを示す。図21においては、テストデータを第1の学習装置で推論を行い(ステップST92)、その推論結果のソフトマックス関数の出力結果がしきい値となる情報エントロピーよりも大きい場合(ステップST93のYES)において、N値分類する第2の学習装置を用いるものである(ステップST94、ステップST95)。ただし、必ずしも第2の学習装置でなくてもよく、第1のデータセットを用いて学習した学習装置や、第3のデータセットを第1の学習装置とは異なるアルゴリズムで学習した学習装置を用いても良い。
しきい値の判定する学習装置においては、第1の学習装置の代わりに第1のデータセットで学習した学習装置を用いる場合は、ラベル誤りが小さいデータセットの場合には、情報エントロピーが比較的小さな結果になりやすく、またH_correctとH_wrongの間も小さな幅になり、高い推論結果を得ることができる。
図21のしきい値以上になった場合においても、第2の学習装置を用いる必要は必ずしもなく、上記の<しきい値の判定する学習装置>で示したのと同様に、第1、3、4のデータセットを用いて学習を行った学習装置で推論しても良い。
しきい値判定を行った結果に対して、第1の学習装置とは異なる複数の学習装置で構成される第5の学習装置を構築し、しきい値以上となる入力データに対してしきい値以下の値が出力されるまで学習装置で繰り返し推論を行っても良い。ただし、入力データによっては収束しない場合が存在するので、その場合は全ての学習装置で推論を行っても判定できない場合は、判定できないことを出力することや、第5の学習装置による複数の学習装置の出力結果の多数決で判定することと、第5の学習装置による複数の学習装置の内、最小の情報エントロピーを出力した学習装置の推論結果に基づき推論値を出力するものである。
<概要>
実施の形態4で説明した情報エントロピーを用いると、既存のアンサンブル推論を効率的に行うことができる。アンサンブル推論は、同じデータセットに対して別々に学習した2つ以上の学習装置を用意し、1つの入力データに対して上記の異なる学習装置で推論を行い、それぞれの推論結果の和や多数決をとって、推論結果とするものである。しかしながら、異なる学習装置においては、入力データに対する推論精度に違いがあるのが一般的である。それに対して、本実施の形態は、推論精度が高いものほど重みを付けて和を取ることで推論精度を向上させることができることを示すものである。
アンサンブル推論は、複数の推論結果に対する結果の和を取るものであり、本実施の形態ではVGG13の他にResnet18、Densenet121をアンサンブル推論に用いる。なお、アンサンブル推論はソフトマックス関数を用いて良いが、ソフトマックス関数を用いると正規化され、指数関数で処理されるため、特定の推論結果(例えばVGG13)に依存してしまう傾向があり、推論精度が向上しにくい。
[6.033, 1.100, 0.5481, 0.2501, -0.0525, -0.3022, -0.594, -1.216, -2.329, -3.436]
[5.507, 0.318, -0.265, -0.492, -0.619, -0.746, -0.839, -0.917, -0.953, -0.993]
[5.004, 0.07, -0.369, -0.495, -0.568, -0.647, -0.704, -0.748, -0.767, -0.784]
VGG13は
[6.199, 1.015, 0.5345, 0.2569, -0.0423, -0.2905, -0581, -1.219, -2.37, -3.50]
[5.616, 0.2178, -0.3013, -0.5036, -0.6195, -0.7430, -0.8329, -0.9088, -0.9428, -0.9815]
[5.070, 0.007, -0.385, -0.497, -0.5673, -0.645, -0.700, -0.7425, -0.761, -0.778]
VGG13は
[4.003, 2.1348, 0.7128, 0.1674, -0.1769, -0.444, -0.754, -1.181, -1.805, -2.656]
[4.044, 1.666, 0.217, -0.337, -0.614, -0.7903, -0.920, -1.030, -1.089, -1.146]
[3.953, 1.222, -0.1148, -0.469, -0.583, -0.675, -0.766, -0.831, -0.855, -0.880]
上記のDensenet121、Resnet18、VGG13の推論結果の和を取って正解ラベルとの比較を行うと94.59%の推論精度であった。それに対して、推論精度が高い学習装置ほど情報エントロピーは小さいため、情報エントロピーの逆数を関数に含む重みとすることで推論精度を向上させられることができる。すなわちf(・)という関数に基づき、VGG13の情報エントロピーをentropy1、Resnet18の情報エントロピーをentropy2、Densenet121の情報エントロピーをentropy3とすると、
f(1/entropy1)*VGG13+f(1/entropy2)*Resnet18+f(1/entropy3)*Densenet121
で計算することで推論精度を向上させることができる。一例としてf(・)が恒等写像である場合はf(x)=xであるため、
(1/entropy1)*VGG13+(1/entropy2)*Resnet18+(1/entropy3)*Densenet121
によって、算出することができる。
図22にアンサンブル推論のフローグラフを示す。第1のデータセットのように多値分類可能なテストデータに対して(ステップST81)、2つ以上の情報処理装置で推論を行い、2つ以上の推論結果を出力する(ステップST02)。そして、その出力結果の平均値から情報エントロピーを算出し(ステップST03、ステップST04)、情報エントロピーの逆数を成分に含む関数を重みとして各学習装置の出力結果に掛け算した後に和を取る(ステップST05、ステップST06)ことで、情報エントロピーを用いたアンサンブル推論を構成することができる。
Claims (4)
- 入力データの特徴量を抽出する特徴量抽出部と、
複数の入力データを含む第1データセットと、前記第1データセットに含まれる複数の入力データのそれぞれに対して前記特徴量抽出部が抽出した特徴量と、に基づいて、前記第1データセットに含まれる複数の入力データの一部または全部を、特定の2以上の整数をNとすると、互いに特徴量が類似する複数の入力データからなるN個のデータセットに分類すると共に、前記N個のデータセットのそれぞれに互いに異なるN個のラベルを新たに付与する類似データ分類部と、
前記N個のデータセットのそれぞれ一部を使用して、前記N個のデータセットのそれぞれに付与されたラベルのいずれかに対応するように入力データを分類するための学習済みモデルを生成するモデル生成部と、
前記モデル生成部が生成した学習済みモデルに基づく推論によって入力データを分類する入力データ分類部と、を備え、
前記類似データ分類部は、前記入力データ分類部が、前記モデル生成部が生成した学習済みモデルに基づく推論によって、前記N個のデータセットのうち前記モデル生成部が学習済みモデルの生成に使用しなかった入力データを分類した際の推論精度に基づいて前記Nの値を正解ラベルの個数とする第5データセットとする
ことを特徴とする情報処理装置。 - 前記第1データセットは、特定の2以上の整数をMとすると、M個の正解ラベルと、前記M個の正解ラベルに対応付けられた複数の入力データと、を含み、
前記類似データ分類部は、前記M以上かつ分類数に対して前記推論精度が極大となる最小の前記Nを前記第5データセットとする
ことを特徴とする請求項1記載の情報処理装置。 - 前記入力データ分類部において、前記第1データセットとは異なる、正解ラベルを持たない第6データセットを入力データとして用いる
ことを特徴とする請求項1記載の情報処理装置。 - 前記類似データ分類部は、前記第1データセットに含まれる複数の入力データのうち、前記類似データ分類部によって前記第5データセットとして分類されなかった入力データを非分類データセットとすると、前記非分類データセットに前記第5データセットのそれぞれに付与されたラベルとは異なる第2ラベルを付与し、
前記モデル生成部は、前記第5データセット及び前記非分類データセットを使用して、入力データを前記第5データセットのそれぞれに付与されたラベル及び前記第2ラベルのいずれかに対応するように分類するための学習済みモデルである第4学習済みモデルを生成する
ことを特徴とする請求項1記載の情報処理装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/014204 WO2023181319A1 (ja) | 2022-03-25 | 2022-03-25 | 情報処理装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2023181319A1 JPWO2023181319A1 (ja) | 2023-09-28 |
JPWO2023181319A5 JPWO2023181319A5 (ja) | 2024-03-01 |
JP7466815B2 true JP7466815B2 (ja) | 2024-04-12 |
Family
ID=88100818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024503806A Active JP7466815B2 (ja) | 2022-03-25 | 2022-03-25 | 情報処理装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7466815B2 (ja) |
WO (1) | WO2023181319A1 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017076287A (ja) | 2015-10-15 | 2017-04-20 | キヤノン株式会社 | データ解析装置、データ解析方法及びプログラム |
JP2020190935A (ja) | 2019-05-22 | 2020-11-26 | 富士通株式会社 | 機械学習プログラム、機械学習方法および機械学習装置 |
JP2021131678A (ja) | 2020-02-19 | 2021-09-09 | 京セラドキュメントソリューションズ株式会社 | 学習用データセット生成システム、学習用データセット生成サーバーおよび学習用データセット生成プログラム |
JP2022003446A (ja) | 2020-06-23 | 2022-01-11 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置 |
JP2022037802A (ja) | 2020-08-25 | 2022-03-09 | 富士通株式会社 | データ管理プログラム、データ管理方法及び情報処理装置 |
-
2022
- 2022-03-25 WO PCT/JP2022/014204 patent/WO2023181319A1/ja active Application Filing
- 2022-03-25 JP JP2024503806A patent/JP7466815B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017076287A (ja) | 2015-10-15 | 2017-04-20 | キヤノン株式会社 | データ解析装置、データ解析方法及びプログラム |
JP2020190935A (ja) | 2019-05-22 | 2020-11-26 | 富士通株式会社 | 機械学習プログラム、機械学習方法および機械学習装置 |
JP2021131678A (ja) | 2020-02-19 | 2021-09-09 | 京セラドキュメントソリューションズ株式会社 | 学習用データセット生成システム、学習用データセット生成サーバーおよび学習用データセット生成プログラム |
JP2022003446A (ja) | 2020-06-23 | 2022-01-11 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置 |
JP2022037802A (ja) | 2020-08-25 | 2022-03-09 | 富士通株式会社 | データ管理プログラム、データ管理方法及び情報処理装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2023181319A1 (ja) | 2023-09-28 |
JPWO2023181319A1 (ja) | 2023-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102071582B1 (ko) | 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치 | |
Hakim et al. | A systematic review of rolling bearing fault diagnoses based on deep learning and transfer learning: Taxonomy, overview, application, open challenges, weaknesses and recommendations | |
US11270124B1 (en) | Temporal bottleneck attention architecture for video action recognition | |
Adams et al. | A survey of feature selection methods for Gaussian mixture models and hidden Markov models | |
CN110659742B (zh) | 获取用户行为序列的序列表示向量的方法和装置 | |
US20210397954A1 (en) | Training device and training method | |
US11288567B2 (en) | Method for training deep neural network (DNN) using auxiliary regression targets | |
Shadrach et al. | RETRACTED ARTICLE: Neutrosophic Cognitive Maps (NCM) based feature selection approach for early leaf disease diagnosis | |
Xiang et al. | Towards interpretable skin lesion classification with deep learning models | |
Wang et al. | Deep generative mixture model for robust imbalance classification | |
Zou et al. | Handwritten chinese character recognition by convolutional neural network and similarity ranking | |
Behrouzi et al. | Multimodal movie genre classification using recurrent neural network | |
JP7466815B2 (ja) | 情報処理装置 | |
CN116630943A (zh) | 一种驾驶员疲劳检测模型构建方法、装置、设备及介质 | |
US20230419170A1 (en) | System and method for efficient machine learning | |
Karras et al. | A Hybrid Ensemble Deep Learning Approach for Emotion Classification | |
Rungta et al. | A deep learning based approach to measure confidence for virtual interviews | |
Challita et al. | New technique for feature selection: Combination between elastic net and relief | |
Li et al. | CNN-LDNF: an image feature representation approach with multi-space mapping | |
JP7483172B2 (ja) | 情報処理装置及び情報処理方法 | |
Zakaria et al. | Improved VGG Architecture in CNNs for Image Classification | |
Agustiono et al. | A modification of convolutional neural network layer to increase images classification accuracy | |
Xiang et al. | Semi-parametric training of autoencoders with Gaussian kernel smoothed topology learning neural networks | |
EP3401843A1 (en) | A method, an apparatus and a computer program product for modifying media content | |
Shtino et al. | Comparative Study of K-NN, Naive Bayes and SVM for Face Expression Classification Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240122 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240122 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20240122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240305 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240402 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7466815 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |