JP7466815B2 - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JP7466815B2
JP7466815B2 JP2024503806A JP2024503806A JP7466815B2 JP 7466815 B2 JP7466815 B2 JP 7466815B2 JP 2024503806 A JP2024503806 A JP 2024503806A JP 2024503806 A JP2024503806 A JP 2024503806A JP 7466815 B2 JP7466815 B2 JP 7466815B2
Authority
JP
Japan
Prior art keywords
data
learning
input data
inference
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2024503806A
Other languages
English (en)
Other versions
JPWO2023181319A1 (ja
JPWO2023181319A5 (ja
Inventor
佑介 山梶
邦彦 福島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2023181319A1 publication Critical patent/JPWO2023181319A1/ja
Publication of JPWO2023181319A5 publication Critical patent/JPWO2023181319A5/ja
Application granted granted Critical
Publication of JP7466815B2 publication Critical patent/JP7466815B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本開示は、情報処理装置に関する。
従来、画像認識や動画、グラフなどに用いられるニューラルネットワークは、各ドメインのデータを情報処理装置によって学習させ、データ内の特徴量を抽出する。特徴量を抽出一つの手段として深層学習での畳み込み演算を用いて高い認識性能が得られるCNN(畳み込みニューラルネットワーク)が知られている。また、特徴量を抽出する別の手段としてATTENTION(選択的注意)の応用であるトランスフォーマーを活用し、画像であればViT(ビジョン・トランスフォーマー・ネットワーク)、グラフであればグラフ・トランスフォーマー・ネットワークと呼ばれるニューラルネットワーク知られている。この際、いずれの方法においてもデータを分類するタスクの場合には、各分類に対する確からしさを出力し、その確からしさが最も高いものを出力する。特に、確からしさが低い場合においては出力をしない方法が知られている(例えば特許文献1)。
特開2013-117861号公報
一般に、上記情報処理装置のように、各入力データに対して正解ラベルが付与されたデータセットを用いて学習を行う情報処理装置においては、正解ラベルの誤りが学習結果に影響されて、推論の精度が低下してしまう場合があった。
本開示は、上記課題を解決するものであり、推論の精度を向上させることができる情報処理装置及び情報処理方法を提供することを目的とする。
本開示に係る情報処理装置は、入力データの特徴量を抽出する特徴量抽出部と、複数の入力データを含む第1データセットと、第1データセットに含まれる複数の入力データのそれぞれに対して特徴量抽出部が抽出した特徴量と、に基づいて、第1データセットに含まれる複数の入力データの一部または全部を特定の2以上の整数をNとすると、互いに特徴量が類似する複数の入力データからなるN個のデータセット分類すると共に、N個のデータセットのそれぞれに互いに異なるN個のラベルを新たに付与する類似データ分類部と、N個のデータセットのそれぞれ一部を使用して、N個のデータセットのそれぞれに付与されたラベルのいずれかに対応するように入力データを分類するための学習済みモデルを生成するモデル生成部と、モデル生成部が生成した学習済みモデルに基づく推論によって入力データを分類する入力データ分類部と、を備え、類似データ分類部は、入力データ分類部が、モデル生成部が生成した学習済みモデルに基づく推論によって、N個のデータセットのうちモデル生成部が学習済みモデルの生成に使用しなかった入力データを分類した際の推論精度に基づいてNの値を正解ラベルの個数とする第5データセットとすることを特徴とするものである。
本開示によれば、上記のように構成したので、推論の精度を向上させることができる。
実施の形態1に係る情報処理装置のハードウェア構成の一例を示す図である。 実施の形態1に係る情報処理装置の構成を示すブロック図である。 実施の形態1に係る情報処理装置が行うクラスタリングの処理を示すフローグラフである。 実施の形態1に係る情報処理装置が行うクラスタリングの処理を示す概略図である。 実施の形態1に係る情報処理装置に入力される画像のデータセットの一例を示す図である。 実施の形態1に係る情報処理装置に入力されるグラフのデータセットの一例を示す図である。 実施の形態1に係る情報処理装置に入力される自然言語のデータセットの一例を示す図である。 実施の形態1に係る情報処理装置に入力される信号の時間波形のデータセットの一例を示す図である。 実施の形態1に係る情報処理装置のテストデータに対する推論精度を示す実験データである。 実施の形態2に係る情報処理装置が行う学習の処理を示すフローグラフである。 実施の形態2に係る情報処理装置が行う学習の処理を示すフローグラフである。 実施の形態2に係る情報処理装置が行う学習の処理を示すフローグラフである。 実施の形態2に係る情報処理装置が行う学習の処理を示すフローグラフである。 実施の形態2に係る情報処理装置のテストデータに対する推論精度を示す実験データである。 実施の形態3に係る情報処理装置が行う学習の処理を示すフローグラフである。 実施の形態3に係る情報処理装置が行う学習の処理を示すフローグラフである。 実施の形態3に係る情報処理装置のテストデータに対する推論精度を示す実験データである。 実施の形態3に係る情報処理装置が行う学習の処理を示すフローグラフである。 実施の形態4に係る情報処理装置の構成を示すブロック図である。 実施の形態4に係る情報処理装置が行う学習の処理を示すフローグラフである。 実施の形態4に係る情報処理装置が行う学習の処理を示すフローグラフである。 実施の形態5に係る情報処理装置が行う学習の処理を示すフローグラフである。
以下、本開示に係る実施の形態について図面を参照しながら詳細に説明する。
実施の形態1.
<ハードウェアの構成>
図1は、本願の実施の形態1による情報処理装置100としてのハードウェア構成の一例を示す図である。情報処理装置100としてのハードウェアは、情報ネットワークに接続されていないスタンドアロンのコンピュータであっても良いし、情報ネットワーク経由でクラウド等に接続されたサーバクライアン卜システムのサーバ、またはクライアン卜であっても良い。さらにハードウェアは、スマートフォンまたはマイコンであっても良い。また工場内などを想定した場合には、エッジコンピューティングと呼ばれる工場内で閉じたネットワーク内での計算機環境であっても良い。
情報処理装置100は、CPU(Central Processing Unit)1を内蔵しており、CPU1にはバス配線を介して、入出力インタフェース4が接続されている。CPU1は入出力インタフェース4を介して、機械学習を用いるユーザによって入力部6が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)2aに格納されているプログラムを実行する。あるいは、CPU1は、ハードディスク(HDD)2c、あるいはSSD(Solid State Drive、図示せず)に格納されたプログラムを、RAM(Random Access Memory)2bにロードして、必要に応じて読み書きして実行する。これによりCPU1は各種の処理を行い、情報処理装置100を所定の機能を有する装置として機能させる。
CPU1は各種処理の結果を必要に応じて入出力インタフェース4を介して、出力部5である出力デバイスから出力、あるいは通信部7である通信デバイスから送信、更にはハードディスク2cに記録させる。また、CPU1は各種情報を必要に応じて入出力インタフェース4を介して通信部7から受信し、ハードディスク2cから呼び出して用いる。
入力部6は、キーボード、マウス、マイクあるいはカメラ等で構成される。また、出力部5は、LCD(Liquid Crystal Display)あるいはスピーカ等で構成される。また、CPU1が実行するプログラムは、情報処理装置100に内蔵されている記録媒体としてのハードディスク2cまたはROM2aに予め記録しておくことができる。あるいは、プログラムやデータセットは、ドライブ8を介して接続されるリムーバブル記録媒体9に格納(記録)しておくことができる。
このようなリムーバブル記録媒体9は、いわゆるパッケージソフトウェアとして提供することができる。リムーバブル記録媒体9としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)、MO(Magneto Optical)ディスク、DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
また、プログラムやデータセットは複数のハードウェア間を有線、無線のいずれか一方あるいは、双方を介して接続するWWW(World Wide Web)等のシステム(Com port)を通して送受信することができる。さらに、後述する学習を行い、学習によって得られた重み関数のみを、上記方法で送受信することができる。
例えば、CPU1は、情報処理装置100を機械学習の演算処理を行う機械学習装置として機能させる。なお、機械学習装置はCPUあるいはGPU(Graphics Processing Unit)等の並列演算を得意とする汎用のハードウェアで構成する他、FPGA(Field-Programmable Gate Array)あるいはASIC(Application Specific Integrated Circuit)等の専用のハードウェアで構成することができる。
さらに情報処理装置100は、通信ポートを経由して複数台で構成されていても良く、後述する学習と推論とが、別構成のハードウェアで実施されていても良い。さらに、情報処理装置100が、通信ポートを経由して、異なるハードウェアに繋がれたセンサ信号を受信する、あるいは通信ポートを経由して複数のセンサ信号を受信してもよい。さらに、1つのハードウェア内に、複数の仮想ハードウェア環境を用意し、各仮想ハードウェアを個別のハードウェアとして扱っても構わない。
<言葉の定義>
入力に用いるデータは画像データ、グラフデータ、テキストデータ、時間波形データを想定する。また、出力は入力したデータに対して多値分類である。多値分類は例えば0から9までの10値に分類された、いずれかの値を出力する機械学習の一つの手法である。データは教師あり学習、または半教師あり学習である。すなわち、教師あり学習とは各入力データに対して必ず一つ以上の分類値を有しているものである。また半教師あり学習とは、必ずしも全ての入力データが分類値を有していないが、少なくとも各分類値に対して1つ以上の入力データを有するものである。本実施の形態では、上記の教師あり学習や半教師あり学習の入力データに対する分類値を正解ラベルと呼び、入力データに対する正解ラベルが正しく付与されていないデータはラベル誤りと定義する。また上記の入力データと出力データの組をデータセットと呼ぶ。
データセットは、学習データとテストデータに分離可能である。学習データはクラスタリングや機械学習の学習を行うものであるのに対し、テストデータに対しては学習を行わず、学習で得た特性を検証するために用いる。更に1つの正解ラベルあたりデータ数が5,000以上ある場合など、十分なデータを用意できる場合には学習データ、テストデータとは別に検証用データを用意しても良い。この場合は、検証用データは上記のテストデータと同様の役割を果たすのに対して、テストデータは学習が完了した情報処理装置の推論時に精度確認用に1度だけ用いるものであり、学習時には用いないものである。
このように検証用データを用いることでテストデータに対する過学習を避けることが可能となり、検証用データとテストデータとの推論精度(推論の確度)の間に乖離が発生する場合には過学習していると判断することが可能となる。そのため、検証用データを用いる場合においては、実環境に近い環境でも高い推論精度を出すことができる。ただし、データ数が少ないと検証用データを用意したとしても過学習や、学習時の入力データの選び方で推論精度が乱高下することがあるため、そのような場合には検証用データは用いないか、新たなデータの追加を検討するのが望ましい。
<実施の形態1の概要>
次に図2を用いて本実施の形態の概要を述べる。図2は、情報処理装置100の構成を示すブロック図である。情報処理装置100は、上述したハードウェア構成によって、制御部10、入力部6、出力部5、通信部7及び記憶部20を備えるように構成されている。
入力部6、通信部7及び記憶部20からの入力データは、制御部10に入力される。記憶部20は、例えば、ROM2a、RAM2b、ハードディスク2c、ドライブ8等によって構成されており、情報処理装置100が使用する種情報、及び情報処理装置100が演算した結果等の各種のデータ及び情報を記憶する。
制御部10は、データ変換部11、特徴量抽出部12、類似データ分類部13、モデル生成部14及び入力データ分類部15を有しており、入力部6及び通信部7から入力されたデータ並びに記憶部20から取得したデータ及び情報に基づいて、データ変換部11、特徴量抽出部12、類似データ分類部13、モデル生成部14及び入力データ分類部15によって各種処理を行う。例えば、制御部10は、各種処理を行った結果を出力部5及び通信部7を介して外部へ出力する。また、例えば、制御部10は、各種処理を行った結果を記憶部20に記憶させる。なお、入力部6、通信部7及び記憶部20が、実施の形態1における入力部を構成する。また、出力部5、通信部7及び記憶部20が、実施の形態1における出力部を構成する。
データ変換部11は、情報処理装置100に入力された入力データに対して所定の処理を行うことで入力データを変換(変形)し、新たな入力データを生成する。なお、データ変換部11は、実施の形態1におけるデータ生成部を構成する。特徴量抽出部12は、入力部6、通信部7及び記憶部20からの入力データの特徴量を抽出して入力データを分類する。言い換えると、特徴量抽出部12は、入力部6、通信部7及び記憶部20からの入力データの特徴を数値化する。
類似データ分類部13は、情報処理装置100に入力された入力データに対して、クラスタリング処理を行う。また、類似データ分類部13は、入力データの特徴量を抽出して、それぞれの結果が類似しているかの判断を自己教師あり学習で行い、学習済みモデルを生成する。モデル生成部14は、入力部6、通信部7及び記憶部20からの入力データ、データ変換部11によって生成されたデータ、類似データ分類部13によってクラスタリング処理が行われたデータ等に基づいて学習を行い、学習済みモデルを生成する。また、モデル生成部14は、自己教師あり学習で分類されたものの内、正解ラベルを有しているデータセットでは教師あり学習を行う。また、モデル生成部14は、正解ラベルを有していないデータセットでは自己教師あり学習での分類結果で新たに付与したデータを正解ラベルとして教師あり学習を行う。更に、自己教師あり学習で分類されたものの内、正解ラベルを有しているデータセットでは、各分類において正解ラベルが一致しないデータを各分類から除去し、正解ラベルが一致するデータのみを用いて、教師あり学習を行う。例えば、第1データセット及び第2データセットは、各入力データに対応付けられた複数の正解ラベルを含む場合、類似データ分類部が、第2のデータセットに含まれる複数の正解ラベルのうち、対応付けられた入力データの数が最も多い正解ラベル以外の正解ラベルに対応付けられた入力データを第2データセットから除外した第7データセットを生成し、入力データ分類部が、当該第7データセットを用いて、教師あり学習を行って学習モデルを生成してもよい。
入力データ分類部は、モデル生成部が生成した学習済みモデルに基づく推論によって入力データを分類する。例えば、入力データ分類部15は、モデル生成部が生成した第1学習済みモデルに基づいて入力データを推論して分類する第1学習装置15Aと、モデル生成部が生成した第2学習済みモデルに基づいて入力データを推論して分類する第2学習装置15Bと、を有している。なお、入力データ分類部は、上述した以外の学習済みモデルに基づいて入力データの推論を行う他の学習装置を有していてもよい。制御部10の各構成の詳細については、後述する。
図3は、情報処理装置100が行うクラスタリングの処理を示すフローグラフである。情報処理装置100は、クラスタリングを用いて、多値分類可能なデータセットであり、かつラベル誤りを含むデータセットを第1のデータセットと定義するとき、その第1のデータセットをクラスタリングで類似集合と非類似集合に分離する。例えば、第1のデータセットは、5%以上10%未満のラベル誤りを含む。また、例えば、情報処理装置100は、まず、多値分類可能でラベル誤りの入力データを含む第1のデータセット(第1データセット)を取得する(ステップST1)。ステップSTの処理を行うと、情報処理装置100は、第1のデータセットを類似データ分類部13によるクラスタリング処理で、互いに特徴量が類似する入力データの類似集合である第2のデータセット(第2データセット)に分類したか否かを判定する(ステップST2)。
第1のデータセットをクラスタリングで分類した類似集合を第2のデータセットとし(ステップST2のYES、ステップST3)、第2のデータセットを使用して、モデル生成部14により入力データを分類するための学習済みモデルである第1学習済みモデルを生成する(ステップST4)。この処理によって、第1学習装置15Aは、第1学習済みモデルに基づいて入力データを推論可能となる。
図4の概略図に示すようにクラスタリングは入力データに付与された正解ラベルを用いずに複数のデータの中で似たデータとの距離を近づけ、複数のデータの中で似ていないデータとの距離を離す処理を行うものである。本実施の形態ではクラスタリングは機械学習をベースとする学習を要する処理である。
クラスタリングは入力データの組み合わせを作り学習させる方法であるため、その入力データの組み合わせの選択方法や、学習に用いる機械学習の構成、入力データ間の距離の定義や、距離を最小化する損失関数の定義は様々な方法が知られるが、どのようなものを用いても構わない。本実施の形態では特に対照学習(Contrastive Learning)と呼ばれる手法の内、自己教師あり学習と呼ばれる手法をクラスタリングに用いて処理する方法について説明する。なお、自己教師あり学習は、教師ありとの名前が付いているが正解ラベルを用いず距離を最小化すること、すなわち学習を行うものである。
クラスタリングによって学習データを類似集合と非類似集合に分離し、類似集合に分離されたデータを第2のデータセットとし、非類似集合に分離されたデータは破棄する。この方法で第2のデータセットを作成し、第2のデータセットを第1のデータセットと同じ分類数であるN個、すなわちN値分類する第1の学習装置(第1学習装置)を作成する。なお、Nの値は、特定の2以上の整数であり、実施の形態1における第1数及び第3数を構成する。
この第1の学習装置の性能は上記のテストデータによって確かめることができ、テストデータを学習済みの第1の学習装置に入力したときに出力される推論値と、テストデータに付与された正解のラベルを比較し、一致した場合を正解、一致しなかった場合を不正解として数えることで処理することで可能である。例えば、10,000個のテストデータがあり、9,000個が正解ラベルと一致した場合は90.00%(=(9,000/10,000)×100)と算出することができる。
このテストデータによる比較を行うことで検証ができ、その結果第1のデータセットをN値分類問題として学習した学習装置よりも、第2のデータセットをN値分類問題として学習した学習装置の方が、テストデータに対して、より多くの正解を出すことが可能であることを示すことができる。なお、上述したテストデータ及び検証用データは、学習済みモデルの生成には使用されていないデータであり、第1のデータセットとは別のデータ(特定の入力データ)として用意されてもよいし、第1のデータセットの一部を学習済みモデルの生成前に予めテストデータ及び検証用データとして設定してもよい。
<第1のデータセット>
○正解ラベル
正解ラベルは10値分類の場合には0から9までの整数が用いられることが一般的であるが、連続である必要や0から始まる必要は必ずしもない。他にもOne Hot Vectorのように前記の1を(1,0,0)、前記の2を(0,1,0)、前記の3を(0,0,1)のように、該当する正解ラベルの位置のみに1を入れて、10値分類する場合には10×10の行列を出力としても良い。また、分かりやすさのために10値分類を用いて説明を行うが、本実施の形態においては2値分類以上であれば良く、例えば画像認識で有名なデータセットであるImageNetは1,400万枚の画像と、各画像に写っている2万以上の正解ラベルの分類数を有するが、このような大規模なデータセットにも活用することができる。また、回帰問題においては、分類問題とは異なるものの、入力データの正解、及び出力の範囲が例えば0から100までの実数の場合には、0~1、1~2、・・・、99~100というように100個の離散値に変換することで、2値以上に分類する分類問題に変換することもでき、本実施の形態に適用することが可能である。
○ラベルの誤り
本実施の形態で述べるラベル誤りはいくつかの場合が存在する。多値分類のデータセットを画像分類問題に使われるCIFAR-10を例に説明する。CIFAR10は、各入力データに対して飛行機、自動車、鳥、猫、鹿、犬、蛙、馬、船、トラックの10値のいずれかのラベルが付与されている。教師あり学習の場合は全ての入力データに対して正解ラベルが付与されており、半教師あり学習の場合は一部の入力データに対してのみ正解ラベルが付与されたデータである。入力データとの一致が取れていないラベルはラベル誤りとなる。例えば、犬の写真が写っているにもかかわらず、ラベルは猫となっている場合には上記の例に該当する。
また、多値分類の範囲外のラベルに該当する入力データが含まれている場合にもラベル誤りとして定義する。例えばCIFAR-10の飛行機とラベル付けられた画像データに対して、CIFAR-10のいずれにも該当しないリンゴの画像が写っている場合には上記の例に該当する。
また、入力データに複数のラベルが含まれている場合があり、この場合においては利用目的に応じてラベル誤りと判定する場合としない場合がありうる。例えばCIAFAR-10の猫とラベル付けられた入力データに猫と犬が同時に入っている場合には上記の例に該当し、入力データが猫と犬の両方のラベルを持っており、どちらか一方があっていれば良い処理を行う場合はラベル誤りではない。一方、猫と犬の両方のラベルを出力しないと誤りと判定する処理を行う場合にはラベル誤りとして判定する。
また、多値分類以外のラベルが含まれている場合にもラベル誤りとして定義する。例えばCIFAR-10において、正解ラベルに含まれていないリンゴのラベルが付いていたらラベル誤りと判定する。CIFAR-10にリンゴが含まれると11値分類になり、リンゴのラベルが付いた入力情報を除去すれば良いため、この場合にはクラスタリングを行う前の前処理でラベル誤りを除去することができる。
○入力データ
次に情報処理装置に入力するデータについて、具体的に説明を行う。図5に示す画像の場合には静止画、動画があるが、動画の多値分類問題は静止画を連続的に組み合わせたものとして考えることができるため、本実施の形態では静止画のみの説明を行う。静止画においては、カラー画像とモノクロ画像があり、本実施の形態では情報処理装置への入力が、カラー画像がRGBなど2つ以上のチャネルの組み合わせなのに対して、モノクロ画像は1チャネルでできていること以外は入力データに違いはない。なお、チャネル数が複数ある場合の処理は、情報処理装置のアルゴリズムの違いによって複数あるものの、チャネル間を結合するための全結合による重み行列によって1チャネルにまとめるのが一般的である。ただし、その手法は本実施の形態においてはどのようなものであっても構わない。
また、画像の大きさはMNISTやCIFAR10のように32ピクセル×32ピクセルのように小さなものであれば演算時間は小さく済むが、STL10のように96ピクセル×96ピクセルのように、大きさに制限はなく、また上記のように必ずしも正方形である必要はない。画像もCCDやCMOSカメラである必要はなく、物理的なデータを数値データに変換する赤外線センサやレーダー信号、無線信号、熱や音、振動、電場、磁場などを取得するセンサ信号や、コンピュータ上に表示または作成されたグラフィックやCADなどを活用しても構わない。
図6に示すグラフにおける分類問題には複数の問題設定が考えられる。グラフは点であるノードと、点と点をつなぐ線であるエッジで構成され、ノードやエッジには任意の情報を埋め込むことができる。そのようなグラフにおける主要な分類問題のとして、1つ目はエッジやグラフ情報からノードを分類する問題、2つ目はノードやグラフ情報からエッジを分類する問題、3つ目は複数のグラフを学習してグラフを分類する問題がある。更に、ノードが持つ特徴を有限の選択肢の中から選ぶ分類問題として予測することや、エッジが持つ特徴を有限の選択肢の中から選ぶ分類問題として予測することなど、目的に応じて使い分けることができる。
一例として、電気回路はグラフであることが知られているため、電気回路を元に説明を行う。電気回路で入力を回路図、出力を回路の任意の端子間の出力電圧とするとき、ノードを分類する問題の一つとしては所望の出力電圧となるように回路部品を選択するものである。回路部品はコンデンサやコイル、ダイオード、抵抗など有限の種類しか存在しないため分類問題となる。次にエッジを分類する問題は、必要な部品が全て回路図となるグラフに入っており、部品間を接続する配線を予測する問題は分類問題になる。厳密にはノードが2つ以上必要であるが、2つ以上の部品があれば多値分類問題となるため、本実施の形態の対象内となる。次にグラフを分類する問題は、例えば1つの回路図となるグラフが与えられたとき、そのグラフが昇圧電源、降圧電源、昇降圧電源のいずれかであるか分類することや、電源回路、センサ回路、通信回路、制御回路のいずれかであるかを分類する問題に用いることができる。
図7に示す自然言語処理における分類問題において、入力信号は1文、または1段落、1節、全文など、文章の塊の一部を切り出したものが与えられる。例えばあるニュース記事が与えられたときに、経済、政治、スポーツ、サイエンスのいずれかに分類するか推論を行うのは分類問題であり、このような問題には本実施の形態の手法を用いることができる。これは、一文や一段落で評価される分類問題であるが、例えば一つの小説を与えられ、誰の作品で本のジャンルを推論するような問題も分類問題であるため、本実施の形態の手法を用いることができる。更に、入力に入力データに対して喜怒哀楽などに分類する感情分析も分類問題であり、このような問題には本実施の形態の手法を用いることができる。
図8に示す時間波形における分類問題は、横軸が時間、縦軸が電圧や波高値など任意の物理情報となる時間波形を入力データとするとき、その時間波形を分類するものである。例えば上記の回路の例で示すと、回路図の時間波形を入力とし、その時間波形から電源回路、センサ回路、通信回路、制御回路を分類する問題も、本実施の形態の手法を用いることができる。また、横軸は時間で説明を行ったが、周波数や座標など、物理的な広がりを持った特徴量であればどのようなものであっても構わない。また、必ずしも時間波形でなくてもよく、例えば時間波形をフーリエ変換して横軸を周波数、縦軸を振幅としても構わない。
上記は主要なデータについて説明を行ったが、例えばiris Dataset(4種類の数値的特徴量から3つの種類に分類)のように、複数のパラメータを持ち、表形式で表すことができる数値的なデータセットなどAIに入力可能なデータであって、出力が分類で得られる形に変換できるものであれば、どのような入力データであっても構わない。
○入力データの数
データの数はデータセットによって異なるものの、教師あり学習であれば各正解ラベルに対して1,000以上の画像やグラフ、時間波形、文字列などの入力データを用意するのが望ましい。また、一つの正解ラベルにおいて類似のデータの分散が小さい状態は望ましくなく、推論時に期待される結果を包含できる分散を持った学習用のデータセットであるのが望ましい。類似する分散を持っているか確認する一つの手段として、学習データと推論データの全部または一部を入れ替えても同じ推論精度になる場合は、類似する分散であると考えることができる。
また、入力データを増やすためにデータ水増し(Data Augmentation)と呼ばれる方法を用いても良い。ただ、画像の場合はアフィン変換等で学習データを増やす、データ水増しを用いることができるが、単独の時間波形を水増しすることは困難であることなど、あらゆるデータに対して水増しを用いることはできない。
学習に用いるデータが少ない場合は、たくさんのデータが得られる類似のデータセット(例えば上述のImageNet)や、類似のセンサで取得した膨大にあるデータで学習することや、変数や重み行列を初期値として取得済みの少ないデータで転移学習やファインチューニングして、学習させても構わない。なお、転移学習は初期値となる変数や重み行列の要素を少し変更する学習する方法であり、ファインチューニングは変数や重み行列は固定して全結合だけを学習する方法である。ただし、転移学習とファインチューニングを組み合わせて用いることも多く、例えば最初にファインチューニングを何度か使い全結合を最適化した後に、転移学習で重み行列に含まれる特徴量を最適化するなど両者を組み合わせて用いても良い。
半教師あり学習の場合においても、教師あり学習と同じであるがラベルが付いているデータが少ない分、学習に偏見が生じて推論精度が低下する欠点がある。そこで、自己教師あり学習のように教師なし学習で学習を行い、学習後に正解を与える方法などによっても学習をすることができる。この場合においても正解ラベルのない学習データは各正解ラベルに対して1,000以上あることが望ましい。
<情報処理装置>
○クラスタリング
クラスタリングは入力データの類似度によってデータをグループ分けする手法を指す。多くのクラスタリングにおいて何個のグループに分けるかは、機械学習の設計者または使用者が決めるハイパーパラメータである。本実施の形態においては、正解ラベルの数が決まっているため、正解ラベルと同じ数、例えばCIFAR-10の場合は10個にクラスタリングで分類するのが望ましい。古典的なクラスタリングのアルゴリズムにおいてはK-meansが最も主流であるが、深層学習の登場以降、深層学習ベースのクラスタリングや、勾配ブースティング法など決定木に基づくクラスタリングなども知られており、本実施の形態においてはどのような方法を用いても構わない。本実施の形態においては、多くのデータに対して推論精度を出しやすい深層学習ベースのクラスタリングについて説明する。
クラスタリングの評価指標として、調整ランド指標(ARI)や正規化相互情報量(NMI)など複数の方法が知られており、それらの方法を用いて学習したクラスタリングの評価を行っても良い。ただし、本実施の形態においてはラベル誤りが含まれているものの正解ラベルが与えられているため、同じ正解ラベルの類似性を指標として、例えばクラスタリングで得た類似集合のラベルを、各ラベルに付与された正解ラベルの多数決で決定するなどの方法で評価しても構わない。例えば、ある一つの類似集合に1,000個の要素が入っていたとして、その1,000個の要素の内、900個のラベルが1、70個のラベルが7、30個のラベルが9で構成されていた場合、多数決で900個の1のラベルを1,000個の要素に付与しても良い。ただし、異なる類似集合間で同じラベルにならないように、処理する必要がある。
○教師なし学習
上記のクラスタリングは教師なし学習に相当する。機械学習においては一般的に正解ラベルを与える教師あり学習と、正解ラベルを全く与えない教師なし学習と、正解はないが目的として設定した報酬を最大化する強化学習に分類される。半教師学習は教師あり学習と教師なし学習の中間に当たるが、正解ラベルを一部でも用いていることから教師あり学習の一手法として定義することもある。
本実施の形態において第1のデータセットは正解ラベルを与えられているため、教師あり学習や半教師あり学習が可能である。しかし、それらの教師あり学習を用いる代わりに教師なし学習であるクラスタリングで学習及び、学習データを蒸留(不要なデータを除去)し、第2のデータセットを作ることを特徴とする。これにより、本実施の形態のようにラベル誤りが多数含まれるデータセットであっても、ラベルの誤り率や、データの良し悪しに影響することなく、第2のデータセットを作ることができる。
○自己教師あり学習
本実施の形態においては、深層学習ベースの教師なし学習のうち自己教師あり学習と呼ばれる手法を用いる。自己教師あり学習はメタ学習(Meta-Learning)の中の基本的な手法であるシャムネットワーク(Siamese Network)の手法の一つとして検討されている。
メタ学習は学習の仕方を学習させる方法であり、主に距離学習(Metric-Based Learning)とモデル学習(Model-Based Learning)と最適化学習(Optimization-Based Learning)とに分割され、シャムネットワークは距離学習の一つとして検討されている。距離学習は2つ以上のデータの組み合わせを考えたときに、近いものの距離を近づけ、遠いものの距離を遠ざける手法である。距離の定義は様々な方法が知られているが、マハラノビス距離などの統計的な距離をベースとするものや、相互エントロピーや相互情報量、交差エントロピー、カルバック・ライブラー情報量や、相互相関行列をベースとして距離として定義する方法などが知られており、これらの統計量や情報量を1つ以上組み合わせて特徴量間の類似度を測定するものである。また、単純に特徴量抽出の結果であるベクトル量を求め、2つの入力データに対する2つのベクトルからコサイン類似度によって、2つの入力データの類似度を測定しても構わない。また、各入力データ間の類似度を算出した結果を行列形式でまとめた距離行列として表現するのも望ましい使用方法である。
また、自己教師あり学習においては、元の入力データの一部を抽出することや一部を除去することなどの演算によって類似の入力データを作り、一つの入力データから作ったデータ間の距離は近づける。一方、別のラベルのデータから作ったデータも同様に処理し、近いものの距離はデータ間の距離を近づけ、遠いと判断できるものにおいては距離を離す処理をする。更に、前記の入力データの特徴は、深層学習の処理である全結合や畳み込み、Attentionなどの方法で特徴量を抽出することができるため、その特徴量間の距離を測ることでデータ間の類似性を算出することができる。
本実施の形態におけるクラスタリングは類似、非類似に分類する精度が高いものを使用する必要がある。分類する精度が低いクラスタリングを用いると、多くのデータが非類似に分類されてしまい、学習データや学習データの分散が減ってしまった結果、テストデータに対する推論精度が低下してしまうことがあるためである。クラスタリング性能は、類似なしに分類された入力データを確認し、異常値と考えられる以外のデータが多数含まれるかで判断することができ、そのようなデータが多数含まれる場合は異なるクラスタリング手法を用いるのが望ましい。特に、深層学習に基づくクラスタリングは分類する精度が高いものが多く、ラベル誤りを含む多くのデータに対して、高い分類精度を出すことが可能である。
○入力データを処理する情報処理装置
自己教師あり学習に必要な特徴量を抽出するための情報処理装置について説明する。第1の学習装置は一般的な分類問題を解くための一般的な教師あり学習と同じであるため、説明しない。また、第1の学習装置と自己教師ありの違いは評価指標を定義する評価関数が異なること、及びクラス分類に必要なソフトマックス関数を用いないことである。第1の学習装置の出力層直前の全結合は必ずしも必要ではなく、全結合に入力する前の特徴量抽出の演算で所望の分類数に集約しても良い。ただし、多くの場合においてソフトマックス関数を施す方が、推論精度が向上する傾向にある。ソフトマックス関数以外にもlog-ソフトマックス関数など、ソフトマックス関数を変形した非線形関数であっても構わない。
次に、様々な入力データに対して特徴量を抽出する手法の一例を示す。画像の場合には、上述のようにCNN(convolutional neural network)、MLP(Multi-Layer Perceptron)、Attension (選択的注意)ベースのTransformer(トランスフォーマー)が用いられることが多い。ただし、下記に示すグラフ理論で用いられるGNN(Graph Neural Network)や時系列処理に用いられるRNN(Relational Neural Network)やそれらを応用した技術によって画像を処理することも可能である。また上記は深層学習であるが、ロジスティクス回帰やサポートベクターマシンや、勾配ブースティング法等を用いてもよく、本実施の形態においてはそれらのアルゴリズムはどのようなものであっても構わない。
特に、深層学習においては様々なアルゴリズムが知られており、CNNにおいても畳み込みをするという共通点があるだけで、VGGやResNetやAlexNet、MobileNet、EfficientNetなど、非常に多くのアルゴリズムが知られている。他にもMLPにおいても単純な全結合だけで画像を処理するだけで高い推論精度が得られるMLP-Mixerのような方法が知られていて、これらを用いても構わない。また、Transformerで画像を処理したVision TransformerやTransformerとCNNの特徴量抽出とを組み合わせた方法などが知られており、これら単体の手法や組み合わせで処理することができる。
グラフは、GNN(Graph Neural Network)や、近くのノードを畳み込むGCN(Graph Convolutional Network)などを用いる。グラフは画像のように等間隔に配置されていないため、グラフのままでは深層学習には入力することができない。そこで、グラフと一対一対応である隣接行列や次数行列に変換して入力を行う。ここで隣接行列はノード間の接続の有無を行列で表現する方法であり、ノードがN個ある場合にはN×Nの行列になる。またエッジに向きを持たない無向グラフの場合には対称行列となる。また、次数行列は各ノードに含まれるエッジの数を行列で表現する方法であり、ノードがN個ある場合にはN×N行列になり対角行列となる。このような行列に変換したものをGNNやGCNに入力し、複数回のGNNなどの隠れ層を通して出力層直前の全結合やソフトマックス関数などに入力することで、グラフを分類問題として扱うことができる。
時間波形の場合にはRNNが用いられることが多く、RNNを拡張したGRU(Gated Recurrent Unit)、LSTM(Long Short-Term Memory)が主要な技術となる。これ以外にもTransformerやTransformerの元となったAttention機構を用いた技術を組み合わせるものや、離散的な畳み込みを利用したTCN(Temporal Convolutional Network)などが知られている。これらの技術を入力データに対して用いることでデータを深層学習に入力することが可能である。
自然言語処理の場合には、上記の時間波形を扱うLSTMやその発展系であるSeq2Seq(sequence to sequence)と呼ばれる技術が知られている。更にSeq2Seq(sequence to sequence)の発展系であるAttention機構、更にその発展系であるTransformer技術が知られており、これらの技術を用いることで自然言語処理が可能である。なお、LSTMは文章の前後関係から言語を予測することを可能にしたが、問題は信号の長さが固定長しか扱えなかったため、文章の長さにより精度にばらつきがあった。それをSeq2SeqはEncoder-Decoderという概念を入れることで解決した。
ただし、精度が不十分であり文章を構成する単語間に相関を導入し、精度を向上させたのがAttention であるが、並列化ができず大規模なデータセットを扱うことができなかった。そこで、AttentionをGPUなどの専用のハードウェアを用いて並列化できるようにした手法がTransformerであるため、推論精度や計算時間に差はあるものの、元となる技術は共通であるため、本実施の形態でどのような方法を用いても構わない。
自己教師あり学習においては、上記の方法で特徴量を抽出する。その際、比較データを作る必要がある。情報処理装置100は、データ変換部11によって、入力データが画像である場合には、入力データの一部を抽出することや一部を除去すること、回転や引き伸ばしなどのアフィン変換や、ホワイトノイズなどの重畳、RGBなどのカラーの画像の場合には色のバランスを変えたり、シャープネスを変えたりするなどによって、1枚の入力画像から複数の画像を作り出すことができる。特に同じ入力画像から作った画像の特徴量を抽出した際の距離は近いことが分かっているため距離を近づける処理を行うことで学習をすることができる。
一方、画像以外のグラフや自然言語、時系列データの場合には、物理的な制約を持つことが多く、例えば回路図を処理するグラフネットワークの場合においては、画像と同様エッジやノードの一部を抽出することや、エッジやノードの一部を除去することは可能であるものの、抽出や除去の際には、キルヒホッフの法則などの物理法則に従うデータにしか変形することができない。一例として回路を扱う場合には電流が流れる経路は閉じたループである必要があるため、新しいグラフネットワークを作成するために任意にエッジを抜き取り、閉じたループを開いたループにすることは物理制約を満たさないため、物理制約を加味してデータを作成する必要がある。
自然言語処理においても同様であり、文章の一部を抽出することや、一部を除去することは可能であるが、類語による単語の置き換えは文脈を理解しなければならないため難しく、また文章の順番をランダムに変更することも困難である。しかし、文章の場合は他のデータと比べ、データを入手しやすいため、多くのデータの中から類似の文章を探す方法を利用できることが多い。時系列処理においても、波形の一部を抽出することや、波形の一部を除去することは可能であるが、波形の連続性などの物理法則が成り立つデータに対しては、抽出や除去の際においても物理法則に従わない方法では処理することができないことに注意を要する。また、波形の変形などを行う場合においても、ランダムな変形は望ましくなく、フーリエ級数展開などの特定の理論式に従う条件で変形するのが望ましい。
<第2のデータセットの作成>
ラベル誤りを持つデータを自己教師あり学習によって特徴量抽出し、その結果がクラスター数分の類似集合で構成される第2のデータセットとするとともに、図3に示すように類似性がないデータに関しては除去して、第2のデータセットに含めない。第2のデータセットにおいては、第1のデータセットに付与されたラベルと同じラベルを用いる条件で以下の<実験結果>での結果を得たが、自己教師あり学習の結果で類似集合と判定されたデータのラベルを変更し、第2のデータセットとしても構わない。
<第1の学習装置の学習と推論>
第1の学習装置の学習と推論は一般的な深層学習の学習と推論と同様である。具体的には入力データに対して畳み込みやAttentionなどの重み行列を演算し、特徴量を集約するためのクラス分類器である全結合などの手法によって、正解ラベルと同じ数の分類数とし、学習時においてはソフトマックス関数などを施した結果と、正解ラベルの差を演算する。その差を誤差逆伝搬法で出力側から入力側に伝搬させ、重み行列を更新していく方法である。
一方、推論においては学習で得た重み行列及び全結合の重みをテストデータに対して演算し、その出力を推論値として出力するものである。学習時の出力層の直前で用いたソフトマックス関数などの非線形関数は、特徴量の小さな差を大きく変換し、正解ラベルと機械学習の出力の差が明確に出るように施し、誤差逆伝搬で重み行列を更新しやすくするために用いるものであるため、推論時において必ずしも用いる必要はない。
テストデータに対して第1学習済みモデルで用いる推論を行うのは望ましい使い方である。また、テストデータに対して特徴量抽出部で類似度から分類を行った後に、第1学習済みモデルで推論を行うことも望ましい使い方である。このとき、特徴量抽出部は第1学習済みモデルに使用した第2のデータセット内の複数のデータとの類似度を算出し、類似と判定された入力データのみを抽出するものである。また、テストデータが複数存在する場合には、第1学習済みモデルを作成時と同様に、各テストデータの特徴量を算出し、その結果を用いて類似度を求め、類似と判定されたデータのみに対して第1学習済みモデルで推論を行っても良い。
<実験結果>
図9の実験結果を用いて本実施の形態の効果を説明する。図9はデータセットにCIFAR-10のデータを用いた実験結果である。CIFAR-10のデータには前処理でラベルの5%、及び10%のラベル誤りをランダムに与えたデータを作成した。なお、CIFAR-10の学習データは各ラベル5,000個で合計50,000個のデータであるため、5%のラベル誤りの場合においては、各ラベルあたり250個で合計2,500個のラベルに誤りを与えている。
また、自己教師あり学習のモデルには、SimCLR(論文名A simple framework for contrastive learning of visual representations)と呼ばれる手法を応用したSwAV(Swapping Assignments between Views、論文名:Unsupervised Learning of Visual Features by Contrasting Cluster Assignments)と呼ばれる方法を用いた。なお、ハイパーパラメータであるクラスタリングの分類数はCIFAR-10の正解ラベルの数と同じ10個とした。
この方法でクラスタリングを行ったところ、第1のデータセットの内の1,336個は非類似のデータとなった。そこで、残りの48,664(=50,000-1,336)個のデータを第2のデータセットとした。そして、この第2のデータセットでCNNの一種であるVGG13(Visual Geometry Group13の略。論文名Very Deep Convolutional Networks for Large-Scale Image Recognition)を用いて学習を行ったところ、図9の「クラスタリング+CNN」に示す結果を得た。
この図9の結果から20回のエポック(重み行列の更新回数)で、精度90.00%で推論できることが分かる。一方、上記の5%のラベル誤りを持つデータにおいて、クラスタリングを行わず、上記と同じVGG13で学習を行うと20回のエポックで、精度89.03%とクラスタリング+CNNと比べると約1%の精度低下が確認できる。更に、10%のラベル誤りを持つデータに対しても同様の学習を行うと、精度87.30%と「クラスタリング+CNN」と比べると2.7%の推論精度の低下が確認できる。今回は20回のエポック回数までを示したが、エポック回数を200回程度まで行っても上記の関係は変わることがなく、図9同様、「クラスタリング+CNN」の推論結果が最も優れている。
この結果から分かることは、一般に機械学習はデータ量を多くした方が良いと言われているが、ラベルに多少の誤りがある場合には、誤りのあるデータをクラスタリングで除去してから学習した方が良いということである。特に実環境においては、例えばセンサーデータによって構成された画像であればデータ取得時に対象外のデータが写り込んでしまうとラベル誤りになりやすい。また、波形の分類や回路の分類において人手で正解ラベルを付与する状況においては人の技能によりラベル誤りが生じやすく、それらのラベル誤り率を算出することは人手では困難である。特に、本実施の形態は、ラベル誤りを含むデータを除去することによって、データの数は減少するものの推論精度を向上できることを示した発見に基づくものである。
更に、データをクラスタリングで除去する(蒸留:Distillation)ことで得られる効果を示す。1つ目が、過学習を防げるということである。一般に多くの学習可能なパラメータを有する大規模な機械学習を用いることでラベル誤りを含めて学習することが可能である。ただし、これは学習データやテストデータにフィッテングしすぎた結果である。そのため、機械学習の検討に用いる一般的なデータセットなど、閉じたデータセット内では高い推論精度を得ることができるものの、工場などの実環境で取得したデータになると推論精度が低下してしまう。それに対して、本実施の形態の手法を用いると、この過学習を小さくすることが可能である。
2つ目が除去したデータを人が確認できることである。一般に機械学習の処理はブラックボックスと言われ、機械学習自体の処理や出した出力の根拠を明確に人に示す方法はない。一方で、中間処理である入力データの分類結果を、人が確認し、間違いの傾向を類推することで機械学習の判断理由を推測しやすくなる。例えば、画像の中心に被写体が映っているものは類似集合に分類されやすく、画像の隅に被写体が映っているものは非類似集合に分類されやすいというような傾向を把握することで、機械学習モデルの最適化に役立てることができる。
3つ目が、クラスタリングにより第2のデータセットを一度作成してしまえば、何度も計算を行う必要がないことである。自己教師あり学習を用いたクラスタリングは一般的な教師あり学習と比べると計算時間や計算量がかかる傾向にある。しかしながら、その計算は第2のデータセットを得るためで、第2の学習装置(第2学習装置)の学習や推論時の再計算は不要である。特に機械学習の設計において、教師あり学習のモデルの選択や、ラベル誤りの推論結果への影響を小さくさせるための学習モデルの作成には最も多くの時間が要する。そのため、上記のクラスタリングにかかる時間は相対的に小さく、かつ人手を要さないため、機械学習の開発期間を短縮することができる効果が期待できる。
4つ目が小さなデータセットに対しても用いることができることである。上記のとおり自己教師あり学習に基づくクラスタリングは、学習データを自己のデータから作り学習を行うことができるため、学習データが1,000個以下と少なくてもクラスタリングすることが可能である。ただし、第2のデータセットのデータ数も少なくなってしまうため、類似のデータで事前学習された学習済みモデルを用い、ファインチューニングするのが望ましい。ただし、データ数や計算にかけられる時間や計算リソースがある場合には、転移学習とファインチューニングを組み合わせて用いるのも良い方法である。
実施の形態2.
<概要>
実施の形態1でクラスタリングした際に非類似と判定したデータを破棄していたのに対し、本実施の形態に係る情報処理装置200では、非類似と判定したデータである外れ値を集めて第3のデータセットとして定義し、その第3のデータセットを用いて学習を行う方法について説明する。
<外れ値>
本実施の形態における外れ値とは、図3に示すように第1のデータセットに対して、クラスタリングを行いN個の類似集合を抽出し、残った非類似データを1つにまとめて外れ値として定義するものである。例えば、実施の形態1の実験で示したCIFAR-10に対してSwAVを適用したときに廃棄した1,336個の入力データが本実施の形態における外れ値に該当する。この外れ値を集めたデータを第3のデータセットとする。
<新しいラベル>
図10に示すとおり、例えば、情報処理装置200は、第1のデータセットをクラスタリングで類似集合に分類されなかった非類似データを、外れ集合である第3のデータセット(第3データセット)とし、(ステップST2のNO、ステップST14)、第3のデータセットに対して外れ値ラベル(第1ラベル)を付与し(ステップST15)、第2のデータセットと組み合わせ第4のデータセット(第4データセット)を作る(ステップST16)。第2のデータセットがN値分類である場合には、外れ値ラベルをN+1にすることで、第4のデータセットはN+1値のラベルを持つデータセットとすることができる。
<第4のデータセットを用いた第2の学習装置の学習>
第2の学習装置の学習は第4のデータセットを用いて行う(ステップST17)。第4のデータセットの内、外れ値ラベルのデータの一部をテストデータとして定義する。外れ値ラベルのデータが、第2のデータセットの各ラベルのデータ数よりも多い場合は第2のデータセットのテストデータと同程度数を選定し、第2のデータセットの各ラベルのデータ数よりも少ない場合は、第2のデータセットと同程度の比で出すのが望ましい。例えばCIFAR-10の場合は、学習データはラベル毎に5,000個ずつあり、テストデータはラベル毎に1,000個ずつあるため、20%をテストデータとしている。
これに対し、実施の形態1の実験で示したクラスタリングによる外れ値は1,336個であるため、1,336個の内の20%に当たる270個をテストデータとして、残りの1,066個を学習データとして定義すれば良い。ただし、第3のデータセットの学習データが概ね1,000以下となる場合には、過学習を起こしやすくなるため、実施の形態1で示した第1の学習装置で処理した方が望ましい。上記の1,066個の学習データ数は十分ではないものの、効果を示すために本実施の形態の最後に実験結果を示す。
上記のように作成した第3のデータセットを第2のデータセットに結合し、第4のデータセットを作成し、第1の学習装置と同じように機械学習のアルゴリズムを用いて第2の学習装置の学習を行い、第2学習済みモデルを生成する。第1の学習装置との違いはN+1値分類で学習を行い、テストデータで推論精度を確認するものであるが、実施の形態1と同様の処理であるため本実施の形態では繰り返さない。
<第3のデータセットを用いた第3の学習装置>
外れ値に判定されたデータが十分に多い場合には、第3の学習装置(不図示)を作ることができる。図11は、情報処理装置200の第3の学習装置に係る処理を示すフローグラフである。第3の学習装置は第1の学習装置と同様、第3のデータセットを使用してN値分類として学習する(ステップST21、ステップST22)。これにより、モデル生成部14によって第3学習済みモデルが生成される。情報処理装置200は、多値分類可能でラベル誤りを含むテストデータセットを取得し(ステップST23)、このテストデータセットを第2の学習装置で推論し、外れ値に分類されるか否かを判定する(ステップST24)。情報処理装置200は、ステップST22及びステップST24の結果に基づいて、第3のデータセットに対する推論結果を出力する(ステップST25)。学習データ、及びテストデータの作成方法は上記の<第4のデータセットを用いた第2の学習装置の学習>と同じであるため繰り返さない。ただし、第3の学習装置を作るためには、10値分類の場合には各ラベルあたり1,000以上のデータ数があることが望ましい。更に、第3のデータセットは入手しにくい異常値が多く含まれるデータとなるため、データの種類にもよるが画像などデータ水増し(Data Augmentation)が使える場合には用いるのが望ましい。
<外れ値に推論されたときの処理>
第1のデータセットに含まれない入力データ(学習モデルの生成に使用しなかった入力データ)を第2の学習装置で推論した結果、外れ値ラベルに判定された場合の4通りの処理方法について述べる。1つ目の方法は、外れ値ラベルに判定されたデータ(第1入力データ)を、第1のデータセットで学習した学習装置を用いて推論する方法、2つ目の方法は、外れ値ラベルに判定されたデータを、第2のデータセットで学習した学習装置を用いて推論する方法、3つ目の方法は、外れ値ラベルに判定されたデータを、第3のデータセットで学習した学習装置を用いて推論する方法、4つ目の方法は外れ値ラベルに分類された場合は判定不能と出力することである。
1つ目の方法は、データが十分にあり、ラベル誤りが少ない場合に高い推論精度を得やすい。この場合には第3のデータも十分な数のデータとなり、更にラベル誤りが小さいため、第1のデータセットを用いて学習した学習装置自体の推論精度も高くなりやすい。
2つ目の方法は、ラベル誤りが多い実環境において高い推論精度を出すことができる。ただし、この場合には、第2のラベル誤りを除去したデータで学習するため、外れ値ラベルに判定された入力データ自体が異常値であった場合には、不正解として判定されやすい。
3つ目の方法は、十分なデータ量があり、クラスタリングで非類似に分類されるデータが多い実環境において効果がある。特に、外れ値を得意とする機械学習装置となるため、外れ値の判定が重要な場面において効果がある。ただし、CIFAR-10などのように機械学習用に作られたデータの場合には、データ数が多くないことや外れ値に分類されるデータ自体が少ないため、推論精度が低下しやすい。
4つ目の方法は、従来の情報処理は異常なデータが入ってきた場合においても、N+1値分類にすることで無理にデータを出力しないようにすることができる。医療データ(X線やMRI)の画像診断など実環境においては人が最終判断を下せる場合においては、無理に判定しなくても良い。無理に判定しないことで、誤り率を大きく削減することができる。
ただし、上記は目安であり、第1のデータセット内のラベル誤り率や、データの種類、求める性能などによってどの方法を用いても構わず、複数の方法を組み合わせて用いても構わない。
<外れ値となる入力データを変形>
入力データを第2の学習装置で推論し、データ変換部11によって外れ値ラベルに判定された入力データを変形(変換)する処理を行ってから推論する方法について述べる。実施の形態1で述べたように、例えば画像においてはアフィン変換やノイズ重畳などの処理を行うことができる。
具体的には画像においては、外れ値ラベルに判定された入力データに対して、入力データの一部を切り出し、抽出することや、画像の一部を除去すること以外に、拡大縮小、回転などのアフィン変換を施したり、ノイズを加えたり、RGBなどのカラーの画像の場合には色のバランスを変えたり、シャープネスを変えたりするなどを組み合わせることで、1枚の画像から例えば1,000枚以上の画像を生成するものである。
1つ目の方法は第1のデータセットで学習した学習装置を用いる方法、2つ目の方法は第2のデータセットで学習した学習装置を用いる方法、3つ目の方法は第3のデータセットで学習した学習装置を用いる方法である。4つ目の方法は第4のデータセットで学習した学習装置を用いる方法である。4通りの処理方法について記すが、各場合における特徴は、<外れ値に推論されたときの処理>で述べた方法と同様であるため、同じ説明は繰り返さず、差分のみを説明する。
1つ目の方法は、データ変換部11によってテストデータを1からP(≧3)回重畳的に変形して新たに生成したP個の入力データ(第2入力データ)を第1のデータセットで学習した学習装置で推論し、各推論結果のラベル毎の回数をカウントし、最も多くの回数振り分けられたラベル(例えば、テストデータが0から9までの整数を示す画像データで、P=4,000で0が100回、1が100回、2が200回、3が300回、4が400回、5が500回、6が600回、7が700回、8が700回、9が900回となったとすると、推論回数が900回と最大の9をラベルとして出力)を推論値とするものである。この場合、ラベル誤りが5%を超える場合には結果がばらつきやすいが、ラベル誤りが5%未満で十分な量のデータで学習した場合には、安定した結果を得ることができる。なお、Pの値は、実施の形態2における第2数を構成する。
2つ目の方法は、図12に示すとおり、データ変換部11によってテストデータを1からP(≧3)回重畳的に変形して新たに生成(ステップST33)したP個の入力データ(第2入力データ)を第1の学習装置で推論し(ステップST34)、各推論結果のラベル毎の回数をカウントし、1つ目の方法と同様に最も多くの回数振り分けられたラベルを推論値とする(ステップST35)ものである。2つ目の方法は、学習データには含まれない異常値である場合においては、生成したデータを増やしても正しく判定することは困難であるが、多くの場合、推論精度を高める効果がある。
3つ目の方法は、上記方法と同様に新たに作成したP個の入力データを第3の学習装置で推論する。3つ目の方法である第3の学習装置は異常値を得意とする情報処理装置であるため、第3の学習装置を学習できるだけの入力データが準備できるのであれば推論精度を高める効果がある。
4つ目の方法は、図13に示すとおり、テストデータを3以上(P>2)のP回変形した複数の入力データ(第2入力データ)を第2の学習装置で推論し、外れ値に分類されたデータを破棄、外れ値以外に分類(ステップST44)された推論値として、1つ目の方法と同様に推論回数をカウントし、第1ラベル以外の正解ラベルの内、推論回数が最も大きい推論結果を出力とするものである。
上記は、推論回数をカウントし、多数決で算出することを説明しているが、実施の形態4で示すように情報処理装置の出力結果の平均値から情報エントロピーを計算し、情報エントロピーが最小となるラベルを出力する方法を用いても構わない。また、上記いずれの方法においても、Pは2以上であってもよい。また、上述した第2入力データは、類似データ分類部が、特徴量抽出部または第2学習済みモデルに基づく推論によって、非類似と判定または前記第1ラベルに分類された第1入力データに対して、所定の処理(例えば、1からP回の重畳的な変形)を行うことで1つの入力データから生成されてもよい。
<実験結果>
図14にテストデータを第2の学習装置で推論し、外れ値に分類された入力データを除去し、外れ値以外に分類された結果の推論精度を計算した結果を示す。図14に示すとおり、CIFAR-10の学習データをそのまま用いた第1のデータセットを10値分類すると、CNNベースのVGG13では20回のエポックで83.78%だったのに対して、第4のデータセットを11値分類する第2の学習装置において、上記と同じCNNベースのVGG13では20回のエポックで84.20%と約0.5%程度の精度の改善が見られた。なお、第2の学習装置で外れ値として分類されたデータは10,000個のテストデータの内521個であり、それらのデータは破棄し、正解ラベルと比較を行わないため推論精度に影響していない。
また、<外れ値となる入力データを変形>において4つ目の第2の学習装置で推論し、外れ値になった入力データを変形して約1,000個の組み合わせを作り、再度第2の学習装置で推論し、外れ値以外のデータの出現数をカウントする処理を行ったところ84.49%と図14と同様、推論精度は0.7%程度上昇することが分かった。ただ、図14と異なるのは、全てのテストデータと正解ラベルを比較するため、全体的に推論精度が向上している。
ただし、変形のさせ方がハイパーパラメータとなり、例えばCIFAR-10の場合、アフィン変換で回転や引き伸ばしでデータを作成したものの、回転の角度が±15度以上±45度以下のデータを含めることで推論精度が上がりやすいことや、縦横の引き伸ばしが±10%以下では引き伸ばしの意味がないものの±30%を超えると推論精度が悪くなるなどの特徴が見られた。そのため、手動、または大規模な計算機で機械的に最適な変形条件を探索しなければならない。ただし、計算機環境が得られる場合や、ばらつきの範囲が概ね分かっていて、変形の条件を最適化することができれば、簡易な方法で推論精度は高めることができる。
実施の形態3.
<概要>
実施の形態1に示したとおり、クラスタリングによって分類する数は、機械学習の設計者が決めなければならないハイパーパラメータとなる。第1のデータセットのように正解ラベルが付与され、分類数が決まっているデータに関しては、その数に分割すれば良いが、実環境におけるデータは分割数が明確に決められない場合が多い。本実施の形態の情報処理装置300による手法はそのような場合において用いることができるものである。
<クラスタリング>
クラスタリングに用いる機械学習は、実施の形態1で説明したように、k-meansや自己教師あり学習などのアルゴリズムを用いることを想定する。それぞれのアルゴリズムは、クラスター数をハイパーパラメータとして定義する必要がある。実施の形態3における情報処理装置300の学習装置は、入力データを定義されたクラスター数に分類するように学習し、モデル生成部14によって第4学習済みモデルを生成する。
<分類数の最適化>
実施の形態1、2と同様、分類数が既知のデータであるCIFAR-10のデータを用いて説明する。ただし、実際の対象としているデータセットは分類数が分からないデータであるとする。これは例えば、物理実験で得た2つ以上の測定結果がいくつに分類できるか分からない場合や、商品を購入した客層を何種類に分類できるか分からない場合など、実環境の多くの場面で用いることができる。
情報処理装置300は、クラスターの数を特定の整数であるM(第4数、Mは2以上)=2から順番に演算していき、実施の形態2で示したように各類似集合に対してM個の異なるラベルを付与し、M値分類問題として類似集合を学習データとテストデータに分類する。ただし、経験則などにより分類数Nが想定できることも多い。その場合にはその分類数N以上の正の整数Mからクラスタリングを始めても良い。これは計算量を減らすためであり、かつクラスター数が多いほど推論精度が高くなることが期待できるためである。仮に学習データと同じ数だけのクラスター数を定義すれば、各学習データに対して一つずつの類似集合とすれば良いので精度はどのような条件下においても推論精度は100%にできる。ただし、クラスター数が多すぎるとクラスタリングする目的が失われてしまう。
そのため、図15に示すようにクラスターの数が未知の場合(ステップST51)は2以上の整数から計算をしていく。また、分類数Nが経験則などから推定できる場合(ステップST61)においては、図16に示すようにMがN以下の場合はM=Nとする(ステップST67)。ただし、最適なクラスター数を探索するための計算時間の短縮のため、M=NからMが増加する方向にクラスタリングを行い(ステップST52)、M+1、M+2などとMの値を一つずつ大きくして、クラスタリング精度など目的の指標での推論値を検証する。そして、目的の指標での推論値が極大となった場合のMを出力する(ステップST55、ステップST66)ものである。ただし、Mが極大と証明するためには、M+1の場合を計算しなければならないため、少なくともM+1の場合を計算する必要がある。
<実験結果>
図17にクラスターの数を横軸に取り、本実施の形態における目的の指標であるM値分類を行い、ラベルをM値に振り分けたデータの内から80対20で学習データとテストデータを振り分け、学習データで学習し、テストデータで推論した場合の推論結果を縦軸に取った結果を示す。図17に示すようにクラスターの数が10まではクラスタリングで作成したテストデータに対する推論精度は単調増加で上がっていくことが分かる。クラスター数が11の場合は精度が1%程度低下していることからクラスター数10でテストデータに対する推論精度が極大となることが分かる。更にクラスター数を増やしていくと、クラスター数13や18の場合にクラスター数10の場合と同程度の推論精度となることが分かり、複数の極大が出るものの、最小のクラスター数である10を選択するものである。
分類数が未知の問題に対しても同様の手法で最適なクラスター数を算出することができるため、分類数が分からず分類問題にできないデータであっても、クラスタリングで新しいラベルを付与し、ラベル有りのテストデータに変換することができる。
<非類似データの活用>
図18に実施の形態2と同様にクラスタリングで非類似と判定されたデータに対して、新しいラベルを与えて、推論を行う場合のフローグラフを示す。上記のとおりM>Nにおいて、クラスタリングによって第1のデータセットをM値に分類して(ステップST72)、各類似データに新しいラベルを付与しデータセットとする(ステップST73)。また、非類似のデータを一つのデータ集合(非分類データセット)とし、新しいラベル(第2ラベル)を付与し(ステップST74、ステップST75)、M値分類のラベルと結合して第5のデータセット(第5データセット)を構成する(ステップST76)ものである。そして、第5のデータセットをM+1値分類として、学習する第4の学習装置を構成しても良い(ステップST77)。なお、情報処理装置300は、類似データ分類部において、第1データセットとは異なる、正解ラベルを持たない第6のデータセット(第6データセット)を入力データとして用いてもよい。
これにより、分類数が分からず分類問題にできないデータであっても新しいラベルを付与し、学習させることができる。また、非類似データを新しいラベルに加えることによって、実施の形態2で示す手法で異常値を外れ値として判定できる学習装置を構成することができる。
実施の形態4.
<概要>
実施の形態1~3に述べた学習装置における出力に対して、情報エントロピーの考え方により、推論結果の確からしさを算出することができる。
<情報エントロピー>
本実施形態に係る情報処理装置400は、実施の形態1に係る情報処理装置100に対して、制御部10が情報エントロピー算出部16およびしきい値設定部17を更に備えている。本実施形態に係る情報処理装置400は、推論精度が高い結果ほど情報エントロピーが小さいという効果の発見に基づくものである。例えば実施の形態1~3のVGG13において、推論結果が正解の場合と不正解の場合のソフトマックス関数の出力を、大きい順番でソートして加算平均を取ると以下のようになる。
正解の場合
[0.937, 0.05, 0.01, 0.003, 0.0012, 0.00051, 0.00022, 0.0001,0.00005, 0.00002]
不正解の場合
[0.702, 0.207, 0.0563, 0.021, 0.0079, 0.0032, 0.0013, 0.00065, 0.00032, 0.00015]
この場合、実施の形態1~3に示す学習装置においても、一般的な学習装置と同様にソフトマックス関数が最も大きい出力を出す値に該当するラベルを推論候補として出力するものである。しかしながら、この処理は、正解と判定される場合の0.937と不正解と判定される場合の0.702と明確な差があるにも関わらず、同じ処理であり、不正解の場合においては推論候補以外の候補の情報を捨ててしまっていると考えることができる。すなわち、不正解の場合は別の推論候補も候補として挙がっているにも関わらず、一般的な学習装置においては、その情報を破棄していると考えることができる。
なお、ソフトマックス関数の出力の合計値は1になるように正規化されるため、ソフトマックス関数の出力は推論が正解である確率(推論の確度、推論値)として扱うことができ、VGG13だけでなく、どのような学習装置であっても出力層直前でソフトマックス関数を使うことで、同じ指標で評価することができるようになる。ただし、ソフトマックス関数は指数関数で表現される関数であるため、出力が大きな差になりやすく、推論時において、ソフトマックス関数のような指数関数以外の方法によって正規化するのも望ましい手法である。
上記の正解の場合のソフトマックス関数の出力の平均値と、不正解の場合のソフトマックス関数の出力の平均に対して、情報エントロピー算出部16が情報エントロピーを計算することで、各条件での情報エントロピーを算出することができ、上記の平均値においても正解の場合の情報エントロピーは不正解の場合の情報エントロピーよりも小さな値になる。
図20は、多値分類可能でラベル誤りを含むテストデータセットを取得した後(ステップST81)、推論時で正解の場合の推論値の加算平均と、不正解の場合の推論値の加算平均をそれぞれ算出するプロセス(ステップST83、ステップST85)と、各加算平均から情報エントロピーの式によって、推論が正解の場合(ステップST82のYES)の情報エントロピーであるH_correct(第1情報エントロピー)と推論が不正解の場合(ステップST82のNO)の情報エントロピーであるH_wrong(第2情報エントロピー)をそれぞれ算出する(ステップST84、ステップST86、ステップST88)処理のフローグラフを示している。このようにすることで、推論結果を得たときに推論の確からしさを情報エントロピーに基づいて算出することができる。
<しきい値>
図21に図20で求めた情報エントロピーを元にしきい値設定部17が設定した、しきい値に基づき推論を行う処理のフローグラフを示す。図21においては、テストデータを第1の学習装置で推論を行い(ステップST92)、その推論結果のソフトマックス関数の出力結果がしきい値となる情報エントロピーよりも大きい場合(ステップST93のYES)において、N値分類する第2の学習装置を用いるものである(ステップST94、ステップST95)。ただし、必ずしも第2の学習装置でなくてもよく、第1のデータセットを用いて学習した学習装置や、第3のデータセットを第1の学習装置とは異なるアルゴリズムで学習した学習装置を用いても良い。
このとき、しきい値の設定がパラメータとなるものの、H_correctとH_wrongの間にしきい値となる値を定めるのが望ましい。なぜならば、H_correctよりも小さな値は不正解が少なく、H_wrongよりも大きな値は不正解が多くなるもの、H_wrongに振り分けられるデータの数が少なく推論性能の向上につながりにくいためである。このような処理により第1の学習装置が推論した結果で情報エントロピーが小さく確度の高いと考えられる結果に対しては、その結果を出力し、情報エントロピーが大きく確度の低いと考えられる結果に対しては、異なる学習装置で推論した結果を出力することにより、推論精度を向上させることができることを示すものである。
<しきい値の判定する学習装置>
しきい値の判定する学習装置においては、第1の学習装置の代わりに第1のデータセットで学習した学習装置を用いる場合は、ラベル誤りが小さいデータセットの場合には、情報エントロピーが比較的小さな結果になりやすく、またH_correctとH_wrongの間も小さな幅になり、高い推論結果を得ることができる。
第1の学習装置の代わりに、第2のデータセットで学習した学習装置を用いる場合においては、ラベル誤りを除去したデータであるため、テストデータ内に異常値が多い場合には情報エントロピーが大きくなりやすいが、テストデータ内に異常値が少ないと想定される場合には、高い推論結果を得ることができる。第1の学習装置の代わりに、第4のデータセットで学習した学習装置を用いる場合においては、テストデータ内に異常値が多いと想定される場合に、高い推論結果を得ることができる。
<しきい値以上の入力データに対するモデル>
図21のしきい値以上になった場合においても、第2の学習装置を用いる必要は必ずしもなく、上記の<しきい値の判定する学習装置>で示したのと同様に、第1、3、4のデータセットを用いて学習を行った学習装置で推論しても良い。
実施の形態2の<外れ値となる入力データを変形>で示すように、情報エントロピーがしきい値以上となる場合には、情報エントロピーがしきい値以下になるまで変形を行い、しきい値以下となったラベルを推論値として出力してもよい。更に、推論候補に応じて変形のさせ方を変えても良い。例えば、推論候補がリンゴと判定された場合には、リンゴは円に近いため回転させてもリンゴとして認識できる必要がある。一方、推論候補が自動車と判定された場合には、自動車が90度反転することは現実的ではないため回転角度は大きくても±10度程度であることが予想される。このように、現実の条件に合わせて変形を行うことで、推論精度を向上させることができる。
<しきい値以上の入力データに対してしきい値以下になるまで別のモデルを用いる>
しきい値判定を行った結果に対して、第1の学習装置とは異なる複数の学習装置で構成される第5の学習装置を構築し、しきい値以上となる入力データに対してしきい値以下の値が出力されるまで学習装置で繰り返し推論を行っても良い。ただし、入力データによっては収束しない場合が存在するので、その場合は全ての学習装置で推論を行っても判定できない場合は、判定できないことを出力することや、第5の学習装置による複数の学習装置の出力結果の多数決で判定することと、第5の学習装置による複数の学習装置の内、最小の情報エントロピーを出力した学習装置の推論結果に基づき推論値を出力するものである。
実施の形態5.
<概要>
実施の形態4で説明した情報エントロピーを用いると、既存のアンサンブル推論を効率的に行うことができる。アンサンブル推論は、同じデータセットに対して別々に学習した2つ以上の学習装置を用意し、1つの入力データに対して上記の異なる学習装置で推論を行い、それぞれの推論結果の和や多数決をとって、推論結果とするものである。しかしながら、異なる学習装置においては、入力データに対する推論精度に違いがあるのが一般的である。それに対して、本実施の形態は、推論精度が高いものほど重みを付けて和を取ることで推論精度を向上させることができることを示すものである。
<アンサンブル推論>
アンサンブル推論は、複数の推論結果に対する結果の和を取るものであり、本実施の形態ではVGG13の他にResnet18、Densenet121をアンサンブル推論に用いる。なお、アンサンブル推論はソフトマックス関数を用いて良いが、ソフトマックス関数を用いると正規化され、指数関数で処理されるため、特定の推論結果(例えばVGG13)に依存してしまう傾向があり、推論精度が向上しにくい。
それに対して、ソフトマックス関数を施す前の全結合で10値分類を出力した結果であれば、高い推論精度を得ることができる。VGG13、Resnet18、 Densenet121それぞれのCIFAR-10の10,000個のテストデータに対するソフトマックス前の推論結果の平均値を示す。
VGG13は
[6.033, 1.100, 0.5481, 0.2501, -0.0525, -0.3022, -0.594, -1.216, -2.329, -3.436]
Resnet18は
[5.507, 0.318, -0.265, -0.492, -0.619, -0.746, -0.839, -0.917, -0.953, -0.993]
Densenet121は
[5.004, 0.07, -0.369, -0.495, -0.568, -0.647, -0.704, -0.748, -0.767, -0.784]
次に正解の場合の出力結果の平均値を以下に示す。
VGG13は
[6.199, 1.015, 0.5345, 0.2569, -0.0423, -0.2905, -0581, -1.219, -2.37, -3.50]
Resnet18は
[5.616, 0.2178, -0.3013, -0.5036, -0.6195, -0.7430, -0.8329, -0.9088, -0.9428, -0.9815]
Densenet121は
[5.070, 0.007, -0.385, -0.497, -0.5673, -0.645, -0.700, -0.7425, -0.761, -0.778]
次に不正解の場合の出力結果の平均値を以下に示す。
VGG13は
[4.003, 2.1348, 0.7128, 0.1674, -0.1769, -0.444, -0.754, -1.181, -1.805, -2.656]
Resnet18は
[4.044, 1.666, 0.217, -0.337, -0.614, -0.7903, -0.920, -1.030, -1.089, -1.146]
Densenet121は
[3.953, 1.222, -0.1148, -0.469, -0.583, -0.675, -0.766, -0.831, -0.855, -0.880]
この結果において、値が大きいほど確からしく、値がマイナスにいくほど予測から遠いことを示している。そのため、一般的な学習装置は最大値となる値に該当する推論値を出力する。
このように、推論結果の平均値を算出することで平均値に対する情報エントロピーを算出することができる。更に、平均値、正解の場合、不正解の場合に関わらず、最大値は3つの学習装置で近い値になるため、ソフトマックス関数を施した場合のように、どれか一つの推論結果に依存しにくくなる。なお、上記の例においてはVGG13の平均値の情報エントロピーが1.1、Resnet18が0.90、Densenet121が0.83となる。
次に、各学習装置におけるテストデータに対する推論結果はVGG13が92.39%、Resnet18が93.07%、Densenet121が94.06%となる。この結果から推論精度が高い順にDensenet121、Resnet18、VGG13であることが分かる。同様に情報エントロピーが小さい順にDensenet121、Resnet18、VGG13となることが分かる。このことから、推論精度が高い学習装置ほど、情報エントロピーが小さくなりやすいことが確認できる。この傾向は異なるデータセットや異なる学習装置を用いて検証しても同様になる。そのため、情報エントロピーを重みとして用いるとアンサンブル推論の精度を向上させることができる。
<アンサンブル学習における情報エントロピーの活用>
上記のDensenet121、Resnet18、VGG13の推論結果の和を取って正解ラベルとの比較を行うと94.59%の推論精度であった。それに対して、推論精度が高い学習装置ほど情報エントロピーは小さいため、情報エントロピーの逆数を関数に含む重みとすることで推論精度を向上させられることができる。すなわちf(・)という関数に基づき、VGG13の情報エントロピーをentropy1、Resnet18の情報エントロピーをentropy2、Densenet121の情報エントロピーをentropy3とすると、
f(1/entropy1)*VGG13+f(1/entropy2)*Resnet18+f(1/entropy3)*Densenet121
で計算することで推論精度を向上させることができる。一例としてf(・)が恒等写像である場合はf(x)=xであるため、
(1/entropy1)*VGG13+(1/entropy2)*Resnet18+(1/entropy3)*Densenet121
によって、算出することができる。
この式に基づいてアンサンブル推論を行うと94.65%と情報エントロピーをアンサンブル推論の94.59%と比べて0.06%の推論精度の向上を測ることができる。なお、ソフトマックス関数を施した後に上記の重みを施さずに和を取る場合においては94.39%と、上記比較対象の94.59%に比べて0.2%推論精度が低下する。
<情報エントロピーを用いたアンサンブル推論のアルゴリズム>
図22にアンサンブル推論のフローグラフを示す。第1のデータセットのように多値分類可能なテストデータに対して(ステップST81)、2つ以上の情報処理装置で推論を行い、2つ以上の推論結果を出力する(ステップST02)。そして、その出力結果の平均値から情報エントロピーを算出し(ステップST03、ステップST04)、情報エントロピーの逆数を成分に含む関数を重みとして各学習装置の出力結果に掛け算した後に和を取る(ステップST05、ステップST06)ことで、情報エントロピーを用いたアンサンブル推論を構成することができる。
推論精度の向上は小さいものの、簡単な演算で推論精度を向上させることができる効果がある。また、高い推論精度が必要な場合には例えば10個以上の学習装置を組み合わせて推論を行うことがあるが、組み込む学習装置によっては推論精度を悪化させる方向に働く学習装置も存在する。従来は、人の経験則や、多くの重みのパラメータ、また学習装置を結ぶ全結合で学習することで最適化するが、これを情報エントロピーに基づく方法で処理することができるため、最適化が不要である。またより高い推論精度を求めて重みの最適化する場合においても、最適値に近い値から最適化問題を解くことができるようになるため、少ない計算回数で各学習装置の重みの最適値を得ることができる。
なお、本開示は、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
本開示に係る情報処理装置は、入力データを分類することに利用することができる。
11 データ変換部、12 特徴量抽出部、13 類似データ分類部、14 モデル生成部、15 入力データ分類部、16 情報エントロピー算出部、100,200,300,400,500 情報処理装置。

Claims (4)

  1. 入力データの特徴量を抽出する特徴量抽出部と、
    複数の入力データを含む第1データセットと、前記第1データセットに含まれる複数の入力データのそれぞれに対して前記特徴量抽出部が抽出した特徴量と、に基づいて、前記第1データセットに含まれる複数の入力データの一部または全部を、特定の2以上の整数をNとすると、互いに特徴量が類似する複数の入力データからなるN個のデータセットに分類すると共に、前記N個のデータセットのそれぞれに互いに異なるN個のラベルを新たに付与する類似データ分類部と、
    前記N個のデータセットのそれぞれ一部を使用して、前記N個のデータセットのそれぞれに付与されたラベルのいずれかに対応するように入力データを分類するための学習済みモデルを生成するモデル生成部と、
    前記モデル生成部が生成した学習済みモデルに基づく推論によって入力データを分類する入力データ分類部と、を備え、
    前記類似データ分類部は、前記入力データ分類部が、前記モデル生成部が生成した学習済みモデルに基づく推論によって、前記N個のデータセットのうち前記モデル生成部が学習済みモデルの生成に使用しなかった入力データを分類した際の推論精度に基づいて前記Nの値を正解ラベルの個数とする第5データセットとする
    ことを特徴とする情報処理装置。
  2. 前記第1データセットは、特定の2以上の整数をMとすると、M個の正解ラベルと、前記M個の正解ラベルに対応付けられた複数の入力データと、を含み、
    前記類似データ分類部は、前記M以上かつ分類数に対して前記推論精度が極大となる最小の前記Nを前記第5データセットとする
    ことを特徴とする請求項記載の情報処理装置。
  3. 前記入力データ分類部において、前記第1データセットとは異なる、正解ラベルを持たない第6データセットを入力データとして用いる
    ことを特徴とする請求項記載の情報処理装置。
  4. 前記類似データ分類部は、前記第1データセットに含まれる複数の入力データのうち、前記類似データ分類部によって前記第5データセットとして分類されなかった入力データを非分類データセットとすると、前記非分類データセットに前記第5データセットのそれぞれに付与されたラベルとは異なる第2ラベルを付与し、
    前記モデル生成部は、前記第5データセット及び前記非分類データセットを使用して、入力データを前記第5データセットのそれぞれに付与されたラベル及び前記第2ラベルのいずれかに対応するように分類するための学習済みモデルである第4学習済みモデルを生成する
    ことを特徴とする請求項記載の情報処理装置。
JP2024503806A 2022-03-25 2022-03-25 情報処理装置 Active JP7466815B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/014204 WO2023181319A1 (ja) 2022-03-25 2022-03-25 情報処理装置

Publications (3)

Publication Number Publication Date
JPWO2023181319A1 JPWO2023181319A1 (ja) 2023-09-28
JPWO2023181319A5 JPWO2023181319A5 (ja) 2024-03-01
JP7466815B2 true JP7466815B2 (ja) 2024-04-12

Family

ID=88100818

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2024503806A Active JP7466815B2 (ja) 2022-03-25 2022-03-25 情報処理装置

Country Status (2)

Country Link
JP (1) JP7466815B2 (ja)
WO (1) WO2023181319A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017076287A (ja) 2015-10-15 2017-04-20 キヤノン株式会社 データ解析装置、データ解析方法及びプログラム
JP2020190935A (ja) 2019-05-22 2020-11-26 富士通株式会社 機械学習プログラム、機械学習方法および機械学習装置
JP2021131678A (ja) 2020-02-19 2021-09-09 京セラドキュメントソリューションズ株式会社 学習用データセット生成システム、学習用データセット生成サーバーおよび学習用データセット生成プログラム
JP2022003446A (ja) 2020-06-23 2022-01-11 京セラドキュメントソリューションズ株式会社 情報処理装置
JP2022037802A (ja) 2020-08-25 2022-03-09 富士通株式会社 データ管理プログラム、データ管理方法及び情報処理装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017076287A (ja) 2015-10-15 2017-04-20 キヤノン株式会社 データ解析装置、データ解析方法及びプログラム
JP2020190935A (ja) 2019-05-22 2020-11-26 富士通株式会社 機械学習プログラム、機械学習方法および機械学習装置
JP2021131678A (ja) 2020-02-19 2021-09-09 京セラドキュメントソリューションズ株式会社 学習用データセット生成システム、学習用データセット生成サーバーおよび学習用データセット生成プログラム
JP2022003446A (ja) 2020-06-23 2022-01-11 京セラドキュメントソリューションズ株式会社 情報処理装置
JP2022037802A (ja) 2020-08-25 2022-03-09 富士通株式会社 データ管理プログラム、データ管理方法及び情報処理装置

Also Published As

Publication number Publication date
WO2023181319A1 (ja) 2023-09-28
JPWO2023181319A1 (ja) 2023-09-28

Similar Documents

Publication Publication Date Title
KR102071582B1 (ko) 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
Hakim et al. A systematic review of rolling bearing fault diagnoses based on deep learning and transfer learning: Taxonomy, overview, application, open challenges, weaknesses and recommendations
US11270124B1 (en) Temporal bottleneck attention architecture for video action recognition
Adams et al. A survey of feature selection methods for Gaussian mixture models and hidden Markov models
CN110659742B (zh) 获取用户行为序列的序列表示向量的方法和装置
US20210397954A1 (en) Training device and training method
US11288567B2 (en) Method for training deep neural network (DNN) using auxiliary regression targets
Shadrach et al. RETRACTED ARTICLE: Neutrosophic Cognitive Maps (NCM) based feature selection approach for early leaf disease diagnosis
Xiang et al. Towards interpretable skin lesion classification with deep learning models
Wang et al. Deep generative mixture model for robust imbalance classification
Zou et al. Handwritten chinese character recognition by convolutional neural network and similarity ranking
Behrouzi et al. Multimodal movie genre classification using recurrent neural network
JP7466815B2 (ja) 情報処理装置
CN116630943A (zh) 一种驾驶员疲劳检测模型构建方法、装置、设备及介质
US20230419170A1 (en) System and method for efficient machine learning
Karras et al. A Hybrid Ensemble Deep Learning Approach for Emotion Classification
Rungta et al. A deep learning based approach to measure confidence for virtual interviews
Challita et al. New technique for feature selection: Combination between elastic net and relief
Li et al. CNN-LDNF: an image feature representation approach with multi-space mapping
JP7483172B2 (ja) 情報処理装置及び情報処理方法
Zakaria et al. Improved VGG Architecture in CNNs for Image Classification
Agustiono et al. A modification of convolutional neural network layer to increase images classification accuracy
Xiang et al. Semi-parametric training of autoencoders with Gaussian kernel smoothed topology learning neural networks
EP3401843A1 (en) A method, an apparatus and a computer program product for modifying media content
Shtino et al. Comparative Study of K-NN, Naive Bayes and SVM for Face Expression Classification Techniques

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240122

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240122

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20240122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240402

R150 Certificate of patent or registration of utility model

Ref document number: 7466815

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150