JP7466815B2

JP7466815B2 - 情報処理装置

Info

Publication number: JP7466815B2
Application number: JP2024503806A
Authority: JP
Inventors: 佑介山梶; 邦彦福島
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2024-04-12
Anticipated expiration: 2042-03-25
Also published as: WO2023181319A1; JPWO2023181319A1

Description

本開示は、情報処理装置に関する。

従来、画像認識や動画、グラフなどに用いられるニューラルネットワークは、各ドメインのデータを情報処理装置によって学習させ、データ内の特徴量を抽出する。特徴量を抽出一つの手段として深層学習での畳み込み演算を用いて高い認識性能が得られるＣＮＮ（畳み込みニューラルネットワーク）が知られている。また、特徴量を抽出する別の手段としてＡＴＴＥＮＴＩＯＮ（選択的注意）の応用であるトランスフォーマーを活用し、画像であればＶｉＴ（ビジョン・トランスフォーマー・ネットワーク）、グラフであればグラフ・トランスフォーマー・ネットワークと呼ばれるニューラルネットワーク知られている。この際、いずれの方法においてもデータを分類するタスクの場合には、各分類に対する確からしさを出力し、その確からしさが最も高いものを出力する。特に、確からしさが低い場合においては出力をしない方法が知られている（例えば特許文献１）。

特開２０１３－１１７８６１号公報

一般に、上記情報処理装置のように、各入力データに対して正解ラベルが付与されたデータセットを用いて学習を行う情報処理装置においては、正解ラベルの誤りが学習結果に影響されて、推論の精度が低下してしまう場合があった。

本開示は、上記課題を解決するものであり、推論の精度を向上させることができる情報処理装置及び情報処理方法を提供することを目的とする。

本開示に係る情報処理装置は、入力データの特徴量を抽出する特徴量抽出部と、複数の入力データを含む第１データセットと、第１データセットに含まれる複数の入力データのそれぞれに対して特徴量抽出部が抽出した特徴量と、に基づいて、第１データセットに含まれる複数の入力データの一部または全部を、特定の２以上の整数をＮとすると、互いに特徴量が類似する複数の入力データからなるＮ個のデータセットに分類すると共に、Ｎ個のデータセットのそれぞれに互いに異なるＮ個のラベルを新たに付与する類似データ分類部と、Ｎ個のデータセットのそれぞれ一部を使用して、Ｎ個のデータセットのそれぞれに付与されたラベルのいずれかに対応するように入力データを分類するための学習済みモデルを生成するモデル生成部と、モデル生成部が生成した学習済みモデルに基づく推論によって入力データを分類する入力データ分類部と、を備え、類似データ分類部は、入力データ分類部が、モデル生成部が生成した学習済みモデルに基づく推論によって、Ｎ個のデータセットのうちモデル生成部が学習済みモデルの生成に使用しなかった入力データを分類した際の推論精度に基づいてＮの値を正解ラベルの個数とする第５データセットとすることを特徴とするものである。

本開示によれば、上記のように構成したので、推論の精度を向上させることができる。

実施の形態１に係る情報処理装置のハードウェア構成の一例を示す図である。実施の形態１に係る情報処理装置の構成を示すブロック図である。実施の形態１に係る情報処理装置が行うクラスタリングの処理を示すフローグラフである。実施の形態１に係る情報処理装置が行うクラスタリングの処理を示す概略図である。実施の形態１に係る情報処理装置に入力される画像のデータセットの一例を示す図である。実施の形態１に係る情報処理装置に入力されるグラフのデータセットの一例を示す図である。実施の形態１に係る情報処理装置に入力される自然言語のデータセットの一例を示す図である。実施の形態１に係る情報処理装置に入力される信号の時間波形のデータセットの一例を示す図である。実施の形態１に係る情報処理装置のテストデータに対する推論精度を示す実験データである。実施の形態２に係る情報処理装置が行う学習の処理を示すフローグラフである。実施の形態２に係る情報処理装置が行う学習の処理を示すフローグラフである。実施の形態２に係る情報処理装置が行う学習の処理を示すフローグラフである。実施の形態２に係る情報処理装置が行う学習の処理を示すフローグラフである。実施の形態２に係る情報処理装置のテストデータに対する推論精度を示す実験データである。実施の形態３に係る情報処理装置が行う学習の処理を示すフローグラフである。実施の形態３に係る情報処理装置が行う学習の処理を示すフローグラフである。実施の形態３に係る情報処理装置のテストデータに対する推論精度を示す実験データである。実施の形態３に係る情報処理装置が行う学習の処理を示すフローグラフである。実施の形態４に係る情報処理装置の構成を示すブロック図である。実施の形態４に係る情報処理装置が行う学習の処理を示すフローグラフである。実施の形態４に係る情報処理装置が行う学習の処理を示すフローグラフである。実施の形態５に係る情報処理装置が行う学習の処理を示すフローグラフである。

以下、本開示に係る実施の形態について図面を参照しながら詳細に説明する。
実施の形態１．
＜ハードウェアの構成＞

図１は、本願の実施の形態１による情報処理装置１００としてのハードウェア構成の一例を示す図である。情報処理装置１００としてのハードウェアは、情報ネットワークに接続されていないスタンドアロンのコンピュータであっても良いし、情報ネットワーク経由でクラウド等に接続されたサーバクライアン卜システムのサーバ、またはクライアン卜であっても良い。さらにハードウェアは、スマートフォンまたはマイコンであっても良い。また工場内などを想定した場合には、エッジコンピューティングと呼ばれる工場内で閉じたネットワーク内での計算機環境であっても良い。

情報処理装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１を内蔵しており、ＣＰＵ１にはバス配線を介して、入出力インタフェース４が接続されている。ＣＰＵ１は入出力インタフェース４を介して、機械学習を用いるユーザによって入力部６が操作等されることにより指令が入力されると、それに従って、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２ａに格納されているプログラムを実行する。あるいは、ＣＰＵ１は、ハードディスク（ＨＤＤ）２ｃ、あるいはＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ、図示せず）に格納されたプログラムを、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２ｂにロードして、必要に応じて読み書きして実行する。これによりＣＰＵ１は各種の処理を行い、情報処理装置１００を所定の機能を有する装置として機能させる。

ＣＰＵ１は各種処理の結果を必要に応じて入出力インタフェース４を介して、出力部５である出力デバイスから出力、あるいは通信部７である通信デバイスから送信、更にはハードディスク２ｃに記録させる。また、ＣＰＵ１は各種情報を必要に応じて入出力インタフェース４を介して通信部７から受信し、ハードディスク２ｃから呼び出して用いる。

入力部６は、キーボード、マウス、マイクあるいはカメラ等で構成される。また、出力部５は、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）あるいはスピーカ等で構成される。また、ＣＰＵ１が実行するプログラムは、情報処理装置１００に内蔵されている記録媒体としてのハードディスク２ｃまたはＲＯＭ２ａに予め記録しておくことができる。あるいは、プログラムやデータセットは、ドライブ８を介して接続されるリムーバブル記録媒体９に格納（記録）しておくことができる。

このようなリムーバブル記録媒体９は、いわゆるパッケージソフトウェアとして提供することができる。リムーバブル記録媒体９としては、例えば、フレキシブルディスク、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＭＯ（ＭａｇｎｅｔｏＯｐｔｉｃａｌ）ディスク、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、磁気ディスク、半導体メモリ等がある。

また、プログラムやデータセットは複数のハードウェア間を有線、無線のいずれか一方あるいは、双方を介して接続するＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）等のシステム（Ｃｏｍｐｏｒｔ）を通して送受信することができる。さらに、後述する学習を行い、学習によって得られた重み関数のみを、上記方法で送受信することができる。

例えば、ＣＰＵ１は、情報処理装置１００を機械学習の演算処理を行う機械学習装置として機能させる。なお、機械学習装置はＣＰＵあるいはＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等の並列演算を得意とする汎用のハードウェアで構成する他、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）あるいはＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等の専用のハードウェアで構成することができる。

さらに情報処理装置１００は、通信ポートを経由して複数台で構成されていても良く、後述する学習と推論とが、別構成のハードウェアで実施されていても良い。さらに、情報処理装置１００が、通信ポートを経由して、異なるハードウェアに繋がれたセンサ信号を受信する、あるいは通信ポートを経由して複数のセンサ信号を受信してもよい。さらに、１つのハードウェア内に、複数の仮想ハードウェア環境を用意し、各仮想ハードウェアを個別のハードウェアとして扱っても構わない。

＜言葉の定義＞
入力に用いるデータは画像データ、グラフデータ、テキストデータ、時間波形データを想定する。また、出力は入力したデータに対して多値分類である。多値分類は例えば０から９までの１０値に分類された、いずれかの値を出力する機械学習の一つの手法である。データは教師あり学習、または半教師あり学習である。すなわち、教師あり学習とは各入力データに対して必ず一つ以上の分類値を有しているものである。また半教師あり学習とは、必ずしも全ての入力データが分類値を有していないが、少なくとも各分類値に対して１つ以上の入力データを有するものである。本実施の形態では、上記の教師あり学習や半教師あり学習の入力データに対する分類値を正解ラベルと呼び、入力データに対する正解ラベルが正しく付与されていないデータはラベル誤りと定義する。また上記の入力データと出力データの組をデータセットと呼ぶ。

データセットは、学習データとテストデータに分離可能である。学習データはクラスタリングや機械学習の学習を行うものであるのに対し、テストデータに対しては学習を行わず、学習で得た特性を検証するために用いる。更に１つの正解ラベルあたりデータ数が５，０００以上ある場合など、十分なデータを用意できる場合には学習データ、テストデータとは別に検証用データを用意しても良い。この場合は、検証用データは上記のテストデータと同様の役割を果たすのに対して、テストデータは学習が完了した情報処理装置の推論時に精度確認用に１度だけ用いるものであり、学習時には用いないものである。

このように検証用データを用いることでテストデータに対する過学習を避けることが可能となり、検証用データとテストデータとの推論精度（推論の確度）の間に乖離が発生する場合には過学習していると判断することが可能となる。そのため、検証用データを用いる場合においては、実環境に近い環境でも高い推論精度を出すことができる。ただし、データ数が少ないと検証用データを用意したとしても過学習や、学習時の入力データの選び方で推論精度が乱高下することがあるため、そのような場合には検証用データは用いないか、新たなデータの追加を検討するのが望ましい。

＜実施の形態１の概要＞
次に図２を用いて本実施の形態の概要を述べる。図２は、情報処理装置１００の構成を示すブロック図である。情報処理装置１００は、上述したハードウェア構成によって、制御部１０、入力部６、出力部５、通信部７及び記憶部２０を備えるように構成されている。

入力部６、通信部７及び記憶部２０からの入力データは、制御部１０に入力される。記憶部２０は、例えば、ＲＯＭ２ａ、ＲＡＭ２ｂ、ハードディスク２ｃ、ドライブ８等によって構成されており、情報処理装置１００が使用する種情報、及び情報処理装置１００が演算した結果等の各種のデータ及び情報を記憶する。

制御部１０は、データ変換部１１、特徴量抽出部１２、類似データ分類部１３、モデル生成部１４及び入力データ分類部１５を有しており、入力部６及び通信部７から入力されたデータ並びに記憶部２０から取得したデータ及び情報に基づいて、データ変換部１１、特徴量抽出部１２、類似データ分類部１３、モデル生成部１４及び入力データ分類部１５によって各種処理を行う。例えば、制御部１０は、各種処理を行った結果を出力部５及び通信部７を介して外部へ出力する。また、例えば、制御部１０は、各種処理を行った結果を記憶部２０に記憶させる。なお、入力部６、通信部７及び記憶部２０が、実施の形態１における入力部を構成する。また、出力部５、通信部７及び記憶部２０が、実施の形態１における出力部を構成する。

データ変換部１１は、情報処理装置１００に入力された入力データに対して所定の処理を行うことで入力データを変換（変形）し、新たな入力データを生成する。なお、データ変換部１１は、実施の形態１におけるデータ生成部を構成する。特徴量抽出部１２は、入力部６、通信部７及び記憶部２０からの入力データの特徴量を抽出して入力データを分類する。言い換えると、特徴量抽出部１２は、入力部６、通信部７及び記憶部２０からの入力データの特徴を数値化する。

類似データ分類部１３は、情報処理装置１００に入力された入力データに対して、クラスタリング処理を行う。また、類似データ分類部１３は、入力データの特徴量を抽出して、それぞれの結果が類似しているかの判断を自己教師あり学習で行い、学習済みモデルを生成する。モデル生成部１４は、入力部６、通信部７及び記憶部２０からの入力データ、データ変換部１１によって生成されたデータ、類似データ分類部１３によってクラスタリング処理が行われたデータ等に基づいて学習を行い、学習済みモデルを生成する。また、モデル生成部１４は、自己教師あり学習で分類されたものの内、正解ラベルを有しているデータセットでは教師あり学習を行う。また、モデル生成部１４は、正解ラベルを有していないデータセットでは自己教師あり学習での分類結果で新たに付与したデータを正解ラベルとして教師あり学習を行う。更に、自己教師あり学習で分類されたものの内、正解ラベルを有しているデータセットでは、各分類において正解ラベルが一致しないデータを各分類から除去し、正解ラベルが一致するデータのみを用いて、教師あり学習を行う。例えば、第１データセット及び第２データセットは、各入力データに対応付けられた複数の正解ラベルを含む場合、類似データ分類部が、第２のデータセットに含まれる複数の正解ラベルのうち、対応付けられた入力データの数が最も多い正解ラベル以外の正解ラベルに対応付けられた入力データを第２データセットから除外した第７データセットを生成し、入力データ分類部が、当該第７データセットを用いて、教師あり学習を行って学習モデルを生成してもよい。
入力データ分類部は、モデル生成部が生成した学習済みモデルに基づく推論によって入力データを分類する。例えば、入力データ分類部１５は、モデル生成部が生成した第１学習済みモデルに基づいて入力データを推論して分類する第１学習装置１５Ａと、モデル生成部が生成した第２学習済みモデルに基づいて入力データを推論して分類する第２学習装置１５Ｂと、を有している。なお、入力データ分類部は、上述した以外の学習済みモデルに基づいて入力データの推論を行う他の学習装置を有していてもよい。制御部１０の各構成の詳細については、後述する。

図３は、情報処理装置１００が行うクラスタリングの処理を示すフローグラフである。情報処理装置１００は、クラスタリングを用いて、多値分類可能なデータセットであり、かつラベル誤りを含むデータセットを第１のデータセットと定義するとき、その第１のデータセットをクラスタリングで類似集合と非類似集合に分離する。例えば、第１のデータセットは、５％以上１０％未満のラベル誤りを含む。また、例えば、情報処理装置１００は、まず、多値分類可能でラベル誤りの入力データを含む第１のデータセット（第１データセット）を取得する（ステップＳＴ１）。ステップＳＴの処理を行うと、情報処理装置１００は、第１のデータセットを類似データ分類部１３によるクラスタリング処理で、互いに特徴量が類似する入力データの類似集合である第２のデータセット（第２データセット）に分類したか否かを判定する（ステップＳＴ２）。

第１のデータセットをクラスタリングで分類した類似集合を第２のデータセットとし（ステップＳＴ２のＹＥＳ、ステップＳＴ３）、第２のデータセットを使用して、モデル生成部１４により入力データを分類するための学習済みモデルである第１学習済みモデルを生成する（ステップＳＴ４）。この処理によって、第１学習装置１５Ａは、第１学習済みモデルに基づいて入力データを推論可能となる。

図４の概略図に示すようにクラスタリングは入力データに付与された正解ラベルを用いずに複数のデータの中で似たデータとの距離を近づけ、複数のデータの中で似ていないデータとの距離を離す処理を行うものである。本実施の形態ではクラスタリングは機械学習をベースとする学習を要する処理である。

クラスタリングは入力データの組み合わせを作り学習させる方法であるため、その入力データの組み合わせの選択方法や、学習に用いる機械学習の構成、入力データ間の距離の定義や、距離を最小化する損失関数の定義は様々な方法が知られるが、どのようなものを用いても構わない。本実施の形態では特に対照学習（ＣｏｎｔｒａｓｔｉｖｅＬｅａｒｎｉｎｇ）と呼ばれる手法の内、自己教師あり学習と呼ばれる手法をクラスタリングに用いて処理する方法について説明する。なお、自己教師あり学習は、教師ありとの名前が付いているが正解ラベルを用いず距離を最小化すること、すなわち学習を行うものである。

クラスタリングによって学習データを類似集合と非類似集合に分離し、類似集合に分離されたデータを第２のデータセットとし、非類似集合に分離されたデータは破棄する。この方法で第２のデータセットを作成し、第２のデータセットを第１のデータセットと同じ分類数であるＮ個、すなわちＮ値分類する第１の学習装置（第１学習装置）を作成する。なお、Ｎの値は、特定の２以上の整数であり、実施の形態１における第１数及び第３数を構成する。

この第１の学習装置の性能は上記のテストデータによって確かめることができ、テストデータを学習済みの第１の学習装置に入力したときに出力される推論値と、テストデータに付与された正解のラベルを比較し、一致した場合を正解、一致しなかった場合を不正解として数えることで処理することで可能である。例えば、１０，０００個のテストデータがあり、９，０００個が正解ラベルと一致した場合は９０．００％（＝（９，０００／１０，０００）×１００）と算出することができる。

このテストデータによる比較を行うことで検証ができ、その結果第１のデータセットをＮ値分類問題として学習した学習装置よりも、第２のデータセットをＮ値分類問題として学習した学習装置の方が、テストデータに対して、より多くの正解を出すことが可能であることを示すことができる。なお、上述したテストデータ及び検証用データは、学習済みモデルの生成には使用されていないデータであり、第１のデータセットとは別のデータ（特定の入力データ）として用意されてもよいし、第１のデータセットの一部を学習済みモデルの生成前に予めテストデータ及び検証用データとして設定してもよい。

＜第１のデータセット＞
○正解ラベル
正解ラベルは１０値分類の場合には０から９までの整数が用いられることが一般的であるが、連続である必要や０から始まる必要は必ずしもない。他にもＯｎｅＨｏｔＶｅｃｔｏｒのように前記の１を（１，０，０）、前記の２を（０，１，０）、前記の３を（０，０，１）のように、該当する正解ラベルの位置のみに１を入れて、１０値分類する場合には１０×１０の行列を出力としても良い。また、分かりやすさのために１０値分類を用いて説明を行うが、本実施の形態においては２値分類以上であれば良く、例えば画像認識で有名なデータセットであるＩｍａｇｅＮｅｔは１，４００万枚の画像と、各画像に写っている２万以上の正解ラベルの分類数を有するが、このような大規模なデータセットにも活用することができる。また、回帰問題においては、分類問題とは異なるものの、入力データの正解、及び出力の範囲が例えば０から１００までの実数の場合には、０～１、１～２、・・・、９９～１００というように１００個の離散値に変換することで、２値以上に分類する分類問題に変換することもでき、本実施の形態に適用することが可能である。

○ラベルの誤り
本実施の形態で述べるラベル誤りはいくつかの場合が存在する。多値分類のデータセットを画像分類問題に使われるＣＩＦＡＲ－１０を例に説明する。ＣＩＦＡＲ１０は、各入力データに対して飛行機、自動車、鳥、猫、鹿、犬、蛙、馬、船、トラックの１０値のいずれかのラベルが付与されている。教師あり学習の場合は全ての入力データに対して正解ラベルが付与されており、半教師あり学習の場合は一部の入力データに対してのみ正解ラベルが付与されたデータである。入力データとの一致が取れていないラベルはラベル誤りとなる。例えば、犬の写真が写っているにもかかわらず、ラベルは猫となっている場合には上記の例に該当する。

また、多値分類の範囲外のラベルに該当する入力データが含まれている場合にもラベル誤りとして定義する。例えばＣＩＦＡＲ－１０の飛行機とラベル付けられた画像データに対して、ＣＩＦＡＲ－１０のいずれにも該当しないリンゴの画像が写っている場合には上記の例に該当する。

また、入力データに複数のラベルが含まれている場合があり、この場合においては利用目的に応じてラベル誤りと判定する場合としない場合がありうる。例えばＣＩＡＦＡＲ－１０の猫とラベル付けられた入力データに猫と犬が同時に入っている場合には上記の例に該当し、入力データが猫と犬の両方のラベルを持っており、どちらか一方があっていれば良い処理を行う場合はラベル誤りではない。一方、猫と犬の両方のラベルを出力しないと誤りと判定する処理を行う場合にはラベル誤りとして判定する。

また、多値分類以外のラベルが含まれている場合にもラベル誤りとして定義する。例えばＣＩＦＡＲ－１０において、正解ラベルに含まれていないリンゴのラベルが付いていたらラベル誤りと判定する。ＣＩＦＡＲ－１０にリンゴが含まれると１１値分類になり、リンゴのラベルが付いた入力情報を除去すれば良いため、この場合にはクラスタリングを行う前の前処理でラベル誤りを除去することができる。

○入力データ
次に情報処理装置に入力するデータについて、具体的に説明を行う。図５に示す画像の場合には静止画、動画があるが、動画の多値分類問題は静止画を連続的に組み合わせたものとして考えることができるため、本実施の形態では静止画のみの説明を行う。静止画においては、カラー画像とモノクロ画像があり、本実施の形態では情報処理装置への入力が、カラー画像がＲＧＢなど２つ以上のチャネルの組み合わせなのに対して、モノクロ画像は１チャネルでできていること以外は入力データに違いはない。なお、チャネル数が複数ある場合の処理は、情報処理装置のアルゴリズムの違いによって複数あるものの、チャネル間を結合するための全結合による重み行列によって１チャネルにまとめるのが一般的である。ただし、その手法は本実施の形態においてはどのようなものであっても構わない。

また、画像の大きさはＭＮＩＳＴやＣＩＦＡＲ１０のように３２ピクセル×３２ピクセルのように小さなものであれば演算時間は小さく済むが、ＳＴＬ１０のように９６ピクセル×９６ピクセルのように、大きさに制限はなく、また上記のように必ずしも正方形である必要はない。画像もＣＣＤやＣＭＯＳカメラである必要はなく、物理的なデータを数値データに変換する赤外線センサやレーダー信号、無線信号、熱や音、振動、電場、磁場などを取得するセンサ信号や、コンピュータ上に表示または作成されたグラフィックやＣＡＤなどを活用しても構わない。

図６に示すグラフにおける分類問題には複数の問題設定が考えられる。グラフは点であるノードと、点と点をつなぐ線であるエッジで構成され、ノードやエッジには任意の情報を埋め込むことができる。そのようなグラフにおける主要な分類問題のとして、１つ目はエッジやグラフ情報からノードを分類する問題、２つ目はノードやグラフ情報からエッジを分類する問題、３つ目は複数のグラフを学習してグラフを分類する問題がある。更に、ノードが持つ特徴を有限の選択肢の中から選ぶ分類問題として予測することや、エッジが持つ特徴を有限の選択肢の中から選ぶ分類問題として予測することなど、目的に応じて使い分けることができる。

一例として、電気回路はグラフであることが知られているため、電気回路を元に説明を行う。電気回路で入力を回路図、出力を回路の任意の端子間の出力電圧とするとき、ノードを分類する問題の一つとしては所望の出力電圧となるように回路部品を選択するものである。回路部品はコンデンサやコイル、ダイオード、抵抗など有限の種類しか存在しないため分類問題となる。次にエッジを分類する問題は、必要な部品が全て回路図となるグラフに入っており、部品間を接続する配線を予測する問題は分類問題になる。厳密にはノードが２つ以上必要であるが、２つ以上の部品があれば多値分類問題となるため、本実施の形態の対象内となる。次にグラフを分類する問題は、例えば１つの回路図となるグラフが与えられたとき、そのグラフが昇圧電源、降圧電源、昇降圧電源のいずれかであるか分類することや、電源回路、センサ回路、通信回路、制御回路のいずれかであるかを分類する問題に用いることができる。

図７に示す自然言語処理における分類問題において、入力信号は１文、または１段落、１節、全文など、文章の塊の一部を切り出したものが与えられる。例えばあるニュース記事が与えられたときに、経済、政治、スポーツ、サイエンスのいずれかに分類するか推論を行うのは分類問題であり、このような問題には本実施の形態の手法を用いることができる。これは、一文や一段落で評価される分類問題であるが、例えば一つの小説を与えられ、誰の作品で本のジャンルを推論するような問題も分類問題であるため、本実施の形態の手法を用いることができる。更に、入力に入力データに対して喜怒哀楽などに分類する感情分析も分類問題であり、このような問題には本実施の形態の手法を用いることができる。

図８に示す時間波形における分類問題は、横軸が時間、縦軸が電圧や波高値など任意の物理情報となる時間波形を入力データとするとき、その時間波形を分類するものである。例えば上記の回路の例で示すと、回路図の時間波形を入力とし、その時間波形から電源回路、センサ回路、通信回路、制御回路を分類する問題も、本実施の形態の手法を用いることができる。また、横軸は時間で説明を行ったが、周波数や座標など、物理的な広がりを持った特徴量であればどのようなものであっても構わない。また、必ずしも時間波形でなくてもよく、例えば時間波形をフーリエ変換して横軸を周波数、縦軸を振幅としても構わない。

上記は主要なデータについて説明を行ったが、例えばｉｒｉｓＤａｔａｓｅｔ（４種類の数値的特徴量から３つの種類に分類）のように、複数のパラメータを持ち、表形式で表すことができる数値的なデータセットなどＡＩに入力可能なデータであって、出力が分類で得られる形に変換できるものであれば、どのような入力データであっても構わない。

○入力データの数
データの数はデータセットによって異なるものの、教師あり学習であれば各正解ラベルに対して１，０００以上の画像やグラフ、時間波形、文字列などの入力データを用意するのが望ましい。また、一つの正解ラベルにおいて類似のデータの分散が小さい状態は望ましくなく、推論時に期待される結果を包含できる分散を持った学習用のデータセットであるのが望ましい。類似する分散を持っているか確認する一つの手段として、学習データと推論データの全部または一部を入れ替えても同じ推論精度になる場合は、類似する分散であると考えることができる。

また、入力データを増やすためにデータ水増し（ＤａｔａＡｕｇｍｅｎｔａｔｉｏｎ）と呼ばれる方法を用いても良い。ただ、画像の場合はアフィン変換等で学習データを増やす、データ水増しを用いることができるが、単独の時間波形を水増しすることは困難であることなど、あらゆるデータに対して水増しを用いることはできない。

学習に用いるデータが少ない場合は、たくさんのデータが得られる類似のデータセット（例えば上述のＩｍａｇｅＮｅｔ）や、類似のセンサで取得した膨大にあるデータで学習することや、変数や重み行列を初期値として取得済みの少ないデータで転移学習やファインチューニングして、学習させても構わない。なお、転移学習は初期値となる変数や重み行列の要素を少し変更する学習する方法であり、ファインチューニングは変数や重み行列は固定して全結合だけを学習する方法である。ただし、転移学習とファインチューニングを組み合わせて用いることも多く、例えば最初にファインチューニングを何度か使い全結合を最適化した後に、転移学習で重み行列に含まれる特徴量を最適化するなど両者を組み合わせて用いても良い。

半教師あり学習の場合においても、教師あり学習と同じであるがラベルが付いているデータが少ない分、学習に偏見が生じて推論精度が低下する欠点がある。そこで、自己教師あり学習のように教師なし学習で学習を行い、学習後に正解を与える方法などによっても学習をすることができる。この場合においても正解ラベルのない学習データは各正解ラベルに対して１，０００以上あることが望ましい。

＜情報処理装置＞
○クラスタリング
クラスタリングは入力データの類似度によってデータをグループ分けする手法を指す。多くのクラスタリングにおいて何個のグループに分けるかは、機械学習の設計者または使用者が決めるハイパーパラメータである。本実施の形態においては、正解ラベルの数が決まっているため、正解ラベルと同じ数、例えばＣＩＦＡＲ－１０の場合は１０個にクラスタリングで分類するのが望ましい。古典的なクラスタリングのアルゴリズムにおいてはＫ－ｍｅａｎｓが最も主流であるが、深層学習の登場以降、深層学習ベースのクラスタリングや、勾配ブースティング法など決定木に基づくクラスタリングなども知られており、本実施の形態においてはどのような方法を用いても構わない。本実施の形態においては、多くのデータに対して推論精度を出しやすい深層学習ベースのクラスタリングについて説明する。

クラスタリングの評価指標として、調整ランド指標（ＡＲＩ）や正規化相互情報量（ＮＭＩ）など複数の方法が知られており、それらの方法を用いて学習したクラスタリングの評価を行っても良い。ただし、本実施の形態においてはラベル誤りが含まれているものの正解ラベルが与えられているため、同じ正解ラベルの類似性を指標として、例えばクラスタリングで得た類似集合のラベルを、各ラベルに付与された正解ラベルの多数決で決定するなどの方法で評価しても構わない。例えば、ある一つの類似集合に１，０００個の要素が入っていたとして、その１，０００個の要素の内、９００個のラベルが１、７０個のラベルが７、３０個のラベルが９で構成されていた場合、多数決で９００個の１のラベルを１，０００個の要素に付与しても良い。ただし、異なる類似集合間で同じラベルにならないように、処理する必要がある。

○教師なし学習
上記のクラスタリングは教師なし学習に相当する。機械学習においては一般的に正解ラベルを与える教師あり学習と、正解ラベルを全く与えない教師なし学習と、正解はないが目的として設定した報酬を最大化する強化学習に分類される。半教師学習は教師あり学習と教師なし学習の中間に当たるが、正解ラベルを一部でも用いていることから教師あり学習の一手法として定義することもある。

本実施の形態において第１のデータセットは正解ラベルを与えられているため、教師あり学習や半教師あり学習が可能である。しかし、それらの教師あり学習を用いる代わりに教師なし学習であるクラスタリングで学習及び、学習データを蒸留（不要なデータを除去）し、第２のデータセットを作ることを特徴とする。これにより、本実施の形態のようにラベル誤りが多数含まれるデータセットであっても、ラベルの誤り率や、データの良し悪しに影響することなく、第２のデータセットを作ることができる。

○自己教師あり学習
本実施の形態においては、深層学習ベースの教師なし学習のうち自己教師あり学習と呼ばれる手法を用いる。自己教師あり学習はメタ学習（Ｍｅｔａ－Ｌｅａｒｎｉｎｇ）の中の基本的な手法であるシャムネットワーク（ＳｉａｍｅｓｅＮｅｔｗｏｒｋ）の手法の一つとして検討されている。

メタ学習は学習の仕方を学習させる方法であり、主に距離学習（Ｍｅｔｒｉｃ－ＢａｓｅｄＬｅａｒｎｉｎｇ）とモデル学習（Ｍｏｄｅｌ－ＢａｓｅｄＬｅａｒｎｉｎｇ）と最適化学習（Ｏｐｔｉｍｉｚａｔｉｏｎ－ＢａｓｅｄＬｅａｒｎｉｎｇ）とに分割され、シャムネットワークは距離学習の一つとして検討されている。距離学習は２つ以上のデータの組み合わせを考えたときに、近いものの距離を近づけ、遠いものの距離を遠ざける手法である。距離の定義は様々な方法が知られているが、マハラノビス距離などの統計的な距離をベースとするものや、相互エントロピーや相互情報量、交差エントロピー、カルバック・ライブラー情報量や、相互相関行列をベースとして距離として定義する方法などが知られており、これらの統計量や情報量を１つ以上組み合わせて特徴量間の類似度を測定するものである。また、単純に特徴量抽出の結果であるベクトル量を求め、２つの入力データに対する２つのベクトルからコサイン類似度によって、２つの入力データの類似度を測定しても構わない。また、各入力データ間の類似度を算出した結果を行列形式でまとめた距離行列として表現するのも望ましい使用方法である。

また、自己教師あり学習においては、元の入力データの一部を抽出することや一部を除去することなどの演算によって類似の入力データを作り、一つの入力データから作ったデータ間の距離は近づける。一方、別のラベルのデータから作ったデータも同様に処理し、近いものの距離はデータ間の距離を近づけ、遠いと判断できるものにおいては距離を離す処理をする。更に、前記の入力データの特徴は、深層学習の処理である全結合や畳み込み、Ａｔｔｅｎｔｉｏｎなどの方法で特徴量を抽出することができるため、その特徴量間の距離を測ることでデータ間の類似性を算出することができる。

本実施の形態におけるクラスタリングは類似、非類似に分類する精度が高いものを使用する必要がある。分類する精度が低いクラスタリングを用いると、多くのデータが非類似に分類されてしまい、学習データや学習データの分散が減ってしまった結果、テストデータに対する推論精度が低下してしまうことがあるためである。クラスタリング性能は、類似なしに分類された入力データを確認し、異常値と考えられる以外のデータが多数含まれるかで判断することができ、そのようなデータが多数含まれる場合は異なるクラスタリング手法を用いるのが望ましい。特に、深層学習に基づくクラスタリングは分類する精度が高いものが多く、ラベル誤りを含む多くのデータに対して、高い分類精度を出すことが可能である。

○入力データを処理する情報処理装置
自己教師あり学習に必要な特徴量を抽出するための情報処理装置について説明する。第１の学習装置は一般的な分類問題を解くための一般的な教師あり学習と同じであるため、説明しない。また、第１の学習装置と自己教師ありの違いは評価指標を定義する評価関数が異なること、及びクラス分類に必要なソフトマックス関数を用いないことである。第１の学習装置の出力層直前の全結合は必ずしも必要ではなく、全結合に入力する前の特徴量抽出の演算で所望の分類数に集約しても良い。ただし、多くの場合においてソフトマックス関数を施す方が、推論精度が向上する傾向にある。ソフトマックス関数以外にもｌｏｇ－ソフトマックス関数など、ソフトマックス関数を変形した非線形関数であっても構わない。

次に、様々な入力データに対して特徴量を抽出する手法の一例を示す。画像の場合には、上述のようにＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）、ＭＬＰ（Ｍｕｌｔｉ－ＬａｙｅｒＰｅｒｃｅｐｔｒｏｎ）、Ａｔｔｅｎｓｉｏｎ（選択的注意）ベースのＴｒａｎｓｆｏｒｍｅｒ（トランスフォーマー）が用いられることが多い。ただし、下記に示すグラフ理論で用いられるＧＮＮ（ＧｒａｐｈＮｅｕｒａｌＮｅｔｗｏｒｋ）や時系列処理に用いられるＲＮＮ（ＲｅｌａｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）やそれらを応用した技術によって画像を処理することも可能である。また上記は深層学習であるが、ロジスティクス回帰やサポートベクターマシンや、勾配ブースティング法等を用いてもよく、本実施の形態においてはそれらのアルゴリズムはどのようなものであっても構わない。

特に、深層学習においては様々なアルゴリズムが知られており、ＣＮＮにおいても畳み込みをするという共通点があるだけで、ＶＧＧやＲｅｓＮｅｔやＡｌｅｘＮｅｔ、ＭｏｂｉｌｅＮｅｔ、ＥｆｆｉｃｉｅｎｔＮｅｔなど、非常に多くのアルゴリズムが知られている。他にもＭＬＰにおいても単純な全結合だけで画像を処理するだけで高い推論精度が得られるＭＬＰ－Ｍｉｘｅｒのような方法が知られていて、これらを用いても構わない。また、Ｔｒａｎｓｆｏｒｍｅｒで画像を処理したＶｉｓｉｏｎＴｒａｎｓｆｏｒｍｅｒやＴｒａｎｓｆｏｒｍｅｒとＣＮＮの特徴量抽出とを組み合わせた方法などが知られており、これら単体の手法や組み合わせで処理することができる。

グラフは、ＧＮＮ（ＧｒａｐｈＮｅｕｒａｌＮｅｔｗｏｒｋ）や、近くのノードを畳み込むＧＣＮ（ＧｒａｐｈＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）などを用いる。グラフは画像のように等間隔に配置されていないため、グラフのままでは深層学習には入力することができない。そこで、グラフと一対一対応である隣接行列や次数行列に変換して入力を行う。ここで隣接行列はノード間の接続の有無を行列で表現する方法であり、ノードがＮ個ある場合にはＮ×Ｎの行列になる。またエッジに向きを持たない無向グラフの場合には対称行列となる。また、次数行列は各ノードに含まれるエッジの数を行列で表現する方法であり、ノードがＮ個ある場合にはＮ×Ｎ行列になり対角行列となる。このような行列に変換したものをＧＮＮやＧＣＮに入力し、複数回のＧＮＮなどの隠れ層を通して出力層直前の全結合やソフトマックス関数などに入力することで、グラフを分類問題として扱うことができる。

時間波形の場合にはＲＮＮが用いられることが多く、ＲＮＮを拡張したＧＲＵ（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ）、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）が主要な技術となる。これ以外にもＴｒａｎｓｆｏｒｍｅｒやＴｒａｎｓｆｏｒｍｅｒの元となったＡｔｔｅｎｔｉｏｎ機構を用いた技術を組み合わせるものや、離散的な畳み込みを利用したＴＣＮ（ＴｅｍｐｏｒａｌＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）などが知られている。これらの技術を入力データに対して用いることでデータを深層学習に入力することが可能である。

自然言語処理の場合には、上記の時間波形を扱うＬＳＴＭやその発展系であるＳｅｑ２Ｓｅｑ（ｓｅｑｕｅｎｃｅｔｏｓｅｑｕｅｎｃｅ）と呼ばれる技術が知られている。更にＳｅｑ２Ｓｅｑ（ｓｅｑｕｅｎｃｅｔｏｓｅｑｕｅｎｃｅ）の発展系であるＡｔｔｅｎｔｉｏｎ機構、更にその発展系であるＴｒａｎｓｆｏｒｍｅｒ技術が知られており、これらの技術を用いることで自然言語処理が可能である。なお、ＬＳＴＭは文章の前後関係から言語を予測することを可能にしたが、問題は信号の長さが固定長しか扱えなかったため、文章の長さにより精度にばらつきがあった。それをＳｅｑ２ＳｅｑはＥｎｃｏｄｅｒ－Ｄｅｃｏｄｅｒという概念を入れることで解決した。

ただし、精度が不十分であり文章を構成する単語間に相関を導入し、精度を向上させたのがＡｔｔｅｎｔｉｏｎであるが、並列化ができず大規模なデータセットを扱うことができなかった。そこで、ＡｔｔｅｎｔｉｏｎをＧＰＵなどの専用のハードウェアを用いて並列化できるようにした手法がＴｒａｎｓｆｏｒｍｅｒであるため、推論精度や計算時間に差はあるものの、元となる技術は共通であるため、本実施の形態でどのような方法を用いても構わない。

自己教師あり学習においては、上記の方法で特徴量を抽出する。その際、比較データを作る必要がある。情報処理装置１００は、データ変換部１１によって、入力データが画像である場合には、入力データの一部を抽出することや一部を除去すること、回転や引き伸ばしなどのアフィン変換や、ホワイトノイズなどの重畳、ＲＧＢなどのカラーの画像の場合には色のバランスを変えたり、シャープネスを変えたりするなどによって、１枚の入力画像から複数の画像を作り出すことができる。特に同じ入力画像から作った画像の特徴量を抽出した際の距離は近いことが分かっているため距離を近づける処理を行うことで学習をすることができる。

一方、画像以外のグラフや自然言語、時系列データの場合には、物理的な制約を持つことが多く、例えば回路図を処理するグラフネットワークの場合においては、画像と同様エッジやノードの一部を抽出することや、エッジやノードの一部を除去することは可能であるものの、抽出や除去の際には、キルヒホッフの法則などの物理法則に従うデータにしか変形することができない。一例として回路を扱う場合には電流が流れる経路は閉じたループである必要があるため、新しいグラフネットワークを作成するために任意にエッジを抜き取り、閉じたループを開いたループにすることは物理制約を満たさないため、物理制約を加味してデータを作成する必要がある。

自然言語処理においても同様であり、文章の一部を抽出することや、一部を除去することは可能であるが、類語による単語の置き換えは文脈を理解しなければならないため難しく、また文章の順番をランダムに変更することも困難である。しかし、文章の場合は他のデータと比べ、データを入手しやすいため、多くのデータの中から類似の文章を探す方法を利用できることが多い。時系列処理においても、波形の一部を抽出することや、波形の一部を除去することは可能であるが、波形の連続性などの物理法則が成り立つデータに対しては、抽出や除去の際においても物理法則に従わない方法では処理することができないことに注意を要する。また、波形の変形などを行う場合においても、ランダムな変形は望ましくなく、フーリエ級数展開などの特定の理論式に従う条件で変形するのが望ましい。

＜第２のデータセットの作成＞
ラベル誤りを持つデータを自己教師あり学習によって特徴量抽出し、その結果がクラスター数分の類似集合で構成される第２のデータセットとするとともに、図３に示すように類似性がないデータに関しては除去して、第２のデータセットに含めない。第２のデータセットにおいては、第１のデータセットに付与されたラベルと同じラベルを用いる条件で以下の＜実験結果＞での結果を得たが、自己教師あり学習の結果で類似集合と判定されたデータのラベルを変更し、第２のデータセットとしても構わない。

＜第１の学習装置の学習と推論＞
第１の学習装置の学習と推論は一般的な深層学習の学習と推論と同様である。具体的には入力データに対して畳み込みやＡｔｔｅｎｔｉｏｎなどの重み行列を演算し、特徴量を集約するためのクラス分類器である全結合などの手法によって、正解ラベルと同じ数の分類数とし、学習時においてはソフトマックス関数などを施した結果と、正解ラベルの差を演算する。その差を誤差逆伝搬法で出力側から入力側に伝搬させ、重み行列を更新していく方法である。

一方、推論においては学習で得た重み行列及び全結合の重みをテストデータに対して演算し、その出力を推論値として出力するものである。学習時の出力層の直前で用いたソフトマックス関数などの非線形関数は、特徴量の小さな差を大きく変換し、正解ラベルと機械学習の出力の差が明確に出るように施し、誤差逆伝搬で重み行列を更新しやすくするために用いるものであるため、推論時において必ずしも用いる必要はない。
テストデータに対して第１学習済みモデルで用いる推論を行うのは望ましい使い方である。また、テストデータに対して特徴量抽出部で類似度から分類を行った後に、第１学習済みモデルで推論を行うことも望ましい使い方である。このとき、特徴量抽出部は第１学習済みモデルに使用した第２のデータセット内の複数のデータとの類似度を算出し、類似と判定された入力データのみを抽出するものである。また、テストデータが複数存在する場合には、第１学習済みモデルを作成時と同様に、各テストデータの特徴量を算出し、その結果を用いて類似度を求め、類似と判定されたデータのみに対して第１学習済みモデルで推論を行っても良い。

＜実験結果＞
図９の実験結果を用いて本実施の形態の効果を説明する。図９はデータセットにＣＩＦＡＲ－１０のデータを用いた実験結果である。ＣＩＦＡＲ－１０のデータには前処理でラベルの５％、及び１０％のラベル誤りをランダムに与えたデータを作成した。なお、ＣＩＦＡＲ－１０の学習データは各ラベル５，０００個で合計５０，０００個のデータであるため、５％のラベル誤りの場合においては、各ラベルあたり２５０個で合計２，５００個のラベルに誤りを与えている。

また、自己教師あり学習のモデルには、ＳｉｍＣＬＲ（論文名Ａｓｉｍｐｌｅｆｒａｍｅｗｏｒｋｆｏｒｃｏｎｔｒａｓｔｉｖｅｌｅａｒｎｉｎｇｏｆｖｉｓｕａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ）と呼ばれる手法を応用したＳｗＡＶ（ＳｗａｐｐｉｎｇＡｓｓｉｇｎｍｅｎｔｓｂｅｔｗｅｅｎＶｉｅｗｓ、論文名：ＵｎｓｕｐｅｒｖｉｓｅｄＬｅａｒｎｉｎｇｏｆＶｉｓｕａｌＦｅａｔｕｒｅｓｂｙＣｏｎｔｒａｓｔｉｎｇＣｌｕｓｔｅｒＡｓｓｉｇｎｍｅｎｔｓ）と呼ばれる方法を用いた。なお、ハイパーパラメータであるクラスタリングの分類数はＣＩＦＡＲ－１０の正解ラベルの数と同じ１０個とした。

この方法でクラスタリングを行ったところ、第１のデータセットの内の１，３３６個は非類似のデータとなった。そこで、残りの４８，６６４（＝５０，０００－１，３３６）個のデータを第２のデータセットとした。そして、この第２のデータセットでＣＮＮの一種であるＶＧＧ１３（ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐ１３の略。論文名ＶｅｒｙＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓｆｏｒＬａｒｇｅ－ＳｃａｌｅＩｍａｇｅＲｅｃｏｇｎｉｔｉｏｎ）を用いて学習を行ったところ、図９の「クラスタリング＋ＣＮＮ」に示す結果を得た。

この図９の結果から２０回のエポック（重み行列の更新回数）で、精度９０．００％で推論できることが分かる。一方、上記の５％のラベル誤りを持つデータにおいて、クラスタリングを行わず、上記と同じＶＧＧ１３で学習を行うと２０回のエポックで、精度８９．０３％とクラスタリング＋ＣＮＮと比べると約１％の精度低下が確認できる。更に、１０％のラベル誤りを持つデータに対しても同様の学習を行うと、精度８７．３０％と「クラスタリング＋ＣＮＮ」と比べると２．７％の推論精度の低下が確認できる。今回は２０回のエポック回数までを示したが、エポック回数を２００回程度まで行っても上記の関係は変わることがなく、図９同様、「クラスタリング＋ＣＮＮ」の推論結果が最も優れている。

この結果から分かることは、一般に機械学習はデータ量を多くした方が良いと言われているが、ラベルに多少の誤りがある場合には、誤りのあるデータをクラスタリングで除去してから学習した方が良いということである。特に実環境においては、例えばセンサーデータによって構成された画像であればデータ取得時に対象外のデータが写り込んでしまうとラベル誤りになりやすい。また、波形の分類や回路の分類において人手で正解ラベルを付与する状況においては人の技能によりラベル誤りが生じやすく、それらのラベル誤り率を算出することは人手では困難である。特に、本実施の形態は、ラベル誤りを含むデータを除去することによって、データの数は減少するものの推論精度を向上できることを示した発見に基づくものである。

更に、データをクラスタリングで除去する（蒸留：Ｄｉｓｔｉｌｌａｔｉｏｎ）ことで得られる効果を示す。１つ目が、過学習を防げるということである。一般に多くの学習可能なパラメータを有する大規模な機械学習を用いることでラベル誤りを含めて学習することが可能である。ただし、これは学習データやテストデータにフィッテングしすぎた結果である。そのため、機械学習の検討に用いる一般的なデータセットなど、閉じたデータセット内では高い推論精度を得ることができるものの、工場などの実環境で取得したデータになると推論精度が低下してしまう。それに対して、本実施の形態の手法を用いると、この過学習を小さくすることが可能である。

２つ目が除去したデータを人が確認できることである。一般に機械学習の処理はブラックボックスと言われ、機械学習自体の処理や出した出力の根拠を明確に人に示す方法はない。一方で、中間処理である入力データの分類結果を、人が確認し、間違いの傾向を類推することで機械学習の判断理由を推測しやすくなる。例えば、画像の中心に被写体が映っているものは類似集合に分類されやすく、画像の隅に被写体が映っているものは非類似集合に分類されやすいというような傾向を把握することで、機械学習モデルの最適化に役立てることができる。

３つ目が、クラスタリングにより第２のデータセットを一度作成してしまえば、何度も計算を行う必要がないことである。自己教師あり学習を用いたクラスタリングは一般的な教師あり学習と比べると計算時間や計算量がかかる傾向にある。しかしながら、その計算は第２のデータセットを得るためで、第２の学習装置（第２学習装置）の学習や推論時の再計算は不要である。特に機械学習の設計において、教師あり学習のモデルの選択や、ラベル誤りの推論結果への影響を小さくさせるための学習モデルの作成には最も多くの時間が要する。そのため、上記のクラスタリングにかかる時間は相対的に小さく、かつ人手を要さないため、機械学習の開発期間を短縮することができる効果が期待できる。

４つ目が小さなデータセットに対しても用いることができることである。上記のとおり自己教師あり学習に基づくクラスタリングは、学習データを自己のデータから作り学習を行うことができるため、学習データが１，０００個以下と少なくてもクラスタリングすることが可能である。ただし、第２のデータセットのデータ数も少なくなってしまうため、類似のデータで事前学習された学習済みモデルを用い、ファインチューニングするのが望ましい。ただし、データ数や計算にかけられる時間や計算リソースがある場合には、転移学習とファインチューニングを組み合わせて用いるのも良い方法である。

実施の形態２．
＜概要＞
実施の形態１でクラスタリングした際に非類似と判定したデータを破棄していたのに対し、本実施の形態に係る情報処理装置２００では、非類似と判定したデータである外れ値を集めて第３のデータセットとして定義し、その第３のデータセットを用いて学習を行う方法について説明する。

＜外れ値＞
本実施の形態における外れ値とは、図３に示すように第１のデータセットに対して、クラスタリングを行いＮ個の類似集合を抽出し、残った非類似データを１つにまとめて外れ値として定義するものである。例えば、実施の形態１の実験で示したＣＩＦＡＲ－１０に対してＳｗＡＶを適用したときに廃棄した１，３３６個の入力データが本実施の形態における外れ値に該当する。この外れ値を集めたデータを第３のデータセットとする。

＜新しいラベル＞
図１０に示すとおり、例えば、情報処理装置２００は、第１のデータセットをクラスタリングで類似集合に分類されなかった非類似データを、外れ集合である第３のデータセット（第３データセット）とし、（ステップＳＴ２のＮＯ、ステップＳＴ１４）、第３のデータセットに対して外れ値ラベル（第１ラベル）を付与し（ステップＳＴ１５）、第２のデータセットと組み合わせ第４のデータセット（第４データセット）を作る（ステップＳＴ１６）。第２のデータセットがＮ値分類である場合には、外れ値ラベルをＮ＋１にすることで、第４のデータセットはＮ＋１値のラベルを持つデータセットとすることができる。

＜第４のデータセットを用いた第２の学習装置の学習＞
第２の学習装置の学習は第４のデータセットを用いて行う（ステップＳＴ１７）。第４のデータセットの内、外れ値ラベルのデータの一部をテストデータとして定義する。外れ値ラベルのデータが、第２のデータセットの各ラベルのデータ数よりも多い場合は第２のデータセットのテストデータと同程度数を選定し、第２のデータセットの各ラベルのデータ数よりも少ない場合は、第２のデータセットと同程度の比で出すのが望ましい。例えばＣＩＦＡＲ－１０の場合は、学習データはラベル毎に５，０００個ずつあり、テストデータはラベル毎に１，０００個ずつあるため、２０％をテストデータとしている。

これに対し、実施の形態１の実験で示したクラスタリングによる外れ値は１，３３６個であるため、１，３３６個の内の２０％に当たる２７０個をテストデータとして、残りの１，０６６個を学習データとして定義すれば良い。ただし、第３のデータセットの学習データが概ね１，０００以下となる場合には、過学習を起こしやすくなるため、実施の形態１で示した第１の学習装置で処理した方が望ましい。上記の１，０６６個の学習データ数は十分ではないものの、効果を示すために本実施の形態の最後に実験結果を示す。

上記のように作成した第３のデータセットを第２のデータセットに結合し、第４のデータセットを作成し、第１の学習装置と同じように機械学習のアルゴリズムを用いて第２の学習装置の学習を行い、第２学習済みモデルを生成する。第１の学習装置との違いはＮ＋１値分類で学習を行い、テストデータで推論精度を確認するものであるが、実施の形態１と同様の処理であるため本実施の形態では繰り返さない。

＜第３のデータセットを用いた第３の学習装置＞
外れ値に判定されたデータが十分に多い場合には、第３の学習装置（不図示）を作ることができる。図１１は、情報処理装置２００の第３の学習装置に係る処理を示すフローグラフである。第３の学習装置は第１の学習装置と同様、第３のデータセットを使用してＮ値分類として学習する（ステップＳＴ２１、ステップＳＴ２２）。これにより、モデル生成部１４によって第３学習済みモデルが生成される。情報処理装置２００は、多値分類可能でラベル誤りを含むテストデータセットを取得し（ステップＳＴ２３）、このテストデータセットを第２の学習装置で推論し、外れ値に分類されるか否かを判定する（ステップＳＴ２４）。情報処理装置２００は、ステップＳＴ２２及びステップＳＴ２４の結果に基づいて、第３のデータセットに対する推論結果を出力する（ステップＳＴ２５）。学習データ、及びテストデータの作成方法は上記の＜第４のデータセットを用いた第２の学習装置の学習＞と同じであるため繰り返さない。ただし、第３の学習装置を作るためには、１０値分類の場合には各ラベルあたり１，０００以上のデータ数があることが望ましい。更に、第３のデータセットは入手しにくい異常値が多く含まれるデータとなるため、データの種類にもよるが画像などデータ水増し（ＤａｔａＡｕｇｍｅｎｔａｔｉｏｎ）が使える場合には用いるのが望ましい。

＜外れ値に推論されたときの処理＞
第１のデータセットに含まれない入力データ（学習モデルの生成に使用しなかった入力データ）を第２の学習装置で推論した結果、外れ値ラベルに判定された場合の４通りの処理方法について述べる。１つ目の方法は、外れ値ラベルに判定されたデータ（第１入力データ）を、第１のデータセットで学習した学習装置を用いて推論する方法、２つ目の方法は、外れ値ラベルに判定されたデータを、第２のデータセットで学習した学習装置を用いて推論する方法、３つ目の方法は、外れ値ラベルに判定されたデータを、第３のデータセットで学習した学習装置を用いて推論する方法、４つ目の方法は外れ値ラベルに分類された場合は判定不能と出力することである。

１つ目の方法は、データが十分にあり、ラベル誤りが少ない場合に高い推論精度を得やすい。この場合には第３のデータも十分な数のデータとなり、更にラベル誤りが小さいため、第１のデータセットを用いて学習した学習装置自体の推論精度も高くなりやすい。

２つ目の方法は、ラベル誤りが多い実環境において高い推論精度を出すことができる。ただし、この場合には、第２のラベル誤りを除去したデータで学習するため、外れ値ラベルに判定された入力データ自体が異常値であった場合には、不正解として判定されやすい。

３つ目の方法は、十分なデータ量があり、クラスタリングで非類似に分類されるデータが多い実環境において効果がある。特に、外れ値を得意とする機械学習装置となるため、外れ値の判定が重要な場面において効果がある。ただし、ＣＩＦＡＲ－１０などのように機械学習用に作られたデータの場合には、データ数が多くないことや外れ値に分類されるデータ自体が少ないため、推論精度が低下しやすい。

４つ目の方法は、従来の情報処理は異常なデータが入ってきた場合においても、Ｎ＋１値分類にすることで無理にデータを出力しないようにすることができる。医療データ（Ｘ線やＭＲＩ）の画像診断など実環境においては人が最終判断を下せる場合においては、無理に判定しなくても良い。無理に判定しないことで、誤り率を大きく削減することができる。

ただし、上記は目安であり、第１のデータセット内のラベル誤り率や、データの種類、求める性能などによってどの方法を用いても構わず、複数の方法を組み合わせて用いても構わない。

＜外れ値となる入力データを変形＞
入力データを第２の学習装置で推論し、データ変換部１１によって外れ値ラベルに判定された入力データを変形（変換）する処理を行ってから推論する方法について述べる。実施の形態１で述べたように、例えば画像においてはアフィン変換やノイズ重畳などの処理を行うことができる。

具体的には画像においては、外れ値ラベルに判定された入力データに対して、入力データの一部を切り出し、抽出することや、画像の一部を除去すること以外に、拡大縮小、回転などのアフィン変換を施したり、ノイズを加えたり、ＲＧＢなどのカラーの画像の場合には色のバランスを変えたり、シャープネスを変えたりするなどを組み合わせることで、１枚の画像から例えば１，０００枚以上の画像を生成するものである。

１つ目の方法は第１のデータセットで学習した学習装置を用いる方法、２つ目の方法は第２のデータセットで学習した学習装置を用いる方法、３つ目の方法は第３のデータセットで学習した学習装置を用いる方法である。４つ目の方法は第４のデータセットで学習した学習装置を用いる方法である。４通りの処理方法について記すが、各場合における特徴は、＜外れ値に推論されたときの処理＞で述べた方法と同様であるため、同じ説明は繰り返さず、差分のみを説明する。

１つ目の方法は、データ変換部１１によってテストデータを１からＰ（≧３）回重畳的に変形して新たに生成したＰ個の入力データ（第２入力データ）を第１のデータセットで学習した学習装置で推論し、各推論結果のラベル毎の回数をカウントし、最も多くの回数振り分けられたラベル（例えば、テストデータが０から９までの整数を示す画像データで、Ｐ＝４，０００で０が１００回、１が１００回、２が２００回、３が３００回、４が４００回、５が５００回、６が６００回、７が７００回、８が７００回、９が９００回となったとすると、推論回数が９００回と最大の９をラベルとして出力）を推論値とするものである。この場合、ラベル誤りが５％を超える場合には結果がばらつきやすいが、ラベル誤りが５％未満で十分な量のデータで学習した場合には、安定した結果を得ることができる。なお、Ｐの値は、実施の形態２における第２数を構成する。

２つ目の方法は、図１２に示すとおり、データ変換部１１によってテストデータを１からＰ（≧３）回重畳的に変形して新たに生成（ステップＳＴ３３）したＰ個の入力データ（第２入力データ）を第１の学習装置で推論し（ステップＳＴ３４）、各推論結果のラベル毎の回数をカウントし、１つ目の方法と同様に最も多くの回数振り分けられたラベルを推論値とする（ステップＳＴ３５）ものである。２つ目の方法は、学習データには含まれない異常値である場合においては、生成したデータを増やしても正しく判定することは困難であるが、多くの場合、推論精度を高める効果がある。

３つ目の方法は、上記方法と同様に新たに作成したＰ個の入力データを第３の学習装置で推論する。３つ目の方法である第３の学習装置は異常値を得意とする情報処理装置であるため、第３の学習装置を学習できるだけの入力データが準備できるのであれば推論精度を高める効果がある。

４つ目の方法は、図１３に示すとおり、テストデータを３以上（Ｐ＞２）のＰ回変形した複数の入力データ（第２入力データ）を第２の学習装置で推論し、外れ値に分類されたデータを破棄、外れ値以外に分類（ステップＳＴ４４）された推論値として、１つ目の方法と同様に推論回数をカウントし、第１ラベル以外の正解ラベルの内、推論回数が最も大きい推論結果を出力とするものである。

上記は、推論回数をカウントし、多数決で算出することを説明しているが、実施の形態４で示すように情報処理装置の出力結果の平均値から情報エントロピーを計算し、情報エントロピーが最小となるラベルを出力する方法を用いても構わない。また、上記いずれの方法においても、Ｐは２以上であってもよい。また、上述した第２入力データは、類似データ分類部が、特徴量抽出部または第２学習済みモデルに基づく推論によって、非類似と判定または前記第１ラベルに分類された第１入力データに対して、所定の処理（例えば、１からＰ回の重畳的な変形）を行うことで１つの入力データから生成されてもよい。

＜実験結果＞
図１４にテストデータを第２の学習装置で推論し、外れ値に分類された入力データを除去し、外れ値以外に分類された結果の推論精度を計算した結果を示す。図１４に示すとおり、ＣＩＦＡＲ－１０の学習データをそのまま用いた第１のデータセットを１０値分類すると、ＣＮＮベースのＶＧＧ１３では２０回のエポックで８３．７８％だったのに対して、第４のデータセットを１１値分類する第２の学習装置において、上記と同じＣＮＮベースのＶＧＧ１３では２０回のエポックで８４．２０％と約０．５％程度の精度の改善が見られた。なお、第２の学習装置で外れ値として分類されたデータは１０，０００個のテストデータの内５２１個であり、それらのデータは破棄し、正解ラベルと比較を行わないため推論精度に影響していない。

また、＜外れ値となる入力データを変形＞において４つ目の第２の学習装置で推論し、外れ値になった入力データを変形して約１，０００個の組み合わせを作り、再度第２の学習装置で推論し、外れ値以外のデータの出現数をカウントする処理を行ったところ８４．４９％と図１４と同様、推論精度は０．７％程度上昇することが分かった。ただ、図１４と異なるのは、全てのテストデータと正解ラベルを比較するため、全体的に推論精度が向上している。

ただし、変形のさせ方がハイパーパラメータとなり、例えばＣＩＦＡＲ－１０の場合、アフィン変換で回転や引き伸ばしでデータを作成したものの、回転の角度が±１５度以上±４５度以下のデータを含めることで推論精度が上がりやすいことや、縦横の引き伸ばしが±１０％以下では引き伸ばしの意味がないものの±３０％を超えると推論精度が悪くなるなどの特徴が見られた。そのため、手動、または大規模な計算機で機械的に最適な変形条件を探索しなければならない。ただし、計算機環境が得られる場合や、ばらつきの範囲が概ね分かっていて、変形の条件を最適化することができれば、簡易な方法で推論精度は高めることができる。

実施の形態３．
＜概要＞
実施の形態１に示したとおり、クラスタリングによって分類する数は、機械学習の設計者が決めなければならないハイパーパラメータとなる。第１のデータセットのように正解ラベルが付与され、分類数が決まっているデータに関しては、その数に分割すれば良いが、実環境におけるデータは分割数が明確に決められない場合が多い。本実施の形態の情報処理装置３００による手法はそのような場合において用いることができるものである。

＜クラスタリング＞
クラスタリングに用いる機械学習は、実施の形態１で説明したように、ｋ－ｍｅａｎｓや自己教師あり学習などのアルゴリズムを用いることを想定する。それぞれのアルゴリズムは、クラスター数をハイパーパラメータとして定義する必要がある。実施の形態３における情報処理装置３００の学習装置は、入力データを定義されたクラスター数に分類するように学習し、モデル生成部１４によって第４学習済みモデルを生成する。

＜分類数の最適化＞
実施の形態１、２と同様、分類数が既知のデータであるＣＩＦＡＲ－１０のデータを用いて説明する。ただし、実際の対象としているデータセットは分類数が分からないデータであるとする。これは例えば、物理実験で得た２つ以上の測定結果がいくつに分類できるか分からない場合や、商品を購入した客層を何種類に分類できるか分からない場合など、実環境の多くの場面で用いることができる。

情報処理装置３００は、クラスターの数を特定の整数であるＭ（第４数、Ｍは２以上）＝２から順番に演算していき、実施の形態２で示したように各類似集合に対してＭ個の異なるラベルを付与し、Ｍ値分類問題として類似集合を学習データとテストデータに分類する。ただし、経験則などにより分類数Ｎが想定できることも多い。その場合にはその分類数Ｎ以上の正の整数Ｍからクラスタリングを始めても良い。これは計算量を減らすためであり、かつクラスター数が多いほど推論精度が高くなることが期待できるためである。仮に学習データと同じ数だけのクラスター数を定義すれば、各学習データに対して一つずつの類似集合とすれば良いので精度はどのような条件下においても推論精度は１００％にできる。ただし、クラスター数が多すぎるとクラスタリングする目的が失われてしまう。

そのため、図１５に示すようにクラスターの数が未知の場合（ステップＳＴ５１）は２以上の整数から計算をしていく。また、分類数Ｎが経験則などから推定できる場合（ステップＳＴ６１）においては、図１６に示すようにＭがＮ以下の場合はＭ＝Ｎとする（ステップＳＴ６７）。ただし、最適なクラスター数を探索するための計算時間の短縮のため、Ｍ＝ＮからＭが増加する方向にクラスタリングを行い（ステップＳＴ５２）、Ｍ＋１、Ｍ＋２などとＭの値を一つずつ大きくして、クラスタリング精度など目的の指標での推論値を検証する。そして、目的の指標での推論値が極大となった場合のＭを出力する（ステップＳＴ５５、ステップＳＴ６６）ものである。ただし、Ｍが極大と証明するためには、Ｍ＋１の場合を計算しなければならないため、少なくともＭ＋１の場合を計算する必要がある。

＜実験結果＞
図１７にクラスターの数を横軸に取り、本実施の形態における目的の指標であるＭ値分類を行い、ラベルをＭ値に振り分けたデータの内から８０対２０で学習データとテストデータを振り分け、学習データで学習し、テストデータで推論した場合の推論結果を縦軸に取った結果を示す。図１７に示すようにクラスターの数が１０まではクラスタリングで作成したテストデータに対する推論精度は単調増加で上がっていくことが分かる。クラスター数が１１の場合は精度が１％程度低下していることからクラスター数１０でテストデータに対する推論精度が極大となることが分かる。更にクラスター数を増やしていくと、クラスター数１３や１８の場合にクラスター数１０の場合と同程度の推論精度となることが分かり、複数の極大が出るものの、最小のクラスター数である１０を選択するものである。

分類数が未知の問題に対しても同様の手法で最適なクラスター数を算出することができるため、分類数が分からず分類問題にできないデータであっても、クラスタリングで新しいラベルを付与し、ラベル有りのテストデータに変換することができる。

＜非類似データの活用＞
図１８に実施の形態２と同様にクラスタリングで非類似と判定されたデータに対して、新しいラベルを与えて、推論を行う場合のフローグラフを示す。上記のとおりＭ＞Ｎにおいて、クラスタリングによって第１のデータセットをＭ値に分類して（ステップＳＴ７２）、各類似データに新しいラベルを付与しデータセットとする（ステップＳＴ７３）。また、非類似のデータを一つのデータ集合（非分類データセット）とし、新しいラベル（第２ラベル）を付与し（ステップＳＴ７４、ステップＳＴ７５）、Ｍ値分類のラベルと結合して第５のデータセット（第５データセット）を構成する（ステップＳＴ７６）ものである。そして、第５のデータセットをＭ＋１値分類として、学習する第４の学習装置を構成しても良い（ステップＳＴ７７）。なお、情報処理装置３００は、類似データ分類部において、第１データセットとは異なる、正解ラベルを持たない第６のデータセット（第６データセット）を入力データとして用いてもよい。

これにより、分類数が分からず分類問題にできないデータであっても新しいラベルを付与し、学習させることができる。また、非類似データを新しいラベルに加えることによって、実施の形態２で示す手法で異常値を外れ値として判定できる学習装置を構成することができる。

実施の形態４．
＜概要＞
実施の形態１～３に述べた学習装置における出力に対して、情報エントロピーの考え方により、推論結果の確からしさを算出することができる。

＜情報エントロピー＞
本実施形態に係る情報処理装置４００は、実施の形態１に係る情報処理装置１００に対して、制御部１０が情報エントロピー算出部１６およびしきい値設定部１７を更に備えている。本実施形態に係る情報処理装置４００は、推論精度が高い結果ほど情報エントロピーが小さいという効果の発見に基づくものである。例えば実施の形態１～３のＶＧＧ１３において、推論結果が正解の場合と不正解の場合のソフトマックス関数の出力を、大きい順番でソートして加算平均を取ると以下のようになる。

正解の場合
［０．９３７，０．０５，０．０１，０．００３，０．００１２，０．０００５１，０．０００２２，０．０００１，０．００００５，０．００００２］

不正解の場合
［０．７０２，０．２０７，０．０５６３，０．０２１，０．００７９，０．００３２，０．００１３，０．０００６５，０．０００３２，０．０００１５］

この場合、実施の形態１～３に示す学習装置においても、一般的な学習装置と同様にソフトマックス関数が最も大きい出力を出す値に該当するラベルを推論候補として出力するものである。しかしながら、この処理は、正解と判定される場合の０．９３７と不正解と判定される場合の０．７０２と明確な差があるにも関わらず、同じ処理であり、不正解の場合においては推論候補以外の候補の情報を捨ててしまっていると考えることができる。すなわち、不正解の場合は別の推論候補も候補として挙がっているにも関わらず、一般的な学習装置においては、その情報を破棄していると考えることができる。

なお、ソフトマックス関数の出力の合計値は１になるように正規化されるため、ソフトマックス関数の出力は推論が正解である確率（推論の確度、推論値）として扱うことができ、ＶＧＧ１３だけでなく、どのような学習装置であっても出力層直前でソフトマックス関数を使うことで、同じ指標で評価することができるようになる。ただし、ソフトマックス関数は指数関数で表現される関数であるため、出力が大きな差になりやすく、推論時において、ソフトマックス関数のような指数関数以外の方法によって正規化するのも望ましい手法である。

上記の正解の場合のソフトマックス関数の出力の平均値と、不正解の場合のソフトマックス関数の出力の平均に対して、情報エントロピー算出部１６が情報エントロピーを計算することで、各条件での情報エントロピーを算出することができ、上記の平均値においても正解の場合の情報エントロピーは不正解の場合の情報エントロピーよりも小さな値になる。

図２０は、多値分類可能でラベル誤りを含むテストデータセットを取得した後（ステップＳＴ８１）、推論時で正解の場合の推論値の加算平均と、不正解の場合の推論値の加算平均をそれぞれ算出するプロセス（ステップＳＴ８３、ステップＳＴ８５）と、各加算平均から情報エントロピーの式によって、推論が正解の場合（ステップＳＴ８２のＹＥＳ）の情報エントロピーであるＨ＿ｃｏｒｒｅｃｔ（第１情報エントロピー）と推論が不正解の場合（ステップＳＴ８２のＮＯ）の情報エントロピーであるＨ＿ｗｒｏｎｇ（第２情報エントロピー）をそれぞれ算出する（ステップＳＴ８４、ステップＳＴ８６、ステップＳＴ８８）処理のフローグラフを示している。このようにすることで、推論結果を得たときに推論の確からしさを情報エントロピーに基づいて算出することができる。

＜しきい値＞
図２１に図２０で求めた情報エントロピーを元にしきい値設定部１７が設定した、しきい値に基づき推論を行う処理のフローグラフを示す。図２１においては、テストデータを第１の学習装置で推論を行い（ステップＳＴ９２）、その推論結果のソフトマックス関数の出力結果がしきい値となる情報エントロピーよりも大きい場合（ステップＳＴ９３のＹＥＳ）において、Ｎ値分類する第２の学習装置を用いるものである（ステップＳＴ９４、ステップＳＴ９５）。ただし、必ずしも第２の学習装置でなくてもよく、第１のデータセットを用いて学習した学習装置や、第３のデータセットを第１の学習装置とは異なるアルゴリズムで学習した学習装置を用いても良い。

このとき、しきい値の設定がパラメータとなるものの、Ｈ＿ｃｏｒｒｅｃｔとＨ＿ｗｒｏｎｇの間にしきい値となる値を定めるのが望ましい。なぜならば、Ｈ＿ｃｏｒｒｅｃｔよりも小さな値は不正解が少なく、Ｈ＿ｗｒｏｎｇよりも大きな値は不正解が多くなるもの、Ｈ＿ｗｒｏｎｇに振り分けられるデータの数が少なく推論性能の向上につながりにくいためである。このような処理により第１の学習装置が推論した結果で情報エントロピーが小さく確度の高いと考えられる結果に対しては、その結果を出力し、情報エントロピーが大きく確度の低いと考えられる結果に対しては、異なる学習装置で推論した結果を出力することにより、推論精度を向上させることができることを示すものである。

＜しきい値の判定する学習装置＞
しきい値の判定する学習装置においては、第１の学習装置の代わりに第１のデータセットで学習した学習装置を用いる場合は、ラベル誤りが小さいデータセットの場合には、情報エントロピーが比較的小さな結果になりやすく、またＨ＿ｃｏｒｒｅｃｔとＨ＿ｗｒｏｎｇの間も小さな幅になり、高い推論結果を得ることができる。

第１の学習装置の代わりに、第２のデータセットで学習した学習装置を用いる場合においては、ラベル誤りを除去したデータであるため、テストデータ内に異常値が多い場合には情報エントロピーが大きくなりやすいが、テストデータ内に異常値が少ないと想定される場合には、高い推論結果を得ることができる。第１の学習装置の代わりに、第４のデータセットで学習した学習装置を用いる場合においては、テストデータ内に異常値が多いと想定される場合に、高い推論結果を得ることができる。

＜しきい値以上の入力データに対するモデル＞
図２１のしきい値以上になった場合においても、第２の学習装置を用いる必要は必ずしもなく、上記の＜しきい値の判定する学習装置＞で示したのと同様に、第１、３、４のデータセットを用いて学習を行った学習装置で推論しても良い。

実施の形態２の＜外れ値となる入力データを変形＞で示すように、情報エントロピーがしきい値以上となる場合には、情報エントロピーがしきい値以下になるまで変形を行い、しきい値以下となったラベルを推論値として出力してもよい。更に、推論候補に応じて変形のさせ方を変えても良い。例えば、推論候補がリンゴと判定された場合には、リンゴは円に近いため回転させてもリンゴとして認識できる必要がある。一方、推論候補が自動車と判定された場合には、自動車が９０度反転することは現実的ではないため回転角度は大きくても±１０度程度であることが予想される。このように、現実の条件に合わせて変形を行うことで、推論精度を向上させることができる。

＜しきい値以上の入力データに対してしきい値以下になるまで別のモデルを用いる＞
しきい値判定を行った結果に対して、第１の学習装置とは異なる複数の学習装置で構成される第５の学習装置を構築し、しきい値以上となる入力データに対してしきい値以下の値が出力されるまで学習装置で繰り返し推論を行っても良い。ただし、入力データによっては収束しない場合が存在するので、その場合は全ての学習装置で推論を行っても判定できない場合は、判定できないことを出力することや、第５の学習装置による複数の学習装置の出力結果の多数決で判定することと、第５の学習装置による複数の学習装置の内、最小の情報エントロピーを出力した学習装置の推論結果に基づき推論値を出力するものである。

実施の形態５．
＜概要＞
実施の形態４で説明した情報エントロピーを用いると、既存のアンサンブル推論を効率的に行うことができる。アンサンブル推論は、同じデータセットに対して別々に学習した２つ以上の学習装置を用意し、１つの入力データに対して上記の異なる学習装置で推論を行い、それぞれの推論結果の和や多数決をとって、推論結果とするものである。しかしながら、異なる学習装置においては、入力データに対する推論精度に違いがあるのが一般的である。それに対して、本実施の形態は、推論精度が高いものほど重みを付けて和を取ることで推論精度を向上させることができることを示すものである。

＜アンサンブル推論＞
アンサンブル推論は、複数の推論結果に対する結果の和を取るものであり、本実施の形態ではＶＧＧ１３の他にＲｅｓｎｅｔ１８、Ｄｅｎｓｅｎｅｔ１２１をアンサンブル推論に用いる。なお、アンサンブル推論はソフトマックス関数を用いて良いが、ソフトマックス関数を用いると正規化され、指数関数で処理されるため、特定の推論結果（例えばＶＧＧ１３）に依存してしまう傾向があり、推論精度が向上しにくい。

それに対して、ソフトマックス関数を施す前の全結合で１０値分類を出力した結果であれば、高い推論精度を得ることができる。ＶＧＧ１３、Ｒｅｓｎｅｔ１８、Ｄｅｎｓｅｎｅｔ１２１それぞれのＣＩＦＡＲ－１０の１０，０００個のテストデータに対するソフトマックス前の推論結果の平均値を示す。

ＶＧＧ１３は
［６．０３３，１．１００，０．５４８１，０．２５０１，－０．０５２５，－０．３０２２，－０．５９４，－１．２１６，－２．３２９，－３．４３６］

Ｒｅｓｎｅｔ１８は
［５．５０７，０．３１８，－０．２６５，－０．４９２，－０．６１９，－０．７４６，－０．８３９，－０．９１７，－０．９５３，－０．９９３］

Ｄｅｎｓｅｎｅｔ１２１は
［５．００４，０．０７，－０．３６９，－０．４９５，－０．５６８，－０．６４７，－０．７０４，－０．７４８，－０．７６７，－０．７８４］

次に正解の場合の出力結果の平均値を以下に示す。
ＶＧＧ１３は
［６．１９９，１．０１５，０．５３４５，０．２５６９，－０．０４２３，－０．２９０５，－０５８１，－１．２１９，－２．３７，－３．５０］

Ｒｅｓｎｅｔ１８は
［５．６１６，０．２１７８，－０．３０１３，－０．５０３６，－０．６１９５，－０．７４３０，－０．８３２９，－０．９０８８，－０．９４２８，－０．９８１５］

Ｄｅｎｓｅｎｅｔ１２１は
［５．０７０，０．００７，－０．３８５，－０．４９７，－０．５６７３，－０．６４５，－０．７００，－０．７４２５，－０．７６１，－０．７７８］

次に不正解の場合の出力結果の平均値を以下に示す。
ＶＧＧ１３は
［４．００３，２．１３４８，０．７１２８，０．１６７４，－０．１７６９，－０．４４４，－０．７５４，－１．１８１，－１．８０５，－２．６５６］

Ｒｅｓｎｅｔ１８は
［４．０４４，１．６６６，０．２１７，－０．３３７，－０．６１４，－０．７９０３，－０．９２０，－１．０３０，－１．０８９，－１．１４６］

Ｄｅｎｓｅｎｅｔ１２１は
［３．９５３，１．２２２，－０．１１４８，－０．４６９，－０．５８３，－０．６７５，－０．７６６，－０．８３１，－０．８５５，－０．８８０］

この結果において、値が大きいほど確からしく、値がマイナスにいくほど予測から遠いことを示している。そのため、一般的な学習装置は最大値となる値に該当する推論値を出力する。

このように、推論結果の平均値を算出することで平均値に対する情報エントロピーを算出することができる。更に、平均値、正解の場合、不正解の場合に関わらず、最大値は３つの学習装置で近い値になるため、ソフトマックス関数を施した場合のように、どれか一つの推論結果に依存しにくくなる。なお、上記の例においてはＶＧＧ１３の平均値の情報エントロピーが１．１、Ｒｅｓｎｅｔ１８が０．９０、Ｄｅｎｓｅｎｅｔ１２１が０．８３となる。

次に、各学習装置におけるテストデータに対する推論結果はＶＧＧ１３が９２．３９％、Ｒｅｓｎｅｔ１８が９３．０７％、Ｄｅｎｓｅｎｅｔ１２１が９４．０６％となる。この結果から推論精度が高い順にＤｅｎｓｅｎｅｔ１２１、Ｒｅｓｎｅｔ１８、ＶＧＧ１３であることが分かる。同様に情報エントロピーが小さい順にＤｅｎｓｅｎｅｔ１２１、Ｒｅｓｎｅｔ１８、ＶＧＧ１３となることが分かる。このことから、推論精度が高い学習装置ほど、情報エントロピーが小さくなりやすいことが確認できる。この傾向は異なるデータセットや異なる学習装置を用いて検証しても同様になる。そのため、情報エントロピーを重みとして用いるとアンサンブル推論の精度を向上させることができる。

＜アンサンブル学習における情報エントロピーの活用＞
上記のＤｅｎｓｅｎｅｔ１２１、Ｒｅｓｎｅｔ１８、ＶＧＧ１３の推論結果の和を取って正解ラベルとの比較を行うと９４．５９％の推論精度であった。それに対して、推論精度が高い学習装置ほど情報エントロピーは小さいため、情報エントロピーの逆数を関数に含む重みとすることで推論精度を向上させられることができる。すなわちｆ（・）という関数に基づき、ＶＧＧ１３の情報エントロピーをｅｎｔｒｏｐｙ１、Ｒｅｓｎｅｔ１８の情報エントロピーをｅｎｔｒｏｐｙ２、Ｄｅｎｓｅｎｅｔ１２１の情報エントロピーをｅｎｔｒｏｐｙ３とすると、
ｆ（１／ｅｎｔｒｏｐｙ１）＊ＶＧＧ１３＋ｆ（１／ｅｎｔｒｏｐｙ２）＊Ｒｅｓｎｅｔ１８＋ｆ（１／ｅｎｔｒｏｐｙ３）＊Ｄｅｎｓｅｎｅｔ１２１
で計算することで推論精度を向上させることができる。一例としてｆ（・）が恒等写像である場合はｆ（ｘ）＝ｘであるため、
（１／ｅｎｔｒｏｐｙ１）＊ＶＧＧ１３＋（１／ｅｎｔｒｏｐｙ２）＊Ｒｅｓｎｅｔ１８＋（１／ｅｎｔｒｏｐｙ３）＊Ｄｅｎｓｅｎｅｔ１２１
によって、算出することができる。

この式に基づいてアンサンブル推論を行うと９４．６５％と情報エントロピーをアンサンブル推論の９４．５９％と比べて０．０６％の推論精度の向上を測ることができる。なお、ソフトマックス関数を施した後に上記の重みを施さずに和を取る場合においては９４．３９％と、上記比較対象の９４．５９％に比べて０．２％推論精度が低下する。

＜情報エントロピーを用いたアンサンブル推論のアルゴリズム＞
図２２にアンサンブル推論のフローグラフを示す。第１のデータセットのように多値分類可能なテストデータに対して（ステップＳＴ８１）、２つ以上の情報処理装置で推論を行い、２つ以上の推論結果を出力する（ステップＳＴ０２）。そして、その出力結果の平均値から情報エントロピーを算出し（ステップＳＴ０３、ステップＳＴ０４）、情報エントロピーの逆数を成分に含む関数を重みとして各学習装置の出力結果に掛け算した後に和を取る（ステップＳＴ０５、ステップＳＴ０６）ことで、情報エントロピーを用いたアンサンブル推論を構成することができる。

推論精度の向上は小さいものの、簡単な演算で推論精度を向上させることができる効果がある。また、高い推論精度が必要な場合には例えば１０個以上の学習装置を組み合わせて推論を行うことがあるが、組み込む学習装置によっては推論精度を悪化させる方向に働く学習装置も存在する。従来は、人の経験則や、多くの重みのパラメータ、また学習装置を結ぶ全結合で学習することで最適化するが、これを情報エントロピーに基づく方法で処理することができるため、最適化が不要である。またより高い推論精度を求めて重みの最適化する場合においても、最適値に近い値から最適化問題を解くことができるようになるため、少ない計算回数で各学習装置の重みの最適値を得ることができる。

なお、本開示は、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

本開示に係る情報処理装置は、入力データを分類することに利用することができる。

１１データ変換部、１２特徴量抽出部、１３類似データ分類部、１４モデル生成部、１５入力データ分類部、１６情報エントロピー算出部、１００，２００，３００，４００，５００情報処理装置。

Claims

入力データの特徴量を抽出する特徴量抽出部と、
複数の入力データを含む第１データセットと、前記第１データセットに含まれる複数の入力データのそれぞれに対して前記特徴量抽出部が抽出した特徴量と、に基づいて、前記第１データセットに含まれる複数の入力データの一部または全部を、特定の２以上の整数をＮとすると、互いに特徴量が類似する複数の入力データからなるＮ個のデータセットに分類すると共に、前記Ｎ個のデータセットのそれぞれに互いに異なるＮ個のラベルを新たに付与する類似データ分類部と、
前記Ｎ個のデータセットのそれぞれ一部を使用して、前記Ｎ個のデータセットのそれぞれに付与されたラベルのいずれかに対応するように入力データを分類するための学習済みモデルを生成するモデル生成部と、
前記モデル生成部が生成した学習済みモデルに基づく推論によって入力データを分類する入力データ分類部と、を備え、
前記類似データ分類部は、前記入力データ分類部が、前記モデル生成部が生成した学習済みモデルに基づく推論によって、前記Ｎ個のデータセットのうち前記モデル生成部が学習済みモデルの生成に使用しなかった入力データを分類した際の推論精度に基づいて前記Ｎの値を正解ラベルの個数とする第５データセットとする
ことを特徴とする情報処理装置。
前記第１データセットは、特定の２以上の整数をＭとすると、Ｍ個の正解ラベルと、前記Ｍ個の正解ラベルに対応付けられた複数の入力データと、を含み、
前記類似データ分類部は、前記Ｍ以上かつ分類数に対して前記推論精度が極大となる最小の前記Ｎを前記第５データセットとする
ことを特徴とする請求項１記載の情報処理装置。
前記入力データ分類部において、前記第１データセットとは異なる、正解ラベルを持たない第６データセットを入力データとして用いる
ことを特徴とする請求項１記載の情報処理装置。
前記類似データ分類部は、前記第１データセットに含まれる複数の入力データのうち、前記類似データ分類部によって前記第５データセットとして分類されなかった入力データを非分類データセットとすると、前記非分類データセットに前記第５データセットのそれぞれに付与されたラベルとは異なる第２ラベルを付与し、
前記モデル生成部は、前記第５データセット及び前記非分類データセットを使用して、入力データを前記第５データセットのそれぞれに付与されたラベル及び前記第２ラベルのいずれかに対応するように分類するための学習済みモデルである第４学習済みモデルを生成する
ことを特徴とする請求項１記載の情報処理装置。