JP7428267B2

JP7428267B2 - 学習装置、推定装置、学習方法、推定方法及びプログラム

Info

Publication number: JP7428267B2
Application number: JP2022556308A
Authority: JP
Inventors: 美尋内田; 潤島村; 慎吾安藤; 崇之梅田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2024-02-06
Anticipated expiration: 2040-10-21
Also published as: US20240005655A1; WO2022085129A1; JPWO2022085129A1

Description

本発明は、学習装置、推定装置、学習方法、推定方法及びプログラムに関する。

深層学習モデルは、高精度にタスクを実行できることで知られている。例えば、画像認識のタスクでは、人間を超える精度が達成されたことが報告されている。

一方で、深層学習モデルは、未知のデータや誤ったラベル(ラベルノイズ)が付与されて学習されたデータについては意図しない挙動をすることが知られている。例えば、画像認識タスクを学習した画像認識モデルでは、未知の画像については正しいクラスラベルを推定できない可能性が有る。また、豚の画像に対して誤って「うさぎ」とラベル付けされて学習が行われた画像認識モデルは、豚の画像のクラスラベルを「うさぎ」と推定してしまう可能性が有る。実用上、このような挙動をする深層学習モデルは好ましくない。

Odena, Augustus, Christopher Olah, and Jonathon Shlens. "Conditional image synthesis with auxiliary classifier gans." International conference on machine learning. 2017.

したがって、推定の誤りの原因に応じて対処が行われる必要が有る。例えば、未知データであることが原因であれば、訓練セットに対して未知データが追加される必要がある。また、ラベルノイズが原因であれば、ラベルの修正が必要である。

しかし、人間が誤りの原因を正確に推定するのは困難である。

本発明は、上記の点に鑑みてなされたものであって、深層モデルによる誤りの原因を自動的に推定可能とすることを目的とする。

そこで上記課題を解決するため、学習装置は、クラスラベル信号及びノイズ信号に基づくデータの生成を学習するデータ生成部と、訓練セット及び前記データ生成部が生成するデータを用いて、入力データが未知である度合いの推定を学習する未知度推定部と、前記訓練セットを用いて、入力データについてクラスラベルごとの第１の尤度の推定を学習する第１のクラス尤度推定部と、前記訓練セット及び前記データ生成部が生成するデータを用いて、入力データについて前記クラスラベルごとの第２の尤度の推定を学習する第２のクラス尤度推定部と、前記未知である度合い及び前記第２の尤度に基づいて前記第１の尤度を補正することで第３の尤度を生成するクラス尤度補正部と、前記第３の尤度に基づいて、前記第３の尤度に係るデータのクラスラベルを推定するクラスラベル推定部と、を有し、前記データ生成部は、前記未知である度合い、及び前記クラスラベル推定部によって推定されるクラスラベルに基づいて前記生成を学習する。

深層モデルによる誤りの原因を自動的に推定可能とすることができる。

ＡＣＧＡＮを説明するための図である。本発明の実施の形態におけるクラスラベル推定装置１０のハードウェア構成例を示す図である。第１の実施の形態におけるクラスラベル推定装置１０の機能構成例を示す図である。第１の実施の形態におけるラベルノイズの検出性能を示す図である。第２の実施の形態におけるクラスラベル推定装置１０ａの機能構成例を示す図である。第２の実施の形態におけるクラスラベル推定装置１０ａの学習時の機能構成例を説明するための図である。第２の実施の形態におけるクラスラベル推定装置１０ａの推論時の機能構成例を説明するための図である。第２の実施の形態のラベルノイズの検出性能を説明するための第１の図である。第２の実施の形態のラベルノイズの検出性能を説明するための第２の図である。第２の実施の形態の未知データの検出性能を説明するための第１の図である。第２の実施の形態の未知データの検出性能を説明するための第２の図である。

本実施の形態ではＡＣＧＡＮ（Auxiliary Classifier Generative Adversarial Network）をベースとするモデル（ＤＮＮ（Deep Neural Network））が開示される。そこで、まず、ＡＣＧＡＮについて簡単に説明する。

図１は、ＡＣＧＡＮを説明するための図である。ＡＣＧＡＮはｃｃＧＡＮ（onditional GAN）の一種であり、ＧＡＮにおける（Ｄｉｓｃｒｉｍｉｎａｔｏｒ（識別器）に補助のクラス分類器（補助分類器）を付けることでクラスラベル（カテゴリラベル）を指定したデータ生成が可能になったＧＡＮ（Generative Adversarial Network）をいう。

すなわち、図１において、生成器は、ノイズ信号とクラスラベル信号からデータ（画像等）を生成する。ノイズ信号は、生成対象の画像の特徴を含むデータをいう。クラスラベル信号は生成対象の画像が示す対象物のクラスラベルを示すデータをいう。識別器は、生成器が生成したデータ（以下、「生成データ」という。）が訓練セットに含まれる実データか否か（すなわち、生成データであるか否か）を識別する。補助分類器は、識別器が識別したデータのクラスラベル（以下、単に「ラベル」という。）を推定する。

以下、図面に基づいて本発明の実施の形態を説明する。図２は、本発明の実施の形態におけるクラスラベル推定装置１０のハードウェア構成例を示す図である。図２のクラスラベル推定装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、プロセッサ１０４、及びインタフェース装置１０５等を有する。

クラスラベル推定装置１０での処理を実現するプログラムは、ＣＤ－ＲＯＭ等の記録媒体１０１によって提供される。プログラムを記憶した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。プロセッサ１０４は、ＣＰＵ若しくはＧＰＵ（Graphics Processing Unit）、又はＣＰＵ及びＧＰＵであり、メモリ装置１０３に格納されたプログラムに従ってクラスラベル推定装置１０に係る機能を実行する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。

図３は、第１の実施の形態におけるクラスラベル推定装置１０の機能構成例を示す図である。図３において、クラスラベル推定装置１０は、データ生成部１１、未知度推定部１２、クラス尤度推定部１３、クラスラベル推定部１４、ラベルノイズ度推定部１５及び原因推定部１６等を有する。これら各部は、クラスラベル推定装置１０にインストールされた１以上のプログラムが、プロセッサ１０４に実行させる処理により実現される。なお、図３に示される機能構成は、ＡＣＧＡＮをベースとする。

データ生成部１１は、ＡＣＧＡＮにおける生成器である。すなわち、データ生成部１１は、ノイズ信号とクラスラベル信号とを入力とし、ノイズ信号及びクラスラベル信号を用いて実データ（実際に存在するデータ）に似たデータであって、クラスラベル信号が示すラベルに対応するデータ（例えば、画像データ等）を生成する。学習時において、データ生成部１１は、未知度推定部１２が生成データを実データであると推定するように学習する。推論時（運用時の実データのクラスラベルの推定時）には、データ生成部１１は用いられない。

未知度推定部１２は、ＡＣＧＡＮにおける識別器である。すなわち、未知度推定部１２は、データ生成部１１が生成した生成データ又は訓練セットに含まれる実データを入力とし、入力データに関する未知度（当該データが生成データである度合いを示す連続値）を出力する。未知度推定部１２は、当該未知度について閾値処理を行う。データ生成部１１が生成したデータを未知度推定部１２の学習に用いることで、訓練セット外の未知データを明示的に未知であると識別可能なように未知度推定部１２を学習することができる。

クラス尤度推定部１３及びクラスラベル推定部１４は、ＡＣＧＡＮにおける補助分類器を構成する。

クラス尤度推定部１３は、未知度推定部１２に対する入力データと同じ入力データを入力とし、当該入力データについて、ラベルごとの尤度を推定（計算）する。尤度は深層学習モデルでのｓｏｆｔｍａｘレイヤで計算される。したがって、ラベルごとの尤度は、ｓｏｆｔｍａｘベクトルによって表現される。クラス尤度推定部１３は、生成データ及び実データの双方を用いて学習される。

クラスラベル推定部１４は、クラス尤度推定部１３によって推定されたラベルごとの尤度に基づいて、入力データのラベルを推定する。

ラベルノイズ度推定部１５及び原因推定部１６は、ＡＣＧＡＮによる推定の誤りの原因を推定するために、第１の実施の形態において、ＡＣＧＡＮに追加される機構である。

ラベルノイズ度推定部１５は、クラス尤度推定部１３によって推定されるラベルごとの尤度に基づいて、ラベルノイズ（訓練セット中のラベル誤り）の影響度合いであるラベルノイズ度を推定する。

ｓｏｆｔｍａｘベクトルは、ラベルノイズの影響が無い場合に［１．００，０．００，０．００］のように、いずれかの１つのクラスの尤度が圧倒的に１に近いシャープなベクトルになる。一方で、ラベルノイズの影響がある場合に［０．３３，０．３３，０．３３］といった、いずれのクラスの尤度も似た値になるフラットなベクトルになる。したがって、ｓｏｆｔｍａｘベクトルのフラットさはラベルノイズ度を表すといえる。そこで、ラベルノイズ度推定部１５は、例えば、ｓｏｆｔｍａｘベクトルの最大値、上位２つの値の差、又はエントロピー等をラベルノイズ度として出力する。

原因推定部１６は、未知度推定部１２によって推定された未知度と、ラベルノイズ度推定部１５によって推定されたラベルノイズ度とを用いて、ラベルの推定対象のデータが未知のため誤認識する可能性があるのか、ラベルノイズのため誤認識する可能性があるのか、問題が無いため誤認識しないのか（すなわち、誤りの原因）を推定する。例えば、原因推定部１６は、未知度、ラベルノイズ度それぞれに対して閾値処理を行うなどして出力を決定する。

当該閾値処理の具体例について説明する。未知度は未知データに対してのみ大きくなる指標となり、ラベルノイズ度はラベルノイズのデータのみで大きくなる指標となることが期待されていることを前提とし、未知度に対する閾値α及びラベルノイズ度に対する閾値βがそれぞれ設定される。原因推定部１６は、未知度が閾値αより高い場合は未知データであることを原因として推定し、ラベルノイズ度が閾値βより高い場合はラベルノイズを原因として推定する。また、未知度が閾値α以下であり、かつ、ラベルノイズ度が閾値β以下である場合は、（ラベルの推定について）問題が無いと推定する。

上記ように、図３の構成には、ＡＣＧＡＮによる推定の誤りの原因を推定するための機構が含まれている。

しかし、上記の構成については、本願発明者により、ラベルノイズの検出性能が低く、未知のデータについてもラベルノイズとして判定されてしまうことが確認されている。

図４は、第１の実施の形態におけるラベルノイズの検出性能を示す図である。図４おいて、縦軸はラベルノイズ検出性能の指標（ＡＵＲＯＣ）である。ＡＵＲＯＣは、１に近いほど性能が良いことを表す。また、チャンスレートで正解するような当て推量で判断する検出器だとＡＵＲＯＣは０．５になる。

また、横軸における「ｍａｘ＿ｐｒｏｂ」、「ｄｉｆｆ＿ｐｒｏｂ」、「ｅｎｔｒｏｐｙ」は、順番に、ｓｏｆｔｍａｘベクトルの最大値がラベルノイズ度がとされる場合、上位２つの値の差がラベルノイズ度がとされる場合、エントロピーがラベルノイズ度がとされる場合に対応する。図４上の各プロットは、これら３つの場合におけるデータセットごとのラベルノイズの検出性能（ＡＵＲＯＣ）を示す。

図４によれば、「ｍａｘ＿ｐｒｏｂ」、「ｄｉｆｆ＿ｐｒｏｂ」及び「ｅｎｔｒｏｐｙ」のいずれの場合についても、多くのデータセットについてのＡＵＲＯＣが０．５付近であり、必ずしも良い性能が得られているとはいえない。このレベルの性能では、誤りの原因の推定についても高い性能は期待できない。したがって、図４の深層モデルの運用保守を行う際に適切な改善ができず、コストがかかったり効率的に不具合の修正が行えなかったりする可能性がある。

この原因として、本願発明者は、ラベルノイズ度推定部１５の入力として、未知のデータ（すなわち、データ生成部１１が生成したデータ）に基づくフラットなｓｏｆｔｍａｘベクトルが含まれているためであると考察した。すなわち、ラベルノイズは、本来、既知のデータに対して定義される概念であるにも関わらず、第１の実施の形態では、既知と未知のデータを総合した評価値が用いられている。具体的には、本来、ラベルごとの尤度として取得したいｓｏｆｔｍａｘベクトルは、ｐ（ｙ│ｘ，Ｄ＝｛訓練セット｝）であるが、実際に得られるｓｏｆｔｍａｘベクトルは、ｐ（ｙ│ｘ，Ｄ＝｛訓練セット、生成でデータ｝）である。

そこで、次に、上記の考察に基づいて改良された第２の実施の形態について説明する。第２の実施の形態では第１の実施の形態と異なる点について説明する。第２の実施の形態において特に言及されない点については、第１の実施の形態と同様でもよい。

図５は、第２の実施の形態におけるクラスラベル推定装置１０ａの機能構成例を示す図である。図５中、図３と同一又は対応する部分には同一符号を付し、その説明は適宜省略する。

図５において、クラスラベル推定装置１０ａは、図３の構成に対し、シャープ尤度推定部１７及びクラス尤度補正部１８を更に有する。また、クラス尤度推定部１３に変更が加えられる。

具体的には、第２の実施の形態において、クラス尤度推定部１３は、訓練セットに含まれる実データのみで学習される。

シャープ尤度推定部１７は、入力データについてラベルごとの尤度を推定（計算）する。ラベルごとの尤度は深層学習モデルのｓｏｆｔｍａｘレイヤで計算される。クラス尤度推定部１３は、生成データ及び実データの双方を用いて学習される。以上の点について、シャープ尤度推定部１７は、第１の実施の形態におけるクラス尤度推定部１３と同じである。但し、シャープ尤度推定部１７は、シャープなｓｏｆｔｍａｘベクトルを推定（出力）する。斯かる推定を行えるようにするため、シャープ尤度推定部１７は、推定結果のｓｏｆｔｍａｘベクトルがシャープになるように学習してもよい。このような学習の方法の一例として、ｓｏｆｔｍａｘベクトルのエントロピーの項を損失関数の制約項とする方法がある。シャープなベクトルであることとエントロピーが小さいことは同義であるため、エントロピーが小さくなるように学習することでシャープなベクトルを推定することが期待される。

又は、シャープ尤度推定部１７は、第１の実施の形態におけるクラス尤度推定部１３と同様の学習を行った上で、当該学習に基づく推定結果（以下、「当初の推定結果」という。）であるｓｏｆｔｍａｘベクトルのうち、フラットなｓｏｆｔｍａｘベクトルに対してシャープになるような変換を行ってもよい。シャープになるような変換は、例えば、以下の（１）～（３）の手順で行われてもよい。
（１）当初の推定結果のｓｏｆｔｍａｘベクトルの最大値となる次元を特定する。
（２）当初の推定結果のｓｏｆｔｍａｘベクトルと同じサイズの［０，…，０］というベクトルを用意する。
（３）（２）で用意したベクトルのうち、（１）で特定した次元の値を１に変更する。

他にも、推定結果のｓｏｆｔｍａｘベクトルの最大値－ε（εは１０^－９等、微小な値）を閾値にして、当該ｓｏｆｔｍａｘベクトルの各次元を２値化する等、変換には様々な方法が考えられる。

クラス尤度補正部１８は、クラス尤度推定部１３によって推定された尤度を、未知度推定部１２で推定された未知度とシャープ尤度推定部１７によって推定された尤度とに基づいて補正する。補正方法として、例えば、以下の数１の（１）のように未知度で重みをつけて足し合わせる方法（すなわち、加重和を補正値とする方法）や、数１の（２）のように、クラス尤度推定部１３による推定された尤度とシャープ尤度推定部１７によって推定された尤度とを未知度に対する条件に応じて選択する方法が挙げられる。クラス尤度補正部１８は、ラベルノイズ度推定部１５への出力とクラスラベル推定部１４への出力とで異なる方法（でアルゴリズム）を用いてクラス尤度推定部１３によって推定された尤度を補正してもよい。

但し、ｒｆは、未知度である。ｓｏｆｔｍａｘは、クラス尤度推定部１３からの出力（ｓｏｆｔｍａｘベクトル）である。ｓｏｆｔｍａｘ_{ｓｈａｒｐ}は、シャープ尤度推定部１７からの出力（ｓｏｆｔｍａｘベクトル）である。ｔｈは、閾値である。

なお、数１において、（２－１）は、「実データでないと推定されたデータに対してシャープ尤度推定部１７の出力を選択的に用いる（当該出力を補正後の尤度とする）」ことを示す。（２－２）は、「実データと推定されたに対しクラス尤度推定部１３の出力を選択的に用いる（当該出力を補正後の尤度とする）」ことを示す。

シャープ尤度推定部１７及びクラス尤度補正部１８の追加により、原因推定部１６による推定精度の向上も期待される。すなわち、未知度が閾値αより高く、かつ、ラベルノイズ度が閾値βより高いケースも論理的には考えられるが、シャープ尤度推定部１７及びクラス尤度補正部１８によりこのようなケースが無くなることが期待されるからである。

なお、第２の実施の形態において、クラスラベル推定部１４及びラベルノイズ度推定部１５は、クラス尤度推定部１３からの出力ではなくクラス尤度補正部１８からの出力を入力とする点において第１の実施の形態と異なる。

図６は、第２の実施の形態におけるクラスラベル推定装置１０ａの学習時の機能構成例を説明するための図である。図６中、図５と同一部分には同一符号が付されている。図６に示される各部のうち、データ生成部１１、未知度推定部１２、シャープ尤度推定部１７及びクラス尤度推定部１３が学習の対象となるニューラルネットワークである。一方、クラス尤度補正部１８及びクラスラベル推定部１４は、学習時においては、データ生成部１１の学習に利用されるアルゴリズムである。

データ生成部１１は、従来のＡＣＧＡＮと同様に、未知度推定部１２によって未知度が低く推定されるように、かつ、クラスラベル推定部１４でクラスラベル信号と同じラベルが推定されるように学習する。

未知度推定部１２は、従来のＡＣＧＡＮと同様に、入力データがデータ生成部１１の出力なのか実データなのかを識別できるように学習する。

シャープ尤度推定部１７は、生成データ及び訓練セット内の実データを入力とし、入力データのラベルの尤度が相対的に高くなるように学習する。例えば、シャープ尤度推定部１７は、正解クラスの尤度＝９９％のように圧倒的に当該尤度が高くなるように学習する。なお、入力データのラベルとは、入力データが生成データの場合にはクラスラベル信号が示すラベルであり、入力データが訓練セット内の実データの場合には、訓練セットにおいて実データに付与されたラベルである。

クラス尤度推定部１３は、入力データである実データに付与されたラベルの尤度が相対的に高くなるように学習する。なお、学習時において、クラス尤度推定部１３には生成データは入力されない。

クラス尤度補正部１８は、クラス尤度推定部１３によって推定されたラベルごとの尤度を、未知度推定部１２で推定された未知度とシャープ尤度推定部１７によって推定されたラベルごとの尤度とに基づいて補正する。

クラスラベル推定部１４は、クラス尤度補正部１８によって補正されたラベルごとの尤度に基づいて、入力データのラベルを推定する。推定結果は、データ生成部１１の学習に用いられる。

図７は、第２の実施の形態におけるクラスラベル推定装置１０ａの推論時の機能構成例を説明するための図である。図７中、図５と同一部分には同一符号が付されている。図７に示されるように、推論時において、データ生成部１１は利用されない。また、推論時における実データは、ラベルが付与されていない、ラベルの推定対象のデータ（例えば、実運用において利用されるデータ）である。

推論時における各部の処理は、上記において説明した通りである。すなわち、未知度推定部１２は、実データの未知度を推定する。シャープ尤度推定部１７及びクラス尤度推定部１３のそれぞれは、実データについてラベルごとの尤度を推定する。クラス尤度補正部１８は、クラス尤度推定部１３による推定結果であるｓｏｆｔｍａｘベクトルを、未知度推定部１２によって推定された未知度とシャープ尤度推定部１７による推定結果とに基づいて補正する。クラスラベル推定部１４は、補正されたラベルごとの尤度に基づいて実データのラベルを推定する。ラベルノイズ度推定部１５は、補正されたラベルごとの尤度に基づいてラベルノイズ度を推定する。原因推定部１６は、未知度及びラベルノイズ度に対する閾値処理によって誤りの原因（未知、ラベルノイズ又は問題無し）を推定する。

図８及び図９は、第２の実施の形態のラベルノイズの検出性能を説明するための図である。図８及び図９の見方は、図４と同様である。但し、図８及び図９の横軸において、「ベースモデル」は、第１の実施の形態の構成に対応する。「加重和」及び「選択」は、第２の実施の形態に対応する。「加重和」は、クラス尤度補正部１８による補正が未知度による加重和によって行われるケースに対応する。「選択」は、クラス尤度補正部１８による補正が未知度に基づくいずれか一方の尤度の選択によって行われるケースに対応する。

なお、図８と図９とは、ラベルノイズの種類が異なる。図８は、ラベルノイズが「Ｓｙｍｍｅｔｒｉｃｎｏｉｓｅ」である場合に対応し、図９は、ラベルノイズが「Ａｓｙｍｍｅｔｒｉｃｎｏｉｓｅ」である場合に対応する。「Ｓｙｍｍｅｔｒｉｃｎｏｉｓｅ」は、データに対して用意されたラベルのそれぞれについて等確率に誤るラベルノイズをいう。例えば、「犬，ねこ，うさぎ，サル」という４つのクラスがあった場合に、犬を犬以外の３クラスに等確率で誤り、ねこをねこ以外の３クラスに等確率に誤り、…といったラベルノイズが「Ｓｙｍｍｅｔｒｉｃｎｏｉｓｅ」である。一方で、「Ａｓｙｍｍｅｔｒｉｃｎｏｉｓｅ」は、「Ｓｙｍｍｅｔｒｉｃｎｏｉｓｅ」とは異なり、誤る確率が等確率にならないラベルノイズをいう。例えば、「犬，ねこ，うさぎ，サル」という４つのクラスがあった場合に、犬をねことは誤るがうさぎやサルとは誤らないようなラベルノイズが「Ａｓｙｍｍｅｔｒｉｃｎｏｉｓｅ」である。

図８及び図９のいずれにおいても、第２の実施の形態によれば、ラベルノイズの検出性能（ＡＵＲＯＣ）がチャンスレート（＝０．５）以下であるデータセットが少なくなったことが分かる。したがって、第２の実施の形態によって、ラベルノイズの検出性能が向上したことが検証されたと考えられる。

また、図１０及び図１１は、第２の実施の形態の未知データの検出性能を説明するための図である。図１０及び図１１の縦軸は、未知データの検出性能（ＡＵＲＯＣ）である。また、横軸の「ｒｆ」はベースモデルによる未知度に基づく検出性能に対応する、「ｅｘｒｆ」は、第２の実施の形態による未知度に基づく検出性能に対応する。更に、図１０と図１１との関係は、図８と図９との関係と同じである。それ以外の横軸は、ラベルノイズ度に基づく未知データの検出性能に対応する。

第２の実施の形態では、未知度とラベルノイズ度がそれぞれ独立に評価されるため、未知データでラベルノイズ度が低くなる保証はないが、図１０及び図１１によれば、第２の実施の形態において、未知データについてラベルノイズ度による検出性能が低くなっていることが分かる。すなわち、ラベルノイズが未知データに反応しなくなったため、誤りの検出結果に未知データとラベルノイズが誤りの原因として同時に推定される可能性が低いことを期待することができる。換言すれば、ラベルノイズ度に基づいて検出される誤りがラベルノイズであること（未知データではないこと）が保証されることを期待することができる。

なお、「ｒｆ」の列と「ｅｘｒｆ」の列とについては、未知データの検出性能は類似している。このことは、ラベルごとの尤度の推定方法を変化させたことによる悪影響が未知度での未知データの検出に対してほとんど無いことを示す。

上述したように、第２の実施の形態によれば、タスク（ラベルの推定）を実行しつつ、深層モデルによる誤りの原因を自動的に推定可能とすることができる。また、ラベルノイズの評価値としてモデルの妥当性を担保することができる。更に、ラベルノイズの評価値であるｓｏｆｔｍａｘのフラットさが未知のデータに反応してしまうのを防ぎ（未知データに対してｓｏｆｔｍａｘベクトルがフラットになることを避けて）、ラベルノイズによる誤りの推定の性能を高めることができる。

なお、第２の実施の形態において、クラスラベル推定装置１０ａは、学習装置及びクラスラベル推定装置１０の一例である。クラス尤度推定部１３は、第１のクラス尤度推定部の一例である。シャープ尤度推定部１７は、第２のクラス尤度推定部の一例である。

以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１０、１０ａクラスラベル推定装置
１１データ生成部
１２未知度推定部
１３クラス尤度推定部
１４クラスラベル推定部
１５ラベルノイズ度推定部
１６原因推定部
１７シャープ尤度推定部
１８クラス尤度補正部
１００ドライブ装置
１０１記録媒体
１０２補助記憶装置
１０３メモリ装置
１０４プロセッサ
１０５インタフェース装置
Ｂバス

Claims

クラスラベル信号及びノイズ信号に基づくデータの生成を学習するデータ生成部と、
訓練セット及び前記データ生成部が生成するデータを用いて、入力データが未知である度合いの推定を学習する未知度推定部と、
前記訓練セットを用いて、入力データについてクラスラベルごとの第１の尤度の推定を学習する第１のクラス尤度推定部と、
前記訓練セット及び前記データ生成部が生成するデータを用いて、入力データについて前記クラスラベルごとの第２の尤度の推定を学習する第２のクラス尤度推定部と、
前記未知である度合い及び前記第２の尤度に基づいて前記第１の尤度を補正することで第３の尤度を生成するクラス尤度補正部と、
前記第３の尤度に基づいて、前記第３の尤度に係るデータのクラスラベルを推定するクラスラベル推定部と、
を有し、
前記データ生成部は、前記未知である度合い、及び前記クラスラベル推定部によって推定されるクラスラベルに基づいて前記生成を学習する、
ことを特徴とする学習装置。
前記第２のクラス尤度推定部は、前記クラスラベル信号が示すクラスラベル又は前記訓練セットに付与されたクラスラベルに対する前記第２の尤度が相対的に高くなるように前記クラスラベルごとの第２の尤度の推定を学習する、
ことを特徴とする請求項１記載の学習装置。
前記クラス尤度補正部は、前記第１の尤度と前記第２の尤度との加重和、又は前記第１の尤度若しくは前記第２の尤度を前記第３の尤度として生成する、
ことを特徴とする請求項１又は２記載の学習装置。
入力データが未知である度合いを推定する未知度推定部と、
訓練セットを用いた学習に基づいて、前記入力データについてクラスラベルごとの第１の尤度を推定する第１のクラス尤度推定部と、
クラスラベル信号及びノイズ信号に基づいて生成されたデータ及び前記訓練セットを用いた学習に基づいて、前記入力データについて前記クラスラベルごとの第２の尤度を推定する第２のクラス尤度推定部と、
前記未知である度合い及び前記第２の尤度に基づいて前記第１の尤度を補正することで第３の尤度を生成するクラス尤度補正部と、
前記第３の尤度に基づいて、前記訓練セットにおけるラベルノイズの度合いを推定するラベルノイズ度推定部と、
前記未知の度合い及び前記ラベルノイズの度合いに基づいて、前記入力データに関する誤りの原因を推定する原因推定部と、
を有することを特徴とする推定装置。
クラスラベル信号及びノイズ信号に基づくデータの生成を学習するデータ生成手順と、
前記データ生成手順が生成するデータ及び訓練セットを用いて、入力データが未知である度合いの推定を学習する未知度推定手順と、
前記訓練セットを用いて、入力データについてクラスラベルごとの第１の尤度の推定を学習する第１のクラス尤度推定手順と、
前記データ生成手順が生成するデータ及び前記訓練セットを用いて、入力データについて前記クラスラベルごとの第２の尤度の推定を学習する第２のクラス尤度推定手順と、
前記未知である度合い及び前記第２の尤度に基づいて前記第１の尤度を補正することで第３の尤度を生成するクラス尤度補正手順と、
前記第３の尤度に基づいて、前記第３の尤度に係るデータのクラスラベルを推定するクラスラベル推定手順と、
をコンピュータが実行し、
前記データ生成手順は、前記未知である度合い、及び前記クラスラベル推定手順によって推定されるクラスラベルに基づいて前記生成を学習する、
ことを特徴とする学習方法。
入力データが未知である度合いを推定する未知度推定手順と、
訓練セットを用いた学習に基づいて、前記入力データについてクラスラベルごとの第１の尤度を推定する第１のクラス尤度推定手順と、
クラスラベル信号及びノイズ信号に基づいて生成されたデータ及び前記訓練セットを用いた学習に基づいて、前記入力データについて前記クラスラベルごとの第２の尤度を推定する第２のクラス尤度推定手順と、
前記未知である度合い及び前記第２の尤度に基づいて前記第１の尤度を補正することで第３の尤度を生成するクラス尤度補正手順と、
前記第３の尤度に基づいて、前記訓練セットにおけるラベルノイズの度合いを推定するラベルノイズ度推定手順と、
前記未知の度合い及び前記ラベルノイズの度合いに基づいて、前記入力データに関する誤りの原因を推定する原因推定手順と、
をコンピュータが実行することを特徴とする推定方法。
請求項１乃至３いずれか一項記載の学習装置としてコンピュータを機能させることを特徴とするプログラム。
請求項４記載の推定装置としてコンピュータを機能させることを特徴とするプログラム。