JP2023008028A

JP2023008028A - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP2023008028A
Application number: JP2021111255A
Authority: JP
Inventors: 聡志川村; Satoshi Kawamura
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2023-01-19

Abstract

【課題】検証用のラベル付きデータセットなしに高精度なニューラルネットワークを構築する。【解決手段】ラベル無しデータとラベル有りデータとニューラルネットワークとに基づいて、ラベル無しデータに対応する推論結果とラベル有りデータに対応する推論結果とを出力する推測部と、ラベル無しデータに対応する推論結果に基づいて、ラベル無しデータの影響度を示す係数を算出する係数生成部と、ラベル無しデータに対応する推論結果と係数とに基づいて、ラベル無しデータに対応する評価結果を出力するラベル無しデータ評価部と、ラベル有りデータに対応する推論結果と教師ラベルとに基づいて、ラベル有りデータに対応する評価結果を出力するラベル有りデータ評価部と、ラベル無しデータに対応する評価結果と、ラベル有りデータに対応する評価結果とに基づいて、ニューラルネットワークの重みパラメータを更新する更新部と、を備える、情報処理装置が提供される。【選択図】図１

Description

本発明は、情報処理装置、情報処理方法およびプログラムに関する。

ニューラルネットワーク（以下、「ＮＮ」とも表記する。）は、画像認識などにおいて高い性能を有する。ＮＮの学習精度を高めるためには、膨大な入力データとそれに対応した教師ラベルが必要となることが知られている。しかし、教師ラベルは人手によって付与される場合が多い。そのため、膨大な入力データに対して教師ラベルを付与する負担がユーザに掛かってしまう。

近年、この課題を解決するため、収集した入力データのうち少量のデータに教師ラベルを付与し、残りのデータには教師ラベルを付与せずにＮＮの学習を行う半教師あり学習の研究が盛んになっている。半教師あり学習によれば、ユーザの負担が大きく削減され得る。一般に、半教師あり学習に用いられる損失関数は、教師ラベル付きデータセット（ラベル付きデータセット）に対応する損失関数と、教師ラベル無しデータセット（ラベル無しデータセット）に対応する損失関数との重み和によって定義される。

非特許文献１に記載の手法は、特に画像認識における半教師あり学習の手法の一つであり、教師ラベルが付されていない画像に対して２種類のデータ拡張を施し、２種類のデータ拡張によって得られた２種類の画像同士を比較することに基づいて学習を行う手法である。これによって、学習精度を高めることが可能となる。非特許文献１に記載の手法においては、教師ラベルが付されていない入力データ（ラベル無しデータ）に依存しない定数が個々のラベル無しデータに対応する損失関数に乗じられることによって、ラベル無しデータ全体に対応する損失関数が算出される。

非特許文献２に記載の手法は、半教師あり学習の一つであり、ラベル無しデータごとに影響度を示す係数を算出し、ラベル無しデータごとの係数と損失関数との重み和によってラベル無しデータ全体に対応する損失関数を算出する手法である。ただし、係数の算出は、学習用データとは別に用意された検証用の教師ラベル付きデータセットを用いて行われる。

Kihyuk Sohn、他8名、"FixMatch:Simplifying Semi-Supervised Learning with Consistencyand Confidence"、[online]、［令和3年6月18日検索］、インターネット＜https://arxiv.org/abs/2001.07685＞ Zhongzheng Ren、他2名、"Not AllUnlabeled Data are Equal: Learning to Weight Data in Semi-supervised Learning"、[online]、［令和3年6月18日検索］、インターネット＜https://arxiv.org/abs/2007.01293＞

しかしながら、非特許文献１に記載の手法によれば、個々のラベル無しデータに対応する損失関数が均等に扱われた上で、損失関数に基づくＮＮの更新が行われる。そのため、学習を妨害するラベル無しデータに対応する損失関数も均等に扱われるため、学習が不安定となりやすく、構築されるＮＮの精度も高くなりにくい。

また、非特許文献２に記載の手法によれば、ラベル無しデータの影響度がサンプルごとに決定され得る。しかし、学習用データとは別に検証用の教師ラベル付きデータセットを用意する必要があるため、ユーザに掛かる負担が高くなる可能性がある。

そこで、本発明は、これらの問題点を解決すべく提案されたものであり、学習用データとは別に検証用の教師ラベル付きデータセットを用意せずとも、高精度なＮＮを構築することを可能とする技術が提供されることが望まれる。

上記問題を解決するために、本発明のある観点によれば、ラベル無しデータを取得するとともに、教師ラベルが付されたラベル有りデータを取得する入力部と、前記ラベル無しデータと前記ラベル有りデータとニューラルネットワークとに基づいて、前記ラベル無しデータに対応する推論結果と前記ラベル有りデータに対応する推論結果とを出力する推測部と、前記ラベル無しデータに対応する推論結果に基づいて、前記ラベル無しデータの影響度を示す係数を算出する係数生成部と、前記ラベル無しデータに対応する推論結果と前記係数とに基づいて、前記ラベル無しデータに対応する評価結果を出力するラベル無しデータ評価部と、前記ラベル有りデータに対応する推論結果と前記教師ラベルとに基づいて、前記ラベル有りデータに対応する評価結果を出力するラベル有りデータ評価部と、前記ラベル無しデータに対応する評価結果と、前記ラベル有りデータに対応する評価結果とに基づいて、前記ニューラルネットワークの重みパラメータを更新する更新部と、を備える、情報処理装置が提供される。
本発明の実施形態に係る技術においては、ラベル無しデータとラベル付きデータとが学習に用いられる。したがって、本発明の実施形態に係る技術は、半教師あり機械学習に関する技術に該当する。

前記ラベル無しデータに対応する推論結果は、クラスごとの推論値を含み、前記係数生成部は、ラベル無しデータごとに推論値が最大となる第１のクラスの推論値と前記第１のクラスとは異なる１または複数のクラスの推論値とに基づく差分を算出し、前記ラベル無しデータごとに前記差分に基づいて前記係数を算出してもよい。

前記係数生成部は、前記ラベル無しデータごとに前記第１のクラスの推論値と推論値が２番目に大きい第２のクラスの推論値との差分を算出してもよい。

前記係数生成部は、前記ラベル無しデータごとに前記第１のクラスの推論値と前記第１のクラスとは異なる複数のクラスの推論値の平均値との差分を算出してもよい。

前記係数生成部は、前記ラベル無しデータごとに前記差分に対して正の相関を有する数を前記係数として算出してもよい。

前記ラベル無しデータに対応する推論結果は、クラスごとの推論値を含み、前記係数生成部は、ラベル無しデータごとに推論値に基づく予測クラスを特定し、前記予測クラスに対応するラベル無しデータの数を前記予測クラスの度数として算出し、前記ラベル無しデータごとに前記予測クラスの度数に基づいて前記係数を算出してもよい。

前記係数生成部は、前記ラベル無しデータごとに前記推論値が最大となるクラスを予測クラスとして特定してもよい。

前記係数生成部は、前記ラベル無しデータごとに前記予測クラスの度数に対して負の相関を有する数を前記係数として算出してもよい。

前記ラベル無しデータ評価部は、前記ラベル無しデータに対応する推論結果に基づく損失と前記係数とを乗算することに基づいて、前記ラベル無しデータに対応する評価結果を出力してもよい。

また、本発明の別の観点によれば、ラベル無しデータを取得するとともに、教師ラベルが付されたラベル有りデータを取得することと、前記ラベル無しデータと前記ラベル有りデータとニューラルネットワークとに基づいて、前記ラベル無しデータに対応する推論結果と前記ラベル有りデータに対応する推論結果とを出力することと、前記ラベル無しデータに対応する推論結果に基づいて、前記ラベル無しデータの影響度を示す係数を算出することと、前記ラベル無しデータに対応する推論結果と前記係数とに基づいて、前記ラベル無しデータに対応する評価結果を出力することと、前記ラベル有りデータに対応する推論結果と前記教師ラベルとに基づいて、前記ラベル有りデータに対応する評価結果を出力することと、前記ラベル無しデータに対応する評価結果と、前記ラベル有りデータに対応する評価結果とに基づいて、前記ニューラルネットワークの重みパラメータを更新することと、を備える、情報処理方法が提供される。

また、本発明の別の観点によれば、コンピュータを、ラベル無しデータを取得するとともに、教師ラベルが付されたラベル有りデータを取得する入力部と、前記ラベル無しデータと前記ラベル有りデータとニューラルネットワークとに基づいて、前記ラベル無しデータに対応する推論結果と前記ラベル有りデータに対応する推論結果とを出力する推測部と、前記ラベル無しデータに対応する推論結果に基づいて、前記ラベル無しデータの影響度を示す係数を算出する係数生成部と、前記ラベル無しデータに対応する推論結果と前記係数とに基づいて、前記ラベル無しデータに対応する評価結果を出力するラベル無しデータ評価部と、前記ラベル有りデータに対応する推論結果と前記教師ラベルとに基づいて、前記ラベル有りデータに対応する評価結果を出力するラベル有りデータ評価部と、前記ラベル無しデータに対応する評価結果と、前記ラベル有りデータに対応する評価結果とに基づいて、前記ニューラルネットワークの重みパラメータを更新する更新部と、を備える情報処理装置として機能させるプログラムが提供される。

以上説明したように本発明によれば、学習用データとは別に検証用の教師ラベル付きデータセットを用意せずとも、高精度なＮＮを構築することを可能とする技術が提供される。

本発明の第１の実施形態に係る学習装置の機能構成例を示す図である。同実施形態に係る学習装置によって実行される学習段階の動作例を示すフローチャートである。学習装置の例としての情報処理装置のハードウェア構成を示す図である。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合がある。ただし、実質的に同一の機能構成を有する複数の構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。また、異なる実施形態の類似する構成要素については、同一の符号の後に異なるアルファベットを付して区別する場合がある。ただし、異なる実施形態の類似する構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。

（０．実施形態の概要）
本発明の実施形態の概要について説明する。本発明の実施形態では、ニューラルネットワークの学習を行う情報処理装置（以下、「学習装置」とも言う。）について説明する。学習装置においては、学習用データに基づいてニューラルネットワークの学習が行われる（学習段階）。その後、識別装置において、学習済みのニューラルネットワークと識別用データ（テストデータ）とに基づいて推定ラベルが出力される。

本発明の実施形態では、学習装置と識別装置とが同一のコンピュータによって実現される場合を主に想定する。しかし、学習装置と識別装置とは、別のコンピュータによって実現されてもよい。かかる場合には、学習装置によって生成された学習済みのニューラルネットワークが識別装置に提供される。例えば、学習済みのニューラルネットワークは、学習装置から識別装置に記録媒体を介して提供されてもよいし、通信を介して提供されてもよい。以下では、学習装置において実行される「学習段階」について説明する。

（１．第１の実施形態）
まず、本発明の第１の実施形態について説明する。本発明の第１の実施形態においては、学習装置によって半教師あり学習が行われる。

（学習装置の構成）
図１を参照しながら、本発明の第１の実施形態に係る学習装置の構成例について説明する。図１は、本発明の第１の実施形態に係る学習装置１０の機能構成例を示す図である。図１に示されるように、本発明の第１の実施形態に係る学習装置１０は、入力部１１１と、推測部１２２と、係数生成部１３１と、ラベル無しデータ評価部１３２と、ラベル有りデータ評価部１３３と、更新部１３４とを備える。

本発明の第１の実施形態では、推測部１２２が、ニューラルネットワーク１２０に含まれる場合を主に想定する。すなわち、推測部１２２は、ニューロンによって構築される計算グラフが処理順に接続されて構成されており、全体として１つのニューラルネットワークとみなされ得る。以下では、ニューラルネットワークを「ＮＮ」とも表記する。より詳細に、推測部１２２は、畳み込み層およびプーリング層を主に含んでよい。以下では、畳み込み層として、２次元畳み込み層が用いられる場合を主に想定するが、３次元畳み込み層が用いられてもよい。

推測部１２２の他、入力部１１１、係数生成部１３１、ラベル無しデータ評価部１３２、ラベル有りデータ評価部１３３および更新部１３４などは、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）またはＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの演算装置を含み、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）により記憶されているプログラムが演算装置によりＲＡＭに展開されて実行されることにより、その機能が実現され得る。このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。あるいは、これらのブロックは、専用のハードウェアにより構成されていてもよいし、複数のハードウェアの組み合わせにより構成されてもよい。演算装置による演算に必要なデータは、図示しない記憶部によって適宜記憶される。

ラベル無しデータセット１０１、ラベル付きデータセット１０２および重みパラメータ１２１は、図示しない記憶部によって記憶される。かかる記憶部は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ハードディスクドライブまたはフラッシュメモリなどのメモリによって構成されてよい。

初期状態において、重みパラメータ１２１には、初期値が設定されている。例えば、重みパラメータ１２１に設定される初期値は、ランダムな値であってよいが、どのような値であってもよい。例えば、重みパラメータ１２１に設定される初期値は、あらかじめ学習によって得られた学習済みの値であってもよい。

（ラベル無しデータセット１０１）
ラベル無しデータセット１０１は、教師ラベルがそれぞれ対応付けられていない複数の学習用データ（入力データ）を含んで構成される。以下では、教師ラベルが対応付けられていない学習用データを「ラベル無しデータ」とも言う。なお、本発明の実施形態では、ラベル無しデータが画像データである場合（特に、静止画像データである場合）を主に想定する。しかし、ラベル無しデータの種類は特に限定されず、静止画像データ以外もラベル無しデータとして用いられ得る。例えば、ラベル無しデータは、複数のフレームを含んだ動画像データであってもよいし、時系列データまたは音声データであってもよい。

（ラベル付きデータセット１０２）
ラベル付きデータセット１０２は、複数の学習用データ（入力データ）と当該複数の学習用データそれぞれに対応付けられた教師ラベルとを含んで構成される。以下では、教師ラベルが対応付けられた学習用データを「ラベル有りデータ」とも言う。また、教師ラベルとラベル有りデータとの組み合わせを「ラベル付きデータ」とも言う。教師ラベルは、人手または図示しない機能によって付与される。なお、ラベル無しデータの種類と同様に、ラベル有りデータの種類も特に限定されない。

（入力部１１１）
入力部１１１は、ラベル無しデータセット１０１からラベル無しデータを順次に取得し、取得したラベル無しデータをもとにミニバッチを作成し、作成したミニバッチをニューラルネットワーク１２０の推測部１２２に出力する。さらに、入力部１１１は、ラベル付きデータセット１０２からラベル付きデータ（教師ラベルとラベル有りデータとの組み合わせ）を順次に取得し、取得したラベル付きデータをもとにミニバッチを作成し、作成したミニバッチをニューラルネットワーク１２０の推測部１２２に出力する。ミニバッチのサイズは特に限定されない。

（推測部１２２）
推測部１２２は、入力部１１１から出力されたミニバッチに含まれるラベル無しデータとニューラルネットワーク１２０とに基づいてラベル無しデータに対応する推論結果を得る。より詳細に、推測部１２２は、重みパラメータ１２１が設定されたニューラルネットワーク１２０にラベル無しデータを入力させたことに基づいて、ニューラルネットワーク１２０から出力されるデータをラベル無しデータに対応する推論結果として得る。推測部１２２は、ラベル無しデータに対応する推論結果を係数生成部１３１に出力する。

このとき、推測部１２２は、ラベル無しデータに対応する推論結果として、半教師あり学習の枠組みに基づく２種類のラベルを係数生成部１３１に出力し得る。ここで、２種類のラベルを得るためのアルゴリズムは、特定のアルゴリズムに限定されず、半教師あり学習に用いられるアルゴリズムが用いられてよい。

例えば、入力部１１１が、ラベル無しデータセット１０１から取得したラベル無しデータに基づいて２種類のラベル無しデータを得てもよい。一例として、入力部１１１は、ラベル無しデータに対して２種類のデータ拡張を施すことによって２種類のラベル無しデータを得てもよい。このとき、入力部１１１は、推測部１２２に対して２種類のラベル無しデータを出力し、推測部１２２は、２種類のラベル無しデータそれぞれに対応するラベルを２種類のラベルとして係数生成部１３１に出力する。

あるいは、入力部１１１から推測部１２２に出力されるラベル無しデータは１種類であり、推測部１２２において、２種類の重みパラメータを使用してもよい。一例として、推測部１２２は、入力部１１１から出力されるラベル無しデータに対して、重みパラメータ１２１の全部を適用して得たデータおよび重みパラメータ１２１の一部を適用して得たデータを２種類のラベルとして得てもよい。このとき、推測部１２２は、２種類のラベルを係数生成部１３１に出力する。

例えば、推測部１２２は、２種類のラベルのうち、一方をラベル無しデータに対応する擬似的な教師ラベルとし、他方をラベル無しデータに対応する推定ラベルとして係数生成部１３１に出力する。なお、２種類のラベルのどちらを疑似的な教師ラベルとするかは限定されない。例えば、より弱いデータ拡張によって得られたラベルが疑似的な教師ラベルとされてもよい。あるいは、重みパラメータ１２１の全部の適用によって得られたラベルが疑似的な教師ラベルとされてもよい。

さらに、推測部１２２は、入力部１１１から出力されたミニバッチに含まれるラベル有りデータとニューラルネットワーク１２０とに基づいてラベル有りデータに対応する推論結果を得る。より詳細に、推測部１２２は、重みパラメータ１２１が設定されたニューラルネットワーク１２０にラベル有りデータを入力させたことに基づいて、ニューラルネットワーク１２０から出力されるデータをラベル有りデータに対応する推論結果として得る。推測部１２２は、ラベル有りデータに対応する推論結果をラベル有りデータ評価部１３３に出力する。

なお、推測部１２２から出力される推論結果の形式は、特に限定されない。しかし、推測部１２２から出力される推論結果の形式は、教師ラベルの形式と合わせて設定されているのがよい。例えば、教師ラベルが分類問題のクラスを示し、クラス数分の長さを有するｏｎｅ－ｈｏｔベクトルである場合、推測部１２２から出力される推論結果の形式も、クラス数分の長さを有するベクトルであってよい。このとき、推測部１２２から出力される推論結果は、クラスごとの値（以下、「推論値」とも言う。）を含み得る。

一例として、推測部１２２によって全クラスの推論値の合計が１になるように調整される場合には、それぞれのクラスに対応する推論値は、それぞれのクラスに対応する確率に相当し得る。しかし、全クラスの推論値の合計は、推測部１２２によって１になるように調整されていなくてもよい。いずれの場合であっても、推測部１２２から出力される推論値は、そのクラスの確からしさが高いほど、大きい値であり得る。

（係数生成部１３１）
係数生成部１３１は、推測部１２２から出力されたラベル無しデータに対応する推論結果に基づいて、ラベル無しデータの影響度を示す係数を算出する。より詳細に、係数生成部１３１は、ミニバッチに含まれるラベル無しデータごとに推論値に基づく予測クラスを特定する。バッチサイズＢとすると、ラベル無しデータｘ^ｕ＝｛ｘ_１ ^ｕ，…，ｘ_Ｂ ^ｕ｝の推論値に基づく予測クラスは、ｙ^ｕ＝｛ｙ_１ ^ｕ，…，ｙ_Ｂ ^ｕ｝として特定される。なお、ｙ^ｕの各要素は、予測クラスの番号であってよい。

ここで、予測クラスは、どのようにして特定されてもよい。一例として、推論値が最大となるクラスは、確からしさが最も高いクラスであると考えられる。そこで、係数生成部１３１は、ミニバッチに含まれるラベル無しデータごとに推論値が最大となるクラスを予測クラスとして特定してもよい。例えば、予測クラスの特定に用いられる推論値としては、２種類のラベルのいずれが用いられてもよいが、疑似的な教師ラベルが用いられるのが望ましい。

そして、係数生成部１３１は、予測クラスに対応するラベル無しデータの数を予測クラスの度数として算出する。例えば、ニューラルネットワーク１２０がＮクラスへの分類問題を解く場合には（すなわち、ラベル無しデータに対応する推論結果がＮクラス分の推論値を含む場合には）、予測クラスの度数ｃ_ｉは、以下の式（１）のように表現され得る。

係数生成部１３１は、ミニバッチに含まれるラベル無しデータｘ^ｕごとに、予測クラスの度数ｃに基づいて係数ｔを算出する。一例として、係数生成部１３１は、ミニバッチに含まれるラベル無しデータｘ^ｕごとに予測クラスの度数ｃに対して負の相関を有する数を係数ｔとして算出するのが望ましい。これによって、度数ｃが小さい予測クラスに対応するラベル無しデータほど、影響度が高く扱われるようになる。

例えば、入力値に対して負の相関を示す出力値を返却する関数をｆとすると、入力値に対して負の相関を示す出力値を返却する関数ｆは、以下の式（２）のように表現され得る。

例えば、入力値に対して負の相関を示す出力値を返却する関数ｆの例として、以下の式（３）が挙げられる。

係数生成部１３１は、ミニバッチに含まれるラベル無しデータごとの推論結果および係数を、ラベル無しデータ評価部１３２に出力する。

（ラベル無しデータ評価部１３２）
ラベル無しデータ評価部１３２は、ミニバッチに含まれるラベル無しデータごとの推論結果および係数に基づいて、ラベル無しデータに対応する評価結果を得る。より詳細に、ラベル無しデータ評価部１３２は、ミニバッチに含まれるラベル無しデータごとに、推論結果に基づいて損失を算出し、ラベル無しデータごとの損失および係数に基づいて、ラベル無しデータに対応する評価結果を得る。

まず、ラベル無しデータ評価部１３２は、ラベル無しデータごとに、疑似的な教師ラベルに基づいて推定ラベルを評価して損失を算出する。

ここで、損失の算出に用いられる損失関数は特定の関数に限定されず、一般的なニューラルネットワークにおいて用いられる損失関数と同様の損失関数が用いられてよい。例えば、損失関数は、ラベル無しデータに対応する疑似的な教師ラベルとラベル無しデータに対応する推定ラベルとの差分に基づく平均二乗誤差であってもよいし、ラベル無しデータに対応する疑似的な教師ラベルとラベル無しデータに対応する推定ラベルとの差分に基づく交差エントロピー誤差であってもよい。

次に、ラベル無しデータ評価部１３２は、ラベル無しデータごとの損失および係数に基づいて、ラベル無しデータに対応する評価結果を得る。より詳細に、ラベル無しデータ評価部１３２は、ラベル無しデータごとに損失と係数とを乗算することに基づいて、ラベル無しデータに対応する評価結果を得る。

一例として、ラベル無しデータをｘ^ｕとし、重みパラメータ１２１をθとし、係数生成部１３１によって算出された係数をｔとすると、ラベル無しデータに対応する評価結果ｌ_ｕは、以下の式（４）に示すように、ラベル無しデータごとの損失と係数との乗算結果のミニバッチにおける合計によって算出され得る。

ラベル無しデータ評価部１３２は、ラベル無しデータに対応する評価結果を更新部１３４に出力する。

（ラベル有りデータ評価部１３３）
ラベル有りデータ評価部１３３は、ミニバッチに含まれるラベル有りデータごとに、ラベル有りデータに対応する教師ラベルに基づいて、ラベル有りデータを評価してラベル有りデータごとの評価結果を得る。より詳細に、ラベル有りデータ評価部１３３は、ラベル有りデータに対応する教師ラベルとラベル有りデータとに基づいて損失を算出し、ラベル有りデータごとの損失に基づいて、ラベル有りデータに対応する評価結果を得る。

まず、ラベル有りデータ評価部１３３は、ラベル有りデータごとに、ラベル有りデータに対応する教師ラベルに基づいてラベル有りデータを評価して損失を算出する。

ここで、損失関数は特定の関数に限定されず、一般的なニューラルネットワークにおいて用いられる損失関数と同様の損失関数が用いられてよい。例えば、損失関数は、ラベル有りデータに対応する教師ラベルとラベル有りデータとの差分に基づく平均二乗誤差であってもよいし、ラベル有りデータに対応する教師ラベルとラベル有りデータとの差分に基づく交差エントロピー誤差であってもよい。

次に、ラベル有りデータ評価部１３３は、ラベル有りデータごとの損失に基づいて、ラベル有りデータに対応する評価結果を得る。より詳細に、ラベル有りデータ評価部１３３は、ラベル有りデータごとの損失のミニバッチにおける合計によって、ラベル有りデータに対応する評価結果を得る。

一例として、ラベル有りデータをｘ^ｔとし、ラベル有りデータに対応する教師ラベルをｘ^ｔとし、重みパラメータ１２１をθとすると、ラベル有りデータに対応する評価結果ｌ_ｓは、以下の式（５）に示すように表現され得る。

ラベル有りデータ評価部１３３は、ラベル有りデータに対応する評価結果を更新部１３４に出力する。

（更新部１３４）
更新部１３４は、ラベル無しデータ評価部１３２から出力されたラベル無しデータに対応する評価結果とラベル有りデータ評価部１３３から出力されたラベル有りデータに対応する評価結果とに基づいて、重みパラメータ１２１の更新を行う。これによって、ラベル無しデータに対応する推定ラベルがラベル無しデータに対応する疑似的な教師ラベルに近づくように、かつ、ラベル有りデータがラベル有りデータに対応する教師ラベルに近づくように、重みパラメータ１２１が訓練され得る。

例えば、更新部１３４は、ラベル有りデータに対応する評価結果とラベル無しデータに対応する評価結果との重み付き和（以下、単に「重み付き和」とも言う。）に基づいて、重みパラメータ１２１の更新を行ってよい。より詳細に、更新部１３４は、ラベル有りデータに対応する評価結果とラベル無しデータに対応する評価結果との重み付き和に基づく誤差逆伝播法（バックプロパゲーション）によって重みパラメータ１２１を更新してよい。

重み付き和は、どのように表現されてもよい。一例として、式（５）に示されたように、ラベル有りデータに対応する評価結果をｌ_ｓとし、式（４）に示されたように、ラベル無しデータに対応する評価結果をｌ_ｕとし、重み付き和を取るためのハイパーパラメータをλとすると、重み付き和Ｌは、以下の式（６）に示すように表現され得る。

なお、更新部１３４は、重みパラメータ１２１の更新が終わるたびに、学習の終了条件が満たされたか否かを判断する。学習の終了条件が満たされていないと判断された場合には、入力部１１１によって次の入力データ（ラベル有りデータおよび教師ラベルの組み合わせ、および、ラベル無しデータ）が取得され、推測部１２２、係数生成部１３１、ラベル無しデータ評価部１３２、ラベル有りデータ評価部１３３および更新部１３４それぞれによって、当該次の入力データに基づく各自の処理が再度実行される。一方、学習の終了条件が満たされたと判断された場合には、学習が終了される。

なお、学習の終了条件は特に限定されず、ニューラルネットワーク１２０の学習がある程度行われたことを示す条件であればよい。具体的に、学習の終了件は、当該重み付き和の値が閾値よりも小さいという条件を含んでもよい。あるいは、学習の終了条件は、当該重み付き和の値の変化が閾値よりも小さいという条件（当該重み付き和の値が収束状態になったという条件）を含んでもよい。あるいは、学習の終了条件は、重みパラメータ１２１の更新が所定の回数行われたという条件を含んでもよい。あるいは、ニューラルネットワーク１２０の精度（例えば、正解率など）が算出される場合、学習の終了条件は、精度が所定の割合（例えば、９０％など）を超えるという条件を含んでもよい。

以上、本発明の第１の実施形態に係る学習装置の構成例について説明した。

（学習段階の動作）
続いて、図２を参照しながら、本発明の第１の実施形態に係る学習装置１０によって実行される「学習段階」の動作の流れについて説明する。図２は、本発明の第１の実施形態に係る学習装置１０によって実行される学習段階の動作例を示すフローチャートである。

まず、入力部１１１は、ラベル無しデータセット１０１からバッチサイズのラベル無しデータを取得することによってミニバッチを作成し、作成したミニバッチをニューラルネットワーク１２０の推測部１２２に出力する（Ｓ１０１）。

続いて、推測部１２２は、入力部１１１によって作成されたミニバッチに含まれるラベル無しデータとニューラルネットワーク１２０とに基づいてラベル無しデータに対応する推論結果を得る（Ｓ１０２）。推測部１２２は、ラベル無しデータに対応する推論結果を係数生成部１３１に出力する。

このとき、推測部１２２は、ラベル無しデータに対応する推論結果として、２種類のラベルを係数生成部１３１に出力し得る。例えば、推測部１２２は、２種類のラベルのうち、一方をラベル無しデータに対応する擬似的な教師ラベルとし、他方をラベル無しデータに対応する推定ラベルとして係数生成部１３１に出力する。

係数生成部１３１は、推測部１２２から出力されたラベル無しデータに対応する推論結果に基づいて、ラベル無しデータの影響度を示す係数を算出する（Ｓ１０３）。より詳細に、係数生成部１３１は、ミニバッチに含まれるラベル無しデータごとに推論値に基づく予測クラスを特定する。一例として、係数生成部１３１は、ミニバッチに含まれるラベル無しデータごとに推論値が最大となるクラスを予測クラスとして特定してもよい。例えば、予測クラスの特定に用いられる推論値としては、２種類のラベルのいずれが用いられてもよいが、疑似的な教師ラベルが用いられるのが望ましい。

そして、係数生成部１３１は、予測クラスに対応するラベル無しデータの数を予測クラスの度数として算出する。係数生成部１３１は、ミニバッチに含まれるラベル無しデータごとに、予測クラスの度数に基づいて係数を算出する。一例として、係数生成部１３１は、ミニバッチに含まれるラベル無しデータごとに予測クラスの度数に対して負の相関を有する数を係数として算出するのが望ましい。これによって、度数が小さい予測クラスに対応するラベル無しデータほど、影響度が高く扱われるようになる。

ラベル無しデータ評価部１３２は、ミニバッチに含まれるラベル無しデータごとの推論結果および係数に基づいて、ラベル無しデータに対応する評価結果を得る（Ｓ１０４）。より詳細に、ラベル無しデータ評価部１３２は、ミニバッチに含まれるラベル無しデータごとに、推論結果に基づいて損失を算出し、ラベル無しデータごとの損失および係数に基づいて、ラベル無しデータに対応する評価結果を得る。ラベル無しデータ評価部１３２は、ラベル無しデータに対応する評価結果を更新部１３４に出力する。

続いて、入力部１１１は、ラベル付きデータセット１０２からバッチサイズのラベル付きデータを教師ラベルとラベル有りデータとの組み合わせとして取得することによってミニバッチを作成し、作成したミニバッチをニューラルネットワーク１２０の推測部１２２に出力する（Ｓ１０５）。

続いて、推測部１２２は、入力部１１１によって作成されたミニバッチに含まれるラベル有りデータとニューラルネットワーク１２０とに基づいてラベル有りデータに対応する推論結果を得る（Ｓ１０６）。推測部１２２は、ラベル有りデータに対応する推論結果をラベル有りデータ評価部１３３に出力する。

ラベル有りデータ評価部１３３は、ミニバッチに含まれるラベル有りデータごとに、ラベル有りデータに対応する教師ラベルに基づいて、ラベル有りデータを評価してラベル有りデータごとの評価結果を得る（Ｓ１０７）。より詳細に、ラベル有りデータ評価部１３３は、ラベル有りデータに対応する教師ラベルとラベル有りデータとに基づいて損失を算出し、ラベル有りデータごとの損失に基づいて、ラベル有りデータに対応する評価結果を得る。ラベル有りデータ評価部１３３は、ラベル有りデータに対応する評価結果を更新部１３４に出力する。

更新部１３４は、ラベル無しデータ評価部１３２から出力されたラベル無しデータに対応する評価結果とラベル有りデータ評価部１３３から出力されたラベル有りデータに対応する評価結果とに基づいて、重みパラメータ１２１の更新を行う（Ｓ１０８）。これによって、ラベル無しデータに対応する推定ラベルがラベル無しデータに対応する疑似的な教師ラベルに近づくように、かつ、ラベル有りデータがラベル有りデータに対応する教師ラベルに近づくように、重みパラメータ１２１が訓練され得る。

例えば、更新部１３４は、ラベル有りデータに対応する評価結果とラベル無しデータに対応する評価結果との重み付き和に基づいて、重みパラメータ１２１の更新を行ってよい。より詳細に、更新部１３４は、ラベル有りデータに対応する評価結果とラベル無しデータに対応する評価結果との重み付き和に基づく誤差逆伝播法（バックプロパゲーション）によって重みパラメータ１２１を更新してよい。

更新部１３４は、重みパラメータ１２１の更新が終わるたびに、学習の終了条件が満たされたか否かを判断する（Ｓ１０９）。学習の終了条件が満たされていないと判断された場合には（Ｓ１０９において「ＮＯ」）、Ｓ１０１に動作が移行され、入力部１１１によって次の入力データが取得され、推測部１２２、係数生成部１３１、ラベル無しデータ評価部１３２、ラベル有りデータ評価部１３３および更新部１３４それぞれによって、当該次の入力データに基づく各自の処理が再度実行される。一方、学習の終了条件が満たされたと判断された場合には、学習が終了される。

以上、本発明の第１の実施形態に係る学習装置１０によって実行される「学習段階」の動作の流れについて説明した。

（第１の実施形態のまとめ）
以上に説明したように、本発明の第１の実施形態によれば、ラベル無しデータに対応する推論結果に基づいて、ラベル無しデータごとの擬似的な予測クラスが特定される。そして、疑似的な予測クラスに基づいて損失に影響する度合いがラベル無しデータごとに自動的に決定される。

これによって、学習段階（特に学習初期段階）において発生し得る現象（すなわち、推論結果が特定のクラスに集中してしまう現象）に対して、推論結果が集中してしまうクラスの損失への影響度を下げることが可能となる。その結果として、安定した学習が可能となるという効果が享受され得る。

また、本発明の第１の実施形態によれば、半教師あり学習のアルゴリズムに依存せず、ラベル無しデータの損失への影響度が決定され得る。さらに、本発明の第１の実施形態によれば、損失への影響度が比較的小さいラベル無しデータが存在する場合であっても、その影響度が係数として学習に用いられるため、閾値などを利用した人手によるデータ選別作業を不要としつつ、安定した学習が可能になる。

以上、本発明の第１の実施形態について説明した。

（２．第２の実施形態）
続いて、本発明の第２の実施形態について説明する。本発明の第２の実施形態においても、学習装置によって半教師あり学習が行われる。

図１に示されるように、本発明の第２の実施形態に係る学習装置１０は、本発明の第１の実施形態に係る学習装置１０と同様に、入力部１１１と、推測部１２２と、係数生成部１３１と、ラベル無しデータ評価部１３２と、ラベル有りデータ評価部１３３と、更新部１３４とを備える。

本発明の第２の実施形態に係る学習装置１０は、本発明の第１の実施形態に係る学習装置１０と比較して、係数生成部１３１の機能が主に異なる。したがって、以下では、係数生成部１３１の機能について主に説明を行い、他のブロックの機能についての詳細な説明は省略する。

（係数生成部１３１）
係数生成部１３１は、推測部１２２から出力されたラベル無しデータに対応する推論結果に基づいて、ラベル無しデータの影響度を示す係数を算出する。より詳細に、係数生成部１３１は、ミニバッチに含まれるラベル無しデータごとに推論値が最大となる第１のクラスを特定する。そして、係数生成部１３１は、第１のクラスの推論値と第１のクラスとは異なる１または複数のクラスの推論値とに基づく差分を算出する。例えば、差分の算出に用いられる推論値としては、２種類のラベルのいずれが用いられてもよいが、疑似的な教師ラベルが用いられるのが望ましい。係数生成部１３１は、ラベル無しデータごとに差分に基づいて係数を算出する。

一例として、係数生成部１３１は、推論値が２番目に大きい第２のクラスを特定してもよい。このとき、係数生成部１３１は、ラベル無しデータごとに第１のクラスの推論値と第２のクラスの推論値との差分を算出してもよい。例えば、ニューラルネットワーク１２０がＮクラスへの分類問題を解く場合には（すなわち、ラベル無しデータに対応する推論結果がＮクラス分の推論値を含む場合には）、差分ｄ_ｉは、以下の式（７）のように表現され得る。

式（７）において、ｖは、ラベル無しデータに対応する推論結果を示し、各クラスに対応する推論値の集合を示す。ａｒｇｍａｘは、引数として渡された推論値に対応するクラス番号を出力値として返却する関数である。

なお、第１のクラスの推論値と第１のクラスとは異なる１または複数のクラスの推論値とに基づく差分を算出する手法は限定されない。例えば、係数生成部１３１は、ラベル無しデータごとに第１のクラスの推論値と第１のクラスとは異なる複数のクラスの推論値の平均値との差分を算出してもよい。このとき、平均値を取る関数をａｖｅとすると、差分ｄ_ｉは、以下の式（８）のように表現され得る。

係数生成部１３１は、ミニバッチに含まれるラベル無しデータごとに、差分ｄに基づいて係数ｔを算出する。一例として、係数生成部１３１は、ミニバッチに含まれるラベル無しデータごとに差分ｄに対して正の相関を有する数を係数ｔとして算出するのが望ましい。これによって、大きい差分に対応するラベル無しデータほど、影響度が高く扱われるようになる。

例えば、入力値に対して正の相関を示す出力値を返却する関数をｇとすると、入力値に対して正の相関を示す出力値を返却する関数ｇは、以下の式（９）のように表現され得る。

例えば、入力値に対して正の相関を示す出力値を返却する関数ｇの例として、以下の式（１０）が挙げられる。

以上、本発明の第２の実施形態に係る学習装置の構成例について説明した。

（学習段階の動作）
続いて、図２を参照しながら、本発明の第２の実施形態に係る学習装置１０によって実行される「学習段階」の動作の流れについて説明する。本発明の第２の実施形態に係る学習装置１０によって実行される「学習段階」の動作は、本発明の第１の実施形態に係る学習装置１０によって実行される「学習段階」の動作と比較して、係数生成部１３１の動作が主に異なる。したがって、以下では、係数生成部１３１の動作について主に説明を行い、他の動作についての詳細な説明は省略する。

本発明の第２の実施形態においても、本発明の第１の実施形態と同様に、Ｓ１０１～Ｓ１０２が実行される。続いて、係数生成部１３１は、推測部１２２から出力されたラベル無しデータに対応する推論結果に基づいて、ラベル無しデータの影響度を示す係数を算出する（Ｓ１０３）。

より詳細に、係数生成部１３１は、ミニバッチに含まれるラベル無しデータごとに推論値が最大となる第１のクラスを特定する。そして、係数生成部１３１は、第１のクラスの推論値と第１のクラスとは異なる１または複数のクラスの推論値とに基づく差分を算出する。例えば、差分の算出に用いられる推論値としては、２種類のラベルのいずれが用いられてもよいが、疑似的な教師ラベルが用いられるのが望ましい。係数生成部１３１は、ラベル無しデータごとに差分に基づいて係数を算出する。

一例として、係数生成部１３１は、推論値が２番目に大きい第２のクラスを特定してもよい。このとき、係数生成部１３１は、ラベル無しデータごとに第１のクラスの推論値と第２のクラスの推論値との差分を算出してもよい。あるいは、係数生成部１３１は、ラベル無しデータごとに第１のクラスの推論値と第１のクラスとは異なる複数のクラスの推論値の平均値との差分を算出してもよい。

係数生成部１３１は、ミニバッチに含まれるラベル無しデータごとに、差分に基づいて係数を算出する。一例として、係数生成部１３１は、ミニバッチに含まれるラベル無しデータごとに差分に対して正の相関を有する数を係数として算出するのが望ましい。これによって、大きい差分に対応するラベル無しデータほど、影響度が高く扱われるようになる。

本発明の第２の実施形態においても、本発明の第１の実施形態と同様に、Ｓ１０４～Ｓ１０９が実行される。

以上、本発明の第２の実施形態に係る学習装置１０によって実行される「学習段階」の動作の流れについて説明した。

（第２の実施形態のまとめ）
以上に説明したように、本発明の第２の実施形態によれば、ラベル無しデータに対応する推論結果に基づいて、ラベル無しデータごとに推論値が最大となる第１のクラスの推論値と第１のクラスとは異なる１または複数のクラスの推論値とに基づく差分が算出される。そして、差分に基づいて損失に影響する度合いがラベル無しデータごとに自動的に決定される。

これによって、本発明の第１の実施形態と同様の効果が享受され得る。さらに、本発明の第２の実施形態によれば、バッチサイズが比較的小さい場合であっても、損失に影響する度合いが高精度に決定され得る。そのため、本発明の第２の実施形態によれば、バッチサイズが比較的小さい場合であっても、安定した学習が可能になる。

以上、本発明の第２の実施形態について説明した。

（３．ハードウェア構成例）
続いて、本発明の第１の実施形態に係る学習装置１０のハードウェア構成例について説明する。なお、本発明の第２の実施形態に係る学習装置１０のハードウェア構成も、本発明の第１の実施形態に係る学習装置１０のハードウェア構成と同様に実現され得る。

以下では、本発明の第１の実施形態に係る学習装置１０のハードウェア構成例として、情報処理装置９００のハードウェア構成例について説明する。なお、以下に説明する情報処理装置９００のハードウェア構成例は、学習装置１０のハードウェア構成の一例に過ぎない。したがって、学習装置１０のハードウェア構成は、以下に説明する情報処理装置９００のハードウェア構成から不要な構成が削除されてもよいし、新たな構成が追加されてもよい。

図３は、本発明の第１の実施形態に係る学習装置１０の例としての情報処理装置９００のハードウェア構成を示す図である。情報処理装置９００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３と、ホストバス９０４と、ブリッジ９０５と、外部バス９０６と、インタフェース９０７と、入力装置９０８と、出力装置９０９と、ストレージ装置９１０と、通信装置９１１と、を備える。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置９００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはＣＰＵバス等から構成されるホストバス９０４により相互に接続されている。

ホストバス９０４は、ブリッジ９０５を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バス等の外部バス９０６に接続されている。なお、必ずしもホストバス９０４、ブリッジ９０５および外部バス９０６を分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

入力装置９０８は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバー等ユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路等から構成されている。情報処理装置９００を操作するユーザは、この入力装置９０８を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。

出力装置９０９は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ）装置、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置、ランプ等の表示装置およびスピーカ等の音声出力装置を含む。

ストレージ装置９１０は、データ格納用の装置である。ストレージ装置９１０は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含んでもよい。ストレージ装置９１０は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）で構成される。このストレージ装置９１０は、ハードディスクを駆動し、ＣＰＵ９０１が実行するプログラムや各種データを格納する。

通信装置９１１は、例えば、ネットワークに接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置９１１は、無線通信または有線通信のどちらに対応してもよい。

以上、本発明の第１の実施形態に係る学習装置１０のハードウェア構成例について説明した。

（４．まとめ）
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

本発明の第１の実施形態および本発明の第２の実施形態では、学習用データが画像データである場合（特に、静止画像データである場合）について主に説明した。しかし、学習用データの種類は特に限定されない。例えば、学習用データの種類に合わせた特徴量が抽出されれば、静止画像データ以外も学習用データとして用いられ得る。例えば、学習用データは、複数のフレームを含んだ動画像データであってもよいし、音声データであってもよい。

このとき、学習用データが静止画像データである場合には、推測部１２２に含まれる畳み込み層として２次元畳み込み層が用いられるのが一般的である。一方、推測部１２２に含まれる畳み込み層として３次元畳み込み層が用いられれば、学習用データとして動画像データが適用され得る。

本発明の第１の実施形態では、入力値に対して負の相関を示す出力値を返却する関数ｆの例として、以下の式（３）を挙げて説明した。しかし、入力値に対して負の相関を示す出力値を返却する関数ｆは、かかる例に限定されない。例えば、入力値に対して負の相関を示す出力値を返却する関数ｆの例として、以下の式（３－Ａ）および式（３－Ｂ）なども挙げられる。

本発明の第２の実施形態では、入力値に対して正の相関を示す出力値を返却する関数ｇの例として、以下の式（９）を挙げて説明した。しかし、入力値に対して正の相関を示す出力値を返却する関数ｇは、かかる例に限定されない。例えば、入力値に対して正の相関を示す出力値を返却する関数ｇの例として、以下の式（９－Ａ）および式（９－Ｂ）なども挙げられる。

１０学習装置
１０１ラベル無しデータセット
１０２ラベル付きデータセット
１１１入力部
１２０ニューラルネットワーク
１２１重みパラメータ
１２２推測部
１３１係数生成部
１３２ラベル無しデータ評価部
１３３ラベル有りデータ評価部
１３４更新部

Claims

ラベル無しデータを取得するとともに、教師ラベルが付されたラベル有りデータを取得する入力部と、
前記ラベル無しデータと前記ラベル有りデータとニューラルネットワークとに基づいて、前記ラベル無しデータに対応する推論結果と前記ラベル有りデータに対応する推論結果とを出力する推測部と、
前記ラベル無しデータに対応する推論結果に基づいて、前記ラベル無しデータの影響度を示す係数を算出する係数生成部と、
前記ラベル無しデータに対応する推論結果と前記係数とに基づいて、前記ラベル無しデータに対応する評価結果を出力するラベル無しデータ評価部と、
前記ラベル有りデータに対応する推論結果と前記教師ラベルとに基づいて、前記ラベル有りデータに対応する評価結果を出力するラベル有りデータ評価部と、
前記ラベル無しデータに対応する評価結果と、前記ラベル有りデータに対応する評価結果とに基づいて、前記ニューラルネットワークの重みパラメータを更新する更新部と、
を備える、情報処理装置。
前記ラベル無しデータに対応する推論結果は、クラスごとの推論値を含み、
前記係数生成部は、ラベル無しデータごとに推論値が最大となる第１のクラスの推論値と前記第１のクラスとは異なる１または複数のクラスの推論値とに基づく差分を算出し、前記ラベル無しデータごとに前記差分に基づいて前記係数を算出する、
請求項１に記載の情報処理装置。
前記係数生成部は、前記ラベル無しデータごとに前記第１のクラスの推論値と推論値が２番目に大きい第２のクラスの推論値との差分を算出する、
請求項２に記載の情報処理装置。
前記係数生成部は、前記ラベル無しデータごとに前記第１のクラスの推論値と前記第１のクラスとは異なる複数のクラスの推論値の平均値との差分を算出する、
請求項２に記載の情報処理装置。
前記係数生成部は、前記ラベル無しデータごとに前記差分に対して正の相関を有する数を前記係数として算出する、
請求項２～４のいずれか一項に記載の情報処理装置。
前記ラベル無しデータに対応する推論結果は、クラスごとの推論値を含み、
前記係数生成部は、ラベル無しデータごとに推論値に基づく予測クラスを特定し、前記予測クラスに対応するラベル無しデータの数を前記予測クラスの度数として算出し、前記ラベル無しデータごとに前記予測クラスの度数に基づいて前記係数を算出する、
請求項１に記載の情報処理装置。
前記係数生成部は、前記ラベル無しデータごとに前記推論値が最大となるクラスを予測クラスとして特定する、
請求項２に記載の情報処理装置。
前記係数生成部は、前記ラベル無しデータごとに前記予測クラスの度数に対して負の相関を有する数を前記係数として算出する、
請求項６または７に記載の情報処理装置。
前記ラベル無しデータ評価部は、前記ラベル無しデータに対応する推論結果に基づく損失と前記係数とを乗算することに基づいて、前記ラベル無しデータに対応する評価結果を出力する、
請求項２～８のいずれか一項に記載の情報処理装置。
ラベル無しデータを取得するとともに、教師ラベルが付されたラベル有りデータを取得することと、
前記ラベル無しデータと前記ラベル有りデータとニューラルネットワークとに基づいて、前記ラベル無しデータに対応する推論結果と前記ラベル有りデータに対応する推論結果とを出力することと、
前記ラベル無しデータに対応する推論結果に基づいて、前記ラベル無しデータの影響度を示す係数を算出することと、
前記ラベル無しデータに対応する推論結果と前記係数とに基づいて、前記ラベル無しデータに対応する評価結果を出力することと、
前記ラベル有りデータに対応する推論結果と前記教師ラベルとに基づいて、前記ラベル有りデータに対応する評価結果を出力することと、
前記ラベル無しデータに対応する評価結果と、前記ラベル有りデータに対応する評価結果とに基づいて、前記ニューラルネットワークの重みパラメータを更新することと、
を備える、情報処理方法。
コンピュータを、
ラベル無しデータを取得するとともに、教師ラベルが付されたラベル有りデータを取得する入力部と、
前記ラベル無しデータと前記ラベル有りデータとニューラルネットワークとに基づいて、前記ラベル無しデータに対応する推論結果と前記ラベル有りデータに対応する推論結果とを出力する推測部と、
前記ラベル無しデータに対応する推論結果に基づいて、前記ラベル無しデータの影響度を示す係数を算出する係数生成部と、
前記ラベル無しデータに対応する推論結果と前記係数とに基づいて、前記ラベル無しデータに対応する評価結果を出力するラベル無しデータ評価部と、
前記ラベル有りデータに対応する推論結果と前記教師ラベルとに基づいて、前記ラベル有りデータに対応する評価結果を出力するラベル有りデータ評価部と、
前記ラベル無しデータに対応する評価結果と、前記ラベル有りデータに対応する評価結果とに基づいて、前記ニューラルネットワークの重みパラメータを更新する更新部と、
を備える情報処理装置として機能させるプログラム。