JP7221892B2

JP7221892B2 - 学習装置、学習方法、および学習プログラム

Info

Publication number: JP7221892B2
Application number: JP2020021893A
Authority: JP
Inventors: 亜玲陶; 健太郎高木; 康太中田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2020-02-12
Filing date: 2020-02-12
Publication date: 2023-02-14
Anticipated expiration: 2040-02-12
Also published as: US20210248426A1; JP2021128474A; US12033370B2

Description

本発明の実施の形態は、学習装置、学習方法、および学習プログラムに関する。

画像、音声、時系列信号などの複雑なデータを低次元の特徴量ベクトルで表現する表現学習の方法として、教師データを用いない学習方法が開示されている。例えば、検索対象の複数のデータの各々が別々のクラスに属すると仮定し、これらの複数のデータの分類精度が高くなるように、ネットワークパラメータの学習を行う方法が提案されている。そして、学習されたネットワークの隠れ層の出力である特徴量を、近傍法による自然画像の検索に適用する技術が開示されている。

しかし、従来技術は、データをグループ化するクラスタリングを目的とした場合には必ずしも好適な学習ができず、クラスタリング精度が低下する場合があった。

ＷＵ，Ｚｈｉｒｏｎｇ，ｅｔａｌ．Ｕｎｓｕｐｅｒｖｉｓｅｄｆｅａｔｕｒｅｌｅａｒｎｉｎｇｖｉａｎｏｎ－ｐａｒａｍｅｔｒｉｃｉｎｓｔａｎｃｅｄｉｓｃｒｉｍｉｎａｔｉｏｎ．Ｉｎ：ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．２０１８．ｐ．３７３３－３７４２．

本発明は、上記に鑑みてなされたものであって、クラスタリング精度向上を図ることができる、学習装置、学習方法、および学習プログラムを提供することを目的とする。

実施の形態の学習装置は、潜在ベクトル算出部と、第１確率算出部と、第１損失算出部と、第２損失算出部と、更新部と、を備える。潜在ベクトル算出部は、対象データから前記対象データの潜在空間上の特徴を示す潜在ベクトルを出力する学習モデルのパラメータを用いて、分類対象の前記対象データである複数の第１対象データの各々の前記潜在ベクトルを算出する。第１確率算出部は、複数の前記第１対象データが互いに異なる仮想クラスに属すると仮定し、複数の前記第１対象データの各々ごとに、複数の前記仮想クラスの各々に属する第１確率を算出する。第１損失算出部は、複数の前記第１対象データの各々ごとに、前記第１確率の第１損失を算出する。第２損失算出部は、複数の前記第１対象データの各々に含まれる複数の要素の各々が属する要素クラスの各々ごとに、他の前記要素クラスとの関係性が低いほど低い第２損失を算出する。更新部は、前記第１損失および前記第２損失が低くなるように前記パラメータを更新する。

学習装置のブロック図。潜在ベクトル算出の模式図。潜在ベクトル算出の説明図。潜在ベクトル算出の説明図。第１確率算出の説明図。第２損失算出の説明図。クラスタリングの説明図。第２対象データの分類の説明図。学習処理の流れを示すフローチャート。分類処理の流れを示すフローチャート。分類統計値を用いた第２対象データＸＢの分類処理の流れを示すフローチャート。第２対象データの分類処理の流れを示すフローチャート。第２対象データの検索処理の流れを示すフローチャート。分類精度のシミュレーション結果を示す図。従来の対象データの分布を示す模式図。対象データの分布を示す模式図。ハードウェア構成図。

以下に添付図面を参照して、学習装置、学習方法、および学習プログラムの実施形態を詳細に説明する。

図１は、本実施の形態の学習装置１０の一例を示すブロック図である。

学習装置１０は、記憶部２０Ａと、取得部２０Ｂと、潜在ベクトル算出部２０Ｃと、第１確率算出部２０Ｄと、第１損失算出部２０Ｅと、第２損失算出部２０Ｆと、更新部２０Ｇと、分類部２０Ｈと、出力制御部２０Ｉと、を備える。

取得部２０Ｂ、潜在ベクトル算出部２０Ｃ、第１確率算出部２０Ｄ、第１損失算出部２０Ｅ、第２損失算出部２０Ｆ、更新部２０Ｇ、分類部２０Ｈ、および出力制御部２０Ｉは、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣなどのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

記憶部２０Ａは、各種のデータを記憶する。記憶部２０Ａは、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、フラッシュメモリ等の半導体メモリ素子、ハードディスク、光ディスク等である。なお、記憶部２０Ａは、学習装置１０の外部に設けられた記憶装置であってもよい。また、記憶部２０Ａは、記憶媒体であってもよい。具体的には、記憶媒体は、プログラムや各種情報を、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）またはインターネットなどを介してダウンロードして記憶または一時記憶したものであってもよい。また、記憶部２０Ａを、複数の記憶媒体から構成してもよい。

本実施形態では、記憶部２０Ａは、学習モデルのパラメータを記憶する。

学習モデルは、対象データから対象データの潜在ベクトルを出力するための機械学習モデルである。学習モデルは、例えば、畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）などであるが、これに限定されない。

対象データが画像データである場合、学習モデルには、例えば、画像データに対する機械学習モデルを用いる。この場合、学習装置１０では、例えば、「ＨＥ，Ｋａｉｍｉｎｇ，ｅｔａｌ．Ｄｅｅｐｒｅｓｉｄｕａｌｌｅａｒｎｉｎｇｆｏｒｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎ．Ｉｎ：ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥｃｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎａｎｄｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ．２０１６．ｐ．７７０－７７８．」に記載の、ＤｅｅｐＲｅｓｉｄｕａｌＬｅａｒｎｉｎｇ（ＲｅｓＮｅｔ）などのディープラーニングの技術により、学習モデルを構築する。

本実施形態では、学習モデルには、ＲｅｓＮｅｔを用いる場合を一例として説明する。

学習モデルのパラメータは、例えば、学習モデルがＣＮＮである場合、重みｗやバイアスｂを含む。パラメータは、後述する処理によって更新される。

対象データとは、分類対象のデータである。分類対象のデータとは、学習装置１０で分類する対象のデータである。対象データは、例えば、画像データである。具体的には、例えば、対象データは、被写体の画像データなどである。また、対象データは、被写体の背景が多様かつ高次元であり、対象データ間の距離や類似度の算出が困難な画像データであってもよい。なお、対象データは、実験結果を示す実験データ、解析結果を示す解析データ、検査結果を示す検査結果データなどであってもよく、画像データに限定されない。

対象データは、複数の事例を含む。本実施形態では、対象データが、Ｎ個の事例を含む形態を一例として説明する。対象データが画像データである場合、１事例は１枚の画像となる。Ｎは、２以上の整数である。

対象データに含まれる事例の各々は、各々の事例の特徴を表す特徴量ｘ＿ｉの特徴量情報を含む。ｉは、事例の識別情報である。各事例の特徴量は、ｄ次元の特徴量である。ｄは、２以上の整数である。

潜在ベクトルとは、対象データの潜在空間上の特徴を示す。潜在ベクトルは、対象データに含まれるｄ’次元の複数の事例の各々の特徴量によって表される。ｄ’次元は、ｄ次元より少ない次元数である。すなわち、潜在ベクトルは、ｄ次元の特徴量を示す対象データを、より低次元であるｄ’次元の特徴量ベクトルで表したものである。潜在空間とは、対象データの潜在ベクトルをマッピングするための仮想空間である。

学習装置１０では、１つの対象データを学習モデル入力することで、該対象データに対応する１つの潜在ベクトルを出力する。

本実施形態の学習装置１０では、取得部２０Ｂ、潜在ベクトル算出部２０Ｃ、第１確率算出部２０Ｄ、第１損失算出部２０Ｅ、第２損失算出部２０Ｆ、および更新部２０Ｇによる後述する処理によって、学習モデルのパラメータを学習する。

取得部２０Ｂは、第１対象データまたは第２対象データを取得する。第１対象データは、対象データの一例である。第１対象データは、分類対象の対象データであり、パラメータの学習に用いる対象データである。第２対象データは、対象データの一例である。第２対象データは、分類対象のデータであり、パラメータの学習時に用いる第１対象データ以外の対象データである。以下、第１対象データおよび第２対象データを総称して説明する場合には、単に、対象データと称して説明する。

本実施形態では、取得部２０Ｂは、複数の第１対象データを取得する。取得部２０Ｂは、記憶部２０Ａから複数の第１対象データを取得してもよいし、ネットワークなどを介して外部装置から複数の第１対象データを取得してもよい。本実施形態では、記憶部２０Ａは、予め複数の第１対象データを記憶しているものとする。そして、取得部２０Ｂは、記憶部２０Ａから複数の第１対象データを取得する形態を、一例として説明する。

潜在ベクトル算出部２０Ｃは、記憶部２０Ａに記憶されているパラメータを用いて、複数の第１対象データの各々の潜在ベクトルを算出する。

図２は、潜在ベクトルＶの算出の一例を示す模式図である。潜在ベクトル算出部２０Ｃは、学習モデル３０のパラメータを記憶部２０Ａから取得する。そして、潜在ベクトル算出部２０Ｃは、取得したパラメータを用いた学習モデル３０に、ｄ次元の対象データＸを入力する（ステップＳ１）。そして、潜在ベクトル算出部２０Ｃは、該学習モデル３０から出力された、ｄ’次元の潜在ベクトルＶを取得することで、潜在ベクトルＶを算出する（ステップＳ２）。

潜在ベクトル算出部２０Ｃは、複数の第１対象データＸＡの各々について、該学習モデル３０を用いて潜在ベクトルＶを算出する。このため、潜在ベクトル算出部２０Ｃは、複数の第１対象データＸＡの各々に対応する、複数の潜在ベクトルＶを算出する。

図３Ａおよび図３Ｂは、潜在ベクトルＶの算出の説明図である。

例えば、図３Ａに示すように、取得部２０Ｂが、第１対象データＸＡ１～第１対象データＸＡ４の複数の第１対象データＸＡを取得した場合を想定して説明する。第１対象データＸＡ１～第１対象データＸＡ４は、第１対象データＸＡの一例である。なお、取得部２０Ｂが取得する第１対象データＸＡの数は、２以上であればよく、４つに限定されない。

図３Ｂに示すように、潜在ベクトル算出部２０Ｃは、複数の要素Ｅを含む第１対象データＸＡ（対象データＸＡ１～対象データＸＡ４）の各々について、取得したパラメータを用いた学習モデル３０により、潜在ベクトルＶ（潜在ベクトルＶ１～潜在ベクトルＶ４）を算出する。

図１に戻り説明を続ける。潜在ベクトル算出部２０Ｃは、複数の第１対象データＸＡの各々の潜在ベクトルＶを、第１確率算出部２０Ｄおよび第２損失算出部２０Ｆへ出力する。

第１確率算出部２０Ｄは、複数の第１対象データＸＡが互いに異なる仮想クラスに属すると仮定する。そして、第１確率算出部２０Ｄは、複数の第１対象データＸＡの各々ごとに、複数の仮想クラスの各々に属する第１確率を算出する。

図４は、第１確率の算出の説明図である。例えば、第１確率算出部２０Ｄは、第１対象データＸＡ１～第対象データＸＡ４の各々が、それぞれ異なる仮想クラスＣである仮想クラスＣ１～仮想クラスＣ４に属すると仮定する。そして、第１確率算出部２０Ｄは、第１対象データＸＡ１～第１対象データＸＡ４の各々について、各々の潜在ベクトルＶを用いて、仮想クラスＣ１～仮想クラスＣ４の各々に属する確率である第１確率を算出する。

第１確率算出部２０Ｄは、複数の第１対象データＸＡの各々の潜在ベクトルＶ間の距離および類似度の少なくとも一方を用いて、これらの距離および類似度の少なくとも一方が近い（高い）ほど、高い第１確率を算出する。

具体的には、第１確率算出部２０Ｄは、下記式（２）を用いて、第１確率を算出する。

式（２）中、Ｐ_ｉｊは、ｉ番目の第１対象データＸＡがｊ番目の仮想クラスＣに属する第１確率を意味する。すなわち、ｉは、第１対象データＸＡの識別情報である。ｊは、仮想クラスＣの識別情報である。ｖｉは、ｉ番目の第１対象データＸＡの潜在ベクトルＶを表す。Ｔは、行列の転置を表す。v__ｊは、j番目の第１対象データＸＡの潜在ベクトルＶを表す。

τは、第１確率の差の大小を制御する変数である。本実施形態では、τは、１つの第１対象データＸＡが自身の仮想クラスＣに属する第１確率と、該第１対象データＸＡが該仮想クラスＣ以外の他の仮想クラスＣに属する第１確率と、の差を所定範囲とするための変数である。自身の仮想クラスＣとは、仮想クラスＣの仮想時に、複数の第１対象データＸＡの各々がそれぞれ属すると仮定された仮想クラスＣである。例えば、第１対象データＸＡ１の場合、自身の仮想クラスＣは、仮想クラスＣ１である。

τの値が小さいほど上記差が大きくなり、１つの第１対象データＸＡが自身の仮想クラスＣに属する第１確率の値が大きくなる。一方、τの値が大きいほど上記差が小さくなり、１つの第１対象データＸＡが自身の仮想クラスＣに属する第１確率の値が小さくなり、１つの第１対象データＸＡが複数の仮想クラスＣに属する状態となる。

学習装置１０は、１つの第１対象データＸＡが自身の仮想クラスＣに属する第１確率の値のみが選択的に高くなることを抑制し、且つ、他の仮想クラスＣにも属する可能性を示す第１確率の値が算出されるように、τの値を予め調整すればよい。

τの値は、予め定めればよい。例えば、τの値は、０．１、０．３、または、０．４、などの値であることが好ましい。

そして、上記所定範囲は、１つの第１対象データＸＡが自身の仮想クラスＣに属する第１確率の値のみが選択的に高くなることを抑制し、且つ、他の仮想クラスＣにも属する第１確率の値が算出されるように、予め調整すればよい。

上記差を上記所定範囲とすることで、第１対象データＸＡの自身の仮想クラスＣに選択的に高い第１確率が算出されることが抑制される。すなわち、第１対象データＸＡの自身の仮想クラスＣ以外の他の仮想クラスＣに対しても、属する可能性が有ると識別可能な第１確率が算出されることとなる。

第１損失算出部２０Ｅは、複数の第１対象データＸＡの各々について、仮想クラスＣごとに算出した第１確率を、第１損失算出部２０Ｅへ出力する。

図１に戻り説明を続ける。第１損失算出部２０Ｅは、複数の第１対象データＸＡの各々ごとに、第１確率の第１損失を算出する。詳細には、第１損失算出部２０Ｅは、第１確率を用いて、複数の第１対象データＸＡが各々の属する仮想クラスＣに分類されるほど低くなる、第１損失を算出する。具体的には、第１損失算出部２０Ｅは、複数の第１対象データＸＡの各々について、自身の仮想クラスＣの第１確率が高いほど低く、且つ、該自身の仮想クラスＣ以外の仮想クラスＣの第１確率が低いほど高い、第１損失を算出する。

図４を用いて説明する。例えば、第１損失算出部２０Ｅが、第１対象データＸＡ１について、第１損失を算出する場合を想定する。この場合、第１損失算出部２０Ｅは、第１対象データＸＡ１が、仮想クラスＣ１～仮想クラスＣ４の各々に属する第１確率を用いる。そして、第１損失算出部２０Ｅは、第１対象データＸＡ１が属すると仮定した仮想クラスＣ１の第１確率が高いほど低く、且つ、仮想クラスＣ２～仮想クラスＣ４の第１確率が低いほど低い、第１損失を算出する。この処理により、第１損失算出部２０Ｅは、１つの第１対象データＸＡに対して、１つの第１損失を算出する。

具体的には、第１損失算出部２０Ｅは、下記式（３）を用いて第１損失を算出する。

式（３）中、Ｌ_１は、第１損失を表す。Ｐ_ｉｉは、ｉ番目の第１対象データＸＡが自身の仮想クラスＣに属する確率を表す。式（３）中、ｎは、上述したＮと同じ意味であり、第１対象データＸＡに含まれる事例の数である。

例えば、第１対象データＸＡ１を想定して説明する。この場合、第１対象データＸＡ１が自身の仮想クラスＣ１に属する第１確率が高いほど、低い第１損失が算出される。

図１に戻り説明を続ける。第１損失算出部２０Ｅは、第１対象データＸＡごとに算出した第１損失を、更新部２０Ｇへ出力する。

次に、第２損失算出部２０Ｆについて説明する。

第２損失算出部２０Ｆは、複数の第１対象データＸＡの各々に含まれる複数の要素Ｅの各々が属する要素クラスの各々ごとに、他の要素クラスとの関係性が低いほど低い第２損失を算出する。

図５は、第２損失算出の説明図である。複数の第１対象データＸＡ１～第１対象データＸＡ４の各々に含まれる複数の要素Ｅは、要素Ｅの属する特徴量に応じて、複数の要素クラスＧに分類される。潜在ベクトル算出部２０Ｃにより、各要素クラスＧは、例えば”空の色”や“目の色”など画像の分類に有用な情報を含んでいる。図５には、一例として、４つの要素クラスＧ（要素クラスＧ１～要素クラスＧｄ’（ｄ’＝４の場合）を示した。本実施では、要素クラスＧの数はｄ’次元の数と同じになる。ここで、要素クラスＧｉのベクトルをｆｉで表す。ｆｉは、データ数のＮ次元を持つベクトルである。

第２損失算出部２０Ｆは、複数の要素クラスＧの各々ごとに、他の要素クラスＧとの関係性が低いほど低い、第２損失を算出する。関係性とは、特徴量の類似度および距離および相関の少なくとも一つを表す。関係性が低いとは、特徴量の類似度が小さい、距離が大きい、相関が小さいことの少なくとも一つを意味する。

具体的には、第２損失算出部２０Ｆは、以下の式（４）を用いて、第２損失を算出する。

式（４）中、Ｌ_２は、第２損失を表す。式（４）中、ｆは、対象データＸに含まれる事例の潜在ベクトルを表し、Ｉは潜在ベクトルと同じ行数と列数を持つ単位行列を表す。詳細には、Ｉは、要素クラスＧの数と同じ行数ｄ’と列数ｄ’の単位行列を意味する。

すなわち、第２損失算出部２０Ｆは、複数の第１対象データＸＡの潜在ベクトルＶの行列と、複数の第１対象データＸＡの潜在ベクトルＶの転置行列と、の積（ＶＶ^Ｔ）、と、要素クラスＧと同じ行数および列数を持つ単位行列と、の差の絶対値の二乗を、第２損失として算出する。

ここで、複数の第１対象データＸＡのＶＶ^Ｔは、単位行列に近づく。このため、ある要素クラスＧの要素Ｅの群と他の要素クラスＧの要素Ｅの群とが相関がなく独立しているほど、第２損失の値は小さくなる。相関が無く独立している、とは、関係性が無く独立していることを意味する。要素クラスＧがそれぞれ独立に値をとるとき、潜在ベクトル算出部２０Ｃから出力される要素クラスＧは、それぞれ「空の色」「目の色」といった分類に有用な情報を学習できていると考えられる。

また、第２損失算出部２０Ｆは、以下の式（１）を用いて、第２損失を算出することもできる。

式（１）中、Ｌ_２は第２損失を表し、ｆｉは第１対象データＸＡに含まれるｉ番目の事例の潜在ベクトルから抽出した、要素Ｅごとのベクトルを表す。τは、前記第１確率の差の大小を制御する変数である。式（１）中、ｎは、潜在ベクトルの次元数であり、上述した次元数であるｄ’に相当する。τ’は、式（１）で算出される第２損失の差の大小を制御する変数である。式（１）は、i番目とk番目の第１対象データＸＡにおいて要素クラスＧ間の相関が小さいほど、低い値になる。この第２損失は、要素クラスＧが独立に値をとるようにする効果があり、潜在ベクトル算出部２０Ｃから出力される要素クラスＧは分類に有用な情報を学習できるようになる。

図１へ戻り説明を続ける。第２損失算出部２０Ｆは、複数の要素クラスＧごとに算出した第２損失を、更新部２０Ｇへ出力する。

更新部２０Ｇは、第１損失算出部２０Ｅから第１対象データＸＡの各々の第１損失を受付ける。また、更新部２０Ｇは、第２損失算出部２０Ｆから、要素クラスＧごとの第２損失を受付ける。そして、更新部２０Ｇは、受付けた第１損失および第２損失の双方が、低くなるようにパラメータを更新する。詳細には、更新部２０Ｇは、受付けた第１損失および第２損失の各々が、記憶部２０Ａに現在記憶されているパラメータの学習モデル３０を用いて上記処理により算出される第１損失および第２損失の各々より低くなるように、該パラメータを更新する。

具体的には、更新部２０Ｇは、下記式（５）に示される損失関数がより低くなるように、パラメータを算出する。

式（５）中、Ｌは、損失関数を示す。Ｌ_１は、第１損失を示す。Ｌ_２は、第２損失を示す。ａは、第２損失の重みであり、正の実数である。ａは、対象データＸの種類などに応じて予め定めればよい。本実施形態では、ａ＝１である場合を一例として説明する。

更新部２０Ｇは、上記式（５）を用いて、例えば、ニューラルネットワークの学習に用いられる確率的勾配降下法などを用いることで、パラメータを算出する。

そして、更新部２０Ｇは、算出したパラメータを記憶部２０Ａへ記憶することで、記憶部２０Ａに記憶されているパラメータを、算出したパラメータに更新する。この更新処理により、学習モデル３０のパラメータが更新される。

すなわち、学習装置１０は、上記処理によって、第１損失および第２損失の双方が小さくなるように、学習モデル３０のパラメータを学習する。

さらに、更新部２０Ｇは、学習終了基準を満たすか否かを判断していてもよい。学習終了基準を満たすと判断した場合、学習装置１０では、パラメータの学習を終了すればよい。また、学習終了基準を満たさないと判断した場合、取得部２０Ｂ、潜在ベクトル算出部２０Ｃ、第１確率算出部２０Ｄ、第１損失算出部２０Ｅ、第２損失算出部２０Ｆ、および更新部２０ＧＨが、上記一連の処理を再度実行すればよい。

学習終了基準は、予め定めればよい。学習終了基準は、例えば、予め設定された学習回数、第１損失および第２損失の少なくとも一方の減少率が閾値未満であった回数、などである。

次に、分類部２０Ｈについて説明する。分類部２０Ｈは、教師無しクラスタリングにより、対象データＸを分類する。本実施形態では、分類部２０Ｈは、複数の第１対象データＸＡの各々の潜在ベクトルＶに基づいて、複数の第１対象データＸＡの各々を複数のクラスタに分類する。

詳細には、潜在ベクトル算出部２０Ｃが、更新部２０Ｇによって更新されたパラメータの学習モデル３０を用いて、複数の第１対象データＸＡの各々の潜在ベクトルＶを算出する。以下、更新部２０Ｇによって更新されたパラメータの学習モデル３０を、パラメータを更新された学習モデル３０と称して説明する場合がある。

分類部２０Ｈは、算出された複数の潜在ベクトルＶ間の距離および類似度の少なくとも一方を用いて、複数の第１対象データＸＡの各々を複数のクラスタに分類する。

図６は、分類部２０Ｈによるクラスタリングの一例の説明図である。図６には、潜在空間Ｓに、潜在ベクトルＶに応じて第１対象データＸＡを配置した例を一例として示した。例えば、分類部２０Ｈは、パラメータを更新された学習モデル３０を用いて算出された潜在ベクトルＶを用いて、教師無しクラスタリング方法により、複数の第１対象データＸＡをクラスタリングする。

例えば、教師無クラスタリング方法には、公知のＫｍｅａｎｓ法を用いることができる。Ｋｍｅａｎｓ法では、複数の対象データＸを分類するクラスタＣＬの数Ｋ（Ｋは２以上の整数）を指定することで、初期値としてＫ個のクラスタ中心Ｐを生成する。図６には、クラスタ数“２”を指定した例を一例として示した。すなわち、図６には、クラスタＣＬとして、クラスタＣＬＡおよびクラスタＣＬＢを一例として示した。そして、分類部２０Ｈは、クラスタＣＬＡおよびクラスタＣＬＢの各々のクラスタ中心Ｐを生成する。

本実施形態では、クラスタ中心Ｐと、複数の第１対象データＸＡの潜在ベクトルＶの各々と、の距離を用いて、第１対象データＸＡの各クラスタＣＬへの割り振りと、クラスタ中心Ｐの位置計算と、を繰り返し行う。

これらの処理により、分類部２０Ｈは、複数の第１対象データＸＡを複数のクラスタＣＬへ分類する。

図１に戻り説明を続ける。また、分類部２０Ｈは、パラメータを更新された学習モデル３０を用いて算出された潜在ベクトルＶに基づいて、検索処理を更に実行してもよい。例えば、分類部２０Ｈは、複数の第１対象データＸＡの内の特定の第１対象データＸＡに類似する他の第１対象データＸＡを、潜在ベクトルＶ間の距離および類似度の少なくとも一方を用いて検索してもよい。すなわち、分類部２０Ｈは、パラメータを更新された学習モデル３０を用いて算出された潜在ベクトルＶを用いて、公知の最近傍法により、特定の第１対象データＸＡに類似する他の第１対象データＸＡを検索してもよい。

出力制御部２０Ｉは、分類部２０Ｈによる分類結果および検索結果の少なくとも一方を出力する。例えば、出力制御部２０Ｉは、学習装置１０に電気的に接続された出力装置に、分類結果および検索結果の少なくとも一方を出力する。出力装置は、例えば、ディスプレイ、スピーカ、ネットワークなどを介して接続された外部装置、などである。なお、出力制御部２０Ｉは、分類結果および検索結果の少なくとも一方を、記憶部２０Ａへ記憶してもよい。

なお、分類部２０Ｈは、第２対象データＸＢを分類してもよい。上述したように、第２対象データＸＢは、パラメータの学習時に用いた対象データＸである第１対象データＸＡ以外の他の対象データＸである。

この場合、取得部２０Ｂは、複数の第１対象データＸＡ、および、１または複数の第２対象データＸＢを取得する。潜在ベクトル算出部２０Ｃは、パラメータを更新された学習モデル３０を用いて、複数の第１対象データＸＡ、および１または複数の第２対象データＸＢの各々の潜在ベクトルＶを算出する。

分類部２０Ｈは、パラメータを更新された学習モデル３０を用いて算出された、複数の第１対象データＸＡの各々の潜在ベクトルＶの分類統計値をクラスタＣＬごとに算出する。そして、分類部２０Ｈは、第２対象データＸＢの潜在ベクトルＶと、分類統計値と、に基づいて、第２対象データＸＢを何れかのクラスタに分類する。

図７は、第２対象データＸＢの分類の一例の説明図である。図７には、潜在空間Ｓに、潜在ベクトルＶに応じて第１対象データＸＡおよび第２対象データＸＢを配置した例を一例として示した。

例えば、分類部２０Ｈは、パラメータを更新された学習モデル３０を用いて算出された、複数の第１対象データＸＡの各々の潜在ベクトルＶを用いて、複数の第１対象データＸＡをクラスタＣＬに分類する。図７には、複数の第１対象データＸＡを、クラスタＣＬＡとクラスタＣＬＢに分類した例を一例として示した。

そして、分類部２０Ｈは、クラスタＣＬＡおよびクラスタＣＬＢの各々ごとに、各クラスタＣＬに属する第１対象データＸＡの潜在ベクトルＶの分類統計値を算出する。分類統計値は、各クラスタＣＬに属する第１対象データＸＡの潜在ベクトルＶの、平均値を含む。潜在ベクトルＶの平均値は、例えば、各クラスタＣＬのクラスタ中心Ｐに相当する。

また、分類部２０Ｈは、パラメータを更新された学習モデル３０を用いて算出された、第２対象データＸＢの潜在ベクトルＶを、潜在ベクトル算出部２０Ｃから取得する。潜在ベクトル算出部２０Ｃは、パラメータを更新された学習モデル３０に第２対象データＸＢを入力することで、該学習モデル３０からの出力情報として、該第２対象データＸＢの潜在ベクトルＶを取得すればよい。

そして、分類部２０Ｈは、第２対象データＸＢの潜在ベクトルＶに対して、距離および類似度の最も近い分類統計値のクラスタＣＬを特定する。そして、分類部２０Ｈは、特定したクラスタＣＬに、第２対象データＸＢを分類する。すなわち、分類部２０Ｈは、第２対象データＸＢの潜在ベクトルＶと、クラスタＣＬのクラスタ中心Ｐとの距離を用いて、第２対象データＸＢを何れかのクラスタＣＬに分類する。

図７に示す例の場合、第２対象データＸＢは、潜在空間Ｓにおいて、クラスタＣＬＡのクラスタ中心ＰよりクラスタＣＬＢのクラスタ中心Ｐに近い位置に存在する。この場合、分類部２０Ｈは、第２対象データＸＢをクラスタＣＬＢに分類する。

なお、第２対象データＸＢの分類方法は、上記分類方向に限定されない。

例えば、分類部２０Ｈは、パラメータを更新された学習モデル３０を用いて算出された、複数の第１対象データＸＡの各々の潜在ベクトルＶと、第２対象データＸＢの潜在ベクトルＶと、を用いて、該第２対象データＸＢを分類してもよい。

分類部２０Ｈは、パラメータを更新された学習モデル３０を用いて算出された、第２対象データＸＢの潜在ベクトルＶに対して、距離および類似度の最も近い潜在ベクトルＶの第１対象データＸＡが属するクラスタＣＬを特定する。なお、分類部２０Ｈは、第２対象データＸＢの潜在ベクトルＶに対して、距離および類似度が予め定めた範囲内である潜在ベクトルＶが最も多く属するクラスタＣＬを特定してもよい。

そして、分類部２０Ｈは、特定したクラスタＣＬに、第２対象データＸＢを分類する。

なお、分類部２０Ｈは、複数の第２対象データＸＢの内の特定の第２対象データＸＢに類似する、他の第２対象データＸＢを検索する検索処理、を更に実行してもよい。

この場合、分類部２０Ｈは、パラメータを更新された学習モデル３０を用いて算出された、複数の第２対象データＸＢの各々の潜在ベクトルＶを潜在ベクトル算出部２０Ｃから取得する。そして、分類部２０Ｈは、取得した潜在ベクトルＶを用いて、複数の第２対象データＸＢの内の特定の第２対象データＸＢに類似する、他の第２対象データＸＢを検索すればよい。

例えば、分類部２０Ｈは、複数の第２対象データＸＢの内の特定の第２対象データＸＢに類似する他の第２対象データＸＢを、潜在ベクトルＶ間の距離および類似度の少なくとも一方を用いて検索する。すなわち、分類部２０Ｈは、パラメータを更新された学習モデル３０を用いて算出された、第２対象データＸＢの潜在ベクトルＶを用いて、公知の最近傍法により、特定の第２対象データＸＢに類似する他の第２対象データＸＢを検索してもよい。

次に、学習装置１０が実行する学習処理の流れの一例を説明する。

図８は、学習装置１０が実行する学習処理の流れの一例を示す、フローチャートである。

まず、取得部２０Ｂが、複数の第１対象データＸＡを取得する（ステップＳ１００）。潜在ベクトル算出部２０Ｃは、学習モデル３０のパラメータを記憶部２０Ａから取得する（ステップＳ１０２）。

潜在ベクトル算出部２０Ｃは、ステップＳ１００で取得した複数の第１対象データＸＡの各々について、ステップＳ１０２で取得したパラメータを設定した学習モデル３０を用いて、潜在ベクトルＶを算出する（ステップＳ１０４）。

次に、第１確率算出部２０Ｄは、ステップＳ１０４で算出された潜在ベクトルＶを用いて、ステップＳ１００で取得した複数の第１対象データＸＡの各々ごとに、複数の仮想クラスＣの各々に属する第１確率を算出する（ステップＳ１０６）。

第１損失算出部２０Ｅは、ステップＳ１０６で算出された第１確率を用いて、複数の第１対象データＸＡの各々ごとに、第１確率の第１損失を算出する（ステップＳ１０８）。

第２損失算出部２０Ｆは、ステップＳ１０４で算出された潜在ベクトルＶを用いて、複数の第１対象データＸＡの各々に含まれる複数の要素Ｅの各々が属する要素クラスＧの各々ごとに、他の要素クラスＧとの関係性が低いほど低い第２損失を算出する（ステップＳ１１０）。

更新部２０Ｇは、ステップＳ１０８で算出された第１損失と、ステップＳ１１０で算出された第２損失と、を含む損失関数を算出する（ステップＳ１１２）。そして、更新部２０Ｇは、ステップＳ１１２で算出された損失関数がより低くなるように、パラメータを算出し、記憶部２０Ａへ記憶する（ステップＳ１１４）。ステップＳ１１４の処理によって、学習モデル３０のパラメータが更新される。

次に、更新部２０Ｇは、学習終了基準を満たすか否かを判断する（ステップＳ１１６）。学習終了基準を満たさないと判断した場合には（ステップＳ１１６：Ｎｏ）、上記ステップＳ１００へ戻る。一方、学習終了基準を満たすと判断すると（ステップＳ１１６：Ｙｅｓ）、ステップＳ１１８へ進む。

ステップＳ１１８では、分類部２０Ｈが、ステップＳ１１４の処理によってパラメータを更新された学習モデル３０を用いて対象データＸを分類する分類処理を実行する（ステップＳ１１８）。そして、本ルーチンを終了する。

図９は、分類処理（ステップＳ１１８、図８参照）の流れの一例を示すフローチャートである。

潜在ベクトル算出部２０Ｃは、ステップＳ１１４（図８参照）の処理によってパラメータを更新された学習モデル３０を用いて、複数の第１対象データＸＡの各々の潜在ベクトルＶを算出する（ステップＳ２００）。

分類部２０Ｈは、ステップＳ２００で算出された複数の潜在ベクトルＶ間の距離および類似度の少なくとも一方を用いて、複数の第１対象データＸＡの各々を複数のクラスタＣＬに分類する（ステップＳ２０２）。

出力制御部２０Ｉは、ステップＳ２０２の分類結果を出力する（ステップＳ２０４）。そして、本ルーチンを終了する。

次に、分類部２０Ｈが実行する分類処理として、第２対象データＸＢの分類処理の流れを説明する。

図１０は、分類統計値を用いた、第２対象データＸＢの分類処理（ステップＳ１１８、図８参照）の流れの一例を示す、フローチャートである。

まず、潜在ベクトル算出部２０Ｃは、ステップＳ１１４（図８参照）の処理によってパラメータを更新された学習モデル３０を用いて、複数の第１対象データＸＡの各々の潜在ベクトルＶを算出する。分類部２０Ｈは、算出された複数の潜在ベクトルＶ間の距離および類似度の少なくとも一方を用いて、複数の第１対象データＸＡの各々を複数のクラスタＣＬに分類する（ステップＳ３００）。ステップＳ３００の処理は、ステップＳ２００～ステップＳ２０２と同様である（図９参照）。

そして、分類部２０Ｈは、ステップＳ３００で分類されたクラスタＣＬごとに、属する第１対象データＸＡの各々の潜在ベクトルＶの分類統計値を算出する（ステップＳ３０２）。

次に、取得部２０Ｂが、第２対象データＸＢを取得する（ステップＳ３０４）。潜在ベクトル算出部２０Ｃは、学習モデル３０のパラメータを記憶部２０Ａから取得する（ステップＳ３０６）。潜在ベクトル算出部２０Ｃは、ステップＳ３０４で取得した１または複数の第２対象データＸＢの各々について、ステップＳ３０６で取得したパラメータを設定した学習モデル３０を用いて、潜在ベクトルＶを算出する（ステップＳ３０８）。

分類部２０Ｈは、ステップＳ３０８で算出された、第２対象データＸＢの潜在ベクトルＶと、ステップＳ３０２で算出されたクラスタＣＬごとの分類統計値と、を用いて、第２対象データＸＢを分類する（ステップＳ３１０）。

出力制御部２０Ｉは、ステップＳ３１０の分類結果を出力する（ステップＳ３１２）。そして、本ルーチンを終了する。

次に、第１対象データＸＡおよび第２対象データＸＢの各々の潜在ベクトルＶを用いた、第２対象データＸＢの分類処理（ステップＳ１１８、図８参照）の流れを説明する。

図１１は、第１対象データＸＡおよび第２対象データＸＢの潜在ベクトルＶを用いた、第２対象データＸＢの分類処理（ステップＳ１１８、図８参照）の流れの一例を示す、フローチャートである。

まず、潜在ベクトル算出部２０Ｃは、ステップＳ１１４（図８参照）の処理によってパラメータを更新された学習モデル３０を用いて、複数の第１対象データＸＡの各々の潜在ベクトルＶを算出する。分類部２０Ｈは、算出された複数の潜在ベクトルＶ間の距離および類似度の少なくとも一方を用いて、複数の第１対象データＸＡの各々を複数のクラスタＣＬに分類する（ステップＳ４００）。ステップＳ４００の処理は、ステップＳ３００と同様である（図１０参照）。

次に、取得部２０Ｂが、第２対象データＸＢを取得する（ステップＳ４０２）。潜在ベクトル算出部２０Ｃは、学習モデル３０のパラメータを記憶部２０Ａから取得する（ステップＳ４０４）。潜在ベクトル算出部２０Ｃは、ステップＳ４０２で取得した１または複数の第２対象データＸＢの各々について、ステップＳ４０４で取得したパラメータを設定した学習モデル３０を用いて、潜在ベクトルＶを算出する（ステップＳ４０６）。

分類部２０Ｈは、ステップＳ４００およびステップＳ４０６の各々で算出された、第１対象データＸＡおよび第２対象データＸＢの各々の潜在ベクトルＶを用いて、第２対象データＸＢを分類する（ステップＳ４０８）。

出力制御部２０Ｉは、ステップＳ４０８の分類結果を出力する（ステップＳ４１０）。そして、本ルーチンを終了する。

次に、複数の第２対象データＸＢ同士の検索処理の流れを説明する。

図１２は、複数の第２対象データＸＢ同士の検索処理の流れの一例を示す、フローチャートである。

取得部２０Ｂは、複数の第２対象データＸＢを取得する（ステップＳ５００）。潜在ベクトル算出部２０Ｃは、学習モデル３０のパラメータを記憶部２０Ａから取得する（ステップＳ５０２）。潜在ベクトル算出部２０Ｃは、ステップＳ５００で取得した複数の第２対象データＸＢの各々について、ステップＳ５０２で取得したパラメータを設定した学習モデル３０を用いて、潜在ベクトルＶを算出する（ステップＳ５０４）。

分類部２０Ｈは、ステップＳ５０４で算出された潜在ベクトルＶを用いて、複数の第２対象データＸＢの内の特定の第２対象データＸＢに類似する、他の第２対象データＸＢを検索する（ステップＳ５０６）。そして、出力制御部２０Ｉは、ステップＳ５０６の検索結果を出力する（ステップＳ５０８）。そして、本ルーチンを終了する。

以上説明したように、本実施形態の学習装置１０は、潜在ベクトル算出部２０Ｃと、第１確率算出部２０Ｄと、第１損失算出部２０Ｅと、第２損失算出部２０Ｆと、更新部２０Ｇと、を備える。潜在ベクトル算出部２０Ｃは、対象データＸから対象データＸの潜在空間Ｓ上の特徴を示す潜在ベクトルＶを出力する学習モデル３０のパラメータを用いて、分類対象の対象データＸである複数の第１対象データＸＡの各々の潜在ベクトルＶを算出する。第１確率算出部２０Ｄは、複数の第１対象データＸＡが互いに異なる仮想クラスＣに属すると仮定し、複数の第１対象データＸＡの各々ごとに、複数の仮想クラスＣの各々に属する第１確率を算出する。第１損失算出部２０Ｅは、複数の第１対象データＸＡの各々ごとに、第１確率の第１損失を算出する。第２損失算出部２０Ｆは、複数の第１対象データＸＡの各々に含まれる複数の要素Ｅの各々が属する要素クラスＧの各々ごとに、他の要素クラスＧとの関係性が低いほど低い第２損失を算出する。更新部２０Ｇは、第１損失および第２損失が低くなるようにパラメータを更新する。

ここで、従来技術では、類似する対象データＸを分類するクラスタリングには適さない場合があった。特に、背景が多様な一般物体の画像データなど、対象データが複雑なデータであるほど、従来技術では、クラスタリング精度が低下する場合があった。

例えば、本実施形態における第１損失および第２損失を用いずに、教師無しクラスタリングにより対象データＸを分類する従来技術を想定する。この場合、対象データＸとクラスタ中心Ｐとの間の距離を用いて、対象データＸを分類していた。このため、従来技術では、対象データＸが複雑なデータとなるほど、対象データＸとクラスタ中心Ｐとの距離が適切に算出できなくなり、クラスタリング精度が低下する場合があった。

また、例えば、従来技術として、第１損失のみを用いて、該第１損失が低くなるように学習モデルのパラメータを更新する教師無クラスタリング技術を想定する。第１損失のみを用いた場合、類似する対象データＸをクラスタに分類するクラスタリングには適さない場合があった。また、従来技術は、データをグループ化するクラスタリングを目的とした場合には必ずしも好適な学習ができず、クラスタリング精度が低下する場合があった。

一方、本実施形態の学習装置１０では、第１損失および第２損失を用い、第１損失および第２損失の双方が低くなるように、学習モデル３０のパラメータを更新する。このため、本実施形態の学習装置１０では、対象データＸのクラスタリングに適した学習モデル３０のパラメータを学習することができる。

すなわち、学習装置１０では、更新部２０Ｇによって更新されたパラメータの学習モデル３０を用いて算出された潜在ベクトルＶを用いて、対象データＸを分類することで、教師無クラスタリングの、クラスタリング精度の向上を図ることできる。

図１３は、対象データＸの分類精度のシミュレーション結果の一例を示す図である。なお、図１３には、対象データＸとして、飛行機、船、犬、猫などの被写体を含む画像データを用いた。また、分類精度は、分類結果とクラスの一致度を％で示したものである。

図１３中、「Ｋｍｅａｎｓ」および「Ｋｍｅａｎｓ」に対応する分類精度は、以下を示す。この分類精度は、第１損失および第２損失を用いずに学習された学習モデルを用いて算出された、潜在ベクトルを用いたものである。そして、この潜在ベクトルを用いて、公知のＫｍｅａｎｓ法により、対象データＸを分類した時の分類精度を意味する。

図１３中、「第１損失」および「第１損失」に対応する分類精度は、以下を示す。この分類精度は、第１損失を用い、且つ、第２損失を用いずに学習された学習モデルを用いて算出された、潜在ベクトルを用いたものである。そして、この潜在ベクトルを用いて、公知のＫｍｅａｎｓ法により、対象データＸを分類した時の分類精度を意味する。

また、図１３中、「第１損失＋第２損失」および「第１損失＋第２損失」に対応する分類精度は、本実施形態の学習装置１０が対象データＸを分類した分類精度を意味する。

図１３に示すように従来の「Ｋｍｅａｎｓ」法を用いた分類精度が２２．９％であるのに対して、本実施形態の学習装置１０の分類精度は８１．２％と大きく向上した。第２損失を用いなかった場合の分類精度は７５．９％であった。このため、本実施形態の学習装置１０では、分類精度が大きく向上したといえる。

図１４Ａおよび図１４Ｂは、潜在空間Ｓにおける対象データＸの分布の一例を示す模式図である。図１４Ａは、従来の例である。詳細には、図１４Ａは、第２損失を用いずに学習された学習モデルを用いて算出された、潜在ベクトルの対象データＸを、潜在空間Ｓに配置した例である。図１４Ｂは、本実施形態の学習装置１０で算出された潜在ベクトルＶの対象データＸを、潜在空間Ｓに配置した例である。

図１４Ａに示すように、従来方法による対象データＸの分類では、複数のクラスタＣＬに分類された対象データＸの群間に、対象データＸが密となっている空間Ｑ１が存在する。一方、本実施形態の学習装置１０による対象データＸの分類では、複数のクラスタＣＬに分類された対象データＸの群間に、対象データＸが疎となっている空間Ｑ２が存在する。このため、本実施形態の学習装置１０では、複数の対象データＸ間の距離に差が出やすく、分類精度の向上を図ることできる、といえる。

上記に説明したように、本実施形態の学習装置１０では、第１損失および第２損失を用い、第１損失および第２損失の双方が低くなるように、学習モデル３０のパラメータを更新する。このため、本実施形態の学習装置１０では、対象データＸのクラスタリングに適した学習モデル３０のパラメータを学習することができる。

従って、本実施形態の学習装置１０は、クラスタリング精度向上を図ることができる。

また、分類部２０Ｈが、更新部２０Ｇによってパラメータを更新された学習モデル３０を用いて対象データＸを分類する。このため、本実施形態の学習装置１０は、上記効果に加えて、第１対象データＸＡ及び第２対象データＸＢの双方について、クラスタリング精度向上を図ることができる。

また、分類部２０Ｈが、更新部２０Ｇによってパラメータを更新された学習モデル３０を用いて特定の対象データＸに類似する他の対象データＸを検索する。このため、本実施形態の学習装置１０は、上記効果に加えて、第１対象データＸＡ及び第２対象データＸＢの双方について、検索精度の向上を図ることができる。

また、本実施形態の学習装置１０は、パラメータの学習時に用いた第１対象データＸＡ以外の対象データＸである第２対象データＸＢについて、新たにパラメータを学習することなく、高精度なクラスタリングおよび検索を行うことができる。

また、上述したように、本実施形態の学習装置１０では、上記式（２）に示した、第１確率の差の大小を制御する変数であるτとして、上記差を所定範囲とするための変数を用いる事が好ましい。上記差とは、上述したように、１つの第１対象データＸＡが該第１対象データＸＡの正解の仮想クラスＣに属する第１確率と、該第１対象データＸＡが該仮想クラスＣ以外の他の仮想クラスＣに属する第１確率と、の差である。

上述したように、学習装置１０は、１つの第１対象データＸＡが自身の仮想クラスＣに属する第１確率の値のみが選択的に高くなることを抑制し、且つ、他の仮想クラスＣにも属する可能性を示す第１確率の値が算出されるように、τの値を閾値以上の値に予め調整することが好ましい。

例えば、τとして閾値“０．４”を設定した場合を想定する。この場合、該閾値未満の値である“０．０７５”をτとして設定した場合に比べて、対象データＸの分類精度向上を図ることが出来る事が、シミュレーションにより確認できた。

次に、上記実施の形態の学習装置１０のハードウェア構成の一例を説明する。

図１５は、上記実施の形態の学習装置１０のハードウェア構成図の一例である。

上記実施の形態の学習装置１０は、ＣＰＵ７１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）７２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）７３、およびＩ／Ｆ７４等がバス７５により相互に接続されており、通常のコンピュータを利用したハードウェア構成となっている。

ＣＰＵ７１は、上記実施の形態の学習装置１０を制御する演算装置である。ＲＯＭ７２は、ＣＰＵ７１による各種処理を実現するプログラム等を記憶する。ＲＡＭ７３は、ＣＰＵ７１による各種処理に必要なデータを記憶する。Ｉ／Ｆ７４は、出力部１６および駆動制御部６２などに接続し、データを送受信するためのインターフェースである。

上記実施の形態の学習装置１０では、ＣＰＵ７１が、ＲＯＭ７２からプログラムをＲＡＭ７３上に読み出して実行することにより、上記各機能がコンピュータ上で実現される。

なお、上記実施の形態の学習装置１０で実行される上記各処理を実行するためのプログラムは、ＨＤＤ（ハードディスクドライブ）に記憶されていてもよい。また、上記実施の形態の学習装置１０で実行される上記各処理を実行するためのプログラムは、ＲＯＭ７２に予め組み込まれて提供されていてもよい。

また、上記実施の形態の学習装置１０で実行される上記処理を実行するためのプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ－ＲＯＭ、ＣＤ－Ｒ、メモリカード、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、フレキシブルディスク（ＦＤ）等のコンピュータで読み取り可能な記憶媒体に記憶されてコンピュータプログラムプロダクトとして提供されるようにしてもよい。また、上記実施の形態の学習装置１０で実行される上記処理を実行するためのプログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するようにしてもよい。また、上記実施の形態の学習装置１０で実行される上記処理を実行するためのプログラムを、インターネットなどのネットワーク経由で提供または配布するようにしてもよい。

なお、上記には、本発明の実施の形態を説明したが、上記実施の形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施の形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０学習装置
２０Ｂ取得部
２０Ｃ潜在ベクトル算出部
２０Ｄ第１確率算出部
２０Ｅ第１損失算出部
２０Ｆ第２損失算出部
２０Ｇ更新部
２０Ｈ分類部

Claims

対象データから前記対象データの潜在空間上の特徴を示す潜在ベクトルを出力する学習モデルのパラメータを用いて、分類対象の前記対象データである複数の第１対象データの各々の前記潜在ベクトルを算出する潜在ベクトル算出部と、
複数の前記第１対象データが互いに異なる仮想クラスに属すると仮定し、複数の前記第１対象データの各々ごとに、複数の前記仮想クラスの各々に属する第１確率を算出する第１確率算出部と、
複数の前記第１対象データの各々ごとに、前記第１確率の第１損失を算出する第１損失算出部と、
複数の前記第１対象データの各々に含まれる複数の要素の各々が属する要素クラスの各々ごとに、他の前記要素クラスとの関係性が低いほど低い第２損失を算出する第２損失算出部と、
前記第１損失および前記第２損失が低くなるように前記パラメータを更新する更新部と、
を備える学習装置。
前記第２損失算出部は、式（１）を用いて前記第２損失を算出する、
請求項１に記載の学習装置。

式（１）中、Ｌ_２は第２損失を表し、ｆｉは前記第１対象データに含まれるｉ番目の事例の潜在ベクトルから抽出した、前記要素ごとのベクトルを表す。式（１）中、τは、前記第１確率の差の大小を制御する変数である。式（１）中、ｎは、前記潜在ベクトルの次元数である。τ’は、式（１）で算出される前記第２損失の差の大小を制御する変数である。
前記第１損失算出部は、前記第１確率を用いて、複数の前記第１対象データが各々の属する前記仮想クラスに分類されるほど低くなる、前記第１損失を算出する、
請求項１または請求項２に記載の学習装置。
前記パラメータを更新された前記学習モデルを用いて算出された、複数の前記第１対象データの各々の前記潜在ベクトルに基づいて、複数の前記第１対象データの各々を複数のクラスタに分類する分類部、
を備える請求項１～請求項３の何れか１項に記載の学習装置。
前記分類部は、
複数の前記第１対象データの各々の前記潜在ベクトル間の距離および類似度の少なくとも一方を用いて、複数の前記第１対象データの各々を複数の前記クラスタに分類する、
請求項４に記載の学習装置。
前記分類部は、
前記パラメータを更新された前記学習モデルを用いて算出された、複数の前記第１対象データの各々の前記潜在ベクトルに基づいて、
複数の前記第１対象データの内の特定の前記第１対象データに類似する他の前記第１対象データを検索する、
請求項４または請求項５の何れか１項に記載の学習装置。
前記分類部は、
前記パラメータを更新された前記学習モデルを用いて算出された、複数の前記第１対象データの各々の前記潜在ベクトルの、複数の前記クラスタの各々ごとの分類統計値と、
該学習モデルを用いて算出された、前記第１対象データ以外の他の前記対象データである第２対象データの前記潜在ベクトルと、
に基づいて、前記第２対象データを複数の前記クラスタの何れかに分類する、
請求項４～請求項６の何れか１項に記載の学習装置。
前記分類部は、
前記パラメータを更新された前記学習モデルを用いて算出された、前記第１対象データの前記潜在ベクトルと、
該学習モデルを用いて算出された、前記第１対象データ以外の他の前記対象データである第２対象データの前記潜在ベクトルと、
に基づいて、前記第２対象データを複数の前記クラスタの何れかに分類する、
請求項４～請求項６の何れか１項に記載の学習装置。
前記分類部は、
前記パラメータを更新された前記学習モデルを用いて算出された、前記第１対象データ以外の他の前記対象データである、複数の第２対象データの各々の前記潜在ベクトルに基づいて、
複数の前記第２対象データの内の特定の前記第２対象データに類似する、他の前記第２対象データを検索する、
請求項４～請求項８の何れか１項に記載の学習装置。
前記第１確率算出部は、
１つの前記第１対象データが自身の前記仮想クラスに属する前記第１確率と、該第１対象データが該仮想クラス以外の他の前記仮想クラスに属する前記第１確率と、の差を所定範囲とするための変数を含む関数を用いて、前記第１対象データの第１確率を算出する、
請求項１～請求項９の何れか１項に記載の学習装置。
コンピュータが実行する学習方法であって、
対象データから前記対象データの潜在空間上の特徴を示す潜在ベクトルを出力する学習モデルのパラメータを用いて、分類対象の前記対象データである複数の第１対象データの各々の前記潜在ベクトルを算出するステップと、
複数の前記第１対象データが互いに異なる仮想クラスに属すると仮定し、複数の前記第１対象データの各々ごとに、複数の前記仮想クラスの各々に属する第１確率を算出するステップと、
複数の前記第１対象データの各々ごとに、前記第１確率の第１損失を算出するステップと、
複数の前記第１対象データの各々に含まれる複数の要素の各々が属する要素クラスの各々ごとに、他の前記要素クラスとの関係性が低いほど低い第２損失を算出するステップと、
前記第１損失および前記第２損失が低くなるように前記パラメータを更新するステップと、
を含む学習方法。
対象データから前記対象データの潜在空間上の特徴を示す潜在ベクトルを出力する学習モデルのパラメータを用いて、分類対象の前記対象データである複数の第１対象データの各々の前記潜在ベクトルを算出するステップと、
複数の前記第１対象データが互いに異なる仮想クラスに属すると仮定し、複数の前記第１対象データの各々ごとに、複数の前記仮想クラスの各々に属する第１確率を算出するステップと、
複数の前記第１対象データの各々ごとに、前記第１確率の第１損失を算出するステップと、
複数の前記第１対象データの各々に含まれる複数の要素の各々が属する要素クラスの各々ごとに、他の前記要素クラスとの関係性が低いほど低い第２損失を算出するステップと、
前記第１損失および前記第２損失が低くなるように前記パラメータを更新するステップと、
をコンピュータに実行させるための学習プログラム。