JP7119865B2

JP7119865B2 - 情報処理方法及び装置、並びに情報検出方法及び装置

Info

Publication number: JP7119865B2
Application number: JP2018188151A
Authority: JP
Inventors: シェヌ・ウエイ; リィウ・ルゥジエ
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-10-18
Filing date: 2018-10-03
Publication date: 2022-08-17
Anticipated expiration: 2038-10-03
Also published as: CN109685087B9; JP2019075108A; CN109685087A; CN109685087B

Description

本発明は、情報処理の分野に関し、具体的には、識別性を有する顔セマンティック特徴を抽出できる情報処理方法及び装置、並びに情報検出方法及び装置に関する。

近年、画像生成は明らかに進んでいる。例えば敵対的生成ネットワーク（ＧＡＮ：ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）及び変分オートエンコーダ（ＶＡＥ：ＶａｒｉａｔｉｏｎａｌＡｕｔｏＥｎｃｏｄｅｒ）等のモデルを用いて画像を生成する。しかし、ＧＡＮモデルは、ランダムノイズを入力とするものであり、画像を潜在空間に符号化する能力を有しない。ＶＡＥは、画像を潜在空間に符号化することができるが、該潜在空間はマンティック的な意味を有しない。即ち、これらのモデルは、識別性を有する顔セマンティック特徴を抽出することができない。

以下は、本発明の態様を基本的に理解させるために、本発明の簡単な概要を説明する。なお、この簡単な概要は、本発明を網羅的な概要ではなく、本発明のポイント又は重要な部分を意図的に特定するものではなく、本発明の範囲を意図的に限定するものではなく、後述するより詳細的な説明の前文として、単なる概念を簡単な形で説明することを目的とする。

本発明は、上記の問題点を鑑み、識別性を有する顔セマンティック特徴を抽出できる情報処理方法及び装置、並びに情報検出方法及び装置を提供することを目的とする。

本発明の１つの態様では、訓練セットから同一のセマンティック特徴に対応する３つの画像を抽出するステップであって、前記３つの画像は、前記セマンティック特徴について同一のセマンティック特徴値を有する第１画像及び第２画像、並びに前記第１画像及び前記第２画像と異なるセマンティック特徴値を有する第３画像を含む、ステップと、変分オートエンコーダ（ＶＡＥ）により、前記３つの画像の前記セマンティック特徴に対応する潜在変数の分布を取得するステップと、前記３つの画像の各画像について、損失関数を最小化するように前記ＶＡＥのパラメータを更新するステップであって、前記損失関数は、前記第１画像の潜在変数の分布と前記第２画像の潜在変数の分布との間の第１距離に対して正の相関関係を有し、前記第１画像の潜在変数の分布と前記第３画像の潜在変数の分布との間の第２距離に対して負の相関関係を有する、ステップと、を含む、情報処理方法を提供する。

本発明のもう１つの態様では、訓練セットから同一のセマンティック特徴に対応する３つの画像を抽出する画像抽出手段であって、前記３つの画像は、前記セマンティック特徴について同一のセマンティック特徴値を有する第１画像及び第２画像、並びに前記第１画像及び前記第２画像と異なるセマンティック特徴値を有する第３画像を含む、画像抽出手段と、変分オートエンコーダ（ＶＡＥ）により、前記３つの画像の前記セマンティック特徴に対応する潜在変数の分布を取得する潜在変数分布取得手段と、前記３つの画像の各画像について、損失関数を最小化するように前記ＶＡＥのパラメータを更新するパラメータ更新手段であって、前記損失関数は、前記第１画像の潜在変数の分布と前記第２画像の潜在変数の分布との間の第１距離に対して正の相関関係を有し、前記第１画像の潜在変数の分布と前記第３画像の潜在変数の分布との間の第２距離に対して負の相関関係を有する、パラメータ更新手段と、を含む、情報処理装置を提供する。

本発明の１つの態様では、訓練された変分オートエンコーダ（ＶＡＥ）に複数の画像をそれぞれ入力し、各画像のセマンティック特徴に対応する潜在変数の分布を取得し、各画像の再構築画像を取得するステップ、を含み、前記複数の画像のうち同一のセマンティック特徴を有する３つの画像について、前記３つの画像は、前記セマンティック特徴について同一のセマンティック特徴値を有する第１画像及び第２画像、並びに前記第１画像及び前記第２画像と異なるセマンティック特徴値を有する第３画像を含み、前記第１画像の潜在変数の分布と前記第２画像の潜在変数の分布との間の第１距離は、前記第１画像の潜在変数の分布と前記第３画像の潜在変数の分布との間の第２距離よりも小さい、情報検出方法を提供する。

本発明の他の態様では、上記本発明の方法を実現するためのコンピュータプログラムコード及びコンピュータプログラムプロダクト、並びに上記本発明の方法を実現するためのコンピュータプログラムコードを記録しているコンピュータ読み取り可能な記憶媒体をさらに提供する。

以下は、本発明の実施例の他の態様を説明し、本発明の実施例の好ましい実施例を詳細に説明するが、本発明はこれらの実施例に限定されない。

本発明の他の特徴及び利点を理解させるために、図面を参照しながら本発明の各実施例を説明する。全ての図面において、同一又は類似の符号で同一又は類似の構成部を示している。ここで説明される図面は、好ましい実施例を例示するためのものであり、全ての可能な実施例ではなく、本発明の範囲を限定するものではない。
本発明の実施例に係る情報処理方法の流れの一例を示すフローチャートである。本発明の実施例に係るメトリック学習を示す図である。情報処理方法を実現するためのネットワークを示すブロック図である。本発明の実施例に係る符号化ネットワーク及び復号ネットワークの構成を示すブロック図である。本発明の実施例に係る潜在変数の構成を示す図である。本発明の実施例に係る情報処理装置の機能的構成の一例を示すブロック図である。本発明の実施例に適用可能な情報処理装置であるパーソナルコンピュータの例示的な構成を示すブロック図である。

以下、図面を参照しながら本発明の例示的な実施例を詳細に説明する。説明の便宜上、明細書には実際の実施形態の全ての特徴が示されていない。なお、実際に実施する際に、開発者の具体的な目標を実現するために、特定の実施形態を変更してもよい、例えばシステム及び業務に関する制限条件に応じて実施形態を変更してもよい。また、開発作業が非常に複雑であり、且つ時間がかかるが、本公開の当業者にとって、この開発作業は単なる例の作業である。

なお、本発明を明確にするために、図面には本発明の実施例に密に関連する装置の構成及び／又は処理のステップのみが示され、本発明と関係のない細部が省略されている。

ＶＡＥの主な目的は入力画像の再構築であり、ＶＡＥの入力は元の画像であり、出力は再構築画像である。より具体的には、ＶＡＥでは、入力画像を符号化し、潜在変数の分布表現を取得し、この分布表現は平均値ベクトル及び標準偏差ベクトルを含むガウス分布表現である。この２つのベクトルは何れも１次元のベクトルであり、平均値ベクトル及び標準偏差ベクトルをサンプリングして新たなベクトルを取得し、新たなベクトルを用いて再構築を行い、最終的な再構築画像を取得する。ＶＡＥを訓練するための目的関数（損失関数とも称される）は２つの部分により構成され、１つは再構築誤差（入力画像と再構築画像との誤差）であり、もう１つは中間潜在変数とガウス分布とのＫＬ（Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒ：カルバック・ライブラー）距離である。ＶＡＥは、画像を潜在空間に符号化することができるが、該潜在空間はマンティック的な意味を有しない。

本願は、識別性を有する顔セマンティック特徴（例えば、身分、姿勢、年齢、性別など）を抽出できる情報処理方法を提供し、該情報処理方法は、ＶＡＥモデルの画像生成の能力とメトリック学習とを組み合わせたものである。

以下、図面を参照しながら、本発明の実施例を詳細に説明する。

まず、図１を参照しながら、本発明の実施例に係る情報処理方法１００の流れの一例を説明する。図１は本発明の実施例に係る情報処理方法の流れの一例を示すフローチャートである。図１に示すように、本発明の実施例に係る情報処理方法１００は、画像抽出ステップＳ１０２、潜在変数分布取得ステップＳ１０４及びパラメータ更新ステップＳ１０６を含む。

画像抽出ステップＳ１０２において、訓練セットから同一のセマンティック特徴（ｓｅｍａｎｔｉｃｆｅａｔｕｒｅ）に対応する３つの画像を抽出してもよい。ここで、該３つの画像は、セマンティック特徴について同一のセマンティック特徴値を有する第１画像及び第２画像、並びに第１画像及び第２画像と異なるセマンティック特徴値を有する第３画像を含む。

従来の変分自己符号化アルゴリズムでは、潜在変数の各次元特徴の観点から、特定のセマンティック特徴を有しない。本発明の実施例に係る情報処理方法１００では、潜在変数を複数の部分に分け、各部分は１つの特定のセマンティック特徴、例えば顔の姿勢、年齢、性別などに対応する。

画像抽出ステップＳ１０２において、訓練セットから同一のセマンティック特徴に対応する３つの画像ｘ_ｉ ^ａ、ｘ_ｉ ^ｐ及びｘ_ｉ ^ｎを抽出する。ここで、画像ｘ_ｉ ^ａと画像ｘ_ｉ ^ｐは同一のセマンティック特徴値を有し、画像ｘ_ｉ ^ｎのセマンティック特徴値は画像ｘ_ｉ ^ａ及び画像ｘ_ｉ ^ｐと異なる。セマンティック特徴が身分であることを一例にすると、この３つの画像は全てセマンティック特徴「身分」を有し、画像ｘ_ｉ ^ａと画像ｘ_ｉ ^ｐが同一のセマンティック特徴値を有することは、この２つの画像が同一の人に属することを意味し、画像ｘ_ｉ ^ｎのセマンティック特徴値が画像ｘ_ｉ ^ａ及び画像ｘ_ｉ ^ｐと異なることは、画像ｘ_ｉ ^ｎが他の人に属することを意味する。

潜在変数分布取得ステップＳ１０４において、変分オートエンコーダ（ＶＡＥ：ＶａｒｉａｔｉｏｎａｌＡｕｔｏＥｎｃｏｄｅｒ）により、３つの画像のセマンティック特徴に対応する潜在変数の分布を取得してもよい。該ステップにおいて、ＶＡＥにより、３つの画像ｘ_ｉ ^ａ、ｘ_ｉ ^ｐ及びｘ_ｉ ^ｎのセマンティック特徴に対応する潜在変数の分布を取得してもよい。

パラメータ更新ステップＳ１０６において、該３つの画像の各画像について、損失関数を最小化するようにＶＡＥのパラメータを更新してもよい。ここで、損失関数は、第１画像の潜在変数の分布と第２画像の潜在変数の分布との間の第１距離に対して正の相関関係を有し、第１画像の潜在変数の分布と第３画像の潜在変数の分布との間の第２距離に対して負の相関関係を有する。

メトリック学習は、距離メトリックを構築することによって、異なるサンプル間の距離を表す。セマンティック特徴が身分情報であることを一例にすると、メトリック学習では、同一の人の異なる画像について、潜在変数の分布間の距離が小さくなり、０に収束することが望ましく、異なる人の画像について、潜在変数の分布間の距離が大きくなることが望ましい。

図２は本発明の実施例に係るメトリック学習を示す図である。説明の便宜上、図２では、ａ、ｐ及びｎで画像ｘ_ｉ ^ａ、ｘ_ｉ ^ｐ及びｘ_ｉ ^ｎをそれぞれ表し、図２の左部分及び右部分はａ、ｐ及びｎにより構成された３元集合をそれぞれ示している。また、この３つの画像のセマンティック特徴が身分情報であると仮定すると、ａとｐは同一の身分値を有し（即ちａとｐは同一の人に対応し）、ｎの身分値はａ及びｐの身分値と異なる（即ちｎはａ及びｐと異なる人に対応する）。図２の左部分の３元集合では、ａとｐの間の潜在変数の分布の距離はａとｎの間の潜在変数の分布の距離よりも大きい。上述したように、メトリック学習では、ａとｐの間の潜在変数の分布の距離が小さくなり、ａとｎの間の潜在変数の分布の距離が大きくなるようにする。即ち、メトリック学習では、同一の人の異なる画像ａ及びｐについて、潜在変数の分布間の距離が小さくなり、０に収束することが望ましく、異なる人の画像について、潜在変数の分布間の距離が大きくなることが望ましい。図２の右部分の３元集合に示すように、上記メトリック学習が行われた後に、ａとｎの間の潜在変数の分布の距離はａとｐの間の潜在変数の分布の距離よりも大きい。図２では、説明の便宜上、セマンティック特徴が身分情報であると仮定しているが、これは単なる一例であり、本発明を限定するものではなく、図２におけるセマンティック特徴は例えば姿勢、年齢などの他のセマンティック特徴であってもよい。

３つの画像ｘ_ｉ ^ａ、ｘ_ｉ ^ｐ及びｘ_ｉ ^ｎにより構成された３元集合について、距離メトリックに基づく損失関数Ｌ_ｍｅｔの計算式は、以下のように表してもよい。

式（１）において、
（外１）

、
（外２）

及び
（外３）

は画像ｘ_ｉ ^ａ、ｘ_ｉ ^ｐ及びｘ_ｉ ^ｎの潜在変数の分布をそれぞれ表し、
（外４）

は画像ｘ_ｉ ^ａとｘ_ｉ ^ｐの間の潜在変数の分布の第１距離であり、
（外５）

は画像ｘ_ｉ ^ａとｘ_ｉ ^ｎの間の潜在変数の分布の第２距離であり、＋は、［］内の値がゼロよりも大きい場合に該値を損失とし、ゼロよりも小さい場合に損失がゼロであることを表す。ｔは所定の閾値であり、当業者が経験に基づいて設定されてもよく、例えばｔを０に設定してもよい。式（１）から分かるように、損失関数Ｌ_ｍｅｔは、画像ｘ_ｉ ^ａの潜在変数の分布と画像ｘ_ｉ ^ｐの潜在変数の分布との間の第１距離に対して正の相関関係を有し、画像ｘ_ｉ ^ａの潜在変数の分布と画像ｘ_ｉ ^ｎの潜在変数の分布との間の第２距離に対して負の相関関係を有する。該メトリック学習を用いることで、識別性のより良い顔セマンティック特徴を取得できる。

好ましくは、本発明の実施例に係る情報処理方法１００では、損失関数は、第２距離と第１距離との差が所定の閾値よりも大きいという制約をさらに含んでもよい。式（１）に示す距離メトリックでは、
（外６）

と
（外７）

との間の距離と、
（外８）

と
（外９）

との間の距離との間には、最小の間隔がある。例えば、式（１）における所定の閾値ｔをゼロでない値に設定してもよく、例えばｔを１に設定してもよい。

パラメータ更新ステップＳ１０６において、損失関数Ｌ_ｍｅｔを最小化するようにＶＡＥのパラメータを更新してもよい。

以上は、説明の便宜上、訓練セットにおける３つの画像を一例にして本発明の実施例に係る情報処理方法１００のステップを説明し、即ち訓練セットにおける３つの画像を一例にしてＶＡＥに対する訓練を説明した。ＶＡＥの訓練を行うために、訓練セット全ての３元集合を走査してもよい。或いは、反復回数を予め設定し、予め設定された反復回数に達した場合にＶＡＥに対する訓練を終了してもよい。

本発明の実施例に係る情報処理方法をより明確に説明するために、図３は情報処理方法１００を実現するためのネットワークを示している。

図３におけるネットワークは、符号化ネットワーク及び復号ネットワークを含む。符号化ネットワーク及び復号ネットワークは、潜在変数層及び結合層により結合される。入力画像は、符号化ネットワークにより符号化された後に潜在変数層に入力される。潜在変数層は、ｚ_０、ｚ_１、ｚ_２、…ｚ_ｎである合計ｎ＋１個の潜在変数を含み、各潜在変数は１つの特定のセマンティック特徴に対応する。メトリック学習により潜在変数の分布を制限し（即ち、上述したように、損失関数を最小化することで潜在変数の分布を制限し）、制限された潜在変数は復号ネットワークにフィードバックされ、復号ネットワークにより出力画像（再構築画像）が取得される。

図４は本発明の実施例に係る符号化ネットワーク及び復号ネットワークの構成を示すブロック図である。図４に示すように、符号化ネットワーク及び復号ネットワークは、それぞれ複数の隠れ層により構成されている。

従来のＶＡＥに比べて、本発明の実施例に係る情報処理方法１００では、潜在変数は複数の部分により構成され、各部分は１つの特定のセマンティック特徴に対応する。また、メトリック学習の方法を用いることで、識別性のより良い顔セマンティック特徴を取得できる。

好ましくは、本発明の実施例に係る情報処理方法１００では、損失関数は、教師誤差に関する制約をさらに含んでもよく、教師誤差は、セマンティック特徴のラベル及び画像の潜在変数の分布に基づいて算出されたものである。ＶＡＥを訓練するプロセスにおいて教師情報を追加する。従って、本発明の実施例に係る情報処理方法１００における損失関数は教師誤差に関する制約をさらに含んでもよく、セマンティック特徴のラベル及び画像の潜在変数の分布に基づいて教師誤差を算出してもよい。

好ましくは、教師誤差を算出するステップは、非線形関数を用いて画像の潜在変数の分布をクラス空間にマッピングしてマッピング出力を取得するステップと、分類損失関数又は回帰損失関数を用いて、マッピング出力及びセマンティック特徴のラベルに基づいて教師誤差を算出するステップとを含んでもよい。

一例として、教師誤差を算出する際に、まず非線形関数を用いて画像の潜在変数の分布をクラス空間にマッピングしてマッピング出力を取得してもよく、該非線形関数は多層ニューラルネットワークを用いて実現してもよい。画像の潜在変数をｚで表し、クラス空間がｍ個のクラスサブ空間（例えば身分サブ空間、姿勢サブ空間及び年齢サブ空間などであり、各クラスは１つのセマンティック特徴に対応する）を含むと、非線形関数ｆｕ（）を用いてｚの分布を該ｍ個のクラスサブ空間にそれぞれマッピングして、各クラスサブ空間におけるマッピング出力（即ち、各セマンティック特徴空間における出力）ｆｕ_ｉ（ｚ）を取得してもよく、ｉ＝０，１，２，…，ｍ－１。一例として、非線形関数ｆｕ（）を用いてｚの分布を身分サブ空間にマッピングして、身分サブ空間におけるマッピング出力を取得し、ｚの分布を姿勢サブ空間にマッピングして、姿勢サブ空間におけるマッピング出力を取得してもよい。このように、潜在変数の異なるクラスサブ空間における識別性を向上できる。

セマンティック特徴のラベル値が離散的なものであるか、それとも連続的なものであるかに応じて、分類損失関数又は回帰損失関数を用いて教師誤差を算出してもよい。

ラベル値が例えば画像における顔の身分情報（Ａ、Ｂ、Ｃ、Ｄ）のような離散的なものである場合は、下記の分類損失関数を用いて教師誤差を算出する。

式（２）では、
（外１０）

は、ｆｕ_ｉ（ｚ）がｉ番目のクラスのセマンティック特徴のラベルｌａｂｅｌ_ｉであると予測される確率である。

ラベルのタイプが例えば画像における顔姿勢情報の回転角度（５０度、４９度、４８度など）のような連続的なものである場合は、下記の回帰損失関数を用いて教師誤差を算出する。

式（３）では、ｌａｂｅｌ_ｉはｉ番目のクラスのセマンティック特徴のラベルである。

全てのｍ個のクラスについて、総教師誤差は、全てのｍ個のクラスの教師誤差の和、即ち
（外１１）

であり、ここで、ｉ＝０，１，２，…，ｍ－１。

好ましくは、画像の潜在変数の事前分布は任意の分布を含む。本発明の実施例に係る情報処理方法１００では、潜在変数の分布及び潜在変数の事前分布は、従来のＶＡＥにおけるガウス分布に限定されず、任意の分布であってもよい。

好ましくは、画像の前記潜在変数の事前分布を取得するステップは、潜在変数の分布に基づいて、ガウス分布に従う中間変数を取得するステップと、中間変数に対して非線形変換を行い、潜在変数の事前分布を取得するステップとを含む。

図５は本発明の実施例に係る潜在変数の構成を示す図である。図５では、最下位の層は符号化ネットワークからの入力ベクトルであり、隠れ層を介して、潜在変数ｚの分布の平均値ベクトルｚ_ｍ及び分散ベクトルｚ_ｖが生成され、ｚ_ｍ及びｚ_ｖに対してサンプリングを行うことで、該構成の出力であるｚを取得でき、即ち、ｚは図５に示す潜在変数の構成の出力であり、図３における結合層に入力される。また、潜在変数ｚの分布に基づいて取得されたガウス分布に従う上位変数（中間変数）をｕで表し、ｚの事前分布をｚ’で表すと、ｕ及びｚ’とｚの関係を明確に示すために、図５においてｕ及びｚ’をさらに示し、図５においては、ｕの分布の平均値ベクトルはｕ_ｍであり、分散ベクトルはｕ_ｖである。

図５に示すように、潜在変数ｚの分布に基づいて、ガウス分布に従う中間変数ｕを取得する。ｚの事前分布ｚ’は中間変数ｕにより構築され、即ちｕを非線形マッピングしてｚの事前分布ｚ’を取得する。ｕの事前分布は標準ガウス分布であるが、非線形変換が行われた後に、ｚ’の分布は任意の分布であってもよい（即ち、複数のガウス分布を組み合わせて、任意の分布を取得してもよい）。一方、ｚとｚ’が類似の分布を有するように制限することで、ｚが任意の分布の性質を有することを実現する。

好ましくは、本発明の実施例に係る情報処理方法１００では、損失関数は、潜在変数の分布と潜在変数の事前分布とのカルバック・ライブラー・ダイバージェンス（ＫＬダイバージェンス）に関する制約、及び中間変数の分布と標準ガウス分布とのＫＬダイバージェンスに関する制約をさらに含んでもよい。

ＫＬダイバージェンス（ＫＬ距離）は、２つの分布の類似度を評価するために用いられる。２つの分布の差異が小さいほど、ＫＬダイバージェンスは小さくなり、２つの分布の差異が大きいほど、ＫＬダイバージェンスは大きくなる。

潜在変数ｚの分布をＰ（ｚ）で表し、潜在変数ｚの分布Ｐ（ｚ）に合わせて、潜在変数ｚの事前分布をＱ（ｚ’）で表すと、潜在変数の分布と潜在変数の事前分布とのＫＬダイバージェンスＫＬ（Ｐ｜｜Ｑ）は次のように表してもよい。

中間変数ｕの分布をＳ（ｕ）で表し、標準ガウス分布をＧ（０，１）で表すと、中間変数の分布と標準ガウス分布とのＫＬダイバージェンスＫＬ（Ｓ｜｜Ｇ）は次のように表してもよい。

上述したように、損失関数は、式（４）及び（５）に基づいて算出されたＫＬダイバージェンスの制約をさらに含んでもよい。

好ましくは、本発明の実施例に係る情報処理方法１００では、損失関数は、再構築誤差に関する制約をさらに含んでもよく、再構築誤差は、ＶＡＥに出力された画像と該画像に対応するＶＡＥから出力された画像との差異を評価するために用いられる。ＶＡＥを用いて画像を再構築する場合は、ＶＡＥに出力された画像と、該画像に対応するＶＡＥから出力された画像（即ち、再構築画像）とは差異がある（即ち再構築誤差がある）。損失関数は、該再構築誤差に関する制約をさらに含んでもよい。画像の３元集合（３つの画像ｘ_ｉ ^ａ、ｘ_ｉ ^ｐ及びｘ_ｉ ^ｎを含む）の例では、以下は説明の便宜上、該３つの画像の全てをｘ_ｉで表し、それに対応する出力画像をｘ_ｉ ^ｏで表すと、各画像の再構築誤差Ｌ_ｒｅｃは次のように表してもよい。

上記３つの画像について、総再構築誤差は各画像の再構築誤差の和である。説明の便宜上、以下の説明では、総再構築誤差は単にＬ_ｒｅｃで表される。

本発明の実施例に係る情報処理方法１００では、損失関数が上記制約を全て含む場合、訓練セットの画像における任意の３元集合について、総損失関数Ｌは次のように表してもよい。

式（７）では、Ｌ_ｒｅｃは総再構築誤差であり、
（外１２）

は総教師誤差であり、Ｌ_ｍｅｔは距離メトリックに基づく損失関数であり、ＫＬ（Ｐ｜｜Ｑ）は潜在変数の分布と潜在変数の事前分布とのＫＬダイバージェンスであり、ＫＬ（Ｓ｜｜Ｇ）は中間変数の分布と標準ガウス分布とのＫＬダイバージェンスであり、α及びβは定数であり、その値が［０，１］の範囲内にある。総誤差関数を最小化するように、ＶＡＥのパラメータを更新してもよい。

以上のことから、従来のＶＡＥに比べて、本発明の実施例に係る情報処理方法１００では、潜在変数は複数の部分により構成され、各部分は１つの特定のセマンティック特徴に対応する。潜在変数の分布は、ガウス分布に限定されず、任意の分布であってもよい。メトリック学習の方法を用いることで、識別性のより良い顔セマンティック特徴を取得できる。

上述した情報処理方法の実施例と同様に、本発明は情報処理装置の実施例をさらに提供する。

図６は本発明の実施例に係る情報処理装置６００の機能的構成の一例を示すブロック図である。

図６に示すように、本発明の実施例に係る情報処理装置６００は、画像抽出部６０２、潜在変数分布取得部６０４及びパラメータ更新部６０６を含む。以下は、画像抽出部６０２、潜在変数分布取得部６０４及びパラメータ更新部６０６の機能的構成の一例を説明する。

画像抽出部６０２は、訓練セットから同一のセマンティック特徴に対応する３つの画像を抽出してもよい。ここで、該３つの画像は、セマンティック特徴について同一のセマンティック特徴値を有する第１画像及び第２画像、並びに第１画像及び第２画像と異なるセマンティック特徴値を有する第３画像を含む。

従来の変分自己符号化アルゴリズムでは、潜在変数の各次元特徴の観点から、特定のセマンティック特徴を有しない。本発明の実施例に係る情報処理装置６００では、潜在変数を複数の部分に分け、各部分は１つの特定のセマンティック特徴、例えば顔の姿勢、年齢、性別などに対応する。

同一のセマンティック特徴に対応する３つの画像の抽出方法の例は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。

潜在変数分布取得部６０４は、変分オートエンコーダ（ＶＡＥ）により、３つの画像のセマンティック特徴に対応する潜在変数の分布を取得してもよい。潜在変数分布取得部６０４では、ＶＡＥにより、３つの画像のセマンティック特徴に対応する潜在変数の分布を取得してもよい。

パラメータ更新部６０６は、該３つの画像の各画像について、損失関数を最小化するようにＶＡＥのパラメータを更新してもよい。ここで、損失関数は、第１画像の潜在変数の分布と第２画像の潜在変数の分布との間の第１距離に対して正の相関関係を有し、第１画像の潜在変数の分布と第３画像の潜在変数の分布との間の第２距離に対して負の相関関係を有する。

メトリック学習は、距離メトリックを構築することによって、異なるサンプル間の距離を表す。セマンティック特徴が身分情報であることを一例にすると、メトリック学習では、同一の人の異なる画像について、潜在変数の分布間の距離が小さくなり、０に収束することが望ましく、異なる人の画像について、潜在変数の分布間の距離が大きくなることが望ましい。メトリック学習、第１画像の潜在変数の分布と第２画像の潜在変数の分布との間の第１距離、第１画像の潜在変数の分布と第３画像の潜在変数の分布との間の第２距離の例は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。

好ましくは、損失関数は、第２距離と第１距離との差が所定の閾値よりも大きいという制約をさらに含んでもよい。その例は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。

以上は、訓練セットにおける３つの画像を一例にしてＶＡＥに対する訓練を説明した。ＶＡＥの訓練を行うために、訓練セット全ての３元集合を走査してもよい。或いは、反復回数を予め設定し、予め設定された反復回数に達した場合にＶＡＥに対する訓練を終了してもよい。

従来のＶＡＥに比べて、本発明の実施例に係る情報処理装置６００では、潜在変数は複数の部分により構成され、各部分は１つの特定のセマンティック特徴に対応する。また、メトリック学習の方法を用いることで、識別性のより良い顔セマンティック特徴を取得できる。

好ましくは、本発明の実施例に係る情報処理装置６００では、損失関数は、教師誤差に関する制約をさらに含んでもよく、教師誤差は、セマンティック特徴のラベル及び画像の潜在変数の分布に基づいて算出されたものである。ＶＡＥを訓練するプロセスにおいて教師情報を追加する。従って、本発明の実施例に係る情報処理装置６００における損失関数は教師誤差に関する制約をさらに含んでもよく、セマンティック特徴のラベル及び画像の潜在変数の分布に基づいて教師誤差を算出してもよい。

好ましくは、教師誤差を算出するステップは、非線形関数を用いて画像の潜在変数の分布をクラス空間にマッピングしてマッピング出力を取得するステップと、分類損失関数又は回帰損失関数を用いて、マッピング出力及びセマンティック特徴のラベルに基づいて教師誤差を算出するステップとを含んでもよい。教師誤差の算出方法の例は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。

好ましくは、画像の潜在変数の事前分布は任意の分布を含む。本発明の実施例に係る情報処理装置６００では、潜在変数の分布及び潜在変数の事前分布は、従来のＶＡＥにおけるガウス分布に限定されず、任意の分布であってもよい。

好ましくは、画像の潜在変数の事前分布を取得するステップは、潜在変数の分布に基づいて、ガウス分布に従う中間変数を取得するステップと、中間変数に対して非線形変換を行い、潜在変数の事前分布を取得するステップとを含む。画像の潜在変数の事前分布の取得方法の例は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。

好ましくは、本発明の実施例に係る情報処理装置６００では、損失関数は、潜在変数の分布と潜在変数の事前分布とのカルバック・ライブラー・ダイバージェンス（ＫＬダイバージェンス）に関する制約、及び中間変数の分布と標準ガウス分布とのＫＬダイバージェンスに関する制約をさらに含んでもよい。潜在変数の分布と潜在変数の事前分布とのＫＬダイバージェンス、及び中間変数の分布と標準ガウス分布とのＫＬダイバージェンスの例は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。

好ましくは、本発明の実施例に係る情報処理装置６００では、損失関数は、再構築誤差に関する制約をさらに含んでもよく、再構築誤差は、ＶＡＥに出力された画像と該画像に対応するＶＡＥから出力された画像との差異を評価するために用いられる。再構築誤差の算出方法の例は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。

以上のことから、従来のＶＡＥに比べて、本発明の実施例に係る情報処理装置６００では、潜在変数は複数の部分により構成され、各部分は１つの特定のセマンティック特徴に対応する。潜在変数の分布は、ガウス分布に限定されず、任意の分布であってもよい。メトリック学習の方法を用いることで、識別性のより良い顔セマンティック特徴を取得できる。

なお、以上は本発明の実施例に係る情報処理装置の機能的構成を説明しているが、該機能的構成は単なる例示的なものであり、本発明を限定するものではない。当業者は、本発明の原理に従って上記実施例を修正してもよく、例えば各実施例における機能的モジュールを追加、削除又は組み合わせてもよく、これらの修正は本発明の範囲に含まれるものである。

また、ここの装置の実施例は上記方法の実施例に対応するため、装置の実施例に詳細に説明されていない内容は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。

なお、本発明の実施例の記憶媒体及びプログラムプロダクトにおける機器が実行可能な命令は上記情報処理方法を実行してもよく、ここで詳細に説明されていない内容は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。

それに応じて、本発明は、機器が実行可能な命令を含むプログラムプロダクトが記録されている記憶媒体をさらに含む。該記憶媒体は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカード、メモリスティック等を含むが、これらに限定されない。

本発明のもう１つの態様では、情報検出方法をさらに提供する。本発明の実施例に係る情報検出方法は、訓練された変分オートエンコーダ（ＶＡＥ）に複数の画像をそれぞれ入力し、各画像のセマンティック特徴に対応する潜在変数の分布を取得し、各画像の再構築画像を取得するステップ、を含み、ここで、複数の画像のうち同一のセマンティック特徴を有する３つの画像について、３つの画像は、セマンティック特徴について同一のセマンティック特徴値を有する第１画像及び第２画像、並びに第１画像及び第２画像と異なるセマンティック特徴値を有する第３画像を含み、第１画像の潜在変数の分布と第２画像の潜在変数の分布との間の第１距離は、第１画像の潜在変数の分布と第３画像の潜在変数の分布との間の第２距離よりも小さい。

一例として、本発明の実施例の情報検出方法では、訓練されたＶＡＥにより取得された各入力画像のセマンティック特徴に対応する潜在変数の分布を取得し、各入力画像の再構築画像を取得する。同一のセマンティック特徴に対応する３つの画像ｘ_ｉ ^ａ、ｘ_ｉ ^ｐ及びｘ_ｉ ^ｎが存在し、画像ｘ_ｉ ^ａと画像ｘ_ｉ ^ｐは同一のセマンティック特徴値を有し、画像ｘ_ｉ ^ｎのセマンティック特徴値は画像ｘ_ｉ ^ａ及び画像ｘ_ｉ ^ｐと異なると仮定する。本発明の実施例に係る情報処理方法で式（１）を参照しながら説明するように、ＶＡＥを訓練する場合に、損失関数は、第１画像の潜在変数の分布と第２画像の潜在変数の分布との間の第１距離に対して正の相関関係を有し、第１画像の潜在変数の分布と第３画像の潜在変数の分布との間の第２距離に対して負の相関関係を有し、第２距離と第１距離との差が所定の閾値よりも大きい。このため、上記の訓練されたＶＡＥを用いて画像を再構築する場合に、３つの画像ｘ_ｉ ^ａ、ｘ_ｉ ^ｐ及びｘ_ｉ ^ｎについて、画像ｘ_ｉ ^ａの潜在変数の分布と画像ｘ_ｉ ^ｐの潜在変数の分布との間の第１距離は、画像ｘ_ｉ ^ａの潜在変数の分布と画像ｘ_ｉ ^ｎの潜在変数の分布との間の第２距離よりも小さい。

本発明の実施例に係る情報検出方法によれば、識別性を有する顔セマンティック特徴を抽出することができる。

上記の情報検出方法の実施例と同様に、本発明は下記の情報検出装置の実施例をさらに提供する。本発明の実施例に係る情報検出装置は、訓練された変分オートエンコーダ（ＶＡＥ）に複数の画像をそれぞれ入力し、各画像のセマンティック特徴に対応する潜在変数の分布を取得し、各画像の再構築画像を取得する再構築画像取得部を含み、ここで、複数の画像のうち同一のセマンティック特徴を有する３つの画像について、３つの画像は、セマンティック特徴について同一のセマンティック特徴値を有する第１画像及び第２画像、並びに第１画像及び第２画像と異なるセマンティック特徴値を有する第３画像を含み、第１画像の潜在変数の分布と第２画像の潜在変数の分布との間の第１距離は、第１画像の潜在変数の分布と第３画像の潜在変数の分布との間の第２距離よりも小さい。

本発明の実施例に係る情報検出装置によれば、識別性を有する顔セマンティック特徴を抽出することができる。

なお、以上は本発明の実施例に係る情報検出装置の機能的構成を説明しているが、該機能的構成は単なる例示的なものであり、本発明を限定するものではない。当業者は、本発明の原理に従って上記実施例を修正してもよく、例えば各実施例における機能的モジュールを追加、削除又は組み合わせてもよく、これらの修正は本発明の範囲に含まれるものである。

なお、本発明の実施例の記憶媒体及びプログラムプロダクトにおける機器が実行可能な命令は上記情報検出方法を実行してもよく、ここで詳細に説明されていない内容は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。

本発明のもう１つの態様では、上記情報処理方法により訓練されたＶＡＥを用いて入力画像を再構築する方法及び装置をさらに提供する。

なお、上記処理及び装置はソフトウェア及び／又はファームウェアにより実現されてもよい。ソフトウェア及び／又はファームウェアにより実施されている場合、記憶媒体又はネットワークから専用のハードウェア構成を有するコンピュータ、例えば図７示されている汎用パーソナルコンピュータ７００に上記方法を実施するためのソフトウェアを構成するプログラムをインストールしてもよく、該コンピュータは各種のプログラムがインストールされている場合は各種の機能などを実行できる。

図７において、中央処理部（即ちＣＰＵ）７０１は、読み出し専用メモリ（ＲＯＭ）７０２に記憶されているプログラム、又は記憶部７０８からランダムアクセスメモリ（ＲＡＭ）７０３にロードされたプログラムにより各種の処理を実行する。ＲＡＭ７０３には、必要に応じて、ＣＰＵ７０１が各種の処理を実行するに必要なデータが記憶されている。

ＣＰＵ７０１、ＲＯＭ７０２、及びＲＡＭ７０３は、バス７０４を介して互いに接続されている。入力／出力インターフェース７０５もバス７０４に接続されている。

入力部７０６（キーボード、マウスなどを含む）、出力部７０７（ディスプレイ、例えばブラウン管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）など、及びスピーカなどを含む）、記憶部７０８（例えばハードディスクなどを含む）、通信部７０９（例えばネットワークのインタフェースカード、例えばＬＡＮカード、モデムなどを含む）は、入力／出力インターフェース７０５に接続されている。通信部７０９は、ネットワーク、例えばインターネットを介して通信処理を実行する。

必要に応じて、ドライブ部７１０は、入力／出力インターフェース７０５に接続されてもよい。取り外し可能な媒体７１１は、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどであり、必要に応じてドライブ部７１０にセットアップされて、その中から読みだされたコンピュータプログラムは必要に応じて記憶部７０８にインストールされている。

ソフトウェアにより上記処理を実施する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体７１１を介してソフトウェアを構成するプログラムをインストールする。

なお、これらの記憶媒体は、図７に示されている、プログラムを記憶し、機器と分離してユーザへプログラムを提供する取り外し可能な媒体７１１に限定されない。取り外し可能な媒体７１１は、例えば磁気ディスク（フロッピーディスク（登録商標）を含む）、光ディスク（光ディスク－読み出し専用メモリ（ＣＤ－ＲＯＭ）、及びデジタル多目的ディスク（ＤＶＤ）を含む）、光磁気ディスク（ミニディスク（ＭＤ）（登録商標））及び半導体メモリを含む。或いは、記憶媒体は、ＲＯＭ７０２、記憶部７０８に含まれるハードディスクなどであってもよく、プログラムを記憶し、それらを含む機器と共にユーザへ提供される。

以上は図面を参照しながら本発明の好ましい実施例を説明しているが、上記実施例及び例は例示的なものであり、制限的なものではない。当業者は、特許請求の範囲の主旨及び範囲内で本発明に対して各種の修正、改良、均等的なものに変更してもよい。これらの修正、改良又は均等的なものに変更することは本発明の保護範囲に含まれるものである。

例えば、上記実施例の１つのユニットに含まれる機能は別々の装置により実現されてもよい。また、上記実施例の複数のユニットにより実現される複数の機能は別々の装置によりそれぞれ実現されてもよい。さらに、以上の機能の１つは複数のユニットにより実現されてもよい。なお、これらの構成は本発明の範囲内のものである。

また、本発明の方法は、明細書に説明された時間的順序で実行するものに限定されず、他の時間的順序で順次、並行、又は独立して実行されてもよい。このため、本明細書に説明された方法の実行順序は、本発明の技術的な範囲を限定するものではない。
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。
（付記１）
訓練セットから同一のセマンティック特徴に対応する３つの画像を抽出するステップであって、前記３つの画像は、前記セマンティック特徴について同一のセマンティック特徴値を有する第１画像及び第２画像、並びに前記第１画像及び前記第２画像と異なるセマンティック特徴値を有する第３画像を含む、ステップと、
変分オートエンコーダ（ＶＡＥ）により、前記３つの画像の前記セマンティック特徴に対応する潜在変数の分布を取得するステップと、
前記３つの画像の各画像について、損失関数を最小化するように前記ＶＡＥのパラメータを更新するステップであって、前記損失関数は、前記第１画像の潜在変数の分布と前記第２画像の潜在変数の分布との間の第１距離に対して正の相関関係を有し、前記第１画像の潜在変数の分布と前記第３画像の潜在変数の分布との間の第２距離に対して負の相関関係を有する、ステップと、を含む、情報処理方法。
（付記２）
前記損失関数は、前記第２距離と前記第１距離との差が所定の閾値よりも大きいという制約をさらに含む、付記１に記載の情報処理方法。
（付記３）
前記損失関数は、教師誤差に関する制約をさらに含み、
前記教師誤差は、前記セマンティック特徴のラベル及び画像の前記潜在変数の分布に基づいて算出されたものである、付記２に記載の情報処理方法。
（付記４）
前記教師誤差を算出するステップは、
非線形関数を用いて画像の前記潜在変数の分布をクラス空間にマッピングしてマッピング出力を取得するステップと、
分類損失関数又は回帰損失関数を用いて、前記マッピング出力及び前記セマンティック特徴のラベルに基づいて前記教師誤差を算出するステップと、を含む、付記３に記載の情報処理方法。
（付記５）
画像の前記潜在変数の事前分布は任意の分布を含む、付記３に記載の情報処理方法。
（付記６）
画像の前記潜在変数の事前分布を取得するステップは、
前記潜在変数の分布に基づいて、ガウス分布に従う中間変数を取得するステップと、
前記中間変数に対して非線形変換を行い、前記潜在変数の事前分布を取得するステップと、を含む、付記５に記載の情報処理方法。
（付記７）
前記損失関数は、前記潜在変数の分布と前記潜在変数の事前分布とのカルバック・ライブラー・ダイバージェンス（ＫＬダイバージェンス）に関する制約、及び前記中間変数の分布と標準ガウス分布とのＫＬダイバージェンスに関する制約をさらに含む、付記６に記載の情報処理方法。
（付記８）
前記損失関数は、再構築誤差に関する制約をさらに含み、
前記再構築誤差は、前記ＶＡＥに出力された画像と該画像に対応する前記ＶＡＥから出力された画像との差異を評価するために用いられる、付記７に記載の情報処理方法。
（付記９）
訓練セットから同一のセマンティック特徴に対応する３つの画像を抽出する画像抽出手段であって、前記３つの画像は、前記セマンティック特徴について同一のセマンティック特徴値を有する第１画像及び第２画像、並びに前記第１画像及び前記第２画像と異なるセマンティック特徴値を有する第３画像を含む、画像抽出手段と、
変分オートエンコーダ（ＶＡＥ）により、前記３つの画像の前記セマンティック特徴に対応する潜在変数の分布を取得する潜在変数分布取得手段と、
前記３つの画像の各画像について、損失関数を最小化するように前記ＶＡＥのパラメータを更新するパラメータ更新手段であって、前記損失関数は、前記第１画像の潜在変数の分布と前記第２画像の潜在変数の分布との間の第１距離に対して正の相関関係を有し、前記第１画像の潜在変数の分布と前記第３画像の潜在変数の分布との間の第２距離に対して負の相関関係を有する、パラメータ更新手段と、を含む、情報処理装置。
（付記１０）
前記損失関数は、前記第２距離と前記第１距離との差が所定の閾値よりも大きいという制約をさらに含む、付記９に記載の情報処理装置。
（付記１１）
前記損失関数は、教師誤差に関する制約をさらに含み、
前記教師誤差は、前記セマンティック特徴のラベル及び画像の前記潜在変数の分布に基づいて算出されたものである、付記１０に記載の情報処理装置。
（付記１２）
前記教師誤差を算出するステップは、
非線形関数を用いて画像の前記潜在変数の分布をクラス空間にマッピングしてマッピング出力を取得するステップと、
分類損失関数又は回帰損失関数を用いて、前記マッピング出力及び前記セマンティック特徴のラベルに基づいて前記教師誤差を算出するステップと、を含む、付記１１に記載の情報処理装置。
（付記１３）
画像の前記潜在変数の事前分布は任意の分布を含む、付記１１に記載の情報処理装置。
（付記１４）
画像の前記潜在変数の事前分布を取得するステップは、
前記潜在変数の分布に基づいて、ガウス分布に従う中間変数を取得するステップと、
前記中間変数に対して非線形変換を行い、前記潜在変数の事前分布を取得するステップと、を含む、付記１３に記載の情報処理装置。
（付記１５）
前記損失関数は、前記潜在変数の分布と前記潜在変数の事前分布とのカルバック・ライブラー・ダイバージェンス（ＫＬダイバージェンス）に関する制約、及び前記中間変数の分布と標準ガウス分布とのＫＬダイバージェンスに関する制約をさらに含む、付記１４に記載の情報処理装置。
（付記１６）
前記損失関数は、再構築誤差に関する制約をさらに含み、
前記再構築誤差は、前記ＶＡＥに出力された画像と該画像に対応する前記ＶＡＥから出力された画像との差異を評価するために用いられる、付記１５に記載の情報処理装置。
（付記１７）
訓練された変分オートエンコーダ（ＶＡＥ）に複数の画像をそれぞれ入力し、各画像のセマンティック特徴に対応する潜在変数の分布を取得し、各画像の再構築画像を取得するステップ、を含み、
前記複数の画像のうち同一のセマンティック特徴を有する３つの画像について、前記３つの画像は、前記セマンティック特徴について同一のセマンティック特徴値を有する第１画像及び第２画像、並びに前記第１画像及び前記第２画像と異なるセマンティック特徴値を有する第３画像を含み、
前記第１画像の潜在変数の分布と前記第２画像の潜在変数の分布との間の第１距離は、前記第１画像の潜在変数の分布と前記第３画像の潜在変数の分布との間の第２距離よりも小さい、情報検出方法。

Claims

訓練セットから同一のセマンティック特徴に対応する３つの画像を抽出するステップであって、前記３つの画像は、前記セマンティック特徴について同一のセマンティック特徴値を有する第１画像及び第２画像、並びに前記第１画像及び前記第２画像と異なるセマンティック特徴値を有する第３画像を含む、ステップと、
変分オートエンコーダ（ＶＡＥ）により、前記３つの画像の前記セマンティック特徴に対応する潜在変数の分布を取得するステップと、
前記３つの画像の各画像について、損失関数を最小化するように前記ＶＡＥのパラメータを更新するステップであって、前記損失関数は、前記第１画像の潜在変数の分布と前記第２画像の潜在変数の分布との間の第１距離に対して正の相関関係を有し、前記第１画像の潜在変数の分布と前記第３画像の潜在変数の分布との間の第２距離に対して負の相関関係を有する、ステップと、を含む、情報処理方法。
前記損失関数は、前記第２距離と前記第１距離との差が所定の閾値よりも大きいという制約をさらに含む、請求項１に記載の情報処理方法。
前記損失関数は、教師誤差に関する制約をさらに含み、
前記教師誤差は、前記セマンティック特徴のラベル及び画像の前記潜在変数の分布に基づいて算出されたものである、請求項２に記載の情報処理方法。
前記教師誤差を算出するステップは、
非線形関数を用いて画像の前記潜在変数の分布をクラス空間にマッピングしてマッピング出力を取得するステップと、
分類損失関数又は回帰損失関数を用いて、前記マッピング出力及び前記セマンティック特徴のラベルに基づいて前記教師誤差を算出するステップと、を含む、請求項３に記載の情報処理方法。
画像の前記潜在変数の事前分布は任意の分布を含む、請求項３に記載の情報処理方法。
画像の前記潜在変数の事前分布を取得するステップは、
前記潜在変数の分布に基づいて、ガウス分布に従う中間変数を取得するステップと、
前記中間変数に対して非線形変換を行い、前記潜在変数の事前分布を取得するステップと、を含む、請求項５に記載の情報処理方法。
前記損失関数は、前記潜在変数の分布と前記潜在変数の事前分布とのカルバック・ライブラー・ダイバージェンス（ＫＬダイバージェンス）に関する制約、及び前記中間変数の分布と標準ガウス分布とのＫＬダイバージェンスに関する制約をさらに含む、請求項６に記載の情報処理方法。
前記損失関数は、再構築誤差に関する制約をさらに含み、
前記再構築誤差は、前記ＶＡＥに出力された画像と該画像に対応する前記ＶＡＥから出力された画像との差異を評価するために用いられる、請求項７に記載の情報処理方法。
訓練セットから同一のセマンティック特徴に対応する３つの画像を抽出する画像抽出手段であって、前記３つの画像は、前記セマンティック特徴について同一のセマンティック特徴値を有する第１画像及び第２画像、並びに前記第１画像及び前記第２画像と異なるセマンティック特徴値を有する第３画像を含む、画像抽出手段と、
変分オートエンコーダ（ＶＡＥ）により、前記３つの画像の前記セマンティック特徴に対応する潜在変数の分布を取得する潜在変数分布取得手段と、
前記３つの画像の各画像について、損失関数を最小化するように前記ＶＡＥのパラメータを更新するパラメータ更新手段であって、前記損失関数は、前記第１画像の潜在変数の分布と前記第２画像の潜在変数の分布との間の第１距離に対して正の相関関係を有し、前記第１画像の潜在変数の分布と前記第３画像の潜在変数の分布との間の第２距離に対して負の相関関係を有する、パラメータ更新手段と、を含む、情報処理装置。
訓練された変分オートエンコーダ（ＶＡＥ）に複数の画像をそれぞれ入力し、各画像のセマンティック特徴に対応する潜在変数の分布を取得し、各画像の再構築画像を取得するステップ、を含み、
前記複数の画像のうち同一のセマンティック特徴を有する３つの画像について、前記３つの画像は、前記セマンティック特徴について同一のセマンティック特徴値を有する第１画像及び第２画像、並びに前記第１画像及び前記第２画像と異なるセマンティック特徴値を有する第３画像を含み、
前記第１画像の潜在変数の分布と前記第２画像の潜在変数の分布との間の第１距離は、前記第１画像の潜在変数の分布と前記第３画像の潜在変数の分布との間の第２距離よりも小さい、情報検出方法。