JP7119865B2 - 情報処理方法及び装置、並びに情報検出方法及び装置 - Google Patents

情報処理方法及び装置、並びに情報検出方法及び装置 Download PDF

Info

Publication number
JP7119865B2
JP7119865B2 JP2018188151A JP2018188151A JP7119865B2 JP 7119865 B2 JP7119865 B2 JP 7119865B2 JP 2018188151 A JP2018188151 A JP 2018188151A JP 2018188151 A JP2018188151 A JP 2018188151A JP 7119865 B2 JP7119865 B2 JP 7119865B2
Authority
JP
Japan
Prior art keywords
image
distribution
images
latent
latent variables
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018188151A
Other languages
English (en)
Other versions
JP2019075108A (ja
Inventor
シェヌ・ウエイ
リィウ・ルゥジエ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2019075108A publication Critical patent/JP2019075108A/ja
Application granted granted Critical
Publication of JP7119865B2 publication Critical patent/JP7119865B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Description

本発明は、情報処理の分野に関し、具体的には、識別性を有する顔セマンティック特徴を抽出できる情報処理方法及び装置、並びに情報検出方法及び装置に関する。
近年、画像生成は明らかに進んでいる。例えば敵対的生成ネットワーク(GAN:Generative Adversarial Network)及び変分オートエンコーダ(VAE:Variational AutoEncoder)等のモデルを用いて画像を生成する。しかし、GANモデルは、ランダムノイズを入力とするものであり、画像を潜在空間に符号化する能力を有しない。VAEは、画像を潜在空間に符号化することができるが、該潜在空間はマンティック的な意味を有しない。即ち、これらのモデルは、識別性を有する顔セマンティック特徴を抽出することができない。
以下は、本発明の態様を基本的に理解させるために、本発明の簡単な概要を説明する。なお、この簡単な概要は、本発明を網羅的な概要ではなく、本発明のポイント又は重要な部分を意図的に特定するものではなく、本発明の範囲を意図的に限定するものではなく、後述するより詳細的な説明の前文として、単なる概念を簡単な形で説明することを目的とする。
本発明は、上記の問題点を鑑み、識別性を有する顔セマンティック特徴を抽出できる情報処理方法及び装置、並びに情報検出方法及び装置を提供することを目的とする。
本発明の1つの態様では、訓練セットから同一のセマンティック特徴に対応する3つの画像を抽出するステップであって、前記3つの画像は、前記セマンティック特徴について同一のセマンティック特徴値を有する第1画像及び第2画像、並びに前記第1画像及び前記第2画像と異なるセマンティック特徴値を有する第3画像を含む、ステップと、変分オートエンコーダ(VAE)により、前記3つの画像の前記セマンティック特徴に対応する潜在変数の分布を取得するステップと、前記3つの画像の各画像について、損失関数を最小化するように前記VAEのパラメータを更新するステップであって、前記損失関数は、前記第1画像の潜在変数の分布と前記第2画像の潜在変数の分布との間の第1距離に対して正の相関関係を有し、前記第1画像の潜在変数の分布と前記第3画像の潜在変数の分布との間の第2距離に対して負の相関関係を有する、ステップと、を含む、情報処理方法を提供する。
本発明のもう1つの態様では、訓練セットから同一のセマンティック特徴に対応する3つの画像を抽出する画像抽出手段であって、前記3つの画像は、前記セマンティック特徴について同一のセマンティック特徴値を有する第1画像及び第2画像、並びに前記第1画像及び前記第2画像と異なるセマンティック特徴値を有する第3画像を含む、画像抽出手段と、変分オートエンコーダ(VAE)により、前記3つの画像の前記セマンティック特徴に対応する潜在変数の分布を取得する潜在変数分布取得手段と、前記3つの画像の各画像について、損失関数を最小化するように前記VAEのパラメータを更新するパラメータ更新手段であって、前記損失関数は、前記第1画像の潜在変数の分布と前記第2画像の潜在変数の分布との間の第1距離に対して正の相関関係を有し、前記第1画像の潜在変数の分布と前記第3画像の潜在変数の分布との間の第2距離に対して負の相関関係を有する、パラメータ更新手段と、を含む、情報処理装置を提供する。
本発明の1つの態様では、訓練された変分オートエンコーダ(VAE)に複数の画像をそれぞれ入力し、各画像のセマンティック特徴に対応する潜在変数の分布を取得し、各画像の再構築画像を取得するステップ、を含み、前記複数の画像のうち同一のセマンティック特徴を有する3つの画像について、前記3つの画像は、前記セマンティック特徴について同一のセマンティック特徴値を有する第1画像及び第2画像、並びに前記第1画像及び前記第2画像と異なるセマンティック特徴値を有する第3画像を含み、前記第1画像の潜在変数の分布と前記第2画像の潜在変数の分布との間の第1距離は、前記第1画像の潜在変数の分布と前記第3画像の潜在変数の分布との間の第2距離よりも小さい、情報検出方法を提供する。
本発明の他の態様では、上記本発明の方法を実現するためのコンピュータプログラムコード及びコンピュータプログラムプロダクト、並びに上記本発明の方法を実現するためのコンピュータプログラムコードを記録しているコンピュータ読み取り可能な記憶媒体をさらに提供する。
以下は、本発明の実施例の他の態様を説明し、本発明の実施例の好ましい実施例を詳細に説明するが、本発明はこれらの実施例に限定されない。
本発明の他の特徴及び利点を理解させるために、図面を参照しながら本発明の各実施例を説明する。全ての図面において、同一又は類似の符号で同一又は類似の構成部を示している。ここで説明される図面は、好ましい実施例を例示するためのものであり、全ての可能な実施例ではなく、本発明の範囲を限定するものではない。
本発明の実施例に係る情報処理方法の流れの一例を示すフローチャートである。 本発明の実施例に係るメトリック学習を示す図である。 情報処理方法を実現するためのネットワークを示すブロック図である。 本発明の実施例に係る符号化ネットワーク及び復号ネットワークの構成を示すブロック図である。 本発明の実施例に係る潜在変数の構成を示す図である。 本発明の実施例に係る情報処理装置の機能的構成の一例を示すブロック図である。 本発明の実施例に適用可能な情報処理装置であるパーソナルコンピュータの例示的な構成を示すブロック図である。
以下、図面を参照しながら本発明の例示的な実施例を詳細に説明する。説明の便宜上、明細書には実際の実施形態の全ての特徴が示されていない。なお、実際に実施する際に、開発者の具体的な目標を実現するために、特定の実施形態を変更してもよい、例えばシステム及び業務に関する制限条件に応じて実施形態を変更してもよい。また、開発作業が非常に複雑であり、且つ時間がかかるが、本公開の当業者にとって、この開発作業は単なる例の作業である。
なお、本発明を明確にするために、図面には本発明の実施例に密に関連する装置の構成及び/又は処理のステップのみが示され、本発明と関係のない細部が省略されている。
VAEの主な目的は入力画像の再構築であり、VAEの入力は元の画像であり、出力は再構築画像である。より具体的には、VAEでは、入力画像を符号化し、潜在変数の分布表現を取得し、この分布表現は平均値ベクトル及び標準偏差ベクトルを含むガウス分布表現である。この2つのベクトルは何れも1次元のベクトルであり、平均値ベクトル及び標準偏差ベクトルをサンプリングして新たなベクトルを取得し、新たなベクトルを用いて再構築を行い、最終的な再構築画像を取得する。VAEを訓練するための目的関数(損失関数とも称される)は2つの部分により構成され、1つは再構築誤差(入力画像と再構築画像との誤差)であり、もう1つは中間潜在変数とガウス分布とのKL(Kullback-Leibler:カルバック・ライブラー)距離である。VAEは、画像を潜在空間に符号化することができるが、該潜在空間はマンティック的な意味を有しない。
本願は、識別性を有する顔セマンティック特徴(例えば、身分、姿勢、年齢、性別など)を抽出できる情報処理方法を提供し、該情報処理方法は、VAEモデルの画像生成の能力とメトリック学習とを組み合わせたものである。
以下、図面を参照しながら、本発明の実施例を詳細に説明する。
まず、図1を参照しながら、本発明の実施例に係る情報処理方法100の流れの一例を説明する。図1は本発明の実施例に係る情報処理方法の流れの一例を示すフローチャートである。図1に示すように、本発明の実施例に係る情報処理方法100は、画像抽出ステップS102、潜在変数分布取得ステップS104及びパラメータ更新ステップS106を含む。
画像抽出ステップS102において、訓練セットから同一のセマンティック特徴(semantic feature)に対応する3つの画像を抽出してもよい。ここで、該3つの画像は、セマンティック特徴について同一のセマンティック特徴値を有する第1画像及び第2画像、並びに第1画像及び第2画像と異なるセマンティック特徴値を有する第3画像を含む。
従来の変分自己符号化アルゴリズムでは、潜在変数の各次元特徴の観点から、特定のセマンティック特徴を有しない。本発明の実施例に係る情報処理方法100では、潜在変数を複数の部分に分け、各部分は1つの特定のセマンティック特徴、例えば顔の姿勢、年齢、性別などに対応する。
画像抽出ステップS102において、訓練セットから同一のセマンティック特徴に対応する3つの画像x 、x 及びx を抽出する。ここで、画像x と画像x は同一のセマンティック特徴値を有し、画像x のセマンティック特徴値は画像x 及び画像x と異なる。セマンティック特徴が身分であることを一例にすると、この3つの画像は全てセマンティック特徴「身分」を有し、画像x と画像x が同一のセマンティック特徴値を有することは、この2つの画像が同一の人に属することを意味し、画像x のセマンティック特徴値が画像x 及び画像x と異なることは、画像x が他の人に属することを意味する。
潜在変数分布取得ステップS104において、変分オートエンコーダ(VAE:Variational AutoEncoder)により、3つの画像のセマンティック特徴に対応する潜在変数の分布を取得してもよい。該ステップにおいて、VAEにより、3つの画像x 、x 及びx のセマンティック特徴に対応する潜在変数の分布を取得してもよい。
パラメータ更新ステップS106において、該3つの画像の各画像について、損失関数を最小化するようにVAEのパラメータを更新してもよい。ここで、損失関数は、第1画像の潜在変数の分布と第2画像の潜在変数の分布との間の第1距離に対して正の相関関係を有し、第1画像の潜在変数の分布と第3画像の潜在変数の分布との間の第2距離に対して負の相関関係を有する。
メトリック学習は、距離メトリックを構築することによって、異なるサンプル間の距離を表す。セマンティック特徴が身分情報であることを一例にすると、メトリック学習では、同一の人の異なる画像について、潜在変数の分布間の距離が小さくなり、0に収束することが望ましく、異なる人の画像について、潜在変数の分布間の距離が大きくなることが望ましい。
図2は本発明の実施例に係るメトリック学習を示す図である。説明の便宜上、図2では、a、p及びnで画像x 、x 及びx をそれぞれ表し、図2の左部分及び右部分はa、p及びnにより構成された3元集合をそれぞれ示している。また、この3つの画像のセマンティック特徴が身分情報であると仮定すると、aとpは同一の身分値を有し(即ちaとpは同一の人に対応し)、nの身分値はa及びpの身分値と異なる(即ちnはa及びpと異なる人に対応する)。図2の左部分の3元集合では、aとpの間の潜在変数の分布の距離はaとnの間の潜在変数の分布の距離よりも大きい。上述したように、メトリック学習では、aとpの間の潜在変数の分布の距離が小さくなり、aとnの間の潜在変数の分布の距離が大きくなるようにする。即ち、メトリック学習では、同一の人の異なる画像a及びpについて、潜在変数の分布間の距離が小さくなり、0に収束することが望ましく、異なる人の画像について、潜在変数の分布間の距離が大きくなることが望ましい。図2の右部分の3元集合に示すように、上記メトリック学習が行われた後に、aとnの間の潜在変数の分布の距離はaとpの間の潜在変数の分布の距離よりも大きい。図2では、説明の便宜上、セマンティック特徴が身分情報であると仮定しているが、これは単なる一例であり、本発明を限定するものではなく、図2におけるセマンティック特徴は例えば姿勢、年齢などの他のセマンティック特徴であってもよい。
3つの画像x 、x 及びx により構成された3元集合について、距離メトリックに基づく損失関数Lmetの計算式は、以下のように表してもよい。
Figure 0007119865000001
式(1)において、
(外1)
Figure 0007119865000002

(外2)
Figure 0007119865000003
及び
(外3)
Figure 0007119865000004
は画像x 、x 及びx の潜在変数の分布をそれぞれ表し、
(外4)
Figure 0007119865000005
は画像x とx の間の潜在変数の分布の第1距離であり、
(外5)
Figure 0007119865000006
は画像x とx の間の潜在変数の分布の第2距離であり、+は、[]内の値がゼロよりも大きい場合に該値を損失とし、ゼロよりも小さい場合に損失がゼロであることを表す。tは所定の閾値であり、当業者が経験に基づいて設定されてもよく、例えばtを0に設定してもよい。式(1)から分かるように、損失関数Lmetは、画像x の潜在変数の分布と画像x の潜在変数の分布との間の第1距離に対して正の相関関係を有し、画像x の潜在変数の分布と画像x の潜在変数の分布との間の第2距離に対して負の相関関係を有する。該メトリック学習を用いることで、識別性のより良い顔セマンティック特徴を取得できる。
好ましくは、本発明の実施例に係る情報処理方法100では、損失関数は、第2距離と第1距離との差が所定の閾値よりも大きいという制約をさらに含んでもよい。式(1)に示す距離メトリックでは、
(外6)
Figure 0007119865000007

(外7)
Figure 0007119865000008
との間の距離と、
(外8)
Figure 0007119865000009

(外9)
Figure 0007119865000010
との間の距離との間には、最小の間隔がある。例えば、式(1)における所定の閾値tをゼロでない値に設定してもよく、例えばtを1に設定してもよい。
パラメータ更新ステップS106において、損失関数Lmetを最小化するようにVAEのパラメータを更新してもよい。
以上は、説明の便宜上、訓練セットにおける3つの画像を一例にして本発明の実施例に係る情報処理方法100のステップを説明し、即ち訓練セットにおける3つの画像を一例にしてVAEに対する訓練を説明した。VAEの訓練を行うために、訓練セット全ての3元集合を走査してもよい。或いは、反復回数を予め設定し、予め設定された反復回数に達した場合にVAEに対する訓練を終了してもよい。
本発明の実施例に係る情報処理方法をより明確に説明するために、図3は情報処理方法100を実現するためのネットワークを示している。
図3におけるネットワークは、符号化ネットワーク及び復号ネットワークを含む。符号化ネットワーク及び復号ネットワークは、潜在変数層及び結合層により結合される。入力画像は、符号化ネットワークにより符号化された後に潜在変数層に入力される。潜在変数層は、z、z、z、…zである合計n+1個の潜在変数を含み、各潜在変数は1つの特定のセマンティック特徴に対応する。メトリック学習により潜在変数の分布を制限し(即ち、上述したように、損失関数を最小化することで潜在変数の分布を制限し)、制限された潜在変数は復号ネットワークにフィードバックされ、復号ネットワークにより出力画像(再構築画像)が取得される。
図4は本発明の実施例に係る符号化ネットワーク及び復号ネットワークの構成を示すブロック図である。図4に示すように、符号化ネットワーク及び復号ネットワークは、それぞれ複数の隠れ層により構成されている。
従来のVAEに比べて、本発明の実施例に係る情報処理方法100では、潜在変数は複数の部分により構成され、各部分は1つの特定のセマンティック特徴に対応する。また、メトリック学習の方法を用いることで、識別性のより良い顔セマンティック特徴を取得できる。
好ましくは、本発明の実施例に係る情報処理方法100では、損失関数は、教師誤差に関する制約をさらに含んでもよく、教師誤差は、セマンティック特徴のラベル及び画像の潜在変数の分布に基づいて算出されたものである。VAEを訓練するプロセスにおいて教師情報を追加する。従って、本発明の実施例に係る情報処理方法100における損失関数は教師誤差に関する制約をさらに含んでもよく、セマンティック特徴のラベル及び画像の潜在変数の分布に基づいて教師誤差を算出してもよい。
好ましくは、教師誤差を算出するステップは、非線形関数を用いて画像の潜在変数の分布をクラス空間にマッピングしてマッピング出力を取得するステップと、分類損失関数又は回帰損失関数を用いて、マッピング出力及びセマンティック特徴のラベルに基づいて教師誤差を算出するステップとを含んでもよい。
一例として、教師誤差を算出する際に、まず非線形関数を用いて画像の潜在変数の分布をクラス空間にマッピングしてマッピング出力を取得してもよく、該非線形関数は多層ニューラルネットワークを用いて実現してもよい。画像の潜在変数をzで表し、クラス空間がm個のクラスサブ空間(例えば身分サブ空間、姿勢サブ空間及び年齢サブ空間などであり、各クラスは1つのセマンティック特徴に対応する)を含むと、非線形関数fu()を用いてzの分布を該m個のクラスサブ空間にそれぞれマッピングして、各クラスサブ空間におけるマッピング出力(即ち、各セマンティック特徴空間における出力)fu(z)を取得してもよく、i=0,1,2,…,m-1。一例として、非線形関数fu()を用いてzの分布を身分サブ空間にマッピングして、身分サブ空間におけるマッピング出力を取得し、zの分布を姿勢サブ空間にマッピングして、姿勢サブ空間におけるマッピング出力を取得してもよい。このように、潜在変数の異なるクラスサブ空間における識別性を向上できる。
セマンティック特徴のラベル値が離散的なものであるか、それとも連続的なものであるかに応じて、分類損失関数又は回帰損失関数を用いて教師誤差を算出してもよい。
ラベル値が例えば画像における顔の身分情報(A、B、C、D)のような離散的なものである場合は、下記の分類損失関数を用いて教師誤差を算出する。
Figure 0007119865000011
式(2)では、
(外10)
Figure 0007119865000012
は、fu(z)がi番目のクラスのセマンティック特徴のラベルlabelであると予測される確率である。
ラベルのタイプが例えば画像における顔姿勢情報の回転角度(50度、49度、48度など)のような連続的なものである場合は、下記の回帰損失関数を用いて教師誤差を算出する。
Figure 0007119865000013
式(3)では、labelはi番目のクラスのセマンティック特徴のラベルである。
全てのm個のクラスについて、総教師誤差は、全てのm個のクラスの教師誤差の和、即ち
(外11)
Figure 0007119865000014

であり、ここで、i=0,1,2,…,m-1。
好ましくは、画像の潜在変数の事前分布は任意の分布を含む。本発明の実施例に係る情報処理方法100では、潜在変数の分布及び潜在変数の事前分布は、従来のVAEにおけるガウス分布に限定されず、任意の分布であってもよい。
好ましくは、画像の前記潜在変数の事前分布を取得するステップは、潜在変数の分布に基づいて、ガウス分布に従う中間変数を取得するステップと、中間変数に対して非線形変換を行い、潜在変数の事前分布を取得するステップとを含む。
図5は本発明の実施例に係る潜在変数の構成を示す図である。図5では、最下位の層は符号化ネットワークからの入力ベクトルであり、隠れ層を介して、潜在変数zの分布の平均値ベクトルz及び分散ベクトルzが生成され、z及びzに対してサンプリングを行うことで、該構成の出力であるzを取得でき、即ち、zは図5に示す潜在変数の構成の出力であり、図3における結合層に入力される。また、潜在変数zの分布に基づいて取得されたガウス分布に従う上位変数(中間変数)をuで表し、zの事前分布をz’で表すと、u及びz’とzの関係を明確に示すために、図5においてu及びz’をさらに示し、図5においては、uの分布の平均値ベクトルはuであり、分散ベクトルはuである。
図5に示すように、潜在変数zの分布に基づいて、ガウス分布に従う中間変数uを取得する。zの事前分布z’は中間変数uにより構築され、即ちuを非線形マッピングしてzの事前分布z’を取得する。uの事前分布は標準ガウス分布であるが、非線形変換が行われた後に、z’の分布は任意の分布であってもよい(即ち、複数のガウス分布を組み合わせて、任意の分布を取得してもよい)。一方、zとz’が類似の分布を有するように制限することで、zが任意の分布の性質を有することを実現する。
好ましくは、本発明の実施例に係る情報処理方法100では、損失関数は、潜在変数の分布と潜在変数の事前分布とのカルバック・ライブラー・ダイバージェンス(KLダイバージェンス)に関する制約、及び中間変数の分布と標準ガウス分布とのKLダイバージェンスに関する制約をさらに含んでもよい。
KLダイバージェンス(KL距離)は、2つの分布の類似度を評価するために用いられる。2つの分布の差異が小さいほど、KLダイバージェンスは小さくなり、2つの分布の差異が大きいほど、KLダイバージェンスは大きくなる。
潜在変数zの分布をP(z)で表し、潜在変数zの分布P(z)に合わせて、潜在変数zの事前分布をQ(z’)で表すと、潜在変数の分布と潜在変数の事前分布とのKLダイバージェンスKL(P||Q)は次のように表してもよい。
Figure 0007119865000015
中間変数uの分布をS(u)で表し、標準ガウス分布をG(0,1)で表すと、中間変数の分布と標準ガウス分布とのKLダイバージェンスKL(S||G)は次のように表してもよい。
Figure 0007119865000016
上述したように、損失関数は、式(4)及び(5)に基づいて算出されたKLダイバージェンスの制約をさらに含んでもよい。
好ましくは、本発明の実施例に係る情報処理方法100では、損失関数は、再構築誤差に関する制約をさらに含んでもよく、再構築誤差は、VAEに出力された画像と該画像に対応するVAEから出力された画像との差異を評価するために用いられる。VAEを用いて画像を再構築する場合は、VAEに出力された画像と、該画像に対応するVAEから出力された画像(即ち、再構築画像)とは差異がある(即ち再構築誤差がある)。損失関数は、該再構築誤差に関する制約をさらに含んでもよい。画像の3元集合(3つの画像x 、x 及びx を含む)の例では、以下は説明の便宜上、該3つの画像の全てをxで表し、それに対応する出力画像をx で表すと、各画像の再構築誤差Lrecは次のように表してもよい。
Figure 0007119865000017
上記3つの画像について、総再構築誤差は各画像の再構築誤差の和である。説明の便宜上、以下の説明では、総再構築誤差は単にLrecで表される。
本発明の実施例に係る情報処理方法100では、損失関数が上記制約を全て含む場合、訓練セットの画像における任意の3元集合について、総損失関数Lは次のように表してもよい。
Figure 0007119865000018
式(7)では、Lrecは総再構築誤差であり、
(外12)
Figure 0007119865000019
は総教師誤差であり、Lmetは距離メトリックに基づく損失関数であり、KL(P||Q)は潜在変数の分布と潜在変数の事前分布とのKLダイバージェンスであり、KL(S||G)は中間変数の分布と標準ガウス分布とのKLダイバージェンスであり、α及びβは定数であり、その値が[0,1]の範囲内にある。総誤差関数を最小化するように、VAEのパラメータを更新してもよい。
以上のことから、従来のVAEに比べて、本発明の実施例に係る情報処理方法100では、潜在変数は複数の部分により構成され、各部分は1つの特定のセマンティック特徴に対応する。潜在変数の分布は、ガウス分布に限定されず、任意の分布であってもよい。メトリック学習の方法を用いることで、識別性のより良い顔セマンティック特徴を取得できる。
上述した情報処理方法の実施例と同様に、本発明は情報処理装置の実施例をさらに提供する。
図6は本発明の実施例に係る情報処理装置600の機能的構成の一例を示すブロック図である。
図6に示すように、本発明の実施例に係る情報処理装置600は、画像抽出部602、潜在変数分布取得部604及びパラメータ更新部606を含む。以下は、画像抽出部602、潜在変数分布取得部604及びパラメータ更新部606の機能的構成の一例を説明する。
画像抽出部602は、訓練セットから同一のセマンティック特徴に対応する3つの画像を抽出してもよい。ここで、該3つの画像は、セマンティック特徴について同一のセマンティック特徴値を有する第1画像及び第2画像、並びに第1画像及び第2画像と異なるセマンティック特徴値を有する第3画像を含む。
従来の変分自己符号化アルゴリズムでは、潜在変数の各次元特徴の観点から、特定のセマンティック特徴を有しない。本発明の実施例に係る情報処理装置600では、潜在変数を複数の部分に分け、各部分は1つの特定のセマンティック特徴、例えば顔の姿勢、年齢、性別などに対応する。
同一のセマンティック特徴に対応する3つの画像の抽出方法の例は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。
潜在変数分布取得部604は、変分オートエンコーダ(VAE)により、3つの画像のセマンティック特徴に対応する潜在変数の分布を取得してもよい。潜在変数分布取得部604では、VAEにより、3つの画像のセマンティック特徴に対応する潜在変数の分布を取得してもよい。
パラメータ更新部606は、該3つの画像の各画像について、損失関数を最小化するようにVAEのパラメータを更新してもよい。ここで、損失関数は、第1画像の潜在変数の分布と第2画像の潜在変数の分布との間の第1距離に対して正の相関関係を有し、第1画像の潜在変数の分布と第3画像の潜在変数の分布との間の第2距離に対して負の相関関係を有する。
メトリック学習は、距離メトリックを構築することによって、異なるサンプル間の距離を表す。セマンティック特徴が身分情報であることを一例にすると、メトリック学習では、同一の人の異なる画像について、潜在変数の分布間の距離が小さくなり、0に収束することが望ましく、異なる人の画像について、潜在変数の分布間の距離が大きくなることが望ましい。メトリック学習、第1画像の潜在変数の分布と第2画像の潜在変数の分布との間の第1距離、第1画像の潜在変数の分布と第3画像の潜在変数の分布との間の第2距離の例は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。
好ましくは、損失関数は、第2距離と第1距離との差が所定の閾値よりも大きいという制約をさらに含んでもよい。その例は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。
以上は、訓練セットにおける3つの画像を一例にしてVAEに対する訓練を説明した。VAEの訓練を行うために、訓練セット全ての3元集合を走査してもよい。或いは、反復回数を予め設定し、予め設定された反復回数に達した場合にVAEに対する訓練を終了してもよい。
従来のVAEに比べて、本発明の実施例に係る情報処理装置600では、潜在変数は複数の部分により構成され、各部分は1つの特定のセマンティック特徴に対応する。また、メトリック学習の方法を用いることで、識別性のより良い顔セマンティック特徴を取得できる。
好ましくは、本発明の実施例に係る情報処理装置600では、損失関数は、教師誤差に関する制約をさらに含んでもよく、教師誤差は、セマンティック特徴のラベル及び画像の潜在変数の分布に基づいて算出されたものである。VAEを訓練するプロセスにおいて教師情報を追加する。従って、本発明の実施例に係る情報処理装置600における損失関数は教師誤差に関する制約をさらに含んでもよく、セマンティック特徴のラベル及び画像の潜在変数の分布に基づいて教師誤差を算出してもよい。
好ましくは、教師誤差を算出するステップは、非線形関数を用いて画像の潜在変数の分布をクラス空間にマッピングしてマッピング出力を取得するステップと、分類損失関数又は回帰損失関数を用いて、マッピング出力及びセマンティック特徴のラベルに基づいて教師誤差を算出するステップとを含んでもよい。教師誤差の算出方法の例は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。
好ましくは、画像の潜在変数の事前分布は任意の分布を含む。本発明の実施例に係る情報処理装置600では、潜在変数の分布及び潜在変数の事前分布は、従来のVAEにおけるガウス分布に限定されず、任意の分布であってもよい。
好ましくは、画像の潜在変数の事前分布を取得するステップは、潜在変数の分布に基づいて、ガウス分布に従う中間変数を取得するステップと、中間変数に対して非線形変換を行い、潜在変数の事前分布を取得するステップとを含む。画像の潜在変数の事前分布の取得方法の例は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。
好ましくは、本発明の実施例に係る情報処理装置600では、損失関数は、潜在変数の分布と潜在変数の事前分布とのカルバック・ライブラー・ダイバージェンス(KLダイバージェンス)に関する制約、及び中間変数の分布と標準ガウス分布とのKLダイバージェンスに関する制約をさらに含んでもよい。潜在変数の分布と潜在変数の事前分布とのKLダイバージェンス、及び中間変数の分布と標準ガウス分布とのKLダイバージェンスの例は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。
好ましくは、本発明の実施例に係る情報処理装置600では、損失関数は、再構築誤差に関する制約をさらに含んでもよく、再構築誤差は、VAEに出力された画像と該画像に対応するVAEから出力された画像との差異を評価するために用いられる。再構築誤差の算出方法の例は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。
以上のことから、従来のVAEに比べて、本発明の実施例に係る情報処理装置600では、潜在変数は複数の部分により構成され、各部分は1つの特定のセマンティック特徴に対応する。潜在変数の分布は、ガウス分布に限定されず、任意の分布であってもよい。メトリック学習の方法を用いることで、識別性のより良い顔セマンティック特徴を取得できる。
なお、以上は本発明の実施例に係る情報処理装置の機能的構成を説明しているが、該機能的構成は単なる例示的なものであり、本発明を限定するものではない。当業者は、本発明の原理に従って上記実施例を修正してもよく、例えば各実施例における機能的モジュールを追加、削除又は組み合わせてもよく、これらの修正は本発明の範囲に含まれるものである。
また、ここの装置の実施例は上記方法の実施例に対応するため、装置の実施例に詳細に説明されていない内容は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。
なお、本発明の実施例の記憶媒体及びプログラムプロダクトにおける機器が実行可能な命令は上記情報処理方法を実行してもよく、ここで詳細に説明されていない内容は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。
それに応じて、本発明は、機器が実行可能な命令を含むプログラムプロダクトが記録されている記憶媒体をさらに含む。該記憶媒体は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカード、メモリスティック等を含むが、これらに限定されない。
本発明のもう1つの態様では、情報検出方法をさらに提供する。本発明の実施例に係る情報検出方法は、訓練された変分オートエンコーダ(VAE)に複数の画像をそれぞれ入力し、各画像のセマンティック特徴に対応する潜在変数の分布を取得し、各画像の再構築画像を取得するステップ、を含み、ここで、複数の画像のうち同一のセマンティック特徴を有する3つの画像について、3つの画像は、セマンティック特徴について同一のセマンティック特徴値を有する第1画像及び第2画像、並びに第1画像及び第2画像と異なるセマンティック特徴値を有する第3画像を含み、第1画像の潜在変数の分布と第2画像の潜在変数の分布との間の第1距離は、第1画像の潜在変数の分布と第3画像の潜在変数の分布との間の第2距離よりも小さい。
一例として、本発明の実施例の情報検出方法では、訓練されたVAEにより取得された各入力画像のセマンティック特徴に対応する潜在変数の分布を取得し、各入力画像の再構築画像を取得する。同一のセマンティック特徴に対応する3つの画像x 、x 及びx が存在し、画像x と画像x は同一のセマンティック特徴値を有し、画像x のセマンティック特徴値は画像x 及び画像x と異なると仮定する。本発明の実施例に係る情報処理方法で式(1)を参照しながら説明するように、VAEを訓練する場合に、損失関数は、第1画像の潜在変数の分布と第2画像の潜在変数の分布との間の第1距離に対して正の相関関係を有し、第1画像の潜在変数の分布と第3画像の潜在変数の分布との間の第2距離に対して負の相関関係を有し、第2距離と第1距離との差が所定の閾値よりも大きい。このため、上記の訓練されたVAEを用いて画像を再構築する場合に、3つの画像x 、x 及びx について、画像x の潜在変数の分布と画像x の潜在変数の分布との間の第1距離は、画像x の潜在変数の分布と画像x の潜在変数の分布との間の第2距離よりも小さい。
本発明の実施例に係る情報検出方法によれば、識別性を有する顔セマンティック特徴を抽出することができる。
上記の情報検出方法の実施例と同様に、本発明は下記の情報検出装置の実施例をさらに提供する。本発明の実施例に係る情報検出装置は、訓練された変分オートエンコーダ(VAE)に複数の画像をそれぞれ入力し、各画像のセマンティック特徴に対応する潜在変数の分布を取得し、各画像の再構築画像を取得する再構築画像取得部を含み、ここで、複数の画像のうち同一のセマンティック特徴を有する3つの画像について、3つの画像は、セマンティック特徴について同一のセマンティック特徴値を有する第1画像及び第2画像、並びに第1画像及び第2画像と異なるセマンティック特徴値を有する第3画像を含み、第1画像の潜在変数の分布と第2画像の潜在変数の分布との間の第1距離は、第1画像の潜在変数の分布と第3画像の潜在変数の分布との間の第2距離よりも小さい。
本発明の実施例に係る情報検出装置によれば、識別性を有する顔セマンティック特徴を抽出することができる。
なお、以上は本発明の実施例に係る情報検出装置の機能的構成を説明しているが、該機能的構成は単なる例示的なものであり、本発明を限定するものではない。当業者は、本発明の原理に従って上記実施例を修正してもよく、例えば各実施例における機能的モジュールを追加、削除又は組み合わせてもよく、これらの修正は本発明の範囲に含まれるものである。
また、ここの装置の実施例は上記方法の実施例に対応するため、装置の実施例に詳細に説明されていない内容は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。
なお、本発明の実施例の記憶媒体及びプログラムプロダクトにおける機器が実行可能な命令は上記情報検出方法を実行してもよく、ここで詳細に説明されていない内容は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。
それに応じて、本発明は、機器が実行可能な命令を含むプログラムプロダクトが記録されている記憶媒体をさらに含む。該記憶媒体は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカード、メモリスティック等を含むが、これらに限定されない。
本発明のもう1つの態様では、上記情報処理方法により訓練されたVAEを用いて入力画像を再構築する方法及び装置をさらに提供する。
なお、上記処理及び装置はソフトウェア及び/又はファームウェアにより実現されてもよい。ソフトウェア及び/又はファームウェアにより実施されている場合、記憶媒体又はネットワークから専用のハードウェア構成を有するコンピュータ、例えば図7示されている汎用パーソナルコンピュータ700に上記方法を実施するためのソフトウェアを構成するプログラムをインストールしてもよく、該コンピュータは各種のプログラムがインストールされている場合は各種の機能などを実行できる。
図7において、中央処理部(即ちCPU)701は、読み出し専用メモリ(ROM)702に記憶されているプログラム、又は記憶部708からランダムアクセスメモリ(RAM)703にロードされたプログラムにより各種の処理を実行する。RAM703には、必要に応じて、CPU701が各種の処理を実行するに必要なデータが記憶されている。
CPU701、ROM702、及びRAM703は、バス704を介して互いに接続されている。入力/出力インターフェース705もバス704に接続されている。
入力部706(キーボード、マウスなどを含む)、出力部707(ディスプレイ、例えばブラウン管(CRT)、液晶ディスプレイ(LCD)など、及びスピーカなどを含む)、記憶部708(例えばハードディスクなどを含む)、通信部709(例えばネットワークのインタフェースカード、例えばLANカード、モデムなどを含む)は、入力/出力インターフェース705に接続されている。通信部709は、ネットワーク、例えばインターネットを介して通信処理を実行する。
必要に応じて、ドライブ部710は、入力/出力インターフェース705に接続されてもよい。取り外し可能な媒体711は、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどであり、必要に応じてドライブ部710にセットアップされて、その中から読みだされたコンピュータプログラムは必要に応じて記憶部708にインストールされている。
ソフトウェアにより上記処理を実施する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体711を介してソフトウェアを構成するプログラムをインストールする。
なお、これらの記憶媒体は、図7に示されている、プログラムを記憶し、機器と分離してユーザへプログラムを提供する取り外し可能な媒体711に限定されない。取り外し可能な媒体711は、例えば磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(光ディスク-読み出し専用メモリ(CD-ROM)、及びデジタル多目的ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標))及び半導体メモリを含む。或いは、記憶媒体は、ROM702、記憶部708に含まれるハードディスクなどであってもよく、プログラムを記憶し、それらを含む機器と共にユーザへ提供される。
以上は図面を参照しながら本発明の好ましい実施例を説明しているが、上記実施例及び例は例示的なものであり、制限的なものではない。当業者は、特許請求の範囲の主旨及び範囲内で本発明に対して各種の修正、改良、均等的なものに変更してもよい。これらの修正、改良又は均等的なものに変更することは本発明の保護範囲に含まれるものである。
例えば、上記実施例の1つのユニットに含まれる機能は別々の装置により実現されてもよい。また、上記実施例の複数のユニットにより実現される複数の機能は別々の装置によりそれぞれ実現されてもよい。さらに、以上の機能の1つは複数のユニットにより実現されてもよい。なお、これらの構成は本発明の範囲内のものである。
また、本発明の方法は、明細書に説明された時間的順序で実行するものに限定されず、他の時間的順序で順次、並行、又は独立して実行されてもよい。このため、本明細書に説明された方法の実行順序は、本発明の技術的な範囲を限定するものではない。
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
訓練セットから同一のセマンティック特徴に対応する3つの画像を抽出するステップであって、前記3つの画像は、前記セマンティック特徴について同一のセマンティック特徴値を有する第1画像及び第2画像、並びに前記第1画像及び前記第2画像と異なるセマンティック特徴値を有する第3画像を含む、ステップと、
変分オートエンコーダ(VAE)により、前記3つの画像の前記セマンティック特徴に対応する潜在変数の分布を取得するステップと、
前記3つの画像の各画像について、損失関数を最小化するように前記VAEのパラメータを更新するステップであって、前記損失関数は、前記第1画像の潜在変数の分布と前記第2画像の潜在変数の分布との間の第1距離に対して正の相関関係を有し、前記第1画像の潜在変数の分布と前記第3画像の潜在変数の分布との間の第2距離に対して負の相関関係を有する、ステップと、を含む、情報処理方法。
(付記2)
前記損失関数は、前記第2距離と前記第1距離との差が所定の閾値よりも大きいという制約をさらに含む、付記1に記載の情報処理方法。
(付記3)
前記損失関数は、教師誤差に関する制約をさらに含み、
前記教師誤差は、前記セマンティック特徴のラベル及び画像の前記潜在変数の分布に基づいて算出されたものである、付記2に記載の情報処理方法。
(付記4)
前記教師誤差を算出するステップは、
非線形関数を用いて画像の前記潜在変数の分布をクラス空間にマッピングしてマッピング出力を取得するステップと、
分類損失関数又は回帰損失関数を用いて、前記マッピング出力及び前記セマンティック特徴のラベルに基づいて前記教師誤差を算出するステップと、を含む、付記3に記載の情報処理方法。
(付記5)
画像の前記潜在変数の事前分布は任意の分布を含む、付記3に記載の情報処理方法。
(付記6)
画像の前記潜在変数の事前分布を取得するステップは、
前記潜在変数の分布に基づいて、ガウス分布に従う中間変数を取得するステップと、
前記中間変数に対して非線形変換を行い、前記潜在変数の事前分布を取得するステップと、を含む、付記5に記載の情報処理方法。
(付記7)
前記損失関数は、前記潜在変数の分布と前記潜在変数の事前分布とのカルバック・ライブラー・ダイバージェンス(KLダイバージェンス)に関する制約、及び前記中間変数の分布と標準ガウス分布とのKLダイバージェンスに関する制約をさらに含む、付記6に記載の情報処理方法。
(付記8)
前記損失関数は、再構築誤差に関する制約をさらに含み、
前記再構築誤差は、前記VAEに出力された画像と該画像に対応する前記VAEから出力された画像との差異を評価するために用いられる、付記7に記載の情報処理方法。
(付記9)
訓練セットから同一のセマンティック特徴に対応する3つの画像を抽出する画像抽出手段であって、前記3つの画像は、前記セマンティック特徴について同一のセマンティック特徴値を有する第1画像及び第2画像、並びに前記第1画像及び前記第2画像と異なるセマンティック特徴値を有する第3画像を含む、画像抽出手段と、
変分オートエンコーダ(VAE)により、前記3つの画像の前記セマンティック特徴に対応する潜在変数の分布を取得する潜在変数分布取得手段と、
前記3つの画像の各画像について、損失関数を最小化するように前記VAEのパラメータを更新するパラメータ更新手段であって、前記損失関数は、前記第1画像の潜在変数の分布と前記第2画像の潜在変数の分布との間の第1距離に対して正の相関関係を有し、前記第1画像の潜在変数の分布と前記第3画像の潜在変数の分布との間の第2距離に対して負の相関関係を有する、パラメータ更新手段と、を含む、情報処理装置。
(付記10)
前記損失関数は、前記第2距離と前記第1距離との差が所定の閾値よりも大きいという制約をさらに含む、付記9に記載の情報処理装置。
(付記11)
前記損失関数は、教師誤差に関する制約をさらに含み、
前記教師誤差は、前記セマンティック特徴のラベル及び画像の前記潜在変数の分布に基づいて算出されたものである、付記10に記載の情報処理装置。
(付記12)
前記教師誤差を算出するステップは、
非線形関数を用いて画像の前記潜在変数の分布をクラス空間にマッピングしてマッピング出力を取得するステップと、
分類損失関数又は回帰損失関数を用いて、前記マッピング出力及び前記セマンティック特徴のラベルに基づいて前記教師誤差を算出するステップと、を含む、付記11に記載の情報処理装置。
(付記13)
画像の前記潜在変数の事前分布は任意の分布を含む、付記11に記載の情報処理装置。
(付記14)
画像の前記潜在変数の事前分布を取得するステップは、
前記潜在変数の分布に基づいて、ガウス分布に従う中間変数を取得するステップと、
前記中間変数に対して非線形変換を行い、前記潜在変数の事前分布を取得するステップと、を含む、付記13に記載の情報処理装置。
(付記15)
前記損失関数は、前記潜在変数の分布と前記潜在変数の事前分布とのカルバック・ライブラー・ダイバージェンス(KLダイバージェンス)に関する制約、及び前記中間変数の分布と標準ガウス分布とのKLダイバージェンスに関する制約をさらに含む、付記14に記載の情報処理装置。
(付記16)
前記損失関数は、再構築誤差に関する制約をさらに含み、
前記再構築誤差は、前記VAEに出力された画像と該画像に対応する前記VAEから出力された画像との差異を評価するために用いられる、付記15に記載の情報処理装置。
(付記17)
訓練された変分オートエンコーダ(VAE)に複数の画像をそれぞれ入力し、各画像のセマンティック特徴に対応する潜在変数の分布を取得し、各画像の再構築画像を取得するステップ、を含み、
前記複数の画像のうち同一のセマンティック特徴を有する3つの画像について、前記3つの画像は、前記セマンティック特徴について同一のセマンティック特徴値を有する第1画像及び第2画像、並びに前記第1画像及び前記第2画像と異なるセマンティック特徴値を有する第3画像を含み、
前記第1画像の潜在変数の分布と前記第2画像の潜在変数の分布との間の第1距離は、前記第1画像の潜在変数の分布と前記第3画像の潜在変数の分布との間の第2距離よりも小さい、情報検出方法。

Claims (10)

  1. 訓練セットから同一のセマンティック特徴に対応する3つの画像を抽出するステップであって、前記3つの画像は、前記セマンティック特徴について同一のセマンティック特徴値を有する第1画像及び第2画像、並びに前記第1画像及び前記第2画像と異なるセマンティック特徴値を有する第3画像を含む、ステップと、
    変分オートエンコーダ(VAE)により、前記3つの画像の前記セマンティック特徴に対応する潜在変数の分布を取得するステップと、
    前記3つの画像の各画像について、損失関数を最小化するように前記VAEのパラメータを更新するステップであって、前記損失関数は、前記第1画像の潜在変数の分布と前記第2画像の潜在変数の分布との間の第1距離に対して正の相関関係を有し、前記第1画像の潜在変数の分布と前記第3画像の潜在変数の分布との間の第2距離に対して負の相関関係を有する、ステップと、を含む、情報処理方法。
  2. 前記損失関数は、前記第2距離と前記第1距離との差が所定の閾値よりも大きいという制約をさらに含む、請求項1に記載の情報処理方法。
  3. 前記損失関数は、教師誤差に関する制約をさらに含み、
    前記教師誤差は、前記セマンティック特徴のラベル及び画像の前記潜在変数の分布に基づいて算出されたものである、請求項2に記載の情報処理方法。
  4. 前記教師誤差を算出するステップは、
    非線形関数を用いて画像の前記潜在変数の分布をクラス空間にマッピングしてマッピング出力を取得するステップと、
    分類損失関数又は回帰損失関数を用いて、前記マッピング出力及び前記セマンティック特徴のラベルに基づいて前記教師誤差を算出するステップと、を含む、請求項3に記載の情報処理方法。
  5. 画像の前記潜在変数の事前分布は任意の分布を含む、請求項3に記載の情報処理方法。
  6. 画像の前記潜在変数の事前分布を取得するステップは、
    前記潜在変数の分布に基づいて、ガウス分布に従う中間変数を取得するステップと、
    前記中間変数に対して非線形変換を行い、前記潜在変数の事前分布を取得するステップと、を含む、請求項5に記載の情報処理方法。
  7. 前記損失関数は、前記潜在変数の分布と前記潜在変数の事前分布とのカルバック・ライブラー・ダイバージェンス(KLダイバージェンス)に関する制約、及び前記中間変数の分布と標準ガウス分布とのKLダイバージェンスに関する制約をさらに含む、請求項6に記載の情報処理方法。
  8. 前記損失関数は、再構築誤差に関する制約をさらに含み、
    前記再構築誤差は、前記VAEに出力された画像と該画像に対応する前記VAEから出力された画像との差異を評価するために用いられる、請求項7に記載の情報処理方法。
  9. 訓練セットから同一のセマンティック特徴に対応する3つの画像を抽出する画像抽出手段であって、前記3つの画像は、前記セマンティック特徴について同一のセマンティック特徴値を有する第1画像及び第2画像、並びに前記第1画像及び前記第2画像と異なるセマンティック特徴値を有する第3画像を含む、画像抽出手段と、
    変分オートエンコーダ(VAE)により、前記3つの画像の前記セマンティック特徴に対応する潜在変数の分布を取得する潜在変数分布取得手段と、
    前記3つの画像の各画像について、損失関数を最小化するように前記VAEのパラメータを更新するパラメータ更新手段であって、前記損失関数は、前記第1画像の潜在変数の分布と前記第2画像の潜在変数の分布との間の第1距離に対して正の相関関係を有し、前記第1画像の潜在変数の分布と前記第3画像の潜在変数の分布との間の第2距離に対して負の相関関係を有する、パラメータ更新手段と、を含む、情報処理装置。
  10. 訓練された変分オートエンコーダ(VAE)に複数の画像をそれぞれ入力し、各画像のセマンティック特徴に対応する潜在変数の分布を取得し、各画像の再構築画像を取得するステップ、を含み、
    前記複数の画像のうち同一のセマンティック特徴を有する3つの画像について、前記3つの画像は、前記セマンティック特徴について同一のセマンティック特徴値を有する第1画像及び第2画像、並びに前記第1画像及び前記第2画像と異なるセマンティック特徴値を有する第3画像を含み、
    前記第1画像の潜在変数の分布と前記第2画像の潜在変数の分布との間の第1距離は、前記第1画像の潜在変数の分布と前記第3画像の潜在変数の分布との間の第2距離よりも小さい、情報検出方法。
JP2018188151A 2017-10-18 2018-10-03 情報処理方法及び装置、並びに情報検出方法及び装置 Active JP7119865B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710970935.6 2017-10-18
CN201710970935.6A CN109685087B9 (zh) 2017-10-18 2017-10-18 信息处理方法和装置以及信息检测方法

Publications (2)

Publication Number Publication Date
JP2019075108A JP2019075108A (ja) 2019-05-16
JP7119865B2 true JP7119865B2 (ja) 2022-08-17

Family

ID=66182810

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018188151A Active JP7119865B2 (ja) 2017-10-18 2018-10-03 情報処理方法及び装置、並びに情報検出方法及び装置

Country Status (2)

Country Link
JP (1) JP7119865B2 (ja)
CN (1) CN109685087B9 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7254649B2 (ja) * 2019-07-11 2023-04-10 株式会社東芝 学習装置、診断装置及び学習方法
CN110264398B (zh) * 2019-07-16 2021-05-28 北京市商汤科技开发有限公司 图像处理方法及装置
CN111161249B (zh) * 2019-12-31 2023-06-02 复旦大学 一种基于域适应的无监督医学图像分割方法
US11748629B2 (en) 2020-01-21 2023-09-05 Moxa Inc. Device and method of handling anomaly detection
KR102580159B1 (ko) * 2020-03-05 2023-09-19 한성대학교 산학협력단 자기수렴 생성망 학습 방법 및 시스템
US11301724B2 (en) * 2020-04-30 2022-04-12 Robert Bosch Gmbh Semantic adversarial generation based function testing method in autonomous driving
CN111784121B (zh) * 2020-06-12 2022-08-09 清华大学 基于不确定性分数分布学习的动作质量评价方法
CN112133311B (zh) * 2020-09-18 2023-01-17 科大讯飞股份有限公司 说话人识别方法、相关设备及可读存储介质
WO2022176196A1 (ja) * 2021-02-22 2022-08-25 日本電信電話株式会社 学習装置、学習方法、およびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017094267A1 (ja) 2015-12-01 2017-06-08 株式会社Preferred Networks 異常検出システム、異常検出方法、異常検出プログラム及び学習済モデル生成方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9129190B1 (en) * 2013-12-04 2015-09-08 Google Inc. Identifying objects in images
WO2015192263A1 (en) * 2014-06-16 2015-12-23 Xiaoou Tang A method and a system for face verification
WO2017031356A1 (en) * 2015-08-19 2017-02-23 D-Wave Systems Inc. Discrete variational auto-encoder systems and methods for machine learning using adiabatic quantum computers
CN105224948B (zh) * 2015-09-22 2019-03-01 清华大学 一种基于图像处理的最大间隔深度生成模型的生成方法
EP3171297A1 (en) * 2015-11-18 2017-05-24 CentraleSupélec Joint boundary detection image segmentation and object recognition using deep learning
WO2017136083A1 (en) * 2016-02-05 2017-08-10 Google Inc. Compressing images using neural networks
CN107122809B (zh) * 2017-04-24 2020-04-28 北京工业大学 基于图像自编码的神经网络特征学习方法
CN107194868A (zh) * 2017-05-19 2017-09-22 成都通甲优博科技有限责任公司 一种人脸图像生成方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017094267A1 (ja) 2015-12-01 2017-06-08 株式会社Preferred Networks 異常検出システム、異常検出方法、異常検出プログラム及び学習済モデル生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
尾亦 範泰,オートエンコーダによる低次元化と可視化,可視化情報学会誌 第38巻 第151号,日本,一般社団法人可視化情報学会,2018年,第38巻 第151号,p.9-p.13
山田 智輝,β-VAEを用いた字種非依存な筆跡特徴抽出手法の検討,映像情報メディア学会技術報告 Vol.42 No.27,日本,(一社)映像情報メディア学会,2018年,Vol.42 No.27,p.79-p.82

Also Published As

Publication number Publication date
CN109685087B9 (zh) 2023-02-03
JP2019075108A (ja) 2019-05-16
CN109685087A (zh) 2019-04-26
CN109685087B (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
JP7119865B2 (ja) 情報処理方法及び装置、並びに情報検出方法及び装置
Castiglioni et al. AI applications to medical images: From machine learning to deep learning
US11645833B2 (en) Generative adversarial network medical image generation for training of a classifier
US11032585B2 (en) Real-time synthetically generated video from still frames
US11416772B2 (en) Integrated bottom-up segmentation for semi-supervised image segmentation
JP6725547B2 (ja) 人工ニューラルネットワークの関連性スコア割当て
CN109740620B (zh) 人群画像分类模型的建立方法、装置、设备和存储介质
Emeršič et al. Convolutional encoder–decoder networks for pixel‐wise ear detection and segmentation
Steingrimsson et al. Deep learning for survival outcomes
Darapureddy et al. Optimal weighted hybrid pattern for content based medical image retrieval using modified spider monkey optimization
CN112602155A (zh) 生成针对经训练的模型的元数据
Yu et al. A deep residual computation model for heterogeneous data learning in smart Internet of Things
US20230359868A1 (en) Federated learning method and apparatus based on graph neural network, and federated learning system
WO2019198026A1 (en) Deep learning approach for assessing credit risk
Vieira et al. Main concepts in machine learning
WO2023065070A1 (zh) 一种基于领域自适应的多域医学图像分割方法
US11934555B2 (en) Privacy-preserving data curation for federated learning
US20210397905A1 (en) Classification system
Gaggion et al. Hybrid graph convolutional neural networks for landmark-based anatomical segmentation
CN108304568B (zh) 一种房地产公众预期大数据处理方法及系统
Ampavathi Research challenges and future directions towards medical data processing
Shahin et al. Survival analysis for idiopathic pulmonary fibrosis using ct images and incomplete clinical data
US20220391760A1 (en) Combining model outputs into a combined model output
KR102358050B1 (ko) 의료 영상 기반의 병변 분석 방법
Mirzargar et al. Representative Consensus from Limited‐Size Ensembles

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210610

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220718

R150 Certificate of patent or registration of utility model

Ref document number: 7119865

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150