JP2018055384A

JP2018055384A - 信号調整装置、信号生成学習装置、方法、及びプログラム

Info

Publication number: JP2018055384A
Application number: JP2016190353A
Authority: JP
Inventors: 卓弘金子; Takuhiro Kaneko; 薫平松; Kaoru Hiramatsu; 柏野　邦夫; Kunio Kashino; 邦夫柏野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-09-28
Filing date: 2016-09-28
Publication date: 2018-04-05
Anticipated expiration: 2036-09-28
Also published as: JP6692272B2

Abstract

【課題】信号を適切に調整することができる。【解決手段】予測部５０が、画像データから属性ベクトルを予測する。エンコード部５２が、入力された画像データ、及び属性ベクトルを入力とし、隠れ変数を抽出するためのニューラルネットワークを用いて、画像データの隠れ変数を抽出する。調整部５４が、抽出された隠れ変数の値を調整する。デコード部５６が、調整された隠れ変数を入力とし、画像データを生成するためのニューラルネットワークを用いて、画像データを生成する。【選択図】図８

Description

本発明は、信号調整装置、信号生成学習装置、方法、及びプログラムに係り、特に、信号を生成するための信号調整装置、信号生成学習装置、方法、及びプログラムに関する。

従来より、画像を直接編集する方法が知られている（非特許文献１）。

また、属性を１次元のベクトルで表現し(cVAE：attribute-conditioned variational autoencoder)、図３２に示すように画像を編集する方法が知られている（非特許文献２）。

また、属性ベクトル（attribute vector）を以下のように計算し、図３３に示すように、目的画像に加算する方法が知られている。

(attribute vector) = (ある属性を含む画像の隠れ変数の平均)
−(ある属性を含まない画像の隠れ変数の平均)

Liu, "Wow! You Are So Beautiful Today!", ACMMM2013. Yan, "Attribute2Image: Conditional Image Generation from Visual Attributes", arXiv2015. Larsen, "Autoencoding beyond pixels using a learned similarity metric", ICML2016.

上記非特許文献１に記載の方法では、正面、短髪/束ねている、化粧薄い/なし、などの強い制約条件があるため、多様な入力データに対応することは困難である。

また、上記非特許文献２に記載の方法では、属性を１次元で表現しているため、表現能力が不十分である。

また、上記非特許文献３に記載の方法では、画像から抽出される隠れ変数内で、個人性と属性とが分離されていないため、編集しにくい。

本発明は、上記事情を考慮して成されたものであり、信号を適切に調整することができる信号調整装置、方法、及びプログラムを提供することを目的とする。

また、信号から個人性を表す隠れ変数及び各属性を表す隠れ変数を分けて抽出することができるニューラルネットワークを学習することができる信号生成学習装置及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明に係る信号調整装置は、入力された信号を入力とし、信号から隠れ変数を抽出するための予め学習されたニューラルネットワークを用いて、入力された信号の前記隠れ変数を抽出するエンコード部と、前記エンコード部によって抽出された前記隠れ変数の値を調整する調整部と、前記調整部によって調整された前記隠れ変数を入力とし、前記隠れ変数から、信号を生成するための予め学習されたニューラルネットワークを用いて、信号を生成するデコード部と、を含んで構成されている。

本発明に係る信号調整方法は、エンコード部が、入力された信号を入力とし、信号から隠れ変数を抽出するための予め学習されたニューラルネットワークを用いて、入力された信号の前記隠れ変数を抽出し、調整部が、前記エンコード部によって抽出された前記隠れ変数の値を調整し、デコード部が、前記調整部によって調整された前記隠れ変数を入力とし、前記隠れ変数から、信号を生成するための予め学習されたニューラルネットワークを用いて、信号を生成する。

本発明に係る信号生成学習装置は、入力された信号と、前記信号における各属性の有無を表す属性ベクトルとを入力とし、信号から個人性を表す隠れ変数及び各属性を表す隠れ変数を抽出するためのエンコーダとしてのニューラルネットワークと、前記抽出された前記個人性を表す隠れ変数と前記各属性を表す隠れ変数とを入力とし、前記個人性を表す隠れ変数及び前記各属性を表す隠れ変数から、信号を生成するためのデコーダとしてのニューラルネットワークと、前記生成された信号が、前記属性ベクトルの下で真の信号と同一の分布に従うか否かを識別する識別器としてのニューラルネットワークとを、前記エンコーダとしてのニューラルネットワークと、前記デコーダとしてのニューラルネットワークと、前記識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習する学習部を含んで構成されている。

本発明に係るプログラムは、コンピュータを、上記信号調整装置又は信号生成学習装置を構成する各部として機能させるためのプログラムである。

本発明の信号調整装置、方法、及びプログラムによれば、入力された信号を入力とし、ニューラルネットワークを用いて、隠れ変数を抽出し、抽出された隠れ変数の値を調整し、調整された隠れ変数を入力とし、ニューラルネットワークを用いて、信号を生成することにより、信号を適切に調整することができる、という効果が得られる。

また、本発明の信号生成学習装置及びプログラムによれば、信号から個人性を表す隠れ変数及び各属性を表す隠れ変数を抽出するためのエンコーダとしてのニューラルネットワークと、個人性を表す隠れ変数及び前記各属性を表す隠れ変数から、信号を生成するためのデコーダとしてのニューラルネットワークと、生成された信号が、属性ベクトルの下で真の信号と同一の分布に従うか否かを識別する識別器としてのニューラルネットワークとを、互いに競合する最適化条件に従って学習することにより、信号から個人性を表す隠れ変数及び各属性を表す隠れ変数を分けて抽出することができるニューラルネットワークを学習することができる、という効果が得られる。

本発明の第１の実施の形態における属性調整の概念図である。本発明の第１の実施の形態におけるエンコーダ及びデコーダの概念図である。属性を多次元の属性ベクトルで表現することを説明するための図である。（ａ）ＶＡＥの構造を示す図、（ｂ）ｃＶＡＥの構造を示す図、及び（ｃ）ｍｃＶＡＥの構造を示す図である。個人性を保持したまま属性を変更することを説明するための図である。ｍｃＶＡＥを愚直に学習した場合の例を示す図である。ｃＧＡＮを一緒に学習することを説明するための図である。本発明の第１の実施の形態に係る信号調整装置の構成を示すブロック図である。本発明の第１、第２、及び第３の実施の形態に係る信号調整装置における学習処理ルーチンを示すフローチャートである。本発明の第１の実施の形態に係る信号調整装置における生成処理ルーチンを示すフローチャートである。属性「前髪」を調整した場合の結果の例を示す図である。属性「眉毛」を調整した場合の結果の例を示す図である。属性「髭」を調整した場合の結果の例を示す図である。属性「眼鏡」を調整した場合の結果の例を示す図である。属性「化粧」を調整した場合の結果の例を示す図である。属性「笑顔」を調整した場合の結果の例を示す図である。属性「年齢」を調整した場合の結果の例を示す図である。本発明の第２の実施の形態における属性転写の概念図である。本発明の第２の実施の形態に係る信号調整装置の構成を示すブロック図である。本発明の第２及び第３の実施の形態に係る信号調整装置における生成処理ルーチンを示すフローチャートである。属性「笑顔」を転写した場合の結果の例を示す図である。属性「眼鏡」を転写した場合の結果の例を示す図である。本発明の第３の実施の形態における属性強調の概念図である。属性「髭」を強調した場合の結果の例を示す図である。属性の例を示す図である。生成した画像が属性を含むか否かを評価することを説明するための図である。評価結果を示す図である。生成した画像が属性を保持しているか否かを評価することを説明するための図である。評価結果を示す図である。生成した画像の多様性を評価した結果を示す図である。生成した画像の多様性を評価した結果を示す図である。従来技術において属性を１次元で表現した場合を説明するための図である。従来技術において属性ベクトルを利用した場合を説明するための図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の第１の実施の形態に係る概要＞
まず、本発明の第１の実施の形態における概要を説明する。

第１の実施の形態では、図１に示すように、従来の画像編集ソフトと同様に、属性に対応するスライドバーを動かすことで、画像を調整し、属性を自由自在にコントロールすることができるようにする。

ここで、世の中には多様なデータが存在する。様々な顔の向き、様々な照明条件、様々な年齢、様々な表情などである。

そこで、本実施の形態では、画像を直接編集するのではなく、図２に示すようなニューラルネットワークを用いて、隠れ変数（画像を表現するのに有用なエッセンスのようなもの）を抽出し、隠れ変数の値を調整する。

また、一つの属性の中にも多様性が存在する。例えば、一言に「前髪」と言っても様々な形状が存在する。

そこで、本実施の形態では、図３に示すように、属性毎に、複数の隠れ変数で表現する(mcVAE：multi-dimensional attribute-conditioned variational autoencoder)。具体的には、隠れ変数内で、個人性と属性とを分離することで、属性をコントロールしやすくする。また、属性毎に、複数の隠れ変数で表現することにより、十分な表現能力を得る。

ここで、図４（ａ）に従来法（VAE：variational autoencoder）の構造を示し、図４（ｂ）に従来法（cVAE）の構造を示し、図４（ｃ）に、本実施の形態（mcVAE）の構造を示し、構造を比較する。

従来法（VAE）の構造では、抽出される隠れ変数が、属性と個人性とに分離されていない。また、従来法（cVAE）の構造では、抽出される隠れ変数が、属性と個人性とに分離されているものの、各々の属性が１つの隠れ変数で表現されている。

一方、本実施の形態（mcVAE）の構造では、抽出される隠れ変数が、属性と個人性とに分離されており、各々の属性が、複数の隠れ変数で表現されている。

また、本実施の形態では、図５に示すように、画像の属性を調整する際に、個人性を保持したまま属性を変更する。

図６に示すように、mcVAEの構造を愚直に学習しようとする場合、真のデータと、mcVAEを介して生成されたデータとの誤差が小さくなるように学習することになる。このとき、隠れ変数ｚと、属性ベクトルｙとの二つがそれぞれ何を表すかについて明確な制約を与えられない。

そこで、本実施の形態では、図７に示すように、学習時にConditional generative adversarial networks (cGAN)を一緒に学習する。このとき、cGANは、ランダムに選択した隠れ変数zに基づいて生成した画像が、属性ベクトルに応じて、ある属性を含む or 含まないように制約を付与し、識別器は、属性ベクトルが表す各属性の有無の下で、真の画像と同一の分布に従うか否かを識別する。これにより、様々なz_i、z_aについてそれぞれ個人性、属性を表現するように制約を与えることができる。

従来法では、画像の精緻化という目的でVAEとGANを利用していたが（非特許文献３参照）、本実施の形態では、個人性と属性の分離のためにmcVAEとcGANを利用する。

＜本発明の第１の実施の形態に係る信号調整装置の構成＞
次に、本発明の第１の実施の形態に係る信号調整装置の構成について説明する。図８に示すように、本発明の第１の実施の形態に係る信号調整装置１００は、ＣＰＵと、ＲＡＭと、後述する学習処理ルーチン及び生成処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この信号調整装置１００は、機能的には図８に示すように入力部１０と、演算部２０と、出力部９０とを備えている。

入力部１０は、学習データとして、画像データｘ及び属性ベクトルｙのペアを複数受け付ける。また、入力部１０は、調整対象となる画像データｘと、調整対象の属性、調整対象の属性に対応する複数の隠れ変数のうちの何れか一つの指定、及び調整量とを受け付ける。

演算部２０は、学習部３０と、ニューラルネットワーク記憶部４０と、予測部５０と、エンコード部５２と、調整部５４と、デコード部５６とを含んで構成されている。

学習部３０は、入力された学習データに基づいて、画像データｘと、画像データの各属性の有無を表す属性ベクトルｙとを入力とし、画像データから個人性を表す隠れ変数ｚ_i及び各属性を表す隠れ変数ｚ_aを抽出するためのエンコーダとしてのニューラルネットワークと、抽出された個人性を表す隠れ変数ｚ_iと各属性を表す隠れ変数ｚ_aとを入力とし、個人性を表す隠れ変数及び各属性を表す隠れ変数から、画像データ

を生成するためのデコーダとしてのニューラルネットワークと、生成された画像データ

が、属性ベクトルｙの下で真の画像データと同一の分布に従うか否かを識別する識別器としてのニューラルネットワークとを、エンコーダとしてのニューラルネットワークと、デコーダとしてのニューラルネットワークと、識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習する。

具体的には、入力された学習データの画像データｘと属性ベクトルｙとを入力とし、エンコーダとしてのニューラルネットワークを用いて、個人性を表す隠れ変数ｚ_iと各属性を表す隠れ変数ｚ_aを抽出する。このとき、各属性を表す隠れ変数ｚ_aは、属性ベクトルｙに条件付けして、エンコーダとしてのニューラルネットワークが出力する各属性を表す隠れ変数ｚ_a’をフィルタリングすることにより得られる。フィルタリングの一例としては、エンコーダとしてのニューラルネットワークが出力する各属性を表す隠れ変数ｚ_a’と属性ベクトルｙとを掛け合わせることが考えられる。

また、抽出された個人性を表す隠れ変数ｚ_iと各属性を表す隠れ変数ｚ_aとを入力とし、デコーダとしてのニューラルネットワークを用いて、画像データ

を生成する。

また、ランダムに選択された個人性を表す隠れ変数ｚ_i ^pとランダムに選択された各属性を表す隠れ変数ｚ_a ^p’とを求め、属性ベクトルｙに条件付けして、各属性を表す隠れ変数ｚ_a ^p’をフィルタリングすることにより、各属性を表す隠れ変数ｚ_a ^pを求める。そして、個人性を表す隠れ変数ｚ_i ^pと各属性を表す隠れ変数ｚ_a ^pとを入力とし、デコーダとしてのニューラルネットワークを用いて、画像データｘ^pを生成する。

そして、抽出された個人性を表す隠れ変数ｚ_iと各属性を表す隠れ変数ｚ_aとが、所定の分布（例えば正規分布）に従う制約を満たし、かつ、隠れ変数の値を調整せずに生成された画像データ

が、元の画像データｘと同じになる制約を満たすように、エンコーダとしてのニューラルネットワークのパラメータを更新する。

また、生成された画像データ

が、元の画像データｘと同じになる制約を満たし、かつ、生成された画像データ

又はｘ^pを、なるべく識別器が属性ベクトルｙの下で真の画像データと同一の分布に従わないと識別する制約を満たさないように、デコーダとしてのニューラルネットワークのパラメータを更新する。

また、生成された画像データ

又はｘ^pを、なるべく識別器が属性ベクトルｙの下で真の画像データと同一の分布に従わないと識別する制約を満たすように、識別器としてのニューラルネットワークのパラメータを更新する。

なお、生成された画像データ

又はｘ^pを、なるべく識別器が属性ベクトルｙの下で真の画像データと同一の分布に従わないと識別する制約は、以下の損失関数で表わされる。

ただし、Ｄｉｓは識別器（Discriminator）を表し、Ｄｅｃはデコーダを表し、Ｅｎｃはエンコーダを表す。ｚ^pは、個人性を表す隠れ変数ｚ_i ^pと各属性を表す隠れ変数ｚ_a ^pとを表す。また、上記式の第二項は、ｘ^pに対応した項であり、第三項は、

に対応した項である。なお、上記式において、各項に重みをつけて重要度を調整してもよい。

上記の処理を、学習データ毎に行って、各種のニューラルネットワークのパラメータを繰り返し更新する。

最終的に得られたエンコーダとしてのニューラルネットワークと、デコーダとしてのニューラルネットワークと、識別器としてのニューラルネットワークは、ニューラルネットワーク記憶部４０に記憶される。

予測部５０は、入力部１０で受け付けた調整対象の画像データを、属性ベクトルｙを予測するための予測器としての予め学習されたニューラルネットワーク（CNN）に入力し、属性ベクトルｙを予測する。

予測器としてのニューラルネットワーク（CNN）は、属性毎に、当該属性の有無を分類し、属性ベクトルを出力する。

エンコード部５２は、入力された調整対象の画像データｘと、予測部５０によって予測された属性ベクトルｙとを入力とし、ニューラルネットワーク記憶部４０に記憶された、エンコーダとしてのニューラルネットワークを用いて、調整対象の画像データｘの個人性を表す隠れ変数ｚ_i及び各属性を表す隠れ変数ｚ_aを抽出する。このとき、各属性を表す隠れ変数ｚ_aは、属性ベクトルｙに条件付けして、エンコーダとしてのニューラルネットワークが出力する各属性を表す隠れ変数ｚ_a’をフィルタリングすることにより得られる。フィルタリングの一例としては、エンコーダとしてのニューラルネットワークが出力する各属性を表す隠れ変数ｚ_a’と属性ベクトルｙとを掛け合わせることが考えられる。各属性を表す隠れ変数ｚ_a’は、属性毎に複数の隠れ変数を有しているため、属性ベクトルｙの要素は、属性が対応する複数の隠れ変数の全てに掛け合わされる。

調整部５４は、エンコード部５２によって抽出された各属性を表す隠れ変数ｚ_aのうち、調整対象の属性に対応する指定された一つの隠れ変数

の値を、入力された調整量だけ調整する。

デコード部５６は、エンコード部５２によって抽出された個人性を表す隠れ変数ｚ_iと、調整部５４によって調整された調整対象の属性に対応する指定された一つの隠れ変数

を含む各属性を表す隠れ変数ｚ_aとを入力とし、ニューラルネットワーク記憶部４０に記憶された、デコーダとしてのニューラルネットワークを用いて、画像データ

を生成し、出力部９０により出力する。

＜本発明の第１の実施の形態に係る信号調整装置の作用＞
次に、本発明の第１の実施の形態に係る信号調整装置１００の作用について説明する。信号調整装置１００は、以下に説明する学習処理ルーチンと生成処理ルーチンを実行する。

まず、学習処理ルーチンについて説明する。入力部１０において学習データとして、画像データｘと属性ベクトルｙとのペアを複数受け付けると、信号調整装置１００は、図９に示す学習処理ルーチンを実行する。

まず、ステップＳ１００では、入力部１０で受け付けた複数の学習データのうちの何れか一つを取得する。

次に、ステップＳ１０２では、ステップＳ１００で得た学習データに含まれる画像データｘと属性ベクトルｙとを入力として、エンコーダとしてのニューラルネットワークを用いて、個人性を表す隠れ変数ｚ_iと各属性を表す隠れ変数ｚ_aを抽出する。また、抽出された個人性を表す隠れ変数ｚ_iと各属性を表す隠れ変数ｚ_aとを入力とし、デコーダとしてのニューラルネットワークを用いて、画像データ

を生成する。

ステップＳ１０４では、ランダムに選択された個人性を表す隠れ変数ｚ_i ^pを求め、ランダムに選択された各属性を表す隠れ変数ｚ_a ^p’を求める。

ステップＳ１０６では、と、ステップＳ１００で取得した属性ベクトルｙに条件付けして、ステップＳ１０４で求められた各属性を表す隠れ変数ｚ_a ^p’をフィルタリングすることにより、各属性を表す隠れ変数ｚ_a ^pを求める。

そして、ステップＳ１０８では、上記ステップＳ１０４、Ｓ１０６で求められた、個人性を表す隠れ変数ｚ_i ^pと各属性を表す隠れ変数ｚ_a ^pとを入力とし、デコーダとしてのニューラルネットワークを用いて、画像データｘ^pを生成する。

ステップＳ１１０では、上記ステップＳ１０２で抽出された個人性を表す隠れ変数ｚ_iと各属性を表す隠れ変数ｚ_aと、生成された画像データ

と、上記ステップＳ１０８で生成された画像データｘ^pと、ステップＳ１００で得た学習データに含まれる画像データｘ及び属性ベクトルｙとに基づいて、エンコーダとしてのニューラルネットワークのパラメータ、デコーダとしてのニューラルネットワークのパラメータ、及び識別器としてのニューラルネットワークのパラメータを更新する。

ステップＳ１１２では、全ての学習データについて、上記ステップＳ１００〜Ｓ１１０の処理を実行したか否かを判定し、上記ステップＳ１００〜Ｓ１１０の処理を実行していない学習データが存在する場合、上記ステップＳ１００へ戻り、当該学習データを取得する。一方、全ての学習データについて、上記ステップＳ１００〜Ｓ１１０の処理を実行した場合には、学習処理ルーチンを終了し、最終的に得られたエンコーダとしてのニューラルネットワークのパラメータ、デコーダとしてのニューラルネットワークのパラメータ、及び識別器としてのニューラルネットワークのパラメータを、ニューラルネットワーク記憶部４０に格納する。

次に、生成処理ルーチンについて説明する。入力部１０において調整対象となる画像データと、調整対象の属性と、調整対象の属性に対応する複数の隠れ変数のうちの何れか一つの指定と、調整量とを受け付けると、信号調整装置１００は、図１０に示す生成処理ルーチンを実行する。

ステップＳ１５０では、入力部１０で受け付けた調整対象となる画像データに基づいて、予め学習された予測器としてのニューラルネットワーク（ＣＮＮ）を用いて、属性ベクトルｙを予測する。

ステップＳ１５２では、入力部１０で受け付けた調整対象となる画像データｘと上記ステップＳ１５０で予測された属性ベクトルｙとを入力として、ニューラルネットワーク記憶部４０に記憶された、エンコーダとしてのニューラルネットワークを用いて、個人性を表す隠れ変数ｚ_iと各属性を表す隠れ変数ｚ_aを抽出する。

ステップＳ１５４では、上記ステップＳ１５２で抽出された各属性を表す隠れ変数ｚ_aのうち、調整対象の属性に対応する指定された一つの隠れ変数

の値を、入力部１０で受け付けた調整量だけ調整する。

そして、ステップＳ１５６では、上記ステップＳ１５２で抽出された個人性を表す隠れ変数ｚ_iと、上記ステップＳ１５４で調整された調整対象の属性に対応する指定された一つの隠れ変数

を含む各属性を表す隠れ変数ｚ_aとを入力とし、ニューラルネットワーク記憶部４０に記憶された、デコーダとしてのニューラルネットワークを用いて、画像データ

を生成し、出力部９０により出力して、生成処理ルーチンを終了する。

以上説明したように、本発明の第１の実施の形態に係る信号調整装置によれば、入力された調整対象の画像データを入力とし、ニューラルネットワークを用いて、隠れ変数を抽出し、抽出された隠れ変数の値を調整し、調整された隠れ変数を入力とし、ニューラルネットワークを用いて、画像データを生成することにより、画像データを適切に調整することができる。

また、属性毎に、複数の隠れ変数を有するため、属性の多様性を表現することができ、また、一つの属性に対する複数の隠れ変数のうちの一つの隠れ変数の値だけをコントロールすることができる。

例えば、図１１〜図１７に示すように、「前髪」、「眉毛」、「髭」、「眼鏡」といった局所的な変化に関する属性の調整ができると共に、「化粧」、「笑顔」（表情）、「年齢」のような大局的な変化に関する属性の調整もすることができる。

また、画像データから個人性を表す隠れ変数及び各属性を表す隠れ変数を抽出するためのエンコーダとしてのニューラルネットワークと、個人性を表す隠れ変数及び各属性を表す隠れ変数から、画像データを生成するためのデコーダとしてのニューラルネットワークと、生成された画像データが、属性ベクトルの下で真の画像データと同一の分布に従うか否かを識別する識別器としてのニューラルネットワークとを、互いに競合する最適化条件に従って学習することにより、画像データから個人性を表す隠れ変数及び各属性を表す隠れ変数を分けて抽出することができるニューラルネットワークを学習することができる。

学習時に、エンコーダとしてのニューラルネットワーク及びデコーダとしてのニューラルネットワークをcGANと同時に学習することにより、エンコーダとしてのニューラルネットワークにより抽出される隠れ変数が、個人性と属性を分離して表現するように、ニューラルネットワークを学習することができる。

次に、本発明の第２の実施の形態に係る信号調整装置の構成について説明する。なお、第１の実施の形態と同様となる箇所については同一符号を付して説明を省略する。

第２の実施の形態では、参照対象の画像データから抽出された、調整対象の属性を表す隠れ変数の値で置き換えることにより、調整対象の属性を表す隠れ変数の値を調整している点が、第１の実施の形態と異なっている。

＜本発明の第２の実施の形態に係る概要＞
次に、本発明の第２の実施の形態における概要を説明する。

第２の実施の形態では、参照対象の画像データから抽出された、調整対象の属性を表す隠れ変数の値で置き換える。これにより、図１８に示すように、調整対象の属性について、参照対象の画像データと同じ特性を持つように転写する。例えば、前髪の分け方が参照画像と同じ特性を持つように画像を変化させる。

＜本発明の第２の実施の形態に係る信号調整装置の構成＞
図１９に示すように、本発明の第２の実施の形態に係る信号調整装置２００は、ＣＰＵと、ＲＡＭと、後述する学習処理ルーチン及び生成処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この信号調整装置２００は、機能的には図１９に示すように入力部１０と、演算部２２０と、出力部９０とを備えている。

入力部１０は、学習データとして、画像データｘ及び属性ベクトルｙのペアを複数受け付ける。また、入力部１０は、調整対象となる画像データｘと、調整対象の属性と、参照対象となる画像データｘとを受け付ける。

演算部２２０は、学習部３０と、ニューラルネットワーク記憶部４０と、予測部５０、２５０と、エンコード部５２、２５２と、調整部２５４と、デコード部５６とを含んで構成されている。

予測部２５０は、入力部１０で受け付けた参照対象の画像データを、属性ベクトルｙを予測するための予め学習されたニューラルネットワーク（CNN）に入力し、属性ベクトルｙを予測する。

エンコード部２５２は、入力された参照対象の画像データｘと、予測部２５０によって予測された属性ベクトルｙとを入力とし、ニューラルネットワーク記憶部４０に記憶された、エンコーダとしてのニューラルネットワークを用いて、参照対象の画像データｘの個人性を表す隠れ変数ｚ_i及び各属性を表す隠れ変数ｚ_aを抽出する。このとき、各属性を表す隠れ変数ｚ_aは、属性ベクトルｙに条件付けして、エンコーダとしてのニューラルネットワークが出力する各属性を表す隠れ変数ｚ_a’をフィルタリングすることにより得られる。

調整部２５４は、エンコード部５２によって抽出された各属性を表す隠れ変数ｚ_aのうち、調整対象の属性に対応する複数の隠れ変数

の各々の値を、エンコード部２５２によって抽出された調整対象の属性に対応する複数の隠れ変数

の各々の値で置き換えることにより調整する。

なお、調整部２５４は、エンコード部５２によって抽出された各属性を表す隠れ変数ｚ_aのうち、調整対象の属性に対応する複数の隠れ変数

のうちの少なくとも１つの値を、エンコード部２５２によって抽出された調整対象の属性に対応する複数の隠れ変数

のうちの少なくとも１つの値で置き換えることにより調整するようにしてもよい。これにより、髪型の属性に対応する複数の隠れ変数のうち、髪の分け方のような特性を表す１つの隠れ変数を、参照対象の画像データのように変更することができる。

＜本発明の第２の実施の形態に係る信号調整装置の作用＞
次に、本発明の第２の実施の形態に係る信号調整装置２００の作用について説明する。信号調整装置２００は、まず、上記図９に示す学習処理ルーチンと同様の処理ルーチンを実行し、生成処理ルーチンを実行する。

生成処理ルーチンについて説明する。入力部１０において調整対象となる画像データと、調整対象の属性と、参照対象となる画像データとを受け付けると、信号調整装置２００は、図２０に示す生成処理ルーチンを実行する。なお、第１の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。

ステップＳ１５０では、入力部１０で受け付けた調整対象となる画像データに基づいて、予め学習されたニューラルネットワーク（ＣＮＮ）を用いて、属性ベクトルｙを予測する。

ステップＳ２５０では、入力部１０で受け付けた参照対象となる画像データに基づいて、予め学習されたニューラルネットワーク（ＣＮＮ）を用いて、属性ベクトルｙを予測する。

ステップＳ２５２では、入力部１０で受け付けた参照対象となる画像データｘと上記ステップＳ２５０で予測された属性ベクトルｙとを入力として、ニューラルネットワーク記憶部４０に記憶された、エンコーダとしてのニューラルネットワークを用いて、個人性を表す隠れ変数ｚ_iと各属性を表す隠れ変数ｚ_aを抽出する。

ステップＳ２５４では、上記ステップＳ１５２で抽出された各属性を表す隠れ変数ｚ_aのうち、調整対象の属性に対応する複数の隠れ変数

の各々の値を、上記ステップＳ２５２で抽出された調整対象の属性に対応する複数の隠れ変数

の各々の値で置換することにより調整する。

そして、ステップＳ１５６では、上記ステップＳ１５２で抽出された個人性を表す隠れ変数ｚ_iと、上記ステップＳ２５４で調整された調整対象の属性に対応する複数の隠れ変数

を含む各属性を表す隠れ変数ｚ_aとを入力とし、ニューラルネットワーク記憶部４０に記憶された、デコーダとしてのニューラルネットワークを用いて、画像データ

を生成し、出力部９０により出力して、生成処理ルーチンを終了する。

なお、第２の実施の形態に係る信号調整装置２００の他の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。

以上説明したように、本発明の第２の実施の形態に係る信号調整装置によれば、入力された調整対象の画像データを入力とし、ニューラルネットワークを用いて、隠れ変数を抽出し、入力された参照対象の画像データを入力とし、ニューラルネットワークを用いて、隠れ変数を抽出し、参照対象の画像データから抽出された隠れ変数の値で、調整対象の属性に対応する隠れ変数の値を調整し、調整された隠れ変数を入力とし、ニューラルネットワークを用いて、画像データを生成することにより、画像データの属性を転写することができる。

例えば、図２１、図２２に示すように、属性「笑顔」、「眼鏡」のような複雑な属性を転写することができる。

次に、本発明の第３の実施の形態に係る信号調整装置の構成について説明する。なお、第３の実施の形態に係る信号調整装置は、第２の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。

第３の実施の形態では、参照対象の画像データから抽出された、調整対象の属性を表す隠れ変数の値を基準に、調整対象の属性を表す隠れ変数の値を調整している点が、第２の実施の形態と異なっている。

＜本発明の第３の実施の形態に係る概要＞
次に、本発明の第３の実施の形態における概要を説明する。

第３の実施の形態では、図２３に示すように、参照対象の画像データから抽出された、調整対象の属性を表す隠れ変数の値を基準に、調整対象の画像データから抽出された、調整対象の属性を表す隠れ変数の値を調整し、参照対象の画像データにおける調整対象の属性に近づける。調整度合いは、例えばスライドバーを動かすことでコントロールされる。

＜本発明の第３の実施の形態に係る信号調整装置の構成＞
本発明の第３の実施の形態に係る信号調整装置２００の入力部１０は、学習データとして、画像データｘ及び属性ベクトルｙのペアを複数受け付ける。また、入力部１０は、調整対象となる画像データｘと、調整対象の属性と、調整度合いと、参照対象となる画像データｘとを受け付ける。

調整部２５４は、エンコード部２５２によって抽出された調整対象の属性に対応する複数の隠れ変数

の各々の値と、エンコード部５２によって抽出された調整対象の属性に対応する複数の隠れ変数

の各々の値との差分を、隠れ変数毎に算出する。調整部２５４は、エンコード部５２によって抽出された各属性を表す隠れ変数ｚ_aのうち、調整対象の属性に対応する複数の隠れ変数

の各々の値に、隠れ変数毎に算出した差分に調整度合いを掛けた値だけ加算することにより調整する。

なお、調整部２５４は、エンコード部２５２によって抽出された調整対象の属性に対応する複数の隠れ変数

のうちの少なくとも１つの値と、エンコード部５２によって抽出された調整対象の属性に対応する複数の隠れ変数

のうちの少なくとも１つの値との差分を、隠れ変数毎に算出し、エンコード部５２によって抽出された各属性を表す隠れ変数ｚ_aのうち、調整対象の属性に対応する複数の隠れ変数

のうちの少なくとも１つの値に、隠れ変数毎に算出した差分に調整度合いを掛けた値だけ加算することにより調整するようにしてもよい。これにより、髪型の属性に対応する複数の隠れ変数のうち、髪の分け方のような特性を表す１つの隠れ変数を、参照対象の画像データに近づけるように調整することができる。

なお、第３の実施の形態に係る信号調整装置２００の他の構成及び作用については、第２の実施の形態と同様であるため、説明を省略する。

以上説明したように、本発明の第３の実施の形態に係る信号調整装置によれば、入力された調整対象の画像データを入力とし、ニューラルネットワークを用いて、隠れ変数を抽出し、入力された参照対象の画像データを入力とし、ニューラルネットワークを用いて、隠れ変数を抽出し、参照対象の画像データから抽出された隠れ変数の値との差分に応じて、調整対象の属性に対応する隠れ変数の値を調整し、調整された隠れ変数を入力とし、ニューラルネットワークを用いて、画像データを生成することにより、画像データの属性を、参照対象の画像データのものに近づけることができる。

例えば、図２４に示すように、属性「髭」のような複雑な属性を、参照対象の画像データのものに近づけることができる。

次に、本発明の第４の実施の形態に係る信号調整装置の構成について説明する。なお、第４の実施の形態に係る信号調整装置は、第１の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。

第４の実施の形態では、個人性を表す隠れ変数の値を調整している点が、第１の実施の形態と異なっている。

＜本発明の第４の実施の形態に係る信号調整装置の構成＞
本発明の第４の実施の形態に係る信号調整装置１００の入力部１０は、学習データとして、画像データｘ及び属性ベクトルｙのペアを複数受け付ける。また、入力部１０は、調整対象となる画像データｘと、個人性を表す隠れ変数のうちの何れか一つの指定、及び調整量とを受け付ける。

調整部５４は、エンコード部５２によって抽出された個人性を表す隠れ変数ｚ_iのうち、指定された一つの隠れ変数の値を、入力された調整量だけ調整する。

デコード部５６は、調整部５４によって調整された隠れ変数を含む、個人性を表す隠れ変数ｚ_iと、エンコード部５２によって抽出された各属性を表す隠れ変数ｚ_aとを入力とし、ニューラルネットワーク記憶部４０に記憶された、デコーダとしてのニューラルネットワークを用いて、画像データ

を生成し、出力部９０により出力する。

なお、第４の実施の形態に係る信号調整装置１００の他の構成及び作用は、第１の実施の形態と同様であるため、説明を省略する。

次に、本発明の第５の実施の形態に係る信号調整装置の構成について説明する。なお、第５の実施の形態に係る信号調整装置は、第２の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。

第５の実施の形態では、参照対象の画像データから抽出された、個人性を表す隠れ変数の値で置き換えることにより、個人性を表す隠れ変数の値を調整している点が、第２の実施の形態と異なっている。

＜本発明の第５の実施の形態に係る信号調整装置の構成＞
本発明の第５の実施の形態に係る信号調整装置２００の入力部１０は、学習データとして、画像データｘ及び属性ベクトルｙのペアを複数受け付ける。また、入力部１０は、調整対象となる画像データｘと、参照対象となる画像データｘとを受け付ける。

調整部２５４は、エンコード部５２によって抽出された個人性を表す隠れ変数ｚ_iの値を、エンコード部２５２によって抽出された個人性を表す隠れ変数ｚ_iの値で置き換えることにより調整する。

なお、第５の実施の形態に係る信号調整装置２００の他の構成及び作用は、第２の実施の形態と同様であるため、説明を省略する。

次に、本発明の第６の実施の形態に係る信号調整装置の構成について説明する。なお、第６の実施の形態に係る信号調整装置は、第２の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。

第６の実施の形態では、参照対象の画像データから抽出された、個人性を表す隠れ変数の値を基準に、個人性を表す隠れ変数の値を調整している点が、第３の実施の形態と異なっている。

＜本発明の第６の実施の形態に係る信号調整装置の構成＞
本発明の第６の実施の形態に係る信号調整装置２００の入力部１０は、学習データとして、画像データｘ及び属性ベクトルｙのペアを複数受け付ける。また、入力部１０は、調整対象となる画像データｘと、調整度合いと、参照対象となる画像データｘとを受け付ける。

調整部２５４は、エンコード部２５２によって抽出された個人性を表す隠れ変数ｚ_iの値と、エンコード部５２によって抽出された個人性を表す隠れ変数ｚ_iの値との差分を、隠れ変数毎に算出する。調整部２５４は、エンコード部５２によって抽出された個人性を表す隠れ変数ｚ_iの各々の値に、隠れ変数毎に算出した差分に調整度合いを掛けた値だけ加算することにより調整する。

なお、第６の実施の形態に係る信号調整装置２００の他の構成及び作用は、第３の実施の形態と同様であるため、説明を省略する。

＜実験結果＞
本発明の実施の形態の有効性を示すために、一実現方法を用いて、実験を行った。

実験データとして、インターネット上の画像から収集された200,000枚以上の顔画像であるCelebA dataset（非特許文献４参照）を用い、目の位置を基準にアライメント・切り出しを行い、画像サイズは64×64とした。

[非特許文献４]：Z. Liu, P. Luo, X. Wang, , and X. Tang. Deep learning face attributes in the wild. In ICCV, 2015.

また、属性として、図２５に示す７つの属性を用いた。また、エンコーダ、デコーダ、識別器、及び予測器の各々としてのニューラルネットワークを、以下の表１に示すように実装した。

また、比較対象とする５つのモデルは、VAEと属性を表す隠れ変数（attribute vector）との組み合わせ、VAEとGANと属性を表す隠れ変数（attribute vector）との組み合わせ（上記非特許文献３参照）、cVAE（上記非特許文献２） [related to Yan, arXiv2015]、cVAEとcGANとの組み合わせ、及びmcVAEとした。

本実施の形態に係るモデルは、mcVAEとcGANとの組み合わせである。

また、評価方法として、属性を含むかどうかの評価、個人性を保持しているかどうかの評価、生成画像の多様性の評価を行った。

図２６に示すように、生成した画像が属性を含むかどうかを識別し、属性を含むかどうかの評価を行った。評価結果を図２７に示す。本実施の形態の手法が、最高精度を実現していることが分かった。

また、個人性を保持しているかどうかを評価するために、変化前と変化後の画像を比較し、図２８に示すように、属性に関わる場所（図２８の矩形で囲われた部分）の変化率が、他の場所の変化率よりも大きければ正しいとみなした。評価結果を図２９に示す。cGANを用いることで、個人性の保持性能が概ね向上していることが確認できた。

また、生成画像の多様性を評価するために定性的評価を行った。図３０、図３１に示すように、比較対象のモデルに比べ、一つの属性（前髪、眼鏡）に対して様々な画像が生成できることが分かった。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述した実施の形態では、ニューラルネットワークの学習を行う学習部を含む信号調整装置として構成していたが、これに限定されるものではなく、学習部を含む信号生成学習装置と、予測部、エンコード部、調整部、及びデコード部を含む信号調整装置のそれぞれに分けて構成してもよい。

また、上述した実施の形態では、入力される信号が、画像データである場合を例に説明したが、これに限定されるものではなく、画像データ以外の信号であってもよく、例えば、音声信号（歌）であってもよい。この場合には、個人性（例えば音色）を表す隠れ変数と、属性(例えば、曲調（ラップ調、オーケストラ調など））を表す隠れ変数とを抽出した後、属性を表す隠れ変数だけを調整して、音声信号を再構成することで、音色はそのままで曲調変換をすることができる。

また、上述した実施の形態では、エンコーダ、デコーダ、及び予測器のニューラルネットワークとして、ＣＮＮを用いる場合を例に説明したが、これに限定されるものではなく、他のニューラルネットワーク構造を用いてもよく、例えば、ＲＮＮやＦｕｌｌｙＣｏｎｎｅｃｔｅｄなどを用いてもよい。

また、エンコーダの出力として、隠れ変数そのものを出力する場合を例に説明したが、これに限定されるものではない。例えば、エンコーダの出力を、隠れ変数の分布に関するパラメータ（例えば、ガウシアン分布の場合、平均と標準偏差）とし、その分布パラメータに従ってサンプリングして隠れ変数を得るようにしてもよい。

１０入力部
２０、２２０演算部
３０学習部
４０ニューラルネットワーク記憶部
５０、２５０予測部
５２、２５２エンコード部
５４、２５４調整部
５６デコード部
９０出力部
１００、２００信号調整装置

Claims

入力された信号を入力とし、信号から隠れ変数を抽出するための予め学習されたニューラルネットワークを用いて、入力された信号の前記隠れ変数を抽出するエンコード部と、
前記エンコード部によって抽出された前記隠れ変数の値を調整する調整部と、
前記調整部によって調整された前記隠れ変数を入力とし、前記隠れ変数から、信号を生成するための予め学習されたニューラルネットワークを用いて、信号を生成するデコード部と、
を含む信号調整装置。
前記エンコード部は、入力された信号と、前記信号における各属性の有無を表す属性ベクトルとを入力とし、信号から個人性を表す隠れ変数、及び属性毎に複数の隠れ変数を有する各属性を表す隠れ変数を抽出するための前記予め学習されたニューラルネットワークを用いて、入力された信号の前記個人性を表す隠れ変数及び前記各属性を表す隠れ変数を抽出し、
前記調整部は、前記エンコード部によって抽出された前記各属性を表す隠れ変数のうち、調整対象の属性を表す隠れ変数の値、又は調整対象の個人性を表す隠れ変数を調整し、
前記デコード部は、前記調整部によって調整された前記隠れ変数を含む、前記個人性を表す隠れ変数及び前記各属性を表す隠れ変数を入力とし、前記個人性を表す隠れ変数及び前記各属性を表す隠れ変数から、信号を生成するための前記予め学習されたニューラルネットワークを用いて、信号を生成する
請求項１記載の信号調整装置。
前記エンコード部は、入力された調整対象の信号と、前記調整対象の信号における各属性の有無を表す属性ベクトルとを入力とし、前記隠れ変数を抽出するための前記ニューラルネットワークを用いて、入力された調整対象の信号の前記個人性を表す隠れ変数及び前記各属性を表す隠れ変数を抽出し、
入力された参照対象の信号と、前記参照対象の信号における各属性の有無を表す属性ベクトルとを入力とし、前記隠れ変数を抽出するための前記ニューラルネットワークを用いて、入力された参照対象の信号の前記個人性を表す隠れ変数及び前記各属性を表す隠れ変数を抽出し、
前記調整部は、前記デコード部によって前記調整対象の信号について抽出された前記各属性を表す隠れ変数のうち、調整対象の属性に対する前記複数の隠れ変数のうちの少なくとも１つの値を、前記デコード部によって前記参照対象の信号について抽出された前記調整対象の属性に対する前記複数の隠れ変数のうちの少なくとも１つの値に置き換え、
あるいは、前記デコード部によって前記調整対象の信号について抽出された前記個人性を表す隠れ変数の値を、前記デコード部によって前記参照対象の信号について抽出された前記個人性を表す隠れ変数の値に置き換える請求項２記載の信号調整装置。
前記エンコード部は、入力された調整対象の信号と、前記調整対象の信号における各属性の有無を表す属性ベクトルとを入力とし、前記隠れ変数を抽出するための前記ニューラルネットワークを用いて、入力された調整対象の信号の前記個人性を表す隠れ変数及び前記各属性を表す隠れ変数を抽出し、
入力された参照対象の信号と、前記参照対象の信号における各属性の有無を表す属性ベクトルとを入力とし、前記隠れ変数を抽出するための前記ニューラルネットワークを用いて、入力された参照対象の信号の前記個人性を表す隠れ変数及び前記各属性を表す隠れ変数を抽出し、
前記調整部は、前記デコード部によって前記調整対象の信号について抽出された前記調整対象の属性に対する前記複数の隠れ変数のうちの少なくとも１つの値と、前記参照対象の信号について抽出された前記調整対象の属性に対する前記複数の隠れ変数のうちの少なくとも１つの値との差分に応じて、前記デコード部によって前記調整対象の信号について抽出された前記各属性を表す隠れ変数のうち、前記調整対象の属性に対する前記複数の隠れ変数のうちの少なくとも１つの値を調整し、
あるいは、前記デコード部によって前記調整対象の信号について抽出された前記個人性を表す隠れ変数の値と、前記参照対象の信号について抽出された前記個人性を表す隠れ変数の値との差分に応じて、前記デコード部によって前記調整対象の信号について抽出された前記個人性を表す隠れ変数を調整する請求項２記載の信号調整装置。
入力された信号と、前記信号における各属性の有無を表す属性ベクトルとを入力とし、信号から個人性を表す隠れ変数及び各属性を表す隠れ変数を抽出するためのエンコーダとしてのニューラルネットワークと、前記抽出された前記個人性を表す隠れ変数と前記各属性を表す隠れ変数とを入力とし、前記個人性を表す隠れ変数及び前記各属性を表す隠れ変数から、信号を生成するためのデコーダとしてのニューラルネットワークと、前記生成された信号が、前記属性ベクトルの下で真の信号と同一の分布に従うか否かを識別する識別器としてのニューラルネットワークとを、前記エンコーダとしてのニューラルネットワークと、前記デコーダとしてのニューラルネットワークと、前記識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習する学習部
を含む信号生成学習装置。
エンコード部が、入力された信号を入力とし、信号から隠れ変数を抽出するための予め学習されたニューラルネットワークを用いて、入力された信号の前記隠れ変数を抽出し、
調整部が、前記エンコード部によって抽出された前記隠れ変数の値を調整し、
デコード部が、前記調整部によって調整された前記隠れ変数を入力とし、前記隠れ変数から、信号を生成するための予め学習されたニューラルネットワークを用いて、信号を生成する、
信号調整方法。
前記エンコード部によって抽出することでは、入力された信号と、前記信号における各属性の有無を表す属性ベクトルとを入力とし、信号から個人性を表す隠れ変数、及び属性毎に複数の隠れ変数を有する各属性を表す隠れ変数を抽出するための前記予め学習されたニューラルネットワークを用いて、入力された信号の前記個人性を表す隠れ変数及び前記各属性を表す隠れ変数を抽出し、
前記調整部によって調整することでは、前記エンコード部によって抽出された前記各属性を表す隠れ変数のうち、調整対象の属性を表す隠れ変数の値、又は調整対象の個人性を表す隠れ変数を調整し、
前記デコード部によって生成することでは、前記調整部によって調整された前記隠れ変数を含む、前記個人性を表す隠れ変数及び前記各属性を表す隠れ変数を入力とし、前記個人性を表す隠れ変数及び前記各属性を表す隠れ変数から、信号を生成するための前記予め学習されたニューラルネットワークを用いて、信号を生成する
請求項６記載の信号調整方法。
コンピュータを、請求項１〜請求項４の何れか１項記載の信号調整装置、及び請求項５記載の信号生成学習装置を構成する各部として機能させるためのプログラム。