JP2020112907A

JP2020112907A - 画像スタイル変換装置、画像スタイル変換方法、及びプログラム

Info

Publication number: JP2020112907A
Application number: JP2019001666A
Authority: JP
Inventors: 敬由阿部; Noriyuki Abe
Original assignee: Toppan Printing Co Ltd
Current assignee: Toppan Inc
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2020-07-27
Anticipated expiration: 2039-01-09
Also published as: JP7247587B2

Abstract

【課題】ユーザが直感的に画像のスタイルを変換する。【解決手段】画像スタイル変換装置は、複数のドメインのそれぞれに属する画像群に基づいて学習された学習結果に基づいて、コンテンツの特徴量を、対象コンテンツ特徴量として、指定された対象画像から抽出する対象コンテンツ抽出部と、学習結果に基づいて、対象画像からスタイルの特徴量を、対象スタイル特徴量として抽出する対象スタイル抽出部と、学習結果に基づいて、指定された目的スタイル画像からスタイルの特徴量を、目的スタイル特徴量として抽出する目的スタイル抽出部と、学習結果に基づいて、対象コンテンツ特徴量と、対象スタイル特徴量及び目目的スタイル特徴量を混合した混合スタイル特徴量とから、コンテンツの特徴と目的スタイルの特徴とを併せ持つスタイル変換画像を生成する変換画像生成部とを備える。【選択図】図１

Description

本発明は、画像スタイル変換装置、画像スタイル変換方法、及びプログラムに関する。

近年、ＳＮＳ（Social Networking Service）などでは、ユーザ受けを良くする為に写真やイラスト等の画像を自らの好みに合わせて加工してからアップロードすることがある。従来の画像の加工には、簡便に加工処理が可能なＳＮＳ又はスマートフォン等のカメラアプリケーションのフィルタリング機能や、より細かく加工が可能な画像編集ソフトが使用されることが多い。

また、特許文献１に記載の従来技術では、加工したい対象画像と、加工で表現したい効果を表す目的画像の２枚を用意してそれぞれから画像の明るさやコントラスト、シャープネス、彩度、及び色相といった特徴量を算出し、画像間の特徴量が近くなるような調整を対象画像に対して行うことによって画像加工を実現する。
また、特許文献２に記載の従来技術では、画像の領域ごとに階調などの調整をスライダによって調整する。

特許第６２０５８６０号公報特許第６０７７０２０号公報

Xun Huang et al.，"Multimodal Unsupervised Image-to-Image Translation．", arXiv:1804.04732v2 [cs.CV] 14 Aug 2018 Martin Arjovsky et al.,"Wasserstein GAN.", arXiv:1701.07875v3 [stat.ML] 6 Dec 2017

しかしながら、上述したフィルタリング機能は、適応するフィルタを選択するだけで簡便に画像加工が可能な反面、予め機能として提供されているフィルタ効果しか適応することができない。また、画像編集ソフトでは、フィルタリング機能以外にも領域指定、画素値、色味調整など細かく加工する機能が提供されているが、それらは複雑で一般的なユーザには使いこなすことが難しい。
また、特許文献１、２に記載の従来技術では、画像全体に一様に変換処理を行うため、例えば、シーンや被写体が大きく異なる対象画像と目的画像とに適応してしまうと光の当り方や色味などで不整合が生じてしまうことがあった。

本発明は、上記の点に鑑みてなされたものであり、その目的は、ユーザが直感的に画像のスタイルを変換することができる画像スタイル変換装置、画像スタイル変換方法、及びプログラムを提供することにある。

上記問題を解決するために、本発明の一態様は、類似の特徴を有する画像の集合を示すドメインである複数のドメインのそれぞれに属する画像群に基づいて学習された学習結果に基づいて、前記複数のドメインに共通する画像内の要素を示すコンテンツの特徴量を、対象コンテンツ特徴量として、指定された加工対象の画像である対象画像から抽出する対象コンテンツ抽出部と、前記学習結果に基づいて、前記対象画像から前記複数のドメインに共通しない画像内の要素を示すスタイルの特徴量を、対象スタイル特徴量として抽出する対象スタイル抽出部と、前記学習結果に基づいて、指定された目的スタイルの画像を示す目的スタイル画像から前記スタイルの特徴量を、目的スタイル特徴量として抽出する目的スタイル抽出部と、前記学習結果に基づいて、前記対象コンテンツ抽出部が抽出した前記対象コンテンツ特徴量と、前記対象スタイル抽出部が抽出した前記対象スタイル特徴量、及び前記目的スタイル抽出部が抽出した前記目的スタイル特徴量を混合した混合スタイル特徴量とから、前記コンテンツの特徴と前記目的スタイルの特徴とを併せ持つスタイル変換画像を生成する変換画像生成部とを備えることを特徴とする画像スタイル変換装置である。

また、本発明の一態様は、上記の画像スタイル変換装置において、前記対象スタイル特徴量と、前記目的スタイル特徴量との混合率を示すスライダを表示部に表示させ、ユーザによる操作部の操作に応じて、前記スライダの前記混合率を示す位置を変更して表示させる表示制御部と、前記操作部の操作によって指定された前記混合率で、前記対象スタイル特徴量と、前記目的スタイル特徴量とを混合して、前記混合スタイル特徴量を生成するスタイル混合部とを備え、前記変換画像生成部は、前記対象コンテンツ特徴量と、前記スタイル混合部が生成した混合スタイル特徴量とから、前記学習結果に基づいて前記スタイル変換画像を生成することを特徴とする。

また、本発明の一態様は、上記の画像スタイル変換装置において、前記学習結果に基づいて、前記目的スタイル画像から前記コンテンツの特徴量を、目的コンテンツ特徴量として抽出する目的コンテンツ抽出部と、前記学習結果に基づいて、前記目的コンテンツ抽出部が抽出した前記目的コンテンツ特徴量と、前記対象スタイル抽出部が抽出した前記対象スタイル特徴量とから、前記目的スタイル画像の前記コンテンツの特徴と前記対象画像の前記スタイルの特徴とを併せ持つ逆方向プレビュー画像を生成する逆方向プレビュー画像生成部とを備え、前記表示制御部は、前記スライダの一端に隣接する位置に、前記目的スタイル画像を順方向プレビュー画像として表示させるとともに、前記順方向プレビュー画像とは反対の前記スライダの一端に隣接する位置に、前記逆方向プレビュー画像生成部が生成した前記逆方向プレビュー画像を表示させることを特徴とする。

また、本発明の一態様は、上記の画像スタイル変換装置において、前記目的スタイル抽出部は、指定された前記目的スタイルを表す目的スタイルキーワードに対応付けられた画像から、前記学習結果に基づいて、前記目的スタイルキーワードに対応する前記目的スタイル特徴量を抽出することを特徴とする。

また、本発明の一態様は、上記の画像スタイル変換装置において、前記目的スタイル抽出部は、指定された前記目的スタイルキーワードに対応付けられた複数の画像のそれぞれから、前記学習結果に基づいて、個別スタイルの特徴量を抽出し、前記複数の画像のそれぞれから抽出した前記スタイルの特徴量の平均値を、前記目的スタイル特徴量として抽出することを特徴とする。

また、本発明の一態様は、上記の画像スタイル変換装置において、指定された前記目的スタイルキーワードに対応付けられた複数の画像のそれぞれから、前記学習結果に基づいて、個別コンテンツの特徴量を抽出する個別目的コンテンツ抽出部と、前記個別目的コンテンツ抽出部が抽出した、前記複数の画像の個別コンテンツの特徴量のうちから、前記対象コンテンツ特徴量に最も近い前記個別コンテンツの特徴量に対応する画像を、前記目的スタイル画像として選択する目的スタイル画像選択部とを備え、前記表示制御部は、前記スライダの一端に隣接する位置に、前記目的スタイル画像選択部が選択した前記目的スタイル画像を順方向プレビュー画像として表示させることを特徴とする。

また、本発明の一態様は、上記の画像スタイル変換装置において、前記目的スタイル抽出部は、複数の前記目的スタイル特徴量を抽出し、前記表示制御部は、複数の前記目的スタイル特徴量に対応する複数の前記スライダを前記表示部に表示させ、前記変換画像生成部は、前記学習結果に基づいて、前記対象コンテンツ特徴量と、前記対象スタイル特徴量と複数の前記目的スタイル特徴量とを前記スライダによって指定されたそれぞれの混合率で混合した混合スタイル特徴量とから、前記スタイル変換画像を生成することを特徴とする。

また、本発明の一態様は、上記の画像スタイル変換装置において、前記学習結果に基づいて、前記スライダに対応した前記混合スタイル特徴量と、前記スライダに対応した前記目的スタイル画像から抽出された前記コンテンツの特徴量とから、動的プレビュー画像を生成する動的プレビュー画像生成部を備え、前記表示制御部は、前記スライダに対応した前記動的プレビュー画像を、前記スライダに対応付けて表示させるとともに、前記スライダの前記混合率を示す位置に応じて、前記動的プレビュー画像を変更して表示させることを特徴とする。

また、本発明の一態様は、上記の画像スタイル変換装置において、前記学習結果には、画像から前記スタイルの特徴量を抽出するスタイルエンコーダと、画像から前記コンテンツの特徴量を抽出するコンテンツエンコーダと、前記スタイルの特徴量及び前記コンテンツの特徴量から画像を生成するデコーダとが含まれ、前記対象コンテンツ抽出部は、前記コンテンツエンコーダに基づいて、前記対象画像から前記対象コンテンツ特徴量を抽出し、前記対象スタイル抽出部は、前記スタイルエンコーダに基づいて、前記対象画像から前記対象スタイル特徴量を抽出し、前記目的スタイル抽出部は、前記スタイルエンコーダに基づいて、前記目的スタイル画像から前記目的スタイル特徴量を抽出し、前記変換画像生成部は、前記デコーダに基づいて、前記対象コンテンツ特徴量及び前記混合スタイル特徴量から、前記スタイル変換画像を生成することを特徴とする。

また、本発明の一態様は、上記の画像スタイル変換装置において、前記複数のドメインのそれぞれに属する画像群に基づいて、機械学習を実行し、前記学習結果を生成する学習処理部を備えることを特徴とする。

また、本発明の一態様は、対象コンテンツ抽出部が、類似の特徴を有する画像の集合を示すドメインである複数のドメインのそれぞれに属する画像群に基づいて学習された学習結果に基づいて、前記複数のドメインに共通する画像内の要素を示すコンテンツの特徴量を、対象コンテンツ特徴量として、指定された加工対象の画像である対象画像から抽出する対象コンテンツ抽出ステップと、対象スタイル抽出部が、前記学習結果に基づいて、前記対象画像から前記複数のドメインに共通しない画像内の要素を示すスタイルの特徴量を、対象スタイル特徴量として抽出する対象スタイル抽出ステップと、目的スタイル抽出部が、前記学習結果に基づいて、指定された目的スタイルの画像を示す目的スタイル画像から前記スタイルの特徴量を、目的スタイル特徴量として抽出する目的スタイル抽出ステップと、変換画像生成部が、前記学習結果に基づいて、前記対象コンテンツ抽出ステップによって抽出された前記対象コンテンツ特徴量と、前記対象スタイル抽出ステップによって抽出された前記対象スタイル特徴量、及び前記目的スタイル抽出ステップによって抽出された前記目的スタイル特徴量を混合した混合スタイル特徴量とから、前記コンテンツの特徴と前記目的スタイルの特徴を併せ持つスタイル変換画像を生成する変換画像生成ステップとを含むことを特徴とする画像スタイル変換方法である。

また、本発明の一態様は、コンピュータに、類似の特徴を有する画像の集合を示すドメインである複数のドメインのそれぞれに属する画像群に基づいて学習された学習結果に基づいて、前記複数のドメインに共通する画像内の要素を示すコンテンツの特徴量を、対象コンテンツ特徴量として、指定された加工対象の画像である対象画像から抽出する対象コンテンツ抽出ステップと、前記学習結果に基づいて、前記対象画像から前記複数のドメインに共通しない画像内の要素を示すスタイルの特徴量を、対象スタイル特徴量として抽出する対象スタイル抽出ステップと、前記学習結果に基づいて、指定された目的スタイルの画像を示す目的スタイル画像から前記スタイルの特徴量を、目的スタイル特徴量として抽出する目的スタイル抽出ステップと、前記学習結果に基づいて、前記対象コンテンツ抽出ステップによって抽出された前記対象コンテンツ特徴量と、前記対象スタイル抽出ステップによって抽出された前記対象スタイル特徴量、及び前記目的スタイル抽出ステップによって抽出された前記目的スタイル特徴量を混合した混合スタイル特徴量とから、前記コンテンツの特徴と前記目的スタイルの特徴を併せ持つスタイル変換画像を生成する変換画像生成ステップとを実行させるためのプログラムである。

本発明によれば、ユーザが直感的に画像のスタイルを変換することができる。

第１の実施形態による画像スタイル変換装置の一例を示す機能ブロック図である。第１の実施形態における目的画像記憶部のデータ例を示す図である。第１の実施形態による画像スタイル変換装置の表示画面の一例を示す図である。第１の実施形態における画像スタイル変換処理の一例を示す図である。第１の実施形態による画像スタイル変換装置の動作の一例を示すフローチャートである。第２の実施形態による画像スタイル変換装置の一例を示す機能ブロック図である。第２の実施形態による画像スタイル変換装置の表示画面の一例を示す図である。第３の実施形態による画像スタイル変換装置の一例を示す機能ブロック図である。第４の実施形態による画像スタイル変換装置の一例を示す機能ブロック図である。

以下、本発明の一実施形態による画像スタイル変換装置、画像スタイル変換方法について、図面を参照して説明する。

［第１の実施形態］
図１は、第１の実施形態による画像スタイル変換装置１の一例を示す機能ブロック図である。
図１に示すように、画像スタイル変換装置１は、制御部１０と、表示部１１と、入力部１２と、記憶部１３とを備える。画像スタイル変換装置１は、例えば、パーソナルコンピュータ、タブレット端末装置、スマートフォンなどの情報処理装置であり、指定した加工対象の画像である対象画像に対して、指定した目的画像に含まれる特徴を加えるように加工する画像スタイル変換を行う。

表示部１１は、例えば、液晶ディスプレイなどの表示装置であり、画像スタイル変換装置１が実行する各種処理に利用される情報を表示する。表示部１１は、例えば、対象画像や目的スタイル画像の選択処理、スタイルの混合調整、等の操作画面、及び加工したスタイル変換画像などを表示する。

入力部１２（操作部の一例）は、例えば、キーボードやマウス、タッチパネルなどの入力装置であり、画像スタイル変換装置１が実行する各種処理に利用される情報を受け付ける。入力部１２は、受け付けた入力情報を制御部１０に出力する。

記憶部１３は、画像スタイル変換装置１が実行する各種処理に利用する情報を記憶する。記憶部１３は、例えば、加工前の画像データ、加工後の画像データ、目的スタイル画像データなどを記憶する。記憶部１３は、学習結果記憶部１３１と、目的画像記憶部１３２とを備えている。

学習結果記憶部１３１は、画像スタイル変換に使用する機械学習の結果である学習結果を記憶する。ここで、学習結果は、複数のドメイン（例えば、２つのドメイン）のそれぞれに属する画像群に基づいて学習された機械学習の結果である。学習結果には、例えば、画像から複数のドメインに共通する画像内の要素を示すコンテンツの特徴ベクトルを抽出するコンテンツエンコーダ、画像から複数のドメインに共通しない画像内の要素を示すスタイルの特徴ベクトルを抽出するスタイルエンコーダ、及びコンテンツの特徴ベクトルとスタイルの特徴ベクトルとから画像に変換するデコーダが含まれる。

なお、特徴ベクトルは、特徴量の一例であり、所定の数の次元のベクトルである。また、コンテンツエンコーダ、スタイルエンコーダ、及びデコーダのそれぞれは、例えば、ニューラルネットワークであり、学習結果記憶部１３１は、学習結果として、これらのニューラルネットワークを構成する情報を記憶する。また、ドメインとは、類似の特徴を有する画像の集合を示す。
ここで、本実施形態における画像スタイル変換処理を実行するための学習処理について説明する。

＜本実施形態の学習処理＞
本実施形態におけるスタイルの特徴ベクトル及びコンテンツの特徴ベクトルは、上述した非特許文献１に記載の技術を利用して、画像から抽出される特徴ベクトル（特徴量）である。画像スタイル変換処理は、上述したスタイルエンコーダ、コンテンツエンコーダ、及びデコーダと、ディスクリミネータとを学習した学習結果を利用することで実現できる。

ここで、スタイルエンコーダは、スタイルの特徴ベクトルの抽出用のニューラルネットワークであり、コンテンツエンコーダは、コンテンツの特徴ベクトルの抽出用のニューラルネットワークである。また、デコーダは、スタイルの特徴ベクトル及びコンテンツの特徴ベクトルから画像を復元するためのニューラルネットワークであり、ディスクリミネータは、復元した画像が実在し得る本物らしい画像か偽物らしい画像かを判別するニューラルネットワークである。なお、本実施形態において、エンコーダとデコーダとを併せてジェネレータと呼ぶことがある。また、このように、ジェネレータとディスクリミネータとから構成されコンピュータに画像変換（又は、乱数ベクトルからの画像生成）を学習させる技術は、ＧＡＮｓ（Generative Adversarial Networks）と呼ばれている。

上述した学習結果記憶部１３１が記憶する学習結果を学習するためには、ジェネレータ及びディスクリミネータを少なくともそれぞれ2つ以上用意する必要がある。すなわち、画像からスタイルの特徴ベクトル及びコンテンツの特徴ベクトルを抽出するには、ドメインと呼ばれる共通の画像特徴を持った画像群を少なくとも２つ以上用意する必要がある。ここで、ドメイン、コンテンツ、及びスタイルの概念を、以下に例を挙げて説明する。

例えば、ドメインが２つである例において、一方をドメインＡ（第１のドメイン）とし、もう一方をドメインＢ（第２のドメイン）とする。ドメインＡに属する画像群は、例えば、ズボン、シャツ、靴といった服飾の線画画像であり、ドメインＢに属する画像群は、ズボン、シャツ、靴といった服飾の写真であるものとする。この場合、ドメインＡは、ズボン、シャツ、靴といった形状の異なる線画の画像から構成されるが、全ての画像で共通の要素として線画であることが挙げられる。また、一方でドメインＢは、ズボン、シャツ、靴といった形状の異なる写真の画像から構成されるが、全ての画像で共通の要素として写真であることが挙げられる。

このとき、各ドメイン内では、線画あるいは写真といった画風がドメイン内で共通の要素（ドメイン内共通要素）となり、ズボン、シャツ、靴といった服飾の形状が両ドメイン間で共通の要素（ドメイン間共通要素）となる。このドメイン内共通要素が、スタイルの特徴でありスタイルの特徴ベクトルとして表される。また、ドメイン間共通要素が、コンテンツ特徴であり、コンテンツ特徴ベクトルとして表される。
ここで挙げた例では、服飾の形状がコンテンツ特徴であり、線画あるいは写真といった画風がスタイル特徴となる。ここでは、例を挙げてスタイル特徴及びコンテンツ特徴を説明したが、スタイル特徴及びコンテンツ特徴は、任意のデータで学習したニューラルネットワークによって算出される特徴ベクトルであり、その定義については後述する。

また、この例の学習では、ドメインＡのジェネレータと、ドメインＡのディスクリミネータと、ドメインＢのジェネレータと、ドメインＢのディスクリミネータといったニューラルネットワークが必要になる。ここで、ドメインＡのジェネレータは、ドメインＡに属する画像からスタイル特徴とコンテンツ特徴とを抽出するエンコーダ、及びそれらのスタイル特徴とコンテンツ特徴とから画像を復元するデコーダである。また、ドメインＢのジェネレータは、ドメインＢに属する画像からスタイル特徴とコンテンツ特徴とを抽出するエンコーダ、及びそれらのスタイル特徴とコンテンツ特徴とから画像を復元するデコーダである。

次に、本実施形態による学習処理の詳細について説明する。なお、学習処理の説明において、以下のように記号を定義する。
「ｘＡ」は、ドメインＡに属する１枚の画像を示し、「ｘＢ」は、ドメインＢに属する１枚の画像を示す。また、「Ｅ_ＳＡ」は、ドメインＡに属する画像からスタイルの特徴ベクトルを抽出するエンコーダ（スタイルエンコーダ）であり、「Ｅ_ＣＡ」は、ドメインＡに属する画像からコンテンツの特徴ベクトルを抽出するエンコーダ（コンテンツエンコーダ）である。また、「Ｇ_Ａ」は、スタイルの特徴ベクトル及びコンテンツの特徴ベクトルからドメインＡに属する画像を復元するデコーダである。

また、「Ｅ_ＳＢ」は、ドメインＢに属する画像からスタイルの特徴ベクトルを抽出するエンコーダ（スタイルエンコーダ）であり、「Ｅ_ＣＢ」は、ドメインＢに属する画像からコンテンツの特徴ベクトルを抽出するエンコーダ（コンテンツエンコーダ）である。また、「Ｇ_Ｂ」は、スタイルの特徴ベクトル及びコンテンツの特徴ベクトルからドメインＢに属する画像を復元するデコーダである。
また、「Ｄ_Ａ」は、入力された画像がドメインＡらしい画像か否かを判別するディスクリミネータであり、「Ｄ_Ｂ」は、入力された画像がドメインＢらしい画像か否かを判別するディスクリミネータである。

本実施形態による学習処理では、以下で説明する８つの損失関数から構成される目的関数を最小化、あるいは最大化することによって実現される。
ドメインＡに関する損失関数Ｌｒｅｃｏｎ^ｘＡは、下記の式（１）によって表される。

ここで、‖‖_１は、Ｌ１ノルムを示す。すなわち、式（１）は、ドメインＡに属するｘＡに対してエンコーダＥ_ＳＡとエンコーダＥ_ＣＡとを用いてスタイルの特徴ベクトルとコンテンツの特徴ベクトルとを抽出し、抽出したスタイルの特徴ベクトルとコンテンツの特徴ベクトルとから、デコーダＧ_Ａを用いて復元した画像と元画像である画像ｘＡの画像誤差が損失関数Ｌｒｅｃｏｎ^ｘＡとなる。ここでのエンコーダＥ_ＳＡ及びエンコーダＥ_ＣＡと、デコーダＧ_Ａとの学習では、損失関数Ｌｒｅｃｏｎ^ｘＡの値が小さくなるように学習し、損失関数Ｌｒｅｃｏｎ^ｘＡの最小化によってドメインＡにおける画像のエンコードとデコードとが可能になる。

また、ドメインＢに関する損失関数Ｌｒｅｃｏｎ^ｘＡは、下記の式（２）によって表される。

すなわち、式（２）は、ドメインＢに属するｘＢに対してエンコーダＥ_ＳＢとエンコーダＥ_ＣＢとを用いてスタイルの特徴ベクトルとコンテンツの特徴ベクトルとを抽出し、抽出したスタイルの特徴ベクトルとコンテンツの特徴ベクトルとから、デコーダＧ_Ｂを用いて復元した画像と元画像である画像ｘＢの画像誤差が損失関数Ｌｒｅｃｏｎ^ｘＢとなる。ここでのエンコーダＥ_ＳＢ及びエンコーダＥ_ＣＢと、デコーダＧ_Ｂとの学習では、損失関数Ｌｒｅｃｏｎ^ｘＢの値が小さくなるように学習し、損失関数Ｌｒｅｃｏｎ^ｘＢの最小化によってドメインＢにおける画像のエンコードとデコードとが可能になる。
なお、上記の式（１）及び式（２）において、一例として、Ｌ１ノルムを用いる例を説明したが、Ｌ２ノルム等の他のノルムを用いてもよい。

次に、ドメインＡのコンテンツに関する損失関数Ｌｒｅｃｏｎ^ＣＡは、下記の式（３）によって表される。

ここで、損失関数Ｌｒｅｃｏｎ^ＣＡを最小化することで、ドメインＡにおけるコンテンツの特徴ベクトルを用いたデコード及びドメインＡの画像からコンテンツの特徴ベクトルを抽出するエンコードが可能になる。

また、ドメインＢのコンテンツに関する損失関数Ｌｒｅｃｏｎ^ＣＢは、下記の式（４）によって表される。

ここで、損失関数Ｌｒｅｃｏｎ^ＣＢを最小化することで、ドメインＢにおけるコンテンツの特徴ベクトルを用いたデコード及びドメインＢの画像からコンテンツの特徴ベクトルを抽出するエンコードが可能になる。
なお、上記の式（３）及び式（４）において、一例として、Ｌ１ノルムを用いる例を説明したが、Ｌ２ノルム等の他のノルムを用いてもよい。

次に、ドメインＡのスタイルに関する損失関数Ｌｒｅｃｏｎ^ＳＡは、下記の式（５）によって表される。

ここで、損失関数Ｌｒｅｃｏｎ^ＳＡを最小化することで、ドメインＡにおけるスタイルの特徴ベクトルを用いたデコード及びドメインＡの画像からスタイルの特徴ベクトルを抽出するエンコードが可能になる。

また、ドメインＢのスタイルに関する損失関数Ｌｒｅｃｏｎ^ＳＢは、下記の式（６）によって表される。

ここで、損失関数Ｌｒｅｃｏｎ^ＳＢを最小化することで、ドメインＢにおけるスタイルの特徴ベクトルを用いたデコード及びドメインＢの画像からスタイルの特徴ベクトルを抽出するエンコードが可能になる。
なお、上記の式（５）及び式（６）において、一例として、Ｌ１ノルムを用いる例を説明したが、Ｌ２ノルム等の他のノルムを用いてもよい。

次に、ドメインＡにおいて、損失関数Ｌａｄｖ^ｘＡは、下記の式（７）によって表される。

この損失関数Ｌａｄｖ^ｘＡは、ＧＡＮｓにおける敵対的損失であり、エンコーダＥ_ＳＡ、エンコーダＥ_ＣＡ、デコーダＧ_Ａ、エンコーダＥ_ＳＢ、エンコーダＥ_ＣＢ、及びデコーダＧ_Ｂを学習する際に最小化される。一方で、損失関数Ｌａｄｖ^ｘＡは、ディスクリミネータＤ_Ａを学習する際に最大化される。なお、損失関数Ｌａｄｖ^ｘＡを最大化すると、Ｄ_Ａ（ｘＡ）の項が正の値となり、Ｄ_Ａ（Ｇ_Ａ（Ｅ_ＳＡ（ｘＡ），Ｅ_ＣＢ（ｘＢ）））の項が負の値となる。ここで、ｘＡは、ドメインＡにおける画像（本物画像）であり、Ｄ_Ａ（Ｇ_Ａ（Ｅ_ＳＡ（ｘＡ），Ｅ_ＣＢ（ｘＢ）））は、スタイルの特徴ベクトル及びコンテンツの特徴ベクトルから復元された生成画像（偽物画像）である。すなわち、損失関数Ｌａｄｖ^ｘＡを最大化するということは、画像ｘＡ（本物画像）と、Ｄ_Ａ（Ｇ_Ａ（Ｅ_ＳＡ（ｘＡ），Ｅ_ＣＢ（ｘＢ）））（偽物画像）とのそれぞれを、正の値、負の値として判別する真贋判定器として、ディスクリミネータＤ_Ａを学習することになる。

一方で、損失関数Ｌａｄｖ^ｘＡを最小化するということは、画像ｘＡ（本物画像）と、Ｄ_Ａ（Ｇ_Ａ（Ｅ_ＳＡ（ｘＡ），Ｅ_ＣＢ（ｘＢ）））（偽物画像）とのそれぞれを、負の値、正の値として、ディスクリミネータＤ_Ａが真贋判別を誤るように学習することになる。つまり、ディスクリミネータＤ_Ａは、徐々に本物画像と偽物画像を判別する能力が学習されて行き、エンコーダＥ_ＳＡ、エンコーダＥ_ＣＡ、デコーダＧ_Ａ、エンコーダＥ_ＳＢ、エンコーダＥ_ＣＢ、及びデコーダＧ_Ｂは、徐々にディスクリミネータＤ_Ａを騙せるような本物らしい画像を復元する能力が学習されていくことになる。

この損失関数Ｌａｄｖ^ｘＡにより学習に使用していない画像でも、スタイルの特徴ベクトル及びコンテンツの特徴ベクトルの抽出（エンコード）が可能となり、学習に使用していない画像に含まれるスタイルの特徴ベクトル、コンテンツの特徴ベクトルでもそれらの特徴からの復元（デコード）が可能となる。
なお、この損失関数Ｌａｄｖ^ｘＡが無いとエンコード及びデコードは、式（１）〜式（６）までによってのみ保証されることになる。つまり、学習に使用した画像と一致する画像に対してはエンコード及びデコードが可能であるだが、学習に使用した画像と異なる画像に対してはエンコード及びデコードが不可能である。

また、ドメインＢにおいて、損失関数Ｌａｄｖ^ｘＢは、下記の式（８）によって表される。

この損失関数Ｌａｄｖ^ｘＢは、ＧＡＮｓにおける敵対的損失であり、エンコーダＥ_ＳＢ、エンコーダＥ_ＣＢ、デコーダＧ_Ｂ、エンコーダＥ_ＳＡ、エンコーダＥ_ＣＡ、及びデコーダＧ_Ａを学習する際に最小化される。一方で、損失関数Ｌａｄｖ^ｘＢは、ディスクリミネータＤ_Ｂを学習する際に最大化される。損失関数Ｌａｄｖ^ｘＢを最大化するということは、画像ｘＢ（本物画像）と、Ｄ_Ｂ（Ｇ_Ｂ（Ｅ_ＳＢ（ｘＢ），Ｅ_ＣＡ（ｘＡ）））（偽物画像）とのそれぞれを、正の値、負の値として判別する真贋判定器として、ディスクリミネータＤ_Ｂを学習することになる。

一方で、損失関数Ｌａｄｖ^ｘＢを最小化するということは、画像ｘＢ（本物画像）と、Ｄ_Ｂ（Ｇ_Ｂ（Ｅ_ＳＢ（ｘＢ），Ｅ_ＣＡ（ｘＡ）））（偽物画像）とのそれぞれを、負の値、正の値として、ディスクリミネータＤ_Ｂが真贋判別を誤るように学習することになる。つまり、ディスクリミネータＤ_Ｂは、徐々に本物画像と偽物画像を判別する能力が学習されて行き、エンコーダＥ_ＳＢ、エンコーダＥ_ＣＢ、デコーダＧ_Ｂ、エンコーダＥ_ＳＡ、エンコーダＥ_ＣＡ、及びデコーダＧ_Ａは、徐々にディスクリミネータＤ_Ｂを騙せるような本物らしい画像を復元する能力が学習されていくことになる。

なお、上述した敵対的損失関数は、一例としてＧＡＮｓの敵対的損失である例を説明したが、例えば、ＧＡＮｓの敵対的損失を改良した非特許文献２に記載のＷａｓｓｅｒｓｔｅｉｎＧＡＮで使用される敵対的損失などを適用してもよい。すなわち、ＧＡＮｓの枠組みで使用されている敵対的損失であればそのいずれであってもよい。また、上記の説明では、ドメインＡとドメインＢとの２つのドメインを用いる例を説明したが、対応するニューラルネットワークを新しく用意すれば３つ以上のドメインに対しても適用可能である。

このように学習を行った学習結果として、例えば、スタイルエンコーダＥ_Ｓ、コンテンツエンコーダＥ_Ｃ、及びデコーダＧが、学習結果記憶部１３１に記憶されている。ここで、スタイルエンコーダＥ_Ｓは、上述したエンコーダＥ_ＳＡ、又はエンコーダＥ_ＳＢである。また、コンテンツエンコーダＥ_Ｃは、上述したエンコーダＥ_ＣＡ、又はエンコーダＥ_ＣＢである。また、デコーダＧは、上述したデコーダＧ_Ａ、又はデコーダＧ_Ｂである。

また、スタイルエンコーダＥ_Ｓによって抽出されるスタイルの特徴量は、ｎ次元の特徴ベクトルである。また、コンテンツエンコーダＥ_Ｃによって抽出されるコンテンツの特徴量は、ｍ次元の特徴ベクトルである。これらの次元は、それぞれのエンコーダを設計する際に決定する出力層の次元であり、任意の値であるが、ｎ次元とｍ次元とは、同一の次元数である必要は無い（同一の時限であってもよい）。ただし、全てのドメインにおいて各ドメインのエンコーダの出力であるスタイルの特徴量の次元を統一する必要があり、同様にコンテンツ特徴量の次元も統一する必要がある。また、デコーダＧの入力の次元は、スタイルの特徴ベクトルとコンテンツの特徴ベクトルとを足し合わせた値、すなわち（ｎ＋ｍ）次元である必要がある。

また、画像スタイル変換処理については、ドメイン間のスタイル変換とドメイン内のスタイル変換とがある。ドメイン間のスタイル変換は、上述した例で言うと線画から写真調への変換でありＧ_Ｂ（Ｅ_ＳＢ（ｘＢ），Ｅ_ＣＡ（ｘＡ））によって実現される、すなわち、ドメイン間のスタイル変換は、デコーダ自身によって行われるスタイル変換であり、スタイル特徴がどのようなものであれ、デコーダＧ_Ｂは、線画から写真調へスタイル変換する性質を持っている。一方で、例えば、上着の線画から上着の写真調のスタイル変換を考えたときに、上着の写真が毛糸の質感を持つのか、レザーの質感を持つのかは、ドメインＢのスタイル、すなわちＥ_ＳＢ（ｘＢ）によって定義される。そのため、ドメインＢに属する画像ｘＢ１と画像ｘＢ２を考えたときにＧ_Ｂ（Ｅ_ＳＢ（ｘＢ２），Ｅ_ＣＢ（ｘＢ１））のように画像ｘＢ１のスタイルを画像ｘＢ２に変換するといったことも可能である。これがドメイン内のスタイル変換である。

ここで、ドメイン間のスタイル変換は、強制的にデコーダによって行われてしまうという点に注意するある。例えば、料理の画像加工においてステーキやハンバーグといった様々な料理画像に対してしずる感（具体例としては湯気）を付与するスタイル変換を実行する場合を仮定する。また、このスタイル変換を実現するためにドメインＡに対しては、ステーキの湯気無し画像群を、ドメインＢに対しては、ハンバーグ、ラーメン等ステーキ以外の湯気有り画像群を用いて学習したものとする。この場合、ステーキの画像は、ドメインＡにしか含まれていないため、ステーキの形状は、学習時にコンテンツ特徴ではなくスタイル特徴として解釈される。

そのため、Ｇ_Ｂ（Ｅ_ＳＢ（ｘＢ），Ｅ_ＣＡ（ｘＡ））によってステーキの画像（ドメインＡ）に対して湯気を付与したいと思っても形状がスタイル特徴になっているためデコーダＧ_Ｂによってステーキ以外の形状（例えば、ハンバーグやラーメン等で形状が近いもの）に変換されてしまう可能性がある。また、Ｇ_Ｂ（Ｅ_ＳＢ（ｘＢ），Ｅ_ＣＢ（ｘＡ））の場合を考えるとコンテンツの特徴ベクトルを抽出するエンコーダＥ_ＣＢは、ステーキ画像について学習していないため、そもそもステーキの形状をコンテンツ特徴として抽出できない。そのため、学習データを用意する際には、意図しないスタイル変換が成されないように留意する必要がある。

本実施形態では、上記を考慮して、ドメインＡの画像群を、湯気あり・湯気なしを含むカラー画像の画像群とし、ドメインＢの画像群を、湯気あり・湯気なしを含むグレースケール画像の画像群として上述した学習処理を実行した学習結果を学習結果記憶部１３１に記憶されているものとする。また、スタイルエンコーダＥ_Ｓには、エンコーダＥ_ＳＡを用い、コンテンツエンコーダＥ_Ｃには、エンコーダＥ_ＣＡを用い、デコーダＧには、Ｇ_Ａを用いるものとする。

目的画像記憶部１３２は、目的スタイル画像を示す情報と、スタイルを示す情報とを対応付けて記憶する。ここで、図２を参照して、目的画像記憶部１３２が記憶するデータ例について説明する。
図２は、本実施形態における目的画像記憶部１３２のデータ例を示す図である。
図２に示すように、目的画像記憶部１３２は、「目的スタイル画像」と「タグ情報」とを対応付けて記憶する。

ここで、「目的スタイル画像」は、目的スタイル画像を示す情報であり、例えば、画像名などの識別情報である。また、「タグ情報」は、スタイルを示す情報をラベル付けしたものである。
例えば、図２に示す例では、「目的スタイル画像」が“画像Ａ”に対応する目的スタイル画像は、「タグ情報」として、“しずる感”、“湯気”が付与されていることを示している。また、「目的スタイル画像」が“画像Ｂ”に対応する目的スタイル画像は、「タグ情報」として、“艶やかさ”が付与されていることを示している。

図１の説明に戻り、制御部１０は、例えば、ＣＰＵ（Central Processing Unit）などを含むプロセッサであり、画像スタイル変換装置１を統括的に制御する。、制御部１０は、例えば、対象画像データ取得部１０１と、対象スタイル抽出部１０２と、対象コンテンツ抽出部１０３と、目的画像データ取得部１０４と、目的キーワード取得部１０５と、目的スタイル抽出部１０６と、スタイル混合部１０７と、変換画像生成部１０８と、表示制御部１０９とを備えている。

対象画像データ取得部１０１は、ユーザによる入力部１２の操作に応じて、対象画像の画像データ（対象画像データ）を取得する。対象画像データ取得部１０１は、例えば、記憶部１３が記憶する画像データのうちから、ユーザが指定した画像データを対象画像データとして取得する。

対象スタイル抽出部１０２は、学習結果記憶部１３１が記憶する学習結果に基づいて、対象画像からスタイルの特徴ベクトルを、対象スタイル特徴ベクトルＶ_ＳＳ（対象スタイル特徴量）として抽出する。対象スタイル抽出部１０２は、例えば、学習結果のスタイルエンコーダＥ_Ｓを用いて、対象画像データ取得部１０１が取得した対象画像データから、対象スタイル特徴ベクトルＶ_ＳＳを抽出する。
なお、スタイルの特徴ベクトルＶ_Ｓは、下記の式（９）により抽出可能であり、対象スタイル抽出部１０２は、この式（９）に画像データとして、対象画像データを代入することで対象スタイル特徴ベクトルＶ_ＳＳを抽出する。

対象コンテンツ抽出部１０３は、学習結果記憶部１３１が記憶する学習結果に基づいて、対象画像からコンテンツの特徴ベクトルを、対象コンテンツ特徴ベクトルＶ_ＳＣ（対象コンテンツ特徴量）として抽出する。対象コンテンツ抽出部１０３は、例えば、学習結果のコンテンツエンコーダＥ_Ｃを用いて、対象画像データ取得部１０１が取得した対象画像データから、対象コンテンツ特徴ベクトルＶ_ＳＣを抽出する。
なお、コンテンツの特徴ベクトルＶ_Ｃは、下記の式（１０）により抽出可能であり、対象コンテンツ抽出部１０３は、この式（１０）に画像データとして、対象画像データを代入することで対象コンテンツ特徴ベクトルＶ_ＳＣを抽出する。

目的画像データ取得部１０４は、ユーザによる入力部１２の操作に応じて、目的スタイル画像の画像データ（目的画像データ）を取得する。目的画像データ取得部１０４は、例えば、記憶部１３が記憶する画像データのうちから、ユーザが指定した画像データを目的画像データとして取得する。

目的キーワード取得部１０５は、ユーザによる入力部１２の操作に応じて、目的キーワードを取得する。ここで、目的キーワード（目的スタイルキーワード）とは、目的スタイルを表すキーワードであり、例えば、“しずる感”、“湯気”、“艶やかさ”などである。目的キーワード取得部１０５は、例えば、ユーザによって入力部１２の操作によって入力された目的キーワードを、入力部１２から取得する。

目的スタイル抽出部１０６は、学習結果記憶部１３１が記憶する学習結果に基づいて、指定された目的スタイルの画像を示す目的スタイル画像からスタイルの特徴ベクトルを、目的スタイル特徴ベクトルＶ_ＴＳ（目的スタイル特徴量）として抽出する。目的スタイル抽出部１０６は、例えば、学習結果のスタイルエンコーダＥ_Ｓを用いて、目的画像データ取得部１０４が取得した目的画像データから、目的スタイル特徴ベクトルＶ_ＴＳを抽出する。目的スタイル抽出部１０６は、例えば、上述した式（９）に画像データとして、目的画像データを代入することで目的スタイル特徴ベクトルＶ_ＴＳを抽出する。

また、目的スタイル抽出部１０６は、ユーザによる入力部１２の操作に応じて、目的キーワードが指定された場合には、指定された目的キーワードに対応付けられた画像から、学習結果に基づいて、目的キーワードに対応する目的スタイル特徴ベクトルＶ_ＴＳを抽出する。この場合、目的スタイル抽出部１０６は、目的キーワード取得部１０５が取得した目的キーワードに対応する画像を、目的画像記憶部１３２から検索して、当該目的画像データを取得する。目的スタイル抽出部１０６は、取得した目的画像データを上述した式（９）に代入することで目的スタイル特徴ベクトルＶ_ＴＳを抽出する。

また、目的スタイル抽出部１０６は、目的キーワードに対応する画像が複数ある場合には、複数の画像のそれぞれから、学習結果に基づいて、個別スタイルの特徴ベクトルを抽出し、複数の画像のそれぞれから抽出したスタイルの特徴ベクトルの平均値を、目的スタイル特徴ベクトルＶ_ＴＳとして抽出する。例えば、目的キーワードに対応する画像が、画像Ｘ_１〜画像Ｘ_ｎである場合に、目的スタイル抽出部１０６は、下記の式（１１）によって、目的スタイル特徴ベクトルＶ_ＴＳを算出する。

また、目的スタイル抽出部１０６は、ユーザによって、複数の目的スタイル画像が指定された場合に、複数の目的スタイル画像のそれぞれに対応した複数の目的スタイル特徴ベクトルＶ_ＴＳを抽出する。

スタイル混合部１０７は、入力部１２の操作によって指定された混合率で、対象スタイル抽出部１０２が抽出した対象スタイル特徴ベクトルＶ_ＳＳと、目的スタイル抽出部１０６が抽出した目的スタイル特徴ベクトルＶ_ＴＳとを混合して、混合スタイル特徴ベクトルＶ_ＭＳ（混合スタイル特徴量）を生成する。スタイル混合部１０７は、例えば、下記の式（１２）によって、対象スタイル特徴ベクトルＶ_ＳＳと、目的スタイル特徴ベクトルＶ_ＴＳとから混合スタイル特徴ベクトルＶ_ＭＳを生成する。

ここで、変数ｒは、混合率であり、０〜１の間の値である。混合率ｒは、後述するスライダの位置によって、変更される。

変換画像生成部１０８は、学習結果記憶部１３１が記憶する学習結果に基づいて、対象コンテンツ特徴ベクトルＶ_ＳＣと、対象スタイル特徴ベクトルＶ_ＳＳ及び目的スタイル特徴ベクトルＶ_ＴＳを混合した混合スタイル特徴ベクトルＶ_ＭＳ（混合スタイル特徴量）とから、コンテンツの特徴と目的スタイルの特徴とを併せ持つスタイル変換画像を生成する。すなわち、変換画像生成部１０８は、例えば、学習結果のデコーダＧを用いて、対象コンテンツ抽出部１０３が抽出した対象コンテンツ特徴ベクトルＶ_ＳＣと、スタイル混合部１０７が生成した混合スタイル特徴ベクトルＶ_ＭＳとから、スタイル変換画像を復元する。
なお、復元画像Ｘ_Ｒは、下記の式（１３）により生成可能である。

変換画像生成部１０８は、この式（１３）に、スタイルの特徴ベクトルＶ_Ｓとして、混合スタイル特徴ベクトルＶ_ＭＳを代入し、コンテンツの特徴ベクトルＶ_Ｃとして、対象コンテンツ特徴ベクトルＶ_ＳＣを代入することで、スタイル変換画像を生成する。

表示制御部１０９は、各種情報を表示部１１に表示させるとともに、ユーザによる入力部１２の操作に応じて、表示部１１の表示を変更する。表示制御部１０９は、例えば、対象スタイル特徴ベクトルＶ_ＳＳと、目的スタイル特徴ベクトルＶ_ＴＳとの混合率を示すスライダを表示部１１に表示させ、ユーザによる入力部１２の操作に応じて、スライダの混合率を示す位置を変更して表示させる。また、表示制御部１０９は、例えば、複数の目的スタイル画像又は目的キーワードが指定された場合に、複数の目的スタイル特徴ベクトルＶ_ＴＳに対応する複数のスライダを表示部１１に表示させる。

ここで、図３を参照して、表示制御部１０９が表示部１１に表示する表示画面の一例について説明する。
図３は、本実施形態による画像スタイル変換装置１の表示画面の一例を示す図である。
表示制御部１０９は、図３に示す表示画面Ｇ１のような画面を、表示部１１に表示させる。

表示画面Ｇ１に示すように、表示制御部１０９は、対象画像パネルＰＮ１に、指定した対象画像又はスタイル変換画像を表示する。なお、入力部１２を介して、画像追加ボタンＢＴ１を押下する操作がされることで、表示制御部１０９は、対象画像の指定画面を表示させて、対象画像が指定される。表示制御部１０９は、対象画像パネルＰＮ１に、例えば、スタイル変換の確認用の画像として、スタイル変換画像（ＳＧ１）を表示させる。

また、表示画面Ｇ１において、目的スタイル画像パネル（ＰＮ２、ＰＮ３）は、指定した目的スタイル画像（ＴＧ１、ＴＧ２）を表示するとともに、目的スタイルの混合率を調整するスライダ（ＳＬＤ１、ＳＬＤ２）を表示する。表示制御部１０９は、例えば、目的スタイル画像パネルＰＮ２に、指定された目的スタイル画像ＴＧ１を表示するとともに、スライダＳＬＤ１を表示させる。

また、表示画面Ｇ１において、目的スタイルキーワードパネル（ＰＮ４、ＰＮ５）は、指定した目的キーワードを表示するとともに、目的キーワードに対応する目的スタイルの混合率を調整するスライダ（ＳＬＤ３、ＳＬＤ４）を表示する。表示制御部１０９は、例えば、目的スタイルキーワードパネルＰＮ４に、指定された目的キーワードの“艶やかさ”を表示するとともに、スライダＳＬＤ３を表示させる。

また、表示画面Ｇ１において、新規スタイルパネルＰＮ６は、目的スタイル画像パネル又は目的スタイルキーワードパネルを新規に追加するためのパネルであり、スタイル追加ボタンＢＴ２が表示される。入力部１２を介して、スタイル追加ボタンＢＴ２を押下する操作がされることで、表示制御部１０９は、目的スタイル画像か、目的キーワードかの選択画面を表示させて、当該選択画面の選択結果に応じて、目的スタイル画像、又は目的キーワードが指定される。目的スタイル画像、又は目的キーワードが指定されることで、表示制御部１０９は、新たな目的スタイル画像パネル又は目的スタイルキーワードパネルを追加して表示させる。

次に、図面を参照して、本実施形態による画像スタイル変換装置１の動作について説明する。
まず、図４を参照して、本実施形態におけるスタイル変換画像の生成処理の概要について説明する。

図４は、本実施形態における画像スタイル変換処理の一例を示す図である。
図４に示すように、対象コンテンツ抽出部１０３が、コンテンツエンコーダ（Ｅ_Ｃ）を用いて、指定された対象画像から対象コンテンツ特徴ベクトルＶ_ＳＣを抽出する。また、対象スタイル抽出部１０２が、スタイルエンコーダ（Ｅ_Ｓ）を用いて、指定された対象画像から対象スタイル特徴ベクトルＶ_ＳＳを抽出する。

また、一方で、目的スタイル抽出部１０６が、スタイルエンコーダ（Ｅ_Ｓ）を用いて、指定された目的スタイル画像から目的スタイル特徴ベクトルＶ_ＴＳを抽出する。また、スタイル混合部１０７が、上述した式（１２）によって、対象スタイル特徴ベクトルＶ_ＳＳと、目的スタイル特徴ベクトルＶ_ＴＳとから混合スタイル特徴ベクトルＶ_ＭＳを生成する。
そして、変換画像生成部１０８が、デコーダ（Ｇ）を用いて、対象コンテンツ特徴ベクトルＶ_ＳＣと、混合スタイル特徴ベクトルＶ_ＭＳとからスタイル変換画像を生成する。なお、図４において、学習結果ＬＲには、スタイルエンコーダ（Ｅ_Ｓ）、コンテンツエンコーダ（Ｅ_Ｃ）、及びデコーダ（Ｇ）が含まれている。

例えば、対象画像が、湯気のないハンバーグの画像であり、目的スタイル画像が湯気のあるステーキの画像である場合に、画像スタイル変換装置１は、画像スタイル変換処理において、ハンバーグの画像に湯気が追加されたようなハンバーグの画像を、スタイル変換画像として生成する。

なお、上述した図４に示す例では、目的スタイルが１つである場合の一例であり、上述した図３に示す場合のように、複数の目的スタイル画像又は目的キーワードが指定されて、目的スタイルが複数ある場合には、目的スタイル抽出部１０６は、目的スタイル特徴ベクトルＶ_ＴＳを下記の式（１４）により算出する。

ここで、変数Ｖ_ＴＳｉは、複数の目的スタイルのそれぞれに対応した目的スタイル特徴ベクトルＶ_ＴＳを示し、変数ｒｉは、複数の目的スタイルのそれぞれに対応する混合率を示す。また、変数ｎは、指定された目的スタイルの数を示す。式（１４）により算出される目的スタイル特徴ベクトルＶ_ＴＳは、現在の各スライダ（例えば、ＳＬＤ１〜ＳＬＤ４）の値の合計を用いて正規化したもの（各スライダの重みを加味して、目的スタイル特徴の重心を算出した値）である。
また、この場合、混合率ｒは、以下の式（１５）により算出される。

なお、この式（１５）に示されるように、目的スタイルのそれぞれの混合率ｒｉが全て“１”（最大値）になった場合に、混合率ｒは、“１”となる。
また、目的スタイルが複数ある場合に、スタイル混合部１０７は、例えば、対象スタイル特徴ベクトルＶ_ＳＳと、式（１４）により算出された目的スタイル特徴ベクトルＶ_ＴＳと、式（１５）により算出された混合率ｒから、上述した式（１２）を用いて混合スタイル特徴ベクトルＶ_ＭＳを生成する。

次に、図５を参照して、本実施形態による画像スタイル変換装置１の全体の動作について説明する。
図５は、本実施形態による画像スタイル変換装置１の動作の一例を示すフローチャートである。

図５に示すように、まず、画像スタイル変換装置１の制御部１０は、対象画像を取得する（ステップＳ１０１）。制御部１０の表示制御部１０９は、例えば、図３の画像追加ボタンＢＴ１の押下などの操作によって、対象画像の指定画面（例えば、画像追加ダイアログ）を表示させて、ユーザにスタイル変換の対象となる対象画像を選択させる。制御部１０の対象画像データ取得部１０１は、例えば、記憶部１３が記憶する画像データのうちから、ユーザが指定した画像データを対象画像データとして取得する。

次に、制御部１０は、対象画像の特徴量を抽出する（ステップＳ１０２）。制御部１０の対象スタイル抽出部１０２は、スタイルエンコーダＥ_Ｓに基づいて、対象画像から対象スタイル特徴ベクトルＶ_ＳＳを抽出する。すなわち、対象スタイル抽出部１０２は、上述した式（９）を用いて、対象画像から対象スタイル特徴ベクトルＶ_ＳＳを抽出する。また、制御部１０の対象コンテンツ抽出部１０３は、コンテンツエンコーダＥ_Ｃに基づいて、対象画像から対象コンテンツ特徴ベクトルＶ_ＳＣを抽出する。すなわち、対象コンテンツ抽出部１０３は、上述した式（１０）を用いて、対象画像から対象コンテンツ特徴ベクトルＶ_ＳＣを抽出する。

次に、制御部１０は、対象画像を表示部１１に表示する（ステップＳ１０３）。表示制御部１０９は、ユーザに対象画像を確認させるために、図３に示す対象画像パネルＰＮ１に、指定された対象画像を、スタイル変換確認画像（ＳＧ１）として、表示させる。

次に、制御部１０は、目的スタイルの選択を判定する（ステップＳ１０４）。表示制御部１０９は、例えば、図３のスタイル追加ボタンＢＴ２の押下などの操作によって、目的スタイルダイアログを表示させて、目的スタイル画像の指定か、ユーザに目的キーワードの指定かを選択させる。表示制御部１０９は、目的スタイル画像の指定が選択された場合（ステップＳ１０４：画像指定）に、処理をステップＳ１０５に進める。また、表示制御部１０９は、目的キーワードの指定が選択された場合（ステップＳ１０４：キーワード指定）に、処理をステップＳ１１４に進める。

ステップＳ１０５において、制御部１０は、目的スタイル画像を取得する。すなわち、制御部１０の目的画像データ取得部１０４は、ユーザによる入力部１２の操作に応じて、目的スタイル画像の画像データ（目的画像データ）を取得する。

次に、制御部１０は、目的スタイル画像の特徴量を抽出する（ステップＳ１０６）。制御部１０の目的スタイル抽出部１０６は、スタイルエンコーダＥ_Ｓに基づいて、目的スタイル画像から目的スタイル特徴ベクトルＶ_ＴＳを抽出する。すなわち、目的スタイル抽出部１０６は、上述した式（９）を用いて、目的スタイル画像から目的スタイル特徴ベクトルＶ_ＴＳを抽出する。

次に、制御部１０は、目的スタイル画像を表示部１１に表示する（ステップＳ１０７）。表示制御部１０９は、ユーザに目的スタイル画像を確認させるために、図３に示す目的スタイル画像パネルＰＮ２のように、目的スタイル画像パネルを表示させるとともに、指定された目的スタイル画像を表示させる。

次に、表示制御部１０９は、スライダを表示する（ステップＳ１０８）。すなわち、表示制御部１０９は、スタイルの混合率を調整するためのスライダ（例えば、図３のスライダＳＬＤ１〜スライダＳＬＤ４など）を表示させる。

次に、制御部１０は、スタイルの混合率を調整する（ステップＳ１０９）。表示制御部１０９は、ユーザによる入力部１２の操作に応じて、スライダの混合率を示す位置を変更して表示させる。なお、表示制御部１０９は、スライダのカーソルの初期位置は、最下部の位置に表示し、混合率の初期値は、“０％”である。ユーザによる操作によって、スライダのカーソルがドラックやスワイプ等により上下に移動されると、又は、増加ボタン（“＋”ボタン）及び減少ボタン（“−”ボタン）により上下に移動されると、カーソルの位置に応じて、混合率が変更される。

次に、制御部１０は、混合スタイル特徴量を生成する（ステップＳ１１０）。制御部１０のスタイル混合部１０７は、入力部１２の操作によって指定された混合率で、対象スタイル特徴ベクトルＶ_ＳＳと、目的スタイル特徴ベクトルＶ_ＴＳとを混合して、混合スタイル特徴ベクトルＶ_ＭＳを生成する。スタイル混合部１０７は、例えば、上述した式（１２）によって、対象スタイル特徴ベクトルＶ_ＳＳと、目的スタイル特徴ベクトルＶ_ＴＳとから混合スタイル特徴ベクトルＶ_ＭＳを生成する。

次に、制御部１０は、スタイル変換画像を生成する（ステップＳ１１１）。制御部１０の変換画像生成部１０８は、デコーダＧを用いて、対象コンテンツ特徴ベクトルＶ_ＳＣと、混合スタイル特徴ベクトルＶ_ＭＳとから、スタイル変換画像を生成する。すなわち、変換画像生成部１０８は、上述した式（１３）を用いて、対象コンテンツ特徴ベクトルＶ_ＳＣと、混合スタイル特徴ベクトルＶ_ＭＳとから、スタイル変換画像を生成する。変換画像生成部１０８は、生成したスタイル変換画像を記憶部１３に記憶させる。

次に、表示制御部１０９は、スタイル変換画像を表示部１１に表示する（ステップＳ１１２）。表示制御部１０９は、ユーザにスタイル変換画像を確認させるために、図３に示す対象画像パネルＰＮ１に、変換画像生成部１０８が生成したスタイル変換画像を、スタイル変換確認画像として、表示させる。例えば、対象画像が、図４に示すような湯気のないハンバーグの画像であり、目的スタイル画像が、湯気（しずる感）のあるステーキの画像である場合、変換画像生成部１０８は、ハンバーグの画像に、湯気（しずる感）のスタイルが、スライダの混合率で反映されたスタイル変換画像を生成し、表示制御部１０９は、当該スタイル変換画像を対象画像パネルＰＮ１に表示させる。

次に、制御部１０は、スタイル調整を終了するか否かを判定する（ステップＳ１１３）。制御部１０は、スタイル調整を終了する場合（ステップＳ１１３：ＹＥＳ）に、処理を終了する。また、制御部１０は、スタイル調整を終了しない場合（ステップＳ１１３：ＮＯ）に、処理をステップＳ１０９に戻す。

また、ステップＳ１１４において、制御部１０は、キーワード画像群を取得する。すなわち、制御部１０の目的キーワード取得部１０５は、ユーザによる入力部１２の操作に応じて、目的キーワードを取得する。また、目的スタイル抽出部１０６は、目的キーワード取得部１０５が取得した目的キーワードに対応する画像（複数ある場合には、複数の画像（画像群））を、目的画像記憶部１３２から検索して、各目的画像データを取得する。

次に、目的スタイル抽出部１０６は、画像群の平均特徴量を抽出する（ステップＳ１１５）。目的スタイル抽出部１０６は、スタイルエンコーダＥ_Ｓに基づいて、画像群のそれぞれから、個別スタイルの特徴ベクトルを抽出し、画像群のそれぞれから抽出したスタイルの特徴ベクトルの平均値を、目的スタイル特徴ベクトルＶ_ＴＳとして抽出する。目的スタイル抽出部１０６は、例えば、上述した式（１１）によって、目的スタイル特徴ベクトルＶ_ＴＳを算出する。

次に、制御部１０は、目的キーワードを表示部１１に表示する（ステップＳ１１６）。表示制御部１０９は、ユーザに目的キーワードを確認させるために、図３に示す目的スタイルキーワードパネルＰＮ４のように、目的スタイルキーワードパネルを表示させるとともに、指定された目的キーワードを表示させる。ステップＳ１１６の処理後に、制御部１０は、処理をステップＳ１０８に進める。

以上説明したように、本実施形態による画像スタイル変換装置１は、対象コンテンツ抽出部１０３と、対象スタイル抽出部１０２と、目的スタイル抽出部１０６と、変換画像生成部１０８とを備える。対象コンテンツ抽出部１０３は、学習結果に基づいて、複数のドメインに共通する画像内の要素を示すコンテンツの特徴ベクトル（特徴量）を、対象コンテンツ特徴ベクトルＶ_ＳＣ（対象コンテンツ特徴量）として、指定された加工対象の画像である対象画像から抽出する。ここで、学習結果は、類似の特徴を有する画像の集合を示すドメインである複数のドメイン（例えば、ドメインＡ及びドメインＢ）のそれぞれに属する画像群に基づいて学習された結果である。対象スタイル抽出部１０２は、学習結果に基づいて、対象画像から複数のドメインに共通しない画像内の要素を示すスタイルの特徴ベクトルを、対象スタイル特徴ベクトルＶ_ＳＳ（対象スタイル特徴量）として抽出する。目的スタイル抽出部１０６は、学習結果に基づいて、指定された目的スタイルの画像を示す目的スタイル画像からスタイルの特徴ベクトルを、目的スタイル特徴ベクトルＶ_ＴＳ（目的スタイル特徴量）として抽出する。変換画像生成部１０８は、学習結果に基づいて、対象コンテンツ抽出部１０３が抽出した対象コンテンツ特徴ベクトルＶ_ＳＣと、対象スタイル抽出部１０２が抽出した対象スタイル特徴ベクトルＶ_ＳＳ、及び目的スタイル抽出部１０６が抽出した目的スタイル特徴ベクトルＶ_ＴＳを混合した混合スタイル特徴量とから、コンテンツの特徴と目的スタイルの特徴とを併せ持つスタイル変換画像を生成する。

これにより、本実施形態による画像スタイル変換装置１は、対象画像と、目的スタイル画像とを指定することで、対象画像のスタイルと、目的スタイル画像のスタイルとを混合させたスタイル変換画像を生成するため、ユーザが直感的に画像のスタイルを変換することができる。

例えば、本実施形態による画像スタイル変換装置１では、従来の画像編集ソフトのように、領域指定、画素値、色味調整など細かく加工する複雑な手順は必要なく、目的スタイル画像を指定するだけで、直感的に画像のスタイルを変換することができる。
また、本実施形態による画像スタイル変換装置１では、例えば、シーンや被写体が大きく異なる対象画像と目的画像とに適応してしまった場合であっても、光の当り方や色味などで不整合が生じることがない。

また、本実施形態による画像スタイル変換装置１は、表示制御部１０９と、生成するスタイル混合部１０７とを備える。表示制御部１０９は、対象スタイル特徴ベクトルＶ_ＳＳと、目的スタイル特徴ベクトルＶ_ＴＳとの混合率を示すスライダを表示部１１に表示させ、ユーザによる入力部１２（操作部）の操作に応じて、スライダの混合率を示す位置を変更して表示させる。スタイル混合部１０７は、入力部１２の操作によって指定された混合率で、対象スタイル特徴ベクトルＶ_ＳＳと、目的スタイル特徴ベクトルＶ_ＴＳとを混合して、混合スタイル特徴ベクトルＶ_ＭＳ（混合スタイル特徴量）を生成する。変換画像生成部１０８は、対象コンテンツ特徴ベクトルＶ_ＳＣと、スタイル混合部１０７が生成した混合スタイル特徴ベクトルＶ_ＭＳとから、学習結果に基づいてスタイル変換画像を生成する。
これにより、本実施形態による画像スタイル変換装置１は、スライダにより効果を確認しながら、スタイル変換画像を適切に調整することができる。

また、本実施形態では、目的スタイル抽出部１０６は、指定された目的スタイルを表す目的キーワード（目的スタイルキーワード）に対応付けられた画像から、学習結果に基づいて、目的スタイルキーワードに対応する目的スタイル特徴ベクトルＶ_ＴＳを抽出する。
これにより、本実施形態による画像スタイル変換装置１は、目的キーワード（目的スタイルキーワード）を指定することで、さらに直感的に画像のスタイルを変換することができる。

また、本実施形態では、目的スタイル抽出部１０６は、指定された目的スタイルキーワードに対応付けられた複数の画像のそれぞれから、学習結果に基づいて、個別スタイルの特徴ベクトルを抽出し、複数の画像のそれぞれから抽出したスタイルの特徴ベクトルの平均値を、目的スタイル特徴ベクトルＶ_ＴＳとして抽出する。
これにより、本実施形態による画像スタイル変換装置１は、目的キーワード（目的スタイルキーワード）から適切に目的スタイルを抽出し、直感的に画像のスタイルを変換することができる。

また、本実施形態では、目的スタイル抽出部１０６は、複数の目的スタイル特徴ベクトルＶ_ＴＳを抽出する。表示制御部１０９は、複数の目的スタイル特徴ベクトルＶ_ＴＳに対応する複数のスライダを表示部１１に表示させる。変換画像生成部１０８は、学習結果に基づいて、対象コンテンツ特徴ベクトルＶ_ＳＣと、対象スタイル特徴ベクトルＶ_ＳＳと複数の目的スタイル特徴ベクトルＶ_ＴＳとをスライダによって指定されたそれぞれの混合率で混合した混合スタイル特徴ベクトルＶ_ＭＳとから、スタイル変換画像を生成する。
これにより、本実施形態による画像スタイル変換装置１は、複数の目的スタイルを対象画像に反映させることができるため、より自由度の高いスタイル変換を行うことができる。

また、本実施形態では、学習結果には、画像からスタイルの特徴ベクトルを抽出するスタイルエンコーダＥ_Ｓと、画像からコンテンツの特徴ベクトルを抽出するコンテンツエンコーダＥ_Ｃと、スタイルの特徴ベクトル及びコンテンツの特徴ベクトルから画像を生成するデコーダＧとが含まれる。対象コンテンツ抽出部１０３は、コンテンツエンコーダＥ_Ｃに基づいて、対象画像から対象コンテンツ特徴ベクトルＶ_ＳＣを抽出する。対象スタイル抽出部１０２は、スタイルエンコーダＥ_Ｓに基づいて、対象画像から対象スタイル特徴ベクトルＶ_ＳＳを抽出する。目的スタイル抽出部１０６は、スタイルエンコーダＥ_Ｓに基づいて、目的スタイル画像から目的スタイル特徴ベクトルＶ_ＴＳを抽出する。変換画像生成部１０８は、デコーダＧに基づいて、対象コンテンツ特徴ベクトルＶ_ＳＣ及び混合スタイル特徴ベクトルＶ_ＭＳから、スタイル変換画像を生成する。
これにより、本実施形態による画像スタイル変換装置１は、複雑な処理を必要としない簡易な処理により、直感的に画像のスタイルを変換することができる。

また、本実施系値による画像スタイル変換方法は、対象コンテンツ抽出ステップと、対象スタイル抽出ステップと、目的スタイル抽出ステップと、変換画像生成ステップとを含む。対象コンテンツ抽出ステップにおいて、対象コンテンツ抽出部１０３が、学習結果に基づいて、複数のドメインに共通する画像内の要素を示すコンテンツの特徴ベクトル（特徴量）を、対象コンテンツ特徴ベクトルＶ_ＳＣ（対象コンテンツ特徴量）として、指定された加工対象の画像である対象画像から抽出する。対象スタイル抽出ステップにおいて、対象スタイル抽出部１０２が、学習結果に基づいて、対象画像から複数のドメインに共通しない画像内の要素を示すスタイルの特徴ベクトルを、対象スタイル特徴ベクトルＶ_ＳＳ（対象スタイル特徴量）として抽出する。目的スタイル抽出ステップにおいて、目的スタイル抽出部１０６が、学習結果に基づいて、指定された目的スタイルの画像を示す目的スタイル画像からスタイルの特徴ベクトルを、目的スタイル特徴ベクトルＶ_ＴＳ（目的スタイル特徴量）として抽出する。変換画像生成ステップにおいて、変換画像生成部１０８は、学習結果に基づいて、対象コンテンツ抽出部１０３が抽出した対象コンテンツ特徴ベクトルＶ_ＳＣと、対象スタイル抽出部１０２が抽出した対象スタイル特徴ベクトルＶ_ＳＳ、及び目的スタイル抽出部１０６が抽出した目的スタイル特徴ベクトルＶ_ＴＳを混合した混合スタイル特徴量とから、コンテンツの特徴と目的スタイルの特徴とを併せ持つスタイル変換画像を生成する。
これにより、本実施系値による画像スタイル変換方法は、上述した画像スタイル変換装置１と同様の効果を奏し、ユーザが直感的に画像のスタイルを変換することができる。

［第２の実施形態］
次に、図面を参照して、第２の実施形態による画像スタイル変換装置１ａについて説明する。

図６は、第２の実施形態による画像スタイル変換装置１ａの一例を示す機能ブロック図である。
図６に示すように、画像スタイル変換装置１ａは、制御部１０ａと、表示部１１と、入力部１２と、記憶部１３とを備える。
なお、この図において、上述した図１と同一の構成には、同一の符号を付与してその説明を省略する。

制御部１０ａは、例えば、ＣＰＵなどを含むプロセッサであり、画像スタイル変換装置１ａを統括的に制御する。、制御部１０ａは、例えば、対象画像データ取得部１０１と、対象スタイル抽出部１０２と、対象コンテンツ抽出部１０３と、目的画像データ取得部１０４と、目的キーワード取得部１０５と、目的スタイル抽出部１０６と、スタイル混合部１０７と、変換画像生成部１０８と、表示制御部１０９ａと、目的コンテンツ抽出部１１０と、逆方向プレビュー画像生成部１１１と、個別目的コンテンツ抽出部１１２と、目的スタイル画像選択部１１３とを備えている。

目的コンテンツ抽出部１１０は、学習結果記憶部１３１が記憶する学習結果に基づいて、目的スタイル画像からコンテンツの特徴ベクトルを、目的コンテンツ特徴ベクトルＶ_ＴＣ（目的コンテンツ特徴量）として抽出する。目的コンテンツ抽出部１１０は、例えば、学習結果のコンテンツエンコーダＥ_Ｃを用いて、目的画像データ取得部１０４が取得した目的画像データから、目的コンテンツ特徴ベクトルＶ_ＴＣを抽出する。目的コンテンツ抽出部１１０は、上述した式（１０）に画像データとして、目的画像データを代入することで目的コンテンツ特徴ベクトルＶ_ＴＣを抽出する。

逆方向プレビュー画像生成部１１１は、学習結果記憶部１３１が記憶する学習結果に基づいて、目的コンテンツ抽出部１１０が抽出した目的コンテンツ特徴ベクトルＶ_ＴＣと、対象スタイル抽出部１０２が抽出した対象スタイル特徴ベクトルＶ_ＳＳとから、目的スタイル画像のコンテンツの特徴と対象画像のスタイルの特徴とを併せ持つ逆方向プレビュー画像を生成する。逆方向プレビュー画像生成部１１１は、例えば、学習結果のデコーダＧを用いて、目的コンテンツ特徴ベクトルＶ_ＴＣと、対象スタイル特徴ベクトルＶ_ＳＳとから、逆方向プレビュー画像を復元する。逆方向プレビュー画像生成部１１１は、例えば、上述した式（１３）に、スタイルの特徴ベクトルＶ_Ｓとして、対象スタイル特徴ベクトルＶ_ＳＳを代入し、コンテンツの特徴ベクトルＶ_Ｃとして、目的コンテンツ特徴ベクトルＶ_ＴＣを代入することで、逆方向プレビュー画像を生成する。

個別目的コンテンツ抽出部１１２は、指定された目的キーワードに対応付けられた複数の画像のそれぞれから、学習結果記憶部１３１が記憶する学習結果に基づいて、個別コンテンツの特徴ベクトルを抽出する。個別目的コンテンツ抽出部１１２は、例えば、学習結果のコンテンツエンコーダＥ_Ｃを用いて、目的キーワードに対応付けられた複数の画像（画像群）のそれぞれから、個別コンテンツの特徴ベクトル（個別コンテンツ特徴ベクトルＶ_ＥＴＣ）を抽出する。個別目的コンテンツ抽出部１１２は、上述した式（１０）に画像データとして、目的キーワードに対応付けられた画像群のそれぞれの画像データを代入することで個別コンテンツ特徴ベクトルＶ_ＥＴＣを抽出する。

目的スタイル画像選択部１１３は、個別目的コンテンツ抽出部１１２が抽出した、複数の画像の個別コンテンツの特徴ベクトル（個別コンテンツ特徴ベクトルＶ_ＥＴＣ）のうちから、対象コンテンツ特徴ベクトルＶ_ＳＣに最も近い個別コンテンツの特徴ベクトルに対応する画像を、目的スタイル画像として選択する。

表示制御部１０９ａは、基本的な機能は、第１の実施形態の表示制御部１０９と同様である。ここでは、表示制御部１０９ａの第１の実施形態と異なる機能について説明する。
表示制御部１０９ａは、目的キーワードが指定された場合に、スライダの一端に隣接する位置に、目的スタイル画像選択部１１３が選択した目的スタイル画像を順方向プレビュー画像として表示させる。また、表示制御部１０９ａは、スライダの一端に隣接する位置に、目的スタイル画像を順方向プレビュー画像として表示させるとともに、順方向プレビュー画像とは反対のスライダの一端に隣接する位置に、逆方向プレビュー画像生成部１１１が生成した逆方向プレビュー画像を表示させる。

ここで、図７を参照して、表示制御部１０９ａが表示する表示画面について説明する。
図７は、本実施形態による画像スタイル変換装置１ａの表示画面の一例を示す図である。なお、この図において、上述した図３と同一の構成には、同一の符号を付与してその説明を省略する。
表示制御部１０９ａは、図７に示す表示画面Ｇ２のような画面を、表示部１１に表示させる。

表示画面Ｇ２において、目的スタイル画像パネルＰＮ２ａは、指定した目的スタイル画像ＴＧ１と、逆方向プレビュー画像生成部１１１が生成した逆方向プレビュー画像ＮＴＧ１とを表示するとともに、目的スタイルの混合率を調整するスライダＳＬＤ１を表示する。すなわち、表示制御部１０９ａは、目的スタイル画像パネルＰＮ２ａにおいて、スライダＳＬＤ１の一端に隣接する位置に、目的スタイル画像ＴＧ１を順方向プレビュー画像として表示させるとともに、反対のスライダＳＬＤ１の一端に隣接する位置に、逆方向プレビュー画像ＮＴＧ１を表示させる。

また、表示画面Ｇ２において、目的スタイルキーワードパネルＰＮ４ａは、指定した目的キーワードと、目的スタイル画像選択部１１３が選択した目的スタイル画像ＴＧ３とを表示するとともに、目的スタイルの混合率を調整するスライダＳＬＤ４を表示する。すなわち、表示制御部１０９ａは、例えば、目的スタイルキーワードパネルＰＮ４ａに、指定された目的キーワードの“しずる感”及び目的スタイル画像ＴＧ３を表示するとともに、スライダＳＬＤ４を表示させる。
また、表示制御部１０９ａは、目的スタイルキーワードパネルＰＮ４ａにおいても、目的スタイル画像パネルＰＮ２ａと同様に、逆方向プレビュー画像ＮＴＧ３を表示させる。

以上説明したように、本実施形態による画像スタイル変換装置１ａは、第１の実施形態と同様に、対象コンテンツ抽出部１０３と、対象スタイル抽出部１０２と、目的スタイル抽出部１０６と、変換画像生成部１０８とを備える。
これにより、本実施形態による画像スタイル変換装置１ａは、第１の実施形態と同様の効果を奏し、ユーザが直感的に画像のスタイルを変換することができる。

また、本実施形態による画像スタイル変換装置１ａは、目的コンテンツ抽出部１１０と、逆方向プレビュー画像生成部１１１と、表示制御部１０９ａとを備える。目的コンテンツ抽出部１１０は、学習結果に基づいて、目的スタイル画像からコンテンツの特徴ベクトルを、目的コンテンツ特徴ベクトルＶ_ＴＣ（目的コンテンツ特徴量）として抽出する。逆方向プレビュー画像生成部１１１は、学習結果に基づいて、目的コンテンツ抽出部１１０が抽出した目的コンテンツ特徴ベクトルＶ_ＴＣと、対象スタイル抽出部１０２が抽出した対象スタイル特徴ベクトルＶ_ＳＳとから、目的スタイル画像のコンテンツの特徴と対象画像のスタイルの特徴とを併せ持つ逆方向プレビュー画像を生成する。表示制御部１０９ａは、スライダの一端に隣接する位置に、目的スタイル画像を順方向プレビュー画像として表示させるとともに、順方向プレビュー画像とは反対のスライダの一端に隣接する位置に、逆方向プレビュー画像生成部１１１が生成した逆方向プレビュー画像を表示させる。

これにより、本実施形態による画像スタイル変換装置１ａは、混合率の調整によってスタイルが変化する目安となる順方向プレビュー画像及び逆方向プレビュー画像を表示するようにしたため、混合率の調整をユーザがイメージすることができ、さらに直感的に画像のスタイルを変換することができる。

また、本実施形態による画像スタイル変換装置１ａは、個別目的コンテンツ抽出部１１２と、目的スタイル画像選択部１１３とを備える。個別目的コンテンツ抽出部１１２は、指定された目的スタイルキーワードに対応付けられた複数の画像のそれぞれから、学習結果に基づいて、個別コンテンツの特徴ベクトルを抽出する。目的スタイル画像選択部１１３は、個別目的コンテンツ抽出部１１２が抽出した、複数の画像の個別コンテンツの特徴ベクトルのうちから、対象コンテンツ特徴ベクトルＶ_ＳＣに最も近い個別コンテンツの特徴ベクトルに対応する画像を、目的スタイル画像として選択する。表示制御部１０９ａは、スライダの一端に隣接する位置に、目的スタイル画像選択部１１３が選択した目的スタイル画像を順方向プレビュー画像として表示させる。

これにより、本実施形態による画像スタイル変換装置１ａは、目的キーワードとともに、対象画像のコンテンツに最も近い画像を順方向プレビュー画像として表示するようにしたため、目的キーワードのスタイルを視覚的にイメージすることができ、さらに直感的に画像のスタイルを変換することができる。

［第３の実施形態］
次に、図面を参照して、第３の実施形態による画像スタイル変換装置１ｂについて説明する。

図８は、第３の実施形態による画像スタイル変換装置１ｂの一例を示す機能ブロック図である。
図８に示すように、画像スタイル変換装置１ｂは、制御部１０ｂと、表示部１１と、入力部１２と、記憶部１３とを備える。
なお、この図において、上述した図１及び図６と同一の構成には、同一の符号を付与してその説明を省略する。

制御部１０ｂは、例えば、ＣＰＵなどを含むプロセッサであり、画像スタイル変換装置１ｂを統括的に制御する。、制御部１０ｂは、例えば、対象画像データ取得部１０１と、対象スタイル抽出部１０２と、対象コンテンツ抽出部１０３と、目的画像データ取得部１０４と、目的キーワード取得部１０５と、目的スタイル抽出部１０６と、スタイル混合部１０７と、変換画像生成部１０８と、表示制御部１０９ｂと、目的コンテンツ抽出部１１０と、動的プレビュー画像生成部１１４とを備えている。

動的プレビュー画像生成部１１４は、学習結果記憶部１３１が記憶する学習結果に基づいて、スライダに対応した混合スタイル特徴ベクトルＶ_ＭＳと、スライダに対応した目的スタイル画像から抽出されたコンテンツの特徴ベクトル（目的コンテンツ特徴ベクトルＶ_ＴＣ）とから、動的プレビュー画像を生成する。動的プレビュー画像生成部１１４は、例えば、学習結果のデコーダＧを用いて、目的コンテンツ特徴ベクトルＶ_ＴＣと、混合スタイル特徴ベクトルＶ_ＭＳとから、動的プレビュー画像を復元する。動的プレビュー画像生成部１１４は、例えば、上述した式（１３）に、スタイルの特徴ベクトルＶ_Ｓとして、混合スタイル特徴ベクトルＶ_ＭＳを代入し、コンテンツの特徴ベクトルＶ_Ｃとして、目的コンテンツ特徴ベクトルＶ_ＴＣを代入することで、動的プレビュー画像を生成する。

表示制御部１０９ｂは、基本的な機能は、第１の実施形態の表示制御部１０９と同様である。ここでは、表示制御部１０９ｂの第１の実施形態と異なる機能について説明する。
表示制御部１０９ｂは、スライダに対応した動的プレビュー画像を、スライダに対応付けて表示させるとともに、スライダの混合率を示す位置に応じて、動的プレビュー画像を変更して表示させる。すなわち、表示制御部１０９ｂは、例えば、図３に示す表示画面Ｇ１の目的スタイル画像パネルＰＮ２において、スライダＳＬＤ１のカーソルの位置が変更されると、スライダの混合率に応じて、目的スタイル画像ＴＧ１を、動的プレビュー画像として変更する。

以上説明したように、本実施形態による画像スタイル変換装置１ｂは、第１の実施形態と同様に、対象コンテンツ抽出部１０３と、対象スタイル抽出部１０２と、目的スタイル抽出部１０６と、変換画像生成部１０８とを備える。
これにより、本実施形態による画像スタイル変換装置１ｂは、第１の実施形態と同様の効果を奏し、ユーザが直感的に画像のスタイルを変換することができる。

また、本実施形態による画像スタイル変換装置１ｂは、動的プレビュー画像生成部１１４と、表示制御部１０９ｂとを備える。動的プレビュー画像生成部１１４は、学習結果に基づいて、スライダに対応した混合スタイル特徴ベクトルＶ_ＭＳと、スライダに対応した目的スタイル画像から抽出されたコンテンツの特徴ベクトル（目的コンテンツ特徴ベクトルＶ_ＴＣ）とから、動的プレビュー画像を生成する。表示制御部１０９ｂは、スライダに対応した動的プレビュー画像を、スライダに対応付けて表示させるとともに、スライダの混合率を示す位置に応じて、動的プレビュー画像を変更して表示させる。

これにより、本実施形態による画像スタイル変換装置１ｂは、スライダの混合率を示す位置に応じて、動的プレビュー画像を変更して表示するため、スタイルの混合率の変化を視覚的にイメージすることができ、さらに直感的に画像のスタイルを変換することができる。

［第４の実施形態］
次に、図面を参照して、第４の実施形態による画像スタイル変換装置１ｃについて説明する。

図９は、第４の実施形態による画像スタイル変換装置１ｃの一例を示す機能ブロック図である。
図９に示すように、画像スタイル変換装置１ｃは、制御部１０ｃと、表示部１１と、入力部１２と、記憶部１３ａとを備える。
なお、この図において、上述した図１と同一の構成には、同一の符号を付与してその説明を省略する。

記憶部１３ａは、画像スタイル変換装置１ｃが実行する各種処理に利用する情報を記憶する。記憶部１３ａは、例えば、学習結果記憶部１３１と、目的画像記憶部１３２と、学習画像データ記憶部１３３とを備えている。
学習画像データ記憶部１３３は、上述した学習結果記憶部１３１が記憶する学習結果を生成するための学習画像データ（例えば、ドメインＡの画像群の画像データ、及びドメインＢの画像群の画像データ）を記憶する。

制御部１０ｃは、例えば、ＣＰＵなどを含むプロセッサであり、画像スタイル変換装置１ｃを統括的に制御する。、制御部１０ｃは、例えば、対象画像データ取得部１０１と、対象スタイル抽出部１０２と、対象コンテンツ抽出部１０３と、目的画像データ取得部１０４と、目的キーワード取得部１０５と、目的スタイル抽出部１０６と、スタイル混合部１０７と、変換画像生成部１０８と、表示制御部１０９と、学習処理部１１５とを備えている。

本実施形態では、学習画像データ記憶部１３３及び学習処理部１１５を備えている点を除いて、第１の実施形態と同様である。
学習処理部１１５は、複数のドメインのそれぞれに属する画像群に基づいて、機械学習を実行し、学習結果を生成する。すなわち、学習処理部１１５は、上述した式（１）〜式（８）の損失関数により、学習画像データ記憶部１３３が記憶する学習画像データを用いて機械学習処理を実行して、学習結果として、スタイルエンコーダＥ_Ｓ、コンテンツエンコーダＥ_Ｃ、及びデコーダＧを生成する。学習処理部１１５は、生成した学習結果を学習結果記憶部１３１に記憶させる。

なお、学習処理部１１５は、例えば、料理、景色、植物、等のカテゴリごとに、学習画像データを分類し、カテゴリごとに学習処理を実行するようにしてもよい。

以上説明したように、本実施形態による画像スタイル変換装置１ｃは、複数のドメインのそれぞれに属する画像群に基づいて、機械学習を実行し、学習結果を生成する学習処理部１１５を備える。
これにより、本実施形態による画像スタイル変換装置１ｃは、例えば、画像のカテゴリごとに学習処理を実行するなど、画像の変化に対応して、画像のスタイルの変換を、より柔軟に対応することができる。本実施形態による画像スタイル変換装置１ｃは、学習結果を柔軟に更新することができる。

なお、本発明は、上記の各実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で変更可能である。
例えば、上記の各実施形態において、記憶部１３（１３ａ）の一部又は全部を画像スタイル変換装置１（１ａ〜１ｃ）の外部に備えるようにしてもよい。この場合、記憶部１３（１３ａ）は、ネットワークを介して接続可能な外部装置（例えば、サーバ装置）に備えられていてもよい。
また、上記の各実施形態において、対象画像データ取得部１０１は、対象画像を記憶部１３（１３ａ）から取得してもよいし、外部から取得するようにしてもよい。また、同様に、目的画像データ取得部１０４は、目的スタイル画像を記憶部１３（１３ａ）から取得してもよいし、外部から取得するようにしてもよい。

また、上記の各実施形態において、制御部１０（１０ａ〜１０ｃ）が備える機能部の一部を外部のサーバ装置が備えるようにしてもよい。
また、上記の各実施形態において、画像スタイル変換装置１（１ａ〜１ｃ）は、１台の装置で構成される例を説明したが、これに限定されるものではなく、例えば、複数の装置によって、画像スタイル変換システムとして構成されてもよい。
また、上記の各実施形態は、単独で実施される例を説明したが、各実施形態の一部又は全部を組み合わせて実施するようにしてもよい。

また、上記の各実施形態において、学習結果記憶部１３１は、対象画像のカテゴリに対応した複数の学習結果を記憶するようにしてもよい。この場合、制御部１０（１０ａ〜１０ｃ）は、例えば、ディスクリミネータＤを用いて、複数の学習結果のうちから対象画像に応じた最適な学習結果を選択して用いるようにしてもよい。

なお、上述した画像スタイル変換装置１（１ａ〜１ｃ）が備える各構成は、内部に、コンピュータシステムを有している。そして、上述した画像スタイル変換装置１（１ａ〜１ｃ）が備える各構成の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上述した画像スタイル変換装置１（１ａ〜１ｃ）が備える各構成における処理を行ってもよい。ここで、「記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行する」とは、コンピュータシステムにプログラムをインストールすることを含む。ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、インターネットやＷＡＮ、ＬＡＮ、専用回線等の通信回線を含むネットワークを介して接続された複数のコンピュータ装置を含んでもよい。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。このように、プログラムを記憶した記録媒体は、ＣＤ−ＲＯＭ等の非一過性の記録媒体であってもよい。

また、記録媒体には、当該プログラムを配信するために配信サーバからアクセス可能な内部又は外部に設けられた記録媒体も含まれる。なお、プログラムを複数に分割し、それぞれ異なるタイミングでダウンロードした後に画像スタイル変換装置１（１ａ〜１ｃ））が備える各構成で合体される構成や、分割されたプログラムのそれぞれを配信する配信サーバが異なっていてもよい。さらに「コンピュータ読み取り可能な記録媒体」とは、ネットワークを介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、上述した機能の一部を実現するためのものであってもよい。さらに、上述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

また、上述した機能の一部又は全部を、ＬＳＩ（Large Scale Integration）等の集積回路として実現してもよい。上述した各機能は個別にプロセッサ化してもよいし、一部、又は全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、又は汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

１、１ａ、１ｂ、１ｃ…画像スタイル変換装置
１０、１０ａ、１０ｂ、１０ｃ…制御部
１１…表示部
１２…入力部
１３、１３ａ…記憶部
１０１…対象画像データ取得部
１０２…対象スタイル抽出部
１０３…対象コンテンツ抽出部
１０４…目的画像データ取得部
１０５…目的キーワード取得部
１０６…目的スタイル抽出部
１０７…スタイル混合部
１０８…変換画像生成部
１０９、１０９ａ、１０９ｂ…表示制御部
１１０…目的コンテンツ抽出部
１１１…逆方向プレビュー画像生成部
１１２…個別目的コンテンツ抽出部
１１３…目的スタイル画像選択部
１１４…動的プレビュー画像生成部
１１５…学習処理部
１３１…学習結果記憶部
１３２…目的画像記憶部
１３３…学習画像データ記憶部

Claims

類似の特徴を有する画像の集合を示すドメインである複数のドメインのそれぞれに属する画像群に基づいて学習された学習結果に基づいて、前記複数のドメインに共通する画像内の要素を示すコンテンツの特徴量を、対象コンテンツ特徴量として、指定された加工対象の画像である対象画像から抽出する対象コンテンツ抽出部と、
前記学習結果に基づいて、前記対象画像から前記複数のドメインに共通しない画像内の要素を示すスタイルの特徴量を、対象スタイル特徴量として抽出する対象スタイル抽出部と、
前記学習結果に基づいて、指定された目的スタイルの画像を示す目的スタイル画像から前記スタイルの特徴量を、目的スタイル特徴量として抽出する目的スタイル抽出部と、
前記学習結果に基づいて、前記対象コンテンツ抽出部が抽出した前記対象コンテンツ特徴量と、前記対象スタイル抽出部が抽出した前記対象スタイル特徴量、及び前記目的スタイル抽出部が抽出した前記目的スタイル特徴量を混合した混合スタイル特徴量とから、前記コンテンツの特徴と前記目的スタイルの特徴とを併せ持つスタイル変換画像を生成する変換画像生成部と
を備えることを特徴とする画像スタイル変換装置。
前記対象スタイル特徴量と、前記目的スタイル特徴量との混合率を示すスライダを表示部に表示させ、ユーザによる操作部の操作に応じて、前記スライダの前記混合率を示す位置を変更して表示させる表示制御部と、
前記操作部の操作によって指定された前記混合率で、前記対象スタイル特徴量と、前記目的スタイル特徴量とを混合して、前記混合スタイル特徴量を生成するスタイル混合部と
を備え、
前記変換画像生成部は、前記対象コンテンツ特徴量と、前記スタイル混合部が生成した混合スタイル特徴量とから、前記学習結果に基づいて前記スタイル変換画像を生成する
ことを特徴とする請求項１に記載の画像スタイル変換装置。
前記学習結果に基づいて、前記目的スタイル画像から前記コンテンツの特徴量を、目的コンテンツ特徴量として抽出する目的コンテンツ抽出部と、
前記学習結果に基づいて、前記目的コンテンツ抽出部が抽出した前記目的コンテンツ特徴量と、前記対象スタイル抽出部が抽出した前記対象スタイル特徴量とから、前記目的スタイル画像の前記コンテンツの特徴と前記対象画像の前記スタイルの特徴とを併せ持つ逆方向プレビュー画像を生成する逆方向プレビュー画像生成部と
を備え、
前記表示制御部は、
前記スライダの一端に隣接する位置に、前記目的スタイル画像を順方向プレビュー画像として表示させるとともに、前記順方向プレビュー画像とは反対の前記スライダの一端に隣接する位置に、前記逆方向プレビュー画像生成部が生成した前記逆方向プレビュー画像を表示させる
ことを特徴とする請求項２に記載の画像スタイル変換装置。
前記目的スタイル抽出部は、
指定された前記目的スタイルを表す目的スタイルキーワードに対応付けられた画像から、前記学習結果に基づいて、前記目的スタイルキーワードに対応する前記目的スタイル特徴量を抽出する
ことを特徴とする請求項２又は請求項３に記載の画像スタイル変換装置。
前記目的スタイル抽出部は、
指定された前記目的スタイルキーワードに対応付けられた複数の画像のそれぞれから、前記学習結果に基づいて、個別スタイルの特徴量を抽出し、前記複数の画像のそれぞれから抽出した前記スタイルの特徴量の平均値を、前記目的スタイル特徴量として抽出する
ことを特徴とする請求項４に記載の画像スタイル変換装置。
指定された前記目的スタイルキーワードに対応付けられた複数の画像のそれぞれから、前記学習結果に基づいて、個別コンテンツの特徴量を抽出する個別目的コンテンツ抽出部と、
前記個別目的コンテンツ抽出部が抽出した、前記複数の画像の個別コンテンツの特徴量のうちから、前記対象コンテンツ特徴量に最も近い前記個別コンテンツの特徴量に対応する画像を、前記目的スタイル画像として選択する目的スタイル画像選択部と
を備え、
前記表示制御部は、前記スライダの一端に隣接する位置に、前記目的スタイル画像選択部が選択した前記目的スタイル画像を順方向プレビュー画像として表示させる
ことを特徴とする請求項５に記載の画像スタイル変換装置。
前記目的スタイル抽出部は、複数の前記目的スタイル特徴量を抽出し、
前記表示制御部は、複数の前記目的スタイル特徴量に対応する複数の前記スライダを前記表示部に表示させ、
前記変換画像生成部は、
前記学習結果に基づいて、前記対象コンテンツ特徴量と、前記対象スタイル特徴量と複数の前記目的スタイル特徴量とを前記スライダによって指定されたそれぞれの混合率で混合した混合スタイル特徴量とから、前記スタイル変換画像を生成する
ことを特徴とする請求項２から請求項６にいずれか一項に記載の画像スタイル変換装置。
前記学習結果に基づいて、前記スライダに対応した前記混合スタイル特徴量と、前記スライダに対応した前記目的スタイル画像から抽出された前記コンテンツの特徴量とから、動的プレビュー画像を生成する動的プレビュー画像生成部を備え、
前記表示制御部は、前記スライダに対応した前記動的プレビュー画像を、前記スライダに対応付けて表示させるとともに、前記スライダの前記混合率を示す位置に応じて、前記動的プレビュー画像を変更して表示させる
ことを特徴とする請求項７に記載の画像スタイル変換装置。
前記学習結果には、画像から前記スタイルの特徴量を抽出するスタイルエンコーダと、画像から前記コンテンツの特徴量を抽出するコンテンツエンコーダと、前記スタイルの特徴量及び前記コンテンツの特徴量から画像を生成するデコーダとが含まれ、
前記対象コンテンツ抽出部は、前記コンテンツエンコーダに基づいて、前記対象画像から前記対象コンテンツ特徴量を抽出し、
前記対象スタイル抽出部は、前記スタイルエンコーダに基づいて、前記対象画像から前記対象スタイル特徴量を抽出し、
前記目的スタイル抽出部は、前記スタイルエンコーダに基づいて、前記目的スタイル画像から前記目的スタイル特徴量を抽出し、
前記変換画像生成部は、前記デコーダに基づいて、前記対象コンテンツ特徴量及び前記混合スタイル特徴量から、前記スタイル変換画像を生成する
ことを特徴とする請求項１から請求項８のいずれか一項に記載の画像スタイル変換装置。
前記複数のドメインのそれぞれに属する画像群に基づいて、機械学習を実行し、前記学習結果を生成する学習処理部を備える
ことを特徴とする請求項１から請求項９のいずれか一項に記載の画像スタイル変換装置。
対象コンテンツ抽出部が、類似の特徴を有する画像の集合を示すドメインである複数のドメインのそれぞれに属する画像群に基づいて学習された学習結果に基づいて、前記複数のドメインに共通する画像内の要素を示すコンテンツの特徴量を、対象コンテンツ特徴量として、指定された加工対象の画像である対象画像から抽出する対象コンテンツ抽出ステップと、
対象スタイル抽出部が、前記学習結果に基づいて、前記対象画像から前記複数のドメインに共通しない画像内の要素を示すスタイルの特徴量を、対象スタイル特徴量として抽出する対象スタイル抽出ステップと、
目的スタイル抽出部が、前記学習結果に基づいて、指定された目的スタイルの画像を示す目的スタイル画像から前記スタイルの特徴量を、目的スタイル特徴量として抽出する目的スタイル抽出ステップと、
変換画像生成部が、前記学習結果に基づいて、前記対象コンテンツ抽出ステップによって抽出された前記対象コンテンツ特徴量と、前記対象スタイル抽出ステップによって抽出された前記対象スタイル特徴量、及び前記目的スタイル抽出ステップによって抽出された前記目的スタイル特徴量を混合した混合スタイル特徴量とから、前記コンテンツの特徴と前記目的スタイルの特徴を併せ持つスタイル変換画像を生成する変換画像生成ステップと
を含むことを特徴とする画像スタイル変換方法。
コンピュータに、
類似の特徴を有する画像の集合を示すドメインである複数のドメインのそれぞれに属する画像群に基づいて学習された学習結果に基づいて、前記複数のドメインに共通する画像内の要素を示すコンテンツの特徴量を、対象コンテンツ特徴量として、指定された加工対象の画像である対象画像から抽出する対象コンテンツ抽出ステップと、
前記学習結果に基づいて、前記対象画像から前記複数のドメインに共通しない画像内の要素を示すスタイルの特徴量を、対象スタイル特徴量として抽出する対象スタイル抽出ステップと、
前記学習結果に基づいて、指定された目的スタイルの画像を示す目的スタイル画像から前記スタイルの特徴量を、目的スタイル特徴量として抽出する目的スタイル抽出ステップと、
前記学習結果に基づいて、前記対象コンテンツ抽出ステップによって抽出された前記対象コンテンツ特徴量と、前記対象スタイル抽出ステップによって抽出された前記対象スタイル特徴量、及び前記目的スタイル抽出ステップによって抽出された前記目的スタイル特徴量を混合した混合スタイル特徴量とから、前記コンテンツの特徴と前記目的スタイルの特徴を併せ持つスタイル変換画像を生成する変換画像生成ステップと
を実行させるためのプログラム。