JP2023171165A

JP2023171165A - スタイル変換プログラム、スタイル変換装置、およびスタイル変換方法

Info

Publication number: JP2023171165A
Application number: JP2022083446A
Authority: JP
Inventors: サイモンフランシススタンナス; Francis Stannus Simon; エドガーハンディ; Edgar Handy; 勇長谷川; Isamu Hasegawa; 陽一郎三宅; Yoichiro Miyake
Original assignee: Square Enix Co Ltd
Current assignee: Square Enix Co Ltd
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2023-12-01
Also published as: US20230377230A1

Abstract

【課題】入力画像に基づいて表現力に富む画像を出力する。【解決手段】スタイル変換プログラムが、プロセッサに、画像に含まれる対象までの距離を推定する距離推定機能と、推定された前記距離に基づいて、前記画像から一以上の領域を画定する領域画定機能と、画像中の領域に対してスタイルトランスファーを行う、スタイルトランスファー機能とを実現させる。【選択図】図３

Description

本発明の実施形態の少なくとも一つは、スタイル変換プログラム、スタイル変換装置、およびスタイル変換方法に関する。

写真画像をゴッホ風やモネ風などの所定のスタイルに応じた画像へ変換する、スタイルトランスファーの技術が知られている。

特許文献１には、スタイル変換（ｓｔｙｌｅｔｒａｎｓｆｅｒ）についての記載がなされている。

特開２０２０－１８７５８３号公報

従来のスタイルトランスファーは、入力画像全体をモネ風などの所定のスタイルに変換するものであった。しかしながら、入力画像全体を単に所定のスタイルに変換するだけでは、表現力の幅が狭いと考えられる。また、入力画像の一部をあるスタイルに変換し、他の一部を別のスタイルに変換するなどの、表現力に富む柔軟なスタイルトランスファーを行うことはできなかった。

ここで、例えばカメラ等によって撮像した撮像画像のうち、一部の領域を選択的にスタイル変換することができれば、出力画像による表現力がさらに増す。

本発明の少なくとも一つの実施形態の目的は、上記課題を解決し、入力画像に基づいて、表現力に富む画像を出力することである。

非限定的な観点によると、本発明の一実施形態に係るスタイル変換プログラムは、プロセッサに、画像に含まれる対象までの距離を推定する距離推定機能と、推定された前記距離に基づいて、前記画像から一以上の領域を画定する領域画定機能と、画像中の領域に対してスタイルトランスファーを行う、スタイルトランスファー機能と、を実現させるためのものである。

非限定的な観点によると、本発明の一実施形態に係るスタイル変換装置は、プロセッサとメモリとを備え、前記プロセッサは、前記メモリと協働して、画像に含まれる対象までの距離を推定する距離推定機能と、推定された前記距離に基づいて、前記画像から一以上の領域を画定する領域画定機能と、画像中の領域に対してスタイルトランスファーを行う、スタイルトランスファー機能とを実現するものである。

非限定的な観点によると、本発明の一実施形態に係るスタイル変換方法は、プロセッサとメモリとを備えるコンピュータ装置によるスタイル変換方法であって、画像に含まれる対象までの距離を推定する距離推定処理と、推定された前記距離に基づいて、前記画像から一以上の領域を画定する領域画定処理と、画像中の領域に対してスタイルトランスファーを行う、スタイルトランスファー処理とを含むものである。

本願の各実施形態により１または２以上の不足が解決される。

本発明の実施形態の少なくとも一つに対応する画像処理システムの構成の例を示すブロック図である。本発明の実施形態の少なくとも一つに対応するユーザ端末の構成を示すブロック図である。本発明の実施形態の少なくとも一つに対応するスタイル変換プログラムの処理例を示すフローチャートである。本発明の実施形態の少なくとも一つに対応する、一般的なスタイルトランスファーに用いられるニューラルネットワークの構造例を示す概念図である。本発明の実施形態の少なくとも一つに対応する、スタイルトランスファーに用いられるニューラルネットワークの構造例を示す概念図である。本発明の実施形態の少なくとも一つに対応する最適化処理の処理例を示すフローチャートである。本発明の実施形態の少なくとも一つに対応する、マスクを用いたスタイルトランスファーに用いられるニューラルネットワークの構造例を示す概念図である。本発明の実施形態の少なくとも一つに対応する、スタイルトランスファーに用いられるマスクの例を示す概念図である。本発明の実施形態の少なくとも一つに対応する、処理層で行われる正規化に用いられるパラメータの計算方法を例示する概念図である。本発明の実施形態の少なくとも一つに対応する、処理層で行われる正規化に用いられるパラメータの計算方法を例示する概念図である。本発明の実施形態の少なくとも一つに対応する、処理層で行われる正規化を例示する概念図である。本発明の実施形態の少なくとも一つに対応する、正規化後のアフィン変換処理を例示する概念図である。本発明の実施形態の少なくとも一つに対応する、マスクを用いたスタイルトランスファー処理を例示する概念図である。本発明の実施形態の少なくとも一つに対応する、マスクを用いたスタイルトランスファー処理を例示する概念図である。本発明の実施形態の少なくとも一つに対応する、画像データを３つの領域に分けてそれぞれ異なるスタイルを適用したい場合のマスクを例示する概念図である。本発明の実施形態の少なくとも一つに対応する、処理層で行われる正規化を例示する概念図である。本発明の実施形態の少なくとも一つに対応する、正規化後のアフィン変換処理を例示する概念図である。本発明の実施形態の少なくとも一つに対応する、スタイルトランスファー前の画像を例示する概念図である。本発明の実施形態の少なくとも一つに対応する、スタイルトランスファー後の画像をユーザ端末に出力した状態を例示する概念図である。本発明の実施形態の少なくとも一つに対応する、スタイルトランスファー前の画像を例示する概念図である。本発明の実施形態の少なくとも一つに対応する、スタイルトランスファー後の画像をユーザ端末に出力した状態を例示する概念図である。本発明の実施形態の少なくとも一つに対応するスタイル変換プログラムの処理例を示すフローチャートである。

以下、本発明の実施形態の例について図面を参照して説明する。なお、以下で説明する各実施形態の例における各種構成要素は、矛盾等が生じない範囲で適宜組み合わせ可能である。また、ある実施形態の例として説明した内容については、他の実施形態においてその説明を省略している場合がある。また、各実施形態の特徴部分に関係しない動作や処理については、その内容を省略している場合がある。さらに、以下で説明する各種フローやシーケンスを構成する各種処理の順序は、処理内容に矛盾等が生じない範囲で順不同である。

本発明の実施形態の概要について説明をする。以下では、実施形態として、画像処理システムに含まれるコンピュータの一例であるユーザ端末において実行されるスタイルトランスファープログラムを例示して説明する。

図１は、本発明の実施形態の少なくとも一つに対応する画像処理システム１００の構成の例を示すブロック図である。画像処理システム１００は、ビデオゲーム処理サーバ１０（サーバ１０）と、画像処理システム１００のユーザ（ゲームのプレイヤ等）が使用するユーザ端末２０とを備える。ユーザ端末２０Ａ、２０Ｂ、および２０Ｃはそれぞれ、ユーザ端末２０の一例である。画像処理システム１００の構成はこれに限定されない。例えば、画像処理システム１００は、単一のユーザ端末を複数のユーザが使用する構成であってよい。画像処理システム１００が複数のサーバを備えてもよい。

サーバ１０とユーザ端末２０は、コンピュータの一例である。サーバ１０とユーザ端末２０は、それぞれインターネットなどの通信ネットワーク３０に通信可能に接続されている。通信ネットワーク３０とサーバ１０との間の接続、および通信ネットワーク３０とユーザ端末２０との間の接続は有線接続であっても無線接続であってもよい。例えば、ユーザ端末２０は、通信事業者が管理する基地局と無線通信回線によるデータ通信を行うことにより、通信ネットワーク３０と接続してよい。

画像処理システム１００は、サーバ１０とユーザ端末２０とを備えることにより、ユーザの操作に応じて各種処理を実行するための各種機能を実現する。

サーバ１０はビデオゲームの進行を制御する。サーバ１０は、画像処理システム１００の管理者によって管理され、複数のユーザ端末２０に対して各種処理に関する情報を提供するための各種機能を有する。

サーバ１０は、プロセッサ１１と、メモリ１２と、記憶装置１３とを備える。プロセッサ１１は、例えば、各種の演算および制御を行うＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等の中央処理装置である。また、サーバ１０がＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を備える場合には、各種の演算および制御の一部をＧＰＵによって行うようにしてもよい。サーバ１０は、メモリ１２に読み出したデータを用いて各種の情報処理をプロセッサ１１にて実行し、得られた処理結果を必要に応じて記憶装置１３に記憶させる。

記憶装置１３は、各種情報を格納する記憶媒体としての機能を有する。記憶装置１３の構成は特に限定されないが、ユーザ端末２０にかかる処理負荷を軽減させるといった観点から、画像処理システム１００にて行われる制御に必要な各種情報を全て記憶可能な構成であることが好ましい。このような例には、ＨＤＤやＳＳＤがある。ただし、各種情報を記憶する記憶装置は、サーバ１０がアクセス可能な状態で記憶領域を備えていればよく、例えば専用の記憶領域をサーバ１０の外部に有する構成とされていてもよい。

サーバ１０は、ゲーム画像をレンダリング可能なゲームサーバなどの情報処理装置によって構成されてよい。

ユーザ端末２０は、ユーザが管理する通信端末によって構成される。ユーザ端末２０は、ネットワーク配信型のゲームを行うことが可能な通信端末によって構成されてよい。ネットワーク配信型のゲームを行うことが可能な通信端末の例として、例えばスマートフォンを含む携帯電話端末、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、携帯型ゲーム装置、ＶＲゴーグル、ＡＲグラス、スマートグラス、所謂ウェアラブルデバイスなどがある。画像処理システム１００が含み得るユーザ端末の構成はこれらに限定されず、ユーザが合成画像を認識し得る構成であればよい。ユーザ端末の構成の他の例には、各種通信端末を組み合わせたものやパーソナルコンピュータ、据置型ゲーム装置がある。

ユーザ端末２０は、通信ネットワーク３０に接続し、サーバ１０との通信を行うことにより各種処理を実行するためのハードウェア（例えば、座標に応じたブラウザ画面やゲーム画面を表示する表示装置など）およびソフトウェアを備える。なお、複数のユーザ端末２０のそれぞれは、サーバ１０を介さずに互いに直接通信を行うこともできる構成とされていてもよい。

ユーザ端末２０は表示装置が内蔵されていてよい。また、ユーザ端末２０に対して、表示装置が無線接続あるいは有線接続されていてもよい。なお、表示装置は極めて一般的な構成であるため、ここでは図示を省略している。ゲーム画面は例えば、前述の合成画像として表示装置によって表示され、ユーザがこの合成画像を認識する。ゲーム画面は例えば、ユーザ端末が備える表示装置の一例であるディスプレイや、ユーザ端末と接続された表示装置の一例であるディスプレイに表示される。表示装置には、例えば、ホログラム表示が可能なホログラムディスプレイ装置や、画像（ゲーム画面を含む）をスクリーン等に映写する映写装置なども含まれる。

ユーザ端末２０は、プロセッサ２１と、メモリ２２と、記憶装置２３とを備える。プロセッサ２１は、例えば、各種の演算および制御を行うＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等の中央処理装置である。また、ユーザ端末２０がＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を備える場合には、各種の演算および制御の一部をＧＰＵによって行うようにしてもよい。ユーザ端末２０は、メモリ２２に読み出したデータを用いて各種の情報処理をプロセッサ２１にて実行し、得られた処理結果を必要に応じて記憶装置２３に記憶させる。記憶装置２３は、各種情報を格納する記憶媒体としての機能を有する。

ユーザ端末２０には入力装置が内蔵されていてよい。また、ユーザ端末２０に対して入力装置が無線接続あるいは有線接続されていてもよい。入力装置はユーザによる操作入力を受け付ける。ユーザによる操作入力に応じて、サーバ１０が備えるプロセッサまたはユーザ端末２０が備えるプロセッサが、各種の制御処理を実行する。入力装置の例として、携帯電話端末が備えるタッチパネル画面、ＡＲグラスに無線接続あるいは有線接続されたコントローラなどがある。また、ユーザ端末２０が備えるカメラも入力装置に相当し得る。ユーザはカメラの前で手を動かす等のジェスチャーにより、操作入力を行う（ジェスチャー入力）。

ユーザ端末２０は、ＧＰＳユニット、コンパス、慣性測定ユニット（ＩＭＵ）、カメラ等をさらに備えていてよい。慣性測定ユニットは、加速度計およびジャイロスコープ等を含み得る。コンパスおよび慣性測定ユニットは、ユーザ端末２０の方位を提供することができるプログラムによって実現されてよい。

その他、ユーザ端末２０はスピーカ等の他の出力装置を備えていてよい。他の出力装置は、ユーザに対して音声やその他の各種の情報を出力する。

図２は、本発明の実施形態の少なくとも一つに対応するユーザ端末の構成を示すブロック図である。ユーザ端末２０の一例であるユーザ端末２０Ｚは、距離推定部２０１と、領域画定部２０２と、スタイルトランスファー部２０３とを備える。ユーザ端末２０Ｚは、モデル特定部２０４と、画像出力部２０５と、画像合成部２０６とを更に備えていてよい。ユーザ端末２０Ｚが備えるプロセッサは、記憶装置に保持されたスタイル変換プログラムを参照し、そのプログラムを実行することにより、距離推定部２０１と、領域画定部２０２と、スタイルトランスファー部２０３と、モデル特定部２０４と、画像出力部２０５と、画像合成部２０６とを機能的に実現する。

距離推定部２０１は、画像に含まれる対象までの距離を推定する機能を有する。領域画定部２０２は、推定された距離に基づいて、画像から一以上の領域を画定する機能を有する。スタイルトランスファー部２０３は、画像中の領域に対してスタイルトランスファーを行う機能を有する。モデル特定部２０４は、対象と対応するモデルを特定する機能を有する。画像出力部２０５は、画像を出力する機能を有する。なお、画像出力部２０５により出力される画像は静止画であっても動画であってもよい。画像出力部２０５はＡＲオブジェクトを含んだ画像出力を行ってもよい。ＡＲオブジェクトとは、画像に対して重畳される仮想的なオブジェクトである。画像合成部２０６は、画像を合成する機能を有する。

次に、本発明の実施形態におけるプログラム実行処理について説明する。図３は、本発明の実施形態の少なくとも一つに対応するスタイル変換プログラムの処理例を示すフローチャートである。

距離推定部２０１は、画像に含まれる対象までの距離を推定する（Ｓｔ１１）。領域画定部２０２は、推定された距離に基づいて、画像から一以上の領域を画定する（Ｓｔ１２）。スタイルトランスファー部２０３は、画像中の領域に対してスタイルトランスファーを行う（Ｓｔ１３）。なお、ここでいう画像は、図２２を参照して後述する合成画像を含む。

［距離推定］
ステップＳｔ１１における画像とは、例えば、カメラなどの撮像装置を備えたユーザ端末２０によって撮像された画像などを意味する。画像は静止画であっても動画であってもよい。画像は、ユーザ端末２０による撮像画像以外の画像であってもよい。画像は例えば、メモリ２２または記憶装置２３に記憶された画像や、サーバ１０などの外部装置から通信ネットワーク３０を介して受信した画像などであってもよい。

画像に含まれる対象とは、物体などの、領域分けが可能なものを言う。例えば窓は物体であり、窓と窓以外の部分とで領域分けが可能である。そのため、窓は画像に含まれる対象となり得る。同様に、建物、車、人、動物等も、画像に含まれる対象となり得る。列挙した以外の有体物も、画像に含まれる対象となり得る。

画像に含まれる対象は、有体物以外であってもよい。例えば、空と建物とが撮像画像に映り込んでいる場合、空と建物とを領域分け可能であるので、空は画像に含まれる対象となり得る。

対象までの距離とは、画像を撮像する視点から対象までの距離を言う。例えばカメラによって画像を撮像した場合、カメラが視点となる。従ってこの場合、対象までの距離とは、カメラから対象までの距離を意味する。

距離推定の際には、上述のモデル特定部２０４が用いられてよい。モデル特定部２０４は、対象と対応するモデルを特定する。モデルは３Ｄモデルであってよい。モデルは、メモリ２２もしくは記憶装置２３、または外部装置が備える記憶装置などに、予め記憶されている。モデル特定部２０４は、画像に含まれる対象と、記憶済みの複数のモデルとの間で照合を行い、対象と対応するモデルを特定する。照合は、例えば特開２０２１－１１４２８６号公報等で開示されているパターン照合などを用いてよい。そして距離推定部２０１は、特定されたモデルに基づいて対象までの距離を推定する。

なお、距離推定部２０１は、フォトグラメトリなどの他のアルゴリズムを用いて距離推定を行っても良い。

［領域画定］
領域画定部２０２は、推定された距離に基づいて、画像から一以上の領域を画定する。例えば領域画定部２０２は、画像における、対象よりも所定の距離以上近くにある部分を領域として画定する。領域画定部２０２は、画像における、対象よりも所定の距離以上遠くにある部分を領域として画定する。なお領域画定部２０２は、対象を含んだ領域を画定してもよい。

例えば、対象が、撮像画像に映り込んだタワーである場合、領域画定部２０２は、画像に映り込んだ部分のうち、タワーよりも近くにある部分を領域として画定してよい。領域画定部２０２は同様に、画像に映り込んだ部分のうち、タワーよりも遠くにある部分を領域として画定してよい。また、画定される領域にはタワーを含めてもよい。

［スタイルトランスファー］
スタイルトランスファー部２０３は、画像中の領域に対してスタイルトランスファーを行う機能を有する。スタイルトランスファーを行う領域は、典型的には領域画定部２０２が画定した領域であるが、領域画定部２０２が画定した領域以外の領域である場合もある。例えば、画像にビルディングが映り込んでいる場合を想定する。領域画定部２０２は、画像に映り込んだビルディングの部分を領域として画定する。スタイルトランスファーの適用対象となる領域は、画像中のビルディングの部分であってよい。一方、スタイルトランスファーの適用対象となる領域は、画像からビルディングの部分を除いた部分の領域であってもよい。

領域に対してスタイルトランスファーを行う際には、後述のマスクスタイルトランスファーの技術を用いることができる。

スタイルトランスファーにおけるスタイルは、建築、美術、音楽などにおける様式または型などを意味する。スタイルは例えば、ゴッホ風やピカソ風などの画風を意味してもよい。スタイルは、画像の形式（例えば色、所定の模様、またはパターン等）を意味してもよい。スタイル画像とは、特定のスタイルを有する画像（静止画または動画）を意味している。

スタイルトランスファー部２０３は、スタイルトランスファー用のニューラルネットワークを用いて良い。関連する技術として例えば、ＶｉｎｃｅｎｔＤｕｍｏｕｌｉｎ，ｅｔ．ａｌ．「ＡＬＥＡＲＮＥＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮＦＯＲＡＲＴＩＳＴＩＣＳＴＹＬＥ」等がある。スタイルトランスファー部２０３がニューラルネットワークに所定のサイズの入力画像を入力することにより、スタイルトランスファーが適用された出力画像が得られる。

図４は、本発明の実施形態の少なくとも一つに対応する、一般的なスタイルトランスファーに用いられるニューラルネットワークＮ１の構造例を示す概念図である。ニューラルネットワークＮ１は、入力画像に基づくピクセル群を潜在（Ｌａｔｅｎｔ）パラメータに変換する第１変換層と、畳み込み（Ｃｏｎｖｏｌｕｔｉｏｎ）等によりダウンサンプリングを行う１以上の層と、複数の残差ブロック（ＲｅｓｉｄｕａｌＢｌｏｃｋｓ）層と、アップサンプリングを行う層と、潜在（Ｌａｔｅｎｔ）パラメータをピクセル群に変換する第２変換層とを含む。なお、第２変換層の出力であるピクセル群に基づいて出力画像が得られる。

ニューラルネットワークＮ１の第１変換層とダウンサンプリングを行う層との間や、ダウンサンプリングを行う層に含まれる複数の畳み込み層同士の間等において、特徴量（ｆｅａｔｕｒｅｍａｐｓ）の各チャンネルに対して、正規化処理とアフィン変換処理とが行われる。なお、図４においては、正規化処理とアフィン変換処理のうち、アフィン変換処理を図示している。

スタイルトランスファー部２０３が、ニューラルネットワークＮ１の第１変換層に画像データを入力することにより、スタイルトランスファー適用後のデータが、ニューラルネットワークＮ１の第２変換層から出力される。

［複数のスタイル画像をブレンドしたスタイルトランスファー］
スタイルトランスファー部２０３は、入力画像の同一箇所に対して複数のスタイルをブレンドしたスタイルトランスファーを行ってもよい。この場合にスタイルトランスファー部２０３は、ニューラルネットワークの所定の層において複数のスタイル画像に基づくパラメータを混入し、最適化関数に基づいて最適化処理を行って得られた学習済みのニューラルネットワークに、入力画像データを入力する。なお、最適化関数は、前記複数のスタイル画像に基づいて定義されたものであれば好適である。

図５は、本発明の実施形態の少なくとも一つに対応する、スタイルトランスファーに用いられるニューラルネットワークＮ２の構造例を示す概念図である。ニューラルネットワークＮ２は、入力画像に基づくピクセル群を潜在（Ｌａｔｅｎｔ）パラメータに変換する第１変換層と、畳み込み（Ｃｏｎｖｏｌｕｔｉｏｎ）等によりダウンサンプリングを行う１以上の層と、複数の残差ブロック（ＲｅｓｉｄｕａｌＢｌｏｃｋｓ）層と、アップサンプリングを行う層と、潜在（Ｌａｔｅｎｔ）パラメータをピクセル群に変換する第２変換層とを含む。なお、第２変換層の出力であるピクセル群に基づいて出力画像が得られる。

ニューラルネットワークＮ２の第１変換層とダウンサンプリングを行う層との間や、ダウンサンプリングを行う層に含まれる複数の畳み込み層同士の間等において、特徴量（ｆｅａｔｕｒｅｍａｐｓ）の各チャンネルに対して、正規化処理とアフィン変換処理とが行われる。なお、図５においては、正規化処理とアフィン変換処理のうち、アフィン変換処理を図示している。

ニューラルネットワークＮ２のアフィン層Ａ１には、複数のスタイル画像に基づくパラメータが混入される。より具体的には、以下の通りである。

ニューラルネットワークＮ２のアフィン層Ａ１は、アフィン変換のパラメータをａおよびｂとし、画像のピクセルの潜在（Ｌａｔｅｎｔ）変数をｘとした場合、畳み込み層の出力の潜在変数ｘを、ｘ＊ａ＋ｂに変換する処理を行う層である。

ここで、任意のスタイル１とスタイル２とをブレンドする場合、スタイルトランスファー部２０３による制御の下で、アフィン層Ａ１で行われる処理は以下の通りである。スタイル１に係るスタイル画像から導出されたアフィン変換パラメータをａ_１およびｂ_１とする。スタイル２に係るスタイル画像から導出されたアフィン変換パラメータをａ_２およびｂ_２とする。このとき、スタイル１とスタイル２とをブレンドする場合のアフィン変換パラメータはａ＝（ａ_１＋ａ_２）／２と、ｂ＝（ｂ_１＋ｂ_２）／２とになる。そして、アフィン層Ａ１においてｘ＊ａ＋ｂを計算することにより、スタイル１とスタイル２のブレンドを行うことができる。なお、前記はスタイル１とスタイル２とを均等に（それぞれ５０％ずつ）ブレンドする場合の計算式を示している。当業者の通常の知識に基づいて、スタイル１が８０％、スタイル２が２０％などのように、各スタイルに基づく影響度がそれぞれ異なる割合となるように重みづけを行った上でブレンドしてもよい。

ブレンドするスタイルの数は３以上であってもよい。ｎが３以上の自然数である場合に、ｎ個のスタイルをブレンドする場合のアフィン変換パラメータは、例えばａ＝（ａ_１＋ａ_２……＋ａ_ｎ）／ｎと、ｂ＝（ｂ_１＋ｂ_２……＋ｂ_ｎ）／ｎとであってよい。なお、ｋが１からｎまでの間の任意の自然数である場合に、スタイルｋに係るスタイル画像から導出されたアフィン変換パラメータをａ_ｋおよびｂ_ｋとする。各スタイルに基づく影響度がそれぞれ異なる割合となるように重みづけを行った上でブレンドしてもよい点については、前述のスタイルの数が２の場合と同様である。

ユーザ端末２０Ｚのメモリ２２等には、複数のスタイルについての変換パラメータａ_ｋおよびｂ_ｋが保存されていてよい。また、複数のスタイルについての変換パラメータは、例えば（ａ_１，ａ_２，……，ａ_ｎ）および（ｂ_１，ｂ_２，……，ｂ_ｎ）等のように、ベクトル形式でメモリ２２や記憶装置２３等に保存されていてもよい。各スタイルに基づく影響度がそれぞれ異なる割合となるように重みづけを行う場合は、各スタイルに応じたウェイトを示す値がメモリ２２や記憶装置２３等に保存されていてもよい。

次に、ニューラルネットワークＮ２について機械学習を行うための最適化関数について説明する。最適化関数は損失関数とも呼ばれることがある。ニューラルネットワークＮ２に対して、複数のスタイル画像に基づいて定義された最適化関数に基づいて最適化処理を行うことにより、学習済みのニューラルネットワークＮ２が得られる。なお、説明の便宜上、学習前後のそれぞれのニューラルネットワークについて、同じ参照符号であるＮ２が用いられている。

例えば、上述の関連する技術においては、以下のように定義された最適化関数が用いられている。

スタイル最適化関数：

コンテンツ最適化関数：

上述の最適化関数において、ｐは生成された画像を示す。生成された画像は、機械学習に用いられるニューラルネットワークの出力画像に相当する。ｓ（小文字のｓ）は例えば抽象絵画などのスタイル画像を示す。Ｕ_ｉはレイヤｉのユニットの総数を示す。Ｕ_ｊはレイヤｊのユニットの総数を示す。Ｇはグラムマトリクス（Ｇｒａｍｍａｔｒｉｘ）を示す。φ_ｉはＶＧＧ－１６アーキテクチャの第ｉ番目の活性化関数の出力を示す。Ｓ（大文字のＳ）はスタイルの最適化を計算するためのＶＧＧ－１６のレイヤ群を示す。ｃ（小文字のｃ）はコンテンツ画像を示す。Ｃ（大文字のＣ）はコンテンツ最適化関数を計算するためのＶＧＧ－１６のレイヤ群であり、ｊは当該レイヤ群に含まれるレイヤのインデックスである。絶対値記号に付加されたＦはフロベニウスノルムを意味する。

上述のスタイル最適化関数およびコンテンツ最適化関数によって定義された最適化関数の値を最小化するようにニューラルネットワークに対して機械学習を行い、学習後のニューラルネットワークに入力画像を入力することにより、スタイル画像が示すスタイルに近づくように変換がなされた出力画像がニューラルネットワークから出力される。

ここで、上記のような最適化関数を用いた最適化処理では、複数のスタイルをブレンドしてスタイルトランスファーを行う場合に、ブレンドの結果には更なる改良の余地がある。

そこでユーザ端末２０Ｚは、複数のスタイル画像に基づいて定義された最適化関数に基づいて最適化処理を行う。これにより、複数のスタイル画像に基づいた最適化を行うことができる。その結果、入力画像に対して複数のスタイルがきれいにブレンドされた出力画像を得ることができる。

より具体的には、最適化処理は、複数のスタイル画像から選ばれた任意の二つのスタイル画像に基づいて定義された第１の最適化関数を用いて最適化処理を行う、第１の最適化処理と、前記複数のスタイル画像における一つのスタイル画像に基づいて定義された第２の最適化関数を用いて最適化処理を行う、第２の最適化処理とを含んでいてよい。これにより、ブレンドしたいスタイルの数が３以上である場合に、好適な最適化を行う事ができる。その結果、入力画像に対して複数のスタイルがよりきれいにブレンドされた出力画像を得ることができる。

次に、第１の最適化関数および第２の最適化関数について説明する。実施形態の一側面として、第１の最適化関数は以下の式（１）で定義されてよい。

実施形態の一側面として、第２の最適化関数は以下の式（２）で定義されてよい。

上記の式において、

は複数のスタイル画像からなるスタイル画像群であり、ｑおよびｒはスタイル画像群に含まれる任意のスタイル画像を示す。ただし、ｑとｒは互いに異なるスタイル画像である。N_ｉ，ｒはφ_ｉ特徴マップの行数である。N_ｉ，ｃはφ_ｉ特徴マップの列数である。ｐ、ｓ（小文字のｓ）、Ｇ、φ_ｉ、Ｓ、ｃ（小文字のｃ）、およびＦについては、上述の関連する技術におけるものと同様である。

上記の第１の最適化関数は、生成された画像をｐとし、複数のスタイル画像から選ばれた任意の二つのスタイル画像をｑおよびｒとしたときに、画像ｐに所定の演算を行って得られた値と、スタイル画像ｑおよびｒにそれぞれ前記所定の演算を行って得られた値の平均値と、の間のノルムを合算する関数である。上記の式（１）は、所定の演算が、

である場合を示している。所定の演算は、上記以外の演算であってもよい。

上記の第２の最適化関数は、生成された画像をｐとし、スタイル画像をｓとしたときに、画像ｐに所定の演算を行って得られた値と、スタイル画像ｓに前記所定の演算を行って得られた値との間のノルムを合算する関数である。上記の式（２）は、所定の演算が、

次に、上述の第１の最適化関数および第２の最適化関数を用いた最適化処理の例について説明する。

図６は、本発明の実施形態の少なくとも一つに対応する最適化処理の処理例を示すフローチャートである。ここでは、第１の最適化関数が上記の式（１）で定義される関数であり、第２の最適化関数が上記の式（２）で定義される関数である場合の処理例について説明する。

最適化処理の処理主体は、装置が備えるプロセッサである。プロセッサを備えた装置（以下、装置Ａ）は上述のユーザ端末２０Ｚであってよい。この場合、図１に示したプロセッサ２１が処理主体となる。プロセッサを備えた装置Ａは、ユーザ端末２０Ｚ以外の他の装置（例えば、サーバ１０等）であってもよい。

ブレンドされるスタイルの数をｎとする。プロセッサは、スタイル画像群に含まれるｎ個のスタイル画像の中から、任意の二つのスタイル画像ｑおよびｒを選択する（Ｓｔ２１）。

プロセッサは、選択されたスタイル画像ｑおよびｒについての第１の最適化関数の値を最小化するように最適化を行う（Ｓｔ２２）。なお、生成された画像ｐについては、プロセッサがニューラルネットワークの出力画像を画像ｐとして取得する。ニューラルネットワークは、装置Ａに実装されていてもよく、装置Ａ以外の他の装置に実装されていてもよい。

プロセッサは、_ｎＣ_２通りの全パターンにつき最適化を行ったか否かを判定する（Ｓｔ２３）。すなわちプロセッサは、ｎ個のスタイル画像の中から任意の二つのスタイル画像ｑおよびｒを選択することについて、全てのパターンを処理済みであるか否かを判定する。_ｎＣ_２通りの全パターンにつき最適化を行った場合（Ｓｔ２３：ＹＥＳ）、ステップＳｔ２４へと処理が遷移する。_ｎＣ_２通りの全パターンにつき最適化を行っていない場合（Ｓｔ２３：ＮＯ）、ステップＳｔ２１へと処理が戻り、プロセッサが次の二つのスタイル画像ｑおよびｒの組み合わせを選択する。

プロセッサは、スタイル画像群に含まれるｎ個のスタイル画像の中から、一つのスタイル画像ｓを選択する（Ｓｔ２４）。

プロセッサは、選択されたスタイル画像ｓについての第２の最適化関数の値を最小化するように最適化を行う（Ｓｔ２５）。なお、生成された画像ｐについては、プロセッサがニューラルネットワークの出力画像を画像ｐとして取得する。ニューラルネットワークは、装置Ａに実装されていてもよく、装置Ａ以外の他の装置に実装されていてもよい。

プロセッサは、_ｎＣ_１通りの全パターンにつき最適化を行ったか否かを判定する（Ｓｔ２６）。すなわちプロセッサは、ｎ個のスタイル画像の中から任意のスタイル画像ｓを選択することについて、全てのパターンを処理済みであるか否かを判定する。_ｎＣ_１通りの全パターンにつき最適化を行った場合（Ｓｔ２６：ＹＥＳ）、図６に示した最適化処理は終了する。_ｎＣ_１通りの全パターンにつき最適化を行っていない場合（Ｓｔ２６：ＮＯ）、ステップＳｔ２４へと処理が戻り、プロセッサが次の一つのスタイル画像ｓを選択する。

スタイルトランスファー部２０３は、例えば上記のようにして最適化が行われた学習済みのニューラルネットワークＮ２の第１変換層に、画像データを入力する。これにより、ｎ個のスタイル画像がきれいにブレンドされたスタイルトランスファーの適用後のデータがニューラルネットワークＮ２の第２変換層から出力される。

例えば上記のように、スタイルトランスファー部２０３は、単一のスタイル、または複数のスタイルに基づいて、画像データに対してスタイルトランスファーを適用することができる。

［マスクスタイルトランスファー］
次に、マスクを用いたスタイルトランスファー（マスクスタイルトランスファー）について説明する。本発明の実施形態に係るマスクトランスファーは、画像を分割しなくとも、画像に含まれる１以上の領域に対してスタイル変換を行うことができる。例えば画像に２つの領域Ａと領域Ｂとが含まれている場合、領域Ａのみについてスタイル変換を行い、領域Ｂについてはスタイル変換を行わない、ということができる。これは画像に３つ以上の領域が含まれている場合も同様であり、１つ以上の領域を選択して、選択された領域のみについてスタイル変換を行うことができる。さらに、これらのスタイル変換の際に、元の画像を領域毎に分割するなどの処理も不要である。本発明の実施形態に係るマスクスタイルトランスファーにおけるマスクとは、画像データにおける一部の領域についてスタイルトランスファーを抑制する事に用いられるデータを意味する。例えば、画像データがＲＧＢの３つのカラーチャネルを有する縦２５６ピクセル、横２５６ピクセルの画像データ（２５６×２５６×３）であるとする。この画像データに対するマスクは、例えば縦２５６ピクセル、横２５６ピクセルのデータであって、各ピクセルに０から１の間の数値が与えられたデータ（２５６×２５６×１）であってよい。マスクは、ピクセルの値が０に近づくほど、画像データの対応するピクセルにおけるスタイルトランスファーがより強く抑制されるものであってよい。ただし、マスクは前記とは異なるフォーマットを有していてもよい。例えば、マスクはピクセルの値が１に近づくほど、画像データの対応するピクセルにおけるスタイルトランスファーがより強く抑制されるものであってよい。また、マスクが有するピクセルの最大値は１を超えた値などあってもよい。マスクが有するピクセルの最小値は０より小さい値であってもよい。マスクが有するピクセルの値は０または１のみであってもよい（ハードマスク）。

スタイルトランスファー部２０３は、スタイルトランスファーを適用する領域の形状に対応したマスクを生成する。次に、スタイルトランスファー部２０３は、画像データとマスクとを、スタイルトランスファー用のニューラルネットワークに入力する。これにより、マスクを用いて、画像データに対して一以上のスタイル画像に基づいたスタイルトランスファーを適用することができる。

なお、スタイルトランスファー部２０３は、画像データにおける一部の領域についてスタイルトランスファーを抑制するマスクを複数、生成してもよい。例えばスタイルトランスファー部２０３は、画像に映り込んだ第１の建物に相当する領域以外の領域についてスタイルトランスファーを抑制するマスクと、画像に映り込んだ第２の建物に相当する領域以外の領域についてスタイルトランスファーを抑制するマスクの、合計２つのマスクを生成してもよい。この場合に生成される複数のマスクは、スタイルトランスファーを抑制する領域がそれぞれ異なるものとなる。そしてスタイルトランスファー部２０３は、スタイルトランスファーを抑制する領域が異なる複数のマスクを用いて、画像データに対して、複数のスタイル画像からなる複数のスタイルに基づいたスタイルトランスファーを適用する。

スタイルトランスファー部２０３は、画像データと、生成した複数のマスクとを、スタイルトランスファー用のニューラルネットワークに入力してもよい。これにより、複数のマスクを用いて、画像データに対して複数のスタイル画像に基づいたスタイルトランスファーを適用することができる。

図７は、本発明の実施形態の少なくとも一つに対応する、マスクを用いたスタイルトランスファーに用いられるニューラルネットワークＮ３の構造例を示す概念図である。

ニューラルネットワークＮ３は、複数の処理層Ｐ_１～Ｐ_５を有する。また、ニューラルネットワークＮ３は残差ブロックＲを有する。

処理層Ｐ_１は図４および図５の第１変換層に相当する。処理層Ｐ_２および処理層Ｐ_３は図４および図５のダウンサンプリングを行う１以上の層に相当する。残差ブロックＲは図４および図５の残差ブロック（ＲｅｓｉｄｕａｌＢｌｏｃｋｓ）層に相当する。処理層Ｐ_４および処理層Ｐ_５は図４および図５のアップサンプリングを行う層に相当する。図７のニューラルネットワークＮ３は、図４および図５に示した第２変換層をさらに有していてよい。

処理層Ｐ_１は２５６×２５６×３２のサイズを有する。処理層Ｐ_２は１２８×１２８×６４のサイズを有する。処理層Ｐ_３は６４×６４×１２８のサイズを有する。処理層Ｐ_４は、１２８×１２８×６４のサイズを有する。処理層Ｐ_５は２５６×２５６×３２のサイズを有する。なお、処理層の数および処理層のサイズはあくまで一例である。

スタイルトランスファー部２０３は、入力画像とマスクとを処理層Ｐ_１に入力する。処理層Ｐ_１から処理層Ｐ_５には、それぞれ、畳み込み処理（Ｃｏｎｖｏｌｕｔｉｏｎ）と正規化処理（Ｎｏｒｍａｌｉｚａｔｉｏｎ）とが含まれている。正規化処理の種類は、例えば図４に示した一般的なスタイルトランスファー等においては、ＣｏｎｄｉｔｉｏｎａｌＩｎｓｔａｎｃｅＮｏｒｍａｌｉｚａｔｉｏｎが用いられる。マスクスタイルトランスファーにおいては、ＭａｓｋｅｄＣｏｎｄｉｔｉｏｎａｌＩｎｓｔａｎｃｅＮｏｒｍａｌｉｚａｔｉｏｎが用いられる。ＭａｓｋｅｄＣｏｎｄｉｔｉｏｎａｌＩｎｓｔａｎｃｅＮｏｒｍａｌｉｚａｔｉｏｎは、後述のＭａｓｋｅｄＮｏｒｍａｌｉｚａｔｉｏｎと、後述のＭａｓｋｅｄＡｆｆｉｎｅＴｒａｎｓｆｏｒｍとを含む。

基本的に、各処理層による処理後には特徴量データが抽出される。抽出された特徴量データは次の処理層に入力される。すなわち、処理層Ｐ_１から抽出された特徴量データが処理層Ｐ_２に入力される。処理層Ｐ_２から抽出された特徴量データが処理層Ｐ_３に入力される。処理層Ｐ_４から抽出された特徴量データが処理層Ｐ_５に入力される。処理層Ｐ_３については、処理層Ｐ_３による処理結果が残差ブロックＲに入力される。残差ブロックＲの出力が処理層Ｐ_４に入力される。

各処理層Ｐ_１～Ｐ_５にはマスクが入力される。処理層のサイズは処理層によって異なるので、マスクのサイズも処理層に応じて適合化される。例えば、処理層Ｐ_２には、処理層Ｐ_１に入力されたマスクを縮小させたマスクが入力される。処理層Ｐ_３には、処理層Ｐ_２に入力されたマスクを縮小させたマスクが入力される。マスクの縮小は、例えばバイリニア（Ｂｉｌｉｎｅａｒ）法に基づいた縮小であってよい。

本実施の形態においては、処理層Ｐ_１のサイズと処理層Ｐ_５のサイズが同じであるため、処理層Ｐ_５には処理層Ｐ_１に入力されたマスクが入力される。同様に、処理層Ｐ_２のサイズと処理層Ｐ_４のサイズが同じであるため、処理層Ｐ_４には処理層Ｐ_２に入力されたマスクが入力される。

図８は、本発明の実施形態の少なくとも一つに対応する、スタイルトランスファーに用いられるマスクの例を示す概念図である。

例えば処理層Ｐ_１に入力されるマスクは、入力画像のタテ２５６×ヨコ２５６と同様の、タテ２５６×ヨコ２５６のサイズを有する。マスクにはソフトマスクとハードマスクが含まれる。本実施の形態では、ソフトマスクが処理層Ｐ_１に入力されたと仮定して説明する。また、スタイルトランスファー部２０３が入力画像の左半分をスタイルＡにスタイル変換し、入力画像の右半分をスタイルＢにスタイル変換する場合を例示して以下に説明を行う。スタイルＡは、一以上のスタイル画像に対応するスタイルである。すなわち、スタイルＡは、一つのスタイル画像（ゴッホ風等）に対応する場合もある一方、複数のスタイル画像（ゴッホ風の画像とモネ風の画像のブレンド等）に対応する場合もある。スタイルＢは、一つのスタイル画像（ゴーギャン風等）に対応する場合もある一方、複数のスタイル画像（ゴーギャン風の画像とピカソ風の画像のブレンド等）に対応する場合もある。なお、入力画像を左右に２分割してスタイル変換を行う事は例示にすぎない。マスクが有する値をどのように設定するかによって、例えば上下２分割してのスタイルトランスファー、３分割以上の分割を行ってのスタイルトランスファー、または、入力画像におけるある領域において複数のスタイルが混ざるようなスタイルトランスファー等を、柔軟に行うことができる。

スタイルトランスファー部２０３が入力画像の左半分をスタイルＡにスタイル変換し、入力画像の右半分をスタイルＢにスタイル変換する場合、スタイルトランスファー部２０３は左半分と右半分とで異なる値を有するソフトマスクを処理層Ｐ_１に入力する。

図８に示した例においては、ソフトマスクの左半分である第１列から第１２８列において、第１行の値がそれぞれ１であり、第２５６行の値がそれぞれ０．５である。第１列から第１２８列の第２行から第２５５行は、１から０．５へ向けて徐々に値が小さくなるような数値を有する。

図８に示した例においては、ソフトマスクの右半分である第１２９列から第２５６列において、第１行の値がそれぞれ０．４９であり、第２５６行の値がそれぞれ０である。第１２９列から第２５６列の第２行から第２５５行は、０．４９から０へ向けて徐々に値が小さくなるような数値を有する。

次に、ハードマスクについて説明する。ハードマスクは、各行各列の数値が０または１であるようなマスクである。例えば、ハードマスクの左半分である第１列～第１２８列においては値が全て１であり、右半分である第１２９列～第２５６列においては値が全て０であるようなハードマスクが考えられる。このハードマスクは、前述のソフトマスクにおける各行各列の数値をそれぞれ四捨五入することによって生成することができる。

図９は、本発明の実施形態の少なくとも一つに対応する、処理層で行われる正規化に用いられるパラメータの計算方法を例示する概念図である。図１０は、本発明の実施形態の少なくとも一つに対応する、処理層で行われる正規化に用いられるパラメータの計算方法を例示する概念図である。図１１は、本発明の実施形態の少なくとも一つに対応する、処理層で行われる正規化を例示する概念図である。図９から図１１に基づいて、処理層で行われる正規化の例を説明する。なお、図１１に示した正規化処理が、上述のＭａｓｋｅｄＮｏｒｍａｌｉｚａｔｉｏｎに相当する。

処理層毎に、抽出される特徴量データのサイズは異なる（図７参照）。また、特徴量データのサイズは入力画像によっても変わり得る。ここでは、畳み込み（Ｃｏｎｖｏｌｕｔｉｏｎ）後の１２８×１２８×６４のサイズを有する特徴量を例示して、正規化について説明する。

入力画像の左半分に適用するスタイルＡに対応するハードマスク（スタイルＡ用ハードマスク）は、図９に示したような、左半分の値が全て１であり、右半分の値がすべて０であるような、タテ１２８×ヨコ１２８のハードマスクである。スタイルＡ用ハードマスクは、図７および図８に示したソフトマスク（スタイルＡ用ソフトマスクと表記することがある）における各行各列の数値をそれぞれ四捨五入することによって生成することができる。

スタイルトランスファー部２０３は、畳み込み後のタテ１２８×ヨコ１２８の特徴量データに対して、上述のスタイルＡ用ハードマスクを適用する。マスクの適用方法は、例えばブーリアンマスク（ｂｏｏｌｅａｎｍａｓｋ）であってよい。ただし、ブーリアンマスク以外のマスクの適用アルゴリズムを排除する意図はない。

スタイルトランスファー部２０３が特徴量データ（１２８×１２８）に対して、ブーリアンマスクによって上記のスタイルＡ用ハードマスクを適用すると、タテ１２８×ヨコ６４のデータが得られる。これを言い換えると、元の特徴量のうち、スタイルＡ用ハードマスクにおける値が１となっている部分（左半分）に対応する部分のみが残る。スタイルトランスファー部２０３は、マスク適用後の特徴量データについての平均μ１と標準偏差σ１を算出する。

次に、入力画像の右半分に適用するスタイルＢに対応するハードマスク（スタイルＢ用ハードマスク）は、図１０に示したような、左半分の値が全て０であり、右半分の値がすべて１であるような、タテ１２８×ヨコ１２８のハードマスクである。スタイルＢ用ハードマスクは、上述のスタイルＡ用ハードマスクにおける左半分の値と右半分の値とを反転することによって生成することができる。なお、スタイルＢ用ハードマスクは、図７および図８に示したソフトマスク（スタイルＡ用ソフトマスク）における左半分の値と右半分の値とを反転することによってスタイルＢ用ソフトマスクを生成し、続いて、スタイルＢ用ソフトマスクにおける各行各列の数値をそれぞれ四捨五入することによって生成することもできる。ここで、スタイルＡ用ソフトマスクとスタイルＢ用ソフトマスクは、スタイルトランスファーを抑制する領域が異なる複数のマスクに該当する。スタイルＡ用ハードマスクとスタイルＢ用ハードマスクも、スタイルトランスファーを抑制する領域が異なる複数のマスクに該当する。

スタイルトランスファー部２０３は、畳み込み後のタテ１２８×ヨコ１２８の特徴量データに対して、上述のスタイルＢ用ハードマスクを適用する。マスクの適用方法は、例えばブーリアンマスク（ｂｏｏｌｅａｎｍａｓｋ）であってよい。ただし、ブーリアンマスク以外のマスクの適用アルゴリズムを排除する意図はない。

スタイルトランスファー部２０３が特徴量データ（１２８×１２８）に対して、ブーリアンマスクによって上記のスタイルＢ用ハードマスクを適用すると、タテ１２８×ヨコ６４のデータが得られる。これを言い換えると、元の特徴量のうち、スタイルＢ用ハードマスクにおける値が１となっている部分（右半分）に対応する部分のみが残る。スタイルトランスファー部２０３は、マスク適用後の特徴量データについての平均μ２と標準偏差σ２を算出する。

次に、図１１を参照して説明する。スタイルトランスファー部２０３は、畳み込み後の特徴量データに対して、平均μ１と標準偏差σ１とを用いて正規化を行う。これにより、部分的に正規化された特徴量ＦＶ１が得られる。スタイルトランスファー部２０３は、部分的に正規化された特徴量ＦＶ１に対してスタイルＡ用ソフトマスクを適用する。このソフトマスクの適用により得られた特徴量を、特徴量ＦＶ１Ａとする。なお、特徴量ＦＶ１に対してスタイルＡ用ソフトマスクを適用するアルゴリズムは、例えば同じ行および同じ列の値同士を乗算するものであってよい。具体例を挙げると、特徴量ＦＶ１の第２行第２列における値と、スタイルＡ用ソフトマスクの第２行第２列における値とを乗算した結果が、特徴量ＦＶ１Ａの第２行第２列における値となる。

スタイルトランスファー部２０３は、畳み込み後の特徴量データに対して、平均μ２と標準偏差σ２とを用いて正規化を行う。これにより、部分的に正規化された特徴量ＦＶ２が得られる。スタイルトランスファー部２０３は、部分的に正規化された特徴量ＦＶ２に対してスタイルＢ用ソフトマスクを適用する。このソフトマスクの適用により得られた特徴量を、特徴量ＦＶ２Ｂとする。なお、特徴量ＦＶ２に対してスタイルＢ用ソフトマスクを適用するアルゴリズムは、例えば同じ行および同じ列の値同士を乗算するものであってよい。具体例を挙げると、特徴量ＦＶ２の第２行第２列における値と、スタイルＢ用ソフトマスクの第２行第２列における値とを乗算した結果が、特徴量ＦＶ２Ｂの第２行第２列における値となる。

スタイルトランスファー部２０３は、特徴量ＦＶ１Ａと特徴量ＦＶ２Ｂとを加算する。これにより、タテ１２８×ヨコ１２８の、正規化された特徴量が得られる。なお、特徴量ＦＶ１Ａと特徴量ＦＶ２Ｂとの加算は、例えば同じ行および同じ列の値同士を加算するものであってよい。具体例を挙げると、特徴量ＦＶ１Ａの第２行第２列における値と、特徴量ＦＶ２Ｂの第２行第２列における値とを足した結果が、正規化された特徴量の第２行第２列における値となる。

図１２は、本発明の実施形態の少なくとも一つに対応する、正規化後のアフィン変換処理を例示する概念図である。なお、図１２に示したアフィン変換処理が、上述のＭａｓｋｅｄＡｆｆｉｎｅＴｒａｎｓｆｏｒｍに相当する。

スタイルＡについてのアフィン変換に用いられる２種類のパラメータをそれぞれβ１およびγ１とする。スタイルＢについてのアフィン変換に用いられる２種類のパラメータをそれぞれβ２およびγ２とする。この例におけるβ１、β２、γ１、およびγ２はそれぞれ、１２８×１２８のサイズを有するデータである。

スタイルトランスファー部２０３は、β１およびγ１に対してスタイルＡ用ソフトマスクを適用する。これにより、新しいβ１と新しいγ１とが得られる。なお、スタイルＡ用ソフトマスクを適用するアルゴリズムは、例えば同じ行および同じ列の値同士を乗算するものであってよい。具体例を挙げると、β１の第２行第２列における値と、スタイルＡ用ソフトマスクの第２行第２列における値とを乗算した結果が、新しいβ１の第２行第２列における値となる。γ１対するスタイルＡ用ソフトマスクの適用についても同様である。

スタイルトランスファー部２０３は、β２およびγ２に対してスタイルＢ用ソフトマスクを適用する。これにより、新しいβ２と新しいγ２とが得られる。なお、スタイルＢ用ソフトマスクを適用するアルゴリズムは、例えば同じ行および同じ列の値同士を乗算するものであってよい。具体例を挙げると、β２の第２行第２列における値と、スタイルＢ用ソフトマスクの第２行第２列における値とを乗算した結果が、新しいβ２の第２行第２列における値となる。γ２対するスタイルＢ用ソフトマスクの適用についても同様である。

スタイルトランスファー部２０３は、β１とβ２とを加算したデータと、γ１とγ２とを加算したデータとをパラメータとして、正規化された特徴量（図１１参照）に対してアフィン変換を行う。その結果、アフィン変換された特徴量が処理層から抽出される。

図１３は、本発明の実施形態の少なくとも一つに対応する、マスクを用いたスタイルトランスファー処理を例示する概念図である。

犬が映り込んだ画像データを入力画像とする。Ｍ１は、画像データにおける一部の領域についてスタイルトランスファーを抑制するマスクである。マスクＭ１は、画像データにおける左端領域と右端領域についてのスタイル変換を抑制するためのマスクである。マスクＭ１の中央領域（黒色）は、１または１に近い値を有する。マスクＭ１の左端領域（白色）と右端領域（白色）は、０または０に近い値を有する。従って、例えば四捨五入を行ってマスクＭ１をハードマスクに変換した場合、ハードマスクの中央領域の値が１となり、左端領域および右端領域の値が０となる。

また、スタイルトランスファー部２０３は、マスクＭ１の値を反転させたマスクＭ２を生成する。例えば、マスクＭ１の座標（ｉ，ｊ）におけるピクセルの値をａ_ｉｊとし、マスクＭ２の座標（ｉ，ｊ）におけるピクセルの値をｂ_ｉｊとした時に、スタイルトランスファー部２０３は、ｂ_ｉｊ＝１－ａ_ｉｊを計算することにより、マスクＭ１の値を反転させたマスクＭ２を生成してよい。なお、マスクＭ１が例えば図１１に示したスタイルＡ用ソフトマスクのような値を有するものであれば、スタイルトランスファー部２０３は左側領域（１から０．５）と右側領域（０．４９から０）とを入れ替えることによりマスクＭ２を取得してもよい。すなわちスタイルトランスファー部２０３は、反転の対象となるマスクの態様に応じた反転処理（左右反転、上下反転、１－ａ_ｉｊなど）を行う。マスクＭ２の中央領域（白色）は、０または０に近い値を有する。マスクＭ２の左端領域（黒色）と右端領域（黒色）は、１または１に近い値を有する。従って、例えば四捨五入を行ってマスクＭ２をハードマスクに変換した場合、ハードマスクの中央領域の値が０となり、左端領域および右端領域の値が１となる。

スタイルトランスファー部２０３は、マスクを用いて、画像データに対して一以上のスタイル画像に基づいたスタイルトランスファーを適用する。図１３においてスタイルトランスファー部２０３は、マスクＭ１とマスクＭ２とを用いて、犬が映り込んだ画像データに対してスタイル画像Ａ１、Ｂ１、およびＢ２に基づいたスタイルトランスファーを適用する。スタイルＡは、スタイル画像Ａ１単独で構成されるスタイルである。スタイルＢは、スタイル画像Ｂ１およびスタイル画像Ｂ２をブレンドしたスタイルである。なお、図１３は、マスクを用いたスタイルトランスファー処理を概念的に示すものである。そのため、図１３に描かれているスタイル画像Ａ１、Ｂ１およびＢ２は、出願人が実際に用いたスタイル画像ではない。説明の便宜上、各スタイル画像Ａ１、Ｂ１およびＢ２の近傍に、斜線領域、横線領域、および縦線領域をそれぞれ示す３つの矩形が記載されている。斜線領域、横線領域、および縦線領域をそれぞれ示す３つの矩形は、各スタイル画像Ａ１、Ｂ１およびＢ２が出力画像のどこにどの程度適用されるかを例示するために記載されている。マスクＭ１は、スタイルＡ用ソフトマスクに該当する。マスクＭ２は、スタイルＢ用ソフトマスクに該当する。

スタイルトランスファーが適用された後の出力画像は、中央領域がスタイルＡに、左端領域と右端領域とがスタイルＢにそれぞれスタイルトランスファーされたものになる。

なお、マスクＭ１およびマスクＭ２が有する値は、０から１の間の連続値である。そのため、出力画像の一部の領域（中央領域と端領域との境目付近）において、１回の計算によってスタイルＡとスタイルＢとが単に平均化されるのではなくきれいに混ざり合う。図１３には、出力画像のスタイル適用範囲を示す矩形が、出力画像の近傍に記載されている。出力画像の中央領域と端領域との境目付近では、斜線領域（スタイル画像Ａ１に対応）と、横線領域（スタイル画像Ｂ１に対応）と、縦線領域（スタイル画像Ｂ２に対応）とが混ざり合うように適用されている。仮に、ハードマスクをマスクＭ１およびマスクＭ２として用いた場合は、出力画像において、スタイルＡとスタイルＢとが混ざり合わず、領域毎にスタイルを分けてスタイルトランスファーが行われることになる。

図１４は、本発明の実施形態の少なくとも一つに対応する、マスクを用いたスタイルトランスファー処理を例示する概念図である。

犬が映り込んだ画像データを入力画像とする。スタイルトランスファー部２０３は、画像データにおける一部の領域についてスタイルトランスファーを抑制するためのマスクＭ３を取得する。図１４には、画像データにおける犬に相当する領域についてスタイルトランスファーを抑制するためのマスクＭ３が例示されている。マスクＭ３の犬以外の部分に相当する領域（黒色）の値は１である。マスクＭ３の犬に相当する領域（白色）の値は０である。

また、スタイルトランスファー部２０３は、マスクＭ３の値を反転させたマスクＭ４を取得する。例えば、マスクＭ３の座標（ｉ，ｊ）におけるピクセルの値をｃ_ｉｊとし、マスクＭ４の座標（ｉ，ｊ）におけるピクセルの値をｄ_ｉｊとした時に、スタイルトランスファー部２０３は、ｄ_ｉｊ＝１－ｃ_ｉｊを計算することにより、マスクＭ３の値を反転させたマスクＭ４を生成してよい。なお、マスクＭ３が例えば図１０に示したスタイルＡ用ハードマスクのような値を有するものであれば、スタイルトランスファー部２０３は左側領域（値は１）と右側領域（値は０）とを入れ替えることによりマスクＭ４を取得してもよい。スタイルトランスファー部２０３は、反転の対象となるマスクの態様に応じた反転処理（左右反転、上下反転、１－ｃ_ｉｊなど）を行う。マスクＭ４の犬以外の部分に相当する領域（白色）の値は０である。マスクＭ４の犬に相当する領域（黒色）の値は１である。

スタイルトランスファー部２０３は、マスクを用いて、画像データに対して一以上のスタイル画像に基づいたスタイルトランスファーを適用する。図１４においてスタイルトランスファー部２０３は、マスクＭ３とマスクＭ４とを用いて、犬が映り込んだ画像データに対してスタイル画像Ｃ１、Ｃ２、およびＤ１に基づいたスタイルトランスファーを適用する。スタイルＣは、スタイル画像Ｃ１およびスタイル画像Ｃ２をブレンドしたスタイルである。スタイルＤは、スタイル画像Ｄ１単独で構成されるスタイルである。なお、図１４は、マスクを用いたスタイルトランスファー処理を概念的に示すものである。そのため、図１４に描かれているスタイル画像Ｃ１、Ｃ２およびＤ１は、出願人が実際に用いたスタイル画像ではない。説明の便宜上、各スタイル画像Ｃ１、Ｃ２およびＤ１の近傍に、横線領域、縦線領域、および斜線領域をそれぞれ示す３つの矩形が記載されている。横線領域、縦線領域、および斜線領域をそれぞれ示す３つの矩形は、各スタイル画像Ｃ１、Ｃ２およびＤ１が出力画像のどこにどの程度適用されるかを例示するために記載されている。マスクＭ３は、スタイルＣ用ハードマスクに該当する。マスクＭ４は、スタイルＤ用ハードマスクに該当する。

スタイルトランスファーが適用された後の出力データは、犬以外の部分に相当する領域がスタイルＣに、犬に相当する領域がスタイルＤにそれぞれスタイルトランスファーされた出力画像となる。

マスクＭ３およびマスクＭ４が有する値は、０または１である。すなわち、マスクＭ３およびマスクＭ４はハードマスクである。そのため、出力画像において、スタイルＣとスタイルＤとが混ざり合わず、犬と犬以外の領域とにスタイルを分けて１回の計算によってスタイルトランスファーが行われることになる。図１４には、出力画像のスタイル適用範囲を示す矩形が、出力画像の近傍に記載されている。出力画像における犬に相当する領域では、斜線領域（スタイル画像Ｄ１に対応）が適用されている。出力画像における犬以外の部分に相当する領域では、横線領域（スタイル画像Ｃ１に対応）と縦線領域（スタイル画像Ｃ２に対応）とが適用されている。

なお、画像データの領域を３分割以上に分割して、それぞれ異なるスタイルを適用したい場合にも、マスクを用いることができる。図１５は、本発明の実施形態の少なくとも一つに対応する、画像データを３つの領域に分けてそれぞれ異なるスタイルを適用したい場合のマスクを例示する概念図である。

３つのマスクＭＡ、ＭＢ、およびＭＣを用意する。例えば、マスクＭＡは、左側三分の一の領域が１の値を有し、それ以外の領域が０の値を有する。マスクＭＢは、中央部分の領域が１の値を有し、左側三分の一の領域と右側三分の一の領域とが０の値を有する。マスクＭＣは、右側三分の一の領域が１の値を有し、それ以外の領域が０の値を有する。ただし、左側、中央、右側の３つの分割は、厳密な三等分でなくともよい。実際、１２８ピクセルや２５６ピクセルは３で割り切れない。マスクＭＡはスタイルＡに、マスクＭＢはスタイルＢに、マスクＭＣはスタイルＣに、それぞれ対応しているものとする。また、スタイルＡ、スタイルＢおよびスタイルＣは、それぞれ異なる一以上のスタイル画像に基づいたスタイルであるとする。

図９および図１０に基づいて説明したのと同様に、スタイルトランスファー部２０３は、畳み込み後の特徴量データに対してハードマスクを適用した後、平均と標準偏差を算出する。マスクＭＡに対応する平均および標準偏差を、それぞれμ１およびσ１とする。マスクＭＢに対応する平均および標準偏差を、それぞれμ２およびσ２とする。マスクＭＣに対応する平均および標準偏差を、それぞれμ３およびσ３とする。

図１６は、本発明の実施形態の少なくとも一つに対応する、処理層で行われる正規化を例示する概念図である。図１１に基づいて説明したのと同様に、スタイルトランスファー部２０３は、畳み込み後の特徴量データに対して、平均μ１と標準偏差σ１とを用いて正規化を行う。これにより、部分的に正規化された特徴量ＦＶ１が得られる。スタイルトランスファー部２０３は、部分的に正規化された特徴量ＦＶ１に対してマスクＭＡを適用する。このマスクＭＡの適用により得られた特徴量を、特徴量ＦＶ１Ａとする。なお、特徴量ＦＶ１に対してマスクＭＡを適用するアルゴリズムは、例えば同じ行および同じ列の値同士を乗算するものであってよい。具体例を挙げると、特徴量ＦＶ１の第２行第２列における値と、マスクＭＡの第２行第２列における値とを乗算した結果が、特徴量ＦＶ１Ａの第２行第２列における値となる。

スタイルトランスファー部２０３は、畳み込み後の特徴量データに対して、平均μ２と標準偏差σ２とを用いて正規化を行う。これにより、部分的に正規化された特徴量ＦＶ２が得られる。スタイルトランスファー部２０３は、部分的に正規化された特徴量ＦＶ２に対してマスクＭＢを適用する。このマスクＭＢの適用により得られた特徴量を、特徴量ＦＶ２Ｂとする。なお、特徴量ＦＶ２に対してマスクＭＢを適用するアルゴリズムは、例えば同じ行および同じ列の値同士を乗算するものであってよい。具体例を挙げると、特徴量ＦＶ２の第２行第２列における値と、マスクＭＢの第２行第２列における値とを乗算した結果が、特徴量ＦＶ２Ｂの第２行第２列における値となる。

スタイルトランスファー部２０３は、畳み込み後の特徴量データに対して、平均μ３と標準偏差σ３とを用いて正規化を行う。これにより、部分的に正規化された特徴量ＦＶ３が得られる。スタイルトランスファー部２０３は、部分的に正規化された特徴量ＦＶ３に対してマスクＭＣを適用する。このマスクＭＣの適用により得られた特徴量を、特徴量ＦＶ３Ｃとする。なお、特徴量ＦＶ３に対してマスクＭＣを適用するアルゴリズムは、例えば同じ行および同じ列の値同士を乗算するものであってよい。具体例を挙げると、特徴量ＦＶ３の第２行第２列における値と、マスクＭＣの第２行第２列における値とを乗算した結果が、特徴量ＦＶ３Ｃの第２行第２列における値となる。

スタイルトランスファー部２０３は、特徴量ＦＶ１Ａと特徴量ＦＶ２Ｂと特徴量ＦＶ３Ｃとを加算する。これにより、タテ１２８×ヨコ１２８の、正規化された特徴量が得られる。なお、特徴量ＦＶ１Ａと特徴量ＦＶ２Ｂと特徴量ＦＶ３Ｃの加算は、例えば同じ行および同じ列の値同士を加算するものであってよい。具体例を挙げると、特徴量ＦＶ１Ａの第２行第２列における値と、特徴量ＦＶ２Ｂの第２行第２列における値と、特徴量ＦＶ３Ｃの第２行第２列における値とを足した結果が、正規化された特徴量の第２行第２列における値となる。

図１７は、本発明の実施形態の少なくとも一つに対応する、正規化後のアフィン変換処理を例示する概念図である。

スタイルＡについてのアフィン変換に用いられる２種類のパラメータをそれぞれβ１およびγ１とする。スタイルＢについてのアフィン変換に用いられる２種類のパラメータをそれぞれβ２およびγ２とする。スタイルＣについてのアフィン変換に用いられる２種類のパラメータをそれぞれβ３およびγ３とする。この例におけるβ１、β２、β３、γ１、γ２、およびγ３はそれぞれ、１２８×１２８のサイズを有するデータである。

スタイルトランスファー部２０３は、β１およびγ１に対してマスクＭＡを適用する。これにより、新しいβ１と新しいγ１とが得られる。スタイルトランスファー部２０３は、β２およびγ２に対してマスクＭＢを適用する。これにより、新しいβ２と新しいγ２とが得られる。スタイルトランスファー部２０３は、β３およびγ３に対してマスクＭＣを適用する。これにより、新しいβ３と新しいγ３とが得られる。なお、マスクＭＡ、ＭＢ、またはＭＣを適用するアルゴリズムは、例えば同じ行および同じ列の値同士を乗算するものであってよい。

スタイルトランスファー部２０３は、β１とβ２とβ３を加算したデータと、γ１とγ２とγ３を加算したデータとをパラメータとして、正規化された特徴量（図１６参照）に対してアフィン変換を行う。その結果、アフィン変換された特徴量が処理層から抽出される。

スタイルトランスファー部２０３は例えば、入力画像と、マスクＭＡ、ＭＢおよびＭＣとを、図７に示したニューラルネットワークＮ３に入力する。これにより、左端、中央、右端の３つの領域のそれぞれに異なるスタイルに基づいたスタイルトランスファーが行われた出力画像が、学習済みニューラルネットワークから出力される。

（応用例１）
図１８は、本発明の実施形態の少なくとも一つに対応する、スタイルトランスファー前の画像を例示する概念図である。図１９は、本発明の実施形態の少なくとも一つに対応する、スタイルトランスファー後の画像をユーザ端末に出力した状態を例示する概念図である。

図１８の例では、ユーザはビルディングの高層階に居る。ユーザがユーザ端末２０Ｚを操作して、窓の外の景色をユーザ端末２０Ｚが備えるカメラによって撮像したとする。撮像された画像が、スタイルトランスファーの適用対象となる。

図３のステップＳｔ１１において距離推定部２０１は、画像に含まれる対象までの距離を推定する。本例における対象は、ビルディングに設けられた窓Ｗである。すなわち距離推定部２０１は、ユーザ端末２０Ｚが備えるカメラから窓Ｗまでの距離を推定する。

ステップＳｔ１２において領域画定部２０２は、推定された距離に基づいて、画像から一以上の領域を画定する。本例における領域とは、画像において、窓Ｗよりも所定の距離以上遠くにある部分、すなわち窓Ｗに映った景色の部分であってよい。

ステップＳｔ１３においてスタイルトランスファー部２０３は、画像中の領域に対してスタイルトランスファーを行う。より詳しくは、画定された領域の形状に対応するマスクをスタイルトランスファー部２０３が生成し、生成されたマスクを用いて、画像中の領域に対してスタイルトランスファーを適用する。

スタイル画像として例えばビデオゲームに登場した街並みの画像を用いると、現実世界にあるビルディングから見た外の景色は、スタイルトランスファーの適用後の出力画像においては、図１９に例示したように、ビデオゲームに登場した街並み風にスタイル変換される。一方、出力画像における、ビルディングの窓Ｗよりも内側の部分に対応する領域については、スタイル変換が行われず、元の現実世界の画像のままとなる。

（応用例２）
図２０は、本発明の実施形態の少なくとも一つに対応する、スタイルトランスファー前の画像を例示する概念図である。図２１は、本発明の実施形態の少なくとも一つに対応する、スタイルトランスファー後の画像をユーザ端末に出力した状態を例示する概念図である。

図２０の例では、ユーザはタワーＴの手前に居る。ユーザはユーザ端末２０Ｚを操作して、ユーザ端末２０Ｚが備えるカメラによる撮像を行う。撮像された画像が、スタイルトランスファーの適用対象となる。

図３のステップＳｔ１１において距離推定部２０１は、画像に含まれる対象までの距離を推定する。本例における対象は、タワーＴである。すなわち距離推定部２０１は、ユーザ端末２０Ｚが備えるカメラからタワーＴまでの距離を推定する。

ステップＳｔ１２において領域画定部２０２は、推定された距離に基づいて、画像から一以上の領域を画定する。本例における領域とは、画像において、タワーＴよりも所定の距離以上遠くにある部分、すなわちタワーＴの部分と、タワーＴを前景とした場合の背景の部分とであってよい。

スタイルトランスファーの適用後の出力画像においては、図２１に例示したように、タワーＴとタワーＴの背景とが、スタイル画像に基づいてスタイル変換される。一方、出力画像における、タワーＴよりも手前側の部分に対応する領域については、スタイル変換が行われず、元の現実世界の画像のままとなる。

ここで、ＡＲ出力として、仮想的なオブジェクトＯＢＪを画像に重畳して出力する場合がある。オブジェクトＯＢＪを画像に単に重畳させた場合、出力画像には全体的に現実世界の景色や物体が映り込み、仮想的なオブジェクトＯＢＪが追加的に映り込むものとなるので、ユーザに違和感を生じさせる可能性がある。

そこで本開示の実施形態によれば、スタイルトランスファー部２０３は、画像に重畳されるオブジェクトに対してもスタイルトランスファーを行う。すなわちスタイルトランスファー部２０３は、前述の領域とオブジェクトの双方に対してスタイルトランスファーを行う。領域とオブジェクトの双方について、スタイルトランスファーを適用して表現の方向性を揃えることにより、上記の違和感を軽減することができる。

なお、オブジェクトに対するスタイルトランスファーに用いられる一以上のスタイル画像は、領域に対するスタイルトランスファーに用いられる一以上のスタイル画像と対応する画像であってよい。

例えばスタイル画像Ａとスタイル画像Ｂとがある場合、スタイル画像Ｂがスタイル画像Ａに対応するとは、両者が例えば以下のような関係であることを意味する。
・スタイル画像Ａとスタイル画像Ｂとが同一の画像である。
・スタイル画像Ａとスタイル画像Ｂとが類似している。
・スタイル画像Ａのスタイルとスタイル画像Ｂのスタイルとが同一である。
・スタイル画像Ａのスタイルとスタイル画像Ｂのスタイルとが類似している。

図２２は、本発明の実施形態の少なくとも一つに対応するスタイル変換プログラムの処理例を示すフローチャートである。

距離推定部２０１は、画像に含まれる対象までの距離を推定する（Ｓｔ３１）。画像合成部２０６は、画像にオブジェクトＯＢＪを合成して合成画像を取得する（Ｓｔ３２）。領域画定部２０２は、推定された距離に基づいて、合成画像から一以上の領域を画定する（Ｓｔ３３）。スタイルトランスファー部２０３は、合成画像中の領域に対してスタイルトランスファーを行う（Ｓｔ３４）。

ステップＳｔ３４においては、スタイルトランスファーの種類としてマスクスタイルトランスファーを用いる。マスクスタイルトランスファーを用いれば、マスクの値を適宜設定することにより、画像を分割等せずとも、例えば画像の一部の領域のみにスタイルトランスファーを適用することなどができる。そのため、ＡＲ出力の対象である仮想的なオブジェクトＯＢＪを画像に合成した後であっても、合成画像に対して所望のスタイル変換を行うことができる。

本発明の実施形態の一側面として、表現力に富む画像を出力することができる。

本発明の実施形態の一側面として、モデルを用いて対象までの距離を精確に推定することができる。

本発明の実施形態の一側面として、マスクスタイルトランスファーによって、領域毎に異なるスタイル変換を行うことができる。

本発明の実施形態の一側面として、画像に仮想的なオブジェクトを重畳する際に、領域とオブジェクトの双方にスタイルトランスファーを適用して表現の方向性を揃えることにより、違和感を軽減することができる。

以上に説明したように、本願の各実施形態により１または２以上の不足が解決される。なお、夫々の実施形態による効果は、非限定的な効果または効果の一例である。

上述した各実施形態では、ユーザ端末２０およびサーバ１０は、自己が備える記憶装置に記憶されている各種制御プログラム（例えば、スタイル変換プログラム）に従って、上述した各種の処理を実行する。また、ユーザ端末２０やサーバ１０に限られない他のコンピュータが、自己が備える記憶装置に記憶されている各種制御プログラム（例えば、スタイル変換プログラム）に従って、上述した各種の処理を実行してもよい。

また、画像処理システム１００の構成は、上述した実施形態の例として説明した構成に限定されない。例えばユーザ端末２０が実行する処理として説明した処理の一部または全部をサーバ１０が実行する構成としてもよいし、サーバ１０が実行する処理として説明した処理の一部または全部をユーザ端末２０が実行する構成としてもよい。また、サーバ１０が備える記憶部（記憶装置）の一部または全部をユーザ端末２０が備える構成としてもよい。すなわち、画像処理システム１００における、ユーザ端末とサーバのどちらか一方が備える機能の一部または全部を、他の一方が備える構成とされていてもよい。

また、プログラムが、上述した各実施形態の例として説明した機能の一部または全部を、通信ネットワークを含まない装置単体に実現させる構成としてもよい。

［付記］
上述した実施形態の説明は、少なくとも下記発明を、当該発明の属する分野における通常の知識を有する者がその実施をすることができるように記載した。
［１］
プロセッサに、
画像に含まれる対象までの距離を推定する距離推定機能と、
推定された前記距離に基づいて、前記画像から一以上の領域を画定する領域画定機能と、
画像中の領域に対してスタイルトランスファーを行う、スタイルトランスファー機能とを、
実現させる、スタイル変換プログラム。
［２］
前記プロセッサに、
前記対象と対応するモデルを特定するモデル特定機能をさらに実現させ、
前記距離推定機能では、特定された前記モデルに基づいて前記対象までの距離を推定する、
［１］に記載のスタイル変換プログラム。
［３］
前記スタイルトランスファー機能では、前記画像中の領域の形状に対応したマスクを用いてスタイルトランスファーを行う、
［１］に記載のスタイル変換プログラム。
［４］
前記スタイルトランスファー機能では、前記画像に重畳されるオブジェクトに対してもスタイルトランスファーを行う、
［１］から［３］のうちいずれか一項に記載のスタイル変換プログラム。
［５］
プロセッサとメモリとを備え、
前記プロセッサは、前記メモリと協働して、
画像に含まれる対象までの距離を推定する距離推定機能と、
推定された前記距離に基づいて、前記画像から一以上の領域を画定する領域画定機能と、
画像中の領域に対してスタイルトランスファーを行う、スタイルトランスファー機能とを
実現する、スタイル変換装置。
［６］
プロセッサとメモリとを備えるコンピュータ装置によるスタイル変換方法であって、
画像に含まれる対象までの距離を推定する距離推定処理と、
推定された前記距離に基づいて、前記画像から一以上の領域を画定する領域画定処理と、
画像中の領域に対してスタイルトランスファーを行う、スタイルトランスファー処理と、を含む、
スタイル変換方法。

本発明の実施形態の一つによれば、入力画像に基づいて、表現力に富む画像を出力できるスタイル変換プログラム、スタイル変換装置、およびスタイル変換方法として有用である。

１０サーバ
１１、２１プロセッサ
１２、２２メモリ
１３、２３記憶装置
２０、２０Ａ、２０Ｂ、２０Ｚユーザ端末
３０通信ネットワーク
１００画像処理システム
２０１距離推定部
２０２領域画定部
２０３スタイルトランスファー部
２０４モデル特定部
２０５画像出力部

Claims

プロセッサに、
画像に含まれる対象までの距離を推定する距離推定機能と、
推定された前記距離に基づいて、前記画像から一以上の領域を画定する領域画定機能と、
画像中の領域に対してスタイルトランスファーを行う、スタイルトランスファー機能とを、
実現させる、スタイル変換プログラム。
前記プロセッサに、
前記対象と対応するモデルを特定するモデル特定機能をさらに実現させ、
前記距離推定機能では、特定された前記モデルに基づいて前記対象までの距離を推定する、
請求項１に記載のスタイル変換プログラム。
前記スタイルトランスファー機能では、前記画像中の領域の形状に対応したマスクを用いてスタイルトランスファーを行う、
請求項１に記載のスタイル変換プログラム。
前記スタイルトランスファー機能では、前記画像に重畳されるオブジェクトに対してもスタイルトランスファーを行う、
請求項１から請求項３のうちいずれか一項に記載のスタイル変換プログラム。
プロセッサとメモリとを備え、
前記プロセッサは、前記メモリと協働して、
画像に含まれる対象までの距離を推定する距離推定機能と、
推定された前記距離に基づいて、前記画像から一以上の領域を画定する領域画定機能と、
画像中の領域に対してスタイルトランスファーを行う、スタイルトランスファー機能とを
実現する、スタイル変換装置。
プロセッサとメモリとを備えるコンピュータ装置によるスタイル変換方法であって、
画像に含まれる対象までの距離を推定する距離推定処理と、
推定された前記距離に基づいて、前記画像から一以上の領域を画定する領域画定処理と、
画像中の領域に対してスタイルトランスファーを行う、スタイルトランスファー処理と、を含む、
スタイル変換方法。