JP2023171165A - スタイル変換プログラム、スタイル変換装置、およびスタイル変換方法 - Google Patents

スタイル変換プログラム、スタイル変換装置、およびスタイル変換方法 Download PDF

Info

Publication number
JP2023171165A
JP2023171165A JP2022083446A JP2022083446A JP2023171165A JP 2023171165 A JP2023171165 A JP 2023171165A JP 2022083446 A JP2022083446 A JP 2022083446A JP 2022083446 A JP2022083446 A JP 2022083446A JP 2023171165 A JP2023171165 A JP 2023171165A
Authority
JP
Japan
Prior art keywords
style
image
mask
style transfer
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022083446A
Other languages
English (en)
Inventor
サイモン フランシス スタンナス
Francis Stannus Simon
エドガー ハンディ
Edgar Handy
勇 長谷川
Isamu Hasegawa
陽一郎 三宅
Yoichiro Miyake
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Square Enix Co Ltd
Original Assignee
Square Enix Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Square Enix Co Ltd filed Critical Square Enix Co Ltd
Priority to JP2022083446A priority Critical patent/JP2023171165A/ja
Priority to US18/320,062 priority patent/US20230377230A1/en
Publication of JP2023171165A publication Critical patent/JP2023171165A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Abstract

【課題】入力画像に基づいて表現力に富む画像を出力する。【解決手段】スタイル変換プログラムが、プロセッサに、画像に含まれる対象までの距離を推定する距離推定機能と、推定された前記距離に基づいて、前記画像から一以上の領域を画定する領域画定機能と、画像中の領域に対してスタイルトランスファーを行う、スタイルトランスファー機能とを実現させる。【選択図】図3

Description

本発明の実施形態の少なくとも一つは、スタイル変換プログラム、スタイル変換装置、およびスタイル変換方法に関する。
写真画像をゴッホ風やモネ風などの所定のスタイルに応じた画像へ変換する、スタイルトランスファーの技術が知られている。
特許文献1には、スタイル変換(style transfer)についての記載がなされている。
特開2020-187583号公報
従来のスタイルトランスファーは、入力画像全体をモネ風などの所定のスタイルに変換するものであった。しかしながら、入力画像全体を単に所定のスタイルに変換するだけでは、表現力の幅が狭いと考えられる。また、入力画像の一部をあるスタイルに変換し、他の一部を別のスタイルに変換するなどの、表現力に富む柔軟なスタイルトランスファーを行うことはできなかった。
ここで、例えばカメラ等によって撮像した撮像画像のうち、一部の領域を選択的にスタイル変換することができれば、出力画像による表現力がさらに増す。
本発明の少なくとも一つの実施形態の目的は、上記課題を解決し、入力画像に基づいて、表現力に富む画像を出力することである。
非限定的な観点によると、本発明の一実施形態に係るスタイル変換プログラムは、プロセッサに、画像に含まれる対象までの距離を推定する距離推定機能と、推定された前記距離に基づいて、前記画像から一以上の領域を画定する領域画定機能と、画像中の領域に対してスタイルトランスファーを行う、スタイルトランスファー機能と、を実現させるためのものである。
非限定的な観点によると、本発明の一実施形態に係るスタイル変換装置は、プロセッサとメモリとを備え、前記プロセッサは、前記メモリと協働して、画像に含まれる対象までの距離を推定する距離推定機能と、推定された前記距離に基づいて、前記画像から一以上の領域を画定する領域画定機能と、画像中の領域に対してスタイルトランスファーを行う、スタイルトランスファー機能とを実現するものである。
非限定的な観点によると、本発明の一実施形態に係るスタイル変換方法は、プロセッサとメモリとを備えるコンピュータ装置によるスタイル変換方法であって、画像に含まれる対象までの距離を推定する距離推定処理と、推定された前記距離に基づいて、前記画像から一以上の領域を画定する領域画定処理と、画像中の領域に対してスタイルトランスファーを行う、スタイルトランスファー処理とを含むものである。
本願の各実施形態により1または2以上の不足が解決される。
本発明の実施形態の少なくとも一つに対応する画像処理システムの構成の例を示すブロック図である。 本発明の実施形態の少なくとも一つに対応するユーザ端末の構成を示すブロック図である。 本発明の実施形態の少なくとも一つに対応するスタイル変換プログラムの処理例を示すフローチャートである。 本発明の実施形態の少なくとも一つに対応する、一般的なスタイルトランスファーに用いられるニューラルネットワークの構造例を示す概念図である。 本発明の実施形態の少なくとも一つに対応する、スタイルトランスファーに用いられるニューラルネットワークの構造例を示す概念図である。 本発明の実施形態の少なくとも一つに対応する最適化処理の処理例を示すフローチャートである。 本発明の実施形態の少なくとも一つに対応する、マスクを用いたスタイルトランスファーに用いられるニューラルネットワークの構造例を示す概念図である。 本発明の実施形態の少なくとも一つに対応する、スタイルトランスファーに用いられるマスクの例を示す概念図である。 本発明の実施形態の少なくとも一つに対応する、処理層で行われる正規化に用いられるパラメータの計算方法を例示する概念図である。 本発明の実施形態の少なくとも一つに対応する、処理層で行われる正規化に用いられるパラメータの計算方法を例示する概念図である。 本発明の実施形態の少なくとも一つに対応する、処理層で行われる正規化を例示する概念図である。 本発明の実施形態の少なくとも一つに対応する、正規化後のアフィン変換処理を例示する概念図である。 本発明の実施形態の少なくとも一つに対応する、マスクを用いたスタイルトランスファー処理を例示する概念図である。 本発明の実施形態の少なくとも一つに対応する、マスクを用いたスタイルトランスファー処理を例示する概念図である。 本発明の実施形態の少なくとも一つに対応する、画像データを3つの領域に分けてそれぞれ異なるスタイルを適用したい場合のマスクを例示する概念図である。 本発明の実施形態の少なくとも一つに対応する、処理層で行われる正規化を例示する概念図である。 本発明の実施形態の少なくとも一つに対応する、正規化後のアフィン変換処理を例示する概念図である。 本発明の実施形態の少なくとも一つに対応する、スタイルトランスファー前の画像を例示する概念図である。 本発明の実施形態の少なくとも一つに対応する、スタイルトランスファー後の画像をユーザ端末に出力した状態を例示する概念図である。 本発明の実施形態の少なくとも一つに対応する、スタイルトランスファー前の画像を例示する概念図である。 本発明の実施形態の少なくとも一つに対応する、スタイルトランスファー後の画像をユーザ端末に出力した状態を例示する概念図である。 本発明の実施形態の少なくとも一つに対応するスタイル変換プログラムの処理例を示すフローチャートである。
以下、本発明の実施形態の例について図面を参照して説明する。なお、以下で説明する各実施形態の例における各種構成要素は、矛盾等が生じない範囲で適宜組み合わせ可能である。また、ある実施形態の例として説明した内容については、他の実施形態においてその説明を省略している場合がある。また、各実施形態の特徴部分に関係しない動作や処理については、その内容を省略している場合がある。さらに、以下で説明する各種フローやシーケンスを構成する各種処理の順序は、処理内容に矛盾等が生じない範囲で順不同である。
本発明の実施形態の概要について説明をする。以下では、実施形態として、画像処理システムに含まれるコンピュータの一例であるユーザ端末において実行されるスタイルトランスファープログラムを例示して説明する。
図1は、本発明の実施形態の少なくとも一つに対応する画像処理システム100の構成の例を示すブロック図である。画像処理システム100は、ビデオゲーム処理サーバ10(サーバ10)と、画像処理システム100のユーザ(ゲームのプレイヤ等)が使用するユーザ端末20とを備える。ユーザ端末20A、20B、および20Cはそれぞれ、ユーザ端末20の一例である。画像処理システム100の構成はこれに限定されない。例えば、画像処理システム100は、単一のユーザ端末を複数のユーザが使用する構成であってよい。画像処理システム100が複数のサーバを備えてもよい。
サーバ10とユーザ端末20は、コンピュータの一例である。サーバ10とユーザ端末20は、それぞれインターネットなどの通信ネットワーク30に通信可能に接続されている。通信ネットワーク30とサーバ10との間の接続、および通信ネットワーク30とユーザ端末20との間の接続は有線接続であっても無線接続であってもよい。例えば、ユーザ端末20は、通信事業者が管理する基地局と無線通信回線によるデータ通信を行うことにより、通信ネットワーク30と接続してよい。
画像処理システム100は、サーバ10とユーザ端末20とを備えることにより、ユーザの操作に応じて各種処理を実行するための各種機能を実現する。
サーバ10はビデオゲームの進行を制御する。サーバ10は、画像処理システム100の管理者によって管理され、複数のユーザ端末20に対して各種処理に関する情報を提供するための各種機能を有する。
サーバ10は、プロセッサ11と、メモリ12と、記憶装置13とを備える。プロセッサ11は、例えば、各種の演算および制御を行うCPU(Central Processing Unit)等の中央処理装置である。また、サーバ10がGPU(Graphics Processing Unit)を備える場合には、各種の演算および制御の一部をGPUによって行うようにしてもよい。サーバ10は、メモリ12に読み出したデータを用いて各種の情報処理をプロセッサ11にて実行し、得られた処理結果を必要に応じて記憶装置13に記憶させる。
記憶装置13は、各種情報を格納する記憶媒体としての機能を有する。記憶装置13の構成は特に限定されないが、ユーザ端末20にかかる処理負荷を軽減させるといった観点から、画像処理システム100にて行われる制御に必要な各種情報を全て記憶可能な構成であることが好ましい。このような例には、HDDやSSDがある。ただし、各種情報を記憶する記憶装置は、サーバ10がアクセス可能な状態で記憶領域を備えていればよく、例えば専用の記憶領域をサーバ10の外部に有する構成とされていてもよい。
サーバ10は、ゲーム画像をレンダリング可能なゲームサーバなどの情報処理装置によって構成されてよい。
ユーザ端末20は、ユーザが管理する通信端末によって構成される。ユーザ端末20は、ネットワーク配信型のゲームを行うことが可能な通信端末によって構成されてよい。ネットワーク配信型のゲームを行うことが可能な通信端末の例として、例えばスマートフォンを含む携帯電話端末、PDA(Personal Digital Assistant)、携帯型ゲーム装置、VRゴーグル、ARグラス、スマートグラス、所謂ウェアラブルデバイスなどがある。画像処理システム100が含み得るユーザ端末の構成はこれらに限定されず、ユーザが合成画像を認識し得る構成であればよい。ユーザ端末の構成の他の例には、各種通信端末を組み合わせたものやパーソナルコンピュータ、据置型ゲーム装置がある。
ユーザ端末20は、通信ネットワーク30に接続し、サーバ10との通信を行うことにより各種処理を実行するためのハードウェア(例えば、座標に応じたブラウザ画面やゲーム画面を表示する表示装置など)およびソフトウェアを備える。なお、複数のユーザ端末20のそれぞれは、サーバ10を介さずに互いに直接通信を行うこともできる構成とされていてもよい。
ユーザ端末20は表示装置が内蔵されていてよい。また、ユーザ端末20に対して、表示装置が無線接続あるいは有線接続されていてもよい。なお、表示装置は極めて一般的な構成であるため、ここでは図示を省略している。ゲーム画面は例えば、前述の合成画像として表示装置によって表示され、ユーザがこの合成画像を認識する。ゲーム画面は例えば、ユーザ端末が備える表示装置の一例であるディスプレイや、ユーザ端末と接続された表示装置の一例であるディスプレイに表示される。表示装置には、例えば、ホログラム表示が可能なホログラムディスプレイ装置や、画像(ゲーム画面を含む)をスクリーン等に映写する映写装置なども含まれる。
ユーザ端末20は、プロセッサ21と、メモリ22と、記憶装置23とを備える。プロセッサ21は、例えば、各種の演算および制御を行うCPU(Central Processing Unit)等の中央処理装置である。また、ユーザ端末20がGPU(Graphics Processing Unit)を備える場合には、各種の演算および制御の一部をGPUによって行うようにしてもよい。ユーザ端末20は、メモリ22に読み出したデータを用いて各種の情報処理をプロセッサ21にて実行し、得られた処理結果を必要に応じて記憶装置23に記憶させる。記憶装置23は、各種情報を格納する記憶媒体としての機能を有する。
ユーザ端末20には入力装置が内蔵されていてよい。また、ユーザ端末20に対して入力装置が無線接続あるいは有線接続されていてもよい。入力装置はユーザによる操作入力を受け付ける。ユーザによる操作入力に応じて、サーバ10が備えるプロセッサまたはユーザ端末20が備えるプロセッサが、各種の制御処理を実行する。入力装置の例として、携帯電話端末が備えるタッチパネル画面、ARグラスに無線接続あるいは有線接続されたコントローラなどがある。また、ユーザ端末20が備えるカメラも入力装置に相当し得る。ユーザはカメラの前で手を動かす等のジェスチャーにより、操作入力を行う(ジェスチャー入力)。
ユーザ端末20は、GPSユニット、コンパス、慣性測定ユニット(IMU)、カメラ等をさらに備えていてよい。慣性測定ユニットは、加速度計およびジャイロスコープ等を含み得る。コンパスおよび慣性測定ユニットは、ユーザ端末20の方位を提供することができるプログラムによって実現されてよい。
その他、ユーザ端末20はスピーカ等の他の出力装置を備えていてよい。他の出力装置は、ユーザに対して音声やその他の各種の情報を出力する。
図2は、本発明の実施形態の少なくとも一つに対応するユーザ端末の構成を示すブロック図である。ユーザ端末20の一例であるユーザ端末20Zは、距離推定部201と、領域画定部202と、スタイルトランスファー部203とを備える。ユーザ端末20Zは、モデル特定部204と、画像出力部205と、画像合成部206とを更に備えていてよい。ユーザ端末20Zが備えるプロセッサは、記憶装置に保持されたスタイル変換プログラムを参照し、そのプログラムを実行することにより、距離推定部201と、領域画定部202と、スタイルトランスファー部203と、モデル特定部204と、画像出力部205と、画像合成部206とを機能的に実現する。
距離推定部201は、画像に含まれる対象までの距離を推定する機能を有する。領域画定部202は、推定された距離に基づいて、画像から一以上の領域を画定する機能を有する。スタイルトランスファー部203は、画像中の領域に対してスタイルトランスファーを行う機能を有する。モデル特定部204は、対象と対応するモデルを特定する機能を有する。画像出力部205は、画像を出力する機能を有する。なお、画像出力部205により出力される画像は静止画であっても動画であってもよい。画像出力部205はARオブジェクトを含んだ画像出力を行ってもよい。ARオブジェクトとは、画像に対して重畳される仮想的なオブジェクトである。画像合成部206は、画像を合成する機能を有する。
次に、本発明の実施形態におけるプログラム実行処理について説明する。図3は、本発明の実施形態の少なくとも一つに対応するスタイル変換プログラムの処理例を示すフローチャートである。
距離推定部201は、画像に含まれる対象までの距離を推定する(St11)。領域画定部202は、推定された距離に基づいて、画像から一以上の領域を画定する(St12)。スタイルトランスファー部203は、画像中の領域に対してスタイルトランスファーを行う(St13)。なお、ここでいう画像は、図22を参照して後述する合成画像を含む。
[距離推定]
ステップSt11における画像とは、例えば、カメラなどの撮像装置を備えたユーザ端末20によって撮像された画像などを意味する。画像は静止画であっても動画であってもよい。画像は、ユーザ端末20による撮像画像以外の画像であってもよい。画像は例えば、メモリ22または記憶装置23に記憶された画像や、サーバ10などの外部装置から通信ネットワーク30を介して受信した画像などであってもよい。
画像に含まれる対象とは、物体などの、領域分けが可能なものを言う。例えば窓は物体であり、窓と窓以外の部分とで領域分けが可能である。そのため、窓は画像に含まれる対象となり得る。同様に、建物、車、人、動物等も、画像に含まれる対象となり得る。列挙した以外の有体物も、画像に含まれる対象となり得る。
画像に含まれる対象は、有体物以外であってもよい。例えば、空と建物とが撮像画像に映り込んでいる場合、空と建物とを領域分け可能であるので、空は画像に含まれる対象となり得る。
対象までの距離とは、画像を撮像する視点から対象までの距離を言う。例えばカメラによって画像を撮像した場合、カメラが視点となる。従ってこの場合、対象までの距離とは、カメラから対象までの距離を意味する。
距離推定の際には、上述のモデル特定部204が用いられてよい。モデル特定部204は、対象と対応するモデルを特定する。モデルは3Dモデルであってよい。モデルは、メモリ22もしくは記憶装置23、または外部装置が備える記憶装置などに、予め記憶されている。モデル特定部204は、画像に含まれる対象と、記憶済みの複数のモデルとの間で照合を行い、対象と対応するモデルを特定する。照合は、例えば特開2021-114286号公報等で開示されているパターン照合などを用いてよい。そして距離推定部201は、特定されたモデルに基づいて対象までの距離を推定する。
なお、距離推定部201は、フォトグラメトリなどの他のアルゴリズムを用いて距離推定を行っても良い。
[領域画定]
領域画定部202は、推定された距離に基づいて、画像から一以上の領域を画定する。例えば領域画定部202は、画像における、対象よりも所定の距離以上近くにある部分を領域として画定する。領域画定部202は、画像における、対象よりも所定の距離以上遠くにある部分を領域として画定する。なお領域画定部202は、対象を含んだ領域を画定してもよい。
例えば、対象が、撮像画像に映り込んだタワーである場合、領域画定部202は、画像に映り込んだ部分のうち、タワーよりも近くにある部分を領域として画定してよい。領域画定部202は同様に、画像に映り込んだ部分のうち、タワーよりも遠くにある部分を領域として画定してよい。また、画定される領域にはタワーを含めてもよい。
[スタイルトランスファー]
スタイルトランスファー部203は、画像中の領域に対してスタイルトランスファーを行う機能を有する。スタイルトランスファーを行う領域は、典型的には領域画定部202が画定した領域であるが、領域画定部202が画定した領域以外の領域である場合もある。例えば、画像にビルディングが映り込んでいる場合を想定する。領域画定部202は、画像に映り込んだビルディングの部分を領域として画定する。スタイルトランスファーの適用対象となる領域は、画像中のビルディングの部分であってよい。一方、スタイルトランスファーの適用対象となる領域は、画像からビルディングの部分を除いた部分の領域であってもよい。
領域に対してスタイルトランスファーを行う際には、後述のマスクスタイルトランスファーの技術を用いることができる。
スタイルトランスファーにおけるスタイルは、建築、美術、音楽などにおける様式または型などを意味する。スタイルは例えば、ゴッホ風やピカソ風などの画風を意味してもよい。スタイルは、画像の形式(例えば色、所定の模様、またはパターン等)を意味してもよい。スタイル画像とは、特定のスタイルを有する画像(静止画または動画)を意味している。
スタイルトランスファー部203は、スタイルトランスファー用のニューラルネットワークを用いて良い。関連する技術として例えば、Vincent Dumoulin, et.al. 「A LEARNED REPRESENTATION FOR ARTISTIC STYLE」等がある。スタイルトランスファー部203がニューラルネットワークに所定のサイズの入力画像を入力することにより、スタイルトランスファーが適用された出力画像が得られる。
図4は、本発明の実施形態の少なくとも一つに対応する、一般的なスタイルトランスファーに用いられるニューラルネットワークN1の構造例を示す概念図である。ニューラルネットワークN1は、入力画像に基づくピクセル群を潜在(Latent)パラメータに変換する第1変換層と、畳み込み(Convolution)等によりダウンサンプリングを行う1以上の層と、複数の残差ブロック(Residual Blocks)層と、アップサンプリングを行う層と、潜在(Latent)パラメータをピクセル群に変換する第2変換層とを含む。なお、第2変換層の出力であるピクセル群に基づいて出力画像が得られる。
ニューラルネットワークN1の第1変換層とダウンサンプリングを行う層との間や、ダウンサンプリングを行う層に含まれる複数の畳み込み層同士の間等において、特徴量(feature maps)の各チャンネルに対して、正規化処理とアフィン変換処理とが行われる。なお、図4においては、正規化処理とアフィン変換処理のうち、アフィン変換処理を図示している。
スタイルトランスファー部203が、ニューラルネットワークN1の第1変換層に画像データを入力することにより、スタイルトランスファー適用後のデータが、ニューラルネットワークN1の第2変換層から出力される。
[複数のスタイル画像をブレンドしたスタイルトランスファー]
スタイルトランスファー部203は、入力画像の同一箇所に対して複数のスタイルをブレンドしたスタイルトランスファーを行ってもよい。この場合にスタイルトランスファー部203は、ニューラルネットワークの所定の層において複数のスタイル画像に基づくパラメータを混入し、最適化関数に基づいて最適化処理を行って得られた学習済みのニューラルネットワークに、入力画像データを入力する。なお、最適化関数は、前記複数のスタイル画像に基づいて定義されたものであれば好適である。
図5は、本発明の実施形態の少なくとも一つに対応する、スタイルトランスファーに用いられるニューラルネットワークN2の構造例を示す概念図である。ニューラルネットワークN2は、入力画像に基づくピクセル群を潜在(Latent)パラメータに変換する第1変換層と、畳み込み(Convolution)等によりダウンサンプリングを行う1以上の層と、複数の残差ブロック(Residual Blocks)層と、アップサンプリングを行う層と、潜在(Latent)パラメータをピクセル群に変換する第2変換層とを含む。なお、第2変換層の出力であるピクセル群に基づいて出力画像が得られる。
ニューラルネットワークN2の第1変換層とダウンサンプリングを行う層との間や、ダウンサンプリングを行う層に含まれる複数の畳み込み層同士の間等において、特徴量(feature maps)の各チャンネルに対して、正規化処理とアフィン変換処理とが行われる。なお、図5においては、正規化処理とアフィン変換処理のうち、アフィン変換処理を図示している。
ニューラルネットワークN2のアフィン層A1には、複数のスタイル画像に基づくパラメータが混入される。より具体的には、以下の通りである。
ニューラルネットワークN2のアフィン層A1は、アフィン変換のパラメータをaおよびbとし、画像のピクセルの潜在(Latent)変数をxとした場合、畳み込み層の出力の潜在変数xを、x*a+bに変換する処理を行う層である。
ここで、任意のスタイル1とスタイル2とをブレンドする場合、スタイルトランスファー部203による制御の下で、アフィン層A1で行われる処理は以下の通りである。スタイル1に係るスタイル画像から導出されたアフィン変換パラメータをaおよびbとする。スタイル2に係るスタイル画像から導出されたアフィン変換パラメータをaおよびbとする。このとき、スタイル1とスタイル2とをブレンドする場合のアフィン変換パラメータはa=(a+a)/2と、b=(b+b)/2とになる。そして、アフィン層A1においてx*a+bを計算することにより、スタイル1とスタイル2のブレンドを行うことができる。なお、前記はスタイル1とスタイル2とを均等に(それぞれ50%ずつ)ブレンドする場合の計算式を示している。当業者の通常の知識に基づいて、スタイル1が80%、スタイル2が20%などのように、各スタイルに基づく影響度がそれぞれ異なる割合となるように重みづけを行った上でブレンドしてもよい。
ブレンドするスタイルの数は3以上であってもよい。nが3以上の自然数である場合に、n個のスタイルをブレンドする場合のアフィン変換パラメータは、例えばa=(a+a……+a)/nと、b=(b+b……+b)/nとであってよい。なお、kが1からnまでの間の任意の自然数である場合に、スタイルkに係るスタイル画像から導出されたアフィン変換パラメータをaおよびbとする。各スタイルに基づく影響度がそれぞれ異なる割合となるように重みづけを行った上でブレンドしてもよい点については、前述のスタイルの数が2の場合と同様である。
ユーザ端末20Zのメモリ22等には、複数のスタイルについての変換パラメータaおよびbが保存されていてよい。また、複数のスタイルについての変換パラメータは、例えば(a,a,……,a)および(b,b,……,b)等のように、ベクトル形式でメモリ22や記憶装置23等に保存されていてもよい。各スタイルに基づく影響度がそれぞれ異なる割合となるように重みづけを行う場合は、各スタイルに応じたウェイトを示す値がメモリ22や記憶装置23等に保存されていてもよい。
次に、ニューラルネットワークN2について機械学習を行うための最適化関数について説明する。最適化関数は損失関数とも呼ばれることがある。ニューラルネットワークN2に対して、複数のスタイル画像に基づいて定義された最適化関数に基づいて最適化処理を行うことにより、学習済みのニューラルネットワークN2が得られる。なお、説明の便宜上、学習前後のそれぞれのニューラルネットワークについて、同じ参照符号であるN2が用いられている。
例えば、上述の関連する技術においては、以下のように定義された最適化関数が用いられている。
スタイル最適化関数:
Figure 2023171165000002
コンテンツ最適化関数:
Figure 2023171165000003
上述の最適化関数において、pは生成された画像を示す。生成された画像は、機械学習に用いられるニューラルネットワークの出力画像に相当する。s(小文字のs)は例えば抽象絵画などのスタイル画像を示す。Uはレイヤiのユニットの総数を示す。Uはレイヤjのユニットの総数を示す。Gはグラムマトリクス(Gram matrix)を示す。φはVGG-16アーキテクチャの第i番目の活性化関数の出力を示す。S(大文字のS)はスタイルの最適化を計算するためのVGG-16のレイヤ群を示す。c(小文字のc)はコンテンツ画像を示す。C(大文字のC)はコンテンツ最適化関数を計算するためのVGG-16のレイヤ群であり、jは当該レイヤ群に含まれるレイヤのインデックスである。絶対値記号に付加されたFはフロベニウスノルムを意味する。
上述のスタイル最適化関数およびコンテンツ最適化関数によって定義された最適化関数の値を最小化するようにニューラルネットワークに対して機械学習を行い、学習後のニューラルネットワークに入力画像を入力することにより、スタイル画像が示すスタイルに近づくように変換がなされた出力画像がニューラルネットワークから出力される。
ここで、上記のような最適化関数を用いた最適化処理では、複数のスタイルをブレンドしてスタイルトランスファーを行う場合に、ブレンドの結果には更なる改良の余地がある。
そこでユーザ端末20Zは、複数のスタイル画像に基づいて定義された最適化関数に基づいて最適化処理を行う。これにより、複数のスタイル画像に基づいた最適化を行うことができる。その結果、入力画像に対して複数のスタイルがきれいにブレンドされた出力画像を得ることができる。
より具体的には、最適化処理は、複数のスタイル画像から選ばれた任意の二つのスタイル画像に基づいて定義された第1の最適化関数を用いて最適化処理を行う、第1の最適化処理と、前記複数のスタイル画像における一つのスタイル画像に基づいて定義された第2の最適化関数を用いて最適化処理を行う、第2の最適化処理とを含んでいてよい。これにより、ブレンドしたいスタイルの数が3以上である場合に、好適な最適化を行う事ができる。その結果、入力画像に対して複数のスタイルがよりきれいにブレンドされた出力画像を得ることができる。
次に、第1の最適化関数および第2の最適化関数について説明する。実施形態の一側面として、第1の最適化関数は以下の式(1)で定義されてよい。
Figure 2023171165000004
実施形態の一側面として、第2の最適化関数は以下の式(2)で定義されてよい。
Figure 2023171165000005
上記の式において、
Figure 2023171165000006
は複数のスタイル画像からなるスタイル画像群であり、qおよびrはスタイル画像群に含まれる任意のスタイル画像を示す。ただし、qとrは互いに異なるスタイル画像である。Ni,rはφ特徴マップの行数である。Ni,cはφ特徴マップの列数である。p、s(小文字のs)、G、φ、S、c(小文字のc)、およびFについては、上述の関連する技術におけるものと同様である。
上記の第1の最適化関数は、生成された画像をpとし、複数のスタイル画像から選ばれた任意の二つのスタイル画像をqおよびrとしたときに、画像pに所定の演算を行って得られた値と、スタイル画像qおよびrにそれぞれ前記所定の演算を行って得られた値の平均値と、の間のノルムを合算する関数である。上記の式(1)は、所定の演算が、
Figure 2023171165000007
である場合を示している。所定の演算は、上記以外の演算であってもよい。
上記の第2の最適化関数は、生成された画像をpとし、スタイル画像をsとしたときに、画像pに所定の演算を行って得られた値と、スタイル画像sに前記所定の演算を行って得られた値との間のノルムを合算する関数である。上記の式(2)は、所定の演算が、
Figure 2023171165000008
である場合を示している。所定の演算は、上記以外の演算であってもよい。
次に、上述の第1の最適化関数および第2の最適化関数を用いた最適化処理の例について説明する。
図6は、本発明の実施形態の少なくとも一つに対応する最適化処理の処理例を示すフローチャートである。ここでは、第1の最適化関数が上記の式(1)で定義される関数であり、第2の最適化関数が上記の式(2)で定義される関数である場合の処理例について説明する。
最適化処理の処理主体は、装置が備えるプロセッサである。プロセッサを備えた装置(以下、装置A)は上述のユーザ端末20Zであってよい。この場合、図1に示したプロセッサ21が処理主体となる。プロセッサを備えた装置Aは、ユーザ端末20Z以外の他の装置(例えば、サーバ10等)であってもよい。
ブレンドされるスタイルの数をnとする。プロセッサは、スタイル画像群に含まれるn個のスタイル画像の中から、任意の二つのスタイル画像qおよびrを選択する(St21)。
プロセッサは、選択されたスタイル画像qおよびrについての第1の最適化関数の値を最小化するように最適化を行う(St22)。なお、生成された画像pについては、プロセッサがニューラルネットワークの出力画像を画像pとして取得する。ニューラルネットワークは、装置Aに実装されていてもよく、装置A以外の他の装置に実装されていてもよい。
プロセッサは、通りの全パターンにつき最適化を行ったか否かを判定する(St23)。すなわちプロセッサは、n個のスタイル画像の中から任意の二つのスタイル画像qおよびrを選択することについて、全てのパターンを処理済みであるか否かを判定する。通りの全パターンにつき最適化を行った場合(St23:YES)、ステップSt24へと処理が遷移する。通りの全パターンにつき最適化を行っていない場合(St23:NO)、ステップSt21へと処理が戻り、プロセッサが次の二つのスタイル画像qおよびrの組み合わせを選択する。
プロセッサは、スタイル画像群に含まれるn個のスタイル画像の中から、一つのスタイル画像sを選択する(St24)。
プロセッサは、選択されたスタイル画像sについての第2の最適化関数の値を最小化するように最適化を行う(St25)。なお、生成された画像pについては、プロセッサがニューラルネットワークの出力画像を画像pとして取得する。ニューラルネットワークは、装置Aに実装されていてもよく、装置A以外の他の装置に実装されていてもよい。
プロセッサは、通りの全パターンにつき最適化を行ったか否かを判定する(St26)。すなわちプロセッサは、n個のスタイル画像の中から任意のスタイル画像sを選択することについて、全てのパターンを処理済みであるか否かを判定する。通りの全パターンにつき最適化を行った場合(St26:YES)、図6に示した最適化処理は終了する。通りの全パターンにつき最適化を行っていない場合(St26:NO)、ステップSt24へと処理が戻り、プロセッサが次の一つのスタイル画像sを選択する。
スタイルトランスファー部203は、例えば上記のようにして最適化が行われた学習済みのニューラルネットワークN2の第1変換層に、画像データを入力する。これにより、n個のスタイル画像がきれいにブレンドされたスタイルトランスファーの適用後のデータがニューラルネットワークN2の第2変換層から出力される。
例えば上記のように、スタイルトランスファー部203は、単一のスタイル、または複数のスタイルに基づいて、画像データに対してスタイルトランスファーを適用することができる。
[マスクスタイルトランスファー]
次に、マスクを用いたスタイルトランスファー(マスクスタイルトランスファー)について説明する。本発明の実施形態に係るマスクトランスファーは、画像を分割しなくとも、画像に含まれる1以上の領域に対してスタイル変換を行うことができる。例えば画像に2つの領域Aと領域Bとが含まれている場合、領域Aのみについてスタイル変換を行い、領域Bについてはスタイル変換を行わない、ということができる。これは画像に3つ以上の領域が含まれている場合も同様であり、1つ以上の領域を選択して、選択された領域のみについてスタイル変換を行うことができる。さらに、これらのスタイル変換の際に、元の画像を領域毎に分割するなどの処理も不要である。本発明の実施形態に係るマスクスタイルトランスファーにおけるマスクとは、画像データにおける一部の領域についてスタイルトランスファーを抑制する事に用いられるデータを意味する。例えば、画像データがRGBの3つのカラーチャネルを有する縦256ピクセル、横256ピクセルの画像データ(256×256×3)であるとする。この画像データに対するマスクは、例えば縦256ピクセル、横256ピクセルのデータであって、各ピクセルに0から1の間の数値が与えられたデータ(256×256×1)であってよい。マスクは、ピクセルの値が0に近づくほど、画像データの対応するピクセルにおけるスタイルトランスファーがより強く抑制されるものであってよい。ただし、マスクは前記とは異なるフォーマットを有していてもよい。例えば、マスクはピクセルの値が1に近づくほど、画像データの対応するピクセルにおけるスタイルトランスファーがより強く抑制されるものであってよい。また、マスクが有するピクセルの最大値は1を超えた値などあってもよい。マスクが有するピクセルの最小値は0より小さい値であってもよい。マスクが有するピクセルの値は0または1のみであってもよい(ハードマスク)。
スタイルトランスファー部203は、スタイルトランスファーを適用する領域の形状に対応したマスクを生成する。次に、スタイルトランスファー部203は、画像データとマスクとを、スタイルトランスファー用のニューラルネットワークに入力する。これにより、マスクを用いて、画像データに対して一以上のスタイル画像に基づいたスタイルトランスファーを適用することができる。
なお、スタイルトランスファー部203は、画像データにおける一部の領域についてスタイルトランスファーを抑制するマスクを複数、生成してもよい。例えばスタイルトランスファー部203は、画像に映り込んだ第1の建物に相当する領域以外の領域についてスタイルトランスファーを抑制するマスクと、画像に映り込んだ第2の建物に相当する領域以外の領域についてスタイルトランスファーを抑制するマスクの、合計2つのマスクを生成してもよい。この場合に生成される複数のマスクは、スタイルトランスファーを抑制する領域がそれぞれ異なるものとなる。そしてスタイルトランスファー部203は、スタイルトランスファーを抑制する領域が異なる複数のマスクを用いて、画像データに対して、複数のスタイル画像からなる複数のスタイルに基づいたスタイルトランスファーを適用する。
スタイルトランスファー部203は、画像データと、生成した複数のマスクとを、スタイルトランスファー用のニューラルネットワークに入力してもよい。これにより、複数のマスクを用いて、画像データに対して複数のスタイル画像に基づいたスタイルトランスファーを適用することができる。
図7は、本発明の実施形態の少なくとも一つに対応する、マスクを用いたスタイルトランスファーに用いられるニューラルネットワークN3の構造例を示す概念図である。
ニューラルネットワークN3は、複数の処理層P~Pを有する。また、ニューラルネットワークN3は残差ブロックRを有する。
処理層Pは図4および図5の第1変換層に相当する。処理層Pおよび処理層Pは図4および図5のダウンサンプリングを行う1以上の層に相当する。残差ブロックRは図4および図5の残差ブロック(Residual Blocks)層に相当する。処理層Pおよび処理層Pは図4および図5のアップサンプリングを行う層に相当する。図7のニューラルネットワークN3は、図4および図5に示した第2変換層をさらに有していてよい。
処理層Pは256×256×32のサイズを有する。処理層Pは128×128×64のサイズを有する。処理層Pは64×64×128のサイズを有する。処理層Pは、128×128×64のサイズを有する。処理層Pは256×256×32のサイズを有する。なお、処理層の数および処理層のサイズはあくまで一例である。
スタイルトランスファー部203は、入力画像とマスクとを処理層Pに入力する。処理層Pから処理層Pには、それぞれ、畳み込み処理(Convolution)と正規化処理(Normalization)とが含まれている。正規化処理の種類は、例えば図4に示した一般的なスタイルトランスファー等においては、Conditional Instance Normalizationが用いられる。マスクスタイルトランスファーにおいては、Masked Conditional Instance Normalizationが用いられる。Masked Conditional Instance Normalizationは、後述のMasked Normalizationと、後述のMasked Affine Transformとを含む。
基本的に、各処理層による処理後には特徴量データが抽出される。抽出された特徴量データは次の処理層に入力される。すなわち、処理層Pから抽出された特徴量データが処理層Pに入力される。処理層Pから抽出された特徴量データが処理層Pに入力される。処理層Pから抽出された特徴量データが処理層Pに入力される。処理層Pについては、処理層Pによる処理結果が残差ブロックRに入力される。残差ブロックRの出力が処理層Pに入力される。
各処理層P~Pにはマスクが入力される。処理層のサイズは処理層によって異なるので、マスクのサイズも処理層に応じて適合化される。例えば、処理層Pには、処理層Pに入力されたマスクを縮小させたマスクが入力される。処理層Pには、処理層Pに入力されたマスクを縮小させたマスクが入力される。マスクの縮小は、例えばバイリニア(Bilinear)法に基づいた縮小であってよい。
本実施の形態においては、処理層Pのサイズと処理層Pのサイズが同じであるため、処理層Pには処理層Pに入力されたマスクが入力される。同様に、処理層Pのサイズと処理層Pのサイズが同じであるため、処理層Pには処理層Pに入力されたマスクが入力される。
図8は、本発明の実施形態の少なくとも一つに対応する、スタイルトランスファーに用いられるマスクの例を示す概念図である。
例えば処理層Pに入力されるマスクは、入力画像のタテ256×ヨコ256と同様の、タテ256×ヨコ256のサイズを有する。マスクにはソフトマスクとハードマスクが含まれる。本実施の形態では、ソフトマスクが処理層Pに入力されたと仮定して説明する。また、スタイルトランスファー部203が入力画像の左半分をスタイルAにスタイル変換し、入力画像の右半分をスタイルBにスタイル変換する場合を例示して以下に説明を行う。スタイルAは、一以上のスタイル画像に対応するスタイルである。すなわち、スタイルAは、一つのスタイル画像(ゴッホ風等)に対応する場合もある一方、複数のスタイル画像(ゴッホ風の画像とモネ風の画像のブレンド等)に対応する場合もある。スタイルBは、一つのスタイル画像(ゴーギャン風等)に対応する場合もある一方、複数のスタイル画像(ゴーギャン風の画像とピカソ風の画像のブレンド等)に対応する場合もある。なお、入力画像を左右に2分割してスタイル変換を行う事は例示にすぎない。マスクが有する値をどのように設定するかによって、例えば上下2分割してのスタイルトランスファー、3分割以上の分割を行ってのスタイルトランスファー、または、入力画像におけるある領域において複数のスタイルが混ざるようなスタイルトランスファー等を、柔軟に行うことができる。
スタイルトランスファー部203が入力画像の左半分をスタイルAにスタイル変換し、入力画像の右半分をスタイルBにスタイル変換する場合、スタイルトランスファー部203は左半分と右半分とで異なる値を有するソフトマスクを処理層Pに入力する。
図8に示した例においては、ソフトマスクの左半分である第1列から第128列において、第1行の値がそれぞれ1であり、第256行の値がそれぞれ0.5である。第1列から第128列の第2行から第255行は、1から0.5へ向けて徐々に値が小さくなるような数値を有する。
図8に示した例においては、ソフトマスクの右半分である第129列から第256列において、第1行の値がそれぞれ0.49であり、第256行の値がそれぞれ0である。第129列から第256列の第2行から第255行は、0.49から0へ向けて徐々に値が小さくなるような数値を有する。
次に、ハードマスクについて説明する。ハードマスクは、各行各列の数値が0または1であるようなマスクである。例えば、ハードマスクの左半分である第1列~第128列においては値が全て1であり、右半分である第129列~第256列においては値が全て0であるようなハードマスクが考えられる。このハードマスクは、前述のソフトマスクにおける各行各列の数値をそれぞれ四捨五入することによって生成することができる。
図9は、本発明の実施形態の少なくとも一つに対応する、処理層で行われる正規化に用いられるパラメータの計算方法を例示する概念図である。図10は、本発明の実施形態の少なくとも一つに対応する、処理層で行われる正規化に用いられるパラメータの計算方法を例示する概念図である。図11は、本発明の実施形態の少なくとも一つに対応する、処理層で行われる正規化を例示する概念図である。図9から図11に基づいて、処理層で行われる正規化の例を説明する。なお、図11に示した正規化処理が、上述のMasked Normalizationに相当する。
処理層毎に、抽出される特徴量データのサイズは異なる(図7参照)。また、特徴量データのサイズは入力画像によっても変わり得る。ここでは、畳み込み(Convolution)後の128×128×64のサイズを有する特徴量を例示して、正規化について説明する。
入力画像の左半分に適用するスタイルAに対応するハードマスク(スタイルA用ハードマスク)は、図9に示したような、左半分の値が全て1であり、右半分の値がすべて0であるような、タテ128×ヨコ128のハードマスクである。スタイルA用ハードマスクは、図7および図8に示したソフトマスク(スタイルA用ソフトマスクと表記することがある)における各行各列の数値をそれぞれ四捨五入することによって生成することができる。
スタイルトランスファー部203は、畳み込み後のタテ128×ヨコ128の特徴量データに対して、上述のスタイルA用ハードマスクを適用する。マスクの適用方法は、例えばブーリアンマスク(boolean mask)であってよい。ただし、ブーリアンマスク以外のマスクの適用アルゴリズムを排除する意図はない。
スタイルトランスファー部203が特徴量データ(128×128)に対して、ブーリアンマスクによって上記のスタイルA用ハードマスクを適用すると、タテ128×ヨコ64のデータが得られる。これを言い換えると、元の特徴量のうち、スタイルA用ハードマスクにおける値が1となっている部分(左半分)に対応する部分のみが残る。スタイルトランスファー部203は、マスク適用後の特徴量データについての平均μ1と標準偏差σ1を算出する。
次に、入力画像の右半分に適用するスタイルBに対応するハードマスク(スタイルB用ハードマスク)は、図10に示したような、左半分の値が全て0であり、右半分の値がすべて1であるような、タテ128×ヨコ128のハードマスクである。スタイルB用ハードマスクは、上述のスタイルA用ハードマスクにおける左半分の値と右半分の値とを反転することによって生成することができる。なお、スタイルB用ハードマスクは、図7および図8に示したソフトマスク(スタイルA用ソフトマスク)における左半分の値と右半分の値とを反転することによってスタイルB用ソフトマスクを生成し、続いて、スタイルB用ソフトマスクにおける各行各列の数値をそれぞれ四捨五入することによって生成することもできる。ここで、スタイルA用ソフトマスクとスタイルB用ソフトマスクは、スタイルトランスファーを抑制する領域が異なる複数のマスクに該当する。スタイルA用ハードマスクとスタイルB用ハードマスクも、スタイルトランスファーを抑制する領域が異なる複数のマスクに該当する。
スタイルトランスファー部203は、畳み込み後のタテ128×ヨコ128の特徴量データに対して、上述のスタイルB用ハードマスクを適用する。マスクの適用方法は、例えばブーリアンマスク(boolean mask)であってよい。ただし、ブーリアンマスク以外のマスクの適用アルゴリズムを排除する意図はない。
スタイルトランスファー部203が特徴量データ(128×128)に対して、ブーリアンマスクによって上記のスタイルB用ハードマスクを適用すると、タテ128×ヨコ64のデータが得られる。これを言い換えると、元の特徴量のうち、スタイルB用ハードマスクにおける値が1となっている部分(右半分)に対応する部分のみが残る。スタイルトランスファー部203は、マスク適用後の特徴量データについての平均μ2と標準偏差σ2を算出する。
次に、図11を参照して説明する。スタイルトランスファー部203は、畳み込み後の特徴量データに対して、平均μ1と標準偏差σ1とを用いて正規化を行う。これにより、部分的に正規化された特徴量FV1が得られる。スタイルトランスファー部203は、部分的に正規化された特徴量FV1に対してスタイルA用ソフトマスクを適用する。このソフトマスクの適用により得られた特徴量を、特徴量FV1Aとする。なお、特徴量FV1に対してスタイルA用ソフトマスクを適用するアルゴリズムは、例えば同じ行および同じ列の値同士を乗算するものであってよい。具体例を挙げると、特徴量FV1の第2行第2列における値と、スタイルA用ソフトマスクの第2行第2列における値とを乗算した結果が、特徴量FV1Aの第2行第2列における値となる。
スタイルトランスファー部203は、畳み込み後の特徴量データに対して、平均μ2と標準偏差σ2とを用いて正規化を行う。これにより、部分的に正規化された特徴量FV2が得られる。スタイルトランスファー部203は、部分的に正規化された特徴量FV2に対してスタイルB用ソフトマスクを適用する。このソフトマスクの適用により得られた特徴量を、特徴量FV2Bとする。なお、特徴量FV2に対してスタイルB用ソフトマスクを適用するアルゴリズムは、例えば同じ行および同じ列の値同士を乗算するものであってよい。具体例を挙げると、特徴量FV2の第2行第2列における値と、スタイルB用ソフトマスクの第2行第2列における値とを乗算した結果が、特徴量FV2Bの第2行第2列における値となる。
スタイルトランスファー部203は、特徴量FV1Aと特徴量FV2Bとを加算する。これにより、タテ128×ヨコ128の、正規化された特徴量が得られる。なお、特徴量FV1Aと特徴量FV2Bとの加算は、例えば同じ行および同じ列の値同士を加算するものであってよい。具体例を挙げると、特徴量FV1Aの第2行第2列における値と、特徴量FV2Bの第2行第2列における値とを足した結果が、正規化された特徴量の第2行第2列における値となる。
図12は、本発明の実施形態の少なくとも一つに対応する、正規化後のアフィン変換処理を例示する概念図である。なお、図12に示したアフィン変換処理が、上述のMasked Affine Transformに相当する。
スタイルAについてのアフィン変換に用いられる2種類のパラメータをそれぞれβ1およびγ1とする。スタイルBについてのアフィン変換に用いられる2種類のパラメータをそれぞれβ2およびγ2とする。この例におけるβ1、β2、γ1、およびγ2はそれぞれ、128×128のサイズを有するデータである。
スタイルトランスファー部203は、β1およびγ1に対してスタイルA用ソフトマスクを適用する。これにより、新しいβ1と新しいγ1とが得られる。なお、スタイルA用ソフトマスクを適用するアルゴリズムは、例えば同じ行および同じ列の値同士を乗算するものであってよい。具体例を挙げると、β1の第2行第2列における値と、スタイルA用ソフトマスクの第2行第2列における値とを乗算した結果が、新しいβ1の第2行第2列における値となる。γ1対するスタイルA用ソフトマスクの適用についても同様である。
スタイルトランスファー部203は、β2およびγ2に対してスタイルB用ソフトマスクを適用する。これにより、新しいβ2と新しいγ2とが得られる。なお、スタイルB用ソフトマスクを適用するアルゴリズムは、例えば同じ行および同じ列の値同士を乗算するものであってよい。具体例を挙げると、β2の第2行第2列における値と、スタイルB用ソフトマスクの第2行第2列における値とを乗算した結果が、新しいβ2の第2行第2列における値となる。γ2対するスタイルB用ソフトマスクの適用についても同様である。
スタイルトランスファー部203は、β1とβ2とを加算したデータと、γ1とγ2とを加算したデータとをパラメータとして、正規化された特徴量(図11参照)に対してアフィン変換を行う。その結果、アフィン変換された特徴量が処理層から抽出される。
図13は、本発明の実施形態の少なくとも一つに対応する、マスクを用いたスタイルトランスファー処理を例示する概念図である。
犬が映り込んだ画像データを入力画像とする。M1は、画像データにおける一部の領域についてスタイルトランスファーを抑制するマスクである。マスクM1は、画像データにおける左端領域と右端領域についてのスタイル変換を抑制するためのマスクである。マスクM1の中央領域(黒色)は、1または1に近い値を有する。マスクM1の左端領域(白色)と右端領域(白色)は、0または0に近い値を有する。従って、例えば四捨五入を行ってマスクM1をハードマスクに変換した場合、ハードマスクの中央領域の値が1となり、左端領域および右端領域の値が0となる。
また、スタイルトランスファー部203は、マスクM1の値を反転させたマスクM2を生成する。例えば、マスクM1の座標(i,j)におけるピクセルの値をaijとし、マスクM2の座標(i,j)におけるピクセルの値をbijとした時に、スタイルトランスファー部203は、bij=1-aijを計算することにより、マスクM1の値を反転させたマスクM2を生成してよい。なお、マスクM1が例えば図11に示したスタイルA用ソフトマスクのような値を有するものであれば、スタイルトランスファー部203は左側領域(1から0.5)と右側領域(0.49から0)とを入れ替えることによりマスクM2を取得してもよい。すなわちスタイルトランスファー部203は、反転の対象となるマスクの態様に応じた反転処理(左右反転、上下反転、1-aijなど)を行う。マスクM2の中央領域(白色)は、0または0に近い値を有する。マスクM2の左端領域(黒色)と右端領域(黒色)は、1または1に近い値を有する。従って、例えば四捨五入を行ってマスクM2をハードマスクに変換した場合、ハードマスクの中央領域の値が0となり、左端領域および右端領域の値が1となる。
スタイルトランスファー部203は、マスクを用いて、画像データに対して一以上のスタイル画像に基づいたスタイルトランスファーを適用する。図13においてスタイルトランスファー部203は、マスクM1とマスクM2とを用いて、犬が映り込んだ画像データに対してスタイル画像A1、B1、およびB2に基づいたスタイルトランスファーを適用する。スタイルAは、スタイル画像A1単独で構成されるスタイルである。スタイルBは、スタイル画像B1およびスタイル画像B2をブレンドしたスタイルである。なお、図13は、マスクを用いたスタイルトランスファー処理を概念的に示すものである。そのため、図13に描かれているスタイル画像A1、B1およびB2は、出願人が実際に用いたスタイル画像ではない。説明の便宜上、各スタイル画像A1、B1およびB2の近傍に、斜線領域、横線領域、および縦線領域をそれぞれ示す3つの矩形が記載されている。斜線領域、横線領域、および縦線領域をそれぞれ示す3つの矩形は、各スタイル画像A1、B1およびB2が出力画像のどこにどの程度適用されるかを例示するために記載されている。マスクM1は、スタイルA用ソフトマスクに該当する。マスクM2は、スタイルB用ソフトマスクに該当する。
スタイルトランスファーが適用された後の出力画像は、中央領域がスタイルAに、左端領域と右端領域とがスタイルBにそれぞれスタイルトランスファーされたものになる。
なお、マスクM1およびマスクM2が有する値は、0から1の間の連続値である。そのため、出力画像の一部の領域(中央領域と端領域との境目付近)において、1回の計算によってスタイルAとスタイルBとが単に平均化されるのではなくきれいに混ざり合う。図13には、出力画像のスタイル適用範囲を示す矩形が、出力画像の近傍に記載されている。出力画像の中央領域と端領域との境目付近では、斜線領域(スタイル画像A1に対応)と、横線領域(スタイル画像B1に対応)と、縦線領域(スタイル画像B2に対応)とが混ざり合うように適用されている。仮に、ハードマスクをマスクM1およびマスクM2として用いた場合は、出力画像において、スタイルAとスタイルBとが混ざり合わず、領域毎にスタイルを分けてスタイルトランスファーが行われることになる。
図14は、本発明の実施形態の少なくとも一つに対応する、マスクを用いたスタイルトランスファー処理を例示する概念図である。
犬が映り込んだ画像データを入力画像とする。スタイルトランスファー部203は、画像データにおける一部の領域についてスタイルトランスファーを抑制するためのマスクM3を取得する。図14には、画像データにおける犬に相当する領域についてスタイルトランスファーを抑制するためのマスクM3が例示されている。マスクM3の犬以外の部分に相当する領域(黒色)の値は1である。マスクM3の犬に相当する領域(白色)の値は0である。
また、スタイルトランスファー部203は、マスクM3の値を反転させたマスクM4を取得する。例えば、マスクM3の座標(i,j)におけるピクセルの値をcijとし、マスクM4の座標(i,j)におけるピクセルの値をdijとした時に、スタイルトランスファー部203は、dij=1-cijを計算することにより、マスクM3の値を反転させたマスクM4を生成してよい。なお、マスクM3が例えば図10に示したスタイルA用ハードマスクのような値を有するものであれば、スタイルトランスファー部203は左側領域(値は1)と右側領域(値は0)とを入れ替えることによりマスクM4を取得してもよい。スタイルトランスファー部203は、反転の対象となるマスクの態様に応じた反転処理(左右反転、上下反転、1-cijなど)を行う。マスクM4の犬以外の部分に相当する領域(白色)の値は0である。マスクM4の犬に相当する領域(黒色)の値は1である。
スタイルトランスファー部203は、マスクを用いて、画像データに対して一以上のスタイル画像に基づいたスタイルトランスファーを適用する。図14においてスタイルトランスファー部203は、マスクM3とマスクM4とを用いて、犬が映り込んだ画像データに対してスタイル画像C1、C2、およびD1に基づいたスタイルトランスファーを適用する。スタイルCは、スタイル画像C1およびスタイル画像C2をブレンドしたスタイルである。スタイルDは、スタイル画像D1単独で構成されるスタイルである。なお、図14は、マスクを用いたスタイルトランスファー処理を概念的に示すものである。そのため、図14に描かれているスタイル画像C1、C2およびD1は、出願人が実際に用いたスタイル画像ではない。説明の便宜上、各スタイル画像C1、C2およびD1の近傍に、横線領域、縦線領域、および斜線領域をそれぞれ示す3つの矩形が記載されている。横線領域、縦線領域、および斜線領域をそれぞれ示す3つの矩形は、各スタイル画像C1、C2およびD1が出力画像のどこにどの程度適用されるかを例示するために記載されている。マスクM3は、スタイルC用ハードマスクに該当する。マスクM4は、スタイルD用ハードマスクに該当する。
スタイルトランスファーが適用された後の出力データは、犬以外の部分に相当する領域がスタイルCに、犬に相当する領域がスタイルDにそれぞれスタイルトランスファーされた出力画像となる。
マスクM3およびマスクM4が有する値は、0または1である。すなわち、マスクM3およびマスクM4はハードマスクである。そのため、出力画像において、スタイルCとスタイルDとが混ざり合わず、犬と犬以外の領域とにスタイルを分けて1回の計算によってスタイルトランスファーが行われることになる。図14には、出力画像のスタイル適用範囲を示す矩形が、出力画像の近傍に記載されている。出力画像における犬に相当する領域では、斜線領域(スタイル画像D1に対応)が適用されている。出力画像における犬以外の部分に相当する領域では、横線領域(スタイル画像C1に対応)と縦線領域(スタイル画像C2に対応)とが適用されている。
なお、画像データの領域を3分割以上に分割して、それぞれ異なるスタイルを適用したい場合にも、マスクを用いることができる。図15は、本発明の実施形態の少なくとも一つに対応する、画像データを3つの領域に分けてそれぞれ異なるスタイルを適用したい場合のマスクを例示する概念図である。
3つのマスクMA、MB、およびMCを用意する。例えば、マスクMAは、左側三分の一の領域が1の値を有し、それ以外の領域が0の値を有する。マスクMBは、中央部分の領域が1の値を有し、左側三分の一の領域と右側三分の一の領域とが0の値を有する。マスクMCは、右側三分の一の領域が1の値を有し、それ以外の領域が0の値を有する。ただし、左側、中央、右側の3つの分割は、厳密な三等分でなくともよい。実際、128ピクセルや256ピクセルは3で割り切れない。マスクMAはスタイルAに、マスクMBはスタイルBに、マスクMCはスタイルCに、それぞれ対応しているものとする。また、スタイルA、スタイルBおよびスタイルCは、それぞれ異なる一以上のスタイル画像に基づいたスタイルであるとする。
図9および図10に基づいて説明したのと同様に、スタイルトランスファー部203は、畳み込み後の特徴量データに対してハードマスクを適用した後、平均と標準偏差を算出する。マスクMAに対応する平均および標準偏差を、それぞれμ1およびσ1とする。マスクMBに対応する平均および標準偏差を、それぞれμ2およびσ2とする。マスクMCに対応する平均および標準偏差を、それぞれμ3およびσ3とする。
図16は、本発明の実施形態の少なくとも一つに対応する、処理層で行われる正規化を例示する概念図である。図11に基づいて説明したのと同様に、スタイルトランスファー部203は、畳み込み後の特徴量データに対して、平均μ1と標準偏差σ1とを用いて正規化を行う。これにより、部分的に正規化された特徴量FV1が得られる。スタイルトランスファー部203は、部分的に正規化された特徴量FV1に対してマスクMAを適用する。このマスクMAの適用により得られた特徴量を、特徴量FV1Aとする。なお、特徴量FV1に対してマスクMAを適用するアルゴリズムは、例えば同じ行および同じ列の値同士を乗算するものであってよい。具体例を挙げると、特徴量FV1の第2行第2列における値と、マスクMAの第2行第2列における値とを乗算した結果が、特徴量FV1Aの第2行第2列における値となる。
スタイルトランスファー部203は、畳み込み後の特徴量データに対して、平均μ2と標準偏差σ2とを用いて正規化を行う。これにより、部分的に正規化された特徴量FV2が得られる。スタイルトランスファー部203は、部分的に正規化された特徴量FV2に対してマスクMBを適用する。このマスクMBの適用により得られた特徴量を、特徴量FV2Bとする。なお、特徴量FV2に対してマスクMBを適用するアルゴリズムは、例えば同じ行および同じ列の値同士を乗算するものであってよい。具体例を挙げると、特徴量FV2の第2行第2列における値と、マスクMBの第2行第2列における値とを乗算した結果が、特徴量FV2Bの第2行第2列における値となる。
スタイルトランスファー部203は、畳み込み後の特徴量データに対して、平均μ3と標準偏差σ3とを用いて正規化を行う。これにより、部分的に正規化された特徴量FV3が得られる。スタイルトランスファー部203は、部分的に正規化された特徴量FV3に対してマスクMCを適用する。このマスクMCの適用により得られた特徴量を、特徴量FV3Cとする。なお、特徴量FV3に対してマスクMCを適用するアルゴリズムは、例えば同じ行および同じ列の値同士を乗算するものであってよい。具体例を挙げると、特徴量FV3の第2行第2列における値と、マスクMCの第2行第2列における値とを乗算した結果が、特徴量FV3Cの第2行第2列における値となる。
スタイルトランスファー部203は、特徴量FV1Aと特徴量FV2Bと特徴量FV3Cとを加算する。これにより、タテ128×ヨコ128の、正規化された特徴量が得られる。なお、特徴量FV1Aと特徴量FV2Bと特徴量FV3Cの加算は、例えば同じ行および同じ列の値同士を加算するものであってよい。具体例を挙げると、特徴量FV1Aの第2行第2列における値と、特徴量FV2Bの第2行第2列における値と、特徴量FV3Cの第2行第2列における値とを足した結果が、正規化された特徴量の第2行第2列における値となる。
図17は、本発明の実施形態の少なくとも一つに対応する、正規化後のアフィン変換処理を例示する概念図である。
スタイルAについてのアフィン変換に用いられる2種類のパラメータをそれぞれβ1およびγ1とする。スタイルBについてのアフィン変換に用いられる2種類のパラメータをそれぞれβ2およびγ2とする。スタイルCについてのアフィン変換に用いられる2種類のパラメータをそれぞれβ3およびγ3とする。この例におけるβ1、β2、β3、γ1、γ2、およびγ3はそれぞれ、128×128のサイズを有するデータである。
スタイルトランスファー部203は、β1およびγ1に対してマスクMAを適用する。これにより、新しいβ1と新しいγ1とが得られる。スタイルトランスファー部203は、β2およびγ2に対してマスクMBを適用する。これにより、新しいβ2と新しいγ2とが得られる。スタイルトランスファー部203は、β3およびγ3に対してマスクMCを適用する。これにより、新しいβ3と新しいγ3とが得られる。なお、マスクMA、MB、またはMCを適用するアルゴリズムは、例えば同じ行および同じ列の値同士を乗算するものであってよい。
スタイルトランスファー部203は、β1とβ2とβ3を加算したデータと、γ1とγ2とγ3を加算したデータとをパラメータとして、正規化された特徴量(図16参照)に対してアフィン変換を行う。その結果、アフィン変換された特徴量が処理層から抽出される。
スタイルトランスファー部203は例えば、入力画像と、マスクMA、MBおよびMCとを、図7に示したニューラルネットワークN3に入力する。これにより、左端、中央、右端の3つの領域のそれぞれに異なるスタイルに基づいたスタイルトランスファーが行われた出力画像が、学習済みニューラルネットワークから出力される。
(応用例1)
図18は、本発明の実施形態の少なくとも一つに対応する、スタイルトランスファー前の画像を例示する概念図である。図19は、本発明の実施形態の少なくとも一つに対応する、スタイルトランスファー後の画像をユーザ端末に出力した状態を例示する概念図である。
図18の例では、ユーザはビルディングの高層階に居る。ユーザがユーザ端末20Zを操作して、窓の外の景色をユーザ端末20Zが備えるカメラによって撮像したとする。撮像された画像が、スタイルトランスファーの適用対象となる。
図3のステップSt11において距離推定部201は、画像に含まれる対象までの距離を推定する。本例における対象は、ビルディングに設けられた窓Wである。すなわち距離推定部201は、ユーザ端末20Zが備えるカメラから窓Wまでの距離を推定する。
ステップSt12において領域画定部202は、推定された距離に基づいて、画像から一以上の領域を画定する。本例における領域とは、画像において、窓Wよりも所定の距離以上遠くにある部分、すなわち窓Wに映った景色の部分であってよい。
ステップSt13においてスタイルトランスファー部203は、画像中の領域に対してスタイルトランスファーを行う。より詳しくは、画定された領域の形状に対応するマスクをスタイルトランスファー部203が生成し、生成されたマスクを用いて、画像中の領域に対してスタイルトランスファーを適用する。
スタイル画像として例えばビデオゲームに登場した街並みの画像を用いると、現実世界にあるビルディングから見た外の景色は、スタイルトランスファーの適用後の出力画像においては、図19に例示したように、ビデオゲームに登場した街並み風にスタイル変換される。一方、出力画像における、ビルディングの窓Wよりも内側の部分に対応する領域については、スタイル変換が行われず、元の現実世界の画像のままとなる。
(応用例2)
図20は、本発明の実施形態の少なくとも一つに対応する、スタイルトランスファー前の画像を例示する概念図である。図21は、本発明の実施形態の少なくとも一つに対応する、スタイルトランスファー後の画像をユーザ端末に出力した状態を例示する概念図である。
図20の例では、ユーザはタワーTの手前に居る。ユーザはユーザ端末20Zを操作して、ユーザ端末20Zが備えるカメラによる撮像を行う。撮像された画像が、スタイルトランスファーの適用対象となる。
図3のステップSt11において距離推定部201は、画像に含まれる対象までの距離を推定する。本例における対象は、タワーTである。すなわち距離推定部201は、ユーザ端末20Zが備えるカメラからタワーTまでの距離を推定する。
ステップSt12において領域画定部202は、推定された距離に基づいて、画像から一以上の領域を画定する。本例における領域とは、画像において、タワーTよりも所定の距離以上遠くにある部分、すなわちタワーTの部分と、タワーTを前景とした場合の背景の部分とであってよい。
ステップSt13においてスタイルトランスファー部203は、画像中の領域に対してスタイルトランスファーを行う。より詳しくは、画定された領域の形状に対応するマスクをスタイルトランスファー部203が生成し、生成されたマスクを用いて、画像中の領域に対してスタイルトランスファーを適用する。
スタイルトランスファーの適用後の出力画像においては、図21に例示したように、タワーTとタワーTの背景とが、スタイル画像に基づいてスタイル変換される。一方、出力画像における、タワーTよりも手前側の部分に対応する領域については、スタイル変換が行われず、元の現実世界の画像のままとなる。
ここで、AR出力として、仮想的なオブジェクトOBJを画像に重畳して出力する場合がある。オブジェクトOBJを画像に単に重畳させた場合、出力画像には全体的に現実世界の景色や物体が映り込み、仮想的なオブジェクトOBJが追加的に映り込むものとなるので、ユーザに違和感を生じさせる可能性がある。
そこで本開示の実施形態によれば、スタイルトランスファー部203は、画像に重畳されるオブジェクトに対してもスタイルトランスファーを行う。すなわちスタイルトランスファー部203は、前述の領域とオブジェクトの双方に対してスタイルトランスファーを行う。領域とオブジェクトの双方について、スタイルトランスファーを適用して表現の方向性を揃えることにより、上記の違和感を軽減することができる。
なお、オブジェクトに対するスタイルトランスファーに用いられる一以上のスタイル画像は、領域に対するスタイルトランスファーに用いられる一以上のスタイル画像と対応する画像であってよい。
例えばスタイル画像Aとスタイル画像Bとがある場合、スタイル画像Bがスタイル画像Aに対応するとは、両者が例えば以下のような関係であることを意味する。
・スタイル画像Aとスタイル画像Bとが同一の画像である。
・スタイル画像Aとスタイル画像Bとが類似している。
・スタイル画像Aのスタイルとスタイル画像Bのスタイルとが同一である。
・スタイル画像Aのスタイルとスタイル画像Bのスタイルとが類似している。
図22は、本発明の実施形態の少なくとも一つに対応するスタイル変換プログラムの処理例を示すフローチャートである。
距離推定部201は、画像に含まれる対象までの距離を推定する(St31)。画像合成部206は、画像にオブジェクトOBJを合成して合成画像を取得する(St32)。領域画定部202は、推定された距離に基づいて、合成画像から一以上の領域を画定する(St33)。スタイルトランスファー部203は、合成画像中の領域に対してスタイルトランスファーを行う(St34)。
ステップSt34においては、スタイルトランスファーの種類としてマスクスタイルトランスファーを用いる。マスクスタイルトランスファーを用いれば、マスクの値を適宜設定することにより、画像を分割等せずとも、例えば画像の一部の領域のみにスタイルトランスファーを適用することなどができる。そのため、AR出力の対象である仮想的なオブジェクトOBJを画像に合成した後であっても、合成画像に対して所望のスタイル変換を行うことができる。
本発明の実施形態の一側面として、表現力に富む画像を出力することができる。
本発明の実施形態の一側面として、モデルを用いて対象までの距離を精確に推定することができる。
本発明の実施形態の一側面として、マスクスタイルトランスファーによって、領域毎に異なるスタイル変換を行うことができる。
本発明の実施形態の一側面として、画像に仮想的なオブジェクトを重畳する際に、領域とオブジェクトの双方にスタイルトランスファーを適用して表現の方向性を揃えることにより、違和感を軽減することができる。
以上に説明したように、本願の各実施形態により1または2以上の不足が解決される。なお、夫々の実施形態による効果は、非限定的な効果または効果の一例である。
上述した各実施形態では、ユーザ端末20およびサーバ10は、自己が備える記憶装置に記憶されている各種制御プログラム(例えば、スタイル変換プログラム)に従って、上述した各種の処理を実行する。また、ユーザ端末20やサーバ10に限られない他のコンピュータが、自己が備える記憶装置に記憶されている各種制御プログラム(例えば、スタイル変換プログラム)に従って、上述した各種の処理を実行してもよい。
また、画像処理システム100の構成は、上述した実施形態の例として説明した構成に限定されない。例えばユーザ端末20が実行する処理として説明した処理の一部または全部をサーバ10が実行する構成としてもよいし、サーバ10が実行する処理として説明した処理の一部または全部をユーザ端末20が実行する構成としてもよい。また、サーバ10が備える記憶部(記憶装置)の一部または全部をユーザ端末20が備える構成としてもよい。すなわち、画像処理システム100における、ユーザ端末とサーバのどちらか一方が備える機能の一部または全部を、他の一方が備える構成とされていてもよい。
また、プログラムが、上述した各実施形態の例として説明した機能の一部または全部を、通信ネットワークを含まない装置単体に実現させる構成としてもよい。
[付記]
上述した実施形態の説明は、少なくとも下記発明を、当該発明の属する分野における通常の知識を有する者がその実施をすることができるように記載した。
[1]
プロセッサに、
画像に含まれる対象までの距離を推定する距離推定機能と、
推定された前記距離に基づいて、前記画像から一以上の領域を画定する領域画定機能と、
画像中の領域に対してスタイルトランスファーを行う、スタイルトランスファー機能とを、
実現させる、スタイル変換プログラム。
[2]
前記プロセッサに、
前記対象と対応するモデルを特定するモデル特定機能をさらに実現させ、
前記距離推定機能では、特定された前記モデルに基づいて前記対象までの距離を推定する、
[1]に記載のスタイル変換プログラム。
[3]
前記スタイルトランスファー機能では、前記画像中の領域の形状に対応したマスクを用いてスタイルトランスファーを行う、
[1]に記載のスタイル変換プログラム。
[4]
前記スタイルトランスファー機能では、前記画像に重畳されるオブジェクトに対してもスタイルトランスファーを行う、
[1]から[3]のうちいずれか一項に記載のスタイル変換プログラム。
[5]
プロセッサとメモリとを備え、
前記プロセッサは、前記メモリと協働して、
画像に含まれる対象までの距離を推定する距離推定機能と、
推定された前記距離に基づいて、前記画像から一以上の領域を画定する領域画定機能と、
画像中の領域に対してスタイルトランスファーを行う、スタイルトランスファー機能とを
実現する、スタイル変換装置。
[6]
プロセッサとメモリとを備えるコンピュータ装置によるスタイル変換方法であって、
画像に含まれる対象までの距離を推定する距離推定処理と、
推定された前記距離に基づいて、前記画像から一以上の領域を画定する領域画定処理と、
画像中の領域に対してスタイルトランスファーを行う、スタイルトランスファー処理と、を含む、
スタイル変換方法。
本発明の実施形態の一つによれば、入力画像に基づいて、表現力に富む画像を出力できるスタイル変換プログラム、スタイル変換装置、およびスタイル変換方法として有用である。
10 サーバ
11、21 プロセッサ
12、22 メモリ
13、23 記憶装置
20、20A、20B、20Z ユーザ端末
30 通信ネットワーク
100 画像処理システム
201 距離推定部
202 領域画定部
203 スタイルトランスファー部
204 モデル特定部
205 画像出力部

Claims (6)

  1. プロセッサに、
    画像に含まれる対象までの距離を推定する距離推定機能と、
    推定された前記距離に基づいて、前記画像から一以上の領域を画定する領域画定機能と、
    画像中の領域に対してスタイルトランスファーを行う、スタイルトランスファー機能とを、
    実現させる、スタイル変換プログラム。
  2. 前記プロセッサに、
    前記対象と対応するモデルを特定するモデル特定機能をさらに実現させ、
    前記距離推定機能では、特定された前記モデルに基づいて前記対象までの距離を推定する、
    請求項1に記載のスタイル変換プログラム。
  3. 前記スタイルトランスファー機能では、前記画像中の領域の形状に対応したマスクを用いてスタイルトランスファーを行う、
    請求項1に記載のスタイル変換プログラム。
  4. 前記スタイルトランスファー機能では、前記画像に重畳されるオブジェクトに対してもスタイルトランスファーを行う、
    請求項1から請求項3のうちいずれか一項に記載のスタイル変換プログラム。
  5. プロセッサとメモリとを備え、
    前記プロセッサは、前記メモリと協働して、
    画像に含まれる対象までの距離を推定する距離推定機能と、
    推定された前記距離に基づいて、前記画像から一以上の領域を画定する領域画定機能と、
    画像中の領域に対してスタイルトランスファーを行う、スタイルトランスファー機能とを
    実現する、スタイル変換装置。
  6. プロセッサとメモリとを備えるコンピュータ装置によるスタイル変換方法であって、
    画像に含まれる対象までの距離を推定する距離推定処理と、
    推定された前記距離に基づいて、前記画像から一以上の領域を画定する領域画定処理と、
    画像中の領域に対してスタイルトランスファーを行う、スタイルトランスファー処理と、を含む、
    スタイル変換方法。

JP2022083446A 2022-05-20 2022-05-20 スタイル変換プログラム、スタイル変換装置、およびスタイル変換方法 Pending JP2023171165A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022083446A JP2023171165A (ja) 2022-05-20 2022-05-20 スタイル変換プログラム、スタイル変換装置、およびスタイル変換方法
US18/320,062 US20230377230A1 (en) 2022-05-20 2023-05-18 Style transfer program, style transfer device, and style transfer method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022083446A JP2023171165A (ja) 2022-05-20 2022-05-20 スタイル変換プログラム、スタイル変換装置、およびスタイル変換方法

Publications (1)

Publication Number Publication Date
JP2023171165A true JP2023171165A (ja) 2023-12-01

Family

ID=88791830

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022083446A Pending JP2023171165A (ja) 2022-05-20 2022-05-20 スタイル変換プログラム、スタイル変換装置、およびスタイル変換方法

Country Status (2)

Country Link
US (1) US20230377230A1 (ja)
JP (1) JP2023171165A (ja)

Also Published As

Publication number Publication date
US20230377230A1 (en) 2023-11-23

Similar Documents

Publication Publication Date Title
TWI752494B (zh) 虛擬對象的變形處理方法、裝置、設備及儲存媒體
TWI748432B (zh) 三維局部人體模型的生成方法、裝置、設備及電腦可讀儲存介質
CN109151540B (zh) 视频图像的交互处理方法及装置
CN112288665B (zh) 图像融合的方法、装置、存储介质及电子设备
CN107452049B (zh) 一种三维头部建模方法及装置
JP6978542B2 (ja) 電子装置及びその制御方法
WO2020073758A1 (en) Method and apparatus for training machine learning modle, apparatus for video style transfer
WO2006057267A1 (ja) 顔画像合成方法および顔画像合成装置
CN112233212A (zh) 人像编辑与合成
JP7383714B2 (ja) 動物顔部の画像処理方法と装置
CN110322571B (zh) 一种页面处理方法、装置及介质
JPWO2008015978A1 (ja) 映像表示装置および映像表示方法
CN114202615A (zh) 人脸表情的重建方法、装置、设备和存储介质
CN115330980A (zh) 表情迁移方法、装置、电子设备及存储介质
JP2017111719A (ja) 映像処理装置、映像処理方法、及び映像処理プログラム
CN115393480A (zh) 基于动态神经纹理的说话人合成方法、装置和存储介质
US20210407153A1 (en) High-resolution controllable face aging with spatially-aware conditional gans
JP2010170184A (ja) 顔画像における特徴部位の位置の特定
JP3231029B2 (ja) レンダリング方法及び装置、ゲーム装置、並びに立体モデルをレンダリングするためのプログラムを格納したコンピュータ読み取り可能な記録媒体
JP2023171165A (ja) スタイル変換プログラム、スタイル変換装置、およびスタイル変換方法
WO2020155984A1 (zh) 人脸表情图像处理方法、装置和电子设备
CN113610864B (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
WO2022183723A1 (zh) 特效控制方法及装置
JP2023019221A (ja) スタイルトランスファープログラムおよびスタイルトランスファー方法
JP3910259B2 (ja) 画像処理装置および方法、並びにレンダリング装置および方法