JP2021135822A

JP2021135822A - 画像生成方法、システム、および、コンピュータプログラム

Info

Publication number: JP2021135822A
Application number: JP2020032353A
Authority: JP
Inventors: 航平渡邉; Kohei Watanabe
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2021-09-13
Anticipated expiration: 2040-02-27
Also published as: JP7448879B2

Abstract

【課題】柔軟なスタイル変換を実現する。【解決手段】システムは、入力画像の一部である第１入力部分画像と、入力画像の一部である第２入力部分画像と、を特定し、第１入力部分画像を示す第１部分画像データに対して、機械学習モデルを用いた第１スタイル変換処理を実行して、第１変換済部分画像を示す第１変換済データを生成し、第２入力部分画像を示す第２部分画像データに対して、機械学習モデルを用いた第２スタイル変換処理を実行して、第２変換済部分画像を示す第２変換済データを生成する。システムは、第１変換済データと第２変換済データとを用いて、入力画像に基づく出力画像を示す出力画像データを生成する。出力画像は第１入力部分画像に対応する第１出力部分画像と第２入力部分画像に対応する第２出力部分画像とを含む。第１出力部分画像は第１変換済部分画像に基づく画像であり、第２出力部分画像は第２変換済部分画像に基づく画像である。【選択図】図６

Description

本明細書は、機械学習モデルを用いたスタイル変換処理を含む画像データの生成技術に関する。

ニューラルネットワークなどを用い画像生成モデルを用いて画像のスタイルを変換する技術が知られている。例えば、特許文献１に記載された画像形成装置は、変換元の画像を示す画像データと、スタイル参照用の画像を示す画像データと、が入力されると、変換後の画像を示す画像データを出力する。変換後の画像は、変換元の画像のコンテンツに、スタイル参照用の画像のスタイルが適用された画像である。

特開２０１８−１３２８５５号公報特開２０１１−１９７９９５号公報特開２００４−２１３５９８号公報

しかしながら、上記技術では、１個の変換元の画像には、スタイル参照用の画像の１個のスタイルが適用されるに過ぎないために、柔軟なスタイル変換ができない可能性があった。

本明細書は、柔軟なスタイル変換を実現可能な技術を開示する。

本明細書に開示された技術は、以下の適用例として実現することが可能である。

［適用例１］入力画像を示す入力画像データを取得する画像取得工程と、前記入力画像データを用いて、前記入力画像の一部である第１入力部分画像と、前記入力画像の一部であって前記第１入力部分画像とは異なる位置にある第２入力部分画像と、を特定する部分画像特定工程と、前記第１入力部分画像を示す第１部分画像データに対して、機械学習モデルを用いた第１スタイル変換処理を実行して、第１変換済部分画像を示す第１変換済データを生成する第１変換工程と、前記第２入力部分画像を示す第２部分画像データに対して、機械学習モデルを用いた第２スタイル変換処理であって前記第１スタイル変換処理とは異なる前記第２スタイル変換処理を実行して、第２変換済部分画像を示す第２変換済データを生成する第２変換工程と、第１変換済データと前記第２変換済データとを用いて、前記入力画像に基づく出力画像を示す出力画像データを生成する出力画像生成工程であって、前記出力画像は前記第１入力部分画像に対応する第１出力部分画像と前記第２入力部分画像に対応する第２出力部分画像とを含み、前記第１出力部分画像は前記第１変換済部分画像に基づく画像であり、前記第２出力部分画像は前記第２変換済部分画像に基づく画像である、前記出力画像生成工程と、を備える画像生成方法。

上記構成によれば、第１入力部分画像を示す第１部分画像データに対して第１スタイル変換処理を実行して生成される第１変換済データと、第２入力部分画像を示す第２部分画像データに対して第２スタイル変換処理を実行して生成される第２変換済データと、を用いて、入力画像に基づく出力画像を示す出力画像データが生成される。出力画像は、第１変換済データによって示される第１変換済部分画像に基づく第１出力部分画像と、第２変換済データによって示される第２変換済部分画像に基づく第２出力部分画像と、を含む。このように、１個の入力画像データに対して第１スタイル変換処理と第２スタイル変換処理とを適用することで出力画像データを生成するので、柔軟なスタイル変換を実現することができる。

なお、本明細書に開示された技術は、種々の形態で実現可能であり、例えば、システム、画像生成装置、これらの方法、装置、システムの機能を実現するためのコンピュータプログラム、そのコンピュータプログラムを記録した記録媒体、等の形態で実現することができる。

本実施例のシステム１０００の構成を示すブロック図。生成ネットワーク群ＧＮＧの構成の説明図。第１実施例の端末装置２００が実行する処理のフローチャート。入力画像Ｉｉｎと出力画像Ｉｏｕｔとの一例を示す図。選択画面の一例を示す図。第１実施例のサーバ１００が実行する処理のフローチャート。端末装置２００が実行する処理のフローチャート。第２実施例の選択画面ＵＤを示す図。第２実施例のサーバ１００が実行する処理のフローチャート。

Ａ．第１実施例
Ａ−１．システム１０００の構成
次に、実施の形態を実施例に基づき説明する。図１は、本実施例のシステム１０００の構成を示すブロック図である。システム１０００は、サーバ１００と、端末装置２００と、を備えている。第１実施例のシステム１０００は、入力画像データを用いて、出力画像を示す出力画像データを生成するための画像生成システムである。図１で破線で示すミシン３００は、第２実施例のシステムが備える構成要素であり、第１実施例のシステムが備える構成要素ではないので、第２実施例において説明する。

サーバ１００は、インターネットＩＴに接続された計算機である。サーバ１００は、サーバ１００のコントローラとしてのＣＰＵ１１０と、ＲＡＭなどの揮発性記憶装置１２０と、ハードディスクドライブやフラッシュメモリなどの不揮発性記憶装置１３０と、通信インタフェース（ＩＦ）１６０と、を備えている。通信インタフェース１６０は、インターネットＩＴと接続するための有線または無線のインタフェースである。

揮発性記憶装置１２０は、ＣＰＵ１１０が処理を行う際に生成される種々の中間データを一時的に格納するバッファ領域を提供する。不揮発性記憶装置１３０には、コンピュータプログラムＰＧｓと、スタイル画像データ群ＳＤＧ（後述）と、肌色データ群ＳＫＧ（後述）と、が格納されている。

コンピュータプログラムＰＧｓとスタイル画像データ群ＳＤＧと肌色データ群ＳＫＧとは、例えば、サーバ１００の運用者によって提供され、サーバ１００にアップロードされる。ＣＰＵ１１０は、コンピュータプログラムＰＧｓを実行することにより、端末装置２００と協働して、後述する出力画像を生成する処理を実行する。

コンピュータプログラムＰＧｓは、後述する複数個の生成ネットワークＧＮを含む生成ネットワーク群ＧＮＧをＣＰＵ１１０に実現させるコンピュータプログラムをモジュールとして含んでいる。

端末装置２００は、例えば、スマートフォンなどの携帯型の端末装置である。端末装置２００は、端末装置２００のコントローラとしてのプロセッサであるＣＰＵ２１０と、ハードディスクドライブやフラッシュメモリなどの不揮発性記憶装置２２０と、ＲＡＭなどの揮発性記憶装置２３０と、ユーザの操作を受け取るタッチパネルなどの操作部２４０と、タッチパネルと重畳された液晶ディスプレイなどの表示装置２５０と、外部機器と通信を行うための無線の通信インタフェース２６０と、を備えている。端末装置２００は、無線ネットワークＮＷとインターネットＩＴとを介して、サーバ１００と通信可能に接続されている。

端末装置２００の不揮発性記憶装置２２０には、コンピュータプログラムＰＧｔが格納されている。コンピュータプログラムＰＧｔは、上述したサーバ１００の運用者によって提供され、例えば、インターネットＩＴを介して端末装置２００に接続された所定のサーバからダウンロードされる形態で提供される。ＣＰＵ２１０は、コンピュータプログラムＰＧｔを実行することにより、サーバ１００と協働して、後述する出力画像を生成する処理を実行する。

Ａ−２．生成ネットワーク群の構成
図２は、生成ネットワーク群ＧＮＧの構成の説明図である。生成ネットワーク群ＧＮＧは、図２（Ａ）のブロック図に示すように、４個の生成ネットワークＧＮ１〜ＧＮ４を含んでいる。なお、破線で示す２個の生成ネットワークＧＮ４、ＧＮ５は、第２実施例において備えられるので、第２実施例にて説明する。

４個の生成ネットワークＧＮ１〜ＧＮ４は、それぞれ、図２（Ｂ）に生成ネットワークＧＮとして示す構成を有している。生成ネットワークＧＮは、スタイル変換を行う機械学習モデルである。本実施例では、生成ネットワークＧＮは、論文「Xun Huang and Serge Belongie. Arbitrary style transfer in real-time with adaptive instance normalization. In ICCV, 2017.」に開示されている機械学習モデルである。

生成ネットワークＧＮには、コンテンツ画像データＣＤとスタイル画像データＳＤとから成るデータペアが入力される。コンテンツ画像データＣＤは、コンテンツ画像を示す画像データである。例えば、目用の生成ネットワークＧＮ１では、コンテンツ画像は、人物の目を示す画像（後述）である。スタイル画像データＳＤは、スタイル画像を示す画像データである。例えば、目用の生成ネットワークＧＮ１では、スタイル画像は、人物の目を示す画像であり、コンテンツ画像とは異なるスタイル（例えば、目の色調やメイクの特徴）を有する画像である。

生成ネットワークＧＮは、データペアが入力されると、データペアに対して複数個のパラメータを用いた演算を実行して、変換済画像データＴＤを生成し、出力する。変換済画像データＴＤは、コンテンツ画像に対してスタイル画像のスタイルを適用して得られる変換済画像を示すデータである。例えば、変換済画像は、コンテンツ画像の形状（例えば、目の形状）を維持しつつ、スタイル画像のスタイルを有する画像である。

本実施例では、コンテンツ画像データＣＤ、スタイル画像データＳＤ、および、変換済画像データＴＤは、複数個の画素を含む画像を示すビットマップデータであり、具体的には、ＲＧＢ値によって画素ごとの色を表すＲＧＢ画像データである。ＲＧＢ値は、３個の色成分の階調値（以下、成分値とも呼ぶ）、すなわち、Ｒ値、Ｇ値、Ｂ値を含むＲＧＢ表色系の色値である。これらの画像データＣＤ、ＳＤ、ＴＤによって示される画像のサイズは、互いに等しく、例えば、縦２５６画素×横２５６画素のサイズである。

図２（Ｂ）に示すように、生成ネットワークＧＮは、エンコーダＥＣと、特徴結合部ＣＣと、強度調整部ＳＡと、デコーダＤＣと、を含んでいる。

エンコーダＥＣには、コンテンツ画像データＣＤやスタイル画像データＳＤが入力される。エンコーダＥＣは、入力された画像データに対して、次元削減処理を実行して、入力された画像データの特徴を示す特徴データを生成する。エンコーダＥＣは、例えば、畳込処理(convolution)を行う畳込層を含む複数の層を有するニューラルネットワーク（Convolutional Neural Network）である。本実施例では、エンコーダＥＣには、ＶＧＧ１９と呼ばれるニューラルネットワークのうちの入力層からRElu4_1層までの部分が用いられる。ＶＧＧ１９は、ＩｍａｇｅＮｅｔと呼ばれる画像データベースに登録された画像データを用いてトレーニングされた学習済みのニューラルネットワークであり、その学習済みの演算パラメータは一般公開されている。本実施例では、エンコーダＥＣの演算パラメータには、公開された学習済みの演算パラメータが用いられる。

特徴結合部ＣＣは、上記論文に開示された「AdaIN layer」である。特徴結合部ＣＣは、コンテンツ画像データＣＤをエンコーダＥＣに入力して得られる特徴データｆ（ｃ）と、スタイル画像データＳＤをエンコーダＥＣに入力して得られる特徴データｆ（ｓ）と、を用いて、変換特徴データｔを生成する。

強度調整部ＳＡは、スタイル変換の強度を示すパラメータαを用いて、スタイル変換の強度を調整する。具体的には、強度調整部ＳＡは、パラメータαと、コンテンツ画像データＣＤの特徴データｆ（ｃ）と、変換特徴データｔと、を用いて、強度調整済みの変換特徴データｔ_adを生成する。変換特徴データｔ_adは、以下の式（１）で示される。
ｔ_ad＝（１−α）f（ｃ）＋αｔ …（１）

パラメータαは、０＜α≦１の範囲の値を取る。パラメータαが１に近いほど、スタイル変換の強度が強くなる。換言すれば、パラメータαが１に近いほど、変換済画像データＴＤによって示される変換済画像は、スタイル画像に近づき、コンテンツ画像との差異が大きくなる。このために、パラメータαは、コンテンツ画像と変換済画像との間の差異の程度を指定するパラメータである、と言うことができる。パラメータαは、後述するように、ユーザによって指定される。パラメータαは、デコーダＤＣのトレーニング時には、１に設定される。

デコーダＤＣには、強度調整済みの変換特徴データｔ_adが入力される。デコーダＤＣは、デコーダＤＣは、変換特徴データｔ_adに対して、複数個の演算パラメータを用いて、エンコーダＥＣとは逆の次元復元処理を実行して、上述した変換済画像データＴＤを生成する。デコーダＤＣは、転置畳込処理（transposed convolution）を行う転置畳込層を含む複数の層を有するニューラルネットワークである。

デコーダＤＣの複数個の演算パラメータは、以下のトレーニングによって調整される。学習用のコンテンツ画像データＣＤとスタイル画像データＳＤからなるデータペアが、所定数（例えば、数万個）分だけ準備される。これらのデータペアから選択される所定のバッチサイズ分のデータペアを用いて１回の調整処理が実行される。

１回の調整処理では、バッチサイズ分のデータペアを用いて算出される損失関数Ｌが小さくなるように、所定のアルゴリズムに従って複数個の演算パラメータが調整される。所定のアルゴリズムには、例えば、誤差逆伝播法と勾配降下法とを用いたアルゴリズム（本実施例では、ａｄａｍ）が用いられる。

損失関数Ｌは、コンテンツ損失Ｌｃと、スタイル損失Ｌｓと、重みλを用いて、以下の式（２）で示される。
Ｌ＝Ｌｃ＋λＬｓ …（２）

コンテンツ損失Ｌｃは、本実施例では、変換済画像データＴＤの特徴データｆ（ｇ（ｔ））と、変換特徴データｔと、の間の損失（誤差とも呼ぶ）である。変換済画像データＴＤの特徴データｆ（ｇ（ｔ））は、用いるべきデータペアを生成ネットワークＧＮに入力して得られる変換済画像データＴＤを、さらに、エンコーダＥＣに入力することによって算出される。変換特徴データｔは、上述したように、用いるべきデータペアをエンコーダＥＣに入力して得られる特徴データｆ（ｃ）、ｆ（ｓ）を特徴結合部ＣＣに入力することによって算出される。

スタイル損失Ｌｃは、変換済画像データＴＤをエンコーダＥＣに入力した場合にエンコーダＥＣの複数個の層からそれぞれ出力されるデータ群と、スタイル画像データＳＤをエンコーダＥＣに入力した場合にエンコーダＥＣの複数個の層からそれぞれ出力されるデータ群と、の間の損失である。

以上のような調整処理を複数回に亘って繰り返される。これによって、コンテンツ画像データＣＤとスタイル画像データＳＤとが入力される場合に、コンテンツ画像に対してスタイル画像のスタイルを適用して得られる変換済画像を示す変換済画像データＴＤが出力できるように、生成ネットワークＧＮがトレーニングされる。

生成ネットワークＧＮ１〜ＧＮ４の基本的な構成は、図２（Ｂ）のネットワークＧＮに示す構成であるが、生成ネットワークＧＮ１〜ＧＮ４のトレーニングに用いられるデータペアが互いに異なる。例えば、目用の生成ネットワークＧＮ１は、人物の目を示すデータペアを用いてトレーニングされている。鼻用の生成ネットワークＧＮ２は、人物の鼻を示すデータペアを用いてトレーニングされている。口用の生成ネットワークＧＮ３は、人物の口を示すデータペアを用いてトレーニングされている。顔用の生成ネットワークＧＮ４は、人物の顔の全体を示すデータペアを用いてトレーニングされている。このために、トレーニング済みの生成ネットワークＧＮ１〜ＧＮ４では、複数個の演算パラメータの値が互いに異なっている。

Ａ−３．システムの動作
図３は、第１実施例の端末装置２００が実行する処理のフローチャートである。この処理は、サーバ１００が提供するスタイル変換サービスを利用して、入力画像データに対してスタイル変換を行って得られる出力画像データを取得する処理である。この処理は、例えば、端末装置２００のコンピュータプログラムＰＧｔが実行された状態で、ユーザの開始指示に基づいて開始される。

図３のＳ１０５では、端末装置２００のＣＰＵ２１０は、入力画像Ｉｉｎを示す入力画像データを取得する。ＣＰＵ２１０は、例えば、不揮発性記憶装置１３０に格納された複数個の画像データの中から、ユーザによって指定された画像データを入力画像データとして取得する。あるいは、ＣＰＵ２１０は、ユーザの撮影指示に応じて端末装置２００が備えるデジタルカメラ（図示省略）に撮影を実行させ、該撮影によって生成される画像データを入力画像データとして取得する。入力画像データは、例えば、ＲＧＢ画像データである。

図４は、入力画像Ｉｉｎと出力画像Ｉｏｕｔとの一例を示す図である。図４（Ａ）に示すように、本実施例の入力画像Ｉｉｎは、人物の顔ＦＣの全体を含む写真を示す画像である。

図３のＳ１１０では、ＣＰＵ２１０は、入力画像データを用いて、入力画像Ｉｉｎを含む選択画面ＵＤａを表示装置２５０に表示する。図５は、選択画面の一例を示す図である。図５（Ａ）の選択画面ＵＤａは、入力画像Ｉｉｎと、入力画像Ｉｉｎの種類に関する選択指示（具体的には、性別および人種の選択指示）を入力するためのプルダウンメニューＰＭ１、ＰＭ２と、選択画面の切替指示を入力するためのボタンＢＴ１、ＢＴ２と、を含んでいる。

図３のＳ１１５では、ＣＰＵ２１０は、入力画像データをサーバ１００に送信する。なお、本実施例では、端末装置２００からサーバ１００へのデータの送信は、ＨＴＴＰ（Hypertext Transfer Protocol）に従うＨＴＴＰリクエストの送信として行われる。

サーバ１００が端末装置２００から送信される入力画像データを受信すると、サーバ１００のＣＰＵ１１０は、スタイル変換サービスを提供する処理を開始する。図６は、第１実施例のサーバ１００が実行する処理のフローチャートである。端末装置２００の図３の処理とサーバ１００の図６の処理とは、データの遣り取りを行いながら並行して実行される。

図６のＳ２０５では、サーバ１００のＣＰＵ１１０は、サーバ１００が端末装置２００から送信される入力画像データを受信する。図６のＳ２１０では、ＣＰＵ１１０は、入力画像データに対して所定の領域特定処理を実行して、入力画像Ｉｉｎの顔ＦＣに含まれる複数個の部位の領域を特定する。具体的には、図４（Ａ）に示すように、右目、左目、鼻、口の領域Ｐｅｒ、Ｐｅｌ、Ｐｎ、Ｐｍが特定される。領域特定処理には、公知の画像認識方法が用いられる。

例えば、ｙｏｌｏ(You only look once)と呼ばれる画像認識アルゴリズムは、畳込ニューラルネットワークを用いて、画像内のオブジェクトの位置と種類との認識を同時に行うことができる。本実施例では、右目、左目、鼻、口の４種類のオブジェクトの位置と種類を認識できるようにトレーニングされたｙｏｌｏの畳込ニューラルネットワークを用いて、右目、左目、鼻、口の領域Ｐｅｒ、Ｐｅｌ、Ｐｎ、Ｐｍが特定される。ｙｏｌｏは、例えば、論文「J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You only look once:Unified, real-time object detection,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2016, pp. 779-788.」に開示されている。

図６のＳ２１２では、ＣＰＵ１１０は、特定された複数個の部位の領域Ｐｅｒ、Ｐｅｌ、Ｐｎ、Ｐｍを示す領域情報、例えば、これらの領域の入力画像Ｉｉｎ内の位置とサイズとを示す領域情報を、端末装置２００に送信する。

図３のＳ１２０では、端末装置２００のＣＰＵ２１０は、サーバ１００から送信される領域情報を受信し、該領域情報を用いて、複数個の部位の領域Ｐｅｒ、Ｐｅｌ、Ｐｎ、Ｐｍの特定結果を表示装置２５０に表示する。例えば、図５（Ａ）に示すように、選択画面ＵＤａの入力画像Ｉｉｎ上に、複数個の部位の領域Ｐｅｒ、Ｐｅｌ、Ｐｎ、Ｐｍを示す複数個の矩形の枠Ｓｅｒ、Ｓｅｌ、Ｓｎ、Ｓｍを表示する。なお、フローチャートでは省略するが、ＣＰＵ２１０は、矩形の枠Ｓｅｒ、Ｓｅｌ、Ｓｎ、Ｓｍの位置やサイズの修正指示がユーザから入力される場合には、該入力に応じて、対応する部位の領域Ｐｅｒ、Ｐｅｌ、Ｐｎ、Ｐｍの領域情報を修正する。修正後の領域情報は、サーバ１００に送信される。

図３のＳ１２５では、ＣＰＵ２１０は、ユーザによって選択された性別と人種の情報をサーバ１００に送信する。例えば、図５（Ａ）のプルダウンメニューＰＭ１は、男性を示す選択肢と、女性を示す選択肢と、を含む。プルダウンメニューＰＭ２は、予め登録された人種を示す複数個の選択肢を含む。ユーザは、プルダウンメニューＰＭ１、ＰＭ２を操作して、複数個の選択肢のうちの１個の選択肢を選択して、ボタンＢＴ２を押下する。ＣＰＵ２１０は、ボタンＢＴ２が押下された時点で、プルダウンメニューＰＭ１、ＰＭ２にて選択されている選択肢に対応する性別および人種の情報を、サーバ１００に送信する。

図６のＳ２１５では、サーバ１００のＣＰＵ１１０は、端末装置２００から送信される性別および人種の情報を受信する。Ｓ２２０では、ＣＰＵ１１０は、受信された情報によって示される性別および人種に応じたスタイル画像データＳＤと肌色データとを、端末装置２００に送信する。例えば、サーバ１００の不揮発性記憶装置１３０に格納されたスタイル画像データ群ＳＤＧ（図１）は、性別および人種の組み合わせごとに、複数個のスタイル画像データＳＤを含んでいる。性別および人種の１つの組み合わせに対応する複数個のスタイル画像データＳＤは、顔の部位（本実施例では目、口、鼻）ごとに、顔の部位をそれぞれ示す複数個のスタイル画像データＳＤを含んでいる。例えば、受信された情報によって示される性別および人種に対応する複数個のスタイル画像データＳＤが、端末装置２００に送信される。サーバ１００の不揮発性記憶装置１３０に格納された肌色データ群ＳＫＧ（図１）は、性別および人種の組み合わせごとに、複数個の肌色データ（例えば、肌色を示すＲＧＢ値）を含んでいる。例えば、受信された情報によって示される性別および人種に対応する複数個の肌色データが端末装置２００に送信される。

図３のＳ１２７では、端末装置２００のＣＰＵ２１０は、サーバ１００から送信されるスタイル画像データＳＤと肌色データとを受信する。

図３のＳ１３０では、ＣＰＵ２１０は、入力画像Ｉｉｎにて特定される顔の部位（目、鼻、口）の領域から注目領域を選択する。

図３のＳ１３５では、ＣＰＵ２１０は、注目領域用の選択画面を表示装置２５０に表示する。図５（Ｂ）の選択画面ＵＤｂは、目の領域用の選択画面である。選択画面ＵＤｂは、入力画像Ｉｉｎと、目のスタイル画像の選択指示を入力するための選択ウインドウＳＷｂと、目のスタイル変換の強度を入力するためのスライドバーＳＢｂと、ボタンＢＴ１、ＢＴ２と、を含んでいる。選択ウインドウＳＷｂは、選択肢として、Ｓ１２７にて受信された目の複数個のスタイル画像データＳＤによって示される複数個のスタイル画像ＳＩｅ１、ＳＩｅ２を含んでいる。図５（Ｃ）の選択画面ＵＤｃは、鼻の領域用の選択画面である。選択画面ＵＤｃは、後述する中間画像Ｉｍａと、鼻のスタイル画像の選択指示を入力するための選択ウインドウＳＷｃと、鼻のスタイル変換の強度を入力するためのスライドバーＳＢｃと、ボタンＢＴ１、ＢＴ２と、を含んでいる。選択ウインドウＳＷｃは、選択肢として、Ｓ１２７にて受信された鼻の複数個のスタイル画像データＳＤによって示される複数個のスタイル画像ＳＩｎ１、ＳＩｎ２を含んでいる。口の領域用の選択画面については図示を省略する。

図３のＳ１４０では、ＣＰＵ２１０は、ユーザによって選択されたスタイル画像と強度とを示す情報をサーバ１００に送信する。例えば、注目領域が目の領域である場合には、ユーザは、図５（Ｂ）の選択ウインドウＳＷｂに表示された複数個のスタイル画像ＳＩｅ１、ＳＩｅ２の中から、用いるべき１個のスタイル画像を選択する。ユーザは、スライドバーＳＢｃのノブを操作して、用いるべき強度に対応する位置に移動させる。その後、ユーザは、ボタンＢＴ２を押下する。ＣＰＵ２１０は、ボタンＢＴ２が押下された時点で、選択ウインドウＳＷｂにて選択されているスタイル画像を示す情報（例えば、画像ＩＤ）と、スライドバーＳＢｂのノブの位置に対応する強度を示す情報（例えば、上述したパラメータα）と、をサーバ１００に送信する。

図６のＳ２２５では、サーバ１００のＣＰＵ１１０は、注目領域について選択されたスタイル画像と強度とを示す情報を端末装置２００から受信する。

図６のＳ２２７では、ＣＰＵ１１０は、用いるべきスタイル画像データＳＤを取得する。
例えば、注目領域が目の領域Ｐｅｒ、Ｐｅｌである場合には、ＣＰＵ１１０は、Ｓ２２５にて受信された情報に基づいて、不揮発性記憶装置１３０に格納されたスタイル画像データ群ＳＤＧ（図１）から、用いるべき目のスタイル画像データＳＤを取得する。

図６のＳ２３０では、ＣＰＵ１１０は、注目領域のスタイル変換処理を実行する。ＣＰＵ１１０は、目の領域Ｐｅｒ、Ｐｅｌに対応する２個の部分画像ＰＩｅｒ、ＰＩｅｌ（図４（Ａ））を示す２個の部分画像データを、入力画像データからそれぞれ抽出する。ＣＰＵ１１０は、２個の部分画像データに対して、それぞれ、縮小処理または拡大処理を実行して、所定サイズ（本実施例では、縦２５６画素×横２５６画素）の２個の目のコンテンツ画像データＣＤを生成する。ＣＰＵ１１０は、右目のコンテンツ画像データＣＤとＳ２２７にて取得されたスタイル画像データＳＤとのデータペアを、目用の生成ネットワークＧＮ１に入力して、右目の変換済画像データＴＤを生成する。同様に、ＣＰＵ１１０は、左目のコンテンツ画像データＣＤとスタイル画像データＳＤとのデータペアを、目用の生成ネットワークＧＮ１に入力して、左目の変換済画像データＴＤを生成する。ＣＰＵ１１０は、生成された２個の変換済画像データＴＤに対して拡大処理または縮小処理を実行して、変換済画像データＴＤによって示される画像のサイズを元の部分画像と同じサイズに調整する。以下では、サイズが調整された後の変換済画像データＴＤを、変換済データと呼ぶ。注目領域が鼻の領域Ｐｎや口の領域Ｐｍである場合には、鼻用の生成ネットワークＧＮ２や口用の生成ネットワークＧＮ３を用いたスタイル変換処理によって、鼻や口の変換済データが生成される。

図６のＳ２３２では、ＣＰＵ１１０は、入力画像データのうちの注目領域に対応する部分画像データを変換済データに置換することによって、中間画像を示す中間画像データを生成する。図４（Ｂ）には、目の領域Ｐｅｒ、Ｐｅｌに対応する部分画像データが置換された後の中間画像Ｉｍａが示されている。中間画像Ｉｍａの顔ＦＣａでは、図４（Ａ）の入力画像Ｉｉｎの目の部分画像ＰＩｅｒ、ＰＩｅｌが、変換済データによって示される変換済部分画像ＴＩｅｒ、ＴＩｅｌに置換されている。中間画像Ｉｍａには、変換済部分画像ＴＩｅｒ、ＴＩｅｌと他の部分との境界に位置するスジＢＬが現れている。変換済部分画像ＴＩｅｒ、ＴＩｅｌと他の部分との境界では、画素の値が滑らかに変化しておらず、画素の値の差が大きくなっているためである。

図６のＳ２３５では、ＣＰＵ１１０は、中間画像データを端末装置２００に送信する。

図６のＳ２４０では、ＣＰＵ１１０は、顔の全ての部位の領域について処理されたか否かを判断する。未処理の領域がある場合には（Ｓ２４０：ＮＯ）、Ｓ２２５に処理が戻される。全ての部位の領域について処理された場合には（Ｓ２４０：ＹＥＳ）、Ｓ２４５に処理が進められる。

図３のＳ１４５では、端末装置２００のＣＰＵ２１０は、サーバ１００から送信される中間画像データを受信する。Ｓ１４７では、ＣＰＵ２１０は、中間画像データを用いて、表示装置２５０に表示されている選択画面を更新する。例えば、図５（Ｃ）の選択画面ＵＤｃでは、入力画像Ｉｉｎに代えて、中間画像データによって示される中間画像Ｉｍａ（図４（Ｂ））が表示されている。ユーザは、表示装置２５０に表示される中間画像Ｉｍａを見て、注目領域のスタイル変換の結果を確認することができる。フローチャートでは、省略するが、ユーザは、注目領域のスタイル変換の結果に満足できない場合には、ボタンＢＴ１を押下することで、処理済みの注目領域について、再度、図３のＳ１３５〜Ｓ１４７、および、図６のＳ２２５〜Ｓ２３５を繰り返させることができる。

図３のＳ１５０では、ＣＰＵ２１０は、顔の全ての部位の領域について処理されたか否かを判断する。未処理の領域がある場合には（Ｓ１５０：ＮＯ）、Ｓ１３０に処理が戻される。全ての部位の領域について処理された場合には（Ｓ１５０：ＹＥＳ）、Ｓ１５５に処理が進められる。

Ｓ１５５に処理が進められた時点で、サーバ１００において、図４（Ｃ）の中間画像Ｉｍｂを示す中間画像データが生成され、端末装置２００に送信されている。中間画像Ｉｍｂの顔ＦＣｂでは、図４（Ａ）の入力画像Ｉｉｎの各部位の部分画像ＰＩｅｒ、ＰＩｅｌ、ＰＩｎ、ＰＩｍが、変換済データによって示される変換済部分画像ＴＩｅｒ、ＴＩｅｌ、ＴＩｎ、ＴＩｍに置換されている。中間画像Ｉｍｂには、変換済部分画像ＴＩｅｒ、ＴＩｅｌ、ＴＩｎ、ＴＩｍと他の部分との境界に上述したスジＢＬが現れている。

図３のＳ１５５では、端末装置２００のＣＰＵ２１０は、図５（Ｄ）の肌色の選択画面ＵＤｄを表示装置２５０に表示する。図５（Ｄ）の選択画面ＵＤｄは、中間画像Ｉｍｂ（図）と、肌色の選択指示を入力するための選択ウインドウＳＷｄと、ボタンＢＴ１、ＢＴ２と、を含んでいる。選択ウインドウＳＷｄは、選択肢として、Ｓ１２７にて受信された複数個の肌色データによって示される肌色を有する矩形画像ＣＰ１、ＣＰ２を含んでいる。

図３のＳ１６０では、ＣＰＵ２１０は、ユーザによって選択された肌色を示す情報をサーバ１００に送信する。例えば、ユーザは、図５（Ｄ）の選択ウインドウＳＷｄに表示された複数個の矩形画像ＣＰ１、ＣＰ２の中から、１個の画像を選択して、ボタンＢＴ２を押下する。ＣＰＵ２１０は、ボタンＢＴ２が押下された時点で、選択ウインドウＳＷｄにて選択されている矩形画像が有する肌色を示す情報（例えば、色番号などのＩＤ）をサーバ１００に送信する。

図６の２４５では、サーバ１００のＣＰＵ１１０は、選択された肌色を示す情報を端末装置２００から受信する。図６のＳ２５０では、ＣＰＵ１１０は、Ｓ２０５にて取得済みの入力画像データに対して肌色補正を実行して、補正済みの入力画像データを生成する。肌色補正処理は、公知の補正処理が用いられる。例えば、ＣＰＵ１１０は、入力画像データに対して公知の顔認識アルゴリズムを用いた認識処理を実行し、入力画像Ｉｉｎ内の人物の顔ＦＣの領域を特定する。顔認識アルゴリズムには、例えば、人物の顔の領域を認識できるようにトレーニングされた上述したｙｏｌｏの畳込ニューラルネットワークが用いられる。ＣＰＵ１１０は、人物の顔ＦＣの領域の複数個の画素のうち、肌色を示す所定の範囲内のＲＧＢ値を有する肌色画素を特定し、特定された複数個の肌色画素の平均のＲＧＢ値を算出する。ＣＰＵ１１０は、肌色画素の平均のＲＧＢ値と、ユーザによって選択された肌色を示すＲＧＢ値と、の差分に基づいて、ＲＧＢの各成分の補正量を決定する。ＣＰＵ１１０は、該補正量に応じてＲＧＢの各成分のトーンカーブを決定し、該トーンカーブを用いて、特定済みの複数個の肌色画素のＲＧＢ値を補正する。図４（Ｄ）には、補正済みの入力画像データによって示される補正済画像Ｉｃが示されている。補正済画像Ｉｃの人物の顔ＦＣｃは、ユーザによって選択された肌色を有している。

Ｓ２５５では、中間画像データに対して、顔の全体のスタイル変換処理を実行して、出力画像データを生成する。例えば、ＣＰＵ１１０は、図４（Ｃ）の中間画像Ｉｍｂを示す中間画像データと、図４（Ｄ）の補正済画像Ｉｃを示す補正済みの入力画像データと、に対して、それぞれ、縮小処理または拡大処理を実行する。これによって、中間画像Ｉｍｂと補正済画像Ｉｃとのサイズは、所定のサイズ（本実施例では、縦２５６画素×横２５６画素）に調整される。ＣＰＵ１１０は、サイズが調整された後の中間画像データをコンテンツ画像データＣＤとし、サイズが調整された後の補正済みの入力画像データをスタイル画像データＳＤとして、顔用の生成ネットワークＧＮ４に入力することによって、顔全体の変換済画像データＴＤを生成する。ＣＰＵ１１０は、生成された顔全体の変換済画像データＴＤに対して拡大処理または縮小処理を実行して、変換済画像データＴＤによって示される画像のサイズを元の入力画像Ｉｉｎと同じサイズに調整する。サイズが調整された後の変換済画像データＴＤが、最終的な出力画像Ｉｏｕｔを示す出力画像データである。顔用の生成ネットワークＧＮ４において、強度を示すパラメータαは、上述した顔の各部位に対するスタイル変換処理（図６のＳ２３０）におけるパラメータαよりも小さな値に設定される。これは、各部位に対するスタイル変換処理によって中間画像Ｉｍｂに現れている顔の各部位の特徴が、顔の全体のスタイル変換処理によって失われることを抑制するためである。パラメータαの値が比較的小さい場合であっても、顔の肌色のような全体的な特徴は、出力画像Ｉｏｕｔに反映される。

図４（Ｅ）には、出力画像Ｉｏｕｔの一例が示されている。出力画像Ｉｏｕｔの人物の顔ＦＣｏは、中間画像Ｉｍｂの顔の部位の特徴を備えており、顔ＦＣｏの肌色は、補正済画像Ｉｃの顔ＦＣｃの肌色に近い色である。また、出力画像Ｉｏｕｔの人物の顔ＦＣｏでは、中間画像Ｉｍｂと比較して、スジＢＬは目立たない。すなわち、出力画像Ｉｏｕｔでは、スジＢＬを形成する境界における画素の値の差が小さくされている。スタイル画像として用いられる補正済画像Ｉｃの顔ＦＣｃはスジＢＬを含まないために、スタイル変換処理によって、補正済画像Ｉｃのスタイルが中間画像Ｉｍｂに適用されると、スジＢＬが軽減されるためである。

Ｓ２６０では、ＣＰＵ１１０は、生成された出力画像データを端末装置２００に送信して処理を終了する。

図３のＳ１６５では、端末装置２００のＣＰＵ２１０は、端末装置２００から送信される出力画像データを受信する。Ｓ１７０では、ＣＰＵ２１０は、出力画像データを出力する。出力画像データの出力の態様は、例えば、表示、保存、印刷を含む。例えば、ＣＰＵ２１０は、出力画像データによって示される出力画像Ｉｏｕｔを表示装置２５０に表示する。例えば、ＣＰＵ２１０は、ユーザの指示に基づいて、出力画像データを含むファイルを揮発性記憶装置１２０、不揮発性記憶装置１３０に保存する。例えば、ＣＰＵ２１０は、出力画像データを用いて、出力画像Ｉｏｕｔを示す印刷データを生成して、図示しないプリンタに送信する。

以上説明した第１実施例では、サーバ１００のＣＰＵ１１０は、入力画像データを取得し（図６のＳ２０５）、入力画像データを用いて、入力画像Ｉｉｎの一部である第１入力部分画像（例えば、目の領域Ｐｅｒ、Ｐｅｌに対応する部分画像ＰＩｅｒ、ＰＩｅｌ）と、入力画像の一部であって第１入力部分画像とは異なる位置にある第２入力部分画像（例えば、鼻の領域Ｐｎに対応する部分画像ＰＩｎ）と、を特定する（図６のＳ２１０）。ＣＰＵ１１０は、第１入力部分画像を示す第１部分画像データ（例えば、目の部分画像ＰＩｅｒ、ＰＩｅｌを示す部分画像データ）に対して、機械学習モデル（例えば、目の生成ネットワークＧＮ１）を用いた第１スタイル変換処理を実行して、第１変換済部分画像（例えば、目の変換済部分画像ＴＩｅｒ、ＴＩｅｌ）を示す第１変換済データ（例えば、目の変換済部分画像ＴＩｅｒ、ＴＩｅｌを示す変換済データ）を生成する（図６のＳ２３０）。ＣＰＵ１１０は、第２入力部分画像を示す第２部分画像データ（例えば、鼻の部分画像ＰＩｎを示す部分画像データ）に対して、機械学習モデル（例えば、鼻の生成ネットワークＧＮ２）を用いた第２スタイル変換処理を実行して、第２変換済部分画像（例えば、鼻の変換済部分画像ＴＩｎ）を示す第２変換済データ（例えば、鼻の変換済部分画像ＴＩｎを示す変換済データ）を生成する（図６のＳ２３０）。ＣＰＵ１１０は、第１変換済データと第２変換済データとを用いて、入力画像Ｉｉｎに基づく出力画像Ｉｏｕｔを示す出力画像データを生成する（図６のＳ２３２、Ｓ２５０、Ｓ２５５）。図４（Ｄ）の出力画像Ｉｏｕｔは、第１入力部分画像に対応する第１出力部分画像（例えば、目の部分画像ＯＩｅｒ、ＯＩｅｌ）と、第２入力部分画像に対応する第２出力部分画像（鼻の部分画像ＯＩｎ）とを含む。第１出力部分画像（例えば、目の部分画像ＯＩｅｒ、ＯＩｅｌ）は、第１変換済部分画像（例えば、目の変換済部分画像ＴＩｅｒ、ＴＩｅｌ）に基づく画像である。第２出力部分画像（例えば、目の部分画像ＯＩｎ）は第２変換済部分画像（例えば、鼻の変換済部分画像ＴＩｎ）に基づく画像である。第１実施例によれば、このように、１個の入力画像データに対して第１スタイル変換処理と第２スタイル変換処理とを適用することで出力画像データが生成されるので、柔軟なスタイル変換を実現することができる。

さらに、上記実施例では、第１スタイル変換処理（例えば、目の領域Ｐｅｒ、Ｐｅｌのスタイル変換処理）は、第１スタイル画像（例えば、目のスタイル画像ＳＩｅ１）を示すスタイル画像データＳＤを用いて実行され、第２スタイル変換処理（例えば、鼻の領域Ｐｎのスタイル変換処理）は、第２スタイル画像（例えば、鼻のスタイル画像ＳＩｎ１）を示すスタイル画像データＳＤを用いて実行される（図２（Ｂ）等）。第１変換済部分画像（例えば、目の変換済部分画像ＴＩｅｒ、ＴＩｅｌ）は、第１スタイル画像（例えば、目のスタイル画像ＳＩｅ１）のスタイルが、第１入力部分画像（例えば、目の部分画像ＰＩｅｒ、ＰＩｅｌ）に適用された画像であり、第２変換済部分画像（例えば、鼻の変換済部分画像ＴＩｎ）は、第２スタイル画像（例えば、鼻のスタイル画像ＳＩｎ１）のスタイルが、第２入力部分画像（例えば、鼻の部分画像ＰＩｎ）に適用された画像である。この結果、第１スタイル画像のスタイルと第２スタイル画像のスタイルとが適用された出力画像を示す出力画像データが生成できるので、より柔軟なスタイル変換を実現することができる。

さらに、ＣＰＵ１１０は、第１変換済データと第２変換済データとを用いて、第１変換済部分画像（例えば、目の変換済部分画像ＴＩｅｒ、ＴＩｅｌ）と第２変換済部分画像（例えば、鼻の変換済部分画像ＴＩｎ）とを含む中間画像（例えば、中間画像Ｉｍｂ）を示す中間画像データを生成する（図６のＳ２３２、図４（Ｃ））。ＣＰＵ１１０は、中間画像データに対して特定の後処理（図６のＳ２５５）を実行して、出力画像データを生成する。この結果、特定の後処理を実行することで、適切な出力画像データを生成することができる。

具体的には、本実施例の特定の後処理として、顔の全体のスタイル変換処理（図６のＳ２５５）が行われる。この処理によって、上述したように、中間画像Ｉｍａにおいて、変換済部分画像（例えば、目や鼻の変換済部分画像ＴＩｅｒ、ＴＩｅｌ、ＴＩｎ）と、該１変換済部分画像に隣接する部分との間における画素値の差が低減される。この結果、例えば、出力画像Ｉｏｕｔでは、中間画像Ｉｍａに現れているスジＢＬが目立たない。このように、出力画像Ｉｏｕｔが自然な見栄えを有するように、出力画像データを生成することができる。

さらに、本実施例の顔の全体のスタイル変換処理（図６のＳ２５５）は、機械学習モデル（例えば、顔用の生成ネットワークＧＮ４）を用いた第３スタイル変換処理である。この結果、部分画像に対するスタイル変換処理と、画像の全体に対するスタイル変換さらに、第３スタイル変換処理を実行することで、さらに、柔軟なスタイル変換を実現することができる。

さらに、本実施例の第３スタイル変換処理（図６のＳ２５５の顔の全体のスタイル変換処理）は、入力画像データをスタイル画像データＳＤとして用いて実行される。この結果、例えば、上述したスジＢＬが目立たない自然な見栄えを有する出力画像を示す出力画像データを容易に生成することができる。

さらに、本実施例の特定の後処理は、入力画像データに対して、人物の顔ＦＣの肌色を補正する処理を実行して、補正済みの入力画像データを生成する処理（図６のＳ２５０）を含む。そして、第３スタイル変換処理（図６のＳ２５５の顔の全体のスタイル変換処理）は、補正済みの入力画像データをスタイル画像データＳＤとして用いて実行される。この結果、補正済みの入力画像（図４（Ｄ）の補正済画像Ｉｃ）の人物の顔の肌色が、スタイルとして出力画像Ｉｏｕｔに適用される。したがって、任意の肌色を有する出力画像Ｉｏｕｔを示す出力画像データを容易に生成することができる。

さらに、本実施例では、上述のように、入力画像Ｉｉｎは、人物の顔ＦＣを示す画像を含む（図４（Ａ））、第１入力部分画像（例えば、部分画像ＰＩｅｒ、ＰＩｅｌ）は、人物の顔ＦＣを構成する第１の部位（例えば、目）を示す画像であり、第２入力部分画像（例えば、部分画像ＰＩｎ）は、人物の顔ＦＣを構成する第２の部位（例えば、鼻）を示す画像である。この結果、人物の顔を構成する第１の部位と第２の部位とについて、柔軟なスタイル変換を実現することができる。例えば、目のスタイル画像として人物Ａの目の画像を選択し、鼻のスタイル画像として人物Ｂの鼻の画像を選択すれば、入力画像Ｉｉｎの人物の顔ＦＣの目を人物Ａの目に近づけ、顔ＦＣの鼻を人物Ｂの鼻に近づけるように、スタイル変換することができる。

さらに、本実施例では、端末装置２００から情報を受信することで入力画像Ｉｉｎの種類（例えば、人物の性別や人種）が特定される（図６のＳ２１５）。そして、入力画像Ｉｉｎの種類に応じて、Ｓ２３０のスタイル変換処理に用いるべきスタイル画像データＳＤの候補が変更される（図６のＳ２２０）。すなわち、Ｓ２３０では、入力画像Ｉｉｎの種類に応じて異なるスタイル変換処理が実行される。換言すれば、入力画像Ｉｉｎが第１種の入力画像（例えば、女性の顔の入力画像）である場合に、顔の各部位の部分画像データに対して第１種のスタイル変換処理が実行され、入力画像Ｉｉｎが第２種の入力画像（例えば、男性の顔の入力画像）である場合に、顔の各部位の部分画像データに対して第２種のスタイル変換処理が実行される。この結果、入力画像Ｉｉｎの種類に応じた柔軟なスタイル変換を実現できる。例えば、入力画像Ｉｉｎの人物の性別や人種などによって、ユーザに好まれるスタイル変換は異なり得ると考えられるので、本実施例によれば、ユーザのニーズに合致したスタイル変換を実現できる。

さらに、本実施例によれば、ユーザは、選択画面ＵＤｂ、ＳＤｃのスライドバーＳＢｂ、ＳＢｃを操作して、顔の部位ごとに、スタイル変換の強度を示すパラメータαを設定できる（図５（Ｂ）、（Ｃ）、図３のＳ１４０、図６のＳ２２５）。換言すれば、第１スタイル変換処理（例えば、目のスタイル変換処理）は、第１パラメータα１を用いて実行され、第２スタイル変換処理（例えば、鼻のスタイル変換）は、第１パラメータα１とは独立して調整される第２パラメータα２を用いて実行される。この結果、さらに柔軟なスタイル変換を実現できる。例えば、目については入力画像Ｉｉｎとの差異が大きく、鼻については入力画像Ｉｉｎとの差異が小さな出力画像Ｉｏｕｔを示す出力画像データを容易に生成することができる。この結果、例えば、用意されるスタイル画像データＳＤの個数が比較的少なくても柔軟で多様なスタイル変換が実現できる。

さらに、本実施例によれば、ＣＰＵ１１０は、ユーザによる目のスタイル画像の選択指示（図５（Ｂ））に基づいて、目のスタイル画像データＳＤを取得し、ユーザによる鼻のスタイル画像の選択指示（図５（Ｃ））に基づいて、鼻のスタイル画像を取得する（図６のＳ２２７）。目や鼻のスタイル変換処理は、取得された目や鼻のスタイル画像データＳＤを用いて実行される（図６のＳ２３０）。この結果、ユーザによるスタイル画像の選択指示に応じた柔軟なスタイル変換を実現できる。例えば、ユーザは選択指示を入力することで、例えば、目と鼻に類似したスタイルが適用された出力画像Ｉｏｕｔを示す出力画像データをサーバ１００に生成させることもでき、目と鼻に大きく異なるスタイルが適用された出力画像Ｉｏｕｔを示す出力画像データをサーバ１００に生成させることもできる。

以上の説明から解るように、目のスタイル画像の選択指示は、第１の入力の例であり、鼻のスタイル画像の選択指示は、第２の入力の例である。また、目のスタイル画像の選択指示に基づいて取得される目のスタイル画像データＳＤは、第１入力情報の例であり、鼻のスタイル画像の選択指示に基づいて取得される鼻のスタイル画像データＳＤは、第２入力情報の例である。

Ｂ．第２実施例
Ｂ−１．システム１０００の構成
第２実施例のシステム１０００の基本的な構成は、第１実施例と同様に図１に示す構成であるので、以下では、図１を参照して第１実施例と異なる点について説明する。

第２実施例のシステム１０００は、第１実施例の構成に加えて、端末装置２００と通信可能に接続されるミシン３００を備える。ミシン３００は、刺繍データに基づいて、複数色の糸を布に縫い付けることによって布に刺繍模様を縫製する。

第２実施例の端末装置２００は、パーソナルコンピュータなどの据え置き型の端末装置である。第２実施例の端末装置２００の揮発性記憶装置２３０に格納されるコンピュータプログラムＰＧｔは、ミシン３００を制御するドライバプログラムである。コンピュータプログラムＰＧｔは、ミシン３００の製造者によって提供され、インターネットＩＴを介して端末装置２００に接続されたサーバからダウンロードされる形態で提供される。これに代えて、コンピュータプログラムＰＧｔは、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭなどに格納された形態で提供されても良い。ＣＰＵ２１０は、コンピュータプログラムＰＧｔを実行することによって、サーバ１００と協働して、後述する刺繍データを生成してミシン３００に供給する処理を実行する。

第２実施例のサーバ１００の不揮発性記憶装置１３０に格納されるコンピュータプログラムＰＧｓは、ミシン３００の製造者によって提供され、サーバ１００にアップロードされる。ＣＰＵ１１０は、コンピュータプログラムＰＧｓを実行することによって、端末装置２００と協働して、後述する刺繍データを生成してミシン３００に供給する処理を実行する。

Ｂ−２．生成ネットワーク群の構成
第２実施例では、入力画像Ｉｉｎは、第１実施例と同様に、人物の顔ＦＣの全体を含む写真を示す画像である。写真などの画像データから刺繍データを生成する場合には、画像データに対して前処理を行い、前処理済みの画像データを用いて刺繍データを生成することが通常である。刺繍模様の縫製に用いられる糸の色数（例えば、数十色）は、写真に表現されている色数（例えば、約１千万色）よりも少ないことや、輪郭線がはっきりしていることが好ましいためである。このような前処理は、経験豊かな作業者が、画像加工プログラム（フォトレタッチソフトとも呼ばれる）を用いて行うことが一般的である。第２実施例では、入力画像データを用いて、前処理済みの出力画像Ｉｏｕｔを示す出力画像データを生成するために、スタイル変換処理が利用される。

第２実施例の生成ネットワーク群ＧＮＧは、第１実施例と同様に、生成ネットワークＧＮ１〜ＧＮ４を含んでいる。第２実施例では、顔の各部位のスタイル変換は、出力画像Ｉｏｕｔが刺繍データの生成に適した画像になるように実行される。このために、生成ネットワークＧＮ１〜ＧＮ４のトレーニングおよび後述する刺繍データの生成の際に用いられるスタイル画像データＳＤによって示されるスタイル画像は、刺繍データの生成に適した前処理済みの画像である。前処理の手法、例えば、輪郭線を明確にする手法、陰影の付け方、色の調整の手法には、多数の手法があり、例えば、作業者によって異なる。このために、様々な手法で前処理が行われた複数個の画像がスタイル画像として用いられる。

例えば、目用の生成ネットワークＧＮ１は、様々な目の写真に対して様々な手法で前処理が行われた多数の画像がトレーニングのためのスタイル画像データＳＤとして用いられる。また、刺繍データの生成の際に、図５（Ｂ）の選択画面ＵＤｂを介して選択可能なスタイル画像データＳＤには、代表的な目の写真に対して複数個の手法で前処理が行われた複数個のスタイル画像を示す複数個のスタイル画像データＳＤが用いられる。

第２実施例の生成ネットワーク群ＧＮＧは、さらに、表情用の生成ネットワークＧＮ５と、歯列用の生成ネットワークＧＮ６と、を含んでいる。

表情用の生成ネットワークＧＮ５は、機械学習モデルであり、ＳｔａｒＧＡＮと呼ばれる敵対的生成ネットワーク（GANs(Generative adversarial networks)）を構成する生成ネットワークである。表情用の生成ネットワークＧＮ５は、表情を変更するスタイル変換処理を実行する。具体的には、人物の顔を示す画像データと表情の種類を示すラベルデータとが、表情用の生成ネットワークＧＮ５に入力されると、表情用の生成ネットワークＧＮ５は、変換済画像データを出力する。該変換済画像データによって示される変換済画像は、入力された画像データによって示される人物の顔であって、ラベルデータによって示される表情を有する顔を示す。本実施例では、表情用の生成ネットワークＧＮ５は、無表情、歯を見せない笑顔(smile)、歯を見せた笑顔（grin）、真顔(serious)などの表情に変換することができるように、トレーニングされている。ＳｔａｒＧＡＮは、論文「Yunjey Choi et al., "StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation", arXiv preprint arXiv:1711.09020, 2017.」に開示されている。

歯列用の生成ネットワークＧＮ６は、上述した生成ネットワークＧＮ１〜ＧＮ４と同様の機械学習モデルである。歯列用の生成ネットワークＧＮ６は、歯が露出した表情を有する人物の顔を示す画像データがコンテンツ画像データＣＤとして入力され、歯が露出した表情を有し、歯列が矯正されている人物の顔を示す画像データがスタイル画像データＳＤとして入力される。生成ネットワークＧＮ６が出力する変換済画像データＴＤによって示される画像は、コンテンツ画像データＣＤによって示される人物の顔であって、歯列が矯正されている人物の顔である。

Ｂ−３．システムの動作
図７は、端末装置２００が実行する処理のフローチャートである。この処理は、サーバ１００が提供するスタイル変換を用いた前処理サービスを利用して、入力画像データに対して前処理を行って得られる出力画像データを取得し、該出力画像データを用いて刺繍データを生成する処理である。この処理は、例えば、端末装置２００のコンピュータプログラムＰＧｔが実行された状態で、ユーザの開始指示に基づいて開始される。

図７のＳ３０５では、端末装置２００のＣＰＵ２１０は、図４（Ａ）の人物の顔ＦＣを含む入力画像Ｉｉｎを示す入力画像データを取得する。なお、第１実施例と第２実施例とでは、用いられることが想定される画像（例えば、入力画像、スタイル画像、出力画像）は同じではないが、同様の人物の顔、部位を示す画像であるので、説明の便宜上、同じ図、同じ符号を用いて説明する。ＣＰＵ２１０は、例えば、不揮発性記憶装置１３０に格納された複数個の画像データの中から、ユーザによって指定された画像データを入力画像データとして取得する。

Ｓ３１０では、ＣＰＵ２１０は、入力画像Ｉｉｎを含む選択画面ＵＤを表示装置２５０に表示する。図８は、第２実施例の選択画面ＵＤを示す図である。図８の選択画面ＵＤは、入力画像Ｉｉｎと、プルダウンメニューＰＭ１〜ＰＭ３と、選択ウインドウＳＷａ〜ＳＷｄと、スライドバーＳＢａ〜ＳＢｃと、チェックボックスＣＢａ、ＣＢｂと、ボタンＢＴ３、ＢＴ４と、を含んでいる。

プルダウンメニューＰＭ１、ＰＭ２は、入力画像Ｉｉｎの種類に関する選択指示（具体的には、性別および人種の選択指示）を入力するためのメニューであり、第１実施例の図５（Ａ）のプルダウンメニューＰＭ１、ＰＭ２と同様のメニューである。プルダウンメニューＰＭ３は、上述した表情用の生成ネットワークＧＮ５を用いた表情の変更を行うか否かと、表情の変更を行う場合における変更後の表情の種類と、の選択指示を入力するためのメニューである。

選択ウインドウＳＷｂ、ＳＷｃは、目、鼻のスタイル画像の選択指示を入力するための選択ウインドウであり、第１実施例の図５（Ｂ）、（Ｃ）の選択ウインドウＳＷｂ、ＳＷｃと同様のメニューである。選択ウインドウＳＷａは、選択肢として、口の複数個のスタイル画像データＳＤによって示される複数個のスタイル画像Ｓｍ１、Ｓｍ２が表示される。なお、各選択ウインドウ内のスタイル画像は、この時点では、表示されておらず、後述するＳ３３５にて表示される。

スライドバーＳＢａ〜ＳＢｃは、図５（Ｂ）、（Ｃ）のスライドバーＳＢｂ、ＳＢｃと同様に、口、目、鼻のスタイル変換の強度を入力するためのスライドバーである。

チェックボックスＣＢａは、後述する白目処理を実行するか否かを指定するためのチェックボックスである。チェックボックスＣＢｂは、歯列用の生成ネットワークＧＮ６を用いた歯列の矯正を行うか否かを指定するためのチェックボックスである。

図７のＳ３１５では、図３のＳ１１５と同様に、ＣＰＵ２１０は、入力画像データをサーバ１００に送信する。

サーバ１００が端末装置２００から送信される入力画像データを受信すると、サーバ１００のＣＰＵ２１０は、スタイル変換処理を用いた前処理サービスを提供する処理を開始する。図９は、第２実施例のサーバ１００が実行する処理のフローチャートである。図９のＳ４０５に示すように、サーバ１００のＣＰＵ１１０は、第１実施例と同様に、端末装置２００とデータの遣り取りを行いながら図６のＳ２０５〜Ｓ２２０の処理を実行する。

図６のＳ２０５では、サーバ１００のＣＰＵ１１０は、サーバ１００が端末装置２００から送信される入力画像データを受信する。Ｓ２１０では、ＣＰＵ１１０は、入力画像データに対して所定の領域特定処理を実行して、入力画像Ｉｉｎの顔ＦＣに含まれる複数個の部位、すなわち、右目、左目、鼻、口の領域Ｐｅｒ、Ｐｅｌ、Ｐｎ、Ｐｍを特定する。Ｓ２１２では、ＣＰＵ１１０は、複数個の部位の領域Ｐｅｒ、Ｐｅｌ、Ｐｎ、Ｐｍを示す領域情報を端末装置２００に送信する。

図７のＳ３２０では、図３の１２０と同様に、端末装置２００のＣＰＵ２１０は、サーバ１００から送信される領域情報を受信し、該領域情報を用いて、複数個の部位の領域Ｐｅｒ、Ｐｅｌ、Ｐｎ、Ｐｍの特定結果を表示装置２５０に表示する。図７のＳ３２５では、図３のＳ１２５と同様に、ＣＰＵ２１０は、ユーザによって選択された性別と人種の情報をサーバ１００に送信する。

図６のＳ２１５では、サーバ１００のＣＰＵ１１０は、端末装置２００から送信される性別および人種の情報を受信する。Ｓ２２０では、ＣＰＵ１１０は、受信された情報によって示される性別および人種に応じたスタイル画像データＳＤと肌色データとを、端末装置２００に送信する。

図７のＳ３３０では、端末装置２００のＣＰＵ２１０は、サーバ１００から送信されるスタイル画像データＳＤと肌色データとを受信する。図７のＳ３３５では、受信されたスタイル画像データＳＤによって示される口、目、鼻のスタイル画像ＳＩｍ１、ＳＩｍ２、ＳＩｅ１、ＳＩｅ２、ＳＩｎ１、ＳＩｎ２を、対応する選択ウインドウＳＷａ、ＳＷｂ、ＳＷｃに表示する（図８）。

図７のＳ３４０では、ＣＰＵ２１０は、選択画面ＵＤにて選択された変換処理のための情報をサーバ１００に送信する。ユーザは、図８の選択ウインドウＳＷａ〜ＳＷｄ、スライドバーＳＢａ〜ＳＢｃを介して、顔の各部位について用いるべきスタイル画像、各部位のスタイル変換の強度、出力画像の顔が有すべき肌色の選択指示を入力する。ユーザは、チェックボックスＣＢａ、ＣＢｂを介して、白目処理を実行するか否かと、歯列の矯正を実行するか否かと、の選択指示を入力する。ユーザは、プルダウンメニューＰＭ３を介して、表情の変更を行うか否かと、表情の変更を行う場合における変更後の表情の種類と、の選択指示を入力する。ただし、白目処理を実行することの選択指示が入力された場合には、目のスタイル画像の選択ウインドウＳＷｂは無効とされる。すなわち、白目処理を実行することの選択指示と目のスタイル画像の選択指示とのうち、一方の指示のみが有効となる。後述するように、サーバ１００において、白目処理と目のスタイル変換処理とのうちの一方のみが実行可能であるためである。その後、ユーザは、選択指示が入力された状態で、前処理の実行を指示するためのボタンＢＴ３を押下する。ＣＰＵ２１０は、ボタンＢＴ２が押下された時点で入力されている選択指示に対応する情報をサーバ１００に送信する。

図９のＳ４１０では、サーバ１００のＣＰＵ１１０は、変換処理のための情報を端末装置２００から受信する。

図９のＳ４１５では、ＣＰＵ１１０は、Ｓ４１０にて受信された情報に基づいて、白目処理を実行することが選択されたか否かを判断する。白目処理を実行することが選択された場合には（Ｓ４１５：ＹＥＳ）、Ｓ４２０にて、ＣＰＵ１１０は、入力画像データに対して、白目処理を実行する。白目処理は、目の領域Ｐｅｒ、Ｐｅｌにおいて、目を示す画像の白目の部分を、見栄えの良い特定の白色で塗りつぶす処理である。例えば、ＣＰＵ１１０は、白目の部分に対応する画素の値を、白を示す特定の値（例えば、（２５５、２５５、２５５）のＲＧＢ値）に変換する。例えば、白および白に近似する色を示す所定範囲の値有する画素が、白目の部分に対応する画素として特定される。これによって、例えば、入力画像Ｉｉｎにおける白目の濁りが低減されて、刺繍模様にて表現される人物の顔の目の見栄えが向上する。白目処理は、機械学習モデルを用いずに目の部分画像ＰＩｅｒ、ＰＩｅｌの少なくとも一部の色を変換する処理である、と言うことができる。

図９のＳ４２５では、ＣＰＵ１１０は、目の領域Ｐｅｒ、Ｐｅｌをスタイル変換の対象領域から除外する。白目処理が実行された後にスタイル変換処理が行われると、スタイル変換処理後の画像に白目の濁りが現れる場合があり、白目処理の効果が低下するためである。

白目処理を実行することが選択されない場合には（Ｓ４１５：ＮＯ）、ＣＰＵ１１０は、Ｓ４２０、Ｓ４２５をスキップして、Ｓ４３０に処理を進める。

図９のＳ４３０では、ＣＰＵ１１０は、入力画像Ｉｉｎにて特定される顔の部位（目、鼻、口）の領域のうち、スタイル変換処理の対象とすべき対象領域から、注目領域を選択する。目の領域が対象領域から除外されている場合には、対象領域は、口と鼻の領域Ｐｎ、Ｐｍであり、目の領域が対象領域から除外されていない場合には、対象領域は、目と口と鼻の領域Ｐｅｒ、Ｐｅｌ、Ｐｎ、Ｐｍである。

図９のＳ４３５では、ＣＰＵ１１０は、Ｓ４１０にて受信された情報に基づいて、不揮発性記憶装置１３０に格納されたスタイル画像データ群ＳＤＧ（図１）から、注目領域のスタイル変換処理において、用いるべきスタイル画像データＳＤを取得する。

図９のＳ４４０では、ＣＰＵ１１０は、図６のＳ２３０と同様に、注目領域のスタイル変換処理を実行する。Ｓ４４２では、図６のＳ２３２と同様に、ＣＰＵ１１０は、入力画像データのうちの注目領域に対応する部分画像データを変換済データに置換することによって、中間画像を示す中間画像データを生成する。

図９のＳ４４５では、ＣＰＵ１１０は、全ての対象領域について処理されたか否かを判断する。未処理の領域がある場合には（Ｓ４４５：ＮＯ）、Ｓ４３０に処理が戻される。全ての対象領域について処理された場合には（Ｓ４４５：ＹＥＳ）、Ｓ４５０に処理が進められる。

図９のＳ４５０では、ＣＰＵ１１０は、図６のＳ２５０と同様に、入力画像データに対して肌色補正を実行して、補正済みの入力画像データを生成する。図９のＳ４５５では、ＣＰＵ１１０は、図６のＳ２５５と同様に、中間画像データに対して、顔の全体のスタイル変換処理を実行して、出力画像データを生成する。

図９のＳ４６０では、ＣＰＵ１１０は、Ｓ４１０にて受信された情報に基づいて、表情の変更を実行することが選択されたか否かを判断する。表情の変更を実行することが選択された場合には（Ｓ４６０：ＹＥＳ）、Ｓ４２０にて、ＣＰＵ１１０は、出力画像データに対して、さらに、表情を変更するためのスタイル変換処理を実行する。例えば、ＣＰＵ１１０は、Ｓ４１０にて受信された情報に基づいて、変更後の表情の種類（例えば、歯を見せない笑顔、真顔）を決定して、変更後の表情の種類を示すラベルデータを生成する。ＣＰＵ１１０は、出力画像データとラベルデータとを、表情用の生成ネットワークＧＮ５に入力することによって、表情が変更された人物の顔を含む出力画像（図示省略）を示す出力画像データを生成する。

表情の変更を実行することが選択されない場合には（Ｓ４６０：ＮＯ）、ＣＰＵ１１０は、Ｓ４６５をスキップして、Ｓ４７０に処理を進める。

図９のＳ４７０では、ＣＰＵ１１０は、Ｓ４１０にて受信された情報に基づいて、歯列の矯正を実行することが選択されたか否かを判断する。表情の変更を実行することが選択された場合には（Ｓ４７０：ＹＥＳ）、図９のＳ４７５にて、ＣＰＵ１１０は、歯列を矯正するためのスタイル変換処理を実行する。例えば、ＣＰＵ１１０は、出力画像データをコンテンツ画像データＣＤとし、予め用意された歯列が矯正された人物の顔を示す画像データをスタイル画像データＳＤとして、歯列用の生成ネットワークＧＮ６に入力することによって、歯列が矯正された人物の顔を含む出力画像（図示省略）を示す出力画像データを生成する。

歯列の矯正を実行することが選択されない場合には（Ｓ４７０：ＮＯ）、ＣＰＵ１１０は、Ｓ４７５をスキップして、Ｓ４８０に処理を進める。

表情の変更も歯列の矯正も実行されない場合には、Ｓ４５５にて生成された出力画像データが、最終的な出力画像データである。表情の変更が実行され、歯列の矯正が実行されない場合には、Ｓ４６５にて生成された出力画像データが、最終的な出力画像データである。歯列の矯正が実行される場合には、Ｓ４７５にて生成された出力画像データが、最終的な出力画像データである。

図９のＳ４８０では、ＣＰＵ１１０は、最終的な出力画像データを端末装置２００に送信して、処理を終了する。

図７のＳ３４５では、端末装置２００のＣＰＵ２１０は、端末装置２００から送信される出力画像データを受信する。Ｓ３５０では、ＣＰＵ２１０は、出力画像データを用いて、出力画像を表示装置２５０に表示する。具体的には、図８の選択画面ＵＤの入力画像Ｉｉｎに代えて、出力画像を表示する。ユーザは、選択画面ＵＤにて、出力画像を確認して、出力画像に満足した場合には出力ボタンＢＴ４を押下する。ユーザは、出力画像の生成を再度やり直す場合には、選択画面ＵＤにおいて、選択指示の入力内容を適宜に変更して、前処理ボタンＢＴ３を押下する。

図９のＳ３５５では、ＣＰＵ２１０は、出力ボタンＢＴ４が押下されたか、前処理ボタンＢＴ３が押下されたか、を判断する。出力ボタンＢＴ４が押下された場合には（Ｓ３５５：ＹＥＳ）、ＣＰＵ２１０は、Ｓ３６０に処理を進める。前処理ボタンＢＴ３が押下された場合には（Ｓ３５５：ＮＯ）、ＣＰＵ２１０は、Ｓ３４０に戻る。

Ｓ３６０では、ＣＰＵ２１０は、出力画像データを用いて刺繍データに変換する。刺繍データは、刺繍模様を表すデータであり、例えば、刺繍模様の縫目を形成するための針落点の座標と、縫い順と、使用すべき糸の色と、を縫目ごとに示すデータである。出力画像データを刺繍データに変換する処理には、公知の処理、例えば、特開２０１９−４１８３４号に開示された処理が用いられる。

Ｓ３６５では、ＣＰＵ２１０は、刺繍データをミシン３００に送信する。ミシン３００は、刺繍データを受信すると、刺繍データを用いて、布に刺繍模様を縫製する。

以上説明した第２実施例によれば、出力画像データを生成する際に、第１実施例と同様に柔軟なスタイル変換処理を実現できる。この結果、例えば、ユーザの好みに応じた柔軟な前処理が行われた出力画像データを生成できる。したがって、例えば、ユーザが一般的な画像加工プログラムを用いて前処理を行う技術を有していなくても、ユーザの好みに応じた多様な刺繍模様を布に印刷することができる。

例えば、第２実施例によれば、特定の後処理として、人物の顔の表情を変更するスタイル変換処理（図９のＳ４６５）が実行される。この結果、人物の顔の表情の変更を含む柔軟なスタイル変換を実現することができる。例えば、ユーザは１個の入力画像データを用意するだけで、様々な表情を有する顔を示す出力画像データをシステム１０００に生成させることができ、ひいては、様々な表情を有する顔の刺繍模様をミシン３００に縫製させることができる。

さらに、第２実施例によれば、ＣＰＵ１１０は、目の部分画像ＰＩｅｒ、ＰＩｅｌを示す部分画像データに対して実行すべき処理を、白目処理とスタイル変換処理とから選択する（図９のＳ４１５）。ＣＰＵ２１０は、スタイル変換処理が選択される場合に、白目処理を実行せずに、スタイル変換処理を実行し、白目処理が選択される場合に、スタイル変換処理を実行せずに、白目処理を実行する。この結果、目の部分画像データに対する処理として、機械学習モデルを用いたスタイル変換処理と、機械学習モデルを用いない白目処理と、が使い分けられるので、処理の柔軟性を向上できる。例えば、ユーザは、目に対する処理として、スタイル変換処理よりも単純な白目処理を好む場合もあるが、本実施例では、このようなユーザのニーズにも応えることができる。

さらに、第２実施例によれば、口を示す画像において歯列を矯正するスタイル変換処理が実行される（図９のＳ４７５）。この結果、歯列が矯正された画像を示す出力画像データを容易に生成することができる。

Ｂ．変形例：
（１）上記各実施例では、入力画像Ｉｉｎに含まれる人物の人種と性別に応じて異なるスタイル画像データＳＤが用いられる。これに限らず、例えば、入力画像Ｉｉｎに含まれる人物の表情（例えば、怒り、笑い、真顔）や、顔の角度（例えば、正面、側面、斜め）に応じて異なるスタイル画像データＳＤが用いられても良い。また、上記実施例では、これらの入力画像Ｉｉｎの種類は、ユーザの選択指示に基づいて特定されているが、例えば、画像認識処理、例えば、上述したｙｏｌｏと呼ばれる画像認識アルゴリズムを用いて特定されても良い。

（２）上記各実施例では、部位ごとのスタイル変換処理（図６のＳ２３０、図９のＳ４４０）の対象の部位は、目、鼻、口である。これに限らず、対象の部位は、頭（頭髪）、耳、ほほ、顎などの他の部位であっても良い。

（３）上記各実施例では、入力画像Ｉｉｎは、人物の顔ＦＣを含む画像に限らず、他の画像であっても良い。例えば、入力画像Ｉｉｎは、風景、動物、建物を含み、人物を含まない画像であっても良い。いずれの画像が入力画像として用いられる場合であっても、その画像の一部である第１部分画像と、第１部分画像とは異なる位置にある第２部分画像と、で互いに異なるスタイル変換処理が実行されることが好ましい。

（４）上記各実施例で用いられる生成ネットワーク（機械学習モデル）は一例であり、これに限られない。例えば、目、鼻、口で共通の生成ネットワークが用いられても良い。また、例えば、トレーニング時に用いられたスタイル画像が有する１種類のスタイルのみに変換可能である生成ネットワークが用いられても良い。この場合には、例えば、１つの部位（例えば、鼻）のスタイル変換のために、選択可能なスタイル画像の個数分の生成ネットワークが用意され、選択されたスタイル画像に応じて使い分けられても良い。

（５）上記各実施例では、スタイル画像データＳＤは、サーバ１００に格納されたスタイル画像データ群ＳＤＧから選択される。これに代えて、スタイル画像データＳＤは、ユーザによって用意された画像データであっても良い。この場合には、ユーザは、用意したスタイル画像データＳＤを端末装置２００に入力する。入力されたスタイル画像データＳＤは、端末装置２００からサーバ１００に送信され、サーバ１００においてスタイル変換処理に用いられる。

（６）上記各実施例では、ＣＰＵ１１０は、ユーザによって選択されたスタイル画像データＳＤを取得し（例えば、図６のＳ２２７）、該スタイル画像データＳＤを生成ネットワークに入力してスタイル変換処理を実行している（例えば、図６のＳ２３０）。これに代えて、予め複数個のスタイル画像データＳＤを、それぞれ、生成ネットワークＧＮのエンコーダＥＣに入力して、複数個の特徴データを生成しておいても良い。この場合には、ユーザによって選択されたスタイル画像データＳＤに対応する特徴データを取得し、該特徴データを用いてスタイル変換処理を実行しても良い。

（７）上記各実施例では、特定の後処理として、顔の全体のスタイル変換処理（例えば、図６のＳ２５５）を実行することによって、図４（Ｃ）の中間画像Ｉｍｂに現れるスジＢＬを軽減している。これに代えて、他の処理、例えば、フィルタを用いた平滑化処理をスジＢＬの部分の画素に対して実行しても良い。一般的には、スジＢＬを構成する部分、例えば、図４（Ｃ）の変換済部分画像ＴＩｅｒと、変換済部分画像ＴＩｅｒに隣接する部分との間における画素値の差と、を軽減する処理が実行されることが好ましい。

（８）上記各実施例の処理は、一例であり、適宜に省略や追加などの変更が行われ得る。例えば、図９のＳ４２０の白目処理、Ｓ４６０のスタイル変換処理、Ｓ４７５のスタイル変換処理の全部または一部は省略されても良い。また、これらの処理は、第１実施例の図６の処理の中で適宜に実行されても良い。図６または図９において、顔の全体のスタイル変換処理（図６のＳ２５５、図９のＳ４５５）は、省略されても良い。また、スタイル変換の強度のパラメータαは、固定値とされても良いし、各領域のスタイル変換において共通の値が用いられても良い。

（９）上記各実施例のサーバ１００が実行する処理の全部または一部は、端末装置２００によって実行されても良い。例えば、図６のＳ２１０の顔の部位の領域の特定は、端末装置２００のＣＰＵ２１０によって実行されても良い。また、図６のＳ２３０にて生成された各部位の領域に対応する変換済データは、端末装置２００に送信され、端末装置２００において入力画像データと変換済データとを用いて、中間画像データ、あるいは、最終的な出力画像データが生成されても良い。

（１０）図１のサーバ１００や端末装置２００のハードウェア構成は、一例であり、これに限られない。例えば、各実施例の処理を行うサーバ１００や端末装置２００のプロセッサは、ＣＰＵに限らず、ＧＰＵ（Graphics Processing Unit）やＡＳＩＣ（application specific integrated circuit）、あるいは、これらとＣＰＵとの組み合わせであっても良い。また、サーバ１００は、ネットワークを介して互いに通信可能な複数個の計算機（例えば、いわゆるクラウドサーバ）であっても良い。

（１１）上記各実施例において、ハードウェアによって実現されていた構成の一部をソフトウェアに置き換えるようにしてもよく、逆に、ソフトウェアによって実現されていた構成の一部あるいは全部をハードウェアに置き換えるようにしてもよい。例えば、生成ネットワークＧＮ１〜ＧＮ６は、プログラムモジュールに代えて、ASIC（Application Specific Integrated Circuit）等のハードウェア回路によって実現されてよい。

以上、実施例、変形例に基づき本発明について説明してきたが、上記した発明の実施の形態は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明は、その趣旨並びに特許請求の範囲を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物が含まれる。

１００…サーバ,１０００…システム,１１０…ＣＰＵ,１２０…揮発性記憶装置,１３０…不揮発性記憶装置,１６０…通信インタフェース,２００…端末装置,２１０…ＣＰＵ,２２０…不揮発性記憶装置,２３０…揮発性記憶装置,２４０…操作部,２５０…表示装置,２６０…通信インタフェース,３００…ミシン,ＣＣ…特徴結合部,ＣＤ…コンテンツ画像データ,ＤＣ…デコーダ,ＥＣ…エンコーダ,ＧＮ１〜ＧＮ６…生成ネットワーク,ＧＮＧ…生成ネットワーク群,ＩＴ…インターネット,Ｉｃ…補正済画像,Ｉｉｎ…入力画像,Ｉｍａ,Ｉｍｂ…中間画像,Ｉｏｕｔ…出力画像,ＮＷ…無線ネットワーク,ＰＧｓ,ＰＧｔ…コンピュータプログラム,ＳＤ…スタイル画像データ,ＳＤＧ…スタイル画像データ群,ＴＤ…変換済画像データ

Claims

入力画像を示す入力画像データを取得する画像取得工程と、
前記入力画像データを用いて、前記入力画像の一部である第１入力部分画像と、前記入力画像の一部であって前記第１入力部分画像とは異なる位置にある第２入力部分画像と、を特定する部分画像特定工程と、
前記第１入力部分画像を示す第１部分画像データに対して、機械学習モデルを用いた第１スタイル変換処理を実行して、第１変換済部分画像を示す第１変換済データを生成する第１変換工程と、
前記第２入力部分画像を示す第２部分画像データに対して、機械学習モデルを用いた第２スタイル変換処理であって前記第１スタイル変換処理とは異なる前記第２スタイル変換処理を実行して、第２変換済部分画像を示す第２変換済データを生成する第２変換工程と、
第１変換済データと前記第２変換済データとを用いて、前記入力画像に基づく出力画像を示す出力画像データを生成する出力画像生成工程であって、前記出力画像は前記第１入力部分画像に対応する第１出力部分画像と前記第２入力部分画像に対応する第２出力部分画像とを含み、前記第１出力部分画像は前記第１変換済部分画像に基づく画像であり、前記第２出力部分画像は前記第２変換済部分画像に基づく画像である、前記出力画像生成工程と、
を備える画像生成方法。
請求項１に記載の画像生成方法であって、
前記第１スタイル変換処理は、第１スタイル画像を示す第１スタイル画像データを用いて実行され、
前記第２スタイル変換処理は、第２スタイル画像を示す第２スタイル画像データを用いて実行され、
前記第１変換済部分画像は、前記第１スタイル画像のスタイルが前記第１入力部分画像に適用された画像であり、
前記第２変換済部分画像は、前記第２スタイル画像のスタイルが前記第２入力部分画像に適用された画像である、画像生成方法。
請求項１または２に記載の画像生成方法であって、
前記出力画像生成工程は、
第１変換済データと前記第２変換済データとを用いて、前記第１変換済部分画像と前記第２変換済部分画像とを含む中間画像を示す中間画像データを生成する第１工程と、
前記中間画像データに対して特定の後処理を実行して、前記出力画像データを生成する第２工程と、
を含む、画像生成方法。
請求項３に記載の画像生成方法であって、
前記特定の後処理は、前記中間画像において、前記第１変換済部分画像と前記第１変換済部分画像に隣接する部分との間における画素値の差と、前記第２変換済部分画像と前記第２変換済部分画像に隣接する部分との間における画素値の差と、をそれぞれ低減する処理を含む、画像生成方法。
請求項３または４に記載の画像生成方法であって、
前記特定の後処理は、機械学習モデルを用いた第３スタイル変換処理であって前記第１スタイル変換処理および前記第２スタイル変換処理とは異なる前記第３スタイル変換処理を含む、画像生成方法。
請求項５に記載の画像生成方法であって、
前記第３スタイル変換処理は、前記入力画像データをスタイル画像データとして用いて実行される、画像生成方法。
請求項６に記載の画像生成方法であって、
前記入力画像は、人物の顔を示す画像を含み、
前記特定の後処理は、前記入力画像データに対して、前記人物の顔の肌色を補正する処理を実行して、補正済みの前記入力画像データを生成する処理を含み、
前記第３スタイル変換処理は、補正済みの前記入力画像データをスタイル画像データとして用いて実行される、画像生成方法。
請求項３〜７のいずれかに記載の画像生成方法であって、
前記特定の後処理は、機械学習モデルを用いた第４スタイル変換処理であって前記第１スタイル変換処理および前記第２スタイル変換処理とは異なる前記第４スタイル変換処理を含み、
前記入力画像は、人物の顔を示す画像を含み、
前記第４スタイル変換処理は、前記人物の顔の表情を変更する処理である、画像生成方法。
請求項１〜８のいずれかに記載の画像生成方法であって、
前記入力画像は、人物の顔を示す画像を含み、
前記第１入力部分画像は、前記人物の顔を構成する第１の部位を示す画像であり、
前記第２入力部分画像は、前記人物の顔を構成する第２の部位であって前記第１の部位とは異なる位置にある前記第２の部位を示す画像である、画像生成方法。
請求項１〜９のいずれかに記載の画像生成方法であって、さらに、
前記入力画像の種類を特定する種類特定工程を備え、
前記入力画像が第１種の入力画像である場合に、
前記第１変換工程では、前記第１部分画像データに対して第１種の前記第１スタイル変換処理が実行され、
前記第２変換工程では、前記第２部分画像データに対して第１種の前記第２スタイル変換処理が実行され、
前記入力画像が第２種の入力画像である場合に、
前記第１変換工程では、前記第１部分画像データに対して第２種の前記第１スタイル変換処理が実行され、
前記第２変換工程では、前記第２部分画像データに対して第２種の前記第２スタイル変換処理が実行される、画像生成方法。
請求項１０に記載の画像生成方法であって、
前記入力画像は、人物の顔を示す画像を含み、
前記入力画像の種類は、前記人物の性別、人種、表情、顔の角度のうちの少なくとも一部に関する種類である、画像生成方法。
請求項１〜１１のいずれかに記載の画像生成方法であって、
前記第１スタイル変換処理は、前記第１入力部分画像と、生成すべき前記第１変換済部分画像と、の間の差異の程度を指定する第１パラメータを用いて実行され、
前記第２スタイル変換処理は、前記第２入力部分画像と、生成すべき前記第２変換済部分画像と、の間の差異の程度を指定する第２パラメータを用いて実行され、
前記第１パラメータと前記第２パラメータとは、独立して調整される、画像生成方法。
請求項１〜１２のいずれかに記載の画像生成方法であって、さらに、
前記第１入力部分画像を示す前記第１部分画像データに対して実行すべき処理を選択する処理選択工程と、
前記第１部分画像データに対して、機械学習モデルを用いずに前記第１入力部分画像の少なくとも一部の色を変換する色変換処理を実行する色変換工程と、
を備え、
前記処理選択工程にて前記第１スタイル変換処理が選択される場合に、前記色変換工程を実行せずに、前記第１変換工程が実行され、
前記処理選択工程にて前記色変換処理が選択される場合に、前記第１変換工程を実行せずに、前記色変換工程が実行される、画像生成方法。
請求項１３に記載の画像生成方法であって、
前記入力画像は、人物の顔を示す画像を含み、
前記第１入力部分画像は、前記人物の目を示す画像であり、
前記色変換処理は、前記目を示す画像の白目の部分に対応する画素の値を、白を示す特定の値に変換する処理である、画像生成方法。
請求項１〜１４のいずれかに記載の画像生成方法であって、さらに、
ユーザによる第１の入力に基づいて、前記第１スタイル変換処理のための第１入力情報を取得し、ユーザによる第２の入力に基づいて、前記第２スタイル変換処理のための第２入力情報を取得する情報取得工程を備え、
前記第１変換工程では、前記第１入力情報を用いて前記第１スタイル変換処理が実行され、
前記第２変換工程では、前記第２入力情報を用いて前記第２スタイル変換処理が実行される、画像生成方法。
請求項１５に記載の画像生成方法であって、
前記第１入力情報は、前記第１入力部分画像に対応する画像であって前記第１入力部分画像とは異なるスタイルを有する画像を示すデータを含み、
前記第２入力情報は、前記第２入力部分画像に対応する画像であって前記第２入力部分画像とは異なるスタイルを有する画像を示すデータを含む、画像生成方法。
請求項１〜１６のいずれかに記載の画像生成方法であって、
前記入力画像は、人物の顔を示す画像を含み、
前記第２入力部分画像は、前記人物の口を示す画像であり、
前記第２スタイル変換処理は、前記口を示す画像において歯列を矯正する処理である、画像生成方法。
入力画像を示す入力画像データを取得する画像取得部と、
前記入力画像データを用いて、前記入力画像の一部である第１入力部分画像と、前記入力画像の一部であって前記第１入力部分画像とは異なる位置にある第２入力部分画像と、を特定する部分画像特定部と、
前記第１入力部分画像を示す第１部分画像データに対して、機械学習モデルを用いた第１スタイル変換処理を実行して、第１変換済部分画像を示す第１変換済データを生成する第１変換部と、
前記第２入力部分画像を示す第２部分画像データに対して、機械学習モデルを用いた第２スタイル変換処理であって前記第１スタイル変換処理とは異なる前記第２スタイル変換処理を実行して、第２変換済部分画像を示す第２変換済データを生成する第２変換部と、
第１変換済データと前記第２変換済データとを用いて、前記入力画像に基づく出力画像を示す出力画像データを生成する出力画像生成部であって、前記出力画像は前記第１入力部分画像に対応する第１出力部分画像と前記第２入力部分画像に対応する第２出力部分画像とを含み、前記第１出力部分画像は前記第１変換済部分画像に基づく画像であり、前記第２出力部分画像は前記第２変換済部分画像に基づく画像である、前記出力画像生成部と、
を備えるシステム。
入力画像の一部である第１入力部分画像を示す第１部分画像データと、前記入力画像の一部であって前記第１入力部分画像とは異なる位置にある第２入力部分画像を示す第２部分画像データと、を取得する部分画像取得機能と、
前記第１部分画像データに対して、機械学習モデルを用いた第１スタイル変換処理を実行して、第１変換済部分画像を示す第１変換済データを生成する第１変換機能と、
前記第２入力部分画像を示す第２部分画像データに対して、機械学習モデルを用いた第２スタイル変換処理であって前記第１スタイル変換処理とは異なる前記第２スタイル変換処理を実行して、第２変換済部分画像を示す第２変換済データを生成する第２変換機能と、
コンピュータに実現させ、
前記第１変換済みデータと前記第２変換済みデータは、前記入力画像に基づく出力画像を示す出力画像を生成するために用いられ、前記出力画像は前記第１入力部分画像に対応する第１出力部分画像と前記第２入力部分画像に対応する第２出力部分画像とを含み、前記第１出力部分画像は前記第１変換済部分画像に基づく画像であり、前記第２出力部分画像は前記第２変換済部分画像に基づく画像である、コンピュータプログラム。