JP2023143446A - Operation method of information processing device, information processing device, and program - Google Patents
Operation method of information processing device, information processing device, and program Download PDFInfo
- Publication number
- JP2023143446A JP2023143446A JP2022050828A JP2022050828A JP2023143446A JP 2023143446 A JP2023143446 A JP 2023143446A JP 2022050828 A JP2022050828 A JP 2022050828A JP 2022050828 A JP2022050828 A JP 2022050828A JP 2023143446 A JP2023143446 A JP 2023143446A
- Authority
- JP
- Japan
- Prior art keywords
- image
- face image
- loss
- makeup
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000010365 information processing Effects 0.000 title claims abstract description 25
- 238000006243 chemical reaction Methods 0.000 claims abstract description 74
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000010801 machine learning Methods 0.000 claims abstract description 18
- 230000001815 facial effect Effects 0.000 claims description 100
- 230000009466 transformation Effects 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 20
- 230000008569 process Effects 0.000 description 15
- 230000015654 memory Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 239000003086 colorant Substances 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 239000004065 semiconductor Substances 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000005401 electroluminescence Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000011017 operating method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001771 impaired effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 240000001417 Vigna umbellata Species 0.000 description 1
- 235000011453 Vigna umbellata Nutrition 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000036548 skin texture Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
Description
本開示は、情報処理装置の動作方法、情報処理装置、及びプログラムに関する。 The present disclosure relates to an operating method of an information processing device, an information processing device, and a program.
参照画像のスタイルを他の画像に適用する処理を機械学習した画像変換モデルを用い、対象画像のスタイルを変換する技術が知られている(例えば特許文献1)。かかる技術は、美容分野などにおいて応用されている。例えば、メイクアップが施されていない顔画像にメイクアップが施された顔画像、つまり参照画像のメイクアップ情報を付与する画像変換モデルを用いることで、ユーザの顔画像をメイクアップが施された顔画像に変換し、メイクアップを仮想的に試行する、メイクアップ変換方法が提案されている。 2. Description of the Related Art There is a known technique for converting the style of a target image using an image conversion model obtained by machine learning processing for applying the style of a reference image to another image (for example, Patent Document 1). Such technology is applied in the beauty field and the like. For example, by using an image conversion model that adds make-up information from a face image with make-up applied to a face image without make-up, that is, a reference image, the user's face image can be transformed into a face image with make-up applied. A makeup conversion method has been proposed in which a face image is converted and makeup is virtually tried out.
参照画像の多様なスタイルをGAN(Generative Adversarial Network(敵対的生成ネットワーク))等の手法により機械学習した画像変換モデルには、学習が安定せずに、対象画像のスタイルを変換する際に対象画像の属性が損なわれてしまうという問題がある。メイクアップ変換の場合、元の顔画像の質感が損なわれるおそれがある。また、メイクアップ手法はメイクアップアーティストの属人的スキルに依存し日々変化するのでばらつきが生じ易いところ、あらゆるメイクアップを表現可能な画像変換モデルを機械学習により生成するためには際限なく学習を行わねばならず、実用的ではない。 Image transformation models that machine learn various styles of reference images using methods such as GAN (Generative Adversarial Network) do not have stable learning, and when converting the style of the target image, There is a problem that the attributes of the image are lost. In the case of makeup conversion, the texture of the original facial image may be lost. In addition, makeup techniques depend on the makeup artist's personal skills and change from day to day, so variations are likely to occur. In order to use machine learning to generate an image conversion model that can express any makeup, endless learning is required. It has to be done and is not practical.
上記に鑑み、以下では、種々のメイクアップ手法を表現しつつ元の顔画像の属性を損なわないような画像変換を可能にする、情報処理装置の動作方法等を開示する。 In view of the above, hereinafter, a method of operating an information processing apparatus and the like will be disclosed that enables image conversion that does not impair the attributes of the original facial image while expressing various makeup techniques.
上記課題を解決するために本開示における情報処理装置の動作方法は、第1の顔画像に所定の手順によりメイクアップ情報を付与して第2の顔画像に変換する第1の工程と、参照用の顔画像に含まれるメイクアップ情報を付与することで変換対象の顔画像を変換する処理を機械学習して生成された画像変換モデルにより、前記第2の顔画像を参照用の画像として前記第1の顔画像を第3の顔画像に変換する第2の工程と、前記第3の顔画像における前記第1の顔画像の損失を低減させることで前記画像変換モデルを調整する第3の工程と、を含む。 In order to solve the above problems, an operating method of an information processing apparatus according to the present disclosure includes a first step of adding makeup information to a first face image according to a predetermined procedure and converting it into a second face image; The second face image is used as a reference image by an image conversion model generated by machine learning to transform the face image to be converted by adding makeup information included in the face image for conversion. a second step of converting a first facial image into a third facial image; and a third step of adjusting the image transformation model by reducing loss of the first facial image in the third facial image. process.
また、本開示における情報処理装置は、参照用の顔画像に含まれるメイクアップ情報を付与することで変換対象の顔画像を変換する処理を機械学習して生成され、第1の顔画像に所定の手順によりメイクアップ情報が付与された顔画像を参照用の画像として前記第1の顔画像を第2の顔画像に変換した場合に前記第1の顔画像の前記第2の顔画像における損失を低減させるように調整された、画像変換モデルを格納する記憶部と、
入力される顔画像を、前記所定の手順を実行してから前記画像変換モデルにより出力用の顔画像に変換する制御部と、を有する。
In addition, the information processing device according to the present disclosure is generated by machine learning processing for converting a face image to be converted by adding makeup information included in a reference face image, and is generated by applying makeup information to a first face image. Loss of the first face image in the second face image when the first face image is converted into a second face image using the face image to which makeup information has been added as a reference image according to the procedure of a storage unit that stores an image transformation model adjusted to reduce
and a control unit that converts an input facial image into an output facial image using the image conversion model after executing the predetermined procedure.
さらに、本開示におけるプログラムは、情報処理装置により実行されるプログラムであって、前記情報処理装置が、参照用の顔画像に含まれるメイクアップ情報を付与することで変換対象の顔画像を変換する処理を機械学習して生成され、第1の顔画像に所定の手順によりメイクアップ情報が付与された顔画像を参照用の画像として前記第1の顔画像を第2の顔画像に変換した場合に前記第1の顔画像の前記第2の顔画像における損失を低減させるように調整された、画像変換モデルを使用可能であり、入力される顔画像に前記所定の手順を実行する第1の工程と、前記第1の工程が実行された前記顔画像を前記画像変換モデルにより出力用の顔画像に変換する第2の工程と、を含む。 Furthermore, a program in the present disclosure is a program executed by an information processing device, wherein the information processing device converts a face image to be converted by adding makeup information included in a reference face image. When the first face image is converted into a second face image using a face image generated by machine learning processing and with makeup information added to the first face image according to a predetermined procedure as a reference image. an image transformation model adjusted to reduce a loss of the first facial image in the second facial image, and performing the predetermined procedure on an input facial image; and a second step of converting the face image on which the first step has been performed into a face image for output using the image conversion model.
本開示における情報処理装置の動作方法等によれば、種々のメイクアップ手法を表現しつつ元の顔画像の属性を損なわないような画像変換が可能になる。 According to the operating method of the information processing device according to the present disclosure, it is possible to perform image conversion that expresses various makeup techniques while not impairing the attributes of the original facial image.
以下、本発明の実施の形態について説明する。 Embodiments of the present invention will be described below.
[システム構成]
図1は、本発明の一実施形態の構成例を示す図である。情報処理システム1は、ネットワーク11を介して互いに情報通信可能に接続されるサーバ装置10と端末装置12とを有する。情報処理システム1では、端末装置12から送られる各種情報を用いてサーバ装置10が機械学習を行う。端末装置12は、例えば、一以上のパーソナルコンピュータである。パーソナルコンピュータは、タブレット端末装置、スマートフォン等を含んでもよい。サーバ装置10は、例えば、一以上のサーバコンピュータである。サーバ装置10が単一のサーバコンピュータである場合、サーバ装置10は、本実施形態における動作を連係して実行しクラウドサービスを提供する複数のサーバコンピュータであってもよい。ネットワーク11は、例えば、LAN(Local Area Network)、インターネット、アドホックネットワーク、MAN(Metropolitan Area Network)、移動体通信網もしくは他のネットワーク又はこれらいずれかの組合せである。
[System configuration]
FIG. 1 is a diagram showing a configuration example of an embodiment of the present invention. The information processing system 1 includes a
サーバ装置10は、人物の顔を撮像して得られる顔画像を端末装置12から取得し、顔画像を用いて機械学習を行い、画像変換モデル108を生成する。端末装置12は、例えば、ユーザ所有の装置、実店舗に設置され販売員により用いられる装置等である。画像変換モデル108は、メイクアップが施されていない顔画像(人物の正面視における顔全体を含む画像)にメイクアップが施された顔画像、つまり参照画像のメイクアップ情報を付与する画像変換モデルである。また、サーバ装置10は、メイクアップが施されていない顔画像(以下、元顔画像という)に所定の手順でメイクアップ情報を付与した画像を用いて、画像変換モデル108により元顔画像を変換する際に元顔画像の属性が損なわれないように、画像変換モデル108を調整する。
The
具体的には、サーバ装置10は、元顔画像に所定の手順によりメイクアップ情報を付与して一次顔画像に変換する第1の工程(以下、アルゴリズム処理工程という)を実行する。また、サーバ装置10は、参照用の顔画像に含まれるメイクアップ情報を付与することで変換対象の顔画像を変換する処理を機械学習して生成された画像変換モデル108により、一次顔画像を参照用の顔画像として元顔画像を二次顔画像に変換する第2の工程(以下、メイクアップ変換工程という)を実行する。そして、サーバ装置10は、二次顔画像における元顔画像の損失を低減させることで画像変換モデル108を調整する第3の工程(以下、調整工程という)を実行する。ここでは、サーバ装置10が「情報処理装置」に対応する。
Specifically, the
本実施形態によれば、サーバ装置10は、メイクアップアーティストによるメイクアップ手法を再現するための手順によりアルゴリズム処理工程を実行することで、機械学習を経なくてもメイクアップアーティストの手法を模擬することが可能となる。また、アルゴリズム処理工程としてメイクアップ情報の付与手順を分離することで、機械学習すべき情報処理量を低減することができ、機械学習の安定性が向上する。さらに、サーバ装置10は、画像変換モデル108により元顔画像を二次顔画像に変換させ、二次顔画像における元顔画像の損失を低減させることで画像変換モデル108を調整するので、元顔画像をアルゴリズム処理工程とメイクアップ変換工程とを経て二次顔画像に変換する際に、元顔画像の属性が損なわれることを抑制することが可能となる。すなわち、種々のメイクアップ手法を再現しつつ元顔画像の属性、特に、ツヤ、マット、シアー、フォギーといったいわゆる質感を損なわないような画像変換が可能になる。
According to the present embodiment, the
次いで、サーバ装置10及び端末装置12の構成について説明する。
Next, the configurations of the
サーバ装置10は、通信部101、記憶部102、制御部103、入力部105、及び出力部106を有する。これらの構成は、サーバ装置10が二以上のサーバコンピュータで構成される場合には、二以上のサーバコンピュータに適宜に配置される。
The
通信部101は、一以上の通信用インタフェースを含む。通信用インタフェースは、例えば、LANインタフェースである。通信部101は、サーバ装置10の動作に用いられる情報を受信し、またサーバ装置10の動作によって得られる情報を送信する。サーバ装置10は、通信部101によりネットワーク11に接続され、ネットワーク11経由で端末装置12と情報通信を行う。
記憶部102は、例えば、主記憶装置、補助記憶装置、又はキャッシュメモリとして機能する一以上の半導体メモリ、一以上の磁気メモリ、一以上の光メモリ、又はこれらのうち少なくとも2種類の組み合わせを含む。半導体メモリは、例えば、RAM(Random Access Memory)又はROM(Read Only Memory)である。RAMは、例えば、SRAM(Static RAM)又はDRAM(Dynamic RAM)である。ROMは、例えば、EEPROM(Electrically Erasable Programmable ROM)である。記憶部102は、制御部103の動作に用いられる情報と、制御部103の動作によって得られた情報とを格納する。記憶部102は、端末装置12から送られる情報に基づき制御部103が生成する画像変換モデル108を格納する。
The
制御部103は、一以上のプロセッサ、一以上の専用回路、又はこれらの組み合わせを含む。プロセッサは、例えば、CPU(Central Processing Unit)などの汎用プロセッサ、又は特定の処理に特化したGPU(Graphics Processing Unit)等の専用プロセッサである。専用回路は、例えば、FPGA(Field-Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)等である。制御部103は、サーバ装置10の各部を制御しながら、サーバ装置10の動作に係る情報処理を実行する。
サーバ装置10の機能は制御部103に含まれるプロセッサが、制御プログラムを実行することにより実現される。制御プログラムは、プロセッサを制御部103として機能させるためのプログラムである。また、サーバ装置10の一部又は全ての機能が、制御部103に含まれる専用回路により実現されてもよい。また、制御プログラムは、制御部103により読取り可能な非一過性の記録・記憶媒体に格納され、制御部103が媒体から読み取ってもよい。
The functions of the
入力部105は、一以上の入力用インタフェースを含む。入力用インタフェースは、例えば、物理キー、静電容量キー、ポインティングデバイス、ディスプレイと一体的に設けられたタッチスクリーン、又は音声入力を受け付けるマイクロフォンである。入力部105は、サーバ装置10の動作に用いられる情報を入力する操作を受け付け、入力される情報を制御部103に送る。
The
出力部106は、一以上の出力用インタフェースを含む。出力用インタフェースは、例えば、ディスプレイ又はスピーカである。ディスプレイは、例えば、LCD(Liquid Crystal Display)又は有機EL(Electro-Luminescence)ディスプレイである。出力部106は、サーバ装置10の動作によって得られる情報を出力する。
The
端末装置12は、通信部121、記憶部122、制御部123、入力部125及び出力部126を有する。
The
通信部121は、有線又は無線LAN規格に対応する通信モジュール、LTE、4G、5G等の移動体通信規格に対応するモジュール等を有する。端末装置12は、通信部121により、近傍のルータ装置又は移動体通信の基地局を介してネットワーク11に接続され、ネットワーク11経由でサーバ装置10等と情報通信を行う。
The communication unit 121 includes a communication module compatible with wired or wireless LAN standards, a module compatible with mobile communication standards such as LTE, 4G, and 5G, and the like. The
記憶部122は一以上の半導体メモリ、一以上の磁気メモリ、一以上の光メモリ、又はこれらのうち少なくとも2種類の組み合わせを含む。半導体メモリは、例えば、RAM又はROMである。RAMは、例えば、SRAM又はDRAMである。ROMは、例えば、EEPROMである。記憶部122は、例えば、主記憶装置、補助記憶装置、又はキャッシュメモリとして機能する。記憶部122は、制御部123の動作に用いられる情報と、制御部123の動作によって得られた情報とを格納する。
The
制御部123は、例えば、CPU、MPU(Micro Processing Unit)等の一以上の汎用プロセッサ、又は特定の処理に特化したGPU等の一以上の専用プロセッサを有する。あるいは、制御部123は、一以上の、FPGA、ASIC等の専用回路を有してもよい。制御部123は、制御・処理プログラムに従って動作したり、あるいは、回路として実装された動作手順に従って動作したりすることで、端末装置12の動作を統括的に制御する。そして、制御部123は、通信部121を介してサーバ装置10等と各種情報を送受し、本実施形態にかかる動作を実行する。
The
端末装置12の機能は、制御部123に含まれるプロセッサが制御プログラムを実行することにより実現される。制御プログラムは、プロセッサを制御部123として機能させるためのプログラムである。また、端末装置12の一部又は全ての機能が、制御部123に含まれる専用回路により実現されてもよい。また、制御プログラムは、制御部123に読取り可能な非一過性の記録・記憶媒体に格納され、制御部123が媒体から読み取ってもよい。
The functions of the
入力部125は、一以上の入力用インタフェースを含む。入力用インタフェースは、例えば、物理キー、静電容量キー、ポインティングデバイス、およびディスプレイと一体的に設けられたタッチスクリーンを含む。また、入力用インタフェースは、音声入力を受け付けるマイクロフォン、及び撮像画像を取り込むカメラを含む。更に、入力用インタフェースは、画像コードをスキャンするスキャナ又はカメラ、ICカードリーダを含んでもよい。入力部125は、制御部123の動作に用いられる情報を入力する操作を受け付け、入力される情報を制御部123に送る。また、入力部125は、カメラによる撮像画像を制御部123に送る。
The
出力部126は、一以上の出力用インタフェースを含む。出力用インタフェースは、例えば、ディスプレイ、及びスピーカを含む。ディスプレイは、例えば、LCD又は有機ELディスプレイである。出力部126は、制御部123の動作によって得られる情報を出力する。
The
[画像変換モデルの生成]
図2は、画像変換モデル108の生成に係るサーバ装置10の動作例を説明するためのフローチャート図である。各ステップは、制御部103により実行される。
[Generation of image conversion model]
FIG. 2 is a flowchart for explaining an example of the operation of the
ステップS20において、制御部103は、画像変換モデルを生成するための機械学習に必要な顔画像を取得する。顔画像は、メイクアップが施されていない、変換対象の元顔画像と、メイクアップが施された参照用の顔画像とを含む。元顔画像は、メイクアップが施されていない人物の顔を撮像することにより生成される。また、参照用の顔画像は、メイクアップが施された人物の顔を撮像することにより生成される。人物の顔の撮像は、例えば、端末装置12により行われる。例えば、端末装置12から送られる複数の元顔画像と、複数の参照用の顔画像とを、制御部103が通信部101を介して受けて、記憶部102に格納する。制御部103は、オープンデータから複数の元顔画像と、複数の参照用の顔画像を取得してもよい。
In step S20, the
ステップS22において、制御部103は、機械学習を実行する。制御部103は、例えば、GANを用いた深層学習を実行する。制御部103は、元顔画像に参照用の顔画像のメイクアップ情報を付与する生成器に対応するモジュールと、生成器が生成する顔画像を元顔画像から識別する識別器に対応するモジュールとを有する。制御部103は、生成器と識別器を敵対的に学習させることで、画像変換モデル108を生成する。制御部103は、生成した画像変換モデル108を記憶部102に格納する。
In step S22, the
[画像変換モデルの調整]
図3は、画像変換モデル108の調整に係るサーバ装置10の動作例を説明するためのフローチャート図である。各ステップは、制御部103により実行される。図4は、画像変換モデル108の調整に用いられる顔画像について説明するための図である。図4を参照しつつ、図3の手順について説明する。
[Adjust image conversion model]
FIG. 3 is a flowchart for explaining an example of the operation of the
ステップS30において、制御部103は、アルゴリズム処理工程を実行するための元顔画像Isrcを取得する。元顔画像Isrcは、メイクアップが施されていない顔画像であって、メイクアップが施されていない人物の顔を例えば端末装置12が撮像することにより生成される。例えば、端末装置12から送られる元顔画像Isrcを、制御部103が通信部101を介して受けて、記憶部102に格納する。制御部103は、オープンデータから複数の元顔画像Isrcを取得してもよい。
In step S30, the
ステップS32において、制御部103は、アルゴリズム処理工程を実行する。制御部103は、元顔画像Isrcに所定のメイクアップ情報MUを付与し、元顔画像Isrcを一次顔画像Isynに変換する。メイクアップ情報MUは、元顔画像Isrcにおける目元、鼻筋、頬、唇を含む部位(以下、メイク部位という)に対し付与される色相、明度、及び彩度のいずれか一以上を含む。メイクアップ情報MUと、メイクアップ情報を付与する手順は、予め任意に設定される画像処理手順である。メイク部位に付される色相、明度、及び彩度は、任意に定量的に定めてもよいし、参照用の顔画像に既に付された色の情報を抽出して適用してもよい。参照用の顔画像は、ユーザが、例えば自らのイメージに合わせて任意に選択することが可能である。参照用画像は、例えば、エレガント、クール、トレンドといった各種タイプのメイクが施された顔画像、及び、実在の人物の顔画像を含む。メイクアップ情報MUは、端末装置12において操作者が入力し、端末装置12からサーバ装置10へ送られてもよい。制御部103は、メイクアップ情報MUにおいて任意に設定された色のアイライン、ノーズシャドウ、チークカラー、又はリップカラー等をそれぞれ顔画像Isrcにおける目元、鼻筋、頬、又は唇に付与する画像処理を実行する。
In step S32, the
ステップS34において、制御部103は、メイクアップ変換工程を実行する。制御部103は、元顔画像Isrcを変換対象の顔画像として、一次顔画像Isynを参照用の顔画像として、画像変換モデル108に入力する。画像変換モデル108は、元顔画像Isrcから顔の形状、立体感、表面状態等の特徴情報を、一次顔画像Isynからメイクアップ情報をエンコーダにより抽出し、元顔画像Isrcに一次顔画像Isynのメイクアップ情報を付与してデコーダにより二次顔画像Igに変換する。
In step S34, the
ステップS36において、制御部103は、調整工程を実行する。制御部103は、二次顔画像Igを損失関数Lのパラメータとしたとき、損失関数Lの値を最小化するように、画像変換モデル108のパラメータを調整する。損失関数Lは、例えば、Adversarial loss、Makeup loss、Perceptual loss、MGE(Mean Gradient Error)loss、Color lossの一以上を含む。
In step S36, the
Adversarial lossは、GANにおける識別器を騙すように生成器を学習させるための損失関数である。制御部103は、二次顔画像Igがメイクアップ変換工程の結果によるものなのか、元顔画像Isrcなのかを識別器により識別させ、その結果を用いて識別器を騙すように生成器を学習させる。そうすることで、二次顔画像Igにおける元顔画像Isrcの損失が小さくなるように、画像変換モデル108のパラメータが調整される。識別器は、グローバル識別器、ローカル識別器を含んでもよい。グローバル識別器は、顔画像全体を対象として二次顔画像Igがメイクアップ変換工程の結果によるものなのか、元顔画像Isrcなのかを識別する。ローカル識別器は、メイク部位を対象として二次顔画像Igがメイクアップ変換工程の結果によるものなのか、元顔画像Isrcなのかを識別する。グローバル識別器とローカル識別器を併用することで、生成器の学習精度を向上させることが可能となる。
Adversarial loss is a loss function for training the generator to fool the classifier in the GAN. The
Makeup lossは、色の分布に関し識別器を騙すように生成器を学習させるための損失関数である。制御部103は、一次顔画像Isynに基づきヒストグラムマッチングにより一次顔画像Isynと同じ色分布を有する疑似的な顔画像を生成する。ヒストグラムマッチングは、顔画像全体の色の分布を対象として行われてもよいし、メイク部位の色分布を対象として行われてもよい。そして、制御部103は、疑似的な顔画像又は二次顔画像Igがヒストグラムマッチング又はメイクアップ変換工程の結果によるものなのか、元顔画像Isrcなのかを識別器に識別させ、その結果を用いて識別器を騙すように生成器を学習させる。そうすることで、二次顔画像Igにおける元顔画像Isrcの損失が小さくなるように、画像変換モデル108のパラメータが調整される。
Makeup loss is a loss function that trains the generator to fool the classifier regarding the color distribution. The
Perceptual lossは、顔画像の輪郭に関し識別器を騙すように生成器を学習させるための損失関数である。制御部103は、生成器にて一次顔画像Isynを二次顔画像Igに変換するときの中間層から変換途中の顔画像を取得し、その画像における目、鼻、口等の各部位のエッジを抽出したエッジ画像を生成する。そして、制御部103は、エッジ画像のエッジがメイクアップ変換工程によるエッジ画像のエッジなのか、元顔画像Isrcのエッジなのかを識別器に識別させ、その結果を用いて識別器を騙すように生成器を学習させる。深層学習では、変換される画像のエッジ情報が中間層で特徴量として抽出されるところ、中間層におけるエッジ画像を用いた学習を行うことで、二次顔画像Igにおける元顔画像Isrcのエッジに関する損失が小さくなるように、画像変換モデル108のパラメータが調整される。すなわち、二次顔画像Igにおける顔の輪郭が元顔画像Isrcにおける顔の輪郭に一致するように、画像変換モデル108が調整される。
Perceptual loss is a loss function for training the generator to fool the classifier regarding the outline of the face image. The
MGE lossは、顔画像の輪郭に関する損失関数である。制御部103は、元顔画像Isrcと二次顔画像Igにそれぞれ微分フィルタを適用してエッジの解像度を増大させる。そして、制御部103は、高解像度の二次顔画像Igにおけるエッジと高解像度の元顔画像Isrcにおけるエッジとが一致するように画像変換モデル108のパラメータを調整する。そうすることで、二次顔画像Igにおける元顔画像Isrcのエッジに関する損失が小さくなるように、画像変換モデル108が調整される。
MGE loss is a loss function regarding the contour of a face image. The
Color lossは、色の分布に関し、Makeup lossを補強するための損失関数である。制御部103は、元顔画像Isrcに対し付与されるメイクアップ情報MUにより規定される色の平均値及び分散値と、メイク部位の一次顔画像Isynにおける色の平均値及び分散値とのそれぞれ差分を導出する。そして、制御部103は、各差分を低減させるように画像変換モデル108のパラメータを調整する。そうすることで、二次顔画像Igにおける元顔画像Isrcの損失が小さくなるように、画像変換モデル108のパラメータが調整される。
Color loss is a loss function for reinforcing Makeup loss regarding color distribution. The
以上のような手順により、画像変換モデル108が調整される。
The
調整された画像変換モデル108は、任意の元顔画像の変換に用いられる。具体的には、制御部103は、任意の元顔画像にアルゴリズム処理を実行して一次顔画像を生成し、一次顔画像を画像変換モデル108により二次顔画像に変換する。ここで、画像変換モデル108の動作の検証結果を示す。
The adjusted
[検証1]
サーバ装置10によるアルゴリズム処理として、参照用の顔画像に含まれるリップカラーをヒストグラムマッチングにより元顔画像に付す処理が実行された。元顔画像として、オープンデータの150通りの任意の顔画像が用いられた。アルゴリズム処理により各元顔画像が一次顔画像に変換され、画像変換モデル108により一次顔画像が二次顔画像に変換された。ここでは、画像変換モデル108には、U-netアーキテクチャが採用された。また、各元顔画像に対し、関連技術によりメイクアップ情報が付された。関連技術として、BeautyGAN、PSGAN(Pose and Expression Robust Spatial-Aware GAN)、及びCPM(Color-Pattern Makeup Transfer)が採用された。そして、二次顔画像と、各関連技術によりメイクアップ情報が付された顔画像について、下記の4項目に関する印象を示すスコアが、12名の被検者(18歳~23歳の女性)から聴取された。
<項目1>参照用の顔画像のリップカラーが反映されているか
<項目2>元顔画像の肌の質感が維持されているか
<項目3>元顔画像の唇の質感が維持されているか
<項目4><1>~<3>についての総合評価
[Verification 1]
As algorithm processing by the
<Item 1> Is the lip color of the reference face image reflected? <Item 2> Is the skin texture of the original face image maintained? <Item 3> Is the lip texture of the original face image maintained? < Item 4> Overall evaluation for <1> to <3>
下の表1は、本実施形態における二次顔画像と、各関連技術による顔画像についての、項目毎のスコアの集計結果を示す。スコアが大きいほど、好印象を示す。表1に示されるように、<項目2>~<項目4>において、本実施形態による二次顔画像が、関連技術による顔画像よりも好印象を得た。
[検証2]
サーバ装置10によるアルゴリズム処理として、参照用の顔画像に含まれるリップカラーをヒストグラムマッチングにより元顔画像に付す処理が実行された。元顔画像として、オープンデータの任意の顔画像が用いられた。また、リップカラーとして、紅色、小豆色、真朱、及び丹色の4色が用いられた。アルゴリズム処理の際、元顔画像のテクスチャ情報を削除し、質感を喪失させる処理が行われた。アルゴリズム処理により元顔画像が一次顔画像に変換されると、サーバ装置10にて、一次顔画像が、異なる損失関数の組合せで調整された4通りの画像変換モデル108により二次顔画像に変換された。ここでは、画像変換モデル108には、U-netアーキテクチャが採用された。画像変換モデル108の調整に用いられた損失関数の4通りの組合せパターンは、以下のとおりである。
<パターン1>Adversarial loss、Makeup loss、Perceptual loss、及びColor loss
<パターン2>Adversarial loss、Makeup loss、MGE loss、及びColor loss
<パターン3>Adversarial loss、Makeup loss、Perceptual loss、及びMGE loss
<パターン4>Adversarial loss、Makeup loss、Perceptual loss、MGE loss、及びColor loss
[Verification 2]
As algorithm processing by the
<Pattern 1> Adversarial loss, Makeup loss, Perceptual loss, and Color loss
<Pattern 2> Adversarial loss, Makeup loss, MGE loss, and Color loss
<Pattern 3> Adversarial loss, Makeup loss, Perceptual loss, and MGE loss
<Pattern 4> Adversarial loss, Makeup loss, Perceptual loss, MGE loss, and Color loss
任意の元顔画像が、4色のリップカラーのそれぞれにつき4通りのパターンで、合計16通りの二次顔画像に変換された。そして、リップカラーの各色について、各パターンによる二次顔画像の定性評価がなされた、各パターンに対する定性評価は以下のとおりとなった。
<パターン1>元顔画像の質感を再現できていない
<パターン2>輪郭が際立ってしまう
<パターン3>学習が不安定になる
<パターン4>上記すべてが解決される
An arbitrary original facial image was converted into a total of 16 secondary facial images, with four patterns for each of the four lip colors. Then, for each color of lip color, a qualitative evaluation was made of the secondary facial image according to each pattern.The qualitative evaluation for each pattern was as follows.
<Pattern 1> The texture of the original face image cannot be reproduced. <Pattern 2> The outline stands out. <Pattern 3> Learning becomes unstable. <Pattern 4> All of the above are resolved.
[検証3]
サーバ装置10によるアルゴリズム処理として、参照用の顔画像に含まれるリップカラーをヒストグラムマッチングにより元顔画像に付す処理が実行された。元顔画像として、オープンデータの任意の顔画像が用いられた。また、アルゴリズム処理の後、リップカラーを色空間上でクラスタリングして光沢領域を特定し、光沢を抑制する(光沢領域を非光沢領域の色で塗りつぶす)処理が行われた。アルゴリズム処理により元顔画像が一次顔画像に変換され、画像変換モデル108により一次顔画像が二次顔画像に変換された。ここでは、画像変換モデル108には、U-netアーキテクチャが採用された。その結果、二次顔画像において、光沢を抑制した領域において元顔画像の立体感が再現されるという定性評価が得られた。
[Verification 3]
As algorithm processing by the
[実施例]
図5は、実施例における情報処理システム1の動作例を説明するためのシーケンス図である。図5の手順は、本実施形態の手順で調整された画像変換モデル108を有するサーバ装置10と端末装置12の連係動作に関する。端末装置12は、例えば、自らの顔の撮像画像を用いて、メイクアップを試行するユーザにより用いられる。
[Example]
FIG. 5 is a sequence diagram for explaining an example of the operation of the information processing system 1 in the embodiment. The procedure in FIG. 5 relates to the cooperative operation of the
ステップS50において、端末装置12はユーザの撮像を行う。端末装置12の制御部123は、入力部125に対するユーザの操作入力に応答して、入力部125に含まれるカメラにより撮像を行う。これにより、端末装置12は元顔画像を取得する。
In step S50, the
ステップS51において、端末装置12は、アルゴリズム処理を選択するための入力を受け付ける。端末装置12の制御部123は、例えば、仮想メイクアップを提供するアプリケーションプログラムを実行する。制御部123は、例えば、出力部126に含まれるディスプレイに、選択メニューを表示する。そして、制御部123は、入力部125に対するユーザの操作入力に応じて、アルゴリズム処理の種類と、アルゴリズム処理により顔画像に付与される色を選択する。選択されるアルゴリズム処理は、アイライン、ノーズシャドウ、チークカラー、又はリップカラー等の付与である。制御部123は、メイクアップ情報を含む参照用の顔画像をサンプルとして表示して、ユーザがサンプルを選択することでアルゴリズム処理を選択してもよい。
In step S51, the
ステップS52において、端末装置12は、元顔画像と画像変換要求とをサーバ装置10へ送る。画像変換要求には、選択されたアルゴリズム処理を特定する情報が含まれる。制御部123は、通信部121により、元顔画像と画像変換要求とを送る。サーバ装置10では、制御部103が、端末装置12から送られる情報を通信部101により受ける。
In step S52, the
ステップS53において、サーバ装置10は、元顔画像に対しアルゴリズム処理を実行する。制御部103は、指定されたアルゴリズム処理を元顔画像に対し実行する。これにより、元顔画像が一次顔画像に変換される。
In step S53, the
ステップS55において、サーバ装置10の制御部103は、画像変換モデル108により、一次顔画像を二次顔画像に変換する。
In step S55, the
ステップS56において、サーバ装置10は、出力用の二次顔画像を端末装置12へ送る。制御部103は、通信部101により、二次顔画像を送る。端末装置12では、制御部123が、サーバ装置10から送られる情報を通信部121により受ける。
In step S56, the
ステップS57において、端末装置12は、二次顔画像を表示する。制御部123は、例えば、出力部126に含まれるディスプレイに、二次顔画像を表示させる。
In step S57, the
上述の手順によれば、調整済みの画像変換モデル108により、メイクアップ後であって元顔画像の質感が再現された自然な顔画像を出力することが可能となる。ユーザは、指定したメイクアップが施された自分の顔画像を確認することが可能となる。
According to the above-described procedure, the adjusted
以上のとおり、本実施形態によれば、種々のメイクアップ手法を表現しつつ元の顔画像の属性を損なわないような画像変換が可能となる。 As described above, according to the present embodiment, it is possible to perform image conversion that expresses various makeup techniques without impairing the attributes of the original facial image.
上述においては、サーバ装置10が「情報処理装置」に対応した。しかしながら、サーバ装置10と端末装置12とが連係動作することで「情報処理装置」を構成してもよいし、端末装置12が「情報処理装置」に対応してもよい。
In the above description, the
上述の実施形態において、端末装置12の動作を規定する処理・制御プログラムは、サーバ装置10の記憶部102又は他のサーバ装置の記憶部に記憶されていて、ネットワーク11経由で端末装置12にダウンロードされてもよいし、コンピュータに読取り可能な非一過性の記録・記憶媒体に格納され、端末装置12が媒体から読み取ってもよい。
In the embodiment described above, the processing/control program that defines the operation of the
上述において、実施形態を諸図面及び実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形及び修正を行うことが容易であることに注意されたい。従って、これらの変形及び修正は本開示の範囲に含まれることに留意されたい。例えば、各手段、各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段、ステップ等を1つに組み合わせたり、或いは分割したりすることが可能である。 Although the embodiments have been described above based on the drawings and examples, it should be noted that those skilled in the art can easily make various changes and modifications based on the present disclosure. It should therefore be noted that these variations and modifications are included within the scope of this disclosure. For example, the functions included in each means, each step, etc. can be rearranged so as not to be logically contradictory, and it is possible to combine multiple means, steps, etc. into one, or to divide them. .
10:サーバ装置
11:ネットワーク
12:端末装置
101、121:通信部
102、122:記憶部
103、123:制御部
105、125:入力部
106、126:出力部
108:画像変換モデル
Isrc:元顔画像
Isyn:一次顔画像
Ig:二次顔画像
L:損失関数
10: Server device 11: Network 12:
Claims (9)
第1の顔画像に所定の手順によりメイクアップ情報を付与して第2の顔画像に変換する第1の工程と、
参照用の顔画像に含まれるメイクアップ情報を付与することで変換対象の顔画像を変換する処理を機械学習して生成された画像変換モデルにより、前記第2の顔画像を参照用の画像として前記第1の顔画像を第3の顔画像に変換する第2の工程と、
前記第3の顔画像における前記第1の顔画像の損失を低減させることで前記画像変換モデルを調整する第3の工程と、
を含む動作方法。 A method for operating an information processing device, the method comprising:
a first step of adding makeup information to the first face image according to a predetermined procedure and converting it into a second face image;
The second face image is used as a reference image using an image conversion model generated by machine learning processing of converting a face image to be converted by adding makeup information included in the reference face image. a second step of converting the first facial image into a third facial image;
a third step of adjusting the image transformation model by reducing loss of the first face image in the third face image;
How it works, including:
前記所定の手順は、前記第1の顔画像の目元、鼻筋、頬、唇を含む部位に、色相、明度、及び彩度のいずれか一以上のメイクアップ情報を付与する手順である、
動作方法。 In claim 1,
The predetermined procedure is a procedure for adding makeup information of one or more of hue, brightness, and saturation to a region of the first face image including the eyes, bridge of the nose, cheeks, and lips.
How it works.
前記所定の手順は機械学習を含まない、
動作方法。 In claim 2,
the predetermined procedure does not include machine learning;
How it works.
前記損失は、前記第1の顔画像における前記部位の色相、明度、及び彩度のいずれか一以上、又は当該部位のエッジの損失である、
動作方法。 In claim 2,
The loss is a loss of one or more of hue, brightness, and saturation of the part in the first facial image, or a loss of an edge of the part,
How it works.
前記損失は、Adversarial loss、Makeup loss、及びPerceptual lossのいずれか一以上により表される、
動作方法。 In claim 4,
The loss is represented by any one or more of Adversarial loss, Makeup loss, and Perceptual loss,
How it works.
前記第3の工程では、更にMGE loss、又はcolor lossを用いて前記損失が調整される、
動作方法。 In claim 5,
In the third step, the loss is further adjusted using MGE loss or color loss.
How it works.
前記画像変換モデルは、前記参照用の顔画像からメイクアップ情報を抽出するエンコーダと、前記変換対象の顔画像を変換するデコーダとを有する、
動作方法。 In claim 1,
The image conversion model includes an encoder that extracts makeup information from the reference face image, and a decoder that converts the face image to be converted.
How it works.
入力される顔画像を、前記所定の手順を実行してから前記画像変換モデルにより出力用の顔画像に変換する制御部と、
を有する情報処理装置。 Generated by machine learning processing of converting the target face image by adding makeup information included in the reference face image, and makeup information is added to the first face image according to a predetermined procedure. An image adjusted to reduce loss of the first face image in the second face image when the first face image is converted into a second face image using the face image as a reference image. a storage unit that stores the conversion model;
a control unit that converts an input facial image into an output facial image using the image conversion model after executing the predetermined procedure;
An information processing device having:
前記情報処理装置が、参照用の顔画像に含まれるメイクアップ情報を付与することで変換対象の顔画像を変換する処理を機械学習して生成され、第1の顔画像に所定の手順によりメイクアップ情報が付与された顔画像を参照用の画像として前記第1の顔画像を第2の顔画像に変換した場合に前記第1の顔画像の前記第2の顔画像における損失を低減させるように調整された、画像変換モデルを使用可能であり、
入力される顔画像に前記所定の手順を実行する第1の工程と、
前記第1の工程が実行された前記顔画像を前記画像変換モデルにより出力用の顔画像に変換する第2の工程と、
を含む、プログラム。
A program executed by an information processing device,
The information processing device is generated by machine learning processing for converting a face image to be converted by adding makeup information included in a reference face image, and applies makeup to the first face image according to a predetermined procedure. To reduce the loss of the first face image in the second face image when the first face image is converted into a second face image using a face image to which close-up information is attached as a reference image. It is possible to use an image transformation model adjusted to
a first step of performing the predetermined procedure on the input facial image;
a second step of converting the face image on which the first step has been performed into a face image for output using the image conversion model;
programs, including.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022050828A JP2023143446A (en) | 2022-03-25 | 2022-03-25 | Operation method of information processing device, information processing device, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022050828A JP2023143446A (en) | 2022-03-25 | 2022-03-25 | Operation method of information processing device, information processing device, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023143446A true JP2023143446A (en) | 2023-10-06 |
Family
ID=88219769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022050828A Pending JP2023143446A (en) | 2022-03-25 | 2022-03-25 | Operation method of information processing device, information processing device, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023143446A (en) |
-
2022
- 2022-03-25 JP JP2022050828A patent/JP2023143446A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11861936B2 (en) | Face reenactment | |
CN109325437B (en) | Image processing method, device and system | |
US9734613B2 (en) | Apparatus and method for generating facial composite image, recording medium for performing the method | |
JP3779570B2 (en) | Makeup simulation apparatus, makeup simulation control method, and computer-readable recording medium recording makeup simulation program | |
CN106682632B (en) | Method and device for processing face image | |
KR20200014889A (en) | System and method for image non-identification | |
WO2016161553A1 (en) | Avatar generation and animations | |
JP2022528128A (en) | Skin quality measurement method, skin quality classification method, skin quality measurement device, electronic device and storage medium | |
TWI544426B (en) | Image processing method and electronic apparatus | |
WO2022143645A1 (en) | Three-dimensional face reconstruction method and apparatus, device, and storage medium | |
CN102074040A (en) | Image processing apparatus, image processing method, and program | |
JP2010507854A (en) | Method and apparatus for virtual simulation of video image sequence | |
CN110853119B (en) | Reference picture-based makeup transfer method with robustness | |
WO2023077742A1 (en) | Video processing method and apparatus, and neural network training method and apparatus | |
KR20190043925A (en) | Method, system and non-transitory computer-readable recording medium for providing hair styling simulation service | |
US20130077869A1 (en) | Image processing apparatus for converting image in characteristic region of original image into image of brushstroke patterns | |
WO2023066120A1 (en) | Image processing method and apparatus, electronic device, and storage medium | |
JP2024500896A (en) | Methods, systems and methods for generating 3D head deformation models | |
KR20220026252A (en) | Mobile terminal, server and method for composing beauty style | |
US20210407153A1 (en) | High-resolution controllable face aging with spatially-aware conditional gans | |
CN113344837B (en) | Face image processing method and device, computer readable storage medium and terminal | |
US20230281764A1 (en) | Systems and methods for selective enhancement of skin features in images | |
JP2023143446A (en) | Operation method of information processing device, information processing device, and program | |
KR100422470B1 (en) | Method and apparatus for replacing a model face of moving image | |
CN116189259A (en) | Face image generation method and device, electronic equipment and storage medium |