JP7393388B2

JP7393388B2 - 顔編集方法、装置、電子デバイス及び可読記憶媒体

Info

Publication number: JP7393388B2
Application number: JP2021102321A
Authority: JP
Inventors: フー，ティアンシュ; リウ，ジアミン; ヘ，ションイー; ホン，ジビン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-22
Filing date: 2021-06-21
Publication date: 2023-12-06
Anticipated expiration: 2041-06-21
Also published as: EP3929876B1; JP2022002093A; KR20210157877A; CN111861954A; US20210398335A1; EP3929876A1; KR102495252B1

Description

本開示は、インターネットの技術分野に関し、特に画像処理、ディープラーニングの技術分野における顔編集方法、装置、電子デバイス及び可読記憶媒体に関する。

現在、ショートビデオ型、ビデオライブ型のアプリケーションはますます多くのユーザーに広く使用されている。これらのアプリケーションには、顔に関連するインタラクション機能が含まれ、例えば、顔のメイクアップ、顔の可塑性、顔の編集、顔の表情によるアニメーションのエフエクトのトリガなどがある。

このうち、従来技術は通常、予め設定されたステッカーと顔とを統合して顔編集を実現することを採用している。

しかし、人工でステッカーを設定して顔編集を行うことは、コストが大きい一方で、すべてのユーザに対して1セットのステッカーを使用しており、ニーズによって顔の異なる部位を自由に編集することはできない。

本開示は、技術的課題を解決するために採用する技術案は、処理すべき画像における顔画像を取得することと、編集属性に応じて前記顔画像を属性変換して属性画像を生成することと、前記属性画像に語義分割を行った後、前記編集属性に従って語義分割画像を処理してマスク画像を生成することと、前記マスク画像を用いて前記属性画像と前記処理すべき画像とを統合して結果画像を生成することとを含む顔を編集する方法を提供する。

本開示は、技術的課題を解決するために採用する技術案は、処理すべき画像における顔画像を取得する取得ユニットと、編集属性に応じて前記顔画像を属性変換して属性画像を生成する変換ユニットと、前記属性画像に語義分割を行った後、前記編集属性に従って語義分割画像を処理してマスク画像を生成する処理ユニットと、前記マスク画像を用いて前記属性画像と前記処理すべき画像とを統合して結果画像を生成する統合ユニットと、を備える顔を編集する装置を提供する。

上記開示の一実施形態は、以下の利点または有益な効果を有する。つまり、本開示は、顔を編集するためのコストを低減し、異なるニーズにおける顔の異なる部位の自由な編集を可能にし、顔編集の柔軟性を高めることができる。編集属性に基づいて語義分割画像を処理してマスク画像を生成する技術手段を採用したため、従来技術においてステッカーを介して顔統合を行うことにより、コストが高く、編集の柔軟性が低いという技術問題を克服し、顔編集の柔軟性を高める技術的効果を実現した。

上記の選択可能な方法が有する他の効果は、以下で具体的な実施形態と合わせて説明する。

図面は、本開示をより良く理解するためのものであり、本開示を限定しない。ここで、
本開示の第1実施形態に係る概略図である。本開示の第2実施形態に係る概略図である。本開示の第2実施形態に係る概略図である。本開示の第2実施形態に係る概略図である。本開示の第2実施形態に係る概略図である。本開示の第2実施形態に係る概略図である。本開示の第3実施形態に係る概略図である。本開示の実施形態に係る顔を編集する方法を実施するための電子デバイスのブロック図である。

以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。

図1は、本開示の第1実施形態に係る概略図である。図1に示すように、本実施形態の顔編集方法は、具体的に以下のステップを含むことができる。

S101において、処理すべき画像における顔画像を取得する。

S102において、編集属性に基づいて前記顔画像を属性変換して属性画像を生成する。

S103において、前記属性画像に語義分割を行った後、前記編集属性に従って語義分割画像を処理してマスク画像を生成する。

S104において、前記マスク画像を用いて、前記属性画像と前記処理すべき画像とを統合して結果画像を生成する。

本実施形態の顔編集方法は、異なるニーズにおける顔の異なる部位の自由な編集を実現することができるため、顔編集の柔軟性を高める。

本実施形態における処理すべき画像は、1枚の画像であっても良く、動画を分割して得られた各フレーム画像であってもよい。本実施形態における処理すべき画像が動画における各フレーム画像である場合に、各フレーム画像に対応する結果画像を取得した後、各結果画像を順次に合成して結果動画を生成する。

本実施形態では、処理すべき画像における顔画像を取得する際に、処理すべき画像に対して顔キーポイント検出を行って顔キーポイント情報を取得し、取得された顔キーポイント情報に基づいて、処理すべき画像から顔画像をマッティングする、という方式を採用して良い。

理解すべきなのは、本実施形態は、予め訓練されたニューラルネットワークモデルを用いて画像から顔画像を取得することも可能であり、顔画像の取得方法については限定しない。

異なる処理すべき画像は異なるサイズを具備し得るため、異なるサイズの処理すべき画像のすべてに対して顔の編集を確実に行うために、本実施形態では、顔画像を取得した後、顔画像を予め設定されたサイズにアフィン変換することも可能であり、予め設定されたサイズは256*256であってよい。

より効果的な属性画像を取得するために、本実施形態では、編集属性に応じて顔画像について属性変換を行う前に、顔画像に対して編集属性に応じた前処理を行うことをさらに含むことができる。ここで、異なる編集属性が異なる前処理に対応する。

例えば、編集属性が「低年齢化」であり、その編集属性に対応する前処理がwarp（変形）である場合、本実施形態では、編集属性に応じて顔画像に対して属性変換を行う前に、顔画像における顔のあごを縮小する前処理を行い、編集属性が「女性化」であり、その編集属性に対応する前処理がpadding（塗りつぶす）である場合、本実施形態では、編集属性に基づいて顔画像に対して属性変換を行う前に、顔画像における背景を塗りつぶす（すなわち、髪を塗りつぶす）前処理が行われる。

本実施形態では、顔画像を取得した後、編集属性に従って顔画像に対して属性変換を行って顔画像に対応する属性画像を生成する。ここで、本実施形態における編集属性は、性別属性と年齢属性の少なくとも一方を含み、性別属性は男性化または女性化を含み、年齢属性は低年齢化または高齢化を含み、即ち本実施形態は画像における顔の性別および/または年齢を変換する。

そのため、本実施形態で生成される属性画像では、顔の属性が変化した以外、画像における顔のアイデンティティ、表情、姿勢などの特徴はそのまま変化しない。編集属性が「高齢化」であることを例にすると、本実施形態では、ユーザAの青年の顔画像を入力した後、生成される属性画像は、ユーザAの老年の顔画像であり、老年画像におけるユーザAの表情や姿勢などの特徴は、青年画像におけるものと一致する。

本実施形態における編集属性は、ユーザの選択に応じて決定することができる。本実施形態では、現在の属性に対応する属性に基づいて編集属性を決定しても良い。現在の属性が若年であり、現在の属性に対応する属性が高齢であれば、編集属性は「高齢化」であってよい。現在の属性が女で、現在の属性に対応する属性が男である場合、編集属性は「男性化」であって良い。

本実施形態では、編集属性に応じて顔画像に対して属性変換を行って属性画像を生成する際に、まず編集属性に対応するステッカーを取得した後、取得されたステッカーと顔画像とを統合して属性画像を得ることができる。

本実施形態では、編集属性に応じて顔画像に対して属性変換を行って属性画像を生成する際に、予め訓練して得られた属性編集モデルに編集属性および顔画像を入力し、属性編集モデルの出力結果を属性画像とする、という方式を採用しても良い。ここで、本実施形態における属性編集モデルは、顔画像における顔の属性を編集属性に応じて自動的に編集して属性変換後の属性画像を得られるディープラーニングニューラルネットワークに属する。

理解すべきなのは、本実施形態における属性編集モデルは、敵対的生成ネットワークにおける生成モデルであり、敵対的生成ネットワークを訓練するときに前景画像、統合マスク及び背景画像を同時にモデリングする方式により、訓練により得られた生成モデルが生成された属性画像における背景の欠落部分を埋めることができ、変換効果がより良い属性画像を得ることができる。

本実施形態では、顔画像対応する属性画像を取得した後、まず生成された属性画像に語義分割を行って語義分割画像を取得し、そして編集属性に応じて取得された語義分割画像を処理することによりマスク画像を生成する。ここで、本実施形態で生成されるマスク画像は、画像が統合する領域を制御する、0と1からなる2値画像である。マスク画像において、画素値が1の領域は属性画像の内容を選択し、画素値が0の領域は処理すべき画像の内容を選択する。

ここで、本実施形態で行う語義分割とは、属性画像における顔の各部位を分割することであり、例えば顔における目、鼻、口、眉毛、髪の毛等の部位を分割し、語義分割画像で異なる色を用いて異なる部位を表現することである。本実施形態では、従来技術を用いて属性画像に語義分割を行って語義分割画像を得ることができ、ここでは贅言しない。

本実施形態では、編集属性に応じて語義分割画像を処理してマスク画像を生成する際に、編集属性に対応する編集箇所を決定し、語義分割画像における決定された編集箇所に属する画素の値を1、それ以外の画素の値を0としてマスク画像を得る、という方式を採用することができる。ここで、編集属性によって対応する編集部箇所が異なる。

例えば、編集属性が「高齢化」であり、当該編集属性に対応する編集箇所が目、鼻、口、眉毛、あご、頬、額であれば、語義分割画像における上記部位に属する画素の値を1、その他の画素の値を0に設定する。編集属性が「女性化」であり、当該編集属性に対応する編集箇所が目、口、眉毛、あごであれば、語義分割画像における上記部位に属する画素の値を1、その他の画素の値を0に設定する。

したがって、本実施形態では、生成されたマスク画像が異なる編集属性に対応できるように、編集属性と組み合わせて語義分割画像を処理することにより、異なるニーズにおいて顔の異なる部位を自由に編集するという目的を達成する。

本実施形態では、マスク画像を生成した後、生成されたマスク画像を用いて属性画像と処理すべき画像とを統合することにより、処理すべき画像に対応する結果画像を生成する。

なお、本実施形態では、生成されたマスク画像を用いて属性画像と処理すべき画像とを統合する前に、属性画像を超解像処理してハイビジョン属性画像を生成し、マスク画像を用いてハイビジョン属性画像と処理すべき画像とを統合する、という内容を更に含んで良い。

本実施形態は、超解像処理によりハイビジョン属性画像を得ることにより、属性画像のサイズを拡大することにより（例えば、256*256の画像を512*512の画像に拡大する）、ユーザの顔のサイズに良く合わせる一方、属性画像に存在するボケを除去することができる。

属性画像と処理すべき画像との統合の精度を向上させるために、本実施形態では、マスク画像を用いて属性画像と処理すべき画像とを統合する際に、顔の位置に応じてマスク画像、属性画像及び処理すべき画像をアライメントし、処理すべき画像における対応するマスク画像における画素値が0である領域を決定し、その領域の画像内容をそのまま維持し、処理すべき画像における対応するマスク画像における画素値が1である領域を決定し、その領域の画像内容を属性画像における対応する領域の画像内容に置き換える、という方式を採用することができる。

つまり、本実施形態では、生成されたマスク画像に基づいて属性画像と処理すべき画像とを統合する。マスク画像は編集属性に対応しているため、処理すべき画像における画像内容を属性画像における対応する画像内容のみで置き換えることにより、異なるニーズにおいて顔における異なる部位を自由に編集する目的を実現し、顔編集の柔軟性を向上した。

理解すべきなのは、本実施形態では、顔画像を取得した後にサイズ変換を行う場合、顔位置に応じてマスク画像、属性画像および処理すべき画像をアライメントする際に、更に、マスク画像および属性画像のサイズを処理すべき画像における顔のサイズに変換する必要がある。

本実施形態で開示された上述の方法によれば、まず、編集属性に応じて顔画像を変換して属性画像を生成し、次に編集属性に応じて属性画像を処理してマスク画像を生成し、最後にマスク画像を用いて属性画像と処理すべき画像とを統合して結果画像を生成することにより、異なるニーズにおいて顔の異なる部位を自由に編集することが可能となり、顔編集の柔軟性を高めることができる。

図2A～図2Eは、本開示の第2実施形態に係る概略図である。図2Aは処理すべき画像とその中の顔画像、図2Bは顔画像の属性画像、図2Cは属性画像の語義分割画像およびマスク画像、図2Dは属性画像のサイズを2倍に拡大したハイビジョン属性画像、図2Eは処理すべき画像の結果画像である。当該結果画像は、処理すべき画像と比べて、マスク画像における対応箇所の顔属性（高齢化）が変化している以外、他の特徴が何れも変化されていない。

図3は、本開示の第3実施形態に係る概略図である。図3に示すように、本実施形態の顔編集装置は、処理すべき画像における顔画像を取得する取得ユニット301と、編集属性に応じて前記顔画像に対して属性変換を行って属性画像を生成する変換ユニット302と、前記属性画像に語義分割を行った後、前記編集属性に従って語義分割画像を処理してマスク画像を生成する処理ユニット303と、前記マスク画像を用いて前記属性画像と前記処理すべき画像とを統合して結果画像を生成する統合ユニット304と、を備える

本実施形態における取得ユニット301は、処理すべき画像における顔画像を取得する際に、処理すべき画像に対して顔キーポイント検出を行って顔キーポイント情報を取得し、取得された顔キーポイント情報に基づいて、処理すべき画像から顔画像をマッティングするという方式を採用することができる。

理解すべきなのは、取得ユニット301は、予め訓練されたニューラルネットワークモデルを用いて画像から顔画像を取得することも可能であり、本実施形態では、顔画像の取得方法については限定しない。

異なる処理すべき画像は異なるサイズを具備し得るため、異なるサイズの処理すべき画像のそれぞれに対して顔の編集を確実に行うために、取得ユニット301は、顔画像を取得した後に、更に顔画像を予め設定されたサイズにアフィン変換することができる。ここで、予め設定されたサイズは256*256であって良い。

変換ユニット302は、より効果的な属性画像を取得するために、編集属性に応じて顔画像に対して属性変換を行う前に、更に、顔画像に対して編集属性に対応する前処理を行うことを含んで良い。ここで、異なる編集属性は異なる前処理に対応する。

本実施形態では、取得ユニット301により顔画像が取得された後、変換ユニット302により、編集された属性に応じて顔画像に対して属性変換を行って顔画像に対応する属性画像を生成する。なお、変換ユニット302における編集属性は、男性化または女性化を含む性別属性と、低年齢化または高齢化を含む年齢属性との少なくとも一方を含む。つまり、変換ユニット302は、画像における顔の性別および/または年齢を変換する。

このため、変換ユニット302が生成する属性画像では、顔の属性が変化する以外、画像における顔のアイデンティティ、表情、姿勢などの特徴は何れも変化しない。

変換ユニット302における編集属性は、ユーザの選択に応じて決定することができる。変換ユニット302は、現在の属性に対応する属性に応じて編集属性を決定してもよい。

変換ユニット302は、編集属性に応じて顔画像に対して属性変換を行って属性画像を生成する際に、まず、編集属性に対応するステッカーを取得した後に、取得されたステッカーと顔画像とを統合して属性画像を得ることができる。

変換ユニット302は、編集属性に応じて顔画像に対して属性変換を行って属性画像を生成する際に、編集属性と顔画像とを予め訓練された属性編集モデルに入力し、属性編集モデルの出力結果を属性画像とする、という方式を採用しても良い。なお、変換ユニット302の属性編集モデルは、編集属性に応じて、顔画像における顔の属性を自動的に編集することにより、属性変換後の属性画像を得ることができる。

本実施形態では、変換ユニット302が顔画像に対応する属性画像を取得した後、処理ユニット303は、まず生成された属性画像に対して語義分割を行って語義分割画像を取得し、次に編集属性に応じて取得された語義分割画像を処理してマスク画像を生成する。ここで、処理ユニット303が生成するマスク画像は、画像が統合する領域を制御する0と1からなる2値画像である。マスク画像における画素値が1の領域は属性画像の内容を選択し、画素値が0の領域は処理すべき画像の内容を選択する。

ここで、処理ユニット303が行う語義分割とは、属性画像における顔の各部位を分割し、例えば、顔における目、鼻、口、眉毛、髪の毛等の部位を分割することである。語義分割画像において異なる部位を異なる色で表現する。

処理ユニット303は、編集属性に応じて語義分割画像を処理してマスク画像を生成する際に、編集属性に対応する編集箇所を決定し、語義分割画像における決定された編集箇所に属する画素の値を1、それ以外の画素の値を0としてマスク画像を得るという方式を採用して良い。ここで、編集属性によって対応する編集箇所が異なる。

従って、処理ユニット303は、生成されたマスク画像が異なる編集属性に対応できるように、編集属性と組み合わせて語義分割画像を処理することにより、異なるニーズにおいて顔の異なる部位を自由に編集するという目的を達成した。

処理ユニット303がマスク画像を生成した後、統合ユニット304により生成されたマスク画像を用いて属性画像と処理すべき画像とを統合して処理すべき画像に対応する結果画像を生成する。

また、統合ユニット304は、生成されたマスク画像を用いて属性画像と処理すべき画像とを統合する前に、属性画像を超解像処理してハイビジョン属性画像を生成し、マスク画像を用いてハイビジョン属性画像と処理すべき画像とを統合することを更に含んで良い。

統合ユニット304は、超解像処理によりハイビジョン属性画像を得ることにより、ユーザの顔のサイズに良く合わせるように、属性画像のサイズを拡大する（例えば、256*256の画像を512*512の画像に拡大する）一方、属性画像に存在するボケを除去することができる。

属性画像と処理すべき画像との統合の精度を向上させるために、統合ユニット304は、マスク画像を用いて属性画像と処理すべき画像とを統合する際に、顔の位置に応じてマスク画像、属性画像及び処理すべき画像をアラインメントし、処理すべき画像における対応するマスク画像における画素値が0である領域を決定し、その領域の画像内容をそのまま維持し、処理すべき画像における対応するマスク画像における画素値が1である領域を決定し、その領域の画像内容を属性画像における対応する領域の画像内容に置き換える、という方式を採用することができる。

つまり、統合ユニット304は、生成されたマスク画像に基づいて属性画像と処理すべき画像とを統合する。マスク画像が編集属性に対応しているため、処理すべき画像における画像内容を属性画像における対応する画像内容のみで置き換えることにより、異なるニーズにおいて顔における異なる部位を自由に編集する目的を実現し、顔編集の柔軟性を向上させた。

理解すべきなのは、取得ユニット301が顔画像を取得した後にサイズ変換を行うと、統合ユニット304は、顔の位置に応じてマスク画像、属性画像、および処理すべき画像をアラインメントする際に、更にマスク画像および属性画像のサイズを処理すべき画像における顔のサイズに変換する必要がある。

本開示の実施形態によれば、本開示は更に、電子デバイスおよびコンピュータ可読記憶媒体を提供する。

図4は、本開示の一実施形態に係る顔編集方法の電子デバイスのブロック図である。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、PDA、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子デバイスは、様々な形式のモバイル装置、例えば、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。本文で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び／又は請求される本開示の実現を限定することが意図されない。

図4に示すように、この電子デバイスは、一つ又は複数のプロセッサ401、メモリ402、及び各構成要素に接続するための高速インターフェース及び低速インターフェースを含むインターフェースを備える。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子デバイス内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力/出力装置（例えば、インターフェースに結合される表示装置）にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び／又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子デバイスが接続されてもよく、それぞれのデバイスが必要な操作の一部を提供する（例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする）。図4において、一つのプロセッサ401を例とする。

メモリ402は、本開示で提供される非一時的コンピュータ可読記憶媒体である。なお、前記メモリには、少なくとも１つのプロセッサが本願に提供された顔を編集する方法を実行するように、前記少なくとも１つのプロセッサに実行可能なコマンドが記憶されている。本開示の非一時的なコンピュータ可読記憶媒体は、本願に提供された顔を編集する方法をコンピュータに実行させるためのコンピュータコマンドを記憶している。

メモリ402は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム、モジュール、例えば、本開示の実施例における顔を編集する方法に対応するプログラムコマンド/モジュール（例えば、図3に示された取得ユニット301、変換ユニット302、処理ユニット303、及び統合ユニット304）を記憶するために用いられる。プロセッサ401は、メモリ402に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例における顔を編集する方法を実現する。

メモリ402は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、データ記憶領域は当該電子デバイスの使用により作成されたデータなどを記憶してもよい。また、メモリ402は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリ402は、プロセッサ401に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介して顔を編集する方法の電子デバイスに接続されてもよい。上記のネットワークの実例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。

顔を編集する方法の電子デバイスは、更に、入力装置403と出力装置404とを備えても良い。プロセッサ401、メモリ402、入力装置403及び出力装置404は、バス又は他の手段により接続されても良く、図4においてバスによる接続を例とする。

入力装置403は、入力された数字又はキャラクタ情報を受信し、電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置404は、表示装置、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含むことができる。当該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオードディスプレイ（ＬＥＤ）、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。

本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、当該記憶システム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラマブルシステム上で実行可能及び／又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される）は、プログラマブルプロセッサの機械命令を含み、高水準のプロセス及び／又はオブジェクト向けプログラミング言語、及び／又はアセンブリ／機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び／又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス）を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令及び／又はデータを提供するために用いられる任意の信号を指す。

ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置（例えば、ＣＲＴ（ブラウン管）又はＬＣＤ（液晶ディスプレイ）モニタ）、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス（例えば、マウスや、トラックボール）を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚的なフィードバック、聴覚的なフィードバック、又は触覚的なフィードバック）であり得、ユーザからの入力は、任意の形態で（音響、音声又は触覚による入力を含む）受信され得る。

本明細書に説明されるシステムと技術は、バックエンド構成要素を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア構成要素を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド構成要素を含むコンピューティングシステム（例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる）、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）、ワイド・エリア・ネットワーク（「ＷＡＮ」）、インターネットワークを含む。

コンピュータシステムは、クライアントとサーバーを含み得る。クライアントとサーバーは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。

本開示の実施形態に係る技術案によれば、まず、編集属性に応じて顔画像を変換して属性画像を生成し、次に編集属性に応じて属性画像を処理してマスク画像を生成し、最後にマスク画像を用いて属性画像と処理すべき画像とを統合して結果画像を生成することにより、異なるニーズにおいて顔の異なる部位を自由に編集することが可能となり、顔編集の柔軟性を高めることができる。

以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本開示に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本開示で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。

前記の具体的な実施形態は本開示の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本開示の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本開示の保護範囲内に含まれるべきである。

Claims

顔を編集する方法であって、
処理すべき画像における顔画像を取得することと、
編集属性に応じて前記顔画像を属性変換して属性画像を生成することと、
前記属性画像に語義分割を行って顔の各箇所を分割し、前記編集属性に対応する複数の異なる編集箇所を決定し、語義分割画像における前記編集箇所に属する画素の値を1、それ以外の画素の値を0としてマスク画像を得ることと、
前記マスク画像を用いて前記属性画像と前記処理すべき画像とを統合して結果画像を生成することと、を含み、
前記マスク画像を用いて前記属性画像と前記処理すべき画像とを統合して結果画像を生成することは、
顔位置に応じて前記マスク画像、前記属性画像、および前記処理すべき画像をアラインメントすることと、
前記処理すべき画像における対応する前記マスク画像における画素値が0である領域を決定し、当該領域の画像内容をそのまま維持することと、
前記処理すべき画像における対応する前記マスク画像における画素値が1である領域を決定し、当該領域の画像内容を前記属性画像における対応する領域の画像内容に置き換えることと、を含む、
方法。
処理すべき画像における顔画像を取得した後、前記顔画像を予め設定されたサイズに変換すること、をさらに含む、
請求項1に記載の方法。
編集属性に応じて前記顔画像に属性変換を行う前に、前記顔画像に対して前記編集属性に対応する前処理を行うこと、をさらに含む、
請求項1に記載の方法。
前記マスク画像を用いて前記属性画像と前記処理すべき画像とを統合する前に、前記属性画像を超解像分割してハイビジョン属性画像を生成することと、
前記マスク画像を用いて、前記ハイビジョン属性画像と前記処理すべき画像とを統合することと、をさらに含む
請求項1に記載の方法。
顔を編集する装置であって、
処理すべき画像における顔画像を取得する取得ユニットと、
編集属性に応じて前記顔画像を属性変換して属性画像を生成する変換ユニットと、
前記属性画像に語義分割を行って顔の各箇所を分割し、前記編集属性に対応する複数の異なる編集箇所を決定し、語義分割画像における前記編集箇所に属する画素の値を1、それ以外の画素の値を0としてマスク画像を得る処理ユニットと、
前記マスク画像を用いて前記属性画像と前記処理すべき画像とを統合して結果画像を生成する統合ユニットと、を備え、
前記統合ユニットは、前記マスク画像を用いて前記属性画像と前記処理すべき画像とを統合して結果画像を生成する際に、具体的に、
顔位置に応じて前記マスク画像、前記属性画像、および前記処理すべき画像をアラインメントし、
前記処理すべき画像における対応する前記マスク画像における画素値が0である領域を決定し、当該領域の画像内容をそのまま維持し、
前記処理すべき画像における対応する前記マスク画像における画素値が1である領域を決定し、当該領域の画像内容を前記属性画像における対応する領域の画像内容に置き換える、
装置。
前記取得ユニットは、さらに、
処理すべき画像における顔画像を取得した後、前記顔画像を予め設定されたサイズに変換する、
請求項５に記載の装置。
前記変換ユニットは、さらに、
編集属性に応じて前記顔画像に属性変換を行う前に、前記顔画像に対して前記編集属性に応じた前処理を行う、
請求項５に記載の装置。
前記統合ユニットは、さらに、
前記マスク画像を用いて前記属性画像と前記処理すべき画像とを統合する前に、前記属性画像を超解像分割してハイビジョン属性画像を生成し、
前記マスク画像を用いて、前記ハイビジョン属性画像と前記処理すべき画像とを統合する、
請求項５に記載の装置。
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリと、を備え、
前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに前記請求項1～４のいずれか１項に記載の方法を実行させる電子デバイス。
コンピュータに請求項1～４のいずれか1項に記載の方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体。
コンピュータに請求項1～４のいずれか1項に記載の方法を実行させるためのプログラム。