JP7084457B2 - 画像の生成方法、生成装置、電子機器、コンピュータ可読媒体およびコンピュータプログラム - Google Patents
画像の生成方法、生成装置、電子機器、コンピュータ可読媒体およびコンピュータプログラム Download PDFInfo
- Publication number
- JP7084457B2 JP7084457B2 JP2020157447A JP2020157447A JP7084457B2 JP 7084457 B2 JP7084457 B2 JP 7084457B2 JP 2020157447 A JP2020157447 A JP 2020157447A JP 2020157447 A JP2020157447 A JP 2020157447A JP 7084457 B2 JP7084457 B2 JP 7084457B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- user
- face
- presenting
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 169
- 238000004590 computer program Methods 0.000 title claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 105
- 230000004044 response Effects 0.000 claims description 69
- 230000008569 process Effects 0.000 claims description 37
- 230000001815 facial effect Effects 0.000 claims description 34
- 230000011218 segmentation Effects 0.000 claims description 23
- 230000000694 effects Effects 0.000 claims description 15
- 238000013461 design Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 9
- 230000000873 masking effect Effects 0.000 claims description 9
- 230000005856 abnormality Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 description 17
- 238000012549 training Methods 0.000 description 12
- 230000003993 interaction Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000010428 oil painting Methods 0.000 description 2
- 238000010422 painting Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/2621—Cameras specially adapted for the electronic generation of special effects during image pickup, e.g. digital cameras, camcorders, video cameras having integrated special effects capability
-
- G06T3/04—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/0007—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G06T5/70—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/23—Reliability checks, e.g. acknowledgments or fault reporting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/63—Control of cameras or camera modules by using electronic viewfinders
- H04N23/631—Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/64—Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20172—Image enhancement details
- G06T2207/20182—Noise reduction or smoothing in the temporal domain; Spatio-temporal filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Description
所定スタイルの枠および/または撮影要件を含む自動撮影画面をユーザに提示するステップと、撮影画面で顔が検出されなかったことに応答して、顔が検出されなかった提示情報をユーザに提示するステップと、のうちの少なくとも1項を含む。
なお、本願の出願当初の開示事項を維持するために、本願の出願当初の請求項1~26の記載内容を以下に追加する。
(請求項1)
ユーザから入力した顔を含む第1の画像を受信するステップと、
前記第1の画像をユーザに提示するステップと、
バックグラウンドで、入力された画像に基づいて生成された顔属性情報を制約とする事前トレーニングされた敵対的生成ネットワークに前記第1の画像を入力し、敵対的生成ネットワークから出力された第2の画像を得るステップと、
バックグラウンドで敵対的生成ネットワークから出力された第2の画像が得られたことに応答して、前記第2の画像をユーザに提示するステップと
を含むことを特徴とする、顔画像の生成方法。
(請求項2)
前記方法は、ユーザから入力した顔を含む第1の画像を受信するステップの前に、
対話シーンにおいて、顔変換の指示を受けるステップと、
顔画像を入力する情報をユーザに提示するステップと
をさらに含むことを特徴とする、請求項1に記載の方法。
(請求項3)
顔画像を入力する情報をユーザに提示するステップは、顔自動撮影画面をユーザに提示するステップを含み、
ユーザから入力した顔を含む第1の画像を受信するステップは、ユーザが自動撮影画面で顔を入力したことが検出されたことに応答して、自動撮影機能をトリガして前記第1の画像を得るステップを含むことを特徴とする、請求項2に記載の方法。
(請求項4)
顔自動撮影画面をユーザに提示するステップは、
所定スタイルの枠および/または撮影要件を含む自動撮影画面をユーザに提示するステップと、
撮影画面で顔が検出されなかったことに応答して、顔が検出されなかった提示情報をユーザに提示するステップと
のうちの少なくとも1項を含むことを特徴とする、請求項3に記載の方法。
(請求項5)
顔自動撮影画面をユーザに提示するステップは、
撮影画面で顔が検出されたことに応答して、自動撮影カウントダウンをユーザに提示するステップと、
自動撮影カウントダウンが終了したことに応答して、検出された顔を撮影するステップと、
自動撮影カウントダウン期間内にユーザからの顔の入力がなかったことに応答して、カウントダウンを終了し、顔が検出されなかった提示情報をユーザに提示するステップと
をさらに含むことを特徴とする、請求項3に記載の方法。
(請求項6)
前記第1の画像をユーザに提示するステップは、
前記第1の画像をユーザに所定時間提示した後に、提示された前記第1の画像にマスキングレイヤーを設け、対話シーンにおいて顔変換進行状況提示情報を表示するステップを含むことを特徴とする、請求項4に記載の方法。
(請求項7)
前記所定スタイルの枠は、前記顔変換進行状況提示情報の設計スタイルと同一または類似していることを特徴とする、請求項6に記載の方法。
(請求項8)
事前トレーニングされた敵対的生成ネットワークに前記第1の画像を入力するステップは、
前記第1の画像に対して異なる程度のガウシアンぼかしを行い、異なる程度のガウシアンぼかし後の第1の画像を事前トレーニングされた敵対的生成ネットワークに入力するステップを含むか、または、
前記第1の画像のテクスチャ特徴パラメータ値がテクスチャ閾値よりも大きいか否かを検出し、大きい場合、前記第1の画像に対して異なる程度のガウシアンぼかしを行い、異なる程度のガウシアンぼかし後の第1の画像を事前トレーニングされた敵対的生成ネットワークに入力するステップを含むことを特徴とする、請求項1に記載の方法。
(請求項9)
前記敵対的生成ネットワークが入力された画像に基づいて生成された顔属性情報を制約とすることは、
前記敵対的生成ネットワークが入力された画像に基づいて生成されたマルチチャネルの顔画像を入力とするステップを含み、
前記マルチチャネルの顔画像は、
入力された画像のRGB3チャネル画像と、
入力された画像のうち、顔のキーポイントの1チャネル二値画像またはRGB3チャネル画像、顔のセマンティックセグメンテーション結果の1チャネル二値画像またはRGB3チャネル画像、および髪の1チャネル二値画像のうちの少なくとも1項と
を含むことを特徴とする、請求項1または8に記載の方法。
(請求項10)
前記方法は、前記第2の画像をユーザに所定時間提示した後に、前記第1の画像と前記第2の画像を同時にユーザに提示するステップをさらに含むことを特徴とする、請求項1に記載の方法。
(請求項11)
前記方法は、
顔スタイル変換オプションをユーザに提示するステップと、
ユーザによる変換オプションの選択を受け取るステップと、
変換プロセス画像をユーザに提示するステップと、
バックグラウンドで変換前の第2の画像とは異なるスタイルを有する新たな第2の画像が生成されたことに応答して、新たな第2の画像をユーザに提示するステップと
をさらに含むことを特徴とする、請求項2に記載の方法。
(請求項12)
顔スタイル変換オプションをユーザに提示するステップは、ダイスボタンの画像および動的にクリックする手の画像をユーザに提示するステップを含み、
ユーザによる変換オプションの選択を受け取るステップは、ユーザによるダイスボタンへのクリックを受け取るステップを含み、
変換プロセス画像をユーザに提示するステップは、動的ダイス画像をユーザに提示するステップを含むことを特徴とする、請求項11に記載の方法。
(請求項13)
新たな第2の画像をユーザに提示するステップは、下向き消去の特殊効果で新たな第2の画像をユーザに提示するステップを含むことを特徴とする、請求項11に記載の方法。
(請求項14)
前記方法は、変換オプションを提示した後、所定時間内にユーザによる保存オプションまたは前記変換オプションへの選択操作を受け取っていないことに応じて、顔画像を入力する情報をユーザに提示するステップに戻るステップをさらに含むことを特徴とする、請求項11に記載の方法。
(請求項15)
バックグラウンドで事前トレーニングされた敵対的生成ネットワークに前記第1の画像を入力し、敵対的生成ネットワークから出力された第2の画像を得るステップは、
バックグラウンドで前記第1の画像をクラウドサーバに位置する事前トレーニングされた敵対的生成ネットワークに入力し、敵対的生成ネットワークから出力された第2の画像を得るステップを含み、
前記方法は、バックグラウンドで前記第1の画像をクラウドサーバに位置する事前トレーニングされた敵対的生成ネットワークに入力するときにネットワーク異常が検出されたことに応答して、「ネットワーク異常、再試行してください」という情報をユーザに提示し、かつ、「ネットワーク異常、再試行してください」という情報をユーザに所定時間提示した後に、顔画像を入力する情報をユーザに提示するステップに戻るステップ、をさらに含むことを特徴とする、請求項1に記載の方法。
(請求項16)
前記方法は、
バックグラウンドで事前トレーニングされた敵対的生成ネットワークに前記第1の画像を入力し、敵対的生成ネットワークから出力された第2の画像を得るための所要時間が事前設定された時間を超えたことに応答して、「生成エラー、再試行してください」という情報をユーザに提示し、かつ、「生成エラー、再試行してください」という情報をユーザに提示した時間が所定時間に達したときに、顔画像を入力する情報をユーザに提示するステップに戻るステップと、
バックグラウンドで事前トレーニングされた敵対的生成ネットワークに前記第1の画像を入力し、敵対的生成ネットワークから出力された第2の画像を得る過程で異常が発生したことに応答して、「生成エラー、再試行してください」という情報をユーザに提示し、かつ、「生成エラー、再試行してください」という情報をユーザに提示した時間が所定時間に達したときに、顔画像を入力する情報をユーザに提示するステップに戻るステップと、
ユーザが他のアプリケーションに切り替え、また他のアプリケーションから戻ったことに応答して、顔画像を入力する情報をユーザに提示するステップに戻るステップと
の少なくとも1項をさらに含むことを特徴とする、請求項1に記載の方法。
(請求項17)
ユーザから入力した顔を含む第1の画像を受信するように構成された第1の画像入力ユニットと、
前記第1の画像をユーザに提示するように構成された第1の画像提示ユニットと、
バックグラウンドで、入力された画像に基づいて生成された顔属性情報を制約とする事前トレーニングされた敵対的生成ネットワークに前記第1の画像を入力し、敵対的生成ネットワークから出力された第2の画像を得るように構成された第2の画像出力ユニットと、
バックグラウンドで敵対的生成ネットワークから出力された第2の画像が得られたことに応答して、前記第2の画像をユーザに提示するように構成された第2の画像提示ユニットと
を含むことを特徴とする、顔画像の生成装置。
(請求項18)
前記第1の画像提示ユニットはさらに、前記第1の画像をユーザに所定時間提示した後に、提示された前記第1の画像にマスキングレイヤーを設け、対話シーンにおいて顔変換進行状況提示情報を表示するように構成されていることを特徴とする、請求項17に記載の装置。
(請求項19)
前記第2の画像出力ユニットはさらに、
前記第1の画像に対して異なる程度のガウシアンぼかしを行い、異なる程度のガウシアンぼかし後の第1の画像を事前トレーニングされた敵対的生成ネットワークに入力するか、または、
前記第1の画像のテクスチャ特徴パラメータ値がテクスチャ閾値よりも大きいか否かを検出し、大きい場合、前記第1の画像に対して異なる程度のガウシアンぼかしを行い、異なる程度のガウシアンぼかし後の第1の画像を事前トレーニングされた敵対的生成ネットワークに入力するように構成されていることを特徴とする、請求項17に記載の装置。
(請求項20)
前記第2の画像出力ユニットで用いられる前記敵対的生成ネットワークが入力された画像に基づいて生成された顔属性情報を制約とすることは、
前記敵対的生成ネットワークが入力された画像に基づいて生成されたマルチチャネルの顔画像を入力とするステップを含み、
前記マルチチャネルの顔画像は、
入力された画像のRGB3チャネル画像と、
入力された画像のうち、顔のキーポイントの1チャネル二値画像またはRGB3チャネル画像、顔のセマンティックセグメンテーション結果の1チャネル二値画像またはRGB3チャネル画像、および髪の1チャネル二値画像のうちの少なくとも1項と
を含むことを特徴とする、請求項17または19に記載の装置。
(請求項21)
前記装置は、
顔スタイル変換オプションをユーザに提示するように構成された変換オプション提示ユニットと、
ユーザによる変換オプションの選択を受け取るように構成されたユーザ選択受取ユニットと、
変換プロセス画像をユーザに提示するように構成されたプロセス画像提示ユニットと、
バックグラウンドで変換前の第2の画像とは異なるスタイルを有する新たな第2の画像が生成されたことに応答して、新たな第2の画像をユーザに提示するように構成された第2の画像更新ユニットと
をさらに含むことを特徴とする、請求項17に記載の装置。
(請求項22)
前記変換オプション提示ユニットはさらに、ダイスボタンの画像および動的にクリックする手の画像をユーザに提示するように構成され、
前記ユーザ選択受取ユニットはさらに、ユーザによるダイスボタンへのクリックを受け取るように構成され、
前記プロセス画像提示ユニットはさらに、動的ダイス画像をユーザに提示するように構成されていることを特徴とする、請求項21に記載の装置。
(請求項23)
前記第2の画像更新ユニットはさらに、下向き消去の特殊効果で新たな第2の画像をユーザに提示するように構成されていることを特徴とする、請求項21に記載の装置。
(請求項24)
前記装置は、変換オプションを提示した後、所定時間内にユーザによる保存オプションまたは前記変換オプションへの選択操作を受け取っていないことに応じて、顔画像を入力する情報をユーザに提示するステップに戻るように構成された情報提示復帰ユニットをさらに含むことを特徴とする、請求項21に記載の装置。
(請求項25)
1つまたは複数のプロセッサと、
1つまたは複数のプログラムを記憶するための記憶装置と
を含む電子機器であって、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1~16のいずれか1項に記載の方法を実施させることを特徴とする、電子機器。
(請求項26)
コンピュータプログラムが格納されているコンピュータ可読媒体であって、
前記プログラムはプロセッサによって実行されると、請求項1~16のいずれか1項に記載の方法を実施することを特徴とする、コンピュータ可読媒体。
Claims (27)
- ユーザから入力した顔を含む第1の画像を受信するステップと、
前記第1の画像をユーザに提示するステップと、
前記第1の画像に対して異なる程度のガウシアンぼかしを行い、バックグラウンドで、入力された画像に基づいて生成された顔属性情報を制約とする事前トレーニングされた敵対的生成ネットワークに、異なる程度のガウシアンぼかしが行われた前記第1の画像を入力し、敵対的生成ネットワークから出力された第2の画像を得るステップと、
バックグラウンドで敵対的生成ネットワークから出力された第2の画像が得られたことに応答して、前記第2の画像をユーザに提示するステップと
を含むことを特徴とする、顔画像の生成方法。 - 前記方法は、ユーザから入力した顔を含む第1の画像を受信するステップの前に、
対話シーンにおいて、顔変換の指示を受けるステップと、
顔画像を入力する情報をユーザに提示するステップと
をさらに含むことを特徴とする、請求項1に記載の方法。 - 顔画像を入力する情報をユーザに提示するステップは、顔自動撮影画面をユーザに提示するステップを含み、
ユーザから入力した顔を含む第1の画像を受信するステップは、ユーザが自動撮影画面で顔を入力したことが検出されたことに応答して、自動撮影機能をトリガして前記第1の画像を得るステップを含むことを特徴とする、請求項2に記載の方法。 - 顔自動撮影画面をユーザに提示するステップは、
所定スタイルの枠および/または撮影要件を含む自動撮影画面をユーザに提示するステップと、
撮影画面で顔が検出されなかったことに応答して、顔が検出されなかった提示情報をユーザに提示するステップと
のうちの少なくとも1項を含むことを特徴とする、請求項3に記載の方法。 - 顔自動撮影画面をユーザに提示するステップは、
撮影画面で顔が検出されたことに応答して、自動撮影カウントダウンをユーザに提示するステップと、
自動撮影カウントダウンが終了したことに応答して、検出された顔を撮影するステップと、
自動撮影カウントダウン期間内にユーザからの顔の入力がなかったことに応答して、カウントダウンを終了し、顔が検出されなかった提示情報をユーザに提示するステップと
をさらに含むことを特徴とする、請求項3に記載の方法。 - 前記第1の画像をユーザに提示するステップは、
前記第1の画像をユーザに所定時間提示した後に、提示された前記第1の画像にマスキングレイヤーを設け、対話シーンにおいて顔変換進行状況提示情報を表示するステップを含むことを特徴とする、請求項4に記載の方法。 - 前記所定スタイルの枠は、前記顔変換進行状況提示情報の設計スタイルと同一または類似していることを特徴とする、請求項6に記載の方法。
- 前記第1の画像に対して異なる程度のガウシアンぼかしを行う前に、前記第1の画像のテクスチャ特徴パラメータ値がテクスチャ閾値よりも大きいか否かを検出し、大きい場合、前記第1の画像に対する異なる程度のガウシアンぼかしを行うステップをさらに含むことを特徴とする、請求項1に記載の方法。
- 前記敵対的生成ネットワークが入力された画像に基づいて生成された顔属性情報を制約とすることは、
前記敵対的生成ネットワークが入力された画像に基づいて生成されたマルチチャネルの顔画像を入力とするステップを含み、
前記マルチチャネルの顔画像は、
入力された画像のRGB3チャネル画像と、
入力された画像のうち、顔のキーポイントの1チャネル二値画像またはRGB3チャネル画像、顔のセマンティックセグメンテーション結果の1チャネル二値画像またはRGB3チャネル画像、および髪の1チャネル二値画像のうちの少なくとも1項と
を含むことを特徴とする、請求項1または8に記載の方法。 - 前記方法は、前記第2の画像をユーザに所定時間提示した後に、前記第1の画像と前記第2の画像を同時にユーザに提示するステップをさらに含むことを特徴とする、請求項1に記載の方法。
- 前記方法は、
顔スタイル変換オプションをユーザに提示するステップと、
ユーザによる変換オプションの選択を受け取るステップと、
変換プロセス画像をユーザに提示するステップと、
バックグラウンドで変換前の第2の画像とは異なるスタイルを有する新たな第2の画像が生成されたことに応答して、新たな第2の画像をユーザに提示するステップと
をさらに含むことを特徴とする、請求項2に記載の方法。 - 顔スタイル変換オプションをユーザに提示するステップは、ダイスボタンの画像および動的にクリックする手の画像をユーザに提示するステップを含み、
ユーザによる変換オプションの選択を受け取るステップは、ユーザによるダイスボタンへのクリックを受け取るステップを含み、
変換プロセス画像をユーザに提示するステップは、動的ダイス画像をユーザに提示するステップを含むことを特徴とする、請求項11に記載の方法。 - 新たな第2の画像をユーザに提示するステップは、下向き消去の特殊効果で新たな第2の画像をユーザに提示するステップを含むことを特徴とする、請求項11に記載の方法。
- 前記方法は、変換オプションを提示した後、所定時間内にユーザによる保存オプションまたは前記変換オプションへの選択操作を受け取っていないことに応じて、顔画像を入力する情報をユーザに提示するステップに戻るステップをさらに含むことを特徴とする、請求項11に記載の方法。
- バックグラウンドで事前トレーニングされた敵対的生成ネットワークに前記第1の画像を入力し、敵対的生成ネットワークから出力された第2の画像を得るステップは、
バックグラウンドで前記第1の画像をクラウドサーバに位置する事前トレーニングされた敵対的生成ネットワークに入力し、敵対的生成ネットワークから出力された第2の画像を得るステップを含み、
前記方法は、バックグラウンドで前記第1の画像をクラウドサーバに位置する事前トレーニングされた敵対的生成ネットワークに入力するときにネットワーク異常が検出されたことに応答して、「ネットワーク異常、再試行してください」という情報をユーザに提示し、かつ、「ネットワーク異常、再試行してください」という情報をユーザに所定時間提示した後に、顔画像を入力する情報をユーザに提示するステップに戻るステップ、をさらに含むことを特徴とする、請求項1に記載の方法。 - 前記方法は、
バックグラウンドで事前トレーニングされた敵対的生成ネットワークに前記第1の画像を入力し、敵対的生成ネットワークから出力された第2の画像を得るための所要時間が事前設定された時間を超えたことに応答して、「生成エラー、再試行してください」という情報をユーザに提示し、かつ、「生成エラー、再試行してください」という情報をユーザに提示した時間が所定時間に達したときに、顔画像を入力する情報をユーザに提示するステップに戻るステップと、
バックグラウンドで事前トレーニングされた敵対的生成ネットワークに前記第1の画像を入力し、敵対的生成ネットワークから出力された第2の画像を得る過程で異常が発生したことに応答して、「生成エラー、再試行してください」という情報をユーザに提示し、かつ、「生成エラー、再試行してください」という情報をユーザに提示した時間が所定時間に達したときに、顔画像を入力する情報をユーザに提示するステップに戻るステップと、
ユーザが他のアプリケーションに切り替え、また他のアプリケーションから戻ったことに応答して、顔画像を入力する情報をユーザに提示するステップに戻るステップと
の少なくとも1項をさらに含むことを特徴とする、請求項1に記載の方法。 - ユーザから入力した顔を含む第1の画像を受信するように構成された第1の画像入力ユニットと、
前記第1の画像をユーザに提示するように構成された第1の画像提示ユニットと、
前記第1の画像に対して異なる程度のガウシアンぼかしを行い、バックグラウンドで、入力された画像に基づいて生成された顔属性情報を制約とする事前トレーニングされた敵対的生成ネットワークに、異なる程度のガウシアンぼかしが行われた前記第1の画像を入力し、敵対的生成ネットワークから出力された第2の画像を得るように構成された第2の画像出力ユニットと、
バックグラウンドで敵対的生成ネットワークから出力された第2の画像が得られたことに応答して、前記第2の画像をユーザに提示するように構成された第2の画像提示ユニットと
を含むことを特徴とする、顔画像の生成装置。 - 前記第1の画像提示ユニットはさらに、前記第1の画像をユーザに所定時間提示した後に、提示された前記第1の画像にマスキングレイヤーを設け、対話シーンにおいて顔変換進行状況提示情報を表示するように構成されていることを特徴とする、請求項17に記載の装置。
- 前記第2の画像出力ユニットはさらに、
前記第1の画像に対して異なる程度のガウシアンぼかしを行う前に、前記第1の画像のテクスチャ特徴パラメータ値がテクスチャ閾値よりも大きいか否かを検出し、大きい場合、前記第1の画像に対する異なる程度のガウシアンぼかしを行うように構成されていることを特徴とする、請求項17に記載の装置。 - 前記第2の画像出力ユニットで用いられる前記敵対的生成ネットワークが入力された画像に基づいて生成された顔属性情報を制約とすることは、
前記敵対的生成ネットワークが入力された画像に基づいて生成されたマルチチャネルの顔画像を入力とするステップを含み、
前記マルチチャネルの顔画像は、
入力された画像のRGB3チャネル画像と、
入力された画像のうち、顔のキーポイントの1チャネル二値画像またはRGB3チャネル画像、顔のセマンティックセグメンテーション結果の1チャネル二値画像またはRGB3チャネル画像、および髪の1チャネル二値画像のうちの少なくとも1項と
を含むことを特徴とする、請求項17または19に記載の装置。 - 前記装置は、
顔スタイル変換オプションをユーザに提示するように構成された変換オプション提示ユニットと、
ユーザによる変換オプションの選択を受け取るように構成されたユーザ選択受取ユニットと、
変換プロセス画像をユーザに提示するように構成されたプロセス画像提示ユニットと、
バックグラウンドで変換前の第2の画像とは異なるスタイルを有する新たな第2の画像が生成されたことに応答して、新たな第2の画像をユーザに提示するように構成された第2の画像更新ユニットと
をさらに含むことを特徴とする、請求項17に記載の装置。 - 前記変換オプション提示ユニットはさらに、ダイスボタンの画像および動的にクリックする手の画像をユーザに提示するように構成され、
前記ユーザ選択受取ユニットはさらに、ユーザによるダイスボタンへのクリックを受け取るように構成され、
前記プロセス画像提示ユニットはさらに、動的ダイス画像をユーザに提示するように構成されていることを特徴とする、請求項21に記載の装置。 - 前記第2の画像更新ユニットはさらに、下向き消去の特殊効果で新たな第2の画像をユーザに提示するように構成されていることを特徴とする、請求項21に記載の装置。
- 前記装置は、変換オプションを提示した後、所定時間内にユーザによる保存オプションまたは前記変換オプションへの選択操作を受け取っていないことに応じて、顔画像を入力する情報をユーザに提示するステップに戻るように構成された情報提示復帰ユニットをさらに含むことを特徴とする、請求項21に記載の装置。
- 1つまたは複数のプロセッサと、
1つまたは複数のプログラムを記憶するための記憶装置と
を含む電子機器であって、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1~16のいずれか1項に記載の方法を実施させることを特徴とする、電子機器。 - コンピュータプログラムが格納されているコンピュータ可読媒体であって、
前記プログラムはプロセッサによって実行されると、請求項1~16のいずれか1項に記載の方法を実施することを特徴とする、コンピュータ可読媒体。 - コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項1~16のいずれか一項に記載の方法が実現する、コンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010065590.1A CN111260545B (zh) | 2020-01-20 | 2020-01-20 | 生成图像的方法和装置 |
CN202010065590.1 | 2020-01-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021114279A JP2021114279A (ja) | 2021-08-05 |
JP7084457B2 true JP7084457B2 (ja) | 2022-06-14 |
Family
ID=70948037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020157447A Active JP7084457B2 (ja) | 2020-01-20 | 2020-09-18 | 画像の生成方法、生成装置、電子機器、コンピュータ可読媒体およびコンピュータプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US11463631B2 (ja) |
JP (1) | JP7084457B2 (ja) |
KR (1) | KR102451198B1 (ja) |
CN (1) | CN111260545B (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6693684B2 (ja) * | 2018-03-29 | 2020-05-13 | 三菱電機株式会社 | 異常検査装置および異常検査方法 |
CN111738910A (zh) * | 2020-06-12 | 2020-10-02 | 北京百度网讯科技有限公司 | 一种图像处理方法、装置、电子设备和存储介质 |
CN111833242A (zh) * | 2020-07-17 | 2020-10-27 | 北京字节跳动网络技术有限公司 | 人脸变换方法、装置、电子设备和计算机可读介质 |
CN111915526A (zh) * | 2020-08-05 | 2020-11-10 | 湖北工业大学 | 一种基于亮度注意力机制低照度图像增强算法的摄影方法 |
US11425121B2 (en) * | 2020-12-15 | 2022-08-23 | International Business Machines Corporation | Generating an evaluation-mask for multi-factor authentication |
US11651525B2 (en) * | 2020-12-31 | 2023-05-16 | Accenture Global Solutions Limited | Utilizing machine learning models for inserting user-generated content into media content |
CN113762015A (zh) * | 2021-01-05 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种图像处理方法和装置 |
KR20230159608A (ko) * | 2021-03-30 | 2023-11-21 | 스냅 인코포레이티드 | 포괄적 카메라 |
CN113780084A (zh) * | 2021-08-11 | 2021-12-10 | 上海藤核智能科技有限公司 | 基于生成式对抗网络的人脸数据扩增方法、电子设备和存储介质 |
US11908071B2 (en) * | 2021-10-07 | 2024-02-20 | Google Llc | Systems and methods for reconstructing body shape and pose |
CN113870422B (zh) * | 2021-11-30 | 2022-02-08 | 华中科技大学 | 一种点云重建方法、装置、设备及介质 |
CN114387160B (zh) * | 2022-03-23 | 2022-06-24 | 北京大甜绵白糖科技有限公司 | 训练方法、图像的处理方法、装置、电子设备及存储介质 |
CN115439375B (zh) * | 2022-11-02 | 2023-03-24 | 国仪量子(合肥)技术有限公司 | 图像去模糊模型的训练方法和装置以及应用方法和装置 |
CN116137023B (zh) * | 2023-04-20 | 2023-06-20 | 中国民用航空飞行学院 | 基于背景建模和细节增强的低照度图像增强方法 |
CN117057981B (zh) * | 2023-10-10 | 2024-04-26 | 广州方图科技有限公司 | 一种图像处理方法、装置、电子设备及存储介质 |
CN117649695B (zh) * | 2024-01-30 | 2024-04-12 | 深圳市宗匠科技有限公司 | 一种人脸图像生成方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019148980A (ja) | 2018-02-27 | 2019-09-05 | 株式会社サムスン日本研究所 | 画像変換装置及び画像変換方法 |
CN110706303A (zh) | 2019-10-15 | 2020-01-17 | 西南交通大学 | 基于GANs的人脸图像生成方法 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5060233B2 (ja) * | 2007-09-25 | 2012-10-31 | 富士フイルム株式会社 | 撮像装置およびその自動撮影方法 |
US8457367B1 (en) * | 2012-06-26 | 2013-06-04 | Google Inc. | Facial recognition |
FR3057403B1 (fr) * | 2016-10-10 | 2019-10-18 | Citel | Composant integrant une varistance thermoprotegee et un eclateur en serie |
CN106951867B (zh) * | 2017-03-22 | 2019-08-23 | 成都擎天树科技有限公司 | 基于卷积神经网络的人脸识别方法、装置、系统及设备 |
KR102370063B1 (ko) * | 2017-03-28 | 2022-03-04 | 삼성전자주식회사 | 얼굴 인증 방법 및 장치 |
US10552977B1 (en) * | 2017-04-18 | 2020-02-04 | Twitter, Inc. | Fast face-morphing using neural networks |
CN107577985B (zh) * | 2017-07-18 | 2019-10-15 | 南京邮电大学 | 基于循环生成对抗网络的人脸头像卡通化的实现方法 |
AU2017101166A4 (en) * | 2017-08-25 | 2017-11-02 | Lai, Haodong MR | A Method For Real-Time Image Style Transfer Based On Conditional Generative Adversarial Networks |
CN107491771A (zh) * | 2017-09-21 | 2017-12-19 | 百度在线网络技术(北京)有限公司 | 人脸检测方法和装置 |
US10482337B2 (en) * | 2017-09-29 | 2019-11-19 | Infineon Technologies Ag | Accelerating convolutional neural network computation throughput |
CN108537152B (zh) * | 2018-03-27 | 2022-01-25 | 百度在线网络技术(北京)有限公司 | 用于检测活体的方法和装置 |
CN108550176A (zh) * | 2018-04-19 | 2018-09-18 | 咪咕动漫有限公司 | 图像处理方法、设备及存储介质 |
CN108564127B (zh) * | 2018-04-19 | 2022-02-18 | 腾讯科技(深圳)有限公司 | 图像转换方法、装置、计算机设备及存储介质 |
US10607065B2 (en) * | 2018-05-03 | 2020-03-31 | Adobe Inc. | Generation of parameterized avatars |
JP7010774B2 (ja) * | 2018-06-26 | 2022-01-26 | トヨタ自動車株式会社 | 中間工程状態推定方法 |
JP7022668B2 (ja) | 2018-09-04 | 2022-02-18 | 藤森工業株式会社 | 粘着剤層付き光学フィルムの製造方法 |
KR102503939B1 (ko) * | 2018-09-28 | 2023-02-28 | 한국전자통신연구원 | 얼굴 이미지 비식별화 장치 및 방법 |
CN109800732B (zh) * | 2019-01-30 | 2021-01-15 | 北京字节跳动网络技术有限公司 | 用于生成漫画头像生成模型的方法和装置 |
CN110070483B (zh) * | 2019-03-26 | 2023-10-20 | 中山大学 | 一种基于生成式对抗网络的人像卡通化方法 |
US20210019541A1 (en) * | 2019-07-18 | 2021-01-21 | Qualcomm Incorporated | Technologies for transferring visual attributes to images |
CN110503601A (zh) * | 2019-08-28 | 2019-11-26 | 上海交通大学 | 基于对抗网络的人脸生成图片替换方法及系统 |
CN110648294B (zh) * | 2019-09-19 | 2022-08-30 | 北京百度网讯科技有限公司 | 图像修复方法、装置及电子设备 |
US11385526B2 (en) * | 2019-11-15 | 2022-07-12 | Samsung Electronics Co., Ltd. | Method of processing image based on artificial intelligence and image processing device performing the same |
-
2020
- 2020-01-20 CN CN202010065590.1A patent/CN111260545B/zh active Active
- 2020-09-18 US US17/025,255 patent/US11463631B2/en active Active
- 2020-09-18 JP JP2020157447A patent/JP7084457B2/ja active Active
- 2020-09-24 KR KR1020200123809A patent/KR102451198B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019148980A (ja) | 2018-02-27 | 2019-09-05 | 株式会社サムスン日本研究所 | 画像変換装置及び画像変換方法 |
CN110706303A (zh) | 2019-10-15 | 2020-01-17 | 西南交通大学 | 基于GANs的人脸图像生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111260545B (zh) | 2023-06-20 |
KR102451198B1 (ko) | 2022-10-05 |
KR20210094451A (ko) | 2021-07-29 |
US20210227152A1 (en) | 2021-07-22 |
JP2021114279A (ja) | 2021-08-05 |
CN111260545A (zh) | 2020-06-09 |
US11463631B2 (en) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7084457B2 (ja) | 画像の生成方法、生成装置、電子機器、コンピュータ可読媒体およびコンピュータプログラム | |
CN110827378B (zh) | 虚拟形象的生成方法、装置、终端及存储介质 | |
JP7225188B2 (ja) | ビデオを生成する方法および装置 | |
US20220375247A1 (en) | Image generation using surface-based neural synthesis | |
WO2021008166A1 (zh) | 用于虚拟试衣的方法和装置 | |
CN111275784B (zh) | 生成图像的方法和装置 | |
US11816773B2 (en) | Music reactive animation of human characters | |
US11736717B2 (en) | Video compression system | |
CN115937033A (zh) | 图像生成方法、装置及电子设备 | |
US11430158B2 (en) | Intelligent real-time multiple-user augmented reality content management and data analytics system | |
WO2024041235A1 (zh) | 图像处理方法、装置、设备、存储介质及程序产品 | |
WO2023220163A1 (en) | Multi-modal human interaction controlled augmented reality | |
US11983462B2 (en) | Conversation guided augmented reality experience | |
US20230067305A1 (en) | Conversation guided augmented reality experience | |
US20230326445A1 (en) | Animated speech refinement using machine learning | |
US20230252972A1 (en) | Emotion-based text to speech | |
US11984114B2 (en) | Speech to intent | |
US20240087266A1 (en) | Deforming real-world object using image warping | |
WO2024058966A1 (en) | Deforming real-world object using image warping | |
WO2023060111A1 (en) | Speech recognition with intent estimation | |
WO2024086534A1 (en) | Stylizing a whole-body of a person | |
CN115861491A (zh) | 舞蹈动画的生成方法、电子设备、存储介质和程序产品 | |
CN117710263A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN115828844A (zh) | 一种数据处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201030 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201030 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220513 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220602 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7084457 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |