JP7137006B2 - 画像処理方法及びその装置、プロセッサ、電子機器並びに記憶媒体 - Google Patents
画像処理方法及びその装置、プロセッサ、電子機器並びに記憶媒体 Download PDFInfo
- Publication number
- JP7137006B2 JP7137006B2 JP2021519659A JP2021519659A JP7137006B2 JP 7137006 B2 JP7137006 B2 JP 7137006B2 JP 2021519659 A JP2021519659 A JP 2021519659A JP 2021519659 A JP2021519659 A JP 2021519659A JP 7137006 B2 JP7137006 B2 JP 7137006B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- face
- facial
- level
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims description 66
- 230000001815 facial effect Effects 0.000 claims description 556
- 238000000034 method Methods 0.000 claims description 405
- 230000008569 process Effects 0.000 claims description 376
- 238000012545 processing Methods 0.000 claims description 285
- 238000012549 training Methods 0.000 claims description 87
- 238000010606 normalization Methods 0.000 claims description 76
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 59
- 230000009466 transformation Effects 0.000 claims description 39
- 238000000605 extraction Methods 0.000 claims description 35
- 230000004927 fusion Effects 0.000 claims description 31
- 238000001994 activation Methods 0.000 claims description 30
- 238000007499 fusion processing Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 22
- 230000004913 activation Effects 0.000 claims description 17
- 230000001131 transforming effect Effects 0.000 claims description 13
- 230000008921 facial expression Effects 0.000 description 28
- 230000006870 function Effects 0.000 description 16
- 230000000694 effects Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 10
- 230000014509 gene expression Effects 0.000 description 10
- 230000037303 wrinkles Effects 0.000 description 7
- 230000036548 skin texture Effects 0.000 description 6
- 238000013507 mapping Methods 0.000 description 5
- 238000002156 mixing Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 239000002932 luster Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/02—Affine transformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Image Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Apparatus For Radiation Diagnosis (AREA)
- Image Analysis (AREA)
Description
例えば、本願は以下の項目を提供する。
(項目1)
画像処理方法であって、
参照顔画像及び参照顔姿勢画像を取得することと、
前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得し、前記参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、前記顔姿勢画像の第1顔マスクを取得することと、
前記顔テクスチャデータ及び前記第1顔マスクに従って、目標画像を取得することと、を含む、前記画像処理方法。
(項目2)
前記顔テクスチャデータ及び前記第1顔マスクに従って、目標画像を取得することは、
前記顔テクスチャデータを復号化処理して、第1顔テクスチャデータを取得することと、
前記第1顔テクスチャデータ及び前記第1顔マスクに対してn(nは、2より大きいか等しい正の整数である)レベルの目標処理を実行して、前記目標画像を取得することであって、前記nレベルの目標処理は、第m-1(mは、2より大きいか等しく、且つ前記nより小さいか等しい正の整数である)レベルの目標処理及び第mレベルの目標処理を含み、前記nレベルの目標処理のうちの第1レベルの目標処理の入力データは前記顔テクスチャデータであり、前記第m-1レベルの目標処理の出力データは、前記第mレベルの目標処理の入力データであり、前記nレベルの目標処理のうちの第i(iは、1より大きいか等しく、且つ前記nより小さいか等しい正の整数である)レベルの目標処理は、前記第iレベルの目標処理の入力データ及び前記第1顔マスクのサイズを調整した後に取得したデータに対して融合処理、復号化処理を順次に実行することを含む、ことと、を含む、
項目1に記載の画像処理方法。
(項目3)
前記第iレベルの目標処理の入力データ及び前記第1顔マスクのサイズを調整した後に取得したデータに対して融合処理、復号化処理を順次に実行することは、
前記第iレベルの目標処理の入力データに従って、前記第iレベルの目標処理の融合されるデータを取得することと、
前記第iレベルの目標処理の融合されるデータ及び第iレベルの顔マスクに対して融合処理を実行して、第iレベルの融合後のデータを取得することであって、前記第iレベルの顔マスクは、前記第1顔マスクに対してダウンサンプリング処理を実行することにより取得されたものであり、前記第iレベルの顔マスクのサイズは、前記第iレベルの目標処理の入力データのサイズと同じである、ことと、
前記第iレベルの融合後のデータを復号化処理して、前記第iレベルの目標処理の出力データを取得することと、を含む、
項目2に記載の画像処理方法。
(項目4)
前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得した後、前記画像処理方法は、
前記顔テクスチャデータに対してjレベルの復号化処理を実行することをさらに含み、前記j(jは、2より大きいか等しい正の整数である)レベルの復号化処理のうちの第1レベルの復号化処理の入力データは前記顔テクスチャデータであり、前記jレベルの復号化処理は、第k-1(kは、2より大きいか等しく、且つ前記jより小さいか等しい正の整数である)レベルの復号化処理及び第kレベルの復号化処理を含み、前記第k-1レベルの復号化処理の出力データは、前記第kレベルの復号化処理の入力データであり、
前記第iレベルの目標処理の入力データに従って、前記第iレベルの目標処理の融合されるデータを取得することは、
前記jレベルの復号化処理のうちの第r(rは、1より大きいか等しく、且つ前記jより小さいか等しい正の整数である)レベルの復号化処理の出力データを前記第iレベルの目標処理の入力データと合併して、第iレベルの合併後のデータを前記第iレベルの目標処理の融合されるデータとして取得することを含み、前記第rレベルの復号化処理の出力データのサイズは、前記第iレベルの目標処理の入力データのサイズと同じである、
項目3に記載の画像処理方法。
(項目5)
前記jレベルの復号化処理のうちの第rレベルの復号化処理の出力データを前記第iレベルの目標処理の入力データと合併して、第iレベルの合併後のデータを取得することは、
前記第rレベルの復号化処理の出力データをチャネル次元で前記第iレベルの目標処理の入力データと合併して、前記第iレベルの合併後のデータを取得することを含む、
項目4に記載の画像処理方法。
(項目6)
前記第rレベルの復号化処理は、
前記第rレベルの復号化処理の入力データに対して活性化処理、逆畳み込み処理、正規化処理を順次に実行して、前記第rレベルの復号化処理の出力データを取得することを含む、
項目4又は5に記載の画像処理方法。
(項目7)
前記第iレベルの目標処理の融合されるデータ及び前記第iレベルの顔マスクに対して融合処理を実行して、前記第iレベルの融合後のデータを取得することは、
第1所定のサイズの畳み込みカーネルを使用して前記第iレベルの顔マスクに対して畳み込み処理を実行して第1特徴データを取得し、第2所定のサイズの畳み込みカーネルを使用して前記第iレベルの顔マスクに対して畳み込み処理を実行して第2特徴データを取得することと、
前記第1特徴データ及び前記第2特徴データに従って正規化形式を決定することと、
前記正規化形式に基づき、前記第iレベルの目標処理の融合されるデータに対して正規化処理を実行して、前記第iレベルの融合後のデータを取得することと、を含む、
項目3ないし6のいずれか一項に記載の画像処理方法。
(項目8)
前記正規化形式は、目標アフィン変換を含み、
前記正規化形式に基づき、前記第iレベルの目標処理の融合されるデータに対して正規化処理を実行して、前記第iレベルの融合後のデータを取得することは、
前記目標アフィン変換に基づき、前記第iレベルの目標処理の融合されるデータをアフィン変換して、前記第iレベルの融合後のデータを取得することを含む、
項目7に記載の画像処理方法。
(項目9)
前記顔テクスチャデータ及び前記第1顔マスクに従って、目標画像を取得することは、
前記顔テクスチャデータと前記第1顔マスクを融合処理して、目標融合データを取得することと、
前記目標融合データを復号化処理して、前記目標画像を取得することと、を含む、
項目1に記載の画像処理方法。
(項目10)
前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得することは、
複数の符号化層を介して前記参照顔画像を段階的符号化処理して、前記参照顔画像の顔テクスチャデータを取得することを含み、前記複数の符号化層は、s(sは、1より大きいか等しい正の整数である)番目の符号化層及びs+1番目の符号化層を含み、前記複数の符号化層のうちの第1層符号化層の入力データは前記参照顔画像であり、前記s番目の符号化層の出力データは、前記s+1番目の符号化層の入力データである、
項目1ないし9のいずれか一項に記載の画像処理方法。
(項目11)
前記複数の符号化層のそれぞれは、畳み込み処理層、正規化処理層及び活性化処理層を含む、
項目10に記載の画像処理方法。
(項目12)
前記画像処理方法は、
前記参照顔画像及び前記目標画像に対してそれぞれ顔キーポイント抽出処理を実行して、前記参照顔画像の第2顔マスク及び前記目標画像の第3顔マスクを取得することと、
前記第2顔マスクと前記第3顔マスクの間の画素値との間の差に従って、第4顔マスクを決定することであって、前記参照顔画像の第1画素点の画素値と前記目標画像の第2画素点の画素値の差は、前記第4顔マスクの第3画素点の値に正相関を有し、前記参照顔画像における前記第1画素点の位置、前記目標画像における前記第2画素点の位置及び前記第4顔マスクにおける前記第3画素点の位置は全て同じである、ことと、
前記第4顔マスク、前記参照顔画像及び前記目標画像を融合処理して、新しい目標画像を取得することと、をさらに含む、
項目1ないし11のいずれか一項に記載の画像処理方法。
(項目13)
前記第2顔マスクと前記第3顔マスクの間の画素値との間の差に従って、第4顔マスクを決定することは、
前記第2顔マスクと前記第3顔マスクの同じ位置にある画素点の画素値の平均値、及び前記第2顔マスクと前記第3顔マスクの同じ位置にある画素点の画素値の分散に従って、アフィン変換フォームを決定することと、
前記アフィン変換フォームに従って、前記第2顔マスク及び前記第3顔マスクをアフィン変換して、前記第4顔マスクを取得することと、を含む、
項目12に記載の画像処理方法。
(項目14)
前記画像処理方法は、顔生成ネットワークに適用され、
前記顔生成ネットワークのトレーニングプロセスは、
前記顔生成ネットワークにトレーニングサンプルを入力して、前記トレーニングサンプルの第1生成画像及び前記トレーニングサンプルの第1再構成画像を取得することであって、前記トレーニングサンプルは、サンプル顔画像及び第1サンプル顔姿勢画像を含み、前記第1再構成画像は、符号化後の前記サンプル顔画像を復号化処理することにより取得されたものである、ことと、
前記サンプル顔画像及び前記第1生成画像の顔特徴の一致度に従って第1損失を取得し、前記第1サンプル顔画像の顔テクスチャ情報と前記第1生成画像の顔テクスチャ情報との間の差に従って第2損失を取得し、前記第1サンプル顔画像の第4画素点の画素値と前記第1生成画像の第5画素点の画素値との間の差に従って第3損失を取得し、前記第1サンプル顔画像の第6画素点の画素値と前記第1再構成画像の第7画素点の画素値との間の差に従って第4損失を取得し、前記第1生成画像の真実性に従って第5損失を取得することであって、前記第1サンプル顔画像における前記第4画素点の位置は、前記第1生成画像における前記第5画素点の位置と同じであり、前記第1サンプル顔画像における前記第6画素点の位置は、前記第1再構成画像における前記第7画素点の位置と同じであり、前記第1生成画像の真実性が高いほど、前記第1生成画像が真の画像である確率が高くなることを表す、ことと、
前記第1損失、前記第2損失、前記第3損失、前記第4損失及び前記第5損失に従って、前記顔生成ネットワークの第1ネットワーク損失を取得することと、
前記第1ネットワーク損失に基づいて前記顔生成ネットワークのパラメータを生成することと、を含む、
項目1ないし13のいずれか一項に記載の画像処理方法。
(項目15)
前記トレーニングサンプルは、第2サンプル顔姿勢画像をさらに含み、前記第2サンプル顔姿勢画像は、前記第2サンプル顔画像にランダム摂動を追加して前記第2サンプル画像の目鼻立ちの位置及び/又は顔の輪郭位置を変更することによって取得されたものであり、
前記顔生成ネットワークのトレーニングプロセスは、
前記顔生成ネットワークに前記第2サンプル顔画像及び第2サンプル顔姿勢画像を入力して、前記トレーニングサンプルの第2生成画像及び前記トレーニングサンプルの第2再構成画像を取得することであって、前記第2再構成画像は、符号化後の前記第2サンプル顔画像を復号化処理することにより取得されたものである、ことと、
前記第2サンプル顔画像及び前記第2生成画像の顔特徴の一致度に従って第6損失を取得し、前記第2サンプル顔画像の顔テクスチャ情報と前記第2生成画像の顔テクスチャ情報との間の差に従って第7損失を取得し、前記第2サンプル顔画像の第8画素点の画素値と前記第2生成画像の第9画素点の画素値との間の差に従って第8損失を取得し、前記第2サンプル顔画像の第10画素点の画素値と前記第2再構成画像の第11画素点の画素値との間の差に従って第9損失を取得し、前記第2生成画像の真実性に従って第10損失を取得することであって、前記第2サンプル顔画像における前記第8画素点の位置は、前記第2生成画像における前記第9画素点の位置と同じであり、前記第2サンプル顔画像における前記第10画素点の位置は、前記第2再構成画像における前記第11画素点の位置と同じであり、前記第2生成画像の真実性が高いほど、前記第2生成画像が真の画像である確率が高くなることを表す、ことと、
前記第6損失、前記第7損失、前記第8損失、前記第9損失及び前記第10損失に従って、前記顔生成ネットワークの第2ネットワーク損失を取得することと、
前記第2ネットワーク損失に基づいて、前記顔生成ネットワークのパラメータを調整することと、をさらに含む、
項目14に記載の画像処理方法。
(項目16)
前記参照顔画像及び参照姿勢画像を取得することは、
ユーザによって端末に入力された処理される顔画像を受信することと、
処理されるビデオを取得することであって、前記処理されるビデオは顔である、ことと、
前記処理される顔画像を前記参照顔画像とし、前記処理されるビデオの画像を前記顔姿勢画像として使用して、目標ビデオを取得することと、を含む、
項目1ないし15のいずれか一項に記載の画像処理方法。
(項目17)
画像処理装置であって、
参照顔画像及び参照顔姿勢画像を取得するように構成される取得ユニットと、
前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得し、前記参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、前記顔姿勢画像の第1顔マスクを取得するように構成される第1処理ユニットと、
前記顔テクスチャデータ及び前記第1顔マスクに従って、目標画像を取得するように構成される第2処理ユニットと、を備える、前記画像処理装置。
(項目18)
前記第2処理ユニットは、
前記顔テクスチャデータを復号化処理して、第1顔テクスチャデータを取得し、
前記第1顔テクスチャデータ及び前記第1顔マスクに対してn(nは、2より大きいか等しい正の整数である)レベルの目標処理を実行して、前記目標画像を取得するように構成され、前記nレベルの目標処理は、第m-1(mは、2より大きいか等しく、且つ前記nより小さいか等しい正の整数である)レベルの目標処理及び第mレベルの目標処理を含み、前記nレベルの目標処理のうちの第1レベルの目標処理の入力データは前記顔テクスチャデータであり、前記第m-1レベルの目標処理の出力データは、前記第mレベルの目標処理の入力データであり、前記nレベルの目標処理のうちの第i(iは、1より大きいか等しく、且つ前記nより小さいか等しい正の整数である)レベルの目標処理は、前記第iレベルの目標処理の入力データ及び前記第1顔マスクのサイズを調整した後に取得したデータに対して融合処理、復号化処理を順次に実行することを含む、
項目17に記載の画像処理装置。
(項目19)
前記第2処理ユニットは、
前記第iレベルの目標処理の入力データに従って、前記第iレベルの目標処理の融合されるデータを取得し、
前記第iレベルの目標処理の融合されるデータ及び第iレベルの顔マスクに対して融合処理を実行して、第iレベルの融合後のデータを取得し、ここで、前記第iレベルの顔マスクは、前記第1顔マスクに対してダウンサンプリング処理を実行することにより取得されたものであり、前記第iレベルの顔マスクのサイズは、前記第iレベルの目標処理の入力データのサイズと同じであり、
前記第iレベルの融合後のデータを復号化処理して、前記第iレベルの目標処理の出力データを取得するように構成される、
項目18に記載の画像処理装置。
(項目20)
前記画像処理装置は更に、
前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得した後、前記顔テクスチャデータに対してjレベルの復号化処理を実行するように構成される復号化処理ユニットを備え、前記j(jは、2より大きいか等しい正の整数である)レベルの復号化処理のうちの第1レベルの復号化処理の入力データは前記顔テクスチャデータであり、前記jレベルの復号化処理は、第k-1(kは、2より大きいか等しく、且つ前記jより小さいか等しい正の整数である)レベルの復号化処理及び第kレベルの復号化処理を含み、前記第k-1レベルの復号化処理の出力データは、前記第kレベルの復号化処理の入力データであり、
前記第2処理ユニットは、前記jレベルの復号化処理のうちの第r(rは、1より大きいか等しく、且つ前記jより小さいか等しい正の整数である)レベルの復号化処理の出力データを前記第iレベルの目標処理の入力データと合併して、第iレベルの合併後のデータを前記第iレベルの目標処理の融合されるデータとして取得するように構成され、前記第rレベルの復号化処理の出力データのサイズは、前記第iレベルの目標処理の入力データのサイズと同じである、
項目19に記載の画像処理装置。
(項目21)
前記第2処理ユニットは、
前記第rレベルの復号化処理の出力データをチャネル次元で前記第iレベルの目標処理の入力データと合併して、前記第iレベルの合併後のデータを取得するように構成される、
項目20に記載の画像処理装置。
(項目22)
前記第rレベルの復号化処理は、
前記第rレベルの復号化処理の入力データに対して活性化処理、逆畳み込み処理、正規化処理を順次に実行して、前記第rレベルの復号化処理の出力データを取得することを含む、
項目20又は21に記載の画像処理装置。
(項目23)
前記第2処理ユニットは、
第1所定のサイズの畳み込みカーネルを使用して前記第iレベルの顔マスクに対して畳み込み処理を実行して第1特徴データを取得し、第2所定のサイズの畳み込みカーネルを使用して前記第iレベルの顔マスクに対して畳み込み処理を実行して第2特徴データを取得し、
前記第1特徴データ及び前記第2特徴データに従って正規化形式を決定し、
前記正規化形式に基づき、前記第iレベルの目標処理の融合されるデータに対して正規化処理を実行して、前記第iレベルの融合後のデータを取得するように構成される、
項目19ないし22のいずれか一項に記載の画像処理装置。
(項目24)
前記正規化形式は、目標アフィン変換を含み、
前記第2処理ユニットは、前記目標アフィン変換に基づき、前記第iレベルの目標処理の融合されるデータをアフィン変換して、前記第iレベルの融合後のデータを取得するように構成される、
項目23に記載の画像処理装置。
(項目25)
前記第2処理ユニットは、
前記顔テクスチャデータと前記第1顔マスクを融合処理して、目標融合データを取得し、
前記目標融合データを復号化処理して、前記目標画像を取得するように構成される、
項目17に記載の画像処理装置。
(項目26)
前記第1処理ユニットは、
複数の符号化層を介して前記参照顔画像を段階的符号化処理して、前記参照顔画像の顔テクスチャデータを取得するように構成され、前記複数の符号化層は、s(sは、1より大きいか等しい正の整数である)番目の符号化層及びs+1番目の符号化層を含み、前記複数の符号化層のうちの第1層符号化層の入力データは前記参照顔画像であり、前記s番目の符号化層の出力データは、前記s+1番目の符号化層の入力データである、
項目17ないし25のいずれか一項に記載の画像処理装置。
(項目27)
前記複数の符号化層のそれぞれは、畳み込み処理層、正規化処理層及び活性化処理層を含む、
項目26に記載の画像処理装置。
(項目28)
前記画像処理装置は更に、
前記参照顔画像及び前記目標画像に対してそれぞれ顔キーポイント抽出処理を実行して、前記参照顔画像の第2顔マスク及び前記目標画像の第3顔マスクを取得するように構成される顔キーポイント抽出処理ユニットと、
前記第2顔マスクと前記第3顔マスクの間の画素値との間の差に従って、第4顔マスクを決定するように構成される決定ユニットであって、前記参照顔画像の第1画素点の画素値と前記目標画像の第2画素点の画素値の差は、前記第4顔マスクの第3画素点の値に正相関を有し、前記参照顔画像における前記第1画素点の位置、前記目標画像における前記第2画素点の位置及び前記第4顔マスクにおける前記第3画素点の位置は全て同じである、決定ユニットと、
前記第4顔マスク、前記参照顔画像及び前記目標画像を融合処理して、新しい目標画像を取得するように構成される融合処理ユニットと、を備える、
項目17ないし27のいずれか一項に記載の画像処理装置。
(項目29)
前記決定ユニットは、
前記第2顔マスクと前記第3顔マスクの同じ位置にある画素点の画素値の平均値、前記第2顔マスクと前記第3顔マスクの同じ位置にある画素点の画素値の分散に従って、アフィン変換フォームを決定し、
前記アフィン変換フォームに従って、前記第2顔マスク及び前記第3顔マスクをアフィン変換して、前記第4顔マスクを取得するように構成される、
項目28に記載の画像処理装置。
(項目30)
前記画像処理装置が実行する画像処理方法は、顔生成ネットワークに適用され、前記画像処理装置は、前記顔生成ネットワークのトレーニングプロセスを実行するように構成され、
前記顔生成ネットワークのトレーニングプロセスは、
前記顔生成ネットワークにトレーニングサンプルを入力して、前記トレーニングサンプルの第1生成画像及び前記トレーニングサンプルの第1再構成画像を取得することであって、前記トレーニングサンプルは、サンプル顔画像及び第1サンプル顔姿勢画像を含み、前記第1再構成画像は、符号化後の前記サンプル顔画像を復号化処理することにより取得されたものである、ことと、
前記サンプル顔画像及び前記第1生成画像の顔特徴の一致度に従って第1損失を取得し、前記第1サンプル顔画像の顔テクスチャ情報と前記第1生成画像の顔テクスチャ情報との間の差に従って第2損失を取得し、前記第1サンプル顔画像の第4画素点の画素値と前記第1生成画像の第5画素点の画素値との間の差に従って第3損失を取得し、前記第1サンプル顔画像の第6画素点の画素値と前記第1再構成画像の第7画素点の画素値との間の差に従って第4損失を取得し、前記第1生成画像の真実性に従って第5損失を取得することであって、前記第1サンプル顔画像における前記第4画素点の位置は、前記第1生成画像における前記第5画素点の位置と同じであり、前記第1サンプル顔画像における前記第6画素点の位置は、前記第1再構成画像における前記第7画素点の位置と同じであり、前記第1生成画像の真実性が高いほど、前記第1生成画像が真の画像である確率が高くなることを表す、ことと、
前記第1損失、前記第2損失、前記第3損失、前記第4損失及び前記第5損失に従って、前記顔生成ネットワークの第1ネットワーク損失を取得することと、
前記第1ネットワーク損失に基づいて前記顔生成ネットワークのパラメータを生成することと、を含む、
項目17ないし29のいずれか一項に記載の画像処理装置。
(項目31)
前記トレーニングサンプルは、第2サンプル顔姿勢画像をさらに含み、前記第2サンプル顔姿勢画像は、前記第2サンプル顔画像にランダム摂動を追加して前記第2サンプル画像の目鼻立ちの位置及び/又は顔の輪郭位置を変更することによって取得されたものであり、
前記顔生成ネットワークのトレーニングプロセスは、
前記顔生成ネットワークに前記第2サンプル顔画像及び第2サンプル顔姿勢画像を入力して、前記トレーニングサンプルの第2生成画像及び前記トレーニングサンプルの第2再構成画像を取得することであって、前記第2再構成画像は、符号化後の前記第2サンプル顔画像を復号化処理することにより取得されたものである、ことと、
前記第2サンプル顔画像及び前記第2生成画像の顔特徴の一致度に従って第6損失を取得し、前記第2サンプル顔画像の顔テクスチャ情報と前記第2生成画像の顔テクスチャ情報との間の差に従って第7損失を取得し、前記第2サンプル顔画像の第8画素点の画素値と前記第2生成画像の第9画素点の画素値との間の差に従って第8損失を取得し、前記第2サンプル顔画像の第10画素点の画素値と前記第2再構成画像の第11画素点の画素値との間の差に従って第9損失を取得し、前記第2生成画像の真実性に従って第10損失を取得することであって、前記第2サンプル顔画像における前記第8画素点の位置は、前記第2生成画像における前記第9画素点の位置と同じであり、前記第2サンプル顔画像における前記第10画素点の位置は、前記第2再構成画像における前記第11画素点の位置と同じであり、前記第2生成画像の真実性が高いほど、前記第2生成画像が真の画像である確率が高くなることを表す、ことと、
前記第6損失、前記第7損失、前記第8損失、前記第9損失及び前記第10損失に従って、前記顔生成ネットワークの第2ネットワーク損失を取得することと、
前記第2ネットワーク損失に基づいて、前記顔生成ネットワークのパラメータを調整することと、をさらに含む、
項目30に記載の画像処理装置。
(項目32)
前記取得ユニットは、
ユーザによって端末に入力された処理される顔画像を受信し、
以及処理されるビデオを取得し、前記処理されるビデオは顔であり、
前記処理される顔画像を前記参照顔画像とし、前記処理されるビデオの画像を前記顔姿勢画像として使用して、目標ビデオを取得するように構成される、
項目17ないし31のいずれか一項に記載の画像処理装置。
(項目33)
プロセッサであって、
項目1ないし16のいずれか一項に記載の画像処理方法を実行するように構成される、前記プロセッサ。
(項目34)
電子機器であって、
プロセッサ及びメモリを備え、前記メモリは、コンピュータプログラムコードを記憶するように構成され、前記コンピュータプログラムコードは、コンピュータ命令を含み、前記プロセッサが前記コンピュータ命令を実行する際に、前記電子機器は、項目1ないし16のいずれか一項に記載の画像処理方法を実行する、前記電子機器。
(項目35)
コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、
前記コンピュータプログラムはプログラム命令を含み、前記プログラム命令が電子機器のプロセッサによって実行されるときに、前記プロセッサに、項目1ないし16のいずれか一項に記載の画像処理方法を実行させる、前記コンピュータ可読記憶媒体。
(項目36)
コンピュータ可読コードを含むコンピュータプログラムであって、
前記コンピュータ可読コードが電子機器によって実行されるときに、前記電子機器におけるプロセッサに、項目1ないし16のいずれか一項に記載の方法を実行させる、前記コンピュータプログラム。
取得ユニット11は、参照顔画像及び参照顔姿勢画像を取得するように構成され、
第1処理ユニット12は、前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得し、前記参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、前記顔姿勢画像の第1顔マスクを取得するように構成され、
第2処理ユニット13は、前記顔テクスチャデータ及び前記第1顔マスクに従って、目標画像を取得するように構成される。
Claims (16)
- 画像処理方法であって、
参照顔画像及び参照顔姿勢画像を取得することと、
前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得し、前記参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、前記顔姿勢画像の第1顔マスクを取得することと、
前記顔テクスチャデータ及び前記第1顔マスクに従って、目標画像を取得することと
を含み、
前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得することは、
複数の符号化層を介して前記参照顔画像を段階的符号化処理して、前記参照顔画像の顔テクスチャデータを取得することを含み、前記複数の符号化層は、s(sは、1より大きいか等しい正の整数である)番目の符号化層及びs+1番目の符号化層を含み、前記複数の符号化層のうちの第1層符号化層の入力データは、前記参照顔画像であり、前記s番目の符号化層の出力データは、前記s+1番目の符号化層の入力データであり、前記複数の符号化層のそれぞれは、畳み込み処理層と正規化処理層と活性化処理層とを含む、画像処理方法。 - 前記顔テクスチャデータ及び前記第1顔マスクに従って、目標画像を取得することは、
前記顔テクスチャデータを復号化処理して、第1顔テクスチャデータを取得することと、
前記第1顔テクスチャデータ及び前記第1顔マスクに対してn(nは、2より大きいか等しい正の整数である)レベルの目標処理を実行して、前記目標画像を取得することであって、前記nレベルの目標処理は、第m-1(mは、2より大きいか等しく、且つ、前記nより小さいか等しい正の整数である)レベルの目標処理及び第mレベルの目標処理を含み、前記nレベルの目標処理のうちの第1レベルの目標処理の入力データは、前記顔テクスチャデータであり、前記第m-1レベルの目標処理の出力データは、前記第mレベルの目標処理の入力データであり、前記nレベルの目標処理のうちの第i(iは、1より大きいか等しく、且つ、前記nより小さいか等しい正の整数である)レベルの目標処理は、前記第iレベルの目標処理の入力データ及び前記第1顔マスクのサイズを調整した後に取得したデータに対して融合処理、復号化処理を順次に実行することを含む、ことと
を含む、請求項1に記載の画像処理方法。 - 前記第iレベルの目標処理の入力データ及び前記第1顔マスクのサイズを調整した後に取得したデータに対して融合処理、復号化処理を順次に実行することは、
前記第iレベルの目標処理の入力データに従って、前記第iレベルの目標処理の融合されるデータを取得することと、
前記第iレベルの目標処理の融合されるデータ及び第iレベルの顔マスクに対して融合処理を実行して、第iレベルの融合後のデータを取得することであって、前記第iレベルの顔マスクは、前記第1顔マスクに対してダウンサンプリング処理を実行することにより取得されたものであり、前記第iレベルの顔マスクのサイズは、前記第iレベルの目標処理の入力データのサイズと同じである、ことと、
前記第iレベルの融合後のデータを復号化処理して、前記第iレベルの目標処理の出力データを取得することと
を含む、請求項2に記載の画像処理方法。 - 前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得した後、前記画像処理方法は、
前記顔テクスチャデータに対してjレベルの復号化処理を実行することをさらに含み、
前記j(jは、2より大きいか等しい正の整数である)レベルの復号化処理のうちの第1レベルの復号化処理の入力データは、前記顔テクスチャデータであり、前記jレベルの復号化処理は、第k-1(kは、2より大きいか等しく、且つ、前記jより小さいか等しい正の整数である)レベルの復号化処理及び第kレベルの復号化処理を含み、前記第k-1レベルの復号化処理の出力データは、前記第kレベルの復号化処理の入力データであり、
前記第iレベルの目標処理の入力データに従って、前記第iレベルの目標処理の融合されるデータを取得することは、
前記jレベルの復号化処理のうちの第r(rは、1より大きいか等しく、且つ、前記jより小さいか等しい正の整数である)レベルの復号化処理の出力データを前記第iレベルの目標処理の入力データと合併して、第iレベルの合併後のデータを前記第iレベルの目標処理の融合されるデータとして取得することを含み、前記第rレベルの復号化処理の出力データのサイズは、前記第iレベルの目標処理の入力データのサイズと同じである、請求項3に記載の画像処理方法。 - 前記jレベルの復号化処理のうちの第rレベルの復号化処理の出力データを前記第iレベルの目標処理の入力データと合併して、第iレベルの合併後のデータを取得することは、
前記第rレベルの復号化処理の出力データをチャネル次元で前記第iレベルの目標処理の入力データと合併して、前記第iレベルの合併後のデータを取得することを含み、
及び/又は
前記第rレベルの復号化処理は、
前記第rレベルの復号化処理の入力データに対して活性化処理、逆畳み込み処理、正規化処理を順次に実行して、前記第rレベルの復号化処理の出力データを取得することを含む、請求項4に記載の画像処理方法。 - 前記第iレベルの目標処理の融合されるデータ及び前記第iレベルの顔マスクに対して融合処理を実行して、前記第iレベルの融合後のデータを取得することは、
第1所定のサイズの畳み込みカーネルを使用して前記第iレベルの顔マスクに対して畳み込み処理を実行して第1特徴データを取得し、第2所定のサイズの畳み込みカーネルを使用して前記第iレベルの顔マスクに対して畳み込み処理を実行して第2特徴データを取得することと、
前記第1特徴データ及び前記第2特徴データに従って正規化形式を決定することと、
前記正規化形式に基づき、前記第iレベルの目標処理の融合されるデータに対して正規化処理を実行して、前記第iレベルの融合後のデータを取得することと
を含む、請求項3~5のいずれか一項に記載の画像処理方法。 - 前記正規化形式は、目標アフィン変換を含み、
前記正規化形式に基づき、前記第iレベルの目標処理の融合されるデータに対して正規化処理を実行して、前記第iレベルの融合後のデータを取得することは、
前記目標アフィン変換に基づき、前記第iレベルの目標処理の融合されるデータをアフィン変換して、前記第iレベルの融合後のデータを取得することを含む、請求項6に記載の画像処理方法。 - 前記顔テクスチャデータ及び前記第1顔マスクに従って、目標画像を取得することは、
前記顔テクスチャデータと前記第1顔マスクとを融合処理して、目標融合データを取得することと、
前記目標融合データを復号化処理して、前記目標画像を取得することと
を含み、
及び/又は
前記参照顔画像及び参照姿勢画像を取得することは、
ユーザによって端末に入力された処理される顔画像を受信することと、
処理されるビデオを取得することであって、前記処理されるビデオは顔である、ことと、
前記処理される顔画像を前記参照顔画像とし、前記処理されるビデオの画像を前記顔姿勢画像として使用して、目標ビデオを取得することと
を含む、請求項1に記載の画像処理方法。 - 前記画像処理方法は、
前記参照顔画像及び前記目標画像に対してそれぞれ顔キーポイント抽出処理を実行して、前記参照顔画像の第2顔マスク及び前記目標画像の第3顔マスクを取得することと、
前記第2顔マスクと前記第3顔マスクの間の画素値との間の差に従って、第4顔マスクを決定することであって、前記参照顔画像の第1画素点の画素値と前記目標画像の第2画素点の画素値との差は、前記第4顔マスクの第3画素点の値に正相関を有し、前記参照顔画像における前記第1画素点の位置、前記目標画像における前記第2画素点の位置及び前記第4顔マスクにおける前記第3画素点の位置は全て同じである、ことと、
前記第4顔マスク、前記参照顔画像及び前記目標画像を融合処理して、新しい目標画像を取得することと
をさらに含む、請求項1~8のいずれか一項に記載の画像処理方法。 - 前記第2顔マスクと前記第3顔マスクの間の画素値との間の差に従って、第4顔マスクを決定することは、
前記第2顔マスクと前記第3顔マスクの同じ位置にある画素点の画素値の平均値、及び前記第2顔マスクと前記第3顔マスクの同じ位置にある画素点の画素値の分散に従って、アフィン変換フォームを決定することと、
前記アフィン変換フォームに従って、前記第2顔マスク及び前記第3顔マスクをアフィン変換して、前記第4顔マスクを取得することと
を含む、請求項9に記載の画像処理方法。 - 前記画像処理方法は、顔生成ネットワークに適用され、
前記顔生成ネットワークのトレーニングプロセスは、
前記顔生成ネットワークにトレーニングサンプルを入力して、前記トレーニングサンプルの第1生成画像及び前記トレーニングサンプルの第1再構成画像を取得することであって、前記トレーニングサンプルは、第1サンプル顔画像及び第1サンプル顔姿勢画像を含み、前記第1再構成画像は、符号化後の前記第1サンプル顔画像を復号化処理することにより取得されたものである、ことと、
前記第1サンプル顔画像及び前記第1生成画像の顔特徴の一致度に従って第1損失を取得し、前記第1サンプル顔画像の顔テクスチャ情報と前記第1生成画像の顔テクスチャ情報との間の差に従って第2損失を取得し、前記第1サンプル顔画像の第4画素点の画素値と前記第1生成画像の第5画素点の画素値との間の差に従って第3損失を取得し、前記第1サンプル顔画像の第6画素点の画素値と前記第1再構成画像の第7画素点の画素値との間の差に従って第4損失を取得し、前記第1生成画像の真実性に従って第5損失を取得することであって、前記第1サンプル顔画像における前記第4画素点の位置は、前記第1生成画像における前記第5画素点の位置と同じであり、前記第1サンプル顔画像における前記第6画素点の位置は、前記第1再構成画像における前記第7画素点の位置と同じであり、前記第1生成画像の真実性が高いほど、前記第1生成画像が真の画像である確率が高くなることを表す、ことと、
前記第1損失、前記第2損失、前記第3損失、前記第4損失及び前記第5損失に従って、前記顔生成ネットワークの第1ネットワーク損失を取得することと、
前記第1ネットワーク損失に基づいて前記顔生成ネットワークのパラメータを生成することと
を含む、請求項1~9のいずれか一項に記載の画像処理方法。 - 前記トレーニングサンプルは、第2サンプル顔画像及び第2サンプル顔姿勢画像をさらに含み、前記第2サンプル顔姿勢画像は、前記第2サンプル顔画像にランダム摂動を追加して前記第2サンプル画像の目鼻立ちの位置及び/又は顔の輪郭位置を変更することによって取得されたものであり、
前記顔生成ネットワークのトレーニングプロセスは、
前記顔生成ネットワークに前記第2サンプル顔画像及び第2サンプル顔姿勢画像を入力して、前記トレーニングサンプルの第2生成画像及び前記トレーニングサンプルの第2再構成画像を取得することであって、前記第2再構成画像は、符号化後の前記第2サンプル顔画像を復号化処理することにより取得されたものである、ことと、
前記第2サンプル顔画像及び前記第2生成画像の顔特徴の一致度に従って第6損失を取得し、前記第2サンプル顔画像の顔テクスチャ情報と前記第2生成画像の顔テクスチャ情報との間の差に従って第7損失を取得し、前記第2サンプル顔画像の第8画素点の画素値と前記第2生成画像の第9画素点の画素値との間の差に従って第8損失を取得し、前記第2サンプル顔画像の第10画素点の画素値と前記第2再構成画像の第11画素点の画素値との間の差に従って第9損失を取得し、前記第2生成画像の真実性に従って第10損失を取得することであって、前記第2サンプル顔画像における前記第8画素点の位置は、前記第2生成画像における前記第9画素点の位置と同じであり、前記第2サンプル顔画像における前記第10画素点の位置は、前記第2再構成画像における前記第11画素点の位置と同じであり、前記第2生成画像の真実性が高いほど、前記第2生成画像が真の画像である確率が高くなることを表す、ことと、
前記第6損失、前記第7損失、前記第8損失、前記第9損失及び前記第10損失に従って、前記顔生成ネットワークの第2ネットワーク損失を取得することと、
前記第2ネットワーク損失に基づいて、前記顔生成ネットワークのパラメータを調整することと
をさらに含む、請求項11に記載の画像処理方法。 - 画像処理装置であって、
参照顔画像及び参照顔姿勢画像を取得するように構成されている取得ユニットと、
複数の符号化層を介して前記参照顔画像を段階的符号化処理して、前記参照顔画像の顔テクスチャデータを取得し、前記参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、前記顔姿勢画像の第1顔マスクを取得するように構成されている第1処理ユニットであって、前記複数の符号化層は、s(sは、1より大きいか等しい正の整数である)番目の符号化層及びs+1番目の符号化層を含み、前記複数の符号化層のうちの第1層符号化層の入力データは、前記参照顔画像であり、前記s番目の符号化層の出力データは、前記s+1番目の符号化層の入力データであり、前記複数の符号化層のそれぞれは、畳み込み処理層と正規化処理層と活性化処理層とを含む、第1処理ユニットと、
前記顔テクスチャデータ及び前記第1顔マスクに従って、目標画像を取得するように構成されている第2処理ユニットと
を備える、画像処理装置。 - 電子機器であって、
前記電子機器は、プロセッサ及びメモリを備え、前記メモリは、コンピュータプログラムコードを記憶するように構成されており、前記コンピュータプログラムコードは、コンピュータ命令を含み、前記プロセッサは、前記コンピュータ命令を実行することにより、請求項1~12のいずれか一項に記載の画像処理方法を実行するように構成されている、電子機器。 - コンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータプログラムは、プログラム命令を含み、前記プログラム命令は、電子機器のプロセッサによって実行されると、請求項1~12のいずれか一項に記載の画像処理方法を実行することを前記プロセッサに行わせる、コンピュータ読み取り可能な記憶媒体。 - コンピュータ読み取り可能なコードを含むコンピュータプログラムであって、
前記コンピュータ読み取り可能なコードは、電子機器のプロセッサによって実行されると、請求項1~12のいずれか一項に記載の方法を実行することを前記プロセッサに行わせる、コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910694065.3A CN110399849B (zh) | 2019-07-30 | 2019-07-30 | 图像处理方法及装置、处理器、电子设备及存储介质 |
CN201910694065.3 | 2019-07-30 | ||
PCT/CN2019/105767 WO2021017113A1 (zh) | 2019-07-30 | 2019-09-12 | 图像处理方法及装置、处理器、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022504579A JP2022504579A (ja) | 2022-01-13 |
JP7137006B2 true JP7137006B2 (ja) | 2022-09-13 |
Family
ID=68326708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021519659A Active JP7137006B2 (ja) | 2019-07-30 | 2019-09-12 | 画像処理方法及びその装置、プロセッサ、電子機器並びに記憶媒体 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20210232806A1 (ja) |
JP (1) | JP7137006B2 (ja) |
KR (1) | KR20210057133A (ja) |
CN (4) | CN110399849B (ja) |
SG (1) | SG11202103930TA (ja) |
TW (3) | TWI779969B (ja) |
WO (1) | WO2021017113A1 (ja) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020027233A1 (ja) | 2018-07-31 | 2020-02-06 | ソニーセミコンダクタソリューションズ株式会社 | 撮像装置及び車両制御システム |
JP6725733B2 (ja) * | 2018-07-31 | 2020-07-22 | ソニーセミコンダクタソリューションズ株式会社 | 固体撮像装置および電子機器 |
CN110399849B (zh) * | 2019-07-30 | 2021-07-27 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、处理器、电子设备及存储介质 |
JP7102554B2 (ja) * | 2019-09-30 | 2022-07-19 | ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド | 画像処理方法、装置及び電子機器 |
CN110889381B (zh) * | 2019-11-29 | 2022-12-02 | 广州方硅信息技术有限公司 | 换脸方法、装置、电子设备及存储介质 |
CN111062904B (zh) * | 2019-12-09 | 2023-08-11 | Oppo广东移动通信有限公司 | 图像处理方法、图像处理装置、电子设备和可读存储介质 |
CN111275703B (zh) * | 2020-02-27 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 图像检测方法、装置、计算机设备和存储介质 |
CN111369427B (zh) * | 2020-03-06 | 2023-04-18 | 北京字节跳动网络技术有限公司 | 图像处理方法、装置、可读介质和电子设备 |
CN111368796B (zh) * | 2020-03-20 | 2024-03-08 | 北京达佳互联信息技术有限公司 | 人脸图像的处理方法、装置、电子设备及存储介质 |
CN111598818B (zh) * | 2020-04-17 | 2023-04-28 | 北京百度网讯科技有限公司 | 人脸融合模型训练方法、装置及电子设备 |
CN111583399B (zh) * | 2020-06-28 | 2023-11-07 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备、介质和电子设备 |
CN111754439B (zh) * | 2020-06-28 | 2024-01-12 | 北京百度网讯科技有限公司 | 图像处理的方法、装置、设备以及存储介质 |
EP4172950A1 (en) * | 2020-06-30 | 2023-05-03 | Snap Inc. | Motion representations for articulated animation |
CN111754396B (zh) * | 2020-07-27 | 2024-01-09 | 腾讯科技(深圳)有限公司 | 脸部图像处理方法、装置、计算机设备和存储介质 |
CN112215776B (zh) * | 2020-10-20 | 2024-05-07 | 咪咕文化科技有限公司 | 人像磨皮方法、电子设备和计算机可读存储介质 |
US11335069B1 (en) * | 2020-11-30 | 2022-05-17 | Snap Inc. | Face animation synthesis |
US11373352B1 (en) * | 2021-03-04 | 2022-06-28 | Meta Platforms, Inc. | Motion transfer using machine-learning models |
US12008821B2 (en) * | 2021-05-07 | 2024-06-11 | Google Llc | Machine-learned models for unsupervised image transformation and retrieval |
CN114495190B (zh) * | 2021-08-03 | 2024-07-26 | 马上消费金融股份有限公司 | 换脸网络模型的训练方法、图像换脸方法及相关设备 |
CN113674230B (zh) * | 2021-08-10 | 2023-12-19 | 深圳市捷顺科技实业股份有限公司 | 一种室内逆光人脸关键点的检测方法及装置 |
CN113837031A (zh) * | 2021-09-06 | 2021-12-24 | 桂林理工大学 | 一种基于优化ssd算法的口罩佩戴检测方法 |
CN113873175B (zh) * | 2021-09-15 | 2024-03-15 | 广州繁星互娱信息科技有限公司 | 视频播放方法、装置和存储介质及电子设备 |
CN113838166B (zh) * | 2021-09-22 | 2023-08-29 | 网易(杭州)网络有限公司 | 图像特征迁移方法、装置、存储介质及终端设备 |
CN114062997B (zh) * | 2021-11-05 | 2024-03-19 | 中国南方电网有限责任公司超高压输电公司广州局 | 电能表的校验方法、系统以及装置 |
CN116703700A (zh) * | 2022-02-24 | 2023-09-05 | 北京字跳网络技术有限公司 | 图像处理方法、装置、设备及存储介质 |
CN115393487B (zh) * | 2022-10-27 | 2023-05-12 | 科大讯飞股份有限公司 | 一种虚拟角色模型处理方法、装置、电子设备及存储介质 |
CN115423832B (zh) * | 2022-11-04 | 2023-03-03 | 珠海横琴圣澳云智科技有限公司 | 肺动脉分割模型构建方法、肺动脉分割方法和装置 |
CN115690130B (zh) * | 2022-12-30 | 2023-06-27 | 杭州咏柳科技有限公司 | 一种图像处理方法和装置 |
CN115908119B (zh) * | 2023-01-05 | 2023-06-06 | 广州佰锐网络科技有限公司 | 基于人工智能的人脸图像美颜处理方法及系统 |
CN116704221B (zh) * | 2023-08-09 | 2023-10-24 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备和计算机可读存储介质 |
CN117349785B (zh) * | 2023-08-24 | 2024-04-05 | 长江水上交通监测与应急处置中心 | 一种航运政务信息资源多源数据融合方法及系统 |
CN117218456B (zh) * | 2023-11-07 | 2024-02-02 | 杭州灵西机器人智能科技有限公司 | 一种图像标注方法、系统、电子设备和存储介质 |
CN118365510B (zh) * | 2024-06-19 | 2024-09-13 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像处理方法、图像处理模型的训练方法及图像生成方法 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IT1320002B1 (it) * | 2000-03-31 | 2003-11-12 | Cselt Centro Studi Lab Telecom | Procedimento per l'animazione di un modello sintetizzato di voltoumano pilotata da un segnale audio. |
CN101770649B (zh) * | 2008-12-30 | 2012-05-02 | 中国科学院自动化研究所 | 一种人脸图像自动合成方法 |
KR101818005B1 (ko) * | 2011-09-06 | 2018-01-16 | 한국전자통신연구원 | 얼굴 데이터 관리 시스템 및 그 방법 |
CN103268623B (zh) * | 2013-06-18 | 2016-05-18 | 西安电子科技大学 | 一种基于频域分析的静态人脸表情合成方法 |
CN103607554B (zh) * | 2013-10-21 | 2017-10-20 | 易视腾科技股份有限公司 | 一种基于全自动人脸无缝合成的视频合成方法 |
CN104657974A (zh) * | 2013-11-25 | 2015-05-27 | 腾讯科技(上海)有限公司 | 一种图像处理方法及装置 |
CN104123749A (zh) * | 2014-07-23 | 2014-10-29 | 邢小月 | 一种图像处理方法及系统 |
TWI526953B (zh) * | 2015-03-25 | 2016-03-21 | 美和學校財團法人美和科技大學 | 人臉辨識方法及系統 |
US10460493B2 (en) * | 2015-07-21 | 2019-10-29 | Sony Corporation | Information processing apparatus, information processing method, and program |
US10916044B2 (en) * | 2015-07-21 | 2021-02-09 | Sony Corporation | Information processing apparatus, information processing method, and program |
CN105118082B (zh) * | 2015-07-30 | 2019-05-28 | 科大讯飞股份有限公司 | 个性化视频生成方法及系统 |
CN107871100B (zh) * | 2016-09-23 | 2021-07-06 | 北京眼神科技有限公司 | 人脸模型的训练方法和装置、人脸认证方法和装置 |
CN107146199B (zh) * | 2017-05-02 | 2020-01-17 | 厦门美图之家科技有限公司 | 一种人脸图像的融合方法、装置及计算设备 |
CN107146919B (zh) * | 2017-06-13 | 2023-08-04 | 合肥国轩高科动力能源有限公司 | 一种圆柱动力电池拆解装置及拆解方法 |
CN108021908B (zh) * | 2017-12-27 | 2020-06-16 | 深圳云天励飞技术有限公司 | 人脸年龄段识别方法及装置、计算机装置及可读存储介质 |
CN109978754A (zh) * | 2017-12-28 | 2019-07-05 | 广东欧珀移动通信有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN109977739A (zh) * | 2017-12-28 | 2019-07-05 | 广东欧珀移动通信有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN109961507B (zh) * | 2019-03-22 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 一种人脸图像生成方法、装置、设备及存储介质 |
CN110399849B (zh) * | 2019-07-30 | 2021-07-27 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、处理器、电子设备及存储介质 |
-
2019
- 2019-07-30 CN CN201910694065.3A patent/CN110399849B/zh active Active
- 2019-07-30 CN CN202110897050.4A patent/CN113569790B/zh active Active
- 2019-07-30 CN CN202110897099.XA patent/CN113569791B/zh active Active
- 2019-07-30 CN CN202110897049.1A patent/CN113569789B/zh active Active
- 2019-09-12 SG SG11202103930TA patent/SG11202103930TA/en unknown
- 2019-09-12 JP JP2021519659A patent/JP7137006B2/ja active Active
- 2019-09-12 KR KR1020217010771A patent/KR20210057133A/ko active Search and Examination
- 2019-09-12 WO PCT/CN2019/105767 patent/WO2021017113A1/zh active Application Filing
- 2019-12-03 TW TW110147168A patent/TWI779969B/zh active
- 2019-12-03 TW TW108144108A patent/TWI753327B/zh not_active IP Right Cessation
- 2019-12-03 TW TW110147169A patent/TWI779970B/zh active
-
2021
- 2021-04-12 US US17/227,846 patent/US20210232806A1/en not_active Abandoned
Non-Patent Citations (1)
Title |
---|
Nanxue Gong et al.,Dynamic Facial Expression Synthesis Driven by Deformable Semantic Parts,2018 24th International Conference on Pattern Recognition (ICPR),米国,IEEE,2018年08月20日,p.2929-p.2934,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8545831,IEL Online IEEE Xplore |
Also Published As
Publication number | Publication date |
---|---|
TWI779969B (zh) | 2022-10-01 |
TWI779970B (zh) | 2022-10-01 |
WO2021017113A1 (zh) | 2021-02-04 |
TWI753327B (zh) | 2022-01-21 |
CN110399849B (zh) | 2021-07-27 |
CN113569790A (zh) | 2021-10-29 |
TW202213265A (zh) | 2022-04-01 |
TW202105238A (zh) | 2021-02-01 |
CN113569789A (zh) | 2021-10-29 |
US20210232806A1 (en) | 2021-07-29 |
SG11202103930TA (en) | 2021-05-28 |
CN113569789B (zh) | 2024-04-16 |
KR20210057133A (ko) | 2021-05-20 |
JP2022504579A (ja) | 2022-01-13 |
CN113569790B (zh) | 2022-07-29 |
CN110399849A (zh) | 2019-11-01 |
CN113569791B (zh) | 2022-06-21 |
CN113569791A (zh) | 2021-10-29 |
TW202213275A (zh) | 2022-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7137006B2 (ja) | 画像処理方法及びその装置、プロセッサ、電子機器並びに記憶媒体 | |
US11481869B2 (en) | Cross-domain image translation | |
Seow et al. | A comprehensive overview of Deepfake: Generation, detection, datasets, and opportunities | |
Mittal et al. | Sync-draw: Automatic video generation using deep recurrent attentive architectures | |
WO2020103700A1 (zh) | 一种基于微表情的图像识别方法、装置以及相关设备 | |
WO2023040679A1 (zh) | 人脸图片的融合方法、装置、设备及存储介质 | |
CN111108508B (zh) | 脸部情感识别方法、智能装置和计算机可读存储介质 | |
CN110414593B (zh) | 图像处理方法及装置、处理器、电子设备及存储介质 | |
WO2023179074A1 (zh) | 图像融合方法及装置、电子设备、存储介质、计算机程序、计算机程序产品 | |
CN118172134A (zh) | 虚拟试衣方法、装置、电子设备及可读存储介质 | |
CN116912924B (zh) | 一种目标图像识别方法和装置 | |
Zhang et al. | Cross-domain face sketch synthesis | |
WO2024059374A1 (en) | User authentication based on three-dimensional face modeling using partial face images | |
Huang et al. | Deep Multimodal Fusion Autoencoder for Saliency Prediction of RGB‐D Images | |
CN113538214A (zh) | 一种妆容迁移的控制方法、系统和存储介质 | |
Shit et al. | Real-time emotion recognition using end-to-end attention-based fusion network | |
Shi et al. | Transformer-Based adversarial network for semi-supervised face sketch synthesis | |
Wu et al. | EG-Net: Appearance-based eye gaze estimation using an efficient gaze network with attention mechanism | |
Nakashima et al. | A Comparison of Cartoon Portrait Generators Based on Generative Adversarial Networks | |
Chaudhry et al. | Swapped Face Detection Using Deep Learning and Subjective Assessment | |
Wang | Cross Domain Face Synthesis | |
CN113838159A (zh) | 用于生成卡通图像的方法、计算设备和存储介质 | |
Chakraborty et al. | Facial Image Manipulation Detection Using Cellular Automata and Transfer Learning | |
Song | Cross domain Image Transformation and Generation by Deep Learning | |
Bhosale | Hybrid approach for light improvement and image quality enhancement with GAN and CNN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210408 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210408 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220408 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220527 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220715 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220825 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220901 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7137006 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |