JP2023539691A - 人物画像修復方法、装置、電子機器、記憶媒体及びプログラム製品 - Google Patents
人物画像修復方法、装置、電子機器、記憶媒体及びプログラム製品 Download PDFInfo
- Publication number
- JP2023539691A JP2023539691A JP2023537450A JP2023537450A JP2023539691A JP 2023539691 A JP2023539691 A JP 2023539691A JP 2023537450 A JP2023537450 A JP 2023537450A JP 2023537450 A JP2023537450 A JP 2023537450A JP 2023539691 A JP2023539691 A JP 2023539691A
- Authority
- JP
- Japan
- Prior art keywords
- image
- face
- repaired
- network
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 230000001815 facial effect Effects 0.000 claims abstract description 87
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000006243 chemical reaction Methods 0.000 claims abstract description 23
- 238000003062 neural network model Methods 0.000 claims description 56
- 230000008439 repair process Effects 0.000 claims description 24
- 238000006731 degradation reaction Methods 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 230000015556 catabolic process Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012937 correction Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 230000006835 compression Effects 0.000 claims description 10
- 238000007906 compression Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 6
- 238000003709 image segmentation Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 abstract description 15
- 230000000694 effects Effects 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 7
- 230000006866 deterioration Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
人物画像修復方法、装置、電子機器、記憶媒体及びプログラム製品であって、当該方法は、修復対象の顔画像を取得すること(S21)と、前記修復対象の顔画像の輝度チャンネルを抽出し、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得ること(S22)と、前記目標顔画像及び前記修復対象の顔画像の色チャンネルを融合して、第1の顔修復画像を得ること(S23)と、前記第1の顔修復画像に対して画像変換処理を行い、第2の顔修復画像を得ること(S24)と、を含む。当該方法は、修復後の顔画像の品質の改善に有利であり、顔画像の全体的な修復効果を向上させる。【選択図】図2
Description
本出願は、2020年11月30日に中国特許庁に提出された、出願番号が202011386894.4で、発明の名称が「人物画像修復方法、装置、電子機器及びコンピュータ記憶媒体」である中国特許出願の優先権を主張し、その内容のすべては援用により本出願に組み込まれる。
本出願は、画像処理技術の分野に関し、特に、人物画像修復方法、装置、電子機器、記憶媒体及びプログラム製品に関する。
従来の撮像装置は、画像収集を行う際に、それ自体の設計、環境、撮像作業者の操作などの要素による制限を受けるため、イメージング効果が理想的ではない場合がある。特に、人物画像の撮像の場合、人物画像のノイズが大きく、ボケ、局所歪みといった問題がよく見られる。
本出願は、人物画像修復方法、装置、電子機器、記憶媒体及びプログラム製品を提供する。
本出願の実施例の第1の態様は、人物画像修復方法であって、修復対象の顔画像を取得することと、前記修復対象の顔画像の輝度チャンネルを抽出し、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得ることと、前記目標顔画像及び前記修復対象の顔画像の色チャンネルを融合して、第1の顔修復画像を得ることと、前記第1の顔修復画像に対して画像変換処理を行い、第2の顔修復画像を得ることと、を含む人物画像修復方法を提供する。
本出願の実施例では、修復対象の顔画像に対して輝度チャンネルの抽出を行い、抽出された輝度チャンネルに基づいて人物画像修復を行うことにより、輝度チャンネルが修復された目標顔画像が得られ、そして、色チャンネルの融合を行って修復済みの第1の顔修復画像が得られ、さらに、第1の顔修復画像に対して色補正、拡縮などの画像変換処理を行うことにより、得られる第2の顔修復画像が修復対象の顔画像の色情報と修復対象の顔画像の拡縮前の解像度を保つようにする。これにより、ノイズ、ボケ、歪みなどの問題がある顔画像に対する修復に有利になり、修復後の顔画像の品質を改善し、顔画像の全体的な修復効果を向上させる。
第1の態様によれば、可能な一実施形態では、前記した、前記修復対象の顔画像の輝度チャンネルを抽出することは、前記修復対象の顔画像のフォーマットが第1のフォーマットである場合、前記修復対象の顔画像の前記輝度チャンネルを抽出すること、または、前記修復対象の顔画像のフォーマットが第2のフォーマットである場合、前記修復対象の顔画像のフォーマットを前記第1のフォーマットに変換し、フォーマット変換後の前記修復対象の顔画像の前記輝度チャンネルを抽出することを含む。
本出願の実施例では、輝度チャンネルに基づいて修復対象の顔画像に対して人物画像修復を行うので、輝度チャンネルを直接に抽出可能な第1のフォーマットの修復対象の顔画像について、直接に輝度チャンネルの抽出を行うことができ、輝度チャンネルを直接に抽出できない第2のフォーマットの修復対象の顔画像については、それを第1のフォーマットに変換してから輝度チャンネルの抽出を行う。これにより、複数のフォーマットの修復対象の顔画像のいずれに対しても、輝度チャンネルに基づく人物画像修復が可能であることを確保して、修復対象の顔画像のフォーマットへの適用性の向上に有利になる。
第1の態様によれば、可能な一実施形態では、前記した、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得ることは、前記輝度チャンネルをトレーニング済みのニューラルネットワークモデルに入力して人物画像修復を行い、前記目標顔画像を得ることを含む。
本出願の実施例では、トレーニング済みのニューラルネットワークモデルを用いて人物画像修復を行うことにより、照明不具合、振れ、ピント外れ、デジタルズームといった問題によるノイズ、ボケ、歪みのある修復対象の顔画像に対する修復に有利になり、人の顔立ち、毛髪、皮膚の鮮明度及びテクスチャー細部を改善させる。
第1の態様によれば、可能な一実施形態では、前記ニューラルネットワークモデルは、第1のネットワークと第2のネットワークと第3のネットワークと第4のネットワークを含み、前記第2のネットワークは、N(Nは、1よりも大きい整数である)個のぼかしアップサンプリングモジュールを含み、前記N個のぼかしアップサンプリングモジュールのうちの少なくとも1つのぼかしアップサンプリングモジュールにおけるぼかしアップサンプリングは、ぼかし(Blur)畳み込みを含み、前記ぼかし畳み込みにおける畳み込みカーネルの重みは、予め設定された一定値であり、前記ニューラルネットワークモデルは、前記第1のネットワークの入力、前記第2のネットワークの出力及び前記第3のネットワークの出力のところにショートカット接続(shortcut)があり、前記第1のネットワークの出力及び前記第4のネットワークの出力のところにショートカット接続がある。
本出願の実施例では、第1のネットワークの入力、第2のネットワークの出力及び第3のネットワークの出力は、最高の解像度スケールであり、第1のネットワークの出力及び第4のネットワークの出力は、最低の解像度スケールであり、最高の解像度スケールと最低の解像度スケールでショートカット接続を行うことにより、ニューラルネットワークモデルの過剰適合の防止に有利になり、トレーニング中に反復速度をより速くすることができる。ぼかしアップサンプリングにはぼかし畳み込み操作が含まれ、採用される畳み込みカーネルの重みは、ニューラルネットワークモデルのトレーニングの最初から一定にされ、その役割はローパスフィルターに相当し、画像修復中に滑らかで自然な輪郭や毛髪の生成に有利になる。
第1の態様によれば、可能な一実施形態では、前記した、前記輝度チャンネルをトレーニング済みのニューラルネットワークモデルに入力して人物画像修復を行い、前記目標顔画像を得ることは、前記第1のネットワークを用いて前記輝度チャンネルに対して符号化操作を行い、目標特徴マップを得ることと、前記第2のネットワーク及び前記第3のネットワークを用いて前記目標特徴マップに対して復号化操作を行い、前記目標顔画像を得ることと、を含む。
本出願の実施例では、第1のネットワークを用いて符号化を行うことにより、入力された輝度チャンネルのサイズを縮小し、目標特徴マップを抽出する。第2のネットワークは、復号化中に輝度チャンネルのサイスを復元し、それと同時に、第3のネットワークは、復号化中にニューラルネットワークモデルの安定性を確保し、最終的に輝度チャンネルが修復された目標顔画像を得ることができる。
第1の態様によれば、可能な一実施形態では、前記した、前記第1のネットワークを用いて前記輝度チャンネルに対して符号化操作を行い、目標特徴マップを得ることは、前記輝度チャンネルを前記第1のネットワークに入力してダウンサンプリングを行い、第1の特徴マップを得ることと、前記第4のネットワークを用いて前記第1の特徴マップに対して上位層特徴抽出を行い、上位層特徴マップを得ることと、前記第1の特徴マップと前記上位層特徴マップとを重ね合わせて、前記目標特徴マップを得ることと、を含む。
本出願の実施例では、第4のネットワークが残差ブロックの構造を採用したので、上位層特徴の抽出に有利になる。ショートカット接続により第1のネットワークの出力と第4のネットワークの出力とを重ね合わせることにより、ニューラルネットワークモデルの過剰適合を防止できる一方、特徴情報を豊富化することができる。
第1の態様によれば、可能な一実施形態では、前記した、前記第2のネットワーク及び前記第3のネットワークを用いて前記目標特徴マップに対して復号化操作を行い、前記目標顔画像を得ることは、前記目標特徴マップを前記第2のネットワークにおける前記N個のぼかしアップサンプリングモジュールに入力してぼかしアップサンプリングを行い、第2の特徴マップを得ることと、前記N個のぼかしアップサンプリングモジュールのうちの1番目~(N-1)番目のぼかしアップサンプリングモジュールから出力される特徴マップを前記第3のネットワークに入力してアップサンプリングを行い、第3の特徴マップを得ることと、前記輝度チャンネル、前記第2の特徴マップ及び前記第3の特徴マップを重ね合わせて、前記目標顔画像を得ることと、を含む。
本出願の実施例では、第2のネットワークは、N個のぼかしアップサンプリングモジュールを用いてぼかしアップサンプリングを行い、目標特徴マップのサイズを復元するとともに、滑らかで自然な輪郭や毛髪の生成に有利になる。第3のネットワークは、第2のネットワークにおける1番目~(N-1)番目のぼかしアップサンプリングモジュールから出力される特徴マップに対してアップサンプリングを行うことにより、ニューラルネットワークモデルの安定性の確保に有利になり、ショートカット接続により第1のネットワークの入力、第2のネットワークの出力及び第3のネットワークの出力を重ね合わせることにより、ニューラルネットワークモデルの過剰適合を防止できる一方、特徴情報を豊富化させ、目標顔画像の修復品質を改善する。
第1の態様によれば、可能な一実施形態では、前記第3のネットワークは、(N-1)個のアップサンプリングモジュールを含み、前記した、前記N個のぼかしアップサンプリングモジュールのうちの1番目~(N-1)番目のぼかしアップサンプリングモジュールから出力される特徴マップを前記第3のネットワークに入力してアップサンプリングを行い、第3の特徴マップを得ることは、前記N個のぼかしアップサンプリングモジュールのうちの1番目のぼかしアップサンプリングモジュールから出力される特徴マップのチャンネル数を圧縮して、第1の圧縮特徴マップを得ることと、前記第1の圧縮特徴マップを前記(N-1)個のアップサンプリングモジュールのうちの1番目のアップサンプリングモジュールに入力してアップサンプリングを行うことと、前記N個のぼかしアップサンプリングモジュールのうちのi(iは、1よりも大きく、N未満の整数である)番目のぼかしアップサンプリングモジュールから出力される特徴マップのチャンネル数を圧縮して、第2の圧縮特徴マップを得ることと、前記(N-1)個のアップサンプリングモジュールのうちの(i-1)番目のアップサンプリングモジュールから出力される特徴マップと前記第2の圧縮特徴マップとを重ね合わせて、重ね合わせて得られる特徴マップを前記(N-1)個のアップサンプリングモジュールのうちのi番目のアップサンプリングモジュールに入力してアップサンプリングを行うことと、前記(N-1)個のアップサンプリングモジュールによる処理を経て、前記第3の特徴マップを得ることと、を含む。
本出願の実施例では、N個のぼかしアップサンプリングモジュールのうちの1番目~(N-1)番目のぼかしアップサンプリングモジュールから出力される特徴マップのチャンネル数を圧縮することにより、第3のネットワークにおける少なくとも1つのアップサンプリングモジュールへの入力のチャンネル数がすべて同じになることを確保して、ニューラルネットワークモデルの安定性を向上させることに有利になる。
第1の態様によれば、可能な一実施形態では、前記した、修復対象の顔画像を取得することは、収集された元画像に対して顔検出を行うことと、前記元画像における検出された顔の位置に基づいて、顔画像を切り取ることと、前記顔画像を拡縮して、前記修復対象の顔画像を得ることと、を含む。
本出願の実施例では、ユーザが収集した元画像に対して、顔検出を行った後に、顔画像を切り取り、顔画像を一定のサイズに拡縮することにより、大きいサイズの顔画像に対する修復の実現に有利になる。
第1の態様によれば、可能な一実施形態では、前記顔画像を拡縮して、前記修復対象の顔画像を得た後に、前記方法は、前記元画像に対して人物画像分割を行い、人物画像マスクを得ることをさらに含み、第2の顔修復画像を得た後に、前記方法は、前記人物画像マスクのエッジに対してガウシアンぼかしを行うことと、前記元画像における前記顔画像の切り取り位置、及び前記人物画像マスクに基づいて、前記第2の顔修復画像における顔を、切り取り後の前記元画像に貼り戻して、前記元画像の修復を完了させることと、をさらに含む。
本出願の実施例では、元画像における顔画像の切り取り位置、及び人物画像マスクに基づいて、元画像における顔の位置を特定することができる。これにより、第2の顔修復画像における修復済みの顔を元画像に貼り戻し、背景部分は、元画像における背景のままとし、顔を貼り戻す前に人物画像マスクのエッジに対してガウシアンぼかしを行うことにより、最終的な修復画像をより滑らかで自然なものとすることができる。
第1の態様によれば、可能な一実施形態では、前記した、前記第1の顔修復画像に対して画像変換処理を行い、第2の顔修復画像を得ることは、前記第1の顔修復画像に対して色補正を行うことと、拡縮倍率を特定することと、拡縮倍率が予め設定された倍率よりも大きい場合、超解像技術を用いて色補正後の前記第1の顔修復画像を拡縮して、前記第2の顔修復画像を得ることと、を含む。
本出願の実施例では、第1の顔修復画像に対して色補正を行い、色補正後の第1の顔修復画像を拡縮して、そのサイズを、切り取った顔画像のサイズに復元すれば、品質の良い第2の顔修復画像が得られる。第1の顔修復画像を拡縮する倍率が予め設定された倍率を超えた場合、超解像技術を用いて拡縮することにより、第2の顔修復画像の解像度の向上に有利になる。
第1の態様によれば、可能な一実施形態では、修復対象の顔画像を取得する前に、前記方法は、第1の顔画像と、前記第1の顔画像に基づいて得られる第2の顔画像とを含むサンプル画像ペアを構成することと、前記サンプル画像ペアをニューラルネットワークに入力してトレーニングを行い、前記第2の顔画像の修復画像を出力することと、前記修復画像及び前記第1の顔画像に基づいて目標損失を特定することと、前記目標損失を最小化するように、前記ニューラルネットワークのパラメータを調整して、前記ニューラルネットワークモデルを得ることと、をさらに含む。
本出願の実施例では、ペアとなるサンプル画像を用いてニューラルネットワークをトレーニングし、このサンプル画像には、実際に収集された画質問題のある画像に十分に近い劣化画像が存在する。このようなサンプル画像ペアを用いてニューラルネットワークをトレーニングすることにより、ニューラルネットワークモデルの汎化性の向上に有利になる。目標損失を最小化することにより、ニューラルネットワークモデルから出力される修復画像をできるだけ第1の顔画像の品質に近づけ、修復画像の輪郭や毛髪などの細部に対する処理を増加させることができる。
第1の態様によれば、可能な一実施形態では、前記目標損失は、回帰損失、知覚損失、敵対的生成損失及びコンテキスト損失のうちの少なくとも一つを含む。
本出願の実施例では、回帰損失、知覚損失、敵対的生成損失及びコンテキスト損失のうちの少なくとも一つを含む目標損失を用いて、ニューラルネットワークモデルをトレーニングすることにより、ニューラルネットワークモデルは、劣化画像に存在する複数の問題を全体的に修復し、人物画像修復の品質を改善することができる。
第1の態様によれば、可能な一実施形態では、前記した、サンプル画像ペアを構成することは、予め設定された前記第1の顔画像を取得することと、前記第1の顔画像の画質が劣化していない場合、前記第1の顔画像に対して大気擾乱劣化を行い、第1の劣化画像を得て、前記第1の劣化画像に対してダウンサンプリングを行い、目標劣化画像を得て、前記目標劣化画像に対してアップサンプリングを行い、第2の劣化画像を得て、前記第2の劣化画像に基づいて第3の劣化画像を得て、予め設定された圧縮品質パラメータを用いて前記第3の劣化画像を圧縮して、第4の劣化画像を得て、前記第4の劣化画像において矩形領域を決定し、前記第1の顔画像において前記矩形領域に対応する目標領域を特定し、前記目標領域内の画素値で前記矩形領域内の対応する画素値を置き換え、前記第2の顔画像を得て、前記第1の顔画像と前記第2の顔画像により前記サンプル画像ペアを構成すること、または、前記第1の顔画像の画質が劣化した場合、2枚の前記第1の顔画像により前記サンプル画像ペアを構成し、2枚のうちのいずれか一枚を前記第2の顔画像として決定することと、を含む。
本出願の実施例では、第1の顔画像の画質を判断し、第1の顔画像自体が比較的鮮明で、その画質が劣化していない場合、第1の顔画像に対して一連の劣化処理を行い、1枚の劣化問題のある第2の顔画像が合成され、第2の顔画像を実際に収集された劣化画像に類似するものにすることにより、真の劣化画像を修復するシーンをシミュレートする。第1の顔画像自体に劣化問題がある場合、それに対して劣化処理を行う必要がなく、2枚の第1の顔画像をそのまま用いてサンプル画像ペアを構成して、真の劣化画像を修復するシーンをシミュレートするようにしてもよい。
第1の態様によれば、可能な一実施形態では、前記した、前記第2の劣化画像に基づいて第3の劣化画像を得ることは、前記第2の劣化画像の輝度チャンネルにノイズを加え、前記第2の劣化画像に対して非局所的平均ノイズ除去を行い、前記第3の劣化画像を得ること、または、前記第2の劣化画像に対してぼかし操作を行い、第5の劣化画像を得て、前記第5の劣化画像の輝度チャンネルにノイズを加え、前記第5の劣化画像に対して非局所的平均ノイズ除去を行い、前記第3の劣化画像を得ることを含む。
本出願の実施例では、ぼかし操作、ノイズ重畳、非局所的平均ノイズ除去などの方法で第2の劣化画像に対して多様な劣化処理を行うことにより、第3の劣化画像に多様な劣化問題を生じさせ、以後に多様な劣化問題のある画像を用いてニューラルネットワークモデルをトレーニングすることに有利になる。
本出願の実施例の第2の態様は、人物画像修復装置であって、
修復対象の顔画像を取得するための画像取得モジュールと、
前記修復対象の顔画像の輝度チャンネルを抽出し、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得るための人物画像修復モジュールと、
前記目標顔画像及び前記修復対象の顔画像の色チャンネルを融合して、第1の顔修復画像を得るための画像融合モジュールと、
前記第1の顔修復画像に対して画像変換処理を行い、第2の顔修復画像を得るための画像調整モジュールと、を含む人物画像修復装置を提供する。
修復対象の顔画像を取得するための画像取得モジュールと、
前記修復対象の顔画像の輝度チャンネルを抽出し、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得るための人物画像修復モジュールと、
前記目標顔画像及び前記修復対象の顔画像の色チャンネルを融合して、第1の顔修復画像を得るための画像融合モジュールと、
前記第1の顔修復画像に対して画像変換処理を行い、第2の顔修復画像を得るための画像調整モジュールと、を含む人物画像修復装置を提供する。
本出願の実施例の第3の態様は、入力装置と出力装置を含む電子機器であって、1つ以上の命令の実装に適するプロセッサと、前記プロセッサによってロードされて上記した第1の態様の何れかの実施形態におけるステップを実行させるための1つ以上の命令が記憶されたコンピュータ記憶媒体とをさらに含む電子機器を提供する。
本出願の実施例の第4の態様は、プロセッサによってロードされて上記した第1の態様の何れかの実施形態におけるステップを実行させるための1つ以上の命令が記憶されたコンピュータ記憶媒体を提供する。
本出願の実施例の第5の態様は、コンピュータ読み取り可能なコードを含むコンピュータプログラム製品であって、前記コンピュータ読み取り可能なコードが電子機器において動作すると、前記電子機器におけるプロセッサーは、上記した第1の態様の何れかの実施形態におけるステップを実行させるコンピュータプログラム製品を提供する。
これから分かるように、本出願の実施例では、修復対象の顔画像を取得し、前記修復対象の顔画像の輝度チャンネルを抽出し、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像が得られ、前記目標顔画像及び前記修復対象の顔画像の色チャンネルを融合して第1の顔修復画像が得られ、前記第1の顔修復画像に対して画像変換処理を行い、第2の顔修復画像が得られる。このように、修復対象の顔画像に対して輝度チャンネルの抽出を行い、抽出された輝度チャンネルに基づいて人物画像修復を行うことにより、輝度チャンネルが修復された目標顔画像が得られ、そして、色チャンネルの融合を行って修復済みの第1の顔修復画像が得られ、さらに第1の顔修復画像に対して色補正、拡縮などの画像変換処理を行うことにより、得られる第2の顔修復画像が修復対象の顔画像の色情報と修復対象の顔画像の拡縮前の解像度を保つようにする。これにより、ノイズ、ボケ、歪みなどの問題がある顔画像に対する修復に有利になり、修復後の顔画像の品質を改善し、顔画像の全体的な修復効果を向上させる。
本出願の実施例または従来技術における技術的手段をより明確に説明するために、以下、実施例または従来技術に関する説明に必要な図面を簡単に紹介する。以下の説明における図面は、本出願のいくつかの実施例に過ぎず、当業者にとって、創造的な仕事をしなくても、これらの図面に基づいて他の図面が得られることは明らかである。
本出願の実施例による応用環境の模式図である。
本出願の実施例による人物画像修復方法のフロー模式図である。
本出願の実施例によるニューラルネットワークモデルの構成模式図である。
本出願の実施例による特徴マップの復号化の模式図である。
本出願の実施例によるサンプル画像ペアの構成の模式図である。
本出願の実施例による画素値の置き換えの模式図である。
本出願の実施例による他の人物画像修復方法のフロー模式図である。
本出願の実施例による人物画像修復装置の構成模式図である。
本出願の実施例による他の人物画像修復装置の構成模式図である。
本出願の実施例による電子機器の構成模式図である。
当業者に本出願の技術的手段をより良く理解させるために、以下、本出願の実施例における図面を参照しながら、本出願の実施例における技術的手段を明確かつ完全に説明する。説明される実施例は、本出願の一部の実施例に過ぎず、全ての実施例ではないことは明らかである。本出願における実施例に基づいて、当業者が創造的な仕事なしに得られる他の実施例はすべて本出願の請求の範囲に含まれる。
本出願の明細書、特許請求の範囲及び図面に現れる「含む」や「有する」という用語及びそれらの任意の変形は、非排他的包括をカバーすることを意図している。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、挙げられたステップ又はユニットに限定されず、挙げられていないステップ又はユニットを選択可能にさらに含むか、或いは、これらのプロセス、方法、製品又は機器に固有の他のステップ又はユニットを選択可能に含む。なお、「第1の」、「第2の」及び「第3の」などの用語は、異なる対象を区別するために使用され、特定の順序を説明するためのものではない。
本出願の実施例では、顔画像に対して人物画像修復を行う技術的手段を提案し、修復後の顔画像の品質の改善に有利であり、顔画像の全体的な修復効果を向上させる。具体的に、図1に示す応用環境に基づいて実施することができ、図1に示すように、この応用環境は、画像収集装置とサーバを含む。画像収集装置は、携帯電話、タブレット、カメラ、ビデオカメラなどであってもよい。サーバは、独立した物理サーバであってもよく、サーバクラスターまたは分散システムであってもよく、さらに、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメインネームサービス、セキュリティサービス、及びビッグデータや人工知能プラットフォームなどの基本的なクラウドコンピューティングサービスを提供するクラウドサーバであってもよい。具体的には、画像収集装置は、画像を撮像または収集するために用いられ、この画像は、単一の写真であってもよく、ビデオ、例えば、ユーザの自撮り、ビデオキャプチャシーンでキャプチャされたビデオなどであってもよい。画像収集装置は、撮像時に照明不具合、振れ、ピント外れ、デジタルズームなどの状況により、画像内の顔にはノイズ、ボケ、歪みなどのさまざまな問題がある。この際、ユーザーは、画像収集装置を介してサーバに人物画像修復要求を送信することにより、サーバに画像内の顔に対する修復を要求することができる。サーバは、画像収集装置により収集された画像を受信すると、顔検出、顔分割、顔修復などの一連の操作を実行し、最終的に顔修復済みの画像を出力する。顔検出、顔分割、顔修復などのモデルをサーバに配置することができ、サーバは、これらのモデルを呼び出すことにより人物画像修復の全プロセスを実現できることは理解すべきである。なお、本出願の実施例に提案された人物画像修復方法は、サーバにより実行されてもよく、画像収集装置により実行されてもよく、例えば、顔画像修復などのモデルが画像収集装置に配置されてもよい。
以下、関連図面を参照しながら、本出願の実施例による人物画像修復方法を詳細に説明する。
図2を参照すると、図2は、本出願の実施例による人物画像修復方法のフロー模式図である。この人物画像修復方法は、サーバに適用され、図2に示すように、ステップS21~S24を含む。
S21において、修復対象の顔画像を取得する。
本出願の具体的な実施例では、修復対象の顔画像とは、イメージング効果が良くない元画像から得られ、直接に修復に使用される顔画像を指す。画像収集装置により収集された元画像に対して、顔検出アルゴリズムを用いて顔検出を行い、元画像における検出された顔の位置に基づいて顔画像を切り取る。例えば、Faster R-CNN(Faster Region-Convolutional Neural Networks、より高速な候補領域ベースの畳み込みニューラルネットワーク検出器)、YOLO(You Only Look Once、YOLOオブジェクト検出器)などを用いて顔検出を行い、顔検出枠に基づいて正方形の顔画像を切り取り、切り取った顔画像を予め設定されたサイズに拡縮すれば、修復対象の顔画像が得られ、例えば解像度が896*896である大きいサイズの顔画像に対する修復を実現できる。そして、人物画像分割技術を用いて、画像収集装置により収集された元画像から、人物画像及び背景のマスクを分割し、マスクマトリックスをMと記する。ただし、人物画像マスクは1として表し、背景部分は0として表す。
S22において、前記修復対象の顔画像の輝度チャンネルを抽出し、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得る。
本出願の具体的な実施例では、目標顔画像とは、修復対象の顔画像に対して輝度チャンネル修復を行って得られる画像を指す。修復対象の顔画像のフォーマットが第1のフォーマットである場合、修復対象の顔画像の輝度チャンネルを抽出し、この輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得る。修復対象の顔画像のフォーマットが第2のフォーマットである場合、修復対象の顔画像のフォーマットを第1のフォーマットに変換してから、フォーマット変換後の修復対象の顔画像の輝度チャンネルを抽出し、この輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得る。第1のフォーマットは、YUVフォーマットであり、第2のフォーマットは、RGBフォーマットである。簡単に言えば、YUVフォーマットの修復対象の顔画像に対しては、輝度チャンネルを直接に抽出することができ、RGBフォーマットの修復対象の顔画像に対しては、第1のフォーマットに変換してから輝度チャンネルを抽出することができる。このようにすれば、複数のフォーマットの修復対象の顔画像のいずれに対しても、輝度チャンネルに基づいて人物画像修復を行うことができ、修復対象の顔画像のフォーマットへの適用性がより広くなる。
可能な一実施形態では、前記した、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得ることは、前記輝度チャンネルをトレーニング済みのニューラルネットワークモデルに入力して人物画像修復を行い、前記目標顔画像を得ることを含む。
具体的には、トレーニング済みのニューラルネットワークモデルを用いて人物画像修復を行う。ニューラルネットワークモデルの構成は、図3に示すように、主に第1のネットワークと第2のネットワークと第3のネットワークと第4のネットワークを含み、修復対象の顔画像に対して、入力層を介して輝度チャンネルを抽出し、第1のネットワークは、複数のダウンサンプリングモジュールを用いて符号化を行い、第4のネットワークは、第1のネットワークの出力に対して上位層特徴抽出を行い、第2のネットワーク及び第3のネットワークは、第1のネットワークの出力と第4のネットワークの出力との重ね合わせに対して復号化を行い、第1のネットワークの入力、第2のネットワークの出力及び第3のネットワークの出力の重ね合わせは、出力層の処理を経て、修復対象の顔画像と同じサイズの目標顔画像が得られる。この目標顔画像は、輝度チャンネルが修復された顔画像であり、目標顔画像及び修復対象の顔画像の色チャンネルを融合して第1の顔修復画像を出力する。ここで、第2のネットワークは、N個のぼかしアップサンプリングモジュールを含み、N個のぼかしアップサンプリングモジュールのうちの少なくとも1つのぼかしアップサンプリングモジュールにおけるぼかしアップサンプリングは、ぼかし畳み込みを含み、ぼかし畳み込みにおける畳み込みカーネルの重みは、予め設定された一定値である。ニューラルネットワークモデルは、第1のネットワークの入力、第2のネットワークの出力及び第3のネットワークの出力のところにショートカット接続があり、第1のネットワークの出力及び第4のネットワークの出力のところにショートカット接続がある。第1のネットワークの入力、第2のネットワークの出力及び第3のネットワークの出力は、最高の解像度スケールであり、第1のネットワークの出力及び第4のネットワークの出力は、最低の解像度スケールであり、最高の解像度スケールと最低の解像度スケールでショートカット接続を行うことにより、ニューラルネットワークモデルの過剰適合の防止に有利になり、トレーニング中に反復速度をより速くすることができる。ぼかしアップサンプリングにはぼかし畳み込み操作が含まれ、採用される畳み込みカーネルの重みは、ニューラルネットワークモデルのトレーニングの最初から一定にされ、その役割はローパスフィルターに相当し、画像修復中に滑らかで自然な輪郭や毛髪の生成に有利になる。このようなニューラルネットワークモデルは、照明不具合、振れ、ピント外れ、デジタルズームといった問題によるノイズ、ボケ、歪みのある修復対象の顔画像に対する修復に有利になり、人の顔立ち、毛髪、皮膚の鮮明度及びテクスチャー細部を改善させる。
可能な一実施形態では、前記した、前記輝度チャンネルをトレーニング済みのニューラルネットワークモデルに入力して人物画像修復を行い、前記目標顔画像を得ることは、前記第1のネットワークを用いて前記輝度チャンネルに対して符号化操作を行い、目標特徴マップを得ることと、前記第2のネットワーク及び前記第3のネットワークを用いて前記目標特徴マップに対して復号化操作を行い、前記目標顔画像を得ることと、を含む。
本出願の具体的な実施例では、前記第1のネットワークを用いて前記輝度チャンネルに対して符号化操作を行い、目標特徴マップを得ることは、前記輝度チャンネルを前記第1のネットワークに入力してダウンサンプリングを行い、第1の特徴マップを得ることと、前記第4のネットワークを用いて前記第1の特徴マップに対して上位層特徴抽出を行い、上位層特徴マップを得ることと、前記第1の特徴マップと前記上位層特徴マップとを重ね合わせて、前記目標特徴マップを得ることと、を含む。
ここで、第一の特徴マップとは、第1のネットワークにおける複数のダウンサンプリングモジュールによるダウンサンプリングを行って得られる低解像度の特徴マップを指し、上位層特徴マップとは、第4のネットワークを用いて深度特徴抽出を行って得られる特徴マップを指す。第一の特徴マップと上位層特徴マップとをショートカット接続により重ね合わせて、目標特徴マップが得られる。ショートカット接続により第1のネットワークの出力と第4のネットワークの出力とを重ね合わせることにより、ニューラルネットワークモデルの過剰適合を防止できる一方、特徴情報を豊富化することができることは理解すべきである。第4のネットワークは、残差ブロックであってもよく、残差ブロックは、残差ネットワークにおける通常設定であり、深度特徴の抽出または上位層特徴の抽出に優れている。
本出願の具体的な実施例では、図4に示すように、前記した、前記第2のネットワーク及び前記第3のネットワークを用いて前記目標特徴マップに対して復号化操作を行い、前記目標顔画像を得ることは、
前記目標特徴マップを前記第2のネットワークにおける前記N個のぼかしアップサンプリングモジュールに入力してぼかしアップサンプリングを行い、第2の特徴マップを得るS41と、
前記N個のぼかしアップサンプリングモジュールのうちの1番目~(N-1)番目のぼかしアップサンプリングモジュールから出力される特徴マップを前記第3のネットワークに入力してアップサンプリングを行い、第3の特徴マップを得るS42と、
前記輝度チャンネル、前記第2の特徴マップ及び前記第3の特徴マップを重ね合わせて、前記目標顔画像を得るS43と、を含む。
前記目標特徴マップを前記第2のネットワークにおける前記N個のぼかしアップサンプリングモジュールに入力してぼかしアップサンプリングを行い、第2の特徴マップを得るS41と、
前記N個のぼかしアップサンプリングモジュールのうちの1番目~(N-1)番目のぼかしアップサンプリングモジュールから出力される特徴マップを前記第3のネットワークに入力してアップサンプリングを行い、第3の特徴マップを得るS42と、
前記輝度チャンネル、前記第2の特徴マップ及び前記第3の特徴マップを重ね合わせて、前記目標顔画像を得るS43と、を含む。
ここで、第2のネットワークにおけるぼかしアップサンプリングモジュールは、第1のネットワークにおけるダウンサンプリングモジュールと対称な構成を有し、目標特徴マップのサイズを復元するために用いられる。第2の特徴マップとは、N個のぼかしアップサンプリングモジュールによるぼかしアップサンプリングを行って得られる特徴マップを指す。少なくとも1つのぼかしアップサンプリングモジュールにおける畳み込み層は、標準畳み込み-ぼかし畳み込み-標準畳み込みの方式で畳み込み処理を行う。図3に示すように、N個のぼかしアップサンプリングモジュールによる処理順番は、左から右の順に、1番目のぼかしアップサンプリングモジュール、2番目のぼかしアップサンプリングモジュール、3番目のぼかしアップサンプリングモジュール…N番目のぼかしアップサンプリングモジュールとなっており、N個のぼかしアップサンプリングモジュールのうちの1番目~(N-1)番目のぼかしアップサンプリングモジュールから出力される特徴マップは、第3のネットワークに入力されアップサンプリングが行われ、第3の特徴マップ、すなわち第3のネットワークにおけるアップサンプリングを行って出力される特徴マップが得られ、高解像度の輝度チャンネル、第2の特徴マップ及び第3の特徴マップを重ね合わせれば、目標顔画像が得られる。第3のネットワークは、第2のネットワークにおける1番目~(N-1)番目のぼかしアップサンプリングモジュールから出力される特徴マップに対してアップサンプリングを行うことにより、ニューラルネットワークモデルの安定性の確保に有利になり、ショートカット接続により第1のネットワークの入力、第2のネットワークの出力及び第3のネットワークの出力を重ね合わせることにより、ニューラルネットワークモデルの過剰適合を防止できる一方、特徴情報の豊富化に有利になり、目標顔画像の修復品質を改善する。
可能な一実施形態では、前記第3のネットワークは、(N-1)個のアップサンプリングモジュールを含み、前記した、前記N個のぼかしアップサンプリングモジュールのうちの1番目~(N-1)番目のぼかしアップサンプリングモジュールから出力される特徴マップを前記第3のネットワークに入力してアップサンプリングを行い、第3の特徴マップを得ることは、前記N個のぼかしアップサンプリングモジュールのうちの1番目のぼかしアップサンプリングモジュールから出力される特徴マップのチャンネル数を圧縮して、第1の圧縮特徴マップを得ることと、前記第1の圧縮特徴マップを前記(N-1)個のアップサンプリングモジュールのうちの1番目のアップサンプリングモジュールに入力してアップサンプリングを行うことと、前記N個のぼかしアップサンプリングモジュールのうちのi(iは、1よりも大きく、N未満の整数である)番目のぼかしアップサンプリングモジュールから出力される特徴マップのチャンネル数を圧縮して、第2の圧縮特徴マップを得ることと、前記(N-1)個のアップサンプリングモジュールのうちの(i-1)番目のアップサンプリングモジュールから出力される特徴マップと前記第2の圧縮特徴マップとを重ね合わせ、重ね合わせて得られる特徴マップを前記(N-1)個のアップサンプリングモジュールのうちのi番目のアップサンプリングモジュールに入力してアップサンプリングを行うことと、前記(N-1)個のアップサンプリングモジュールによる処理を経て、前記第3の特徴マップを得ることと、を含む。
続いて、図3を参照する。第3のネットワークにおける(N-1)個のアップサンプリングモジュールによる処理順番は、左から右の順に、1番目のアップサンプリングモジュール、2番目のアップサンプリングモジュール…(N-1)番目のアップサンプリングモジュールとなっており、少なくとも1つのアップサンプリングモジュールにおけるアップサンプリングは、標準畳み込みを用いて完了させる。1番目~(N-1)番目のぼかしアップサンプリングモジュールから出力される特徴マップは、第3のネットワークのアップサンプリングモジュールに入力される前に、まずチャンネル数の圧縮が行われることにより、少なくとも1つのアップサンプリングモジュールに入力される特徴マップのチャンネル数が同じになる。具体的には、第1の圧縮特徴マップは、1番目のぼかしアップサンプリングモジュールから出力される特徴マップに対してチャンネル数の圧縮が行われた特徴マップであり、第2の圧縮特徴マップは、i番目のぼかしアップサンプリングモジュールから出力される特徴マップに対してチャンネル数の圧縮が行われた特徴マップである。1番目のアップサンプリングモジュールは、その直前のアップサンプリングモジュールがないため、1番目のぼかしアップサンプリングモジュールから出力される特徴マップに対して直接にチャンネル数の圧縮を行い、第1の圧縮特徴マップを1番目のアップサンプリングモジュールに入力してアップサンプリングを行ってもよい。i番目のアップサンプリングモジュールは、その直前のアップサンプリングモジュール(すなわち、(i-1)番目のアップサンプリングモジュール)があるため、i番目のアップサンプリングモジュールへの入力は、(i-1)番目のアップサンプリングモジュールから出力される特徴マップと、i番目のぼかしアップサンプリングモジュールから出力され圧縮された特徴マップとの重ね合わせである。簡単に言えば、2番目のアップサンプリングモジュールへの入力は、1番目のアップサンプリングモジュールから出力される特徴マップと、2番目のぼかしアップサンプリングモジュールから出力され圧縮された特徴マップとの重ね合わせであり、3番目のアップサンプリングモジュールへの入力は、2番目のアップサンプリングモジュールから出力される特徴マップと、3番目のぼかしアップサンプリングモジュールから出力され圧縮された特徴マップとの重ね合わせであり、(N-1)番目のアップサンプリングモジュールへの入力は、(N-2)番目のアップサンプリングモジュールから出力される特徴マップと、(N-1)番目のぼかしアップサンプリングモジュールから出力され圧縮された特徴マップとの重ね合わせである。このように、第3のネットワークにおける(N-1)個のアップサンプリングモジュールによるアップサンプリング処理を経て、第3の特徴マップが出力される。1番目~(N-1)番目のぼかしアップサンプリングモジュールから出力される特徴マップのチャンネル数を圧縮することにより、第3のネットワークにおける少なくとも1つのアップサンプリングモジュールへの入力のチャンネル数がすべて同じになることを確保して、ニューラルネットワークモデルの安定性を向上させることに有利になる。
S23において、前記目標顔画像及び前記修復対象の顔画像の色チャンネルを融合して、第1の顔修復画像を得る。
本出願の具体的な実施例では、第1の顔修復画像とは、ニューラルネットワークモデルによる修復、及び色チャンネルの融合を経て得られる顔画像を指す。輝度チャンネルが修復された目標顔画像に対して、修復対象の顔画像の色チャンネルとの割合情報をそれぞれ算出し、算出された割合に基づいて、目標顔画像及び修復対象の顔画像の色チャンネルを融合して画像強調を実現し、第1の顔修復画像を出力する。
S24において、前記第1の顔修復画像に対して画像変換処理を行い、第2の顔修復画像を得る。
本出願の具体的な実施例では、第1の顔修復画像に対して局所的色補正を行い、色補正後の第1の顔修復画像を拡縮して、そのサイズを、ステップS21にて切り取った顔画像のサイズに復元すれば、品質が比較的に良い第2の顔修復画像が得られ、第2の顔修復画像の解像度の向上に有利になる。まず、第1の顔修復画像のサイズ、及び切り取った顔画像のサイズに基づいて、現在拡縮に必要な倍率を特定し、拡縮倍率が1.5倍を超えた場合、超解像技術を用いて2倍の拡縮を行うことにより、第1の顔修復画像のサイズを復元する。例えば、SRCNN(Super-Resolution Convolutional Neural Network、超解像再構成畳み込みニューラルネットワーク)などを用いて拡縮を行ってもよい。
可能な一実施形態では、第2の顔修復画像を得た後に、前記方法は、
前記人物画像マスクのエッジに対してガウシアンぼかしを行うことと、前記元画像における前記顔画像の切り取り位置、及び前記人物画像マスクに基づいて、前記第2の顔修復画像における顔を、切り取り後の前記元画像に貼り戻して、前記元画像の修復を完了させることと、をさらに含む。
前記人物画像マスクのエッジに対してガウシアンぼかしを行うことと、前記元画像における前記顔画像の切り取り位置、及び前記人物画像マスクに基づいて、前記第2の顔修復画像における顔を、切り取り後の前記元画像に貼り戻して、前記元画像の修復を完了させることと、をさらに含む。
元画像における顔画像の切り取り位置、及び人物画像マスクに基づいて、元画像における顔の位置を特定することができる。これにより、第2の顔修復画像における修復済みの顔を、切り取り後の元画像に貼り戻し、背景部分は、元画像における背景のままとし、顔画像を貼り戻す前に、マスクマトリックスMに基づいて人物画像マスクのエッジに対してガウシアンぼかしを行うことにより、最終的な修復画像をより滑らかで自然なものとすることができる。
可能な一実施形態では、修復対象の顔画像を取得する前に、前記方法は、第1の顔画像と、前記第1の顔画像に基づいて得られる第2の顔画像とを含むサンプル画像ペアを構成することと、前記サンプル画像ペアをニューラルネットワークに入力してトレーニングを行い、前記第2の顔画像の修復画像を出力することと、前記修復画像及び前記第1の顔画像に基づいて目標損失を特定することと、前記目標損失を最小化するように、前記ニューラルネットワークのパラメータを調整して、前記ニューラルネットワークモデルを得ることと、をさらに含む。
ここで、ニューラルネットワークモデルのトレーニングには、ペアとなる画像、すなわちサンプル画像ペアにおける第1の顔画像及び第2の顔画像を採用する。第1の顔画像とは、予め用意された画像を指し、第2の顔画像とは、第1の顔画像に基づいて得られ、例えばピントボケ、ノイズ、圧縮損失、サンプリングによるエイリアシング、ISP(Image Signal Processor、画像信号プロセッサ)によるノイズ除去後の残余などの画質問題がある劣化画像を指す。第2の顔画像は、第1の顔画像と全く同じ顔画像であってもよく、第1の顔画像に対して劣化処理を行って得られる顔画像であってもよい。この両者は、画質の劣化の有無を除き、他の情報が全く同じである。このようなサンプル画像ペアは、実際に収集された画像では見つけにくいものであるため、第1の顔画像に基づいて第2の顔画像を合成してもよい。構成されたサンプル画像ペアをニューラルネットワークに入力してトレーニングを行い、前記ステップS22及びS23に示す方法で、第2の顔画像における顔を修復して第2の顔画像の修復画像を得る。そして、この修復画像と第1の顔画像に基づいて目標損失を算出する。目標損失は、回帰損失、知覚損失、敵対的生成損失及びコンテキスト損失のうちの少なくとも一つを含む。目標損失に基づいてニューラルネットワークのパラメータを調整して、目標損失を最小化することにより、トレーニング済みのニューラルネットワークモデルを得る。
ここで、回帰損失は、
で表され、Xは、ニューラルネットワークから出力される修復画像を表し、Yは、第1の顔画像を表す。回帰損失は、修復画像と第1の顔画像における対応画素の間の距離L1の最小化、ノイズ処理、及び最終的に回復される画像の色などの情報の保持のために用いられる。
知覚損失は、
で表される。知覚損失は、修復画像が視覚的によりリアルで自然になるように、深度特徴空間における修復画像と第1の顔画像との間の距離L1を最小化するために用いられる。深度特徴空間は、トレーニング済みのVGG(Visual Geometry Group、視覚的幾何学グループ)ネットワークにより抽出することができ、lは、VGG特徴の層数を表す。
敵対的生成損失は、
で表される。敵対的生成損失は、識別器を用いて修復画像と第1の顔画像とを識別し、修復画像の鮮明度を増加させ、画像の細部テクスチャーを増加させるために用いられる。FminusとFplusは、歪度における正と負の2つのメトリック関数を表し、arealとafakeは、2つの一定のアンカー値であり、Dは、識別器であり、D(X)は、識別器による修復画像の識別結果を表し、長さが51であるベクトルである。
コンテキスト損失は、
で表される。コンテキスト損失は、特徴空間における修復画像と第1の顔画像とのコサイン距離を算出し、コサイン距離の多様性を最小化するために用いられ、第1の顔画像との損失により、最終的に回復される画像の内容の一致性を確保する。具体的には、CXは、算出されたコサイン距離を表し、Φは、特徴抽出ネットワークを表し、VGGネットワークであってもよく、lは、同じく特徴の層数を表し、Sは、算出する必要がある特徴の層数を表し、通常の場合、S={3,4}であり、すなわち、主にどのようなスケールでコンテキスト損失を算出するかによって定められる。
この実施形態では、ペアとなるサンプル画像を用いてニューラルネットワークをトレーニングし、このサンプル画像ペアには、実際に収集された画質問題のある画像に十分に近い劣化画像が存在する。このようなサンプル画像ペアを用いてニューラルネットワークをトレーニングすることにより、ニューラルネットワークモデルの汎化性の向上に有利になる。目標損失を最小化することにより、ニューラルネットワークモデルから出力される修復画像をできるだけ第1の顔画像の品質に近づけ、修復画像の輪郭や毛髪などの細部に対する処理を増加させることができる。回帰損失、知覚損失、敵対的生成損失及びコンテキスト損失のうちの少なくとも一つを含む目標損失を用いて、ニューラルネットワークモデルをトレーニングすることにより、ニューラルネットワークモデルは、劣化画像に存在する複数の問題を全体的に修復し、人物画像修復の品質を改善することができる。
可能な一実施形態では、図5に示すように、前記した、サンプル画像ペアを構成することは、以下のステップを含む。
S501において、予め設定された前記第1の顔画像を取得する。
S502において、前記第1の顔画像の画質が劣化したか否かを判断し、YESの場合、ステップS503を実行し、NOの場合、ステップS504を実行する。
S503において、2枚の前記第1の顔画像により前記サンプル画像ペアを構成し、2枚のうちのいずれか一枚を前記第2の顔画像として決定する。
S504において、前記第1の顔画像に対して大気擾乱劣化を行い、第1の劣化画像を得る。
S505において、前記第1の劣化画像に対してダウンサンプリングを行い、目標劣化画像を得る。
S506において、前記目標劣化画像に対してアップサンプリングを行い、第2の劣化画像を得る。
S507において、前記第2の劣化画像に基づいて第3の劣化画像を得る。
S508において、予め設定された圧縮品質パラメータを用いて前記第3の劣化画像を圧縮して、第4の劣化画像を得る。
S509において、前記第4の劣化画像において矩形領域を決定し、前記第1の顔画像において前記矩形領域に対応する目標領域を特定する。
S510において、前記目標領域内の画素値で前記矩形領域内の対応する画素値を置き換え、前記第2の顔画像を得て、前記第1の顔画像と前記第2の顔画像により前記サンプル画像ペアを構成する。
ここで、第1の顔画像について、まず、その画質を判断し、その画質が劣化したか否かを判断する。画質が劣化した場合、劣化処理を行う必要がなく、2枚の第1の顔画像によりサンプル画像ペアを構成し、2枚のうちのいずれか一枚を第2の顔画像として決定する。画質が劣化していない場合には、劣化処理を行い、具体的には、予め設定されたアルゴリズムを用いて実現できる。第1の顔画像を入力し、最終的に元の第1の顔画像が返される場合、第1の顔画像自体の画質が劣化しており、返されない場合には、第1の顔画像に対して一定の確率で大気擾乱を行い、第1の劣化画像を得て、第1の劣化画像に対して0~8倍のダウンサンプリングを行い、低解像度の目標劣化画像を得て、目標劣化画像に対して対応するアップサンプリングを行い、第1の劣化画像と同じ解像度の第2の劣化画像を得て、第2の劣化画像の輝度チャンネルにノイズを加え、非局所的平均ノイズ除去を行い、第3の劣化画像を得る。選択的に、まず、第2の劣化画像に対してぼかし操作を行い、対応する劣化画像(すなわち、第5の劣化画像)を得て、該劣化画像の輝度チャンネルにノイズを加え、非局所的平均ノイズ除去を行い、第3の劣化画像を得るようにしてもよい。ぼかし操作、ノイズ重畳、非局所的平均ノイズ除去などの方法で第2の劣化画像に対して多様な劣化処理を行うことにより、第3の劣化画像に多様な劣化問題を生じさせ、以後に多様な劣化問題のある画像を用いてニューラルネットワークモデルをトレーニングすることに有利になる。第3の劣化画像に対して、予め設定された圧縮品質パラメータを用いてJPEG圧縮操作を行う。ここで、圧縮品質パラメータは、実際の状況に応じて設定されてもよい。圧縮して得られる第4の劣化画像に対して、図6に示すように、1つの矩形領域をランダムに選択し、第1の顔画像において当該領域に対応する目標領域を選択し、目標領域内の画素値で矩形領域内の画素値を置き換えれば、劣化画像の合成が完了し、第2の顔画像が得られ、第1の顔画像と第2の顔画像により1つのサンプル画像ペアを構成する。この実施形態では、上記したより複雑な画像合成方法でトレーニング画像の合成を行うので、従来の合成方法に比べて、得られる第2の顔画像は、実際の劣化画像により近いものになる。
この実施形態では、第1の顔画像の画質を判断し、第1の顔画像自体が比較的に鮮明で、その画質が劣化していない場合、第1の顔画像に対して一連の劣化処理を行い、1枚の劣化問題のある第2の顔画像が合成され、第2の顔画像を実際に収集された劣化画像に類似するものにすることにより、真の劣化画像を修復するシーンをシミュレートする。第1の顔画像自体に劣化問題がある場合、それに対して劣化処理を行う必要がなく、直接に2枚の第1の顔画像を用いてサンプル画像ペアを構成して、真の劣化画像を修復するシーンをシミュレートしてもよい。
これから分かるように、本出願の実施例では、修復対象の顔画像を取得し、前記修復対象の顔画像の輝度チャンネルを抽出し、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像が得られ、前記目標顔画像及び前記修復対象の顔画像の色チャンネルを融合して第1の顔修復画像が得られ、前記第1の顔修復画像に対して画像変換処理を行い、第2の顔修復画像が得られる。このように、修復対象の顔画像に対して輝度チャンネルの抽出を行い、抽出された輝度チャンネルに基づいて人物画像修復を行うことにより、輝度チャンネルが修復された目標顔画像が得られ、そして、色チャンネルの融合を行って修復済みの第1の顔修復画像が得られ、さらに第1の顔修復画像に対して色補正、拡縮などの画像変換処理を行うことにより、得られる第2の顔修復画像が修復対象の顔画像の色情報と修復対象の顔画像の拡縮前の解像度を保つようにする。これにより、ノイズ、ボケ、歪みなどの問題がある顔画像に対する修復に有利になり、修復後の顔画像の品質を改善し、顔画像の全体的な修復効果を向上させる。
図7を参照すると、図7は、本出願の実施例による他の人物画像修復方法のフロー模式図を示す。図7に示すように、ステップS71~S76を含む。
S71において、修復対象の顔画像を取得する。
S72において、前記修復対象の顔画像のフォーマットが第1のフォーマットである場合、前記修復対象の顔画像の輝度チャンネルを抽出し、ステップS74を実行する。
S73において、前記修復対象の顔画像のフォーマットが第2のフォーマットである場合、前記修復対象の顔画像のフォーマットを前記第1のフォーマットに変換し、フォーマット変換後の前記修復対象の顔画像の前記輝度チャンネルを抽出する。
S74において、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得る。
S75において、前記目標顔画像及び前記修復対象の顔画像の色チャンネルを融合して、第1の顔修復画像を得る。
S76において、前記第1の顔修復画像に対して画像変換処理を行い、第2の顔修復画像を得る。
上記ステップS71~S76の具体的な実施形態は、図2~図6に示す実施例において既に説明されており、同一または類似する有益な効果を達成することができる。ここでは、これ以上説明しない。
図2~図6に示す方法の実施例に関する説明により、本出願の実施例はさらに、人物画像修復装置を提供する。図8を参照すると、図8は、本出願の実施例による人物画像修復装置の構成模式図を示す。図8に示すように、この装置は、
修復対象の顔画像を取得するための画像取得モジュール81と、
前記修復対象の顔画像の輝度チャンネルを抽出し、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得るための人物画像修復モジュール82と、
前記目標顔画像及び前記修復対象の顔画像の色チャンネルを融合して、第1の顔修復画像を得るための画像融合モジュール83と、
前記第1の顔修復画像に対して画像変換処理を行い、第2の顔修復画像を得るための画像調整モジュール84と、を含む。
修復対象の顔画像を取得するための画像取得モジュール81と、
前記修復対象の顔画像の輝度チャンネルを抽出し、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得るための人物画像修復モジュール82と、
前記目標顔画像及び前記修復対象の顔画像の色チャンネルを融合して、第1の顔修復画像を得るための画像融合モジュール83と、
前記第1の顔修復画像に対して画像変換処理を行い、第2の顔修復画像を得るための画像調整モジュール84と、を含む。
可能な一実施形態では、前記修復対象の顔画像の輝度チャンネルを抽出するにあたって、人物画像修復モジュール82は、具体的に、
前記修復対象の顔画像のフォーマットが第1のフォーマットである場合、前記修復対象の顔画像の前記輝度チャンネルを抽出すること、または、前記修復対象の顔画像のフォーマットが第2のフォーマットである場合、前記修復対象の顔画像のフォーマットを前記第1のフォーマットに変換し、フォーマット変換後の前記修復対象の顔画像の前記輝度チャンネルを抽出することに用いられる。
前記修復対象の顔画像のフォーマットが第1のフォーマットである場合、前記修復対象の顔画像の前記輝度チャンネルを抽出すること、または、前記修復対象の顔画像のフォーマットが第2のフォーマットである場合、前記修復対象の顔画像のフォーマットを前記第1のフォーマットに変換し、フォーマット変換後の前記修復対象の顔画像の前記輝度チャンネルを抽出することに用いられる。
可能な一実施形態では、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得るにあたって、人物画像修復モジュール82は、具体的に、
前記輝度チャンネルをトレーニング済みのニューラルネットワークモデルに入力して人物画像修復を行い、前記目標顔画像を得ることに用いられる。
前記輝度チャンネルをトレーニング済みのニューラルネットワークモデルに入力して人物画像修復を行い、前記目標顔画像を得ることに用いられる。
可能な一実施形態では、前記ニューラルネットワークモデルは、第1のネットワークと第2のネットワークと第3のネットワークと第4のネットワークを含み、前記第2のネットワークは、N(Nは、1よりも大きい整数である)個のぼかしアップサンプリングモジュールを含み、前記N個のぼかしアップサンプリングモジュールのうちの少なくとも1つのぼかしアップサンプリングモジュールにおけるぼかしアップサンプリングは、ぼかし畳み込みを含み、前記ぼかし畳み込みにおける畳み込みカーネルの重みは、予め設定された一定値であり、前記ニューラルネットワークモデルは、前記第1のネットワークの入力、前記第2のネットワークの出力及び前記第3のネットワークの出力のところにショートカット接続があり、前記第1のネットワークの出力及び前記第4のネットワークの出力のところにショートカット接続がある。
可能な一実施形態では、前記輝度チャンネルをトレーニング済みのニューラルネットワークモデルに入力して人物画像修復を行い、前記目標顔画像を得るにあたって、人物画像修復モジュール82は、具体的に、
前記第1のネットワークを用いて前記輝度チャンネルに対して符号化操作を行い、目標特徴マップを得ることと、前記第2のネットワーク及び前記第3のネットワークを用いて前記目標特徴マップに対して復号化操作を行い、前記目標顔画像を得ることに用いられる。
前記第1のネットワークを用いて前記輝度チャンネルに対して符号化操作を行い、目標特徴マップを得ることと、前記第2のネットワーク及び前記第3のネットワークを用いて前記目標特徴マップに対して復号化操作を行い、前記目標顔画像を得ることに用いられる。
可能な一実施形態では、前記第1のネットワークを用いて前記輝度チャンネルに対して符号化操作を行い、目標特徴マップを得るにあたって、人物画像修復モジュール82は、具体的に、
前記輝度チャンネルを前記第1のネットワークに入力してダウンサンプリングを行い、第1の特徴マップを得ることと、前記第4のネットワークを用いて前記第1の特徴マップに対して上位層特徴抽出を行い、上位層特徴マップを得ることと、前記第1の特徴マップと前記上位層特徴マップとを重ね合わせて、前記目標特徴マップを得ることに用いられる。
前記輝度チャンネルを前記第1のネットワークに入力してダウンサンプリングを行い、第1の特徴マップを得ることと、前記第4のネットワークを用いて前記第1の特徴マップに対して上位層特徴抽出を行い、上位層特徴マップを得ることと、前記第1の特徴マップと前記上位層特徴マップとを重ね合わせて、前記目標特徴マップを得ることに用いられる。
可能な一実施形態では、前記第2のネットワーク及び前記第3のネットワークを用いて前記目標特徴マップに対して復号化操作を行い、前記目標顔画像を得るにあたって、人物画像修復モジュール82は、具体的に、
前記目標特徴マップを前記第2のネットワークにおける前記N個のぼかしアップサンプリングモジュールに入力してぼかしアップサンプリングを行い、第2の特徴マップを得ることと、前記N個のぼかしアップサンプリングモジュールのうちの1番目~(N-1)番目のぼかしアップサンプリングモジュールから出力される特徴マップを前記第3のネットワークに入力してアップサンプリングを行い、第3の特徴マップを得ることと、前記輝度チャンネル、前記第2の特徴マップ及び前記第3の特徴マップを重ね合わせて、前記目標顔画像を得ることに用いられる。
前記目標特徴マップを前記第2のネットワークにおける前記N個のぼかしアップサンプリングモジュールに入力してぼかしアップサンプリングを行い、第2の特徴マップを得ることと、前記N個のぼかしアップサンプリングモジュールのうちの1番目~(N-1)番目のぼかしアップサンプリングモジュールから出力される特徴マップを前記第3のネットワークに入力してアップサンプリングを行い、第3の特徴マップを得ることと、前記輝度チャンネル、前記第2の特徴マップ及び前記第3の特徴マップを重ね合わせて、前記目標顔画像を得ることに用いられる。
可能な一実施形態では、前記第3のネットワークは、(N-1)個のアップサンプリングモジュールを含み、前記N個のぼかしアップサンプリングモジュールのうちの1番目~(N-1)番目のぼかしアップサンプリングモジュールから出力される特徴マップを前記第3のネットワークに入力してアップサンプリングを行い、第3の特徴マップを得るにあたって、人物画像修復モジュール82は、具体的に、
前記N個のぼかしアップサンプリングモジュールのうちの1番目のぼかしアップサンプリングモジュールから出力される特徴マップのチャンネル数を圧縮して、第1の圧縮特徴マップを得ることと、前記第1の圧縮特徴マップを前記(N-1)個のアップサンプリングモジュールのうちの1番目のアップサンプリングモジュールに入力してアップサンプリングを行うことと、前記N個のぼかしアップサンプリングモジュールのうちのi(iは、1よりも大きく、N未満の整数である)番目のぼかしアップサンプリングモジュールから出力される特徴マップのチャンネル数を圧縮して、第2の圧縮特徴マップを得ることと、前記(N-1)個のアップサンプリングモジュールのうちの(i-1)番目のアップサンプリングモジュールから出力される特徴マップと前記第2の圧縮特徴マップとを重ね合わせ、重ね合わせて得られる特徴マップを前記(N-1)個のアップサンプリングモジュールのうちのi番目のアップサンプリングモジュールに入力してアップサンプリングを行うことと、前記(N-1)個のアップサンプリングモジュールによる処理を経て、前記第3の特徴マップを得ることに用いられる。
前記N個のぼかしアップサンプリングモジュールのうちの1番目のぼかしアップサンプリングモジュールから出力される特徴マップのチャンネル数を圧縮して、第1の圧縮特徴マップを得ることと、前記第1の圧縮特徴マップを前記(N-1)個のアップサンプリングモジュールのうちの1番目のアップサンプリングモジュールに入力してアップサンプリングを行うことと、前記N個のぼかしアップサンプリングモジュールのうちのi(iは、1よりも大きく、N未満の整数である)番目のぼかしアップサンプリングモジュールから出力される特徴マップのチャンネル数を圧縮して、第2の圧縮特徴マップを得ることと、前記(N-1)個のアップサンプリングモジュールのうちの(i-1)番目のアップサンプリングモジュールから出力される特徴マップと前記第2の圧縮特徴マップとを重ね合わせ、重ね合わせて得られる特徴マップを前記(N-1)個のアップサンプリングモジュールのうちのi番目のアップサンプリングモジュールに入力してアップサンプリングを行うことと、前記(N-1)個のアップサンプリングモジュールによる処理を経て、前記第3の特徴マップを得ることに用いられる。
可能な一実施形態では、修復対象の顔画像を取得するにあたって、画像取得モジュール81は、具体的に、
収集された元画像に対して顔検出を行うことと、前記元画像における検出された顔の位置に基づいて、顔画像を切り取ることと、前記顔画像を拡縮して、前記修復対象の顔画像を得ることに用いられる。
収集された元画像に対して顔検出を行うことと、前記元画像における検出された顔の位置に基づいて、顔画像を切り取ることと、前記顔画像を拡縮して、前記修復対象の顔画像を得ることに用いられる。
可能な一実施形態では、画像取得モジュール81は、さらに、前記元画像に対して人物画像分割を行い、人物画像マスクを得ることに用いられる。
可能な一実施形態では、画像調整モジュール84は、さらに、
前記人物画像マスクのエッジに対してガウシアンぼかしを行うことと、前記元画像における前記顔画像の切り取り位置、及び前記人物画像マスクに基づいて、前記第2の顔修復画像における顔を、切り取り後の前記元画像に貼り戻して、前記元画像の修復を完了させることに用いられる。
前記人物画像マスクのエッジに対してガウシアンぼかしを行うことと、前記元画像における前記顔画像の切り取り位置、及び前記人物画像マスクに基づいて、前記第2の顔修復画像における顔を、切り取り後の前記元画像に貼り戻して、前記元画像の修復を完了させることに用いられる。
可能な一実施形態では、前記第1の顔修復画像に対して画像変換処理を行い、第2の顔修復画像を得ることにあたって、画像調整モジュール84は、具体的に、
前記第1の顔修復画像に対して色補正を行うことと、拡縮倍率を特定することと、拡縮倍率が予め設定された倍率よりも大きい場合、超解像技術を用いて色補正後の前記第1の顔修復画像を拡縮して、前記第2の顔修復画像を得ることに用いられる。
前記第1の顔修復画像に対して色補正を行うことと、拡縮倍率を特定することと、拡縮倍率が予め設定された倍率よりも大きい場合、超解像技術を用いて色補正後の前記第1の顔修復画像を拡縮して、前記第2の顔修復画像を得ることに用いられる。
可能な一実施形態では、図9に示すように、この装置は、モデル構築モジュール85をさらに含み、モデル構築モジュール85は、
第1の顔画像と、前記第1の顔画像に基づいて得られる第2の顔画像とを含むサンプル画像ペアを構成することと、前記サンプル画像ペアをニューラルネットワークに入力してトレーニングを行い、前記第2の顔画像の修復画像を出力することと、前記修復画像及び前記第1の顔画像に基づいて目標損失を特定することと、前記目標損失を最小化するように、前記ニューラルネットワークのパラメータを調整して、前記ニューラルネットワークモデルを得ることに用いられる。
第1の顔画像と、前記第1の顔画像に基づいて得られる第2の顔画像とを含むサンプル画像ペアを構成することと、前記サンプル画像ペアをニューラルネットワークに入力してトレーニングを行い、前記第2の顔画像の修復画像を出力することと、前記修復画像及び前記第1の顔画像に基づいて目標損失を特定することと、前記目標損失を最小化するように、前記ニューラルネットワークのパラメータを調整して、前記ニューラルネットワークモデルを得ることに用いられる。
可能な一実施形態では、前記目標損失は、回帰損失、知覚損失、敵対的生成損失及びコンテキスト損失のうちの少なくとも一つを含む。
可能な一実施形態では、サンプル画像ペアを構成するにあたって、モデル構築モジュール85は、具体的に、
予め設定された前記第1の顔画像を取得することと、前記第1の顔画像の画質が劣化していない場合、前記第1の顔画像に対して大気擾乱劣化を行い、第1の劣化画像を得て、前記第1の劣化画像に対してダウンサンプリングを行い、目標劣化画像を得て、前記目標劣化画像に対してアップサンプリングを行い、第2の劣化画像を得て、前記第2の劣化画像に基づいて第3の劣化画像を得て、予め設定された圧縮品質パラメータを用いて前記第3の劣化画像を圧縮して、第4の劣化画像を得て、前記第4の劣化画像において矩形領域を決定し、前記第1の顔画像において前記矩形領域に対応する目標領域を特定し、前記目標領域内の画素値で前記矩形領域内の対応する画素値を置き換え、前記第2の顔画像を得て、前記第1の顔画像と前記第2の顔画像により前記サンプル画像ペアを構成すること、または、前記第1の顔画像の画質が劣化した場合、2枚の前記第1の顔画像により前記サンプル画像ペアを構成し、2枚のうちのいずれか一枚を前記第2の顔画像として決定することに用いられる。
予め設定された前記第1の顔画像を取得することと、前記第1の顔画像の画質が劣化していない場合、前記第1の顔画像に対して大気擾乱劣化を行い、第1の劣化画像を得て、前記第1の劣化画像に対してダウンサンプリングを行い、目標劣化画像を得て、前記目標劣化画像に対してアップサンプリングを行い、第2の劣化画像を得て、前記第2の劣化画像に基づいて第3の劣化画像を得て、予め設定された圧縮品質パラメータを用いて前記第3の劣化画像を圧縮して、第4の劣化画像を得て、前記第4の劣化画像において矩形領域を決定し、前記第1の顔画像において前記矩形領域に対応する目標領域を特定し、前記目標領域内の画素値で前記矩形領域内の対応する画素値を置き換え、前記第2の顔画像を得て、前記第1の顔画像と前記第2の顔画像により前記サンプル画像ペアを構成すること、または、前記第1の顔画像の画質が劣化した場合、2枚の前記第1の顔画像により前記サンプル画像ペアを構成し、2枚のうちのいずれか一枚を前記第2の顔画像として決定することに用いられる。
可能な一実施形態では、前記第2の劣化画像に基づいて第3の劣化画像を得るにあたって、モデル構築モジュール85は、具体的に、
前記第2の劣化画像の輝度チャンネルにノイズを加え、前記第2の劣化画像に対して非局所的平均ノイズ除去を行い、前記第3の劣化画像を得ること、または、前記第2の化画像に対してぼかし操作を行い、第5の劣化画像を得て、前記第5の劣化画像の輝度チャンネルにノイズを加え、前記第5の劣化画像に対して非局所的平均ノイズ除去を行い、前記第3の劣化画像を得ることに用いられる。
前記第2の劣化画像の輝度チャンネルにノイズを加え、前記第2の劣化画像に対して非局所的平均ノイズ除去を行い、前記第3の劣化画像を得ること、または、前記第2の化画像に対してぼかし操作を行い、第5の劣化画像を得て、前記第5の劣化画像の輝度チャンネルにノイズを加え、前記第5の劣化画像に対して非局所的平均ノイズ除去を行い、前記第3の劣化画像を得ることに用いられる。
本出願の一実施例によれば、図8または図9に示す人物画像修復装置の各ユニットは、それぞれまたはすべてが1つ或いはいくつかの他のユニットに統合されて構成されてもよく、または、そのうちのある1つ(複数)のユニットがさらに機能的により小さな複数のユニットに分割されて構成されてもよく、本出願の実施例の技術的効果の実現に影響を与えることなく同様の操作を実現することができる。上記のユニットは、論理的機能に基づいて区分されたものであり、実際の応用では、1つのユニットの機能が複数のユニットによって実現されてもよく、または、複数のユニットの機能が1つのユニットによって実現されてもよい。本出願の他の実施例では、人物画像修復装置は、他のユニットを含んでもよく、実際の応用では、これらの機能は、他のユニットによる協力によって実現されてもよく、複数のユニットによる協力によって実現されてもよい。
本出願の他の実施例によれば、中央処理ユニット(CPU)、ランダムアクセス記憶媒体(RAM)、読み取り専用記憶媒体(ROM)などの処理素子及び記憶素子を含む例えばコンピュータ汎用のコンピューティングデバイスに、図2または図7に示されたそれぞれの方法に係る各ステップを実行可能なコンピュータプログラム(プログラムコードを含む)を稼働させることにより、図8または図9に示された人物画像修復装置を構成し、本出願の実施例の人物画像修復方法を実現してもよい。前記コンピュータプログラムは、例えば、コンピュータ読み取り可能な記憶媒体に記載され、コンピュータ読み取り可能な記憶媒体を介して前記コンピューティングデバイスにロードされて稼働されてもよい。
上記した方法の実施例及び装置の実施例の説明により、本出願の実施例はさらに、、電子機器を提供する。図10を参照すると、この電子機器は、少なくとも、プロセッサ1001、入力装置1002、出力装置1003及びコンピュータ記憶媒体1004を含む。電子機器内のプロセッサ1001、入力装置1002、出力装置1003及びコンピュータ記憶媒体1004は、バスまたは他の手段により接続されることができる。
コンピュータ記憶媒体1004は、電子機器のストレージに格納されてもよい。前記コンピュータ記憶媒体1004は、プログラム命令を含むコンピュータプログラムを記憶するために用いられ、前記プロセッサ1001は、前記コンピュータ記憶媒体1004に記憶されたプログラム命令を実行するために用いられる。プロセッサ1001(またはCPU(Central Processing Unit、中央処理ユニット)とも呼ばれる)は、電子機器のコンピューティングコアおよび制御コアであり、1つ以上の命令の実装に適し、具体的には、1つ以上の命令をロードして実行することにより、対応する方法の流れまたは対応する機能を実装することに適する。コンピュータ記憶媒体は、揮発性記憶媒体または不揮発性記憶媒体であってもよい。
1つの実施例では、本出願の実施例による電子機器のプロセッサ1001は、修復対象の顔画像を取得することと、前記修復対象の顔画像の輝度チャンネルを抽出し、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得ることと、前記目標顔画像及び前記修復対象の顔画像の色チャンネルを融合して、第1の顔修復画像を得ることと、前記第1の顔修復画像に対して画像変換処理を行い、第2の顔修復画像を得ることと、を含む一連の人物画像修復処理を行うために用いられる。
もう1つの実施例では、プロセッサ1001が、前記した、前記修復対象の顔画像の輝度チャンネルを抽出することを実行することは、前記修復対象の顔画像のフォーマットが第1のフォーマットである場合、前記修復対象の顔画像の前記輝度チャンネルを抽出すること、または、前記修復対象の顔画像のフォーマットが第2のフォーマットである場合、前記修復対象の顔画像のフォーマットを前記第1のフォーマットに変換し、フォーマット変換後の前記修復対象の顔画像の前記輝度チャンネルを抽出することを含む。
もう1つの実施例では、プロセッサ1001が、前記した、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得ることを実行することは、前記輝度チャンネルをトレーニング済みのニューラルネットワークモデルに入力して人物画像修復を行い、前記目標顔画像を得ることを含む。
もう1つの実施例では、前記ニューラルネットワークモデルは、第1のネットワークと第2のネットワークと第3のネットワークと第4のネットワークを含み、前記第2のネットワークは、N(Nは、1よりも大きい整数である)個のぼかしアップサンプリングモジュールを含み、前記N個のぼかしアップサンプリングモジュールのうちの少なくとも1つのぼかしアップサンプリングモジュールにおけるぼかしアップサンプリングは、ぼかし畳み込みを含み、前記ぼかし畳み込みにおける畳み込みカーネルの重みは、予め設定された一定値であり、前記ニューラルネットワークモデルは、前記第1のネットワークの入力、前記第2のネットワークの出力及び前記第3のネットワークの出力のところにショートカット接続があり、前記第1のネットワークの出力及び前記第4のネットワークの出力のところにショートカット接続がある。
もう1つの実施例では、プロセッサ1001が、前記した、前記輝度チャンネルをトレーニング済みのニューラルネットワークモデルに入力して人物画像修復を行い、前記目標顔画像を得ることを実行することは、前記第1のネットワークを用いて前記輝度チャンネルに対して符号化操作を行い、目標特徴マップを得ることと、前記第2のネットワーク及び前記第3のネットワークを用いて前記目標特徴マップに対して復号化操作を行い、前記目標顔画像を得ることと、を含む。
もう1つの実施例では、プロセッサ1001が、前記した、前記第1のネットワークを用いて前記輝度チャンネルに対して符号化操作を行い、目標特徴マップを得ることを実行することは、前記輝度チャンネルを前記第1のネットワークに入力してダウンサンプリングを行い、第1の特徴マップを得ることと、前記第4のネットワークを用いて前記第1の特徴マップに対して上位層特徴抽出を行い、上位層特徴マップを得ることと、前記第1の特徴マップと前記上位層特徴マップとを重ね合わせて、前記目標特徴マップを得ることと、含む。
もう1つの実施例では、プロセッサ1001が、前記した、前記第2のネットワーク及び前記第3のネットワークを用いて前記目標特徴マップに対して復号化操作を行い、前記目標顔画像を得ることを実行することは、
前記目標特徴マップを前記第2のネットワークにおける前記N個のぼかしアップサンプリングモジュールに入力してぼかしアップサンプリングを行い、第2の特徴マップを得ることと、前記N個のぼかしアップサンプリングモジュールのうちの1番目~(N-1)番目のぼかしアップサンプリングモジュールから出力される特徴マップを前記第3のネットワークに入力してアップサンプリングを行い、第3の特徴マップを得ることと、前記輝度チャンネル、前記第2の特徴マップ及び前記第3の特徴マップを重ね合わせて、前記目標顔画像を得ることと、を含む。
前記目標特徴マップを前記第2のネットワークにおける前記N個のぼかしアップサンプリングモジュールに入力してぼかしアップサンプリングを行い、第2の特徴マップを得ることと、前記N個のぼかしアップサンプリングモジュールのうちの1番目~(N-1)番目のぼかしアップサンプリングモジュールから出力される特徴マップを前記第3のネットワークに入力してアップサンプリングを行い、第3の特徴マップを得ることと、前記輝度チャンネル、前記第2の特徴マップ及び前記第3の特徴マップを重ね合わせて、前記目標顔画像を得ることと、を含む。
もう1つの実施例では、前記第3のネットワークは、(N-1)個のアップサンプリングモジュールを含み、プロセッサ1001が、前記した、前記N個のぼかしアップサンプリングモジュールのうちの1番目~(N-1)番目のぼかしアップサンプリングモジュールから出力される特徴マップを前記第3のネットワークに入力してアップサンプリングを行い、第3の特徴マップを得ることを実行することは、前記N個のぼかしアップサンプリングモジュールのうちの1番目のぼかしアップサンプリングモジュールから出力される特徴マップのチャンネル数を圧縮して、第1の圧縮特徴マップを得ることと、前記第1の圧縮特徴マップを前記(N-1)個のアップサンプリングモジュールのうちの1番目のアップサンプリングモジュールに入力してアップサンプリングを行うことと、前記N個のぼかしアップサンプリングモジュールのうちのi(iは、1よりも大きく、N未満の整数である)番目のぼかしアップサンプリングモジュールから出力される特徴マップのチャンネル数を圧縮して、第2の圧縮特徴マップを得ることと、前記(N-1)個のアップサンプリングモジュールのうちの(i-1)番目のアップサンプリングモジュールから出力される特徴マップと前記第2の圧縮特徴マップとを重ね合わせ、重ね合わせて得られる特徴マップを前記(N-1)個のアップサンプリングモジュールのうちのi番目のアップサンプリングモジュールに入力してアップサンプリングを行うことと、前記(N-1)個のアップサンプリングモジュールによる処理を経て、前記第3の特徴マップを得ることと、を含む。
もう1つの実施例では、プロセッサ1001が、前記した、修復対象の顔画像を取得することを実行することは、収集された元画像に対して顔検出を行うことと、前記元画像における検出された顔の位置に基づいて、顔画像を切り取ることと、前記顔画像を拡縮して、前記修復対象の顔画像を得ることと、を含む。
もう1つの実施例では、前記顔画像を拡縮して、前記修復対象の顔画像を得た後に、プロセッサ1001は、さらに、前記元画像に対して人物画像分割を行い、人物画像マスクを得ることに用いられ、第2の顔修復画像を得た後に、プロセッサ1001は、さらに、前記人物画像マスクのエッジに対してガウシアンぼかしを行うことと、前記元画像における前記顔画像の切り取り位置、及び前記人物画像マスクに基づいて、前記第2の顔修復画像における顔を、切り取り後の前記元画像に貼り戻して、前記元画像の修復を完了させることに用いられる。
もう1つの実施例では、プロセッサ1001が、前記した、前記第1の顔修復画像に対して画像変換処理を行い、第2の顔修復画像を得ることを実行することは、前記第1の顔修復画像に対して色補正を行うことと、拡縮倍率を特定することと、拡縮倍率が予め設定された倍率よりも大きい場合、超解像技術を用いて色補正後の前記第1の顔修復画像を拡縮して、前記第2の顔修復画像を得ることと、を含む。
もう1つの実施例では、修復対象の顔画像を取得する前に、プロセッサ1001は、さらに、第1の顔画像と、前記第1の顔画像に基づいて得られる第2の顔画像とを含むサンプル画像ペアを構成することと、前記サンプル画像ペアをニューラルネットワークに入力してトレーニングを行い、前記第2の顔画像の修復画像を出力することと、前記修復画像及び前記第1の顔画像に基づいて目標損失を特定することと、前記目標損失を最小化するように、前記ニューラルネットワークのパラメータを調整して、前記ニューラルネットワークモデルを得ることに用いられる。
もう1つの実施例では、前記目標損失は、回帰損失、知覚損失、敵対的生成損失及びコンテキスト損失のうちの少なくとも一つを含む。
もう1つの実施例では、プロセッサ1001が、前記した、サンプル画像ペアを構成することを実行することは、予め設定された前記第1の顔画像を取得することと、前記第1の顔画像の画質が劣化していない場合、前記第1の顔画像に対して大気擾乱劣化を行い、第1の劣化画像を得て、前記第1の劣化画像に対してダウンサンプリングを行い、目標劣化画像を得て、前記目標劣化画像に対してアップサンプリングを行い、第2の劣化画像を得て、前記第2の劣化画像に基づいて第3の劣化画像を得て、予め設定された圧縮品質パラメータを用いて前記第3の劣化画像を圧縮して、第4の劣化画像を得て、前記第4の劣化画像において矩形領域を決定し、前記第1の顔画像において前記矩形領域に対応する目標領域を特定し、前記目標領域内の画素値で前記矩形領域内の対応する画素値を置き換え、前記第2の顔画像を得て、前記第1の顔画像と前記第2の顔画像により前記サンプル画像ペアを構成すること、または、前記第1の顔画像の画質が劣化した場合、2枚の前記第1の顔画像により前記サンプル画像ペアを構成し、2枚のうちのいずれか一枚を前記第2の顔画像として決定することと、を含む。
もう1つの実施例では、プロセッサ1001が、前記した、前記第2の劣化画像に基づいて第3の劣化画像を得ることを実行することは、前記第2の劣化画像の輝度チャンネルにノイズを加え、前記第2の劣化画像に対して非局所的平均ノイズ除去を行い、前記第3の劣化画像を得ること、または、前記第2の化画像に対してぼかし操作を行い、第5の劣化画像を得て、前記第5の劣化画像の輝度チャンネルにノイズを加え、前記第5の劣化画像に対して非局所的平均ノイズ除去を行い、前記第3の劣化画像を得ることを含む。
例示的に、上記の電子機器は、コンピュータ、コンピュータホスト、サーバ、クラウドサーバ、サーバクラスターであってもよく、カメラヘッド、ビデオカメラなどの任意の画像収集装置などであってもよい。電子機器は、プロセッサ1001、入力装置1002、出力装置1003及びコンピュータ記憶媒体1004を含むが、これらに限らない。入力装置1002は、キーボード、タッチスクリーンなどであってもよい、出力装置1003は、スピーカー、ディスプレイ、RF送信機などであってもよい。当業者であれば、上記の模式図は、電子機器の例に過ぎず、電子機器を制限するものではなく、図示したものよりも多いまたは少ない部品を含むものであってもよく、いくつかの部品を組み合わせたもの、または異なる部品であってもよいことは理解できる。
なお、電子機器のプロセッサ1001によってコンピュータプログラムが実行されると、上記の人物画像修復方法におけるステップが実現されるので、上記の人物画像修復方法の実施例は、いずれも当該電子機器に適用され、且つ同一または類似する有益な効果を達成することができる。
本出願の実施例はさらに、電子機器内のメモリデバイスであり、プログラムおよびデータを格納するためのコンピュータ記憶媒体(Memory)を提供する。ここでのコンピュータ記憶媒体は、端末に内蔵された記憶媒体を含んでもよいし、もちろん、端末によってサポートされる拡張記憶媒体を含んでもよいことは理解できる。コンピュータ記憶媒体は、端末のオペレーティングシステムが記憶された記憶空間を提供する。また、この記憶空間には、さらに、プロセッサ1001によってロードされて実行されることに適する1つ以上の命令が記憶され、これらの命令は、1つ以上のコンピュータプログラム(プログラムコードを含む)であってもよい。なお、ここでのコンピュータ記憶媒体は、高速なRAMメモリであってもよく、例えば少なくとも1つのディスクメモリのような不揮発性メモリ(non-volatile memory)であってもよい。選択的に、前記プロセッサ1001から離れた少なくとも1つのコンピュータ記憶媒体であってもよい。1つの実施例では、プロセッサ1001によって、コンピュータ記憶媒体に記憶された1つ以上の命令がロードされて実行されることにより、上記の人物画像修復方法における対応するステップを実現するようにしてもよい。
例示的に、コンピュータ記憶媒体におけるコンピュータプログラムは、コンピュータプログラムコードを含み、前記コンピュータプログラムコードは、ソースコード形式、オブジェクトコード形式、実行可能ファイル、または何らかの中間形式などであってもよい。前記コンピュータ読み取り可能な媒体は、前記コンピュータプログラムコードを搬送可能な任意のエンティティまたは装置、記録媒体、Uディスク、リムーバブルハードディスク、磁気ディスク、光ディスク、コンピュータメモリ、読み取り専用メモリ(ROM、Read-Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、電気搬送波信号、電気通信信号及びソフトウェア配信媒体などを含んでもよい。
なお、コンピュータ記憶媒体におけるコンピュータプログラムがプロセッサによって実行されると、上記の人物画像修復方法におけるステップが実現されるので、上記の人物画像修復方法のすべての実施例は、いずれも当該コンピュータ記憶媒体に適用され、同一または類似する有益な効果を達成することができる。
以上に、本出願の実施例を詳細に紹介した。本明細書には、具体的な例を用いて本出願の原理及び実施形態を説明したが、上記の実施例の説明は、本出願の方法及び核となる思想を理解しやすくするためのものに過ぎない。当業者であれば、本出願の思想に基づき、具体的な実施形態及び適用範囲を変更可能であり、以上により、本明細書の内容は本出願を制限するものと理解すべきではない。
Claims (19)
- 人物画像修復方法であって、
修復対象の顔画像を取得することと、
前記修復対象の顔画像の輝度チャンネルを抽出し、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得ることと、
前記目標顔画像及び前記修復対象の顔画像の色チャンネルを融合して、第1の顔修復画像を得ることと、
前記第1の顔修復画像に対して画像変換処理を行い、第2の顔修復画像を得ることと、を含む人物画像修復方法。 - 前記した、前記修復対象の顔画像の輝度チャンネルを抽出することは、
前記修復対象の顔画像のフォーマットが第1のフォーマットである場合、前記修復対象の顔画像の前記輝度チャンネルを抽出すること、または、
前記修復対象の顔画像のフォーマットが第2のフォーマットである場合、前記修復対象の顔画像のフォーマットを前記第1のフォーマットに変換し、フォーマット変換後の前記修復対象の顔画像の前記輝度チャンネルを抽出することを含む、請求項1に記載の人物画像修復方法。 - 前記した、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得ることは、
前記輝度チャンネルをトレーニング済みのニューラルネットワークモデルに入力して人物画像修復を行い、前記目標顔画像を得ることを含む、請求項1または2に記載の人物画像修復方法。 - 前記ニューラルネットワークモデルは、第1のネットワークと第2のネットワークと第3のネットワークと第4のネットワークを含み、
前記第2のネットワークは、N(Nは、1よりも大きい整数である)個のぼかしアップサンプリングモジュールを含み、前記N個のぼかしアップサンプリングモジュールのうちの少なくとも1つのぼかしアップサンプリングモジュールにおけるぼかしアップサンプリングは、ぼかし畳み込みを含み、前記ぼかし畳み込みにおける畳み込みカーネルの重みは、予め設定された一定値であり、
前記ニューラルネットワークモデルは、前記第1のネットワークの入力、前記第2のネットワークの出力及び前記第3のネットワークの出力のところにショートカット接続があり、前記第1のネットワークの出力及び前記第4のネットワークの出力のところにショートカット接続がある、請求項3に記載の人物画像修復方法。 - 前記した、前記輝度チャンネルをトレーニング済みのニューラルネットワークモデルに入力して人物画像修復を行い、前記目標顔画像を得ることは、
前記第1のネットワークを用いて前記輝度チャンネルに対して符号化操作を行い、目標特徴マップを得ることと、
前記第2のネットワーク及び前記第3のネットワークを用いて前記目標特徴マップに対して復号化操作を行い、前記目標顔画像を得ることと、を含む、請求項4に記載の人物画像修復方法。 - 前記した、前記第1のネットワークを用いて前記輝度チャンネルに対して符号化操作を行い、目標特徴マップを得ることは、
前記輝度チャンネルを前記第1のネットワークに入力してダウンサンプリングを行い、第1の特徴マップを得ることと、
前記第4のネットワークを用いて前記第1の特徴マップに対して上位層特徴抽出を行い、上位層特徴マップを得ることと、
前記第1の特徴マップと前記上位層特徴マップとを重ね合わせて、前記目標特徴マップを得ることと、を含む、請求項5に記載の人物画像修復方法。 - 前記した、前記第2のネットワーク及び前記第3のネットワークを用いて前記目標特徴マップに対して復号化操作を行い、前記目標顔画像を得ることは、
前記目標特徴マップを前記第2のネットワークにおける前記N個のぼかしアップサンプリングモジュールに入力してぼかしアップサンプリングを行い、第2の特徴マップを得ることと、
前記N個のぼかしアップサンプリングモジュールのうちの1番目~(N-1)番目のぼかしアップサンプリングモジュールから出力される特徴マップを前記第3のネットワークに入力してアップサンプリングを行い、第3の特徴マップを得ることと、
前記輝度チャンネル、前記第2の特徴マップ及び前記第3の特徴マップを重ね合わせて、前記目標顔画像を得ることと、を含む、請求項5または6に記載の人物画像修復方法。 - 前記第3のネットワークは、(N-1)個のアップサンプリングモジュールを含み、
前記した、前記N個のぼかしアップサンプリングモジュールのうちの1番目~(N-1)番目のぼかしアップサンプリングモジュールから出力される特徴マップを前記第3のネットワークに入力してアップサンプリングを行い、第3の特徴マップを得ることは、
前記N個のぼかしアップサンプリングモジュールのうちの1番目のぼかしアップサンプリングモジュールから出力される特徴マップのチャンネル数を圧縮して、第1の圧縮特徴マップを得ることと、
前記第1の圧縮特徴マップを前記(N-1)個のアップサンプリングモジュールのうちの1番目のアップサンプリングモジュールに入力してアップサンプリングを行うことと、
前記N個のぼかしアップサンプリングモジュールのうちのi(iは、1よりも大きく、N未満の整数である)番目のぼかしアップサンプリングモジュールから出力される特徴マップのチャンネル数を圧縮して、第2の圧縮特徴マップを得ることと、
前記(N-1)個のアップサンプリングモジュールのうちの(i-1)番目のアップサンプリングモジュールから出力される特徴マップと前記第2の圧縮特徴マップとを重ね合わせ、重ね合わせて得られる特徴マップを前記(N-1)個のアップサンプリングモジュールのうちのi番目のアップサンプリングモジュールに入力してアップサンプリングを行うことと、
前記(N-1)個のアップサンプリングモジュールによる処理を経て、前記第3の特徴マップを得ることと、を含む、請求項7に記載の人物画像修復方法。 - 前記した、修復対象の顔画像を取得することは、
収集された元画像に対して顔検出を行うことと、
前記元画像における検出された顔の位置に基づいて、顔画像を切り取ることと、
前記顔画像を拡縮して、前記修復対象の顔画像を得ることと、を含む、請求項1~8の何れか1項に記載の人物画像修復方法。 - 前記顔画像を拡縮して、前記修復対象の顔画像を得た後に、前記方法は、
前記元画像に対して人物画像分割を行い、人物画像マスクを得ることをさらに含み、
第2の顔修復画像を得た後に、前記方法は、
前記人物画像マスクのエッジに対してガウシアンぼかしを行うことと、
前記元画像における前記顔画像の切り取り位置、及び前記人物画像マスクに基づいて、前記第2の顔修復画像における顔を、切り取り後の前記元画像に貼り戻して、前記元画像の修復を完了させることと、をさらに含む、請求項9に記載の人物画像修復方法。 - 前記した、前記第1の顔修復画像に対して画像変換処理を行い、第2の顔修復画像を得ることは、
前記第1の顔修復画像に対して色補正を行うことと、
拡縮倍率を特定することと、
拡縮倍率が予め設定された倍率よりも大きい場合、超解像技術を用いて色補正後の前記第1の顔修復画像を拡縮して、前記第2の顔修復画像を得ることと、を含む、請求項1~8の何れか1項に記載の人物画像修復方法。 - 修復対象の顔画像を取得する前に、前記方法は、
第1の顔画像と、前記第1の顔画像に基づいて得られる第2の顔画像とを含むサンプル画像ペアを構成することと、
前記サンプル画像ペアをニューラルネットワークに入力してトレーニングを行い、前記第2の顔画像の修復画像を出力することと、
前記修復画像及び前記第1の顔画像に基づいて目標損失を特定することと、
前記目標損失を最小化するように、前記ニューラルネットワークのパラメータを調整して、前記ニューラルネットワークモデルを得ることと、をさらに含む、請求項3~8の何れか1項に記載の人物画像修復方法。 - 前記目標損失は、回帰損失、知覚損失、敵対的生成損失及びコンテキスト損失のうちの少なくとも一つを含む、請求項12に記載の人物画像修復方法。
- 前記した、サンプル画像ペアを構成することは、
予め設定された前記第1の顔画像を取得することと、
前記第1の顔画像の画質が劣化していない場合、
前記第1の顔画像に対して大気擾乱劣化を行い、第1の劣化画像を得て、
前記第1の劣化画像に対してダウンサンプリングを行い、目標劣化画像を得て、
前記目標劣化画像に対してアップサンプリングを行い、第2の劣化画像を得て、
前記第2の劣化画像に基づいて第3の劣化画像を得て、
予め設定された圧縮品質パラメータを用いて前記第3の劣化画像を圧縮して、第4の劣化画像を得て、
前記第4の劣化画像において矩形領域を決定し、前記第1の顔画像において前記矩形領域に対応する目標領域を特定し、
前記目標領域内の画素値で前記矩形領域内の対応する画素値を置き換え、前記第2の顔画像を得て、前記第1の顔画像と前記第2の顔画像により前記サンプル画像ペアを構成すること、または、
前記第1の顔画像の画質が劣化した場合、2枚の前記第1の顔画像により前記サンプル画像ペアを構成し、2枚のうちのいずれか一枚を前記第2の顔画像として決定することと、を含む、請求項12に記載の人物画像修復方法。 - 前記した、前記第2の劣化画像に基づいて第3の劣化画像を得ることは、
前記第2の劣化画像の輝度チャンネルにノイズを加え、前記第2の劣化画像に対して非局所的平均ノイズ除去を行い、前記第3の劣化画像を得ること、または、
前記第2の劣化画像に対してぼかし操作を行い、第5の劣化画像を得て、
前記第5の劣化画像の輝度チャンネルにノイズを加え、前記第5の劣化画像に対して非局所的平均ノイズ除去を行い、前記第3の劣化画像を得ることを含む、請求項14に記載の人物画像修復方法。 - 人物画像修復装置であって、
修復対象の顔画像を取得するための画像取得モジュールと、
前記修復対象の顔画像の輝度チャンネルを抽出し、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得るための人物画像修復モジュールと、
前記目標顔画像及び前記修復対象の顔画像の色チャンネルを融合して、第1の顔修復画像を得るための画像融合モジュールと、
前記第1の顔修復画像に対して画像変換処理を行い、第2の顔修復画像を得るための画像調整モジュールと、を含む人物画像修復装置。 - 入力装置と出力装置を含む電子機器であって、
1つ以上の命令の実装に適するプロセッサと、
前記プロセッサによってロードされて請求項1~15の何れか1項に記載の人物画像修復方法を実行させるための1つ以上の命令が記憶されたコンピュータ記憶媒体とをさらに含む電子機器。 - プロセッサによってロードされて請求項1~15の何れか1項に記載の人物画像修復方法を実行させるための1つ以上の命令が記憶されたコンピュータ記憶媒体。
- コンピュータ読み取り可能なコードを含むコンピュータプログラム製品であって、
前記コンピュータ読み取り可能なコードが電子機器において動作すると、前記電子機器におけるプロセッサーは、請求項1~15の何れか1項に記載の方法を実行させるコンピュータプログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011386894.4A CN112330574B (zh) | 2020-11-30 | 2020-11-30 | 人像修复方法、装置、电子设备及计算机存储介质 |
CN202011386894.4 | 2020-11-30 | ||
PCT/CN2021/090296 WO2022110638A1 (zh) | 2020-11-30 | 2021-04-27 | 人像修复方法、装置、电子设备、存储介质和程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023539691A true JP2023539691A (ja) | 2023-09-15 |
Family
ID=74308400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023537450A Pending JP2023539691A (ja) | 2020-11-30 | 2021-04-27 | 人物画像修復方法、装置、電子機器、記憶媒体及びプログラム製品 |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP2023539691A (ja) |
KR (1) | KR20230054432A (ja) |
CN (1) | CN112330574B (ja) |
WO (1) | WO2022110638A1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112330574B (zh) * | 2020-11-30 | 2022-07-12 | 深圳市慧鲤科技有限公司 | 人像修复方法、装置、电子设备及计算机存储介质 |
CN112862852A (zh) * | 2021-02-24 | 2021-05-28 | 深圳市慧鲤科技有限公司 | 图像处理方法及装置、电子设备及计算机可读存储介质 |
CN113034393A (zh) * | 2021-03-25 | 2021-06-25 | 北京百度网讯科技有限公司 | 照片修复方法、装置、设备以及存储介质 |
CN115222606A (zh) * | 2021-04-16 | 2022-10-21 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机可读介质及电子设备 |
CN113222874B (zh) * | 2021-06-01 | 2024-02-02 | 平安科技(深圳)有限公司 | 应用于目标检测的数据增强方法、装置、设备及存储介质 |
CN113763268B (zh) * | 2021-08-26 | 2023-03-28 | 中国科学院自动化研究所 | 人脸图像盲修复方法及系统 |
CN113793286B (zh) * | 2021-11-18 | 2022-05-10 | 成都索贝数码科技股份有限公司 | 一种基于多阶注意力神经网络的媒体图像水印移除方法 |
CN114782291B (zh) * | 2022-06-23 | 2022-09-06 | 中国科学院自动化研究所 | 图像生成器的训练方法、装置、电子设备和可读存储介质 |
CN115294055A (zh) * | 2022-08-03 | 2022-11-04 | 维沃移动通信有限公司 | 图像处理方法、装置、电子设备和可读存储介质 |
CN115376188B (zh) * | 2022-08-17 | 2023-10-24 | 天翼爱音乐文化科技有限公司 | 一种视频通话处理方法、系统、电子设备及存储介质 |
CN115760646B (zh) * | 2022-12-09 | 2024-03-15 | 中山大学·深圳 | 一种针对不规则孔洞的多模态人脸图像修复方法和系统 |
CN116782041B (zh) * | 2023-05-29 | 2024-01-30 | 武汉工程大学 | 一种基于液晶微透镜阵列的图像质量提高方法及系统 |
CN117593462B (zh) * | 2023-11-30 | 2024-06-07 | 约翰休斯(宁波)视觉科技有限公司 | 三维空间场景的融合方法和系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000004372A (ja) * | 1998-06-17 | 2000-01-07 | Konica Corp | 画像復元装置及び画像出力装置 |
CN105469407B (zh) * | 2015-11-30 | 2018-06-22 | 华南理工大学 | 一种基于改进的引导滤波器的人脸图像图层分解方法 |
CN105931211A (zh) * | 2016-04-19 | 2016-09-07 | 中山大学 | 一种人脸图像美化方法 |
US10269121B2 (en) * | 2017-04-27 | 2019-04-23 | Intel Corporation | Fast color based and motion assisted segmentation of video into region-layers |
CN107301625B (zh) * | 2017-06-05 | 2021-06-01 | 天津大学 | 基于亮度融合网络的图像去雾方法 |
CN111402135B (zh) * | 2020-03-17 | 2023-06-20 | Oppo广东移动通信有限公司 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
CN112330574B (zh) * | 2020-11-30 | 2022-07-12 | 深圳市慧鲤科技有限公司 | 人像修复方法、装置、电子设备及计算机存储介质 |
-
2020
- 2020-11-30 CN CN202011386894.4A patent/CN112330574B/zh active Active
-
2021
- 2021-04-27 JP JP2023537450A patent/JP2023539691A/ja active Pending
- 2021-04-27 WO PCT/CN2021/090296 patent/WO2022110638A1/zh active Application Filing
- 2021-04-27 KR KR1020237009537A patent/KR20230054432A/ko not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
CN112330574B (zh) | 2022-07-12 |
WO2022110638A1 (zh) | 2022-06-02 |
KR20230054432A (ko) | 2023-04-24 |
CN112330574A (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023539691A (ja) | 人物画像修復方法、装置、電子機器、記憶媒体及びプログラム製品 | |
US20220222786A1 (en) | Image processing method, smart device, and computer readable storage medium | |
CN111445564B (zh) | 人脸纹理图像生成方法、装置、计算机设备和存储介质 | |
WO2022141819A1 (zh) | 视频插帧方法、装置、计算机设备及存储介质 | |
CN111667410B (zh) | 图像分辨率提升方法、装置及电子设备 | |
WO2023284401A1 (zh) | 图像美颜处理方法、装置、存储介质与电子设备 | |
WO2022206202A1 (zh) | 图像美颜处理方法、装置、存储介质与电子设备 | |
CN111105376B (zh) | 基于双分支神经网络的单曝光高动态范围图像生成方法 | |
RU2697928C1 (ru) | Способ сверхразрешения изображения, имитирующего повышение детализации на основе оптической системы, выполняемый на мобильном устройстве, обладающем ограниченными ресурсами, и мобильное устройство, его реализующее | |
KR20200140713A (ko) | 이미지 디테일 향상을 위한 신경 네트워크 모델 학습 방법 및 장치 | |
CN110958469A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
Liang et al. | Improved non-local iterative back-projection method for image super-resolution | |
WO2021115403A1 (zh) | 一种图像的处理方法及装置 | |
CN114049278A (zh) | 图像美颜处理方法、装置、存储介质与电子设备 | |
CN115294055A (zh) | 图像处理方法、装置、电子设备和可读存储介质 | |
CN113902611A (zh) | 图像美颜处理方法、装置、存储介质与电子设备 | |
CN111932594B (zh) | 一种基于光流的十亿像素视频对齐方法及装置、介质 | |
CN112001940B (zh) | 图像处理方法及装置、终端及可读存储介质 | |
CN113822803A (zh) | 图像超分处理方法、装置、设备及计算机可读存储介质 | |
CN116703777A (zh) | 一种图像处理方法、系统、存储介质及电子设备 | |
CN110599403A (zh) | 一种具有良好高频视觉效果的图像超分辨率重建方法 | |
CN114565532A (zh) | 视频美颜处理方法、装置、存储介质与电子设备 | |
CN113240573B (zh) | 局部和全局并行学习的高分辨率图像风格变换方法及系统 | |
WO2021008322A1 (zh) | 图像处理方法、装置及设备 | |
CN113724153A (zh) | 一种基于机器学习的图像多余人物消除方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230228 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240426 |