JP2023539691A

JP2023539691A - 人物画像修復方法、装置、電子機器、記憶媒体及びプログラム製品

Info

Publication number: JP2023539691A
Application number: JP2023537450A
Authority: JP
Inventors: ディンドンヤン; キオンヤン
Original assignee: シェンチェンテトラス．エーアイテクノロジーカンパニーリミテッド
Priority date: 2020-11-30
Filing date: 2021-04-27
Publication date: 2023-09-15
Also published as: CN112330574B; WO2022110638A1; KR20230054432A; CN112330574A

Abstract

人物画像修復方法、装置、電子機器、記憶媒体及びプログラム製品であって、当該方法は、修復対象の顔画像を取得すること（Ｓ２１）と、前記修復対象の顔画像の輝度チャンネルを抽出し、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得ること（Ｓ２２）と、前記目標顔画像及び前記修復対象の顔画像の色チャンネルを融合して、第１の顔修復画像を得ること（Ｓ２３）と、前記第１の顔修復画像に対して画像変換処理を行い、第２の顔修復画像を得ること（Ｓ２４）と、を含む。当該方法は、修復後の顔画像の品質の改善に有利であり、顔画像の全体的な修復効果を向上させる。【選択図】図２

Description

本出願は、２０２０年１１月３０日に中国特許庁に提出された、出願番号が２０２０１１３８６８９４．４で、発明の名称が「人物画像修復方法、装置、電子機器及びコンピュータ記憶媒体」である中国特許出願の優先権を主張し、その内容のすべては援用により本出願に組み込まれる。

本出願は、画像処理技術の分野に関し、特に、人物画像修復方法、装置、電子機器、記憶媒体及びプログラム製品に関する。

従来の撮像装置は、画像収集を行う際に、それ自体の設計、環境、撮像作業者の操作などの要素による制限を受けるため、イメージング効果が理想的ではない場合がある。特に、人物画像の撮像の場合、人物画像のノイズが大きく、ボケ、局所歪みといった問題がよく見られる。

本出願は、人物画像修復方法、装置、電子機器、記憶媒体及びプログラム製品を提供する。

本出願の実施例の第１の態様は、人物画像修復方法であって、修復対象の顔画像を取得することと、前記修復対象の顔画像の輝度チャンネルを抽出し、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得ることと、前記目標顔画像及び前記修復対象の顔画像の色チャンネルを融合して、第１の顔修復画像を得ることと、前記第１の顔修復画像に対して画像変換処理を行い、第２の顔修復画像を得ることと、を含む人物画像修復方法を提供する。

本出願の実施例では、修復対象の顔画像に対して輝度チャンネルの抽出を行い、抽出された輝度チャンネルに基づいて人物画像修復を行うことにより、輝度チャンネルが修復された目標顔画像が得られ、そして、色チャンネルの融合を行って修復済みの第１の顔修復画像が得られ、さらに、第１の顔修復画像に対して色補正、拡縮などの画像変換処理を行うことにより、得られる第２の顔修復画像が修復対象の顔画像の色情報と修復対象の顔画像の拡縮前の解像度を保つようにする。これにより、ノイズ、ボケ、歪みなどの問題がある顔画像に対する修復に有利になり、修復後の顔画像の品質を改善し、顔画像の全体的な修復効果を向上させる。

第１の態様によれば、可能な一実施形態では、前記した、前記修復対象の顔画像の輝度チャンネルを抽出することは、前記修復対象の顔画像のフォーマットが第１のフォーマットである場合、前記修復対象の顔画像の前記輝度チャンネルを抽出すること、または、前記修復対象の顔画像のフォーマットが第２のフォーマットである場合、前記修復対象の顔画像のフォーマットを前記第１のフォーマットに変換し、フォーマット変換後の前記修復対象の顔画像の前記輝度チャンネルを抽出することを含む。

本出願の実施例では、輝度チャンネルに基づいて修復対象の顔画像に対して人物画像修復を行うので、輝度チャンネルを直接に抽出可能な第１のフォーマットの修復対象の顔画像について、直接に輝度チャンネルの抽出を行うことができ、輝度チャンネルを直接に抽出できない第２のフォーマットの修復対象の顔画像については、それを第１のフォーマットに変換してから輝度チャンネルの抽出を行う。これにより、複数のフォーマットの修復対象の顔画像のいずれに対しても、輝度チャンネルに基づく人物画像修復が可能であることを確保して、修復対象の顔画像のフォーマットへの適用性の向上に有利になる。

第１の態様によれば、可能な一実施形態では、前記した、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得ることは、前記輝度チャンネルをトレーニング済みのニューラルネットワークモデルに入力して人物画像修復を行い、前記目標顔画像を得ることを含む。

本出願の実施例では、トレーニング済みのニューラルネットワークモデルを用いて人物画像修復を行うことにより、照明不具合、振れ、ピント外れ、デジタルズームといった問題によるノイズ、ボケ、歪みのある修復対象の顔画像に対する修復に有利になり、人の顔立ち、毛髪、皮膚の鮮明度及びテクスチャー細部を改善させる。

第１の態様によれば、可能な一実施形態では、前記ニューラルネットワークモデルは、第１のネットワークと第２のネットワークと第３のネットワークと第４のネットワークを含み、前記第２のネットワークは、Ｎ（Ｎは、１よりも大きい整数である）個のぼかしアップサンプリングモジュールを含み、前記Ｎ個のぼかしアップサンプリングモジュールのうちの少なくとも１つのぼかしアップサンプリングモジュールにおけるぼかしアップサンプリングは、ぼかし（Ｂｌｕｒ）畳み込みを含み、前記ぼかし畳み込みにおける畳み込みカーネルの重みは、予め設定された一定値であり、前記ニューラルネットワークモデルは、前記第１のネットワークの入力、前記第２のネットワークの出力及び前記第３のネットワークの出力のところにショートカット接続（ｓｈｏｒｔｃｕｔ）があり、前記第１のネットワークの出力及び前記第４のネットワークの出力のところにショートカット接続がある。

本出願の実施例では、第１のネットワークの入力、第２のネットワークの出力及び第３のネットワークの出力は、最高の解像度スケールであり、第１のネットワークの出力及び第４のネットワークの出力は、最低の解像度スケールであり、最高の解像度スケールと最低の解像度スケールでショートカット接続を行うことにより、ニューラルネットワークモデルの過剰適合の防止に有利になり、トレーニング中に反復速度をより速くすることができる。ぼかしアップサンプリングにはぼかし畳み込み操作が含まれ、採用される畳み込みカーネルの重みは、ニューラルネットワークモデルのトレーニングの最初から一定にされ、その役割はローパスフィルターに相当し、画像修復中に滑らかで自然な輪郭や毛髪の生成に有利になる。

第１の態様によれば、可能な一実施形態では、前記した、前記輝度チャンネルをトレーニング済みのニューラルネットワークモデルに入力して人物画像修復を行い、前記目標顔画像を得ることは、前記第１のネットワークを用いて前記輝度チャンネルに対して符号化操作を行い、目標特徴マップを得ることと、前記第２のネットワーク及び前記第３のネットワークを用いて前記目標特徴マップに対して復号化操作を行い、前記目標顔画像を得ることと、を含む。

本出願の実施例では、第１のネットワークを用いて符号化を行うことにより、入力された輝度チャンネルのサイズを縮小し、目標特徴マップを抽出する。第２のネットワークは、復号化中に輝度チャンネルのサイスを復元し、それと同時に、第３のネットワークは、復号化中にニューラルネットワークモデルの安定性を確保し、最終的に輝度チャンネルが修復された目標顔画像を得ることができる。

第１の態様によれば、可能な一実施形態では、前記した、前記第１のネットワークを用いて前記輝度チャンネルに対して符号化操作を行い、目標特徴マップを得ることは、前記輝度チャンネルを前記第１のネットワークに入力してダウンサンプリングを行い、第１の特徴マップを得ることと、前記第４のネットワークを用いて前記第１の特徴マップに対して上位層特徴抽出を行い、上位層特徴マップを得ることと、前記第１の特徴マップと前記上位層特徴マップとを重ね合わせて、前記目標特徴マップを得ることと、を含む。

本出願の実施例では、第４のネットワークが残差ブロックの構造を採用したので、上位層特徴の抽出に有利になる。ショートカット接続により第１のネットワークの出力と第４のネットワークの出力とを重ね合わせることにより、ニューラルネットワークモデルの過剰適合を防止できる一方、特徴情報を豊富化することができる。

第１の態様によれば、可能な一実施形態では、前記した、前記第２のネットワーク及び前記第３のネットワークを用いて前記目標特徴マップに対して復号化操作を行い、前記目標顔画像を得ることは、前記目標特徴マップを前記第２のネットワークにおける前記Ｎ個のぼかしアップサンプリングモジュールに入力してぼかしアップサンプリングを行い、第２の特徴マップを得ることと、前記Ｎ個のぼかしアップサンプリングモジュールのうちの１番目～（Ｎ－１）番目のぼかしアップサンプリングモジュールから出力される特徴マップを前記第３のネットワークに入力してアップサンプリングを行い、第３の特徴マップを得ることと、前記輝度チャンネル、前記第２の特徴マップ及び前記第３の特徴マップを重ね合わせて、前記目標顔画像を得ることと、を含む。

本出願の実施例では、第２のネットワークは、Ｎ個のぼかしアップサンプリングモジュールを用いてぼかしアップサンプリングを行い、目標特徴マップのサイズを復元するとともに、滑らかで自然な輪郭や毛髪の生成に有利になる。第３のネットワークは、第２のネットワークにおける１番目～（Ｎ－１）番目のぼかしアップサンプリングモジュールから出力される特徴マップに対してアップサンプリングを行うことにより、ニューラルネットワークモデルの安定性の確保に有利になり、ショートカット接続により第１のネットワークの入力、第２のネットワークの出力及び第３のネットワークの出力を重ね合わせることにより、ニューラルネットワークモデルの過剰適合を防止できる一方、特徴情報を豊富化させ、目標顔画像の修復品質を改善する。

第１の態様によれば、可能な一実施形態では、前記第３のネットワークは、（Ｎ－１）個のアップサンプリングモジュールを含み、前記した、前記Ｎ個のぼかしアップサンプリングモジュールのうちの１番目～（Ｎ－１）番目のぼかしアップサンプリングモジュールから出力される特徴マップを前記第３のネットワークに入力してアップサンプリングを行い、第３の特徴マップを得ることは、前記Ｎ個のぼかしアップサンプリングモジュールのうちの１番目のぼかしアップサンプリングモジュールから出力される特徴マップのチャンネル数を圧縮して、第１の圧縮特徴マップを得ることと、前記第１の圧縮特徴マップを前記（Ｎ－１）個のアップサンプリングモジュールのうちの１番目のアップサンプリングモジュールに入力してアップサンプリングを行うことと、前記Ｎ個のぼかしアップサンプリングモジュールのうちのｉ（ｉは、１よりも大きく、Ｎ未満の整数である）番目のぼかしアップサンプリングモジュールから出力される特徴マップのチャンネル数を圧縮して、第２の圧縮特徴マップを得ることと、前記（Ｎ－１）個のアップサンプリングモジュールのうちの（ｉ－１）番目のアップサンプリングモジュールから出力される特徴マップと前記第２の圧縮特徴マップとを重ね合わせて、重ね合わせて得られる特徴マップを前記（Ｎ－１）個のアップサンプリングモジュールのうちのｉ番目のアップサンプリングモジュールに入力してアップサンプリングを行うことと、前記（Ｎ－１）個のアップサンプリングモジュールによる処理を経て、前記第３の特徴マップを得ることと、を含む。

本出願の実施例では、Ｎ個のぼかしアップサンプリングモジュールのうちの１番目～（Ｎ－１）番目のぼかしアップサンプリングモジュールから出力される特徴マップのチャンネル数を圧縮することにより、第３のネットワークにおける少なくとも１つのアップサンプリングモジュールへの入力のチャンネル数がすべて同じになることを確保して、ニューラルネットワークモデルの安定性を向上させることに有利になる。

第１の態様によれば、可能な一実施形態では、前記した、修復対象の顔画像を取得することは、収集された元画像に対して顔検出を行うことと、前記元画像における検出された顔の位置に基づいて、顔画像を切り取ることと、前記顔画像を拡縮して、前記修復対象の顔画像を得ることと、を含む。

本出願の実施例では、ユーザが収集した元画像に対して、顔検出を行った後に、顔画像を切り取り、顔画像を一定のサイズに拡縮することにより、大きいサイズの顔画像に対する修復の実現に有利になる。

第１の態様によれば、可能な一実施形態では、前記顔画像を拡縮して、前記修復対象の顔画像を得た後に、前記方法は、前記元画像に対して人物画像分割を行い、人物画像マスクを得ることをさらに含み、第２の顔修復画像を得た後に、前記方法は、前記人物画像マスクのエッジに対してガウシアンぼかしを行うことと、前記元画像における前記顔画像の切り取り位置、及び前記人物画像マスクに基づいて、前記第２の顔修復画像における顔を、切り取り後の前記元画像に貼り戻して、前記元画像の修復を完了させることと、をさらに含む。

本出願の実施例では、元画像における顔画像の切り取り位置、及び人物画像マスクに基づいて、元画像における顔の位置を特定することができる。これにより、第２の顔修復画像における修復済みの顔を元画像に貼り戻し、背景部分は、元画像における背景のままとし、顔を貼り戻す前に人物画像マスクのエッジに対してガウシアンぼかしを行うことにより、最終的な修復画像をより滑らかで自然なものとすることができる。

第１の態様によれば、可能な一実施形態では、前記した、前記第１の顔修復画像に対して画像変換処理を行い、第２の顔修復画像を得ることは、前記第１の顔修復画像に対して色補正を行うことと、拡縮倍率を特定することと、拡縮倍率が予め設定された倍率よりも大きい場合、超解像技術を用いて色補正後の前記第１の顔修復画像を拡縮して、前記第２の顔修復画像を得ることと、を含む。

本出願の実施例では、第１の顔修復画像に対して色補正を行い、色補正後の第１の顔修復画像を拡縮して、そのサイズを、切り取った顔画像のサイズに復元すれば、品質の良い第２の顔修復画像が得られる。第１の顔修復画像を拡縮する倍率が予め設定された倍率を超えた場合、超解像技術を用いて拡縮することにより、第２の顔修復画像の解像度の向上に有利になる。

第１の態様によれば、可能な一実施形態では、修復対象の顔画像を取得する前に、前記方法は、第１の顔画像と、前記第１の顔画像に基づいて得られる第２の顔画像とを含むサンプル画像ペアを構成することと、前記サンプル画像ペアをニューラルネットワークに入力してトレーニングを行い、前記第２の顔画像の修復画像を出力することと、前記修復画像及び前記第１の顔画像に基づいて目標損失を特定することと、前記目標損失を最小化するように、前記ニューラルネットワークのパラメータを調整して、前記ニューラルネットワークモデルを得ることと、をさらに含む。

本出願の実施例では、ペアとなるサンプル画像を用いてニューラルネットワークをトレーニングし、このサンプル画像には、実際に収集された画質問題のある画像に十分に近い劣化画像が存在する。このようなサンプル画像ペアを用いてニューラルネットワークをトレーニングすることにより、ニューラルネットワークモデルの汎化性の向上に有利になる。目標損失を最小化することにより、ニューラルネットワークモデルから出力される修復画像をできるだけ第１の顔画像の品質に近づけ、修復画像の輪郭や毛髪などの細部に対する処理を増加させることができる。

第１の態様によれば、可能な一実施形態では、前記目標損失は、回帰損失、知覚損失、敵対的生成損失及びコンテキスト損失のうちの少なくとも一つを含む。

本出願の実施例では、回帰損失、知覚損失、敵対的生成損失及びコンテキスト損失のうちの少なくとも一つを含む目標損失を用いて、ニューラルネットワークモデルをトレーニングすることにより、ニューラルネットワークモデルは、劣化画像に存在する複数の問題を全体的に修復し、人物画像修復の品質を改善することができる。

第１の態様によれば、可能な一実施形態では、前記した、サンプル画像ペアを構成することは、予め設定された前記第１の顔画像を取得することと、前記第１の顔画像の画質が劣化していない場合、前記第１の顔画像に対して大気擾乱劣化を行い、第１の劣化画像を得て、前記第１の劣化画像に対してダウンサンプリングを行い、目標劣化画像を得て、前記目標劣化画像に対してアップサンプリングを行い、第２の劣化画像を得て、前記第２の劣化画像に基づいて第３の劣化画像を得て、予め設定された圧縮品質パラメータを用いて前記第３の劣化画像を圧縮して、第４の劣化画像を得て、前記第４の劣化画像において矩形領域を決定し、前記第１の顔画像において前記矩形領域に対応する目標領域を特定し、前記目標領域内の画素値で前記矩形領域内の対応する画素値を置き換え、前記第２の顔画像を得て、前記第１の顔画像と前記第２の顔画像により前記サンプル画像ペアを構成すること、または、前記第１の顔画像の画質が劣化した場合、２枚の前記第１の顔画像により前記サンプル画像ペアを構成し、２枚のうちのいずれか一枚を前記第２の顔画像として決定することと、を含む。

本出願の実施例では、第１の顔画像の画質を判断し、第１の顔画像自体が比較的鮮明で、その画質が劣化していない場合、第１の顔画像に対して一連の劣化処理を行い、１枚の劣化問題のある第２の顔画像が合成され、第２の顔画像を実際に収集された劣化画像に類似するものにすることにより、真の劣化画像を修復するシーンをシミュレートする。第１の顔画像自体に劣化問題がある場合、それに対して劣化処理を行う必要がなく、２枚の第１の顔画像をそのまま用いてサンプル画像ペアを構成して、真の劣化画像を修復するシーンをシミュレートするようにしてもよい。

第１の態様によれば、可能な一実施形態では、前記した、前記第２の劣化画像に基づいて第３の劣化画像を得ることは、前記第２の劣化画像の輝度チャンネルにノイズを加え、前記第２の劣化画像に対して非局所的平均ノイズ除去を行い、前記第３の劣化画像を得ること、または、前記第２の劣化画像に対してぼかし操作を行い、第５の劣化画像を得て、前記第５の劣化画像の輝度チャンネルにノイズを加え、前記第５の劣化画像に対して非局所的平均ノイズ除去を行い、前記第３の劣化画像を得ることを含む。

本出願の実施例では、ぼかし操作、ノイズ重畳、非局所的平均ノイズ除去などの方法で第２の劣化画像に対して多様な劣化処理を行うことにより、第３の劣化画像に多様な劣化問題を生じさせ、以後に多様な劣化問題のある画像を用いてニューラルネットワークモデルをトレーニングすることに有利になる。

本出願の実施例の第２の態様は、人物画像修復装置であって、
修復対象の顔画像を取得するための画像取得モジュールと、
前記修復対象の顔画像の輝度チャンネルを抽出し、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得るための人物画像修復モジュールと、
前記目標顔画像及び前記修復対象の顔画像の色チャンネルを融合して、第１の顔修復画像を得るための画像融合モジュールと、
前記第１の顔修復画像に対して画像変換処理を行い、第２の顔修復画像を得るための画像調整モジュールと、を含む人物画像修復装置を提供する。

本出願の実施例の第３の態様は、入力装置と出力装置を含む電子機器であって、１つ以上の命令の実装に適するプロセッサと、前記プロセッサによってロードされて上記した第１の態様の何れかの実施形態におけるステップを実行させるための１つ以上の命令が記憶されたコンピュータ記憶媒体とをさらに含む電子機器を提供する。

本出願の実施例の第４の態様は、プロセッサによってロードされて上記した第１の態様の何れかの実施形態におけるステップを実行させるための１つ以上の命令が記憶されたコンピュータ記憶媒体を提供する。

本出願の実施例の第５の態様は、コンピュータ読み取り可能なコードを含むコンピュータプログラム製品であって、前記コンピュータ読み取り可能なコードが電子機器において動作すると、前記電子機器におけるプロセッサーは、上記した第１の態様の何れかの実施形態におけるステップを実行させるコンピュータプログラム製品を提供する。

これから分かるように、本出願の実施例では、修復対象の顔画像を取得し、前記修復対象の顔画像の輝度チャンネルを抽出し、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像が得られ、前記目標顔画像及び前記修復対象の顔画像の色チャンネルを融合して第１の顔修復画像が得られ、前記第１の顔修復画像に対して画像変換処理を行い、第２の顔修復画像が得られる。このように、修復対象の顔画像に対して輝度チャンネルの抽出を行い、抽出された輝度チャンネルに基づいて人物画像修復を行うことにより、輝度チャンネルが修復された目標顔画像が得られ、そして、色チャンネルの融合を行って修復済みの第１の顔修復画像が得られ、さらに第１の顔修復画像に対して色補正、拡縮などの画像変換処理を行うことにより、得られる第２の顔修復画像が修復対象の顔画像の色情報と修復対象の顔画像の拡縮前の解像度を保つようにする。これにより、ノイズ、ボケ、歪みなどの問題がある顔画像に対する修復に有利になり、修復後の顔画像の品質を改善し、顔画像の全体的な修復効果を向上させる。

本出願の実施例または従来技術における技術的手段をより明確に説明するために、以下、実施例または従来技術に関する説明に必要な図面を簡単に紹介する。以下の説明における図面は、本出願のいくつかの実施例に過ぎず、当業者にとって、創造的な仕事をしなくても、これらの図面に基づいて他の図面が得られることは明らかである。
本出願の実施例による応用環境の模式図である。本出願の実施例による人物画像修復方法のフロー模式図である。本出願の実施例によるニューラルネットワークモデルの構成模式図である。本出願の実施例による特徴マップの復号化の模式図である。本出願の実施例によるサンプル画像ペアの構成の模式図である。本出願の実施例による画素値の置き換えの模式図である。本出願の実施例による他の人物画像修復方法のフロー模式図である。本出願の実施例による人物画像修復装置の構成模式図である。本出願の実施例による他の人物画像修復装置の構成模式図である。本出願の実施例による電子機器の構成模式図である。

当業者に本出願の技術的手段をより良く理解させるために、以下、本出願の実施例における図面を参照しながら、本出願の実施例における技術的手段を明確かつ完全に説明する。説明される実施例は、本出願の一部の実施例に過ぎず、全ての実施例ではないことは明らかである。本出願における実施例に基づいて、当業者が創造的な仕事なしに得られる他の実施例はすべて本出願の請求の範囲に含まれる。

本出願の明細書、特許請求の範囲及び図面に現れる「含む」や「有する」という用語及びそれらの任意の変形は、非排他的包括をカバーすることを意図している。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、挙げられたステップ又はユニットに限定されず、挙げられていないステップ又はユニットを選択可能にさらに含むか、或いは、これらのプロセス、方法、製品又は機器に固有の他のステップ又はユニットを選択可能に含む。なお、「第１の」、「第２の」及び「第３の」などの用語は、異なる対象を区別するために使用され、特定の順序を説明するためのものではない。

本出願の実施例では、顔画像に対して人物画像修復を行う技術的手段を提案し、修復後の顔画像の品質の改善に有利であり、顔画像の全体的な修復効果を向上させる。具体的に、図１に示す応用環境に基づいて実施することができ、図１に示すように、この応用環境は、画像収集装置とサーバを含む。画像収集装置は、携帯電話、タブレット、カメラ、ビデオカメラなどであってもよい。サーバは、独立した物理サーバであってもよく、サーバクラスターまたは分散システムであってもよく、さらに、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメインネームサービス、セキュリティサービス、及びビッグデータや人工知能プラットフォームなどの基本的なクラウドコンピューティングサービスを提供するクラウドサーバであってもよい。具体的には、画像収集装置は、画像を撮像または収集するために用いられ、この画像は、単一の写真であってもよく、ビデオ、例えば、ユーザの自撮り、ビデオキャプチャシーンでキャプチャされたビデオなどであってもよい。画像収集装置は、撮像時に照明不具合、振れ、ピント外れ、デジタルズームなどの状況により、画像内の顔にはノイズ、ボケ、歪みなどのさまざまな問題がある。この際、ユーザーは、画像収集装置を介してサーバに人物画像修復要求を送信することにより、サーバに画像内の顔に対する修復を要求することができる。サーバは、画像収集装置により収集された画像を受信すると、顔検出、顔分割、顔修復などの一連の操作を実行し、最終的に顔修復済みの画像を出力する。顔検出、顔分割、顔修復などのモデルをサーバに配置することができ、サーバは、これらのモデルを呼び出すことにより人物画像修復の全プロセスを実現できることは理解すべきである。なお、本出願の実施例に提案された人物画像修復方法は、サーバにより実行されてもよく、画像収集装置により実行されてもよく、例えば、顔画像修復などのモデルが画像収集装置に配置されてもよい。

以下、関連図面を参照しながら、本出願の実施例による人物画像修復方法を詳細に説明する。

図２を参照すると、図２は、本出願の実施例による人物画像修復方法のフロー模式図である。この人物画像修復方法は、サーバに適用され、図２に示すように、ステップＳ２１～Ｓ２４を含む。

Ｓ２１において、修復対象の顔画像を取得する。

本出願の具体的な実施例では、修復対象の顔画像とは、イメージング効果が良くない元画像から得られ、直接に修復に使用される顔画像を指す。画像収集装置により収集された元画像に対して、顔検出アルゴリズムを用いて顔検出を行い、元画像における検出された顔の位置に基づいて顔画像を切り取る。例えば、ＦａｓｔｅｒＲ－ＣＮＮ（ＦａｓｔｅｒＲｅｇｉｏｎ－ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、より高速な候補領域ベースの畳み込みニューラルネットワーク検出器）、ＹＯＬＯ（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ、ＹＯＬＯオブジェクト検出器）などを用いて顔検出を行い、顔検出枠に基づいて正方形の顔画像を切り取り、切り取った顔画像を予め設定されたサイズに拡縮すれば、修復対象の顔画像が得られ、例えば解像度が８９６＊８９６である大きいサイズの顔画像に対する修復を実現できる。そして、人物画像分割技術を用いて、画像収集装置により収集された元画像から、人物画像及び背景のマスクを分割し、マスクマトリックスをＭと記する。ただし、人物画像マスクは１として表し、背景部分は０として表す。

Ｓ２２において、前記修復対象の顔画像の輝度チャンネルを抽出し、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得る。

本出願の具体的な実施例では、目標顔画像とは、修復対象の顔画像に対して輝度チャンネル修復を行って得られる画像を指す。修復対象の顔画像のフォーマットが第１のフォーマットである場合、修復対象の顔画像の輝度チャンネルを抽出し、この輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得る。修復対象の顔画像のフォーマットが第２のフォーマットである場合、修復対象の顔画像のフォーマットを第１のフォーマットに変換してから、フォーマット変換後の修復対象の顔画像の輝度チャンネルを抽出し、この輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得る。第１のフォーマットは、ＹＵＶフォーマットであり、第２のフォーマットは、ＲＧＢフォーマットである。簡単に言えば、ＹＵＶフォーマットの修復対象の顔画像に対しては、輝度チャンネルを直接に抽出することができ、ＲＧＢフォーマットの修復対象の顔画像に対しては、第１のフォーマットに変換してから輝度チャンネルを抽出することができる。このようにすれば、複数のフォーマットの修復対象の顔画像のいずれに対しても、輝度チャンネルに基づいて人物画像修復を行うことができ、修復対象の顔画像のフォーマットへの適用性がより広くなる。

可能な一実施形態では、前記した、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得ることは、前記輝度チャンネルをトレーニング済みのニューラルネットワークモデルに入力して人物画像修復を行い、前記目標顔画像を得ることを含む。

具体的には、トレーニング済みのニューラルネットワークモデルを用いて人物画像修復を行う。ニューラルネットワークモデルの構成は、図３に示すように、主に第１のネットワークと第２のネットワークと第３のネットワークと第４のネットワークを含み、修復対象の顔画像に対して、入力層を介して輝度チャンネルを抽出し、第１のネットワークは、複数のダウンサンプリングモジュールを用いて符号化を行い、第４のネットワークは、第１のネットワークの出力に対して上位層特徴抽出を行い、第２のネットワーク及び第３のネットワークは、第１のネットワークの出力と第４のネットワークの出力との重ね合わせに対して復号化を行い、第１のネットワークの入力、第２のネットワークの出力及び第３のネットワークの出力の重ね合わせは、出力層の処理を経て、修復対象の顔画像と同じサイズの目標顔画像が得られる。この目標顔画像は、輝度チャンネルが修復された顔画像であり、目標顔画像及び修復対象の顔画像の色チャンネルを融合して第１の顔修復画像を出力する。ここで、第２のネットワークは、Ｎ個のぼかしアップサンプリングモジュールを含み、Ｎ個のぼかしアップサンプリングモジュールのうちの少なくとも１つのぼかしアップサンプリングモジュールにおけるぼかしアップサンプリングは、ぼかし畳み込みを含み、ぼかし畳み込みにおける畳み込みカーネルの重みは、予め設定された一定値である。ニューラルネットワークモデルは、第１のネットワークの入力、第２のネットワークの出力及び第３のネットワークの出力のところにショートカット接続があり、第１のネットワークの出力及び第４のネットワークの出力のところにショートカット接続がある。第１のネットワークの入力、第２のネットワークの出力及び第３のネットワークの出力は、最高の解像度スケールであり、第１のネットワークの出力及び第４のネットワークの出力は、最低の解像度スケールであり、最高の解像度スケールと最低の解像度スケールでショートカット接続を行うことにより、ニューラルネットワークモデルの過剰適合の防止に有利になり、トレーニング中に反復速度をより速くすることができる。ぼかしアップサンプリングにはぼかし畳み込み操作が含まれ、採用される畳み込みカーネルの重みは、ニューラルネットワークモデルのトレーニングの最初から一定にされ、その役割はローパスフィルターに相当し、画像修復中に滑らかで自然な輪郭や毛髪の生成に有利になる。このようなニューラルネットワークモデルは、照明不具合、振れ、ピント外れ、デジタルズームといった問題によるノイズ、ボケ、歪みのある修復対象の顔画像に対する修復に有利になり、人の顔立ち、毛髪、皮膚の鮮明度及びテクスチャー細部を改善させる。

可能な一実施形態では、前記した、前記輝度チャンネルをトレーニング済みのニューラルネットワークモデルに入力して人物画像修復を行い、前記目標顔画像を得ることは、前記第１のネットワークを用いて前記輝度チャンネルに対して符号化操作を行い、目標特徴マップを得ることと、前記第２のネットワーク及び前記第３のネットワークを用いて前記目標特徴マップに対して復号化操作を行い、前記目標顔画像を得ることと、を含む。

本出願の具体的な実施例では、前記第１のネットワークを用いて前記輝度チャンネルに対して符号化操作を行い、目標特徴マップを得ることは、前記輝度チャンネルを前記第１のネットワークに入力してダウンサンプリングを行い、第１の特徴マップを得ることと、前記第４のネットワークを用いて前記第１の特徴マップに対して上位層特徴抽出を行い、上位層特徴マップを得ることと、前記第１の特徴マップと前記上位層特徴マップとを重ね合わせて、前記目標特徴マップを得ることと、を含む。

ここで、第一の特徴マップとは、第１のネットワークにおける複数のダウンサンプリングモジュールによるダウンサンプリングを行って得られる低解像度の特徴マップを指し、上位層特徴マップとは、第４のネットワークを用いて深度特徴抽出を行って得られる特徴マップを指す。第一の特徴マップと上位層特徴マップとをショートカット接続により重ね合わせて、目標特徴マップが得られる。ショートカット接続により第１のネットワークの出力と第４のネットワークの出力とを重ね合わせることにより、ニューラルネットワークモデルの過剰適合を防止できる一方、特徴情報を豊富化することができることは理解すべきである。第４のネットワークは、残差ブロックであってもよく、残差ブロックは、残差ネットワークにおける通常設定であり、深度特徴の抽出または上位層特徴の抽出に優れている。

本出願の具体的な実施例では、図４に示すように、前記した、前記第２のネットワーク及び前記第３のネットワークを用いて前記目標特徴マップに対して復号化操作を行い、前記目標顔画像を得ることは、
前記目標特徴マップを前記第２のネットワークにおける前記Ｎ個のぼかしアップサンプリングモジュールに入力してぼかしアップサンプリングを行い、第２の特徴マップを得るＳ４１と、
前記Ｎ個のぼかしアップサンプリングモジュールのうちの１番目～（Ｎ－１）番目のぼかしアップサンプリングモジュールから出力される特徴マップを前記第３のネットワークに入力してアップサンプリングを行い、第３の特徴マップを得るＳ４２と、
前記輝度チャンネル、前記第２の特徴マップ及び前記第３の特徴マップを重ね合わせて、前記目標顔画像を得るＳ４３と、を含む。

ここで、第２のネットワークにおけるぼかしアップサンプリングモジュールは、第１のネットワークにおけるダウンサンプリングモジュールと対称な構成を有し、目標特徴マップのサイズを復元するために用いられる。第２の特徴マップとは、Ｎ個のぼかしアップサンプリングモジュールによるぼかしアップサンプリングを行って得られる特徴マップを指す。少なくとも１つのぼかしアップサンプリングモジュールにおける畳み込み層は、標準畳み込み－ぼかし畳み込み－標準畳み込みの方式で畳み込み処理を行う。図３に示すように、Ｎ個のぼかしアップサンプリングモジュールによる処理順番は、左から右の順に、１番目のぼかしアップサンプリングモジュール、２番目のぼかしアップサンプリングモジュール、３番目のぼかしアップサンプリングモジュール…Ｎ番目のぼかしアップサンプリングモジュールとなっており、Ｎ個のぼかしアップサンプリングモジュールのうちの１番目～（Ｎ－１）番目のぼかしアップサンプリングモジュールから出力される特徴マップは、第３のネットワークに入力されアップサンプリングが行われ、第３の特徴マップ、すなわち第３のネットワークにおけるアップサンプリングを行って出力される特徴マップが得られ、高解像度の輝度チャンネル、第２の特徴マップ及び第３の特徴マップを重ね合わせれば、目標顔画像が得られる。第３のネットワークは、第２のネットワークにおける１番目～（Ｎ－１）番目のぼかしアップサンプリングモジュールから出力される特徴マップに対してアップサンプリングを行うことにより、ニューラルネットワークモデルの安定性の確保に有利になり、ショートカット接続により第１のネットワークの入力、第２のネットワークの出力及び第３のネットワークの出力を重ね合わせることにより、ニューラルネットワークモデルの過剰適合を防止できる一方、特徴情報の豊富化に有利になり、目標顔画像の修復品質を改善する。

可能な一実施形態では、前記第３のネットワークは、（Ｎ－１）個のアップサンプリングモジュールを含み、前記した、前記Ｎ個のぼかしアップサンプリングモジュールのうちの１番目～（Ｎ－１）番目のぼかしアップサンプリングモジュールから出力される特徴マップを前記第３のネットワークに入力してアップサンプリングを行い、第３の特徴マップを得ることは、前記Ｎ個のぼかしアップサンプリングモジュールのうちの１番目のぼかしアップサンプリングモジュールから出力される特徴マップのチャンネル数を圧縮して、第１の圧縮特徴マップを得ることと、前記第１の圧縮特徴マップを前記（Ｎ－１）個のアップサンプリングモジュールのうちの１番目のアップサンプリングモジュールに入力してアップサンプリングを行うことと、前記Ｎ個のぼかしアップサンプリングモジュールのうちのｉ（ｉは、１よりも大きく、Ｎ未満の整数である）番目のぼかしアップサンプリングモジュールから出力される特徴マップのチャンネル数を圧縮して、第２の圧縮特徴マップを得ることと、前記（Ｎ－１）個のアップサンプリングモジュールのうちの（ｉ－１）番目のアップサンプリングモジュールから出力される特徴マップと前記第２の圧縮特徴マップとを重ね合わせ、重ね合わせて得られる特徴マップを前記（Ｎ－１）個のアップサンプリングモジュールのうちのｉ番目のアップサンプリングモジュールに入力してアップサンプリングを行うことと、前記（Ｎ－１）個のアップサンプリングモジュールによる処理を経て、前記第３の特徴マップを得ることと、を含む。

続いて、図３を参照する。第３のネットワークにおける（Ｎ－１）個のアップサンプリングモジュールによる処理順番は、左から右の順に、１番目のアップサンプリングモジュール、２番目のアップサンプリングモジュール…（Ｎ－１）番目のアップサンプリングモジュールとなっており、少なくとも１つのアップサンプリングモジュールにおけるアップサンプリングは、標準畳み込みを用いて完了させる。１番目～（Ｎ－１）番目のぼかしアップサンプリングモジュールから出力される特徴マップは、第３のネットワークのアップサンプリングモジュールに入力される前に、まずチャンネル数の圧縮が行われることにより、少なくとも１つのアップサンプリングモジュールに入力される特徴マップのチャンネル数が同じになる。具体的には、第１の圧縮特徴マップは、１番目のぼかしアップサンプリングモジュールから出力される特徴マップに対してチャンネル数の圧縮が行われた特徴マップであり、第２の圧縮特徴マップは、ｉ番目のぼかしアップサンプリングモジュールから出力される特徴マップに対してチャンネル数の圧縮が行われた特徴マップである。１番目のアップサンプリングモジュールは、その直前のアップサンプリングモジュールがないため、１番目のぼかしアップサンプリングモジュールから出力される特徴マップに対して直接にチャンネル数の圧縮を行い、第１の圧縮特徴マップを１番目のアップサンプリングモジュールに入力してアップサンプリングを行ってもよい。ｉ番目のアップサンプリングモジュールは、その直前のアップサンプリングモジュール（すなわち、（ｉ－１）番目のアップサンプリングモジュール）があるため、ｉ番目のアップサンプリングモジュールへの入力は、（ｉ－１）番目のアップサンプリングモジュールから出力される特徴マップと、ｉ番目のぼかしアップサンプリングモジュールから出力され圧縮された特徴マップとの重ね合わせである。簡単に言えば、２番目のアップサンプリングモジュールへの入力は、１番目のアップサンプリングモジュールから出力される特徴マップと、２番目のぼかしアップサンプリングモジュールから出力され圧縮された特徴マップとの重ね合わせであり、３番目のアップサンプリングモジュールへの入力は、２番目のアップサンプリングモジュールから出力される特徴マップと、３番目のぼかしアップサンプリングモジュールから出力され圧縮された特徴マップとの重ね合わせであり、（Ｎ－１）番目のアップサンプリングモジュールへの入力は、（Ｎ－２）番目のアップサンプリングモジュールから出力される特徴マップと、（Ｎ－１）番目のぼかしアップサンプリングモジュールから出力され圧縮された特徴マップとの重ね合わせである。このように、第３のネットワークにおける（Ｎ－１）個のアップサンプリングモジュールによるアップサンプリング処理を経て、第３の特徴マップが出力される。１番目～（Ｎ－１）番目のぼかしアップサンプリングモジュールから出力される特徴マップのチャンネル数を圧縮することにより、第３のネットワークにおける少なくとも１つのアップサンプリングモジュールへの入力のチャンネル数がすべて同じになることを確保して、ニューラルネットワークモデルの安定性を向上させることに有利になる。

Ｓ２３において、前記目標顔画像及び前記修復対象の顔画像の色チャンネルを融合して、第１の顔修復画像を得る。

本出願の具体的な実施例では、第１の顔修復画像とは、ニューラルネットワークモデルによる修復、及び色チャンネルの融合を経て得られる顔画像を指す。輝度チャンネルが修復された目標顔画像に対して、修復対象の顔画像の色チャンネルとの割合情報をそれぞれ算出し、算出された割合に基づいて、目標顔画像及び修復対象の顔画像の色チャンネルを融合して画像強調を実現し、第１の顔修復画像を出力する。

Ｓ２４において、前記第１の顔修復画像に対して画像変換処理を行い、第２の顔修復画像を得る。

本出願の具体的な実施例では、第１の顔修復画像に対して局所的色補正を行い、色補正後の第１の顔修復画像を拡縮して、そのサイズを、ステップＳ２１にて切り取った顔画像のサイズに復元すれば、品質が比較的に良い第２の顔修復画像が得られ、第２の顔修復画像の解像度の向上に有利になる。まず、第１の顔修復画像のサイズ、及び切り取った顔画像のサイズに基づいて、現在拡縮に必要な倍率を特定し、拡縮倍率が１．５倍を超えた場合、超解像技術を用いて２倍の拡縮を行うことにより、第１の顔修復画像のサイズを復元する。例えば、ＳＲＣＮＮ（Ｓｕｐｅｒ－ＲｅｓｏｌｕｔｉｏｎＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、超解像再構成畳み込みニューラルネットワーク）などを用いて拡縮を行ってもよい。

可能な一実施形態では、第２の顔修復画像を得た後に、前記方法は、
前記人物画像マスクのエッジに対してガウシアンぼかしを行うことと、前記元画像における前記顔画像の切り取り位置、及び前記人物画像マスクに基づいて、前記第２の顔修復画像における顔を、切り取り後の前記元画像に貼り戻して、前記元画像の修復を完了させることと、をさらに含む。

元画像における顔画像の切り取り位置、及び人物画像マスクに基づいて、元画像における顔の位置を特定することができる。これにより、第２の顔修復画像における修復済みの顔を、切り取り後の元画像に貼り戻し、背景部分は、元画像における背景のままとし、顔画像を貼り戻す前に、マスクマトリックスＭに基づいて人物画像マスクのエッジに対してガウシアンぼかしを行うことにより、最終的な修復画像をより滑らかで自然なものとすることができる。

可能な一実施形態では、修復対象の顔画像を取得する前に、前記方法は、第１の顔画像と、前記第１の顔画像に基づいて得られる第２の顔画像とを含むサンプル画像ペアを構成することと、前記サンプル画像ペアをニューラルネットワークに入力してトレーニングを行い、前記第２の顔画像の修復画像を出力することと、前記修復画像及び前記第１の顔画像に基づいて目標損失を特定することと、前記目標損失を最小化するように、前記ニューラルネットワークのパラメータを調整して、前記ニューラルネットワークモデルを得ることと、をさらに含む。

ここで、ニューラルネットワークモデルのトレーニングには、ペアとなる画像、すなわちサンプル画像ペアにおける第１の顔画像及び第２の顔画像を採用する。第１の顔画像とは、予め用意された画像を指し、第２の顔画像とは、第１の顔画像に基づいて得られ、例えばピントボケ、ノイズ、圧縮損失、サンプリングによるエイリアシング、ＩＳＰ（ＩｍａｇｅＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、画像信号プロセッサ）によるノイズ除去後の残余などの画質問題がある劣化画像を指す。第２の顔画像は、第１の顔画像と全く同じ顔画像であってもよく、第１の顔画像に対して劣化処理を行って得られる顔画像であってもよい。この両者は、画質の劣化の有無を除き、他の情報が全く同じである。このようなサンプル画像ペアは、実際に収集された画像では見つけにくいものであるため、第１の顔画像に基づいて第２の顔画像を合成してもよい。構成されたサンプル画像ペアをニューラルネットワークに入力してトレーニングを行い、前記ステップＳ２２及びＳ２３に示す方法で、第２の顔画像における顔を修復して第２の顔画像の修復画像を得る。そして、この修復画像と第１の顔画像に基づいて目標損失を算出する。目標損失は、回帰損失、知覚損失、敵対的生成損失及びコンテキスト損失のうちの少なくとも一つを含む。目標損失に基づいてニューラルネットワークのパラメータを調整して、目標損失を最小化することにより、トレーニング済みのニューラルネットワークモデルを得る。

ここで、回帰損失は、
で表され、Ｘは、ニューラルネットワークから出力される修復画像を表し、Ｙは、第１の顔画像を表す。回帰損失は、修復画像と第１の顔画像における対応画素の間の距離Ｌ_１の最小化、ノイズ処理、及び最終的に回復される画像の色などの情報の保持のために用いられる。

知覚損失は、
で表される。知覚損失は、修復画像が視覚的によりリアルで自然になるように、深度特徴空間における修復画像と第１の顔画像との間の距離Ｌ_１を最小化するために用いられる。深度特徴空間は、トレーニング済みのＶＧＧ（ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐ、視覚的幾何学グループ）ネットワークにより抽出することができ、ｌは、ＶＧＧ特徴の層数を表す。

敵対的生成損失は、
で表される。敵対的生成損失は、識別器を用いて修復画像と第１の顔画像とを識別し、修復画像の鮮明度を増加させ、画像の細部テクスチャーを増加させるために用いられる。Ｆ_{ｍｉｎｕｓ}とＦ_ｐｌｕｓは、歪度における正と負の２つのメトリック関数を表し、ａ_ｒｅａｌとａ_ｆａｋｅは、２つの一定のアンカー値であり、Ｄは、識別器であり、Ｄ（Ｘ）は、識別器による修復画像の識別結果を表し、長さが５１であるベクトルである。

コンテキスト損失は、
で表される。コンテキスト損失は、特徴空間における修復画像と第１の顔画像とのコサイン距離を算出し、コサイン距離の多様性を最小化するために用いられ、第１の顔画像との損失により、最終的に回復される画像の内容の一致性を確保する。具体的には、ＣＸは、算出されたコサイン距離を表し、Φは、特徴抽出ネットワークを表し、ＶＧＧネットワークであってもよく、ｌは、同じく特徴の層数を表し、Ｓは、算出する必要がある特徴の層数を表し、通常の場合、Ｓ＝｛３,４｝であり、すなわち、主にどのようなスケールでコンテキスト損失を算出するかによって定められる。

この実施形態では、ペアとなるサンプル画像を用いてニューラルネットワークをトレーニングし、このサンプル画像ペアには、実際に収集された画質問題のある画像に十分に近い劣化画像が存在する。このようなサンプル画像ペアを用いてニューラルネットワークをトレーニングすることにより、ニューラルネットワークモデルの汎化性の向上に有利になる。目標損失を最小化することにより、ニューラルネットワークモデルから出力される修復画像をできるだけ第１の顔画像の品質に近づけ、修復画像の輪郭や毛髪などの細部に対する処理を増加させることができる。回帰損失、知覚損失、敵対的生成損失及びコンテキスト損失のうちの少なくとも一つを含む目標損失を用いて、ニューラルネットワークモデルをトレーニングすることにより、ニューラルネットワークモデルは、劣化画像に存在する複数の問題を全体的に修復し、人物画像修復の品質を改善することができる。

可能な一実施形態では、図５に示すように、前記した、サンプル画像ペアを構成することは、以下のステップを含む。

Ｓ５０１において、予め設定された前記第１の顔画像を取得する。

Ｓ５０２において、前記第１の顔画像の画質が劣化したか否かを判断し、ＹＥＳの場合、ステップＳ５０３を実行し、ＮＯの場合、ステップＳ５０４を実行する。

Ｓ５０３において、２枚の前記第１の顔画像により前記サンプル画像ペアを構成し、２枚のうちのいずれか一枚を前記第２の顔画像として決定する。

Ｓ５０４において、前記第１の顔画像に対して大気擾乱劣化を行い、第１の劣化画像を得る。

Ｓ５０５において、前記第１の劣化画像に対してダウンサンプリングを行い、目標劣化画像を得る。

Ｓ５０６において、前記目標劣化画像に対してアップサンプリングを行い、第２の劣化画像を得る。

Ｓ５０７において、前記第２の劣化画像に基づいて第３の劣化画像を得る。

Ｓ５０８において、予め設定された圧縮品質パラメータを用いて前記第３の劣化画像を圧縮して、第４の劣化画像を得る。

Ｓ５０９において、前記第４の劣化画像において矩形領域を決定し、前記第１の顔画像において前記矩形領域に対応する目標領域を特定する。

Ｓ５１０において、前記目標領域内の画素値で前記矩形領域内の対応する画素値を置き換え、前記第２の顔画像を得て、前記第１の顔画像と前記第２の顔画像により前記サンプル画像ペアを構成する。

ここで、第１の顔画像について、まず、その画質を判断し、その画質が劣化したか否かを判断する。画質が劣化した場合、劣化処理を行う必要がなく、２枚の第１の顔画像によりサンプル画像ペアを構成し、２枚のうちのいずれか一枚を第２の顔画像として決定する。画質が劣化していない場合には、劣化処理を行い、具体的には、予め設定されたアルゴリズムを用いて実現できる。第１の顔画像を入力し、最終的に元の第１の顔画像が返される場合、第１の顔画像自体の画質が劣化しており、返されない場合には、第１の顔画像に対して一定の確率で大気擾乱を行い、第１の劣化画像を得て、第１の劣化画像に対して０～８倍のダウンサンプリングを行い、低解像度の目標劣化画像を得て、目標劣化画像に対して対応するアップサンプリングを行い、第１の劣化画像と同じ解像度の第２の劣化画像を得て、第２の劣化画像の輝度チャンネルにノイズを加え、非局所的平均ノイズ除去を行い、第３の劣化画像を得る。選択的に、まず、第２の劣化画像に対してぼかし操作を行い、対応する劣化画像（すなわち、第５の劣化画像）を得て、該劣化画像の輝度チャンネルにノイズを加え、非局所的平均ノイズ除去を行い、第３の劣化画像を得るようにしてもよい。ぼかし操作、ノイズ重畳、非局所的平均ノイズ除去などの方法で第２の劣化画像に対して多様な劣化処理を行うことにより、第３の劣化画像に多様な劣化問題を生じさせ、以後に多様な劣化問題のある画像を用いてニューラルネットワークモデルをトレーニングすることに有利になる。第３の劣化画像に対して、予め設定された圧縮品質パラメータを用いてＪＰＥＧ圧縮操作を行う。ここで、圧縮品質パラメータは、実際の状況に応じて設定されてもよい。圧縮して得られる第４の劣化画像に対して、図６に示すように、１つの矩形領域をランダムに選択し、第１の顔画像において当該領域に対応する目標領域を選択し、目標領域内の画素値で矩形領域内の画素値を置き換えれば、劣化画像の合成が完了し、第２の顔画像が得られ、第１の顔画像と第２の顔画像により１つのサンプル画像ペアを構成する。この実施形態では、上記したより複雑な画像合成方法でトレーニング画像の合成を行うので、従来の合成方法に比べて、得られる第２の顔画像は、実際の劣化画像により近いものになる。

この実施形態では、第１の顔画像の画質を判断し、第１の顔画像自体が比較的に鮮明で、その画質が劣化していない場合、第１の顔画像に対して一連の劣化処理を行い、１枚の劣化問題のある第２の顔画像が合成され、第２の顔画像を実際に収集された劣化画像に類似するものにすることにより、真の劣化画像を修復するシーンをシミュレートする。第１の顔画像自体に劣化問題がある場合、それに対して劣化処理を行う必要がなく、直接に２枚の第１の顔画像を用いてサンプル画像ペアを構成して、真の劣化画像を修復するシーンをシミュレートしてもよい。

図７を参照すると、図７は、本出願の実施例による他の人物画像修復方法のフロー模式図を示す。図７に示すように、ステップＳ７１～Ｓ７６を含む。

Ｓ７１において、修復対象の顔画像を取得する。

Ｓ７２において、前記修復対象の顔画像のフォーマットが第１のフォーマットである場合、前記修復対象の顔画像の輝度チャンネルを抽出し、ステップＳ７４を実行する。

Ｓ７３において、前記修復対象の顔画像のフォーマットが第２のフォーマットである場合、前記修復対象の顔画像のフォーマットを前記第１のフォーマットに変換し、フォーマット変換後の前記修復対象の顔画像の前記輝度チャンネルを抽出する。

Ｓ７４において、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得る。

Ｓ７５において、前記目標顔画像及び前記修復対象の顔画像の色チャンネルを融合して、第１の顔修復画像を得る。

Ｓ７６において、前記第１の顔修復画像に対して画像変換処理を行い、第２の顔修復画像を得る。

上記ステップＳ７１～Ｓ７６の具体的な実施形態は、図２～図６に示す実施例において既に説明されており、同一または類似する有益な効果を達成することができる。ここでは、これ以上説明しない。

図２～図６に示す方法の実施例に関する説明により、本出願の実施例はさらに、人物画像修復装置を提供する。図８を参照すると、図８は、本出願の実施例による人物画像修復装置の構成模式図を示す。図８に示すように、この装置は、
修復対象の顔画像を取得するための画像取得モジュール８１と、
前記修復対象の顔画像の輝度チャンネルを抽出し、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得るための人物画像修復モジュール８２と、
前記目標顔画像及び前記修復対象の顔画像の色チャンネルを融合して、第１の顔修復画像を得るための画像融合モジュール８３と、
前記第１の顔修復画像に対して画像変換処理を行い、第２の顔修復画像を得るための画像調整モジュール８４と、を含む。

可能な一実施形態では、前記修復対象の顔画像の輝度チャンネルを抽出するにあたって、人物画像修復モジュール８２は、具体的に、
前記修復対象の顔画像のフォーマットが第１のフォーマットである場合、前記修復対象の顔画像の前記輝度チャンネルを抽出すること、または、前記修復対象の顔画像のフォーマットが第２のフォーマットである場合、前記修復対象の顔画像のフォーマットを前記第１のフォーマットに変換し、フォーマット変換後の前記修復対象の顔画像の前記輝度チャンネルを抽出することに用いられる。

可能な一実施形態では、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得るにあたって、人物画像修復モジュール８２は、具体的に、
前記輝度チャンネルをトレーニング済みのニューラルネットワークモデルに入力して人物画像修復を行い、前記目標顔画像を得ることに用いられる。

可能な一実施形態では、前記ニューラルネットワークモデルは、第１のネットワークと第２のネットワークと第３のネットワークと第４のネットワークを含み、前記第２のネットワークは、Ｎ（Ｎは、１よりも大きい整数である）個のぼかしアップサンプリングモジュールを含み、前記Ｎ個のぼかしアップサンプリングモジュールのうちの少なくとも１つのぼかしアップサンプリングモジュールにおけるぼかしアップサンプリングは、ぼかし畳み込みを含み、前記ぼかし畳み込みにおける畳み込みカーネルの重みは、予め設定された一定値であり、前記ニューラルネットワークモデルは、前記第１のネットワークの入力、前記第２のネットワークの出力及び前記第３のネットワークの出力のところにショートカット接続があり、前記第１のネットワークの出力及び前記第４のネットワークの出力のところにショートカット接続がある。

可能な一実施形態では、前記輝度チャンネルをトレーニング済みのニューラルネットワークモデルに入力して人物画像修復を行い、前記目標顔画像を得るにあたって、人物画像修復モジュール８２は、具体的に、
前記第１のネットワークを用いて前記輝度チャンネルに対して符号化操作を行い、目標特徴マップを得ることと、前記第２のネットワーク及び前記第３のネットワークを用いて前記目標特徴マップに対して復号化操作を行い、前記目標顔画像を得ることに用いられる。

可能な一実施形態では、前記第１のネットワークを用いて前記輝度チャンネルに対して符号化操作を行い、目標特徴マップを得るにあたって、人物画像修復モジュール８２は、具体的に、
前記輝度チャンネルを前記第１のネットワークに入力してダウンサンプリングを行い、第１の特徴マップを得ることと、前記第４のネットワークを用いて前記第１の特徴マップに対して上位層特徴抽出を行い、上位層特徴マップを得ることと、前記第１の特徴マップと前記上位層特徴マップとを重ね合わせて、前記目標特徴マップを得ることに用いられる。

可能な一実施形態では、前記第２のネットワーク及び前記第３のネットワークを用いて前記目標特徴マップに対して復号化操作を行い、前記目標顔画像を得るにあたって、人物画像修復モジュール８２は、具体的に、
前記目標特徴マップを前記第２のネットワークにおける前記Ｎ個のぼかしアップサンプリングモジュールに入力してぼかしアップサンプリングを行い、第２の特徴マップを得ることと、前記Ｎ個のぼかしアップサンプリングモジュールのうちの１番目～（Ｎ－１）番目のぼかしアップサンプリングモジュールから出力される特徴マップを前記第３のネットワークに入力してアップサンプリングを行い、第３の特徴マップを得ることと、前記輝度チャンネル、前記第２の特徴マップ及び前記第３の特徴マップを重ね合わせて、前記目標顔画像を得ることに用いられる。

可能な一実施形態では、前記第３のネットワークは、（Ｎ－１）個のアップサンプリングモジュールを含み、前記Ｎ個のぼかしアップサンプリングモジュールのうちの１番目～（Ｎ－１）番目のぼかしアップサンプリングモジュールから出力される特徴マップを前記第３のネットワークに入力してアップサンプリングを行い、第３の特徴マップを得るにあたって、人物画像修復モジュール８２は、具体的に、
前記Ｎ個のぼかしアップサンプリングモジュールのうちの１番目のぼかしアップサンプリングモジュールから出力される特徴マップのチャンネル数を圧縮して、第１の圧縮特徴マップを得ることと、前記第１の圧縮特徴マップを前記（Ｎ－１）個のアップサンプリングモジュールのうちの１番目のアップサンプリングモジュールに入力してアップサンプリングを行うことと、前記Ｎ個のぼかしアップサンプリングモジュールのうちのｉ（ｉは、１よりも大きく、Ｎ未満の整数である）番目のぼかしアップサンプリングモジュールから出力される特徴マップのチャンネル数を圧縮して、第２の圧縮特徴マップを得ることと、前記（Ｎ－１）個のアップサンプリングモジュールのうちの（ｉ－１）番目のアップサンプリングモジュールから出力される特徴マップと前記第２の圧縮特徴マップとを重ね合わせ、重ね合わせて得られる特徴マップを前記（Ｎ－１）個のアップサンプリングモジュールのうちのｉ番目のアップサンプリングモジュールに入力してアップサンプリングを行うことと、前記（Ｎ－１）個のアップサンプリングモジュールによる処理を経て、前記第３の特徴マップを得ることに用いられる。

可能な一実施形態では、修復対象の顔画像を取得するにあたって、画像取得モジュール８１は、具体的に、
収集された元画像に対して顔検出を行うことと、前記元画像における検出された顔の位置に基づいて、顔画像を切り取ることと、前記顔画像を拡縮して、前記修復対象の顔画像を得ることに用いられる。

可能な一実施形態では、画像取得モジュール８１は、さらに、前記元画像に対して人物画像分割を行い、人物画像マスクを得ることに用いられる。

可能な一実施形態では、画像調整モジュール８４は、さらに、
前記人物画像マスクのエッジに対してガウシアンぼかしを行うことと、前記元画像における前記顔画像の切り取り位置、及び前記人物画像マスクに基づいて、前記第２の顔修復画像における顔を、切り取り後の前記元画像に貼り戻して、前記元画像の修復を完了させることに用いられる。

可能な一実施形態では、前記第１の顔修復画像に対して画像変換処理を行い、第２の顔修復画像を得ることにあたって、画像調整モジュール８４は、具体的に、
前記第１の顔修復画像に対して色補正を行うことと、拡縮倍率を特定することと、拡縮倍率が予め設定された倍率よりも大きい場合、超解像技術を用いて色補正後の前記第１の顔修復画像を拡縮して、前記第２の顔修復画像を得ることに用いられる。

可能な一実施形態では、図９に示すように、この装置は、モデル構築モジュール８５をさらに含み、モデル構築モジュール８５は、
第１の顔画像と、前記第１の顔画像に基づいて得られる第２の顔画像とを含むサンプル画像ペアを構成することと、前記サンプル画像ペアをニューラルネットワークに入力してトレーニングを行い、前記第２の顔画像の修復画像を出力することと、前記修復画像及び前記第１の顔画像に基づいて目標損失を特定することと、前記目標損失を最小化するように、前記ニューラルネットワークのパラメータを調整して、前記ニューラルネットワークモデルを得ることに用いられる。

可能な一実施形態では、前記目標損失は、回帰損失、知覚損失、敵対的生成損失及びコンテキスト損失のうちの少なくとも一つを含む。

可能な一実施形態では、サンプル画像ペアを構成するにあたって、モデル構築モジュール８５は、具体的に、
予め設定された前記第１の顔画像を取得することと、前記第１の顔画像の画質が劣化していない場合、前記第１の顔画像に対して大気擾乱劣化を行い、第１の劣化画像を得て、前記第１の劣化画像に対してダウンサンプリングを行い、目標劣化画像を得て、前記目標劣化画像に対してアップサンプリングを行い、第２の劣化画像を得て、前記第２の劣化画像に基づいて第３の劣化画像を得て、予め設定された圧縮品質パラメータを用いて前記第３の劣化画像を圧縮して、第４の劣化画像を得て、前記第４の劣化画像において矩形領域を決定し、前記第１の顔画像において前記矩形領域に対応する目標領域を特定し、前記目標領域内の画素値で前記矩形領域内の対応する画素値を置き換え、前記第２の顔画像を得て、前記第１の顔画像と前記第２の顔画像により前記サンプル画像ペアを構成すること、または、前記第１の顔画像の画質が劣化した場合、２枚の前記第１の顔画像により前記サンプル画像ペアを構成し、２枚のうちのいずれか一枚を前記第２の顔画像として決定することに用いられる。

可能な一実施形態では、前記第２の劣化画像に基づいて第３の劣化画像を得るにあたって、モデル構築モジュール８５は、具体的に、
前記第２の劣化画像の輝度チャンネルにノイズを加え、前記第２の劣化画像に対して非局所的平均ノイズ除去を行い、前記第３の劣化画像を得ること、または、前記第２の化画像に対してぼかし操作を行い、第５の劣化画像を得て、前記第５の劣化画像の輝度チャンネルにノイズを加え、前記第５の劣化画像に対して非局所的平均ノイズ除去を行い、前記第３の劣化画像を得ることに用いられる。

本出願の一実施例によれば、図８または図９に示す人物画像修復装置の各ユニットは、それぞれまたはすべてが１つ或いはいくつかの他のユニットに統合されて構成されてもよく、または、そのうちのある１つ（複数）のユニットがさらに機能的により小さな複数のユニットに分割されて構成されてもよく、本出願の実施例の技術的効果の実現に影響を与えることなく同様の操作を実現することができる。上記のユニットは、論理的機能に基づいて区分されたものであり、実際の応用では、１つのユニットの機能が複数のユニットによって実現されてもよく、または、複数のユニットの機能が１つのユニットによって実現されてもよい。本出願の他の実施例では、人物画像修復装置は、他のユニットを含んでもよく、実際の応用では、これらの機能は、他のユニットによる協力によって実現されてもよく、複数のユニットによる協力によって実現されてもよい。

本出願の他の実施例によれば、中央処理ユニット（ＣＰＵ）、ランダムアクセス記憶媒体（ＲＡＭ）、読み取り専用記憶媒体（ＲＯＭ）などの処理素子及び記憶素子を含む例えばコンピュータ汎用のコンピューティングデバイスに、図２または図７に示されたそれぞれの方法に係る各ステップを実行可能なコンピュータプログラム（プログラムコードを含む）を稼働させることにより、図８または図９に示された人物画像修復装置を構成し、本出願の実施例の人物画像修復方法を実現してもよい。前記コンピュータプログラムは、例えば、コンピュータ読み取り可能な記憶媒体に記載され、コンピュータ読み取り可能な記憶媒体を介して前記コンピューティングデバイスにロードされて稼働されてもよい。

上記した方法の実施例及び装置の実施例の説明により、本出願の実施例はさらに、、電子機器を提供する。図１０を参照すると、この電子機器は、少なくとも、プロセッサ１００１、入力装置１００２、出力装置１００３及びコンピュータ記憶媒体１００４を含む。電子機器内のプロセッサ１００１、入力装置１００２、出力装置１００３及びコンピュータ記憶媒体１００４は、バスまたは他の手段により接続されることができる。

コンピュータ記憶媒体１００４は、電子機器のストレージに格納されてもよい。前記コンピュータ記憶媒体１００４は、プログラム命令を含むコンピュータプログラムを記憶するために用いられ、前記プロセッサ１００１は、前記コンピュータ記憶媒体１００４に記憶されたプログラム命令を実行するために用いられる。プロセッサ１００１（またはＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、中央処理ユニット）とも呼ばれる）は、電子機器のコンピューティングコアおよび制御コアであり、１つ以上の命令の実装に適し、具体的には、１つ以上の命令をロードして実行することにより、対応する方法の流れまたは対応する機能を実装することに適する。コンピュータ記憶媒体は、揮発性記憶媒体または不揮発性記憶媒体であってもよい。

１つの実施例では、本出願の実施例による電子機器のプロセッサ１００１は、修復対象の顔画像を取得することと、前記修復対象の顔画像の輝度チャンネルを抽出し、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得ることと、前記目標顔画像及び前記修復対象の顔画像の色チャンネルを融合して、第１の顔修復画像を得ることと、前記第１の顔修復画像に対して画像変換処理を行い、第２の顔修復画像を得ることと、を含む一連の人物画像修復処理を行うために用いられる。

もう１つの実施例では、プロセッサ１００１が、前記した、前記修復対象の顔画像の輝度チャンネルを抽出することを実行することは、前記修復対象の顔画像のフォーマットが第１のフォーマットである場合、前記修復対象の顔画像の前記輝度チャンネルを抽出すること、または、前記修復対象の顔画像のフォーマットが第２のフォーマットである場合、前記修復対象の顔画像のフォーマットを前記第１のフォーマットに変換し、フォーマット変換後の前記修復対象の顔画像の前記輝度チャンネルを抽出することを含む。

もう１つの実施例では、プロセッサ１００１が、前記した、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得ることを実行することは、前記輝度チャンネルをトレーニング済みのニューラルネットワークモデルに入力して人物画像修復を行い、前記目標顔画像を得ることを含む。

もう１つの実施例では、前記ニューラルネットワークモデルは、第１のネットワークと第２のネットワークと第３のネットワークと第４のネットワークを含み、前記第２のネットワークは、Ｎ（Ｎは、１よりも大きい整数である）個のぼかしアップサンプリングモジュールを含み、前記Ｎ個のぼかしアップサンプリングモジュールのうちの少なくとも１つのぼかしアップサンプリングモジュールにおけるぼかしアップサンプリングは、ぼかし畳み込みを含み、前記ぼかし畳み込みにおける畳み込みカーネルの重みは、予め設定された一定値であり、前記ニューラルネットワークモデルは、前記第１のネットワークの入力、前記第２のネットワークの出力及び前記第３のネットワークの出力のところにショートカット接続があり、前記第１のネットワークの出力及び前記第４のネットワークの出力のところにショートカット接続がある。

もう１つの実施例では、プロセッサ１００１が、前記した、前記輝度チャンネルをトレーニング済みのニューラルネットワークモデルに入力して人物画像修復を行い、前記目標顔画像を得ることを実行することは、前記第１のネットワークを用いて前記輝度チャンネルに対して符号化操作を行い、目標特徴マップを得ることと、前記第２のネットワーク及び前記第３のネットワークを用いて前記目標特徴マップに対して復号化操作を行い、前記目標顔画像を得ることと、を含む。

もう１つの実施例では、プロセッサ１００１が、前記した、前記第１のネットワークを用いて前記輝度チャンネルに対して符号化操作を行い、目標特徴マップを得ることを実行することは、前記輝度チャンネルを前記第１のネットワークに入力してダウンサンプリングを行い、第１の特徴マップを得ることと、前記第４のネットワークを用いて前記第１の特徴マップに対して上位層特徴抽出を行い、上位層特徴マップを得ることと、前記第１の特徴マップと前記上位層特徴マップとを重ね合わせて、前記目標特徴マップを得ることと、含む。

もう１つの実施例では、プロセッサ１００１が、前記した、前記第２のネットワーク及び前記第３のネットワークを用いて前記目標特徴マップに対して復号化操作を行い、前記目標顔画像を得ることを実行することは、
前記目標特徴マップを前記第２のネットワークにおける前記Ｎ個のぼかしアップサンプリングモジュールに入力してぼかしアップサンプリングを行い、第２の特徴マップを得ることと、前記Ｎ個のぼかしアップサンプリングモジュールのうちの１番目～（Ｎ－１）番目のぼかしアップサンプリングモジュールから出力される特徴マップを前記第３のネットワークに入力してアップサンプリングを行い、第３の特徴マップを得ることと、前記輝度チャンネル、前記第２の特徴マップ及び前記第３の特徴マップを重ね合わせて、前記目標顔画像を得ることと、を含む。

もう１つの実施例では、前記第３のネットワークは、（Ｎ－１）個のアップサンプリングモジュールを含み、プロセッサ１００１が、前記した、前記Ｎ個のぼかしアップサンプリングモジュールのうちの１番目～（Ｎ－１）番目のぼかしアップサンプリングモジュールから出力される特徴マップを前記第３のネットワークに入力してアップサンプリングを行い、第３の特徴マップを得ることを実行することは、前記Ｎ個のぼかしアップサンプリングモジュールのうちの１番目のぼかしアップサンプリングモジュールから出力される特徴マップのチャンネル数を圧縮して、第１の圧縮特徴マップを得ることと、前記第１の圧縮特徴マップを前記（Ｎ－１）個のアップサンプリングモジュールのうちの１番目のアップサンプリングモジュールに入力してアップサンプリングを行うことと、前記Ｎ個のぼかしアップサンプリングモジュールのうちのｉ（ｉは、１よりも大きく、Ｎ未満の整数である）番目のぼかしアップサンプリングモジュールから出力される特徴マップのチャンネル数を圧縮して、第２の圧縮特徴マップを得ることと、前記（Ｎ－１）個のアップサンプリングモジュールのうちの（ｉ－１）番目のアップサンプリングモジュールから出力される特徴マップと前記第２の圧縮特徴マップとを重ね合わせ、重ね合わせて得られる特徴マップを前記（Ｎ－１）個のアップサンプリングモジュールのうちのｉ番目のアップサンプリングモジュールに入力してアップサンプリングを行うことと、前記（Ｎ－１）個のアップサンプリングモジュールによる処理を経て、前記第３の特徴マップを得ることと、を含む。

もう１つの実施例では、プロセッサ１００１が、前記した、修復対象の顔画像を取得することを実行することは、収集された元画像に対して顔検出を行うことと、前記元画像における検出された顔の位置に基づいて、顔画像を切り取ることと、前記顔画像を拡縮して、前記修復対象の顔画像を得ることと、を含む。

もう１つの実施例では、前記顔画像を拡縮して、前記修復対象の顔画像を得た後に、プロセッサ１００１は、さらに、前記元画像に対して人物画像分割を行い、人物画像マスクを得ることに用いられ、第２の顔修復画像を得た後に、プロセッサ１００１は、さらに、前記人物画像マスクのエッジに対してガウシアンぼかしを行うことと、前記元画像における前記顔画像の切り取り位置、及び前記人物画像マスクに基づいて、前記第２の顔修復画像における顔を、切り取り後の前記元画像に貼り戻して、前記元画像の修復を完了させることに用いられる。

もう１つの実施例では、プロセッサ１００１が、前記した、前記第１の顔修復画像に対して画像変換処理を行い、第２の顔修復画像を得ることを実行することは、前記第１の顔修復画像に対して色補正を行うことと、拡縮倍率を特定することと、拡縮倍率が予め設定された倍率よりも大きい場合、超解像技術を用いて色補正後の前記第１の顔修復画像を拡縮して、前記第２の顔修復画像を得ることと、を含む。

もう１つの実施例では、修復対象の顔画像を取得する前に、プロセッサ１００１は、さらに、第１の顔画像と、前記第１の顔画像に基づいて得られる第２の顔画像とを含むサンプル画像ペアを構成することと、前記サンプル画像ペアをニューラルネットワークに入力してトレーニングを行い、前記第２の顔画像の修復画像を出力することと、前記修復画像及び前記第１の顔画像に基づいて目標損失を特定することと、前記目標損失を最小化するように、前記ニューラルネットワークのパラメータを調整して、前記ニューラルネットワークモデルを得ることに用いられる。

もう１つの実施例では、前記目標損失は、回帰損失、知覚損失、敵対的生成損失及びコンテキスト損失のうちの少なくとも一つを含む。

もう１つの実施例では、プロセッサ１００１が、前記した、サンプル画像ペアを構成することを実行することは、予め設定された前記第１の顔画像を取得することと、前記第１の顔画像の画質が劣化していない場合、前記第１の顔画像に対して大気擾乱劣化を行い、第１の劣化画像を得て、前記第１の劣化画像に対してダウンサンプリングを行い、目標劣化画像を得て、前記目標劣化画像に対してアップサンプリングを行い、第２の劣化画像を得て、前記第２の劣化画像に基づいて第３の劣化画像を得て、予め設定された圧縮品質パラメータを用いて前記第３の劣化画像を圧縮して、第４の劣化画像を得て、前記第４の劣化画像において矩形領域を決定し、前記第１の顔画像において前記矩形領域に対応する目標領域を特定し、前記目標領域内の画素値で前記矩形領域内の対応する画素値を置き換え、前記第２の顔画像を得て、前記第１の顔画像と前記第２の顔画像により前記サンプル画像ペアを構成すること、または、前記第１の顔画像の画質が劣化した場合、２枚の前記第１の顔画像により前記サンプル画像ペアを構成し、２枚のうちのいずれか一枚を前記第２の顔画像として決定することと、を含む。

もう１つの実施例では、プロセッサ１００１が、前記した、前記第２の劣化画像に基づいて第３の劣化画像を得ることを実行することは、前記第２の劣化画像の輝度チャンネルにノイズを加え、前記第２の劣化画像に対して非局所的平均ノイズ除去を行い、前記第３の劣化画像を得ること、または、前記第２の化画像に対してぼかし操作を行い、第５の劣化画像を得て、前記第５の劣化画像の輝度チャンネルにノイズを加え、前記第５の劣化画像に対して非局所的平均ノイズ除去を行い、前記第３の劣化画像を得ることを含む。

例示的に、上記の電子機器は、コンピュータ、コンピュータホスト、サーバ、クラウドサーバ、サーバクラスターであってもよく、カメラヘッド、ビデオカメラなどの任意の画像収集装置などであってもよい。電子機器は、プロセッサ１００１、入力装置１００２、出力装置１００３及びコンピュータ記憶媒体１００４を含むが、これらに限らない。入力装置１００２は、キーボード、タッチスクリーンなどであってもよい、出力装置１００３は、スピーカー、ディスプレイ、ＲＦ送信機などであってもよい。当業者であれば、上記の模式図は、電子機器の例に過ぎず、電子機器を制限するものではなく、図示したものよりも多いまたは少ない部品を含むものであってもよく、いくつかの部品を組み合わせたもの、または異なる部品であってもよいことは理解できる。

なお、電子機器のプロセッサ１００１によってコンピュータプログラムが実行されると、上記の人物画像修復方法におけるステップが実現されるので、上記の人物画像修復方法の実施例は、いずれも当該電子機器に適用され、且つ同一または類似する有益な効果を達成することができる。

本出願の実施例はさらに、電子機器内のメモリデバイスであり、プログラムおよびデータを格納するためのコンピュータ記憶媒体（Ｍｅｍｏｒｙ）を提供する。ここでのコンピュータ記憶媒体は、端末に内蔵された記憶媒体を含んでもよいし、もちろん、端末によってサポートされる拡張記憶媒体を含んでもよいことは理解できる。コンピュータ記憶媒体は、端末のオペレーティングシステムが記憶された記憶空間を提供する。また、この記憶空間には、さらに、プロセッサ１００１によってロードされて実行されることに適する１つ以上の命令が記憶され、これらの命令は、１つ以上のコンピュータプログラム（プログラムコードを含む）であってもよい。なお、ここでのコンピュータ記憶媒体は、高速なＲＡＭメモリであってもよく、例えば少なくとも１つのディスクメモリのような不揮発性メモリ（ｎｏｎ－ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）であってもよい。選択的に、前記プロセッサ１００１から離れた少なくとも１つのコンピュータ記憶媒体であってもよい。１つの実施例では、プロセッサ１００１によって、コンピュータ記憶媒体に記憶された１つ以上の命令がロードされて実行されることにより、上記の人物画像修復方法における対応するステップを実現するようにしてもよい。

例示的に、コンピュータ記憶媒体におけるコンピュータプログラムは、コンピュータプログラムコードを含み、前記コンピュータプログラムコードは、ソースコード形式、オブジェクトコード形式、実行可能ファイル、または何らかの中間形式などであってもよい。前記コンピュータ読み取り可能な媒体は、前記コンピュータプログラムコードを搬送可能な任意のエンティティまたは装置、記録媒体、Ｕディスク、リムーバブルハードディスク、磁気ディスク、光ディスク、コンピュータメモリ、読み取り専用メモリ（ＲＯＭ、Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、電気搬送波信号、電気通信信号及びソフトウェア配信媒体などを含んでもよい。

なお、コンピュータ記憶媒体におけるコンピュータプログラムがプロセッサによって実行されると、上記の人物画像修復方法におけるステップが実現されるので、上記の人物画像修復方法のすべての実施例は、いずれも当該コンピュータ記憶媒体に適用され、同一または類似する有益な効果を達成することができる。

以上に、本出願の実施例を詳細に紹介した。本明細書には、具体的な例を用いて本出願の原理及び実施形態を説明したが、上記の実施例の説明は、本出願の方法及び核となる思想を理解しやすくするためのものに過ぎない。当業者であれば、本出願の思想に基づき、具体的な実施形態及び適用範囲を変更可能であり、以上により、本明細書の内容は本出願を制限するものと理解すべきではない。

Claims

人物画像修復方法であって、
修復対象の顔画像を取得することと、
前記修復対象の顔画像の輝度チャンネルを抽出し、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得ることと、
前記目標顔画像及び前記修復対象の顔画像の色チャンネルを融合して、第１の顔修復画像を得ることと、
前記第１の顔修復画像に対して画像変換処理を行い、第２の顔修復画像を得ることと、を含む人物画像修復方法。
前記した、前記修復対象の顔画像の輝度チャンネルを抽出することは、
前記修復対象の顔画像のフォーマットが第１のフォーマットである場合、前記修復対象の顔画像の前記輝度チャンネルを抽出すること、または、
前記修復対象の顔画像のフォーマットが第２のフォーマットである場合、前記修復対象の顔画像のフォーマットを前記第１のフォーマットに変換し、フォーマット変換後の前記修復対象の顔画像の前記輝度チャンネルを抽出することを含む、請求項１に記載の人物画像修復方法。
前記した、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得ることは、
前記輝度チャンネルをトレーニング済みのニューラルネットワークモデルに入力して人物画像修復を行い、前記目標顔画像を得ることを含む、請求項１または２に記載の人物画像修復方法。
前記ニューラルネットワークモデルは、第１のネットワークと第２のネットワークと第３のネットワークと第４のネットワークを含み、
前記第２のネットワークは、Ｎ（Ｎは、１よりも大きい整数である）個のぼかしアップサンプリングモジュールを含み、前記Ｎ個のぼかしアップサンプリングモジュールのうちの少なくとも１つのぼかしアップサンプリングモジュールにおけるぼかしアップサンプリングは、ぼかし畳み込みを含み、前記ぼかし畳み込みにおける畳み込みカーネルの重みは、予め設定された一定値であり、
前記ニューラルネットワークモデルは、前記第１のネットワークの入力、前記第２のネットワークの出力及び前記第３のネットワークの出力のところにショートカット接続があり、前記第１のネットワークの出力及び前記第４のネットワークの出力のところにショートカット接続がある、請求項３に記載の人物画像修復方法。
前記した、前記輝度チャンネルをトレーニング済みのニューラルネットワークモデルに入力して人物画像修復を行い、前記目標顔画像を得ることは、
前記第１のネットワークを用いて前記輝度チャンネルに対して符号化操作を行い、目標特徴マップを得ることと、
前記第２のネットワーク及び前記第３のネットワークを用いて前記目標特徴マップに対して復号化操作を行い、前記目標顔画像を得ることと、を含む、請求項４に記載の人物画像修復方法。
前記した、前記第１のネットワークを用いて前記輝度チャンネルに対して符号化操作を行い、目標特徴マップを得ることは、
前記輝度チャンネルを前記第１のネットワークに入力してダウンサンプリングを行い、第１の特徴マップを得ることと、
前記第４のネットワークを用いて前記第１の特徴マップに対して上位層特徴抽出を行い、上位層特徴マップを得ることと、
前記第１の特徴マップと前記上位層特徴マップとを重ね合わせて、前記目標特徴マップを得ることと、を含む、請求項５に記載の人物画像修復方法。
前記した、前記第２のネットワーク及び前記第３のネットワークを用いて前記目標特徴マップに対して復号化操作を行い、前記目標顔画像を得ることは、
前記目標特徴マップを前記第２のネットワークにおける前記Ｎ個のぼかしアップサンプリングモジュールに入力してぼかしアップサンプリングを行い、第２の特徴マップを得ることと、
前記Ｎ個のぼかしアップサンプリングモジュールのうちの１番目～（Ｎ－１）番目のぼかしアップサンプリングモジュールから出力される特徴マップを前記第３のネットワークに入力してアップサンプリングを行い、第３の特徴マップを得ることと、
前記輝度チャンネル、前記第２の特徴マップ及び前記第３の特徴マップを重ね合わせて、前記目標顔画像を得ることと、を含む、請求項５または６に記載の人物画像修復方法。
前記第３のネットワークは、（Ｎ－１）個のアップサンプリングモジュールを含み、
前記した、前記Ｎ個のぼかしアップサンプリングモジュールのうちの１番目～（Ｎ－１）番目のぼかしアップサンプリングモジュールから出力される特徴マップを前記第３のネットワークに入力してアップサンプリングを行い、第３の特徴マップを得ることは、
前記Ｎ個のぼかしアップサンプリングモジュールのうちの１番目のぼかしアップサンプリングモジュールから出力される特徴マップのチャンネル数を圧縮して、第１の圧縮特徴マップを得ることと、
前記第１の圧縮特徴マップを前記（Ｎ－１）個のアップサンプリングモジュールのうちの１番目のアップサンプリングモジュールに入力してアップサンプリングを行うことと、
前記Ｎ個のぼかしアップサンプリングモジュールのうちのｉ（ｉは、１よりも大きく、Ｎ未満の整数である）番目のぼかしアップサンプリングモジュールから出力される特徴マップのチャンネル数を圧縮して、第２の圧縮特徴マップを得ることと、
前記（Ｎ－１）個のアップサンプリングモジュールのうちの（ｉ－１）番目のアップサンプリングモジュールから出力される特徴マップと前記第２の圧縮特徴マップとを重ね合わせ、重ね合わせて得られる特徴マップを前記（Ｎ－１）個のアップサンプリングモジュールのうちのｉ番目のアップサンプリングモジュールに入力してアップサンプリングを行うことと、
前記（Ｎ－１）個のアップサンプリングモジュールによる処理を経て、前記第３の特徴マップを得ることと、を含む、請求項７に記載の人物画像修復方法。
前記した、修復対象の顔画像を取得することは、
収集された元画像に対して顔検出を行うことと、
前記元画像における検出された顔の位置に基づいて、顔画像を切り取ることと、
前記顔画像を拡縮して、前記修復対象の顔画像を得ることと、を含む、請求項１～８の何れか１項に記載の人物画像修復方法。
前記顔画像を拡縮して、前記修復対象の顔画像を得た後に、前記方法は、
前記元画像に対して人物画像分割を行い、人物画像マスクを得ることをさらに含み、
第２の顔修復画像を得た後に、前記方法は、
前記人物画像マスクのエッジに対してガウシアンぼかしを行うことと、
前記元画像における前記顔画像の切り取り位置、及び前記人物画像マスクに基づいて、前記第２の顔修復画像における顔を、切り取り後の前記元画像に貼り戻して、前記元画像の修復を完了させることと、をさらに含む、請求項９に記載の人物画像修復方法。
前記した、前記第１の顔修復画像に対して画像変換処理を行い、第２の顔修復画像を得ることは、
前記第１の顔修復画像に対して色補正を行うことと、
拡縮倍率を特定することと、
拡縮倍率が予め設定された倍率よりも大きい場合、超解像技術を用いて色補正後の前記第１の顔修復画像を拡縮して、前記第２の顔修復画像を得ることと、を含む、請求項１～８の何れか１項に記載の人物画像修復方法。
修復対象の顔画像を取得する前に、前記方法は、
第１の顔画像と、前記第１の顔画像に基づいて得られる第２の顔画像とを含むサンプル画像ペアを構成することと、
前記サンプル画像ペアをニューラルネットワークに入力してトレーニングを行い、前記第２の顔画像の修復画像を出力することと、
前記修復画像及び前記第１の顔画像に基づいて目標損失を特定することと、
前記目標損失を最小化するように、前記ニューラルネットワークのパラメータを調整して、前記ニューラルネットワークモデルを得ることと、をさらに含む、請求項３～８の何れか１項に記載の人物画像修復方法。
前記目標損失は、回帰損失、知覚損失、敵対的生成損失及びコンテキスト損失のうちの少なくとも一つを含む、請求項１２に記載の人物画像修復方法。
前記した、サンプル画像ペアを構成することは、
予め設定された前記第１の顔画像を取得することと、
前記第１の顔画像の画質が劣化していない場合、
前記第１の顔画像に対して大気擾乱劣化を行い、第１の劣化画像を得て、
前記第１の劣化画像に対してダウンサンプリングを行い、目標劣化画像を得て、
前記目標劣化画像に対してアップサンプリングを行い、第２の劣化画像を得て、
前記第２の劣化画像に基づいて第３の劣化画像を得て、
予め設定された圧縮品質パラメータを用いて前記第３の劣化画像を圧縮して、第４の劣化画像を得て、
前記第４の劣化画像において矩形領域を決定し、前記第１の顔画像において前記矩形領域に対応する目標領域を特定し、
前記目標領域内の画素値で前記矩形領域内の対応する画素値を置き換え、前記第２の顔画像を得て、前記第１の顔画像と前記第２の顔画像により前記サンプル画像ペアを構成すること、または、
前記第１の顔画像の画質が劣化した場合、２枚の前記第１の顔画像により前記サンプル画像ペアを構成し、２枚のうちのいずれか一枚を前記第２の顔画像として決定することと、を含む、請求項１２に記載の人物画像修復方法。
前記した、前記第２の劣化画像に基づいて第３の劣化画像を得ることは、
前記第２の劣化画像の輝度チャンネルにノイズを加え、前記第２の劣化画像に対して非局所的平均ノイズ除去を行い、前記第３の劣化画像を得ること、または、
前記第２の劣化画像に対してぼかし操作を行い、第５の劣化画像を得て、
前記第５の劣化画像の輝度チャンネルにノイズを加え、前記第５の劣化画像に対して非局所的平均ノイズ除去を行い、前記第３の劣化画像を得ることを含む、請求項１４に記載の人物画像修復方法。
人物画像修復装置であって、
修復対象の顔画像を取得するための画像取得モジュールと、
前記修復対象の顔画像の輝度チャンネルを抽出し、前記輝度チャンネルに基づいて人物画像修復を行い、目標顔画像を得るための人物画像修復モジュールと、
前記目標顔画像及び前記修復対象の顔画像の色チャンネルを融合して、第１の顔修復画像を得るための画像融合モジュールと、
前記第１の顔修復画像に対して画像変換処理を行い、第２の顔修復画像を得るための画像調整モジュールと、を含む人物画像修復装置。
入力装置と出力装置を含む電子機器であって、
１つ以上の命令の実装に適するプロセッサと、
前記プロセッサによってロードされて請求項１～１５の何れか１項に記載の人物画像修復方法を実行させるための１つ以上の命令が記憶されたコンピュータ記憶媒体とをさらに含む電子機器。
プロセッサによってロードされて請求項１～１５の何れか１項に記載の人物画像修復方法を実行させるための１つ以上の命令が記憶されたコンピュータ記憶媒体。
コンピュータ読み取り可能なコードを含むコンピュータプログラム製品であって、
前記コンピュータ読み取り可能なコードが電子機器において動作すると、前記電子機器におけるプロセッサーは、請求項１～１５の何れか１項に記載の方法を実行させるコンピュータプログラム製品。