JP2023515654A

JP2023515654A - 画像最適化方法及びその装置、コンピュータ記憶媒体、コンピュータプログラム並びに電子機器

Info

Publication number: JP2023515654A
Application number: JP2022552468A
Authority: JP
Inventors: 宇▲軒▼ ▲嚴▼; 培程; ▲剛▼ ▲兪▼; 斌傅
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-28
Filing date: 2021-05-26
Publication date: 2023-04-13
Anticipated expiration: 2041-05-26
Also published as: CN111488865A; US20220261968A1; EP4050511A1; EP4050511A4; WO2022001509A1; JP7446457B2; CN111488865B

Abstract

本願は、人工知能の技術分野に関するものであり、画像最適化方法及びその装置、コンピュータ可読記憶媒体並びに電子機器を提供する。当該画像最適化方法は、最適化対象となる画像を取得するステップと、前記最適化対象となる画像に対して位置合わせ処理を実行して、最適化対象となる位置合わせ画像を取得するステップであって、最適化対象となる位置合わせ画像の目標領域における各オブジェクトの点は標準位置に分散される前記ステップと、前記最適化対象となる位置合わせ画像を生成ネットワークに入力し、前記生成ネットワークを介して前記最適化対象となる位置合わせ画像に対して特徴抽出を実行して、最適化画像を取得するステップと、を含み、ここで、前記生成ネットワークは、低品質画像ペア及び共同損失関数を使用して、訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練することによって取得されたものであり、低品質画像ペアは、目標画像及び前記目標画像に対応する低品質画像を含む。この技術的解決策は、画像最適化効率を向上させ、画像のノイズを除去し、画像の細部を生成して、鮮明な最適化画像を取得することができる。

Description

［関連出願への相互参照］
本願は、２０２０年６月２８日に中国特許庁に提出された、出願番号が２０２０１０５９５６１８．２であり、発明の名称が「画像最適化方法及びその装置、コンピュータ記憶媒体並びに電子機器」である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照により本願に援用される。

本願は、人工知能の技術分野に関し、具体的には、画像最適化技術に関するものである。

画像化、伝送、取得の過程で、画像は必然的に外部からの干渉や伝送機器の不完全性による影響を受け、そのため、画像に多くのノイズが生じ、元の細部が失われてぼやけてしまう。画像の元の細部を復元するために、画像に対して最適化処理を実行する必要がある。

現時点では、通常、１つ又は複数の画像フィルタリング方法を使用して画像のノイズやぼけを補正する第１の方法と、ニューラルネットワークを介して最適化を実行する第２の方法と、ニューラルネットワークを介して、画像の超解像を実行することで画像を最適化する第３の方法との３つの方法を使用して画像に対して最適化処理を実行するか、上記の３つの方法には、ノイズ除去効果が低く、鮮鋭化効果が低く、又は元の画像に適合しない細部を画像に追加するという問題があり、その結果、ユーザ体験が低下する。

留意されたいこととして、上記の背景技術に記載の情報は、本願の背景に対する理解を深めるためにのみ使用される。

本願は、画像最適化方法及びその装置、コンピュータ記憶媒体並びに電子機器を提供し、これによって、画像を少なくともある程度最適化し、画像品質を向上させ、更に、ユーザ体験を向上させる。

本願の他の特徴及び利点は、以下の説明によって明確になり、あるいは本願の実践によって部分的に学習される。

本願の１つの態様によれば、画像最適化方法を提供し、前記画像最適化方法は、最適化対象となる画像を取得するステップと、前記最適化対象となる画像に対して位置合わせ処理を実行して、最適化対象となる位置合わせ画像を取得するステップであって、最適化対象となる位置合わせ画像の目標領域における各オブジェクトの点は標準位置に分散される、ステップと、前記最適化対象となる位置合わせ画像を生成ネットワークに入力し、前記生成ネットワークを介して前記最適化対象となる位置合わせ画像に対して特徴抽出を実行して、最適化画像を取得するステップと、を含み、ここで、前記生成ネットワークは、低品質画像ペア及び共同損失関数に基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練することによって取得されたものであり、低品質画像ペアは、目標画像及び前記目標画像に対応する低品質画像を含む。

本願の１つの態様によれば、画像最適化装置を提供し、前記装置は、最適化対象となる画像を取得するように構成される取得モジュールと、前記最適化対象となる画像に対して位置合わせ処理を実行して、最適化対象となる位置合わせ画像を取得するように構成される位置合わせモジュールであって、最適化対象となる位置合わせ画像の目標領域における各オブジェクトの点は標準位置に分散される位置合わせモジュールと、前記最適化対象となる位置合わせ画像を生成ネットワークに入力し、前記生成ネットワークを介して前記最適化対象となる位置合わせ画像に対して特徴抽出を実行して、最適化画像を取得するように構成される最適化モジュールと、を備え、ここで、前記生成ネットワークは、低品質画像ペア及び共同損失関数に基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練することによって取得されたものであり、前記低品質画像ペアは、目標画像及び前記目標画像に対応する低品質画像を含む。

本願の１つの態様によれば、コンピュータプログラムが記憶されているコンピュータ記憶媒体を提供し、前記コンピュータプログラムがプロセッサに、上記の第１態様に記載の画像最適化方法を実行させる。

本願の１つの態様によれば、画像最適化用の電子機器を提供し、前記電子機器は、プロセッサと、前記プロセッサの実行可能な命令を記憶するように構成されるメモリと、を備え、ここで、前記プロセッサは、前記実行可能な命令を実行することにより、上記の第１態様に記載の画像最適化方法を実行するように構成される。

本願の１つの態様によれば、上記の第１態様に記載の画像最適化方法を実行するように構成されるコンピュータプログラム製品を提供する。

本願実施例の技術的解決策が適用可能な例示的なシステムアーキテクチャの概略図である。本願の１つの例示的な実施例における画像最適化方法の例示的なフローチャートである。本願の１つの実施例に係る、最適化対象となる位置合わせ画像を取得することを示す例示的なフローチャートである。本願の１つの実施例に係る、顔画像に対して位置合わせ処理を実行するインターフェイスの概略図である。本願の１つの実施例に係る、顔画像に対して位置合わせ処理を実行するインターフェイスの概略図である。本願の１つの実施例に係る、顔画像に対して位置合わせ処理を実行するインターフェイスの概略図である。本願の１つの実施例に係る、敵対的生成深層ニューラルネットワークモデルを訓練することを示す例示的なフローチャートである。本願の１つの実施例に係る、複数の低品質画像ペアを取得することを示す例示的なフローチャートである。本願の１つの実施例に係る、訓練対象となる敵対的生成深層ニューラルネットワークモデルの構造概略図である。本願の１つの実施例に係る、生成ネットワークの構造概略図である。本願の１つの実施例に係る、後処理ネットワークの構造概略図である。本願の１つの実施例に係る、顔画像ペアに基づいて訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練するプロセスの概略図である。本願の１つの実施例に係る、訓練後の生成ネットワークを使用して顔画像を最適化する３つのグループのインターフェイスの概略図である。本願の１つの実施例に係る、訓練後の生成ネットワークを使用して顔画像を最適化する３つのセットのインターフェイスの概略図である。本願の１つの実施例に係る、訓練後の生成ネットワークを使用して顔画像を最適化する３つのセットのインターフェイスの概略図である。本願の１つの実施例に係る、訓練後の生成ネットワークを使用して顔画像を最適化する３つのセットのインターフェイスの概略図である。本願の１つの実施例に係る、訓練後の生成ネットワークを使用して顔画像を最適化する３つのセットのインターフェイスの概略図である。本願の１つの実施例に係る、訓練後の生成ネットワークを使用して顔画像を最適化する３つのセットのインターフェイスの概略図である。本願の１つの実施例に係る、画像最適化装置の構造概略図である。本願の１つの実施例に係る、低品質画像を最適化するインターフェイスの概略図である。本願の１つの実施例に係る、低品質画像を最適化するインターフェイスの概略図である。本願の１つの実施例に係る、低品質画像を最適化するインターフェイスの概略図である。本願の１つの実施例に係る、低品質画像を最適化するインターフェイスの概略図である。本願の１つの実施例に係る、電子機器の構造概略図である。

ここでの図面は、本明細書に組み込まれ、本明細書の一部を構成し、これらの図面は、本願に準拠する実施例を示し、本明細書とともに本願の原理を説明するために使用される。明らかに、以上の図面は、本願のいくつかの実施例に過ぎず、当業者は創造的な努力なしに、これらの図面に基づいて他の図面を取得することができる。

図１は、本願実施例の技術的解決策が適用可能な例示的なシステムアーキテクチャの概略図を示す。

図１に示されるように、システムアーキテクチャ１００は、モバイル端末１０１、情報伝送端末１０２、ネットワーク１０３及びサーバ１０４を含み得る。ここで、上記のモバイル端末１０１は、カメラ及び表示画面を備えた端末機器（例えば、携帯電話、携帯式コンピュータ、タブレットコンピュータなど）であり得る。情報伝送端末１０２は、インテリジェント端末（例えば、様々なオペレーティングシステムを備えたインテリジェント電子機器など）であり得る。ネットワーク１０３は、モバイル端末１０１とサーバ１０４との間、及び情報伝送端末１０２とサーバ１０４との間の通信リンクを提供するための媒体として使用される。ネットワーク１０３は、様々な接続タイプ（例えば、有線通信リンク、無線通信リンクなど）を含み得、本願実施例では、モバイル端末１０１と情報伝送端末１０２との間のネットワーク１０３は、無線ネットワークを介して通信リンクを提供することができ、モバイル端末１０１とサーバ１０４との間のネットワーク１０３、及び情報伝送端末１０２とサーバ１０４との間のネットワーク１０３は、無線通信リンクであってもよく、具体的には、モバイルネットワークであってもよい。

理解されたいこととして、図１の端末（例えば、モバイル端末１０１、情報伝送端末１０２）、ネットワーク及びサーバの数は、例示的なものに過ぎない。実際のニーズに応じて、任意の数の端末、ネットワーク及びサーバを含み得る。例えば、サーバ１０４は、画像最適化処理に関連する情報を記憶するための、複数のサーバで構成されたサーバクラスタなどであってもよい。

本願の１つの実施例において、モバイル端末１０１は、最適化対象となる画像を取得した後、最適化対象となる画像をサーバ１０４に送信し、サーバ１０４は、最適化対象となる画像に対して位置合わせ処理を実行して、上記の最適化対象となる画像に対応する最適化対象となる位置合わせ画像を取得する。サーバ１０４は、前記最適化対象となる位置合わせ画像を生成ネットワークに入力し、生成ネットワークを介して、最適化対象となる位置合わせ画像に対して特徴抽出を実行して、最適化画像を取得し、最適化画像をモバイル端末１０１に返す。ここで、生成ネットワークは、低品質画像ペア及び共同損失関数（ＪｏｉｎｔＬｏｓｓＦｕｎｃｔｉｏｎ）に基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練することによって取得されたものであり、低品質画像ペアは、目標画像、及び目標画像に対応する低品質画像を含む。

本願の１つの実施例において、モバイル端末１０１は、最適化対象となる画像を取得した後、最適化対象となる画像を情報伝送端末１０２に送信し、情報伝送端末１０２は、最適化対象となる画像に対して位置合わせ処理を実行して、上記の最適化対象となる画像に対応する最適化対象となる位置合わせ画像を取得した後、当該最適化対象となる位置合わせ画像をサーバ１０４に送信する。サーバ１０４は、前記最適化対象となる位置合わせ画像を生成ネットワークに入力し、生成ネットワークを介して、最適化対象となる位置合わせ画像に対して特徴抽出を実行して、最適化画像を取得し、最適化画像を情報伝送端末１０２に返し、情報伝送端末１０２は、最適化画像をモバイル端末１０１に返す。ここで、生成ネットワークは、低品質画像ペア及び共同損失関数に基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練することによって取得されたものであり、低品質画像ペアは、目標画像、及び目標画像に対応する低品質画像を含む。

本願の１つの実施例において、モバイル端末１０１は、最適化対象となる画像を取得した後、最適化対象となる画像に対して位置合わせ処理を実行して、上記の最適化対象となる画像に対応する最適化対象となる位置合わせ画像を取得し、その後、最適化対象となる位置合わせ画像をサーバ１０４に送信する。サーバ１０４は、前記最適化対象となる位置合わせ画像を生成ネットワークに入力し、生成ネットワークを介して、最適化対象となる位置合わせ画像に対して特徴抽出を実行して、最適化画像を取得し、最適化画像をモバイル端末１０１に返す。ここで、生成ネットワークは、低品質画像ペア及び共同損失関数に基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練することによって取得されたものであり、低品質画像ペアは、目標画像、及び目標画像に対応する低品質画像を含む。

留意されたいこととして、本願実施例で提供された画像最適化方法は、一般にサーバ１０４によって実行され、これに対応して、画像最適化装置は、一般に、サーバ１０４に設置される。しかしながら、本願の他の実施例では、端末は、本願実施例で提供された画像最適化方法を実行するために、サーバと同様の機能を有してもよい。

当技術分野の関連技術では、低品質画像に対して最適化処理を実行する場合、通常、３つの最適化方法を使用し、第１の方法は、画像処理方式を使用して画像のぼやけを除去することであり、そのためには、１つ又は複数の画像フィルタリング方法を使用して画像のノイズ及びぼやけを補正する必要がある。第２の方法は、ニューラルネットワークを介して画像を鮮鋭化することである。第３の方法は、ニューラルネットワークを使用して画像の超解像化を実行することで画像を鮮鋭化することである。

上記の３つの方法は、それぞれ対応する一定の欠陥がある。第１の方法は、ニューラルネットワーク処理と比較すると、それほど全面的ではなく、現実のノイズとぼけ分布に完全に適合できないため、良好なノイズ除去効果をもたらすことができない。第２の方法は、主に、一般的なシーンの画像鮮鋭化方法に焦点を当てており、低品質画像で使用される方法は一貫性はなく、低品質画像のプロセスで使用される組み合わせが十分に豊富でない場合、ニューラルネットワークは、実際のボケ画像の分布にうまく適合できなく、そのため、生成された画像の鮮鋭度が低く、更に、異なるサイズの画像の場合、正規化処理が実行されないため、関連画像を処理するときに、処理対象領域のサイズが異なるため結果が良くない。第３の方法において、画像の鮮鋭化とともに、いくつかの原画像に適合しない細部（ノイズから変換された鮮鋭な細部など）を画像に含ませ、また、当該方法は、主に、何れの画像の超解像に焦点を当てており、画像の特定の特徴を個別に処理しない。

本願で提供される技術的解決策によれば、敵対的生成深層ニューラルネットワークモデルの訓練すに基づいて画像最適化モデルを決定し、画像最適化モデルを介して、処理対象となる画像を最適化する。本願で提供される技術的解決策によれば、低品質画像に対してノイズ除去、鮮鋭化、細部生成などの処理を実行することで、低品質画像が原画像の特徴を保持するようにするとともに、より鮮鋭な画像を取得でき、これにより、画像品質を向上させ、ユーザ体験を向上させることができる。同時に、本願の技術的解決策に基づく画像処理のコストが低く、適用範囲が広い。

ここで、敵対的生成深層ニューラルネットワークモデルは、ニューラルネットワークモデルのタイプの一つであり、従来のニューラルネットワークモデルと比較すると、その主な特徴は、生成ネットワーク構造に加えて、１つの判別ネットワーク構造を持っていることである。ここで、生成ネットワークは画像を生成するために使用され、判別ネットワークは、画像（目標画像及び生成画像を含む）の真偽を判断するために使用される。敵対的生成深層ニューラルネットワークモデルを訓練するプロセスでは、生成画像と目標画像の差、及び判別ネットワークにより画像を判断する誤差を計算することによって反復訓練を行う。したがって、生成ネットワークと判別ネットワークの敵対的訓練プロセスにより、生成ネットワークのネットワークパラメータを最適化し、これにより、生成画像を目標要件に近づけることができる。これにより、敵対的生成深層ニューラルネットワークモデルは、その生成ネットワークと判別ネットワークが互いに敵対的であるという特徴により、高品質の画像を生成することができる。

本願実施例で提供される画像最適化方法は、敵対的生成深層ニューラルネットワークモデルに基づいて実現され、人工知能の技術分野に関するものである。人工知能（ＡＩ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）は、デジタルコンピュータ、又はデジタルコンピュータによって制御される機械を使用して、人の知能をシミュレート、支援及び拡張し、環境を認識し、知識を取得し、知識を使用して最良の結果を得る理論、方法、技術及びアプリケーションシステムである。言い換えれば、人工知能は、コンピュータ科学の総合技術であり、人工知能は、知能の本質を理解し、人間の知能と同様に反応できる新しいインテリジェント機械を生成することを目的とする。人工知能は、インテリジェント機械の設計原理及び実現方法を研究することで、机器が知覚、推論及び意思決定の機能を持つようにすることである。

本願実施例で提供される技術的解決策は、人工知能の画像処理技術及び画像認識技術に関するものであり、具体的には、以下の実施例を参照して説明する。

本願実施例は、関連技術に存在する欠陥を少なくともある程度改善する画像最適化方法を提供する。本実施例で提供される画像最適化方法の実行主体は、計算処理機能を備えた機器（例えば、サーバ、端末機器）であってもよく、当該方法は、サーバ及び端末機器によって共同で実行されてもよく、ここで、端末機器とサーバは、それぞれ、図１に示されるモバイル端末１０１とサーバ１０４であってもよい。本願の画像最適化方法は、任意の低品質画像に対して最適化処理を実行するために使用されることができ、例えば、画像の細部を復元及び改善するために、顔画像や動物画像や固定構造を有する建物画像などの低品質画像を処理することができる。以下では、サーバを実行主体とし、低品質画像が顔画像であることを例として、本願実施例に係る画像最適化方法を詳細に説明する。

図２は、本願の１つの例示的な実施例における画像最適化方法の例示的なフローチャートを示す。図２を参照すると、当該実施例に係る画像最適化方法は、具体的には、次のステップを含む。

ステップＳ２１０において、最適化対象となる画像を取得する。

最適化対象となる画像は、低品質画像であり、低品質とは、主に、画像の鮮鋭度が低く、ノイズが多いことを意味する。本願の１つの実施例では、低品質画像が顔画像であり、当該最適化対象となる画像が低品質の顔画像であることを例として説明する。当該低品質の顔画像は、ユーザがカメラ及び画像化ユニットを備えた端末機器を使用して目標人物の顔や顔を含む部位を撮影することにより取得された画像であってもよく、画像から人物の五官を取得することができる限り、当該画像内の顔は任意の角度で呈されてもよい。当該最適化対象となる画像は、ユーザがネットワークを介してダウンロードされた顔を含む画像であってもよい。

ステップＳ２２０において、前記最適化対象となる画像に対して位置合わせ処理を実行して、最適化対象となる位置合わせ画像を取得する。

最適化対象となる画像を最適化する前に、最適化対象となる画像の目標領域内の各オブジェクトの点が標準位置に分散されるように、最適化対象となる画像を修正する必要がある。

本願の１つの実施例において、依然として、最適化対象となる画像が低品質の顔画像であることを例にとると、最適化対象となる画像を最適化する前に、画像内の顔が標準の顔正面位置（すなわち、標準位置）にあるように、最適化対象となる画像内の顔の角度を修正する必要がある。

１つの可能な実施形態において、１つの標準位置テンプレートを使用して顔画像を修正することができ、当該標準位置テンプレートは、特定領域における各オブジェクトの点分布であり、具体的には、顔画像の標準位置テンプレートは、顔領域における五官（すなわち、オブジェクト）の点分布である。例えば、大量の顔データに基づき、標準の顔正面位置にあるときの五官の点座標を統計して、５点座標テンプレート（すなわち、標準位置テンプレート）を形成することができ、ここで、５点は、左右の目を標識した２つの点、鼻の先端を標識した点、口の左右の角を標識した２つの点を含む。各点の座標を計算するときに、同じ部位に対応するすべての座標情報の平均値を５点座標テンプレートにおける当該部位に対応する点座標として使用することができ、例えば、すべての顔データから、左目に対応する座標情報を取得した後、すべての左目の座標情報を加算して平均して、標準位置テンプレートにおける左目の点座標を取得することができる。

本願の１つの実施例において、標準位置テンプレートを決定した後、当該標準位置テンプレートに基づいて、最適化対象となる画像に対して位置合わせ処理を実行することができ、すなわち、最適化対象となる画像内の顔を標準の顔正面位置に修正することができる。図３は、最適化対象となる位置合わせ画像を取得することを示す例示的なフローチャートを示し、図３に示されるように、最適化対象となる位置合わせ画像を取得するプロセスは、ステップＳ３０１～ステップＳ３０３を含む。

ステップＳ３０１において、最適化対象となる画像内の目標領域を検出し、当該目標領域と特定領域のタイプは同じである。

本願の１つの実施例では、標準位置テンプレートに基づいて、最適化対象となる画像に対して位置合わせ処理を実行する必要があるため、最適化対象となる画像内の、標準位置テンプレートに対応する特定領域と同じタイプの目標領域を決定する必要があり、つまり、特定領域と目標領域に対応するオブジェクトは同じであり、例えば、両方とも、人の顔領域や動物の顔領域などである。例えば、標準位置テンプレートが顔領域に対応するテンプレートである場合、最適化対象となる画像から顔領域を抽出した後、標準位置テンプレートに基づいて、抽出された顔領域対して位置合わせ処理を実行する必要がある。実際の画像処理プロセスでは、最適化対象となる画像は、顔領域に加えて、人体の他の部位も含む場合がある。例えば、半身の写真には、顔領域に加えて、頸部及び上半身を含み、顔領域を最適化するためには、最適化対象となる画像内の顔領域を認識してから、認識された顔領域を最適化する必要がある。最適化対象となる画像内の顔領域を認識する場合、顔認識用のモデルを使用して認識し、五官を認識することにより顔領域を決定することができる。最適化対象となる画像内の顔領域を位置合わせする必要があるため、使用される標準位置テンプレートは、顔領域に対応するテンプレートである。

ステップＳ３０２において、目標領域の画像データと標準位置テンプレートとの間の変換行列を決定する。

本願の１つの実施例において、最適化対象となる画像内の顔領域を標準位置テンプレートに位置合わせする場合、顔領域に対応する画像データ及び標準位置テンプレートに対応するデータに基づいて、両者間の変換行列を決定することができ、変換行列に基づいて、最適化対象となる画像内の顔領域を、標準位置テンプレート内の５点座標に位置合わせされる顔領域に修正することができる。

ステップＳ３０３において、変換行列に基づいて目標領域に対応する画像に対して変換操作を実行して、最適化対象となる位置合わせ画像を取得する。

本願の１つの実施例において、変換行列を取得した後、変換行列に基づいて、最適化対象となる画像に対して平行移動、回転、スケーリングなどの操作を実行することにより、最適化対象となる画像を、標準の顔正面位置と一致する形状に正規化して、最適化対象となる位置合わせ画像を取得することができる。更に、顔の位置合わせ処理を逆に実行することもでき、すなわち、位置合わせ後の顔は、変換行列の逆操作によって元の撮影された顔状態に復元できる。

図４Ａ、図４Ｂ、図４Ｃは、顔画像に対して位置合わせ処理を実行するインターフェイスの概略図を示し、図４Ａは、最適化対象となる画像であり、当該最適化対象となる画像は低品質の顔画像であり、当該最適化対象となる画像内の顔領域は、斜めになっており、標準の顔正面位置ではない。図４Ｂは、標準位置テンプレート、すなわち、顔画像に対応する５点座標であり、図４Ｂに示される標準位置テンプレートに基づいて、図４Ａに示される最適化対象となる顔画像に対して位置合わせ処理を実行した後、図４Ｃに示される、最適化対象となる顔位置合わせ画像を得ることができ、当該最適化対象となる顔位置合わせ画像内の顔領域は、標準の顔正面位置に準拠している。

ステップＳ２３０において、前記最適化対象となる位置合わせ画像を生成ネットワークに入力し、前記生成ネットワークを介して前記最適化対象となる位置合わせ画像に対して特徴抽出を実行して、最適化画像を取得し、ここで、前記生成ネットワークは、低品質画像ペア及び共同損失関数に基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練することによって取得されたものであり、前記低品質画像ペアは、目標画像及び前記目標画像に対応する低品質画像を含む。

本願の１つの実施例において、最適化対象となる位置合わせ画像を取得した後、最適化対象となる位置合わせ画像を生成ネットワークに入力し、生成ネットワークを介して、最適化対象となる位置合わせ画像に対して特徴抽出を実行して、最適化画像を取得することができ、当該最適化画像は、最適化対象となる画像に対してノイズ除去及び鮮鋭化を実行することによって、顔の細部を生成した後の画像である。

本願の１つの実施例において、生成ネットワークは、敵対的生成深層ニューラルネットワークモデルの一部であり、入力された最適化対象となる位置合わせ画像に基づいて、それに対応する最適化画像を生成することができる。安定的な生成ネットワークを得るには、生成ネットワークを使用して最適化画像を生成する前に、訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練する必要がある。

本願の１つの実施例において、図５は、敵対的生成深層ニューラルネットワークモデルを訓練することを示す例示的なフローチャートであり、図５に示されるように、敵対的生成深層ニューラルネットワークモデルを訓練する訓練プロセスは、具体的には、ステップＳ５０１～ステップＳ５０４を含む。

ステップＳ５０１において、複数の低品質画像ペアを取得する。

本願の１つの実施例において、低品質画像ペアは、訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練するための訓練サンプルとして使用でき、ここで、低品質画像は入力サンプルとして使用され、低品質画像に対応する目標画像は、生成ネットワークのパフォーマンスが安定であるかどうかを判断するための検証サンプルである。つまり、各低品質画像ペアの低品質画像は、最適化対象となる画像であり、目標画像は、所望の最適化後の画像である。

本願の１つの実施例において、図６は、複数の低品質画像ペアを取得することを示す例示的なフローチャートを示し、図６に示されるように、当該プロセスは、具体的には、ステップＳ６０１～ステップＳ６０４を含む。

ステップＳ６０１において、複数の目標画像を取得する。

ステップＳ６０２において、複数の目標画像に対して位置合わせ処理をそれぞれ実行して、複数の位置合わせ画像を取得する。

本願の１つの実施例において、大量の鮮鋭な画像を目標画像として事前に取得することができ、その数は、実際の必要に応じて決定でき、数が多いほど、モデルのパフォーマンスが高くなり、例えば、顔を含む１万、２万などの数の鮮鋭画像を目標画像として収集することができる。目標画像を取得した後、各目標画像内の顔領域に対して位置合わせ処理を実行して、位置合わせ画像を取得することができる。位置合わせするときに、標準位置テンプレートに基づいて、目標画像内の顔領域に対して位置合わせ処理を実行することができ、例えば、目標画像内の顔領域を検出した後、顔領域内の五官の点座標を抽出し、最後に、抽出された五官の点座標及び標準位置テンプレートの五官の点座標に基づいて位置合わせすることにより、複数の位置合わせ画像を取得する。

ステップＳ６０３において、複数の位置合わせ画像に対して低品質化処理をそれぞれ実行して、目標画像のそれぞれに対応する低品質画像を取得する。

ステップＳ６０４において、目標画像、及び目標画像に対応する低品質画像に基づいて、低品質画像ペアを形成する。

本願の１つの実施例において、各位置合わせ画像に対して低品質化処理を実行することにより、低品質画像を形成することができる。低品質化処理は、例えば、ノイズ追加処理及び／又はぼかし処理を含み、ここで、ノイズ追加処理は、ガウスノイズ、ポアソンノイズ、ごま塩ノイズ（ｓａｌｔ－ａｎｄ－ｐｅｐｐｅｒｎｏｉｓｅ）のうちの１つ又は複数のノイズを追加することを含み、ぼかし処理は、平均フィルタリング、ガウスフィルタリング、メディアンフィルタリング、バイラテラルフィルタリング、及び低解像度化のうちの１つ又は複数を含む。もちろん、本願実施例で追加されるノイズのタイプやぼかし処理方式は上記のタイプに限定されず、他のタイプのノイズ及び／又はぼかし処理方式も含み得、本願はこれに対して詳細に説明しない。

以下、各タイプのノイズ及びぼかし処理方法について簡単に紹介する。

ガウスノイズの確率密度は、ガウス分布に従い、ガウス分布の式は、式１に示されるとおりである。

ここで、μは、分布の平均値を表し、σは、分布の標準偏差を表し、σ^２は、分布の分散を表す。本願実施例において、μ及びσはランダムに決定でき、パラメータを決定した後、当該確率分布に基づいて画像内の各画素のカラー値にノイズを追加し、最後に、画素のカラー値を［０，２５５］にスケジューリングすることにより、ガウスノイズの追加を実現する。

ポアソンノイズの確率密度は、アソン分布に従い、アソン分布の式は、式２に示されるとおりである。

ここで、パラメータλは、ランダムに決定できる。パラメータを決定した後、ポアソンノイズの確率分布に基づいて画像内の各画素のカラー値を処理して、ポアソンノイズを追加することができる。

ごま塩ノイズは、画像に白黒の画素点をランダムに追加することであり、白黒の画素の数は、信号対雑音比によって制御でき、信号対雑音比はランダムに決定することができる。信号対雑音比を指定した後、信号対雑音比に基づいて画素の総数を決定し、その後、画素の総数に対応する画像領域から、ノイズを追加する画素の位置をランダムに取得し、当該位置の画素値を２５５又は０に設定し、最後に、当該画像領域内の他の画素に対して上記のステップを繰り返して実行することで、画像へのごま塩ノイズの追加を遂行することができる。

平均フィルタリングは、目標画素とその周辺画素の平均値を得て、それを目標画素に填めることであり、その式は、式３に示されるとおりである。

ここで、Ｍは、係数テンプレートのサイズを表し、ｆ（ｘ，ｙ）は、画像内の目標画素及びＭに対応する周辺画素の画素値を表し、ｓは、画像内の全ての画素を表し、ｇ（ｘ，ｙ）は、目標画素に対して平均フィルタリングを実行した後の画素値を表す。例えば、係数テンプレートのサイズが３×３である場合、Ｍ＝９であり、そのため、目標画素とその周辺の８つの画素の画素値の平均値を得て、当該平均値を目標画素に填めることで、画像のぼかし処理を実現することができる。

ガウスフィルタリングは、正規分布を使用して画像内の各画素の変換を計算し、その式は、式４に示されるとおりである。

ここで、ｕ^２＋ｖ^２は、ぼかし半径を表し、そのサイズは、ランダムに決定することができる。ぼかし半径及び分散を決定した後、当該正規分布に基づいて、画像内の各画素のカラー値を変換することで、画像のぼかし処理を実現することができる。

メディアンフィルタリングは、各画素点の画素値をその点の隣接ウィンドウ内のすべての画素点の画素値の中間値に設定することであり、隣接ウィンドウのカーネルサイズはランダムに決定することができる。

バイラテラルフィルタリングは、空間位置（空間ドメイン（ｓｐａｔｉａｌｄｏｍａｉｎ）カーネル）の違いを考慮するだけでなく、画素値（範囲ドメイン（ｒａｎｇｅｄｏｍａｉｎ）カーネル）の違いも考慮するエッジ保存フィルタリング方法であり、ここで、空間位置のカーネルサイズ（すなわち、ガウスフィルタリングの半径）及び範囲ドメインカーネルのサイズは両方ともランダムに決定することができる。

低解像度化は、解像度をランダムに下げてから、元の解像度にアップサンプリングして戻すことで画像品質を下げることである。本願実施例では、低解像度化の程度は、ランダムに決定することができる。

本願の１つの実施例では、以上の方法のランダム組み合わせに基づいて、目標画像を決定する（例えば、顔画像を低品質化する方法の組み合わせなど）ことにより、実際の低品質の画像をシミュレートすることができる。上記の組み合わせは、ランダム組み合わせであり、各組み合わせに関連する低品質化方法にはランダムな変数があるため、各目標画像の処理後の効果も異なり、目標画像、及び目標画像の低品質化処理後の低品質画像で形成された低品質画像ペアに基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練し、これにより、様々な低品質画像に対するモデルの処理精度を向上させることができる。

ステップＳ５０２において、各低品質画像ペアをそれぞれ目標画像ペアとして使用し、目標画像ペアの低品質画像を、訓練対象となる敵対的生成深層ニューラルネットワークモデルの生成ネットワークに入力して、生成画像を取得する。

ステップＳ５０３において、生成画像及び目標画像ペアの目標画像を、訓練対象となる敵対的生成深層ニューラルネットワークモデルの後処理ネットワークに入力し、後処理ネットワークを介して、生成画像及び目標画像ペアの目標画像を処理して共同損失関数を構築する。

ステップＳ５０４において、共同損失関数に基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルのパラメータを最適化して、生成ネットワークを取得する。

例示的な実施例において、訓練対象となる敵対的生成深層ニューラルネットワークモデルの訓練プロセスを紹介する前に、本実施例で使用される訓練対象となる敵対的生成深層ニューラルネットワークモデルのネットワーク構造を説明する。図７は、訓練対象となる敵対的生成深層ニューラルネットワークモデルの構造概略図を示し、図７に示されるように、訓練対象となる敵対的生成深層ニューラルネットワークモデル７００は、生成ネットワーク７０１及び後処理ネットワーク７０２を含み、ここで、生成ネットワーク７０１は、入力された低品質画像を処理して、生成画像を出力するために使用され、後処理ネットワーク７０２は、生成ネットワーク７０１によって出力された生成画像、及び目標画像に基づいて、共同損失関数を構築し、共同損失関数に基づいてモデルのパラメータを最適化するために使用される。

図８は、生成ネットワークの構造概略図を示し、図８に示されるように、当該実施例で提供される生成ネットワーク８００は、ダウンサンプリング層８０１、残差ネットワーク層８０２及びアップサンプリング層８０３を含む。ここで、残差ネットワーク層８０２の数は、複数（例えば、４つ、５つなど）に設定することができる。本願実施例において、ダウンサンプリング層８０１は、異なるサイズの複数の畳み込み層を含み得、アップサンプリング層８０３も、異なるサイズの複数の畳み込み層を含み得る。ダウンサンプリングプロセスにおける畳み込み操作は、画像の深層特徴を抽出するために使用できるが、入力画像と比較すると、複数回の畳み込み操作によって得られた特徴マップのサイズは小さくなり続け、情報が失われる。したがって、情報の損失を減らすために、残差ネットワーク層で特徴抽出を実行した後、アップサンプリングにより特徴マップのサイズを入力画像のサイズに復元することができ、これにより、ネットワーク伝送プロセスにおける元の情報の損失を減らし、これにより、ネットワークの後半の出力プロセスにおける構造の不一致やセマンティックの不一致を改善し、最終的に、最適化処理後の画像品質を向上させることができる。本願実施例において、ダウンサンプリング層８０１及びアップサンプリング層８０３に含まれる畳み込み層の数及びサイズは、実際の必要に応じて設定することができ、例えば、ダウンサンプリング層８０１が前から後ろに順次に５１２×５１２及び２５６×２５６のサイズの２つの畳み込み層を含む場合、アップサンプリング層８０３は、前から後ろに順次に２５６×２５６及び５１２×５１２のサイズの２つの畳み込み層を含み得る。

図９は、後処理ネットワークの構造概略図を示し、図９に示されるように、後処理ネットワーク９００は、判別ネットワーク９０１、分類ネットワーク９０２及び分割ネットワーク９０３を含み、ここで、判別ネットワーク９０１は、目標画像及び生成画像に対して特徴抽出を実行し、目標画像及び生成画像の信頼度を判断するための複数の畳み込み層を含み得る。分類ネットワーク９０２は、具体的には、目標画像及び生成画像に対して特徴抽出を実行して、対応する分類結果を取得するために使用されるＶＧＧなどの分類用のネットワークであってもよく、分類ネットワーク９０２を使用することにより、画像深層セマンティックの一貫性を保証することができる。分割ネットワーク９０３は、一般的に使用される分割ネットワークであってもよく、当該ネットワークは、目標画像を分割し、目標画像内の各オブジェクトの位置情報に基づいて、目標画像及び生成画像における同じオブジェクトの位置情報に対応する画像情報を決定するために使用され、例えば、顔画像を分割して、顔画像内の五官の位置情報を取得し、五官の位置情報に基づいて、目標画像及び生成画像における五官の位置情報に対応する画像情報を決定するために使用され、分割ネットワーク９０３を使用することにより画像自体の画素の一貫性を保証することができる。判別ネットワーク９０１、分類ネットワーク９０２及び分割ネットワーク９０３の相互作用により、生成画像を目標画像に近づけ、これによって、生成ネットワークのパフォーマンスを向上させることができる。

本願の１つの実施例において、目標画像及び生成画像の処理結果に基づいて共同損失関数を構築し、当該共同損失関数に基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルに対して逆方向のパラメータ調整を実行することができ、複数回の反復訓練により、損失関数が収束する、安定したパフォーマンスを有する敵対的生成深層ニューラルネットワークモデルを取得することができ、低品質の最適化対象となる画像に対して最適化処理を実行するための生成ネットワークを取得することができる。

本願の１つの実施例において、共同損失関数を構築する場合、判別ネットワーク、分類ネットワーク及び分割ネットワークを介して１つの損失関数を構築することができ、具体的には、生成画像及び目標画像ペアの目標画像を判別ネットワークに入力し、第１判別結果及び第２判別結果を取得し、第１判別結果及び第２判別結果に基づいて第１損失関数を構築することができ、生成画像及び目標画像ペアの目標画像を分類ネットワークに入力し、第１画像情報及び第２画像情報を取得し、第１画像情報及び第２画像情報に基づいて第２損失関数を構築し、生成画像及び目標画像ペアの目標画像を分割ネットワークに入力し、第１局所画像情報及び第２局所画像情報を取得し、第１局所画像情報及び第２局所画像情報に基づいて第３損失関数を構築し、最後に、第１損失関数、第２損失関数及び第３損失関数に基づいて共同損失関数を構築する。

本願の１つの実施例において、生成ネットワークＧを使用して低品質画像（入力画像）に対して最適化処理を実行し、最適化処理後の画像を生成画像として使用する。判別ネットワークＤは、上記の生成画像、及び上記の低品質画像（入力画像）に対応する目標画像を受信し、１つの画像（目標画像及び生成画像を含む）の真偽を判別する。また、判別ネットワークＤの訓練目標は、目標画像が真であると判別し、生成画像が偽であると判別することをである。生成ネットワークＧの訓練目標は、低品質画像（入力画像）に対して最適化処理を実行して、判別ネットワークによる判別結果が真である生成画像を取得することであり、つまり、生成画像を目標画像に近づけることで、偽物と本物が区別しにくくなるという効果をもたらし、したがって、第１損失関数は、判別器損失関数及び生成器損失関数を含む。

本願の１つの実施例において、判別ネットワークＤは、生成画像に基づいて第１判別結果Ｄ（Ｇ（ｚ^ｉ））を生成し、同時に、目標画像に基づいて第１判別結果Ｄ（ｘ^ｉ）を生成し、ここで、ｚ^ｉは、生成ネットワークに入力された低品質画像のデータであり、Ｇ（ｚ^ｉ）は、生成ネットワークにより低品質画像を最適化処理した後に出力された生成画像のデータであり、ｘ^ｉは、低品質画像に対応する目標画像のデータであり、Ｄ（Ｇ（ｚ^ｉ））及びＤ（ｘ^ｉ）は、判別ネットワークによって出力された生成画像又は目標画像の二項分類の信頼度である。これにより、判別器損失関数ＬｏｓｓＤ及び生成器損失関数ＬｏｓｓＧは、それぞれ式５及び式６に示される式として定義することができる。

ここで、ｘ^ｉは、低品質画像に対応する目標画像のデータであり、ｚ^ｉは、生成ネットワークに入力された低品質画像のデータであり、ｉは、任意の低品質画像ペアであり、ｍは、低品質画像ペアの総数である。

第１損失関数に基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルのパラメータを最適化するときに、先ず、生成ネットワークのパラメータを変更せずに固定し、判別ネットワークの判別精度が所定の閾値に達するように、式５に基づいて判別ネットワークのパラメータを最適化することができる。その後、判別ネットワークの最適化後のパラメータは変更せずに固定し、生成ネットワークが鮮鋭な最適化画像を生成できるように、式６に基づいて生成ネットワークのパラメータを最適化する。

本願の１つの実施例において、生成画像及び目標画像は、低い層の画素値と高い層の抽象的な特徴の両方で近似する必要があり、したがって、深層セマンティック上の生成画像と目標画像の一貫性を保証するために、分類ネットワークを介して生成画像と目標画像を比較し、比較結果に基づいて感知損失関数（ＰｅｒｃｅｐｔｕａｌＬｏｓｓＦｕｎｃｔｉｏｎ）を構築し、感知損失関数に基づいて分類ネットワーク及び生成ネットワークのパラメータを最適化することができる。ここで、分類ネットワークにより、生成画像を処理して第１画像情報を取得することができ、目標画像を処理して第２画像情報を取得することができ、各低品質画像ペアに対応する第１画像情報及び第２画像情報に基づいて、第２損失関数（すなわち、感知損失関数）を決定することができる。ここで、各低品質画像ペアに対応する第１画像情報及び第２画像情報に基づいて第２損失関数を決定することは、具体的には、各低品質画像ペアに対応する第１画像情報と第２画像情報を減算して、画像情報の差を取得し、すべての低品質画像ペアに対応する画像情報の差に基づいて第２損失関数を構築することであり得、第２損失関数の式は、式７に示されるとおりある。

ここで、ｘ^ｉは、低品質画像に対応する目標画像のデータであり、ｚ^ｉは、生成ネットワークに入力した低品質画像のデータであり、Ｇ（ｚ^ｉ）は、生成ネットワークにより低品質画像を処理することによって出力された生成画像のデータであり、Ｖ（Ｇ（ｚ^ｉ））は第１画像情報であり、Ｖ（ｘ^ｉ）は第２画像情報であり、ｉは、任意の低品質画像ペアであり、ｍは、低品質画像ペアの総数である。

第２損失関数を決定した後、生成ネットワークによって出力された生成画像を目標画像に近似させるかその２つが同じになるようにするために、第２損失関数に基づいて生成ネットワークのパラメータを最適化することができる。

本願の１つの実施例において、生成画像を目標画像に更に近似させるか、その２つが同じになるようにするために、生成画像と目標画像内の同じオブジェクトに対応する画像情報を比較することができ、生成画像と目標画像における同じオブジェクトに対応する画像情報が近似するか同じであれば、それは、生成画像と目標画像が近似するか同じであることを意味する。本願実施例において、分割ネットワークを介して目標画像を分割して、画像内の各オブジェクトの位置情報を取得することができる。具体的には、顔画像の場合、分割ネットワークを使用して顔画像を分割することにより、五官分割領域の位置情報を取得することができ、当該五官分割領域の位置情報は、左右の目の位置情報、鼻の位置情報、口の位置情報を含む。次に、五官分割領域の位置情報に基づいて、目標画像及び生成画像から、対応する領域の画像情報を決定することができ、具体的には、生成画像における各オブジェクトの位置情報に対応する画像情報を第１局所画像情報として使用し、目標画像における各オブジェクトの位置情報に対応する画像情報を第２局所画像情報として使用することができる。最後に、第１局所画像情報と第２局所画像情報との間のＬ１ノルムを計算し、つまり、同じオブジェクトに対応する画像情報の絶対値の合計を計算し、すべての低品質画像ペアに対応するＬ１ノルムに基づいて第３損失関数を構築する。第３損失関数の式は、式８に示されるとおりである。

ここで、ｘ^ｉは、低品質画像に対応する目標画像のデータであり、ｚ^ｉは、生成ネットワークに入力した低品質画像のデータであり、Ｇ（ｚ^ｉ）は、生成ネットワークにより低品質画像を処理することによって出力された生成画像のデータであり、Ｍは、分割後の各オブジェクト領域の位置情報であり、ｉは、任意の低品質画像ペアであり、ｍは、低品質画像ペアの総数である。

本願の１つの実施例において、複数の低品質画像ペアを１バッチの訓練サンプルとして使用することができ、所定回数の訓練を遂行するか、各損失関数が収束するまで、当該訓練サンプルに基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルに対して反復訓練を複数回実行する。毎回の訓練において、第１損失関数、第２損失関数及び第３損失関数を順次に使用して、モデルのパラメータを最適化することができる。

本願の１つの実施例において、顔画像を例にとると、図１０は、顔画像ペアに基づいて訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練するプロセスの概略図を示し、この場合、目標画像は目標顔画像であり、低品質画像は低品質の顔画像である。図１０に示されるように、ステップＳ１００１において、目標顔画像を取得した後、目標顔画像に対して位置合わせ処理を実行して、目標顔位置合わせ画像を取得し、ステップＳ１００２において、当該目標顔位置合わせ画像に対してノイズ追加処理及び／又はぼかし処理を実行して、低品質の顔画像を取得し、ステップＳ１００３において、低品質の顔画像を生成ネットワークに入力し、生成ネットワークを介して処理することにより生成顔画像を出力し、当該生成顔画像は、低品質の顔画像を最適化した後の顔画像であり、ステップＳ１００４において、生成顔画像と目標顔画像をペアリングして、後処理ネットワークにおける判別ネットワーク、分類ネットワーク及び分割ネットワークにそれぞれ入力し、各ネットワークを介して、生成顔画像及び目標顔画像に対して特徴抽出を実行することによって、共同損失関数を決定し、当該共同損失関数は、ネットワークのそれぞれに対応する第１損失関数、第２損失関数及び第３損失関数を含み、更に、生成顔画像が目標顔画像に近似するまで、第１損失関数、第２損失関数及び第３損失関数に基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルのパラメータを最適化する。訓練後の訓練対象となる敵対的生成深層ニューラルネットワークモデルの生成ネットワークを使用して、位置合わせ処理後の最適化対象となる他の顔画像を最適化して、ノイズのない且つ顔の細部を有する鮮鋭な顔画像を取得することができ、これにより、ユーザ体験を更に向上させることができる。

本願の１つの実施例において、生成ネットワークによって出力された最適化画像を取得した後、標準の顔正面位置に対する最適化対象となる画像内の顔の傾斜角度に基づいて、最適化画像に対して位置リセット処理を実行するかどうかを判断することができ、例えば、標準の顔正面位置に対する最適化対象となる画像内の顔の傾斜角度が小さい（視覚的に両者の差が明らかでない）場合、最適化対象となる画像に対して何の処理も実行しなくてもよく、標準の顔正面位置に対する最適化対象となる画像内の顔の傾斜角度が大きい（視覚的に両者の差が明らかである）場合、最適化対象となる画像に対して位置リセット処理を実行し、例えば、位置合わせ処理を実行するときに使用される変換行列の逆操作により、最適化対象となる画像内の各オブジェクトを元の位置と角度に復元し、最終的に、元の最適化対象となる画像に対応する最適化画像を取得することができる。

本願の１つの実施例において、図１１Ａ、図１１Ｂ、図１１Ｃ、図１１Ｄ、図１１Ｅ及び図１１Ｆは、訓練後の生成ネットワークを使用して顔画像を最適化する３つのセットのインターフェイスの概略図を示し、図１１Ａ、図１１Ｃ、図１１Ｅは、最適化対象となる顔画像を示しており、明らかに、画像最適化対象となる顔画像のノイズが大きく、鮮鋭度が低く、エッジの輪郭がぼやけている。図１１Ｂ、図１１Ｄ及び図１１Ｆに示されるように、生成ネットワークを介して、位置合わせ後の最適化対象となる顔位置合わせ画像を処理することにより、鮮鋭度が高く、エッジの輪郭が鮮鋭であり、豊富な顔の細部を含む顔画像を得ることができる。

本願に係る画像最適化方法によれば、最適化処理後の画像（すなわち、最適化画像）は、原画像の特徴を保持する上で、鮮鋭度が高く、画像細部を含み、及びノイズが正確に除去されているという特徴を持っており、同時に、モデル訓練で使用される目標画像はすべて、鮮鋭度の高い画像であるため、訓練後の生成ネットワークを使用して、最適化対象となる画像を最適化することで、エッジの輪郭情報を深め、画像内の欠落部分をある程度補完することができ、つまり、本願の画像最適化方法は、一定の画像補完及び補正能力も提供できる。更に、本願の画像最適化方法は、敵対的生成深層ニューラルネットワークモデルに基づいて実行されるため、画像の最適化にかかる時間が短く、拡張性が高く、可搬性が良いという特徴がある。

当業者なら自明であるが、上記の実施形態のステップの全部又は一部は、プロセッサ（ＣＰＵ及びＧＰＵを含む）によって実行されるコンピュータプログラムとして実現される。例えば、ＧＰＵにより上記の敵対的生成深層ニューラルネットワークモデルの訓練を実現するか、又は、訓練後の敵対的生成深層ニューラルネットワークモデルに基づいて、ＣＰＵ又はＧＰＵを使用して、最適化対象となる画像の最適化処理を実現する。コンピュータプログラムがプロセッサによって実行されるときに、本願で提供される上記の方法で定義された上記の機能を実行する。上記のプログラムは、コンピュータ可読記憶媒体に記憶されることができ、当該記憶媒体は、読み取り専用メモリ、磁気ディスク又は光ディスクなどであってもよい。

加えて、留意されたいこととして、上記の図面は、本願の例示的な実施形態による方法に含まれるプロセスの例示的な説明に過ぎず、本願を限定するためのものではない。理解できることとして、上記の図面に示されるプロセスは、これらの処理の先後順序を示したり限定したりするものではない。更に、理解できることとして、これらのプロセスは、例えば、複数のモジュールによって同期的又は非同期的に実行され得る。

以下、本願の上記の画像最適化方法を実行するために使用できる、本願の画像最適化装置の実施例を紹介する。

図１２は、本願示例性実施例に係る、画像最適化装置の構造概略図である。図１２に示されるように、上記の画像最適化装置１２００は、取得モジュール１２０１と、位置合わせモジュール１２０２と、最適化モジュール１２０３とを備える。

ここで、取得モジュール１２０１は、最適化対象となる画像を取得するように構成される。位置合わせモジュール１２０２は、前記最適化対象となる画像に対して位置合わせ処理を実行して、最適化対象となる位置合わせ画像を取得するように構成され、最適化対象となる位置合わせ画像の目標領域における各オブジェクトの点は標準位置に分散される。最適化モジュール１２０３は、前記最適化対象となる位置合わせ画像を生成ネットワークに入力し、前記生成ネットワークを介して前記最適化対象となる位置合わせ画像に対して特徴抽出を実行して、最適化画像を取得するように構成され、ここで、前記生成ネットワークは、低品質画像ペア及び共同損失関数に基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練することによって取得されたものであり、前記低品質画像ペアは、目標画像及び前記目標画像に対応する低品質画像を含む。

本願の１つの実施例において、前記標準位置テンプレートは、特定領域における各オブジェクトの点分布であり、前記位置合わせモジュール１２０１は、前記最適化対象となる画像内の目標領域を検出し、ここで、前記目標領域と前記特定領域のタイプは同じであり、前記目標領域の画像データと前記標準位置テンプレートとの間の変換行列を決定し、前記変換行列に基づいて前記目標領域に対応する画像に対して変換操作を実行して、前記最適化対象となる位置合わせ画像を取得するように構成される。

本願のいくつかの実施例において、前記位置合わせモジュールは、標準位置テンプレートに基づいて前記最適化対象となる画像に対して位置合わせ処理を実行して、前記最適化対象となる位置合わせ画像を取得するように構成される。

本願のいくつかの実施例において、前記標準位置テンプレートは、特定領域における各オブジェクトの点分布であり、上記の技術案に基づき、前記位置合わせモジュールは、前記最適化対象となる画像内の目標領域を検出し、ここで、前記目標領域と前記特定領域のタイプは同じであり、前記目標領域の画像データと前記標準位置テンプレートとの間の変換行列を決定し、前記変換行列に基づいて前記目標領域に対応する画像に対して変換操作を実行して、前記最適化対象となる位置合わせ画像を取得するように構成される。

本願の１つの実施例において、前記画像最適化装置１２００は更に、複数の前記低品質画像ペアを取得するように構成される低品質画像ペア取得モジュールと、各低品質画像ペアをそれぞれ目標画像ペアとして使用し、前記目標画像ペアの低品質画像を、訓練対象となる敵対的生成深層ニューラルネットワークモデルの生成ネットワークに入力して、生成画像を取得するように構成される生成画像取得モジュールと、前記生成画像及び前記目標画像ペアの目標画像を前記訓練対象となる敵対的生成深層ニューラルネットワークモデルの後処理ネットワークに入力し、前記後処理ネットワークを介して、前記生成画像及び前記目標画像ペアの目標画像を処理することによって、前記共同損失関数を構築するように構成される損失関数構築モジュールと、前記共同損失関数に基づいて、前記訓練対象となる敵対的生成深層ニューラルネットワークモデルのパラメータを最適化して、前記生成ネットワークを取得するように構成されるモデルパラメータ調整モジュールと、を備える。

本願の１つの実施例において、前記低品質画像ペア取得モジュールは、複数の目標画像を取得し、前記複数の目標画像に対して位置合わせ処理をそれぞれ実行して、複数の位置合わせ画像を取得し、前記複数の位置合わせ画像に対して低品質化処理をそれぞれ実行して、前記目標画像のそれぞれに対応する低品質画像を取得し、前記目標画像及び前記目標画像に対応する低品質画像に基づいて前記低品質画像ペアを形成するように構成される。

本願の１つの実施例において、前記低品質化処理は、ノイズ追加処理及び／又はぼかし処理を含む。

本願の１つの実施例において、前記ノイズ追加処理は、ガウスノイズ、ポアソンノイズ、ごま塩ノイズのうちの１つ又は複数のノイズを追加することを含み、前記ぼかし処理は、平均フィルタリング、ガウスフィルタリング、メディアンフィルタリング、バイラテラルフィルタリング、及び低解像度化のうちの１つ又は複数を含む。

本願の１つの実施例において、前記後処理ネットワークは、判別ネットワーク、分類ネットワーク及び分割ネットワークを含む。前記損失関数構築モジュールは、前記生成画像及び前記目標画像ペアの目標画像を前記判別ネットワークに入力して、第１判別結果及び第２判別結果を取得し、前記第１判別結果及び前記第２判別結果に基づいて第１損失関数を構築するように構成される第１損失関数構築ユニットと、前記生成画像及び前記目標画像ペアの目標画像を前記分類ネットワークに入力して、第１画像情報及び第２画像情報を取得し、前記第１画像情報及び前記第２画像情報に基づいて第２損失関数を構築するように構成される第２損失関数構築ユニットと、前記生成画像及び前記目標画像ペアの目標画像を前記分割ネットワークに入力して、第１局所画像情報及び第２局所画像情報を取得し、前記第１局所画像情報及び前記第２局所画像情報に基づいて第３損失関数を構築するように構成される第３損失関数構築ユニットと、前記第１損失関数、前記第２損失関数及び前記第３損失関数に基づいて前記共同損失関数を構築するように構成される共同損失関数構築ユニットと、を備える。

本願の１つの実施例において、前記第２損失関数構築ユニットは、前記低品質画像ペアのそれぞれに対応する第１画像情報から第２画像情報を減算して、画像情報の差を取得し、すべての前記低品質画像ペアに対応する画像情報の差に基づいて前記第２損失関数を構築するように構成される。

本願の１つの実施例において、前記目標画像ペアの目標画像及び前記生成画像はすべて、複数のオブジェクトを含み、上記の技術案に基づき、前記第３損失関数構築ユニットは、前記分割ネットワークを介して、前記目標画像を分割して、前記目標画像内の各オブジェクトの位置情報を取得し、前記生成画像内の前記各オブジェクトの位置情報に対応する画像情報を前記第１局所画像情報として使用し、前記目標画像内の前記各オブジェクトの位置情報に対応する画像情報を前記第２局所画像情報として使用するように構成される。

本願の１つの実施例において、前記第３損失関数構築ユニットは、前記第１局所画像情報と前記第２局所画像情報との間のＬ１ノルムを計算し、すべての前記低品質画像ペアに対応するＬ１ノルムに基づいて前記第３損失関数を構築するように構成される。

本願の１つの実施例において、前記モデルパラメータ調整モジュールは、訓練の各ラウンドで、前記第１損失関数、前記第２損失関数及び前記第３損失関数を順次に使用して前記訓練対象となる敵対的生成深層ニューラルネットワークモデルのパラメータを最適化して、前記生成ネットワークを取得するように構成される。

本願の１つの実施例において、前記第１損失関数を使用して前記訓練対象となる敵対的生成深層ニューラルネットワークモデルのパラメータを最適化することは、前記生成ネットワークのパラメータを変更せずに固定し、前記第１判別結果及び前記第２判別結果に基づいて前記判別ネットワークのパラメータを最適化することと、前記判別ネットワークの最適化後のパラメータを変更せずに固定し、前記第１判別結果に基づいて前記生成ネットワークのパラメータを最適化することとを含む。

本願の１つの実施例において、前記生成ネットワークは、ダウンサンプリング層、残差ネットワーク層、アップサンプリング層を含む。

上記の画像最適化装置の各ユニットの具体的な詳細は、対応する画像最適化方法で既に詳細に説明されており、そのため、ここでは繰り返して説明しない。

本願の１つの実施例において、画像最適化装置は、端末機器又はサーバに設置されてもよく、ユーザが端末機器を介して、当該ユーザによって選択された低品質画像に対して最適化処理を実行することを要求する場合、上記の実施例の画像最適化方法を実行することにより、最適化画像を取得することができる。図１３Ａ、図１３Ｂ、図１３Ｃ及び図１３Ｄは、低品質画像を最適化するインターフェイスの概略図を示す。図１３Ａに示されるように、ユーザは、端末機器のカメラ機能をオンにすることができ、インターフェイス内の「カメラを顔に向けてください」という指示情報により、目標顔の写真を撮るようにユーザに指示し、その後、目標顔を撮影して低品質の顔画像を取得し、図１３Ｂに示されるように、写真閲覧インターフェイスに低品質の顔画像を表示する。図１３Ｂに示される写真閲覧インターフェイスには、「再撮影」ボタンと「最適化処理」ボタンが含まれており、ユーザが「再撮影」ボタンを介して再撮影することを選択した場合、再撮影して低品質の顔画像を取得することができ、ユーザが「最適化処理」ボタンを介して、写真閲覧インターフェイスにおいて、撮影された低品質の顔画像に対して最適化処理を実行することを選択した場合、低品質の顔画像に対して最適化処理を実行することができ、「最適化処理」を選択した後、「最適化処理」ボタンの色を変更する（図１３Ｃに示されるように、灰色に変更する）ことができる。その後、画像最適化サービスを呼び出して、ユーザによって撮影された低品質の顔画像を最適化し、図１３Ｄに示されるように、取得された最適化画像を最適化照片閲覧インターフェイスに返す。ユーザは、写真帳から、撮影済み又はダウンロード済みの画像を選択して最適化処理を実行してもよく、その具体的な処理プロセスは、上記の実施例における画像最適化プロセスと同じであり、ここでは繰り返して説明しない。

図１４は、本願実施例を実現するための電子機器のコンピュータシステムの概略構造図を示す。

留意されたいこととして、図１４に示される電子機器のコンピュータシステム１４００は、一例に過ぎず、本願実施例の機能及び使用範囲を限定するものではない。

図１４に示されるように、コンピュータシステム１４００はプロセッサ１４０１を含み、ここで、プロセッサ１４０１は、グラフィックス処理ユニット（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＧＰＵと略称）、中央処理装置（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を含み得、当該プロセッサ１４０１は、読み取り専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭと略称）１４０２に記憶されているプログラム、又は記憶部１４０８からランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭと略称）１４０３にロードされたプログラムに従って様々な適切な動作及び処理を実行することができる。ＲＡＭ１４０３には、システム動作に必要な様々なプログラム及びデータも記憶されている。プロセッサ（ＧＰＵ／ＣＰＵ）１４０１、ＲＯＭ１４０２及びＲＡＭ１４０３は、バス１４０４を介して互いに接続される。入力／出力（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ、Ｉ／Ｏと略称）インターフェース１４０５もバス１４０４に接続される。

コンピュータシステム１４００は更に、入力部１４０６、出力部１４０７、通信部１４０９、ドライバ１４１０及びリムーバブル媒体１４１１を含む。

特に、本願実施例によれば、フローチャートを参照して以上に説明したプロセスは、コンピュータソフトウェアプログラムとして実現できる。例えば、本願実施例は、コンピュータ可読媒体に含まれたコンピュータプログラムを含む、コンピュータプログラム製品を含み、当該コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは、通信部１４０９を介して、ネットワークからダウンロード及びインストールされ、及び／又はリムーバブル媒体１４１１からインストールされることができる。当該コンピュータプログラムがプロセッサ（ＧＰＵ／ＣＰＵ）１４０１によって実行されるときに、本願のシステムで定義されている機能を実行する。いくつかの実施例において、コンピュータシステム１４００は更に、人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩと略称）プロセッサを備えることができ、当該ＡＩプロセッサは、機械学習に関する計算操作を処理するために使用される。

留意されたいこととして、本願実施例に示されるコンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体又はそれらの２つの任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気的、磁気的、光学的、電磁気的、赤外線又は半導体システム、装置又はデバイスであってもよく、あるいは上記のいずれかの組み合わせであってもよいが、これらに限定れない。コンピュータ可読記憶媒体のより具体的な例は、１つ又は複数の導線を含む電気接続、携帯式コンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、電気的に消去可能なプログラム可能な読み取り専用メモリ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ、ＥＰＲＯＭと略称）、フラッシュメモリ、光ファイバー、携帯式コンパクトディスク読み取り専用メモリ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＣＤ－ＲＯＭと略称）、光ストレージデバイス、磁気ストレージデバイス、又は上記の任意の適切な組み合わせを含み得るが、これらに限定されない。本願では、コンピュータ可読記憶媒体は、プログラムを含むか記憶する任意の有形媒体であってもよく、当該プログラムは、命令実行システム、装置又はデバイスによって使用されるか、又はこれらの組み合わせによって使用されることができる。本願では、コンピュータ可読信号媒体は、コンピュータ可読プログラムコードを搬送する、ベースバンドで伝播されるデータ信号又はキャリアの一部として伝播されるデータ信号を含み得る。このような伝播されるデータ信号は、電磁信号、光信号、又は上記の任意の適切な組み合わせなど、様々な形態をとることができるが、これらに限定されない。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、当該コンピュータ可読媒体は、命令実行システム、装置又はデバイスによって使用されるか、又はそれらの組み合わせによって使用されるプログラムを送信、伝播又は伝送することができる。コンピュータ可読媒体に含まれたプログラムコードは、任意の適切な媒体で伝送され得、当該媒体は、無線や有線など、又は上記の任意の適切な組み合わせを含むが、これらに限定されない。

本願実施例に記載のユニットは、ソフトウェア形態で実現されてもよいし、ハードウェア形態で実現されてもよく、説明されたユニットはプロセッサに設置されてもよい。ここで、これらのユニットの名称は、特定の場合でユニット自体を限定するものではない。

別の態様として、本願は、コンピュータ可読媒体を更に提供し、当該コンピュータ可読媒体は、上記の実施例に記載の電子機器に含まれるものであってもよいし、当該電子機器に組み立てられずに単独で存在するものであってもよい。上記のコンピュータ可読媒体には、１つ又は複数のプログラムが含まれ、上記の１つ又は複数のプログラムが当該電子機器によって実行されるときに、当該電子機器に、上記の実施例に記載の方法を実行させる。

留意されたいこととして、動作実行のための機器のいくつかのモジュール又はユニットが上記の説明で言及されているが、このような分割は必須ではない。実際には、本願の実施形態によれば、上記の２つ又は２つ以上のモジュール又はユニットの特徴及び機能は、１つのモジュール又はユニットで具体化され得る。逆に、上記の１つのモジュール又はユニットの特徴及び機能を、複数のモジュール又はユニットに更に分割して具体化することができる。

上記の実施形態の説明により、当業者は、本明細書に記載の例示的な実施形態はソフトウェアによって実現されてもよいし、ソフトウェアと必要なハードウェアの組み合わせことによって実現されてもよいことを理解できる。したがって、本願の実施形態による技術的解決策は、ソフトウェア製品の形態で具現でき、当該ソフトウェア製品は、不揮発性記憶媒体（ＣＤ－ＲＯＭ、Ｕディスク、モバイルハードディスクなどであってもよい）又はネットワークに記憶されてもよく、当該ソフトウェア製品は、１つのコンピューティング機器（パーソナルコンピュータ、サーバ、タッチ端末、又はネットワーク機器などであってもよい）に、本願の実施形態による方法を実行させるためのいくつかの命令を含む。

１００システムアーキテクチャ
１０１モバイル端末
１０２情報伝送端末
１０３ネットワーク
１０４サーバ

Claims

計算処理機能を備えた機器が実行する画像最適化方法であって、
最適化対象となる画像を取得するステップと、
前記最適化対象となる画像に対して位置合わせ処理を実行して、最適化対象となる位置合わせ画像を取得するステップであって、前記最適化対象となる位置合わせ画像の目標領域における各オブジェクトの点は標準位置に分散される、ステップと、
前記最適化対象となる位置合わせ画像を生成ネットワークに入力し、前記生成ネットワークを介して前記最適化対象となる位置合わせ画像に対して特徴抽出を実行して、最適化画像を取得するステップと、を含み、
前記生成ネットワークは、低品質画像ペア及び共同損失関数に基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練することによって取得されたものであり、前記低品質画像ペアは、目標画像及び前記目標画像に対応する低品質画像を含む、前記画像最適化方法。
前記最適化対象となる画像に対して位置合わせ処理を実行して、最適化対象となる位置合わせ画像を取得する前記ステップは、
標準位置テンプレートに基づいて前記最適化対象となる画像に対して位置合わせ処理を実行して、前記最適化対象となる位置合わせ画像を取得するステップを含む、
請求項１に記載の画像最適化方法。
前記標準位置テンプレートは、特定領域における各オブジェクトの点分布であり、前記標準位置テンプレートに基づいて前記最適化対象となる画像に対して位置合わせ処理を実行して、前記最適化対象となる位置合わせ画像を取得する前記ステップは、
前記最適化対象となる画像内の目標領域を検出するステップであって、前記目標領域と前記特定領域のタイプは同じであるステップと、
前記目標領域の画像データと前記標準位置テンプレートとの間の変換行列を決定するステップと、
前記変換行列に基づいて前記目標領域に対応する画像に対して変換操作を実行して、前記最適化対象となる位置合わせ画像を取得するステップと、を含む、
請求項２に記載の画像最適化方法。
前記最適化対象となる位置合わせ画像を生成ネットワークに入力する前に、前記画像最適化方法は、
複数の前記低品質画像ペアを取得するステップと、
各低品質画像ペアをそれぞれ目標画像ペアとして使用し、前記目標画像ペアの低品質画像を前記訓練対象となる敵対的生成深層ニューラルネットワークモデルの生成ネットワークに入力して、生成画像を取得するステップと、
前記生成画像及び前記目標画像ペアの目標画像を前記訓練対象となる敵対的生成深層ニューラルネットワークモデルの後処理ネットワークに入力し、前記後処理ネットワークを介して、前記生成画像及び前記目標画像ペアの目標画像を処理することによって、前記共同損失関数を構築するステップと、
前記共同損失関数に基づいて、前記訓練対象となる敵対的生成深層ニューラルネットワークモデルのパラメータを最適化して、前記生成ネットワークを取得するステップと、更に含む、
請求項１に記載の画像最適化方法。
前記複数の低品質画像ペアを取得する前記ステップは、
複数の目標画像を取得するステップと、
前記複数の目標画像に対して位置合わせ処理をそれぞれ実行して、複数の位置合わせ画像を取得するステップと、
前記複数の位置合わせ画像に対して低品質化処理をそれぞれ実行して、前記目標画像のそれぞれに対応する低品質画像を取得するステップと、
前記目標画像及び前記目標画像に対応する低品質画像に基づいて前記低品質画像ペアを形成するステップと、を含む、
請求項４に記載の画像最適化方法。
前記低品質化処理は、ノイズ追加処理及び／又はぼかし処理を含む、
請求項５に記載の画像最適化方法。
前記ノイズ追加処理は、ガウスノイズ、ポアソンノイズ、ごま塩ノイズのうちの１つ又は複数のノイズを追加することを含み、前記ぼかし処理は、平均フィルタリング、ガウスフィルタリング、メディアンフィルタリング、バイラテラルフィルタリング、及び低解像度化のうちの１つ又は複数を含む、
請求項６に記載の画像最適化方法。
前記後処理ネットワークは、判別ネットワーク、分類ネットワーク及び分割ネットワークを含み、前記後処理ネットワークを介して、前記生成画像及び前記目標画像ペアの目標画像を処理することによって、前記共同損失関数を構築する前記ステップは、
前記生成画像及び前記目標画像ペアの目標画像を前記判別ネットワークに入力して、第１判別結果及び第２判別結果を取得し、前記第１判別結果及び前記第２判別結果に基づいて第１損失関数を構築するステップと、
前記生成画像及び前記目標画像ペアの目標画像を前記分類ネットワークに入力して、第１画像情報及び第２画像情報を取得し、前記第１画像情報及び前記第２画像情報に基づいて第２損失関数を構築するステップと、
前記生成画像及び前記目標画像ペアの目標画像を前記分割ネットワークに入力して、第１局所画像情報及び第２局所画像情報を取得し、前記第１局所画像情報及び前記第２局所画像情報に基づいて第３損失関数を構築するステップと、
前記第１損失関数、前記第２損失関数及び前記第３損失関数に基づいて前記共同損失関数を構築するステップと、を含む、
請求項４に記載の画像最適化方法。
前記第１画像情報及び前記第２画像情報に基づいて第２損失関数を構築する前記ステップは、
前記低品質画像ペアのそれぞれに対応する第１画像情報から第２画像情報を減算して、画像情報の差を取得するステップと、
すべての前記低品質画像ペアに対応する画像情報の差に基づいて前記第２損失関数を構築するステップと、を含む、
請求項８に記載の画像最適化方法。
前記目標画像ペアの目標画像及び前記生成画像は両方とも、複数のオブジェクトを含み、
前記生成画像及び前記目標画像ペアの目標画像を前記分割ネットワークに入力して、第１局所画像情報及び第２局所画像情報を取得する前記ステップは、
前記分割ネットワークを介して、前記目標画像を分割して、前記目標画像内の各オブジェクトの位置情報を取得するステップと、
前記生成画像内の前記各オブジェクトの位置情報に対応する画像情報を前記第１局所画像情報として使用し、前記目標画像内の前記各オブジェクトの位置情報に対応する画像情報を前記第２局所画像情報として使用するステップと、を含む、
請求項８に記載の画像最適化方法。
前記第１局所画像情報及び前記第２局所画像情報に基づいて第３損失関数を構築する前記ステップは、
前記第１局所画像情報と前記第２局所画像情報との間のＬ１ノルムを計算するステップと、
すべての前記低品質画像ペアに対応するＬ１ノルムに基づいて前記第３損失関数を構築するステップと、を含む、
請求項１０に記載の画像最適化方法。
前記共同損失関数に基づいて、前記訓練対象となる敵対的生成深層ニューラルネットワークモデルのパラメータを最適化して、前記生成ネットワークを取得する前記ステップは、
訓練の各ラウンドで、前記第１損失関数、前記第２損失関数及び前記第３損失関数を順次に使用して、前記訓練対象となる敵対的生成深層ニューラルネットワークモデルのパラメータを最適化して、前記生成ネットワークを取得するステップを含む、
請求項８に記載の画像最適化方法。
前記第１損失関数を使用して前記訓練対象となる敵対的生成深層ニューラルネットワークモデルのパラメータを最適化する前記ステップは、
前記生成ネットワークのパラメータを変更せずに固定し、前記第１判別結果及び前記第２判別結果に基づいて前記判別ネットワークのパラメータを最適化するステップと、
前記判別ネットワークの最適化後のパラメータを変更せずに固定し、前記第１判別結果に基づいて前記生成ネットワークのパラメータを最適化するステップと、を含む、
請求項１２に記載の画像最適化方法。
計算処理機能を備えた機器に展開されている、画像最適化装置であって、
最適化対象となる画像を取得するように構成される取得モジュールと、
前記最適化対象となる画像に対して位置合わせ処理を実行して、最適化対象となる位置合わせ画像を取得するように構成される位置合わせモジュールであって、前記最適化対象となる位置合わせ画像の目標領域における各オブジェクトの点は標準位置に分散される、位置合わせモジュールと、
前記最適化対象となる位置合わせ画像を生成ネットワークに入力し、前記生成ネットワークを介して前記最適化対象となる位置合わせ画像に対して特徴抽出を実行して、最適化画像を取得するように構成される最適化モジュールと、を備え、
前記生成ネットワークは、低品質画像ペア及び共同損失関数に基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練することによって取得されたものであり、前記低品質画像ペアは、目標画像及び前記目標画像に対応する低品質画像を含む、前記画像最適化装置。
コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、
前記プログラムがプロセッサによって実行されるときに、請求項１ないし１３のいずれか一項に記載の画像最適化方法を実現する、前記コンピュータ可読記憶媒体。
画像最適化用の電子機器であって、
１つ又は複数のプロセッサと、
１つ又は複数のプログラムが記憶された記憶装置と、を備え、前記１つ又は複数のプログラムが前記１つ又は複数のプロセッサによって実行されるときに、前記１つ又は複数のプロセッサに、請求項１ないし１３のいずれか一項に記載の画像最適化方法を実行させる、前記電子機器。
請求項１ないし１３のいずれか一項に記載の画像最適化方法を実行するように構成される、コンピュータプログラム製品。