JP2023523833A

JP2023523833A - 画像処理方法、装置、機器及びコンピュータプログラム

Info

Publication number: JP2023523833A
Application number: JP2022566432A
Authority: JP
Inventors: 法▲聖▼ ▲陳▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-03
Filing date: 2021-05-17
Publication date: 2023-06-07
Anticipated expiration: 2041-05-17
Also published as: CN111402143A; JP7464752B2; EP4044106A1; EP4044106A4; WO2021244270A1; CN111402143B; US20220270207A1

Abstract

本願の実施例は、画像処理方法、装置、機器及びコンピュータ可読記憶媒体を提供する。該方法は、処理対象画像を取得するステップと、該処理対象画像がグレースケール画像である場合、該処理対象画像における各画素点の特徴ベクトルを抽出し、該各画素点に対応する近傍画像ブロックを決定するステップと、軽量化モデルを利用して、各画素点の特徴ベクトルと近傍画像ブロックに対して処理を行い、処理後のターゲット画像を得るステップであって、該軽量化モデルは、訓練されたニューラルネットワークモデルに対して軽量化処理を行うことで得られたものである、ステップと、該ターゲット画像を出力するステップと、を含む。

Description

（関連出願の相互参照）
本願は、２０２０年０６月０３日に提出された、出願番号が２０２０１０４９５７８１．１である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。

本願の実施例は、画像処理技術分野に関し、画像処理方法、装置、機器及びコンピュータ可読記憶媒体に関するが、それらに限らない。

画像処理は、コンピュータによって、画像に対して雑音除去、強調、復元、解像度向上などの処理を行う方法及び技術である。コンピュータ科学技術及びデジタル化技術の絶え間ない発展に伴い、画像処理は、仕事、生活、軍事、医学などの各分野に広く用いられてきた。人工知能技術の発展に伴い、画像処理は、実現時、機械学習によって、より高い処理効果を達することができる。

現在では、機械学習によって画像処理を行う時、使用されるニューラルネットワークモデルの層数が十分に深いことを確保する必要があることが多いため、ネットワーク構造が非常に複雑であり、演算量が大きく、リアルタイム処理を実現できない。

本願の実施例は、ターゲット画像の画素の連続性を確保できるだけでなく、リアルタイムな画像処理を行い、画像処理効率を向上させることができる画像処理方法、装置、機器及びコンピュータ可読記憶媒体を提供する。

本願の実施例の技術的解決手段は、以下のように実現する。

本願の実施例は、画像処理方法を提供する。該方法は、画像処理機器によって実行され、
処理対象画像を取得するステップと、
該処理対象画像がグレースケール画像である場合、該処理対象画像における各画素点の特徴ベクトルを抽出し、該各画素点に対応する近傍画像ブロックを決定するステップと、
軽量化モデルを利用して、各画素点の特徴ベクトルと近傍画像ブロックに対して処理を行い、処理後のターゲット画像を得るステップであって、該軽量化モデルは、訓練されたニューラルネットワークモデルに対して軽量化処理を行うことで得られたものである、ステップと、
該ターゲット画像を出力するステップと、を含む。

本願の実施例は、画像処理装置を提供する。該装置は、
処理対象画像を取得するように構成される第１取得モジュールと、
該処理対象画像がグレースケール画像である場合、該処理対象画像における各画素点の特徴ベクトルを抽出し、該各画素点に対応する近傍画像ブロックを決定するように構成される第１抽出モジュールと、
軽量化モデルを利用して、各画素点の特徴ベクトルと近傍画像ブロックに対して処理を行い、処理後のターゲット画像を得るように構成される第１処理モジュールであって、該軽量化モデルは、訓練されたニューラルネットワークモデルに対して軽量化処理を行うことで得られたものである、第１処理モジュールと、
該ターゲット画像を出力するように構成される出力モジュールと、を備える。

本願の実施例は、画像処理機器を提供する。該機器は、
実行可能な命令を記憶するためのメモリと、
該メモリに記憶されている実行可能な命令を実行して、上記方法を実現するためのプロセッサと、を備える。

本願の実施例は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体に実行可能な命令が記憶されており、該実行可能な命令は、プロセッサにより実行されると、プロセッサに上記方法を実現させる。

本願の実施例は、以下の有益な効果を有する。

処理対象画像を取得した後、該処理対象画像における各画素点に対応する近傍画像ブロックを決定し、該処理対象画像がグレースケール画像である場合、該処理対象画像における各画素点の特徴ベクトルを抽出し、軽量化モデルを利用して、各画素点の特徴ベクトルと近傍画像ブロックに対して処理を行い、処理後のターゲット画像を得る。ここで、該軽量化モデルは、訓練されたニューラルネットワークモデルに対して軽量化処理を行うことで得られたものである。訓練時に用いられるものがニューラルネットワーク構造であるため、種々の特殊損失を用いる時、画素が連続したターゲット画像を出力することを確保することができ、そして、画像処理を行う時に用いられるものが、モデル変換によって得られた軽量モデル（例えば、部分空間モデル又は決定木）であるため、リアルタイムに実行してターゲット画像を出力することができ、それによって処理効果を確保すると同時に、画像処理効率を向上させる。

本願の実施例による画像処理システムのネットワークアーキテクチャ概略図である。本願の実施例による画像処理システムの別のネットワークアーキテクチャ概略図である。本願の実施例による第１端末１００の構成概略図である。本願の実施例による画像処理方法の実現フロー概略図である。本願の実施例による軽量化モデルを得る実現フロー概略図である。本ネア着の実施例による画像処理方法のまた１つの実現フロー概略図である。本願の実施例による画像処理方法の実現フロー概略図である。本願の実施例によるデータ集合の構築の実現フロー概略図である。本願の実施例による低解像度画像特徴の抽出の実現フロー概略図である。本願の実施例による深層学習モデル及びその訓練の実現フロー概略図である。本願の実施例による超解像ネットワーク構造とネットワークの使用方法の実現フロー概略図である。本願の実施例による識別器のネットワーク構造概略図である。本願の実施例による生成目的関数の構築の実現フロー概略図である。本願の実施例による識別目的関数の構築の実現フロー概略図である。本願の実施例によるモデル訓練の実現フロー概略図である。本願の実施例によるモデル変換の実現フロー概略図である。本願の実施例によるリアルタイム推論の実現フロー概略図である。本願の実施例によるカラー画像に対する超解像処理の実現フロー概略図である。本願の実施例によるビデオに対する超解像処理の実現フロー概略図である。本願の実施例による画像処理装置の構成概略図である。

本願の目的、技術的解決手段、及び利点をより明確にするために、以下、図面を参照しながら、本願の実施例を説明する。記述される実施例は、本願を限定するものと見なされるべきではない。当業者が創造的な労力なしに得られる全ての他の実施例は、いずれも本願の保護範囲に含まれる。

下記の記述において、「いくつかの実施例」に係る。これは、全ての可能な実施例のサブ集合を記述する。しかしながら、「いくつかの実施例」は、全ての可能な実施例の同一のサブ集合又は異なるサブ集合であってもよく、また、矛盾しない限り、互いに組み合わせられてもよいと理解されるべきである。

下記の記述において、係る用語「第１／第２／第３」は、類似した対象を区別するためのものだけであり、対象の特定の順番を代表するためのものではない。ここで説明した本願の実施例をここで図示した又は説明した順番以外の順番で実施可能なものにするために、「第１／第２／第３」は、許された場合であれば特定の順番又は前後順序を互いに取り替えることができることは、理解されるべきである。

別途定義しない限り、本明細書に用いられる全ての技術的用語及び科学的用語は、本願が属する分野における当業者が一般的に理解する意味と同じである。本明細書に用いられる用語は、本願の実施例の目的を説明するためのものだけであり、本願の実施例を限定するものではない。

本願の実施例を説明する前に、本願の実施例に係る名詞及び用語を説明する。本願の実施例に係る名詞及び用語には、下記解釈が適用可能である。

１）画像処理は、画像に対する処理であり、即ち、画素マップから画素マップへの処理であり、例えば、超解像、画像の雑音除去強調などの処理である。

２）超解像度（ＳＲ：ＳｕｐｅｒＲｅｓｏｌｕｔｉｏｎ）アルゴリズムは、画像の解像度を向上させることができるアルゴリズムであり、超解像アルゴリズムと略称されてもよく、画像処理方法に属する。超解像アルゴリズムは、マルチフレーム超解像とシングルフレーム超解像の２つに分けられてもよい。シングルフレーム超解像は、１枚の画像を処理することで、該画像に対応する超解像度画像を得る。マルチフレーム超解像アルゴリズムは、複数枚の画像を処理することで、複数枚の画像に対応する超解像度画像を得る。本出願が注目するキーポイントは、シングルフレーム超解像アルゴリズムである。シングルフレーム超解像アルゴリズムのうち、特に、深層学習に基づく方法の効果が最も高い（従来の方法よりも明らかに好ましい）。

３）コンピュータの中央演算処理装置（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）は、コンピュータシステムの演算と制御の中核であり、情報処理、プログラム実行のための最終的実行ユニットであり、種々のコンピューティングシーンに用いることができる。

４）グラフィックスプロセッサ（ＧＰＵ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）は、表示コア、ビジョンプロセッサ、表示チップとも呼ばれ、パソコン、ワークステーション、ゲーム機及びいくつかの移動機器（例えば、タブレット、スマートフォンなど）で画像と図形に関連する演算動作を専ら行うマイクロプロセッサである。ＧＰＵは、コンピューティング能力が強く、ＣＰＵを遥かに上回ることができることが多いため、深層学習のモデル推論に広く用いられている。ＧＰＵリソースは、希少なリソースであるため、配置時に、遅延性を有する。

５）深層学習（ＤＬ：ＤｅｅｐＬｅａｒｎｉｎｇ）は、ニューラルネットワークを用いる機械学習である。

６）モデル変換アルゴリズムは、モデルのタイプを変換するアルゴリズムであり、例えば、深層学習ネットワークを決定木モデル又は部分空間モデルなどに変換する。モデル変換アルゴリズムによって、複雑なモデルを簡単なモデルに変換し、その演算速度を大幅に向上させることができる（欠点は、精度の低下を引き起こす可能性があることである）。

７）畳み込みカーネルについて、画像処理時、入力画像が与えられており、入力画像における１つの小さな領域における画素が加重平均処理された後に、出力画像における各対応画素となり、重み値は、１つの関数によって定義され、この関数は、畳み込みカーネルと呼ばれる。

８）目的関数は、損失関数（ＬｏｓｓＦｕｎｃｔｉｏｎ）又はコスト関数（ｃｏｓｔｆｕｎｃｔｉｏｎ）とも呼ばれ、ランダムイベント又はこれに関連するランダム変数の値を非負の実数にマッピングして、該ランダムイベントの「リスク」又は「損失」を表す関数である。応用において、目的関数は、一般的には、学習の基準として最適化の問題に関連付けられ（即ち、目的関数を最小化することで、モデルを解いて評価する）、例えば、統計学及び機械学習において、モデルのパラメータ推定に用いられ、機械学習モデルの最適化目標である。

９）色域は、色空間とも呼ばれ、カラーイメージの表示可能な色範囲を代表する。現在では、一般的な色域は、輝度クロマ（ＹＵＶ：ＬｕｍｉｎａｎｃｅＣｈｒｏｍｉｎａｎｃｅ）色域、赤緑青（ＲＧＢ：ＲｅｄＧｒｅｅｎＢｌｕｅ）色域、シアンマゼンタイエローブラック（ＣＭＹＫ：ＣｙａｎＭａｇｅｎｔａＹｅｌｌｏｗＢｌａｃｋ）色域などを含む。

本願の実施例による画像処理方法をよりよく理解するために、まず、関連技術における、解像度を向上させるための画像処理方法及び存在する欠点を説明する。

関連技術において、解像度を向上させるための画像処理方法は、少なくとも以下の２つを含む。

第１：迅速で正確な画像超解像方法（ＲＡＩＳＲ：ＲａｐｉｄａｎｄＡｃｃｕｒａｔｅＳｕｐｅｒＩｍａｇｅＲｅｓｏｌｕｔｉｏｎ）。

ＲＡＩＳＲは、フィルタ索引付けに基づく超解像方法である。簡単に言えば、ＲＡＩＳＲでは、推論を行う時、以下のステップに応じて処理を行う。

ステップＳ００１において、まず、画像をターゲットサイズまで拡大する。

ステップＳ００２において、拡大した画像で、各画素の勾配特徴を算出する。

ステップＳ００３において、画素毎に、勾配特徴によって、該画素に使用するフィルタ（畳み込みカーネル）を索引付けする。

ステップＳ００４において、各画素とその索引付けされたフィルタに対して畳み込みを行い、超解像後の画素を得る。

実現時、ＲＡＩＳＲでは、勾配に基づいて算出された３つの特徴を使用し、各特徴を異なるパラグラフに分けることで、特徴空間を多くの小ブロックに分ける。各特徴部分空間（小ブロック）において、最小二乗法を直接的に用いてターゲット値をフィッティングし、畳み込みカーネルパラメータを得ることができる。このように、高解像度－低解像度アップサンプリング画像対を人工的に構築することができ、更に、アップサンプリング画像における画素の勾配特徴に応じて、各画像ブロックを異なる部分空間に割り当てる。各部分空間において、最小二乗法を用いて、画像ブロックからターゲット画素（高解像度画素）へのフィッティングを行い、モデルの訓練を行う。

関連技術において、ＲＡＩＳＲに基づく最適化バージョンもある。それは、アップサンプリングの方法を使用することなく、深層学習のｕｐｓｃａｌｅを使用する。即ち、最小二乗の時、Ｍ^２個の畳み込みカーネル（Ｍは、拡大倍率である）をフィッティングし、１つの画像をＭ^２個のチャンネルに変換し、続いて、画素シャッフル（ｐｉｘｅｌｓｈｕｆｆｌｅ）の方法によって、１枚の大きな画像として組み合わせる。このように、畳み込みカーネルの受容野がより大きく、効果がより高い。

ＲＡＩＳＲ型方法は、深層学習方法に比べて、効果が僅かに低下するが、コンピューティング速度が大幅に向上できる（論文において、ＲＡＩＳＲは、深層学習に基づく超解像に比べて、速度が後者の１００倍以上である）。

第２：敵対的生成ネットワークに基づく画像超解像方法（ＳＲＧＡＮ：ＳｕｐｅｒＲｅｓｏｌｕｔｉｏｎＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）。

ＳＲＧＡＮは、敵対的生成ネットワークに基づく超解像技術である。概して言えば、敵対的生成ネットワークの特性を利用して、２つのネットワークを同時に訓練し、１つは、よりリアルな高解像度画像を構築するための生成ネットワークであり、１つは、入力された高解像度画像がアルゴリズムで構築されたものであるかどうかを判断するための識別ネットワークである。２つのネットワークに対して、２つの目的関数を用いて訓練を行う。これら２つのネットワークを絶え間なく交互に訓練することで、これら２つのネットワークの性能をますます高くする。最後に、生成ネットワークを取り出し、推論時に使用する。なお、生成ネットワークの目的関数において、コンテンツ損失を更に加え、超解像後の画像とリアルな高解像度画像の、特徴レベルでの距離損失を算出する（特徴は、ＶＧＧなどの物体認識ネットワークの上位のＮ層から構成されるネットワークによって抽出されたものである）。コンテンツ損失によって訓練された生成ネットワークは、構築された超解像度画像に、より多くのランダムな細部を持たせることができ、画面をより良くすることができる。

ＲＡＩＳＲ型アルゴリズムの欠点は、異なる部分空間で、フィルタ（畳み込みカーネル）を別々に訓練する必要があるため、深層学習における種々の特殊な損失（例えば、コンテンツ損失）を加えると、隣接する画素の連続性の確保が非常に困難であることによって、ノイズを引き起こすことである。

ＳＲＧＡＮ型アルゴリズムの欠点は、ネットワークが十分に深いことを確保する必要があるため、ネットワーク構造が一般的には非常に複雑であり、ＲＡＩＳＲのようなリアルタイム実行を行うことが困難であることである。

これによれば、本願の実施例は、画像処理の深層学習方式と関連のモデル加速（モデル変換）を組み合わせる方法を提供する。訓練時に、ニューラルネットワーク構造を使用し、種々の特殊な損失を使用する時に、出力された画素が連続したものであることを確保し、且つ余分なノイズを引き入れない。そして、モデル変換方法によって、モデルを軽量モデル（例えば、部分空間モデル又は決定木）に簡略化し、リアルタイム実行を実現させる。

以下では、本願の実施例による画像処理機器の例示的な応用を説明する。本願の実施例による画像処理機器は、ノートパソコン、タブレット、デスクトップコンピュータ、移動機器（例えば、携帯電話、携帯型音楽プレイヤー、パーソナルデジタルアシスタント、専用メッセージング機器、携帯型ゲーム機器）、スマートテレビ、スマートロボットなどの、スクリーン表示機能を有する任意の端末として実施してもよく、サーバとして実施してもよい。サーバは、独立した物理サーバであってもよく、複数の物理サーバからなるサーバクラスタ又は分散型システムであってもよく、更に、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クライド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティサービス、ＣＤＮ、及びビッグデータと人工知能プラットフォームなどの基礎クラウドコンピューティングサービスを提供するクラウドサーバであってもよい。

図１Ａを参照すると、図１Ａは、本願の実施例による画像処理システムのネットワークアーキテクチャ概略図である。図１Ａに示すように、画像処理システムに、第１端末１００と、サーバ２００と、ネットワーク３００とが含まれる。１つの例示的な応用をサポートすることを実現させるために、第１端末１００は、ネットワーク３００を介してサーバ２００に接続され、第１端末１００は、スマート端末であってもよい。スマート端末に、様々なアプリケーションプログラム（Ａｐｐ：Ａｐｐｌｉｃａｔｉｏｎ）がインストールされてもよく、例えば、ビデオ視聴Ａｐｐ、インスタントメッセージングＡｐｐ、ショッピングＡｐｐ、画像収集Ａｐｐなどであってもよく、ネットワーク３００は、ワイドエリアネットワーク又はローカルエリアネットワーク、あるいは、両者の組み合わせであってもよく、無線リンクを用いてデータ伝送を実現させる。

ユーザが、第１端末１００によってビデオを視聴するか、又は、ウェブページでピクチャを閲覧する時、第１端末１００は、サーバ２００からのビデオ又はピクチャの取得を要求してもよい（本実施例において、画像１０１の取得を例として説明する）。本願の実施例による画像処理方法は、１つの機能プラグインとして端末のギャラリＡｐｐに組み込まれてもよい。第１端末１００が該画像処理機能を起動すると、第１端末１００は、本願の実施例による画像処理方法を利用して、サーバ２００から取得された画像１０１に対してリアルタイム処理を行い、処理後の画像１０２を得て、第１端末１００の表示インタフェースに表示することができる。図１Ａにおいて、画像に対して超解像処理を行うことを例として説明する。図１Ａにおける１０１と１０２を比較することによって、処理後の画像１０２の解像度がより高く、これによりデータレートが不変のままである場合に、ユーザの画質体験を改善できることが明らかである。

図１Ｂを参照すると、図１Ｂは、本願の実施例による画像処理システムの別のネットワークアーキテクチャ概略図である。図１Ｂに示すように、画像処理システムに、第１端末４００と、第２端末７００と、サーバ５００と、ネットワーク６００とが含まれる。１つの例示的な応用をサポートすることを実現させるために、第１端末４００は、ネットワーク６００を介してサーバ５００に接続され、第１端末４００は、スマート端末であってもよい。スマート端末に、様々なアプリケーションプログラムＡｐｐがインストールされてもよく、例えば、ビデオ視聴Ａｐｐ、インスタントメッセージングＡｐｐ、ショッピングＡｐｐ、画像収集Ａｐｐなどであってもよく、ネットワーク６００は、ワイドエリアネットワーク又はローカルエリアネットワーク、あるいは、両者の組み合わせであってもよく、無線リンクを用いてデータ伝送を実現させる。

第２端末７００は、ノートパソコン、タブレット、デスクトップコンピュータ、移動機器（例えば、携帯電話、携帯型音楽プレイヤー、パーソナルデジタルアシスタント、専用メッセージング機器、携帯型ゲーム機器）、スマートテレビ、スマートロボットなどの、スクリーン表示機能を有する任意の端末であってもよい。第２端末７００は、ピクチャ又はビデオファイルをサーバ５００にアップロードしてもよく、サーバ５００は、第２端末７００からアップロードされたピクチャ又はビデオを受信した後、該ピクチャ又はビデオを本願の実施例による画像処理方法で処理し、処理後のピクチャ又はビデオを得ることができる。第１端末４００がサーバ５００に対して該ピクチャ又はビデオを要求する時、サーバ５００は、第１端末４００に、処理後のピクチャ又はビデオを返信することができる。第１端末４００は、自己の表示インタフェースに、処理後のピクチャ又はビデオを表示し、ユーザの画質体験を改善できる。図１Ｂにおいて、画像に対して雑音除去を行うことを例として説明する。図１Ｂにおける画像２０１は、オリジナル画像であり、図１Ｂにおける画像２０２は、処理後の画像である。画像２０１と画像２０２を比較することによって、処理後の画像にノイズがほとんどなく、これによりユーザの画質体験を改善できることが明らかである。

図２を参照すると、図２は、本願の実施例による第１端末１００の構成概略図である。図２に示される第１端末１００は、少なくとも１つのプロセッサ１１０と、メモリ１５０と、少なくとも１つのネットワークインタフェース１２０と、ユーザインタフェース１３０と、を備える。第１端末１００における各コンポーネントは、バスシステム１４０を介して結合される。バスシステム１４０は、これらのコンポーネントの間の接続と通信を実現させるように構成されることが理解されるべきである。バスシステム１４０は、データバスに加えて、電源バス、制御バス及び状態信号バスを更に含む。しかしながら、明確に説明するために、図２において、種々のバスをバスシステム１４０と記す。

プロセッサ１１０は、信号処理能力を持つ集積回路チップであってもよく、例えば、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、あるいは、他のプログラマブルロジックデバイス、ディスクリートゲート又はトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントなどであってもよい。汎用プロセッサは、マイクロプロセッサ又は如何なる一般的なプロセッサなどであってもよい。

ユーザインタフェース１３０は、メディアコンテンツを表現できる１つ又は複数の出力装置１３１を含む。出力装置１３１は、１つ又は複数のスピーカー及び／又は１つ又は複数のビジョンディスプレイを含む。ユーザインタフェース１３０は、１つ又は複数の入力装置１３２を更に含む。入力装置１３２は、ユーザによる入力に寄与するユーザインタフェース部材、例えば、キーボード、マウス、マイクロホン、タッチパネルディスプレイ、カメラ、他の入力ボタン及びコントロールを含む。

メモリ１５０は、取り外し可能なもの、取り外し不可能なもの又はこれらの組み合わせであってもよい。例示的なハードウェア機器は、ソリッドステートメモリ、ハードディスクドライバ、光ディスクドライバなどを含む。メモリ１５０は、物理的位置でプロセッサ１１０から離れる１つ又は複数の記憶機器を含んでもよい。

メモリ１５０は、揮発性メモリ又は不揮発性メモリを含み、揮発性メモリと不揮発性メモリの両方を含んでもよい。不揮発性メモリは、読出し専用メモリ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）であってもよく、揮発性メモリは、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）であってもよい。本願の実施例に記載のメモリ１５０は、任意の適切なタイプのメモリを含むことを意図する。

いくつかの実施例において、メモリ１５０は、種々の操作をサポートするために、データを記憶することができる。これらのデータは、例示的に、プログラム、モジュール及びデータ構造、あるいは、それらのサブ集合又は上位集合を含む。以下、例示的に説明する。

オペレーティングシステム１５１は、種々の基本システムサービスを処理し、ハードウェアに関連するタスクを実行するように構成されるシステムプログラム、例えば、フレームワーク層、コアライブラリ層、駆動層などを含み、種々の基礎業務を実現させてハードウェアベースタスクを処理するためのものである。

ネットワーク通信モジュール１５２は、１つ又は複数の（有線又は無線）ネットワークインタフェース１２０を経由して他のコンピューティング機器に到達するように構成される。例示的なネットワークインタフェース１２０は、ブルートゥース（登録商標）、ワイヤレスフィデリティ（ＷｉＦｉ）、及びユニバーサルシリアルバス（ＵＳＢ：ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）などを含む。

入力処理モジュール１５３は、１つ又は複数の入力装置１３２の１つからの１つ又は複数のユーザ入力又はインタラクションに対して検出を行い、そして検出された入力又はインタラクションを翻訳するように構成される。

いくつかの実施例において、本願の実施例による装置は、ソフトフェアの方式で実現してもよい。図２は、メモリ１５０に記憶されている画像処理装置１５４を示す。該画像処理装置１５４は、第１端末１００における画像処理装置であってもよく、プログラム及びプラグインなどの形式のソフトウェアであってもよく、以下のソフトウェアモジュール、即ち、第１取得モジュール１５１４と、第１抽出モジュール１５４２と、第１処理モジュール１５４３と、出力モジュール１５４４と、を含み、これらのモジュールは、論理的なものであるため、実現される機能に基づいて、任意の組み合わせ又は分割を行うことができる。以下では、各モジュールの機能を説明する。

別のいくつかの実施例において、本願の実施例による装置は、ハードウェア方式で実現してもよい。例として、本願の実施例による装置は、ハードウェア解読プロセッサ形式を用いるプロセッサであってもよく、それは、プログラミングされて本願の実施例による画像処理方法を実行する。例えば、ハードウェア解読プロセッサ形式のプロセッサとして、１つ又は複数の特定用途向け集積回路（ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｒｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＤＳＰ、プログラマブルロジックデバイス（ＰＬＤ：ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、複合プログラマブルロジックデバイス（ＣＰＬＤ：ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）又は他の電子素子を用いることができる。

本願の実施例による方法をよりよく理解するために、まず、人工知能、人工知能の各分岐及び本願の実施例による方法に係る応用分野、クラウド技術及び人工知能クラウドサービスを説明する。

人工知能（ＡＩ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）は、デジタルコンピュータ又はデジタルコンピュータにより制御された機器を利用して人間の知能をシミュレーション、延長、拡張し、環境を感知して知識を取得し、知識を利用して最適な結果を得る理論、方法、技術及び適用システムである。換言すれば、人工知能は、コンピュータサイエンスにおける１つの総合技術であり、知能の本質を理解し、人間知能と同様な方式で反応可能な新たな知能機器を生み出すことを意図する。人工知能は、種々の知能機器の設計原理及び実現方法を検討し、機器に、感知、推理及び意思決定機能を持たせるためのものである。

人工知能技術は、総合的な学科であり、広い分野に関し、ハードウェアレベルの技術を含むだけでなく、ソフトウェアレベルの技術も含む。人工知能基礎技術は一般的には、センサ、専用人工知能チップ、クラウドコンピューティング、分散型ストレージ、ビッグデータ処理技術、オペレーティング／インタラクションシステム、メカトロニクスなどの技術を含む。人工知能ソフトウェア技術は、主に、コンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習／深層学習などのいくつかの分野を含む。以下では、各分野をそれぞれ説明する。

コンピュータビジョン技術（ＣＶ：ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ）について、コンピュータビジョンは、如何にマシンに「見てもらう」かを研究する科学であり、言い換えれば、人間の肉眼の代わりに撮影機及びコンピュータを使用して目標に対して識別、追跡、及び測定などのマシンビジョンを行って、更に画像処理をして、コンピュータで、人間の肉眼による観察又は機器へ送信して検出することに更に適した画像になるように処理することである。１つの科学分野として、コンピュータビジョンは、関連した理論及び技術を検討し、画像又は多次元データから情報を取得できる人工知能システムを構築することを意図している。コンピュータビジョン技術は一般的には、画像処理、画像認識、画像セマンティック理解、画像検索、ＯＣＲ、ビデオ処理、ビデオセマンティック理解、ビデオコンテンツ／挙動認識、三次元物体再構築、３Ｄ技術、仮想現実、拡張現実、自己位置推定とマッピングの同時実行などの技術を含み、一般的な顔認識、指紋認識などの生体特徴認識技術を更に含む。

機械学習（ＭＬ：ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）は、多数の分野に関わる学科であり、確率論、統計学、近似論、凸分析、アルゴリズム複雑度理論などの複数の学科に関する。それは、コンピュータが人間の学習挙動を如何に模擬又は実現するかを鋭意検討し、新たな知識又はスキルを取得し、既存の知識構造を再構成し、自体の性能を絶え間なく改良する。機械学習は、人工知能のキーポイントであり、コンピュータに知能を持たせる根本的な手段であり、その適用は、人工知能の各分野にわたる。機械学習及び深層学習は一般的には、人工ニューラルネットワーク、信念ネットワーク、強化学習、転移学習、帰納的学習などの技術を含む。

クラウド技術（Ｃｌｏｕｄｔｅｃｈｎｏｌｏｇｙ）は、ワイドエリアネットワーク又はローカルエリアネットワーク内に、ハードウェア、ソフトウェア、ネットワークなどの一連のリソースを統合し、データのコンピューティング、記憶、処理及び共有を実現させるホスティング技術である。クラウド技術は、クラウドコンピューティングビジネスモデルに基づいて用いられるネットワーク技術、情報技術、整合技術、管理プラットフォーム技術、応用技術などの総称であり、リソースプールを構成することができ、必要に応じて利用可能であり、柔軟かつ便利である。クラウドコンピューティング技術は、重要なサポートとなる。例えば、ビデオウェブサイト、ピクチャタイプウェブサイト及びより多くのポータルサイトのような技術的ネットワークシステムのバックグラウンドサービスは、大量のコンピューティング、記憶リソースを必要とする。インターネット業界の高度な成長及び応用に伴い、将来には、各物品がいずれも自己の識別フラグを有する可能性があり、これらはいずれもバックグラウンドシステムに伝送されてロジック処理される必要がある。異なるレベルのデータは別々に処理される。各タイプの業界データは、いずれも強いシステムバックグラウンドサポートを必要とし、これは、クラウドコンピューティングでしか実現できない。

人工知能クラウドサービスとは、一般的には、サービスとしてのＡＩ（ＡＩａａＳ：ＡＩａｓａＳｅｒｖｉｃｅ）とも呼ばれる。これは、現在では、主流となる人工知能プラットフォームのサービス方式である。ＡＩａａＳプラットフォームは、複数の一般的なＡＩサービスを分割し、クラウド側で独立又はパッケージングしたサービスを提供する。このようなサービスモードは、ＡＩテーマのモールを構築することに類似する。全ての開発者はいずれも、ＡＰＩインタフェースの方式で、プラットフォームによって提供される１種又は複数種の人工知能サービスにアクセスしてそれを使用することができ、一部のベテラン開発者は、プラットフォームによって提供されるＡＩフレームワークとＡＩインフラストラクチャを使用して、自己専用のクラウド人工知能サービスを配置してメンテナンスすることもできる。

本願の実施例による解決手段は、人工知能のコンピュータビジョン技術、機械学習、人工知能クラウドサービスなどの技術に関する。これについて、以下の実施例によって説明する。

以下では、本願の実施例による第１端末１００の例示的な応用及び実施を参照しながら、本願の実施例による画像処理方法を説明する。該方法は、画像処理機器によって実行され、該画像処理機器は、図１Ａに示される第１端末であってもよく、図１Ｂに示されるサーバであってもよい。図３を参照すると、図３は、本願の実施例による画像処理方法の実現フロー概略図である。図３に示されるステップを参照しながら、説明する。

ステップＳ１０１において、処理対象画像を取得する。

ここで、処理対象画像は、グレースケール画像であってもよく、マルチチャンネルカラー画像であってもよい。いくつかの実施例において、該処理対象画像は、ビデオファイルを復号することで得られたビデオフレーム画像であってもよい。

ステップＳ１０１が図１Ａにおける第１端末によって実現される時、処理対象画像は、サーバから取得されたものであってもよい。いくつかの実施例において、処理対象画像は、第１端末によって収集された画像であってもよい。ステップＳ１０１が図１Ｂにおけるサーバによって実現される時、処理対象画像は、第２端末によってサーバにアップロードされたものであってもよい。

いくつかの実施例において、ステップＳ１０１で処理対象画像を取得した後、処理対象画像がグレースケール画像であるかどうかを判定し、処理対象画像がグレースケール画像である場合、ステップＳ１０２へ進み、処理対象画像がカラー画像である場合、処理対象画像に対して色域変換を行い、更に、画像処理プロセスを行うことを実行してもよい。

ステップＳ１０２において、該処理対象画像がグレースケール画像である場合、該処理対象画像における各画素点の特徴ベクトルを抽出し、各画素点に対応する近傍画像ブロックを決定する。

ここで、ステップＳ１０２を実現する時、処理対象画像における各画素点の画素値に基づいて、各画素点の第１方向勾配値と第２方向勾配値を決定し、更に、各画素点の第１方向勾配値と第２方向勾配値に基づいて、各画素点の特徴ベクトルを決定することができる。

該近傍画像ブロックは、各画素点を中心としたＫ＊Ｋの画像ブロックであってもよく、Ｋは、奇数であり、例えば、Ｋは、５、７、９、１３などであってもよい。

ステップＳ１０３において、軽量化モデルを利用して、各画素点の特徴ベクトルと近傍画像ブロックに対して処理を行い、処理後のターゲット画像を得る。

該軽量化モデルは、訓練されたニューラルネットワークモデルに対して軽量化処理を行うことで得られたものである。実際に実現する時、訓練されたニューラルネットワークモデルに基づいて、部分空間分割又は決定木生成を行い、軽量化モデルを得ることであってもよい。軽量化モデルは、ニューラルネットワークモデルに比べてより簡単であるため、軽量化モデルを利用して各画素点の特徴ベクトルと近傍画像ブロックに対して画像処理を行う時、ニューラルネットワークモデルに比べて、コンピューティング効率を向上させ、画像処理にかかる時間長を短縮することができ、それによってリアルタイム処理を実現させる。

ステップＳ１０３を実現する時、各画素点の特徴ベクトルに基づいて、各画素点に対応する部分空間を決定するか、又は、各画素点に対応する決定木におけるリーフノードを決定し、更に、該部分空間又はリーフノードに対応する畳み込みカーネルを決定し、該畳み込みカーネルと該近傍画像ブロックに対して畳み込み演算を行い、各画素点に対応する処理後の画素値を得、各画素点の処理後の画素値に基づいて、ターゲット画像を決定することであってもよい。

ステップＳ１０４において、該ターゲット画像を出力する。

ここで、ステップＳ１０４が図１Ａに示される第１端末によって実現される時、第１端末の表示機器に該ターゲット画像を表現することであってもよい。ステップＳ１０４が図１Ｂに示されるサーバによって実現される時、ターゲット画像を第１端末に送信することであってもよい。いくつかの実施例において、ステップＳ１０４が図１Ｂに示されるサーバによって実現される時、ステップＳ１０４の後に、サーバがターゲット画像をローカル記憶空間に記憶することを実行してもよい。

本願の実施例による画像処理方法において、処理対象画像を取得した後、該処理対象画像における各画素点に対応する近傍画像ブロックを決定し、該処理対象画像がグレースケール画像である場合、該処理対象画像における各画素点の特徴ベクトルを抽出し、軽量化モデルを利用して、各画素点の特徴ベクトルと近傍画像ブロックに対して処理を行い、処理後のターゲット画像を得、該軽量化モデルは、訓練されたニューラルネットワークモデルに対して軽量化処理を行うことで得られたものである。訓練時に用いられるものがニューラルネットワーク構造であるため、種々の特殊損失を用いる時、画素が連続したターゲット画像を出力することを確保することができ、そして、画像処理を行う時に用いられるものが、モデル変換によって得られた軽量モデル（例えば、部分空間モデル又は決定木）であるため、リアルタイムに実行してターゲット画像を出力することができ、それによって処理効果を確保すると同時に、画像処理効率を向上させる。

いくつかの実施例において、上記ステップＳ１０２「該処理対象画像における各画素点の特徴ベクトルを抽出するステップ」は、以下のステップによって実現してもよい。

ステップＳ１０２１において、該処理対象画像に対応する第１方向勾配図と第２方向勾配図を決定する。

ここで、第１方向は、水平方向であってもよく、第２方向は、垂直方向であってもよい。これに対応して、ステップＳ１０２１を実現する時、処理対象画像における各画素点に対して、各画素点の右隣接画素点の画素値から左隣接画素点の画素値を減算し、差を２で除算し、該画素点の、第１方向における勾配値を得、各画素点の、第１方向における勾配値に基づいて、該処理対象画像に対応する第１方向勾配図を決定し、各画素点の下隣接画素点の画素値から上隣接画素点の画素値を減算し、差を２で除算し、該画素点の、第２方向における勾配値を得、各画素点の、第２方向における勾配値に基づいて、該処理対象画像に対応する第２方向勾配図を決定することであってもよい。処理対象画像におけるエッジ画素点に対して、エッジ対称反転の方式を利用して、その勾配値を算出してもよい。このように、処理対象画像における上下エッジの画素点の垂直方向勾配値は、いずれも０であり、左右エッジの画素点の水平方向勾配値は、いずれも０である。いくつかの実施例において、エッジ画素点の勾配値を算出することなく、最終的結果を得た後にエッジへ拡張すればよい。

ステップＳ１０２２において、該処理対象画像における各画素点の、第１方向勾配図における第１勾配近傍ブロックと第２方向勾配図における第２勾配近傍ブロックを決定する。

ここで、第１勾配近傍ブロックのサイズは、第２勾配近傍ブロックのサイズと同じであり、そして、各画素点の、処理対象画像における近傍画像ブロックのサイズと同じである。

ステップＳ１０２３において、該各画素点の第１勾配近傍ブロックと第２勾配近傍ブロックに基づいて、該各画素点の特徴ベクトルを決定する。

ここで、該ステップＳ１０２３は、以下のステップによって実現してもよい。

ステップＳ２３１において、該各画素点の第１勾配近傍ブロックと第２勾配近傍ブロックに基づいて、該各画素点の共分散行列を決定する。

ここで、画素ｉの第１勾配近傍ブロックＸと第２勾配近傍ブロックＹがいずれもサイズ５＊５の画像ブロックであり、即ち、第１勾配近傍ブロックと第２勾配近傍ブロックにいずれも２５個の勾配値が含まれ、Ｘ＝｛ｘ_１，ｘ_２，…ｘ_２５｝、Ｙ＝｛ｙ_１，ｙ_２，…ｙ_２５｝であるとすれば、画素点ｉの共分散行列Ａは、式（１－１）によって得られてもよい。

式（１－１）から分かるように、共分散行列は、２＊２の対称行列である。

ステップＳ２３２において、各共分散行列に対応する各第１特徴値と各第２特徴値を決定する。

ここで、式（１－２）と式（１－３）に応じて、共分散行列Ａの第１特徴値λ_１と第２特徴値λ_２を算出することができる。

ここで、ａ＝Σｘ_ｉｘ_ｉ、ｂ＝Σｘ_ｉｙ_ｉ、ｃ＝Σｙ_ｉｙ_ｉである。

ステップＳ２３３において、該各画素点の近傍画像ブロックに対応する各分散値を決定する。

ステップＳ２３４において、該各第１特徴値、各第２特徴値及び各分散値に基づいて、該各画素点の特徴ベクトルを決定する。

ここで、本願の実施例において、各画素点の特徴ベクトルは、４次元のものであってもよく、この場合、ステップＳ２３４を実現する時、第１次元特徴ｆ_１＝ａｔａｎ２（λ_１，λ_２）、第２次元特徴ｆ_２＝λ_１、第３次元特徴

、第４次元特徴ｆ_４＝ｖであってもよく、ｖは、ステップＳ２３３で決定された分散値である。

説明すべきこととして、いくつかの実施例において、第１方向勾配図と第２方向勾配図を決定した後、各画素点の第１方向勾配値と第２方向勾配値を直接的に各画素点の特徴ベクトルとしてもよい。いくつかの実施例において、他の特徴抽出アルゴリズムを利用して、処理対象画像における各画素点の特徴ベクトルを抽出してもよい。しかしながら、後続で、特徴ベクトルに基づいてモデル変換を行う必要があるため、どのような方式を用いて処理対象画像の特徴を抽出するかに関わらず、得られた特徴ベクトルの次元が大きすぎてはいけない。これによって、モデル変換を行った後に得られた軽量化モデルの数が多すぎることによって計算の複雑度が高すぎることを引き起こすことを回避する。

いくつかの実施例において、ステップＳ１０１の前に、以下のステップによって、所定のニューラルネットワークモデルに対して訓練を行い、訓練されたニューラルネットワークモデルを得る必要がある。

ステップＳ００１において、訓練データと所定のニューラルネットワークモデルを取得する。

該訓練データは少なくとも第１訓練画像と第２訓練画像を含み、該第２訓練画像は、該第１訓練画像に対してダウンサンプリングを行うことで得られたものであり、つまり、第２訓練画像の解像度は、第１訓練画像の解像度よりも低い。本願の実施例において、第１訓練画像と第２訓練画像は、いずれもグレースケール画像である。いくつかの実施例において、訓練データは、第２訓練画像における各画素点の特徴ベクトルを更に含んでもよい。

該所定のニューラルネットワークモデルは、深層学習ニューラルネットワークモデルであってもよく、該ニューラルネットワークモデルは、生成モデルと識別モデルを含んでもよい。

ステップＳ００２において、該ニューラルネットワークモデルを利用して、該第２訓練画像に対して処理を行い、予測画像を得る。

ここで、訓練データに第２訓練画像における各画素点の特徴ベクトルが含まれる場合、ステップＳ００２を実現する時、第２訓練画像における各画素点の特徴ベクトルを該ニューラルネットワークモデルに入力し、予測画像を得ることであってもよい。訓練データに第１訓練画像と第２訓練画像のみ含まれる場合、ステップＳ００２を実現する時、第２訓練画像を該ニューラルネットワークモデルに入力し、予測画像を得ることであってもよい。

ステップＳ００３において、該予測画像、該第１訓練画像及び所定の目的関数に基づいて、該ニューラルネットワークモデルに対して逆伝播訓練を行い、訓練されたニューラルネットワークモデルを得る。

ここで、該所定の目的関数は、生成目的関数と識別目的関数を含み、これに対応して、該ステップＳ００３は、下記ステップによって実現してもよい。

所定の訓練完了条件に達して、訓練されたニューラルネットワークモデルを得るまで、

ステップＳ３１において、該識別モデルの識別パラメータを固定し、該予測画像、該第１訓練画像及び生成目的関数に基づいて、該生成モデルに対して逆伝播訓練を行い、該生成モデルの生成パラメータに対して調整を行い、
ステップＳ３２において、該生成モデルの生成パラメータを固定し、該予測画像、該第１訓練画像及び識別目的関数に基づいて、該識別モデルに対して逆伝播訓練を行い、該識別モデルの識別パラメータに対して調整を行う。

ここで、本願の実施例において、所定の訓練完了条件は、訓練回数が所定の回数閾値に達することであってもよく、予測画像と第１訓練画像との差分値が所定の差分閾値よりも低いことであってもよい。

いくつかの実施例において、以下のステップによって生成目的関数を構築してもよい。

ステップＳ４１ａにおいて、該予測画像と該第１訓練画像との画素レベル誤差値とコンテンツ誤差値を決定する。

ここで、予測画像と第１訓練画像との画素レベル誤差値を決定する時、まず、予測画像と第１訓練画像における対応する各画素点間の誤差値を決定し、更に、各画素点間の誤差値を利用して予測画像と第１訓練画像との画素レベル誤差値を決定してもよい。該画素レベル誤差値は、各画素点間の誤差値に基づいて算出された平均誤差であってもよく、更に、各画素点間の誤差値に基づいて算出された平均二乗誤差（ＭＳＥ：ＭｅａｎＳｑｕａｒｅＥｒｒｏｒ）、絶対誤差などであってもよい。

予測画像と第１訓練画像とのコンテンツ誤差値を決定する時、予測画像と第１訓練画像をそれぞれコンテンツ特徴モジュールに入力し、予測コンテンツ特徴ベクトルと訓練コンテンツ特徴ベクトルを得てもよい。コンテンツ特徴モジュールは、予め訓練されたモジュールであり、一般的には、ＶＧＧ１９の上位複数層から構成される（上位１７層を用いることを勧める）。更に、予測コンテンツ特徴ベクトルと訓練コンテンツ特徴ベクトルに基づいて、コンテンツ誤差値を算出する。該コンテンツ誤差値は、予測コンテンツ特徴ベクトルと訓練コンテンツ特徴ベクトルとの平均誤差であってもよく、更に、両者間の平均二乗誤差、絶対誤差などの形式であってもよい。

ステップＳ４２ａにおいて、該予測画像と該識別モデルに基づいて、該予測画像の第１画素識別誤差値と第１グローバル識別誤差値を決定する。

ここで、ステップＳ４２ａを実現する時、まず、予測画像を識別モデルに入力し、予測画素識別行列と予測グローバル識別値を得てもよい。予測画素識別行列のサイズは、予測画像のサイズと一致する。そして、予測画素識別行列における各要素は、対応する位置の予測画像の画素点が生成器によって構築されたものである確率を表し、予測グローバル識別値は、１つの数値であり、予測画像が生成器によって構築されたものである確率を表す（該数値は、０－１の実数である）。更に、予測画素識別行列と否定値（即ち、０）に基づいて、第１画素識別誤差値を決定し、予測グローバル識別値と否定値に基づいて、第１グローバル識別誤差値を決定する。第１画素識別誤差値は、予測画素識別行列と否定値との平均誤差を算出することで得られたものであってもよく、両者間の平均二乗誤差を算出することで得られたものであってもよい。同様に、第１グローバル識別誤差値は、予測グローバル識別値と否定値との平均誤差を算出することで得られたものであってもよく、両者間の平均二乗誤差を算出することで得られたものであってもよい。

ステップＳ４３ａにおいて、所定の生成重み値、該画素レベル誤差値、該コンテンツ誤差値、該第１画素識別誤差値及び該第１グローバル識別誤差値に基づいて、生成目的関数を決定する。

ここで、所定の生成重み値には、画素レベル誤差値に対応する第１重み値、該コンテンツ誤差値に対応する第２重み値、該第１画素識別誤差値に対応する第３重み値及び該第１グローバル識別誤差値に対応する第４重み値が含まれる。ステップＳ４３ａを実現する時、画素レベル誤差値、該コンテンツ誤差値、該第１画素識別誤差値、該第１グローバル識別誤差値及び対応する重み値に対して加重加算を行い、生成目的関数を得る。

いくつかの実施例において、以下のステップによって識別目的関数を構築してもよい。

ステップＳ４１ｂにおいて、該予測画像と該識別モデルに基づいて、該予測画像の第２画素識別誤差値と第２グローバル識別誤差値を決定する。

ここで、ステップＳ４１ｂを実現する時、まず、予測画像を識別モデルに入力し、予測画素識別行列と予測グローバル識別値を得る。更に、予測画素識別行列と肯定値（即ち、１）に基づいて、第２画素識別誤差値を決定し、予測グローバル識別値と肯定値に基づいて、第２グローバル識別誤差値を決定する。第２画素識別誤差値は、予測画素識別行列と肯定値との平均誤差を算出することで得られたものであってもよく、両者間の平均二乗誤差を算出することで得られたものであってもよい。同様に、第２グローバル識別誤差値は、予測グローバル識別値と肯定値との平均誤差を算出することで得られたものであってもよく、両者間の平均二乗誤差を算出することで得られたものであってもよい。

ステップＳ４２ｂにおいて、該第１訓練画像と該識別モデルに基づいて、該第１訓練画像の第３画素識別誤差値と第３グローバル識別誤差値を決定する。

ここで、ステップＳ４２ｂを実現する時、まず、第１訓練画像を識別モデルに入力し、訓練画素識別行列と訓練グローバル識別値を得る。更に、訓練画素識別行列と否定値（即ち、０）に基づいて、第３画素識別誤差値を決定し、訓練グローバル識別値と否定値に基づいて、第３グローバル識別誤差値を決定する。第３画素識別誤差値は、訓練画素識別行列と否定値との平均誤差を算出することで得られたものであってもよく、両者間の平均二乗誤差を算出することで得られたものであってもよい。同様に、第３グローバル識別誤差値は、訓練グローバル識別値と否定値との平均誤差を算出することで得られたものであってもよく、両者間の平均二乗誤差を算出することで得られたものであってもよい。

ステップＳ４３ｂにおいて、所定の識別重み値、該第２画素識別誤差値、該第２グローバル識別誤差値、該第３画素識別誤差値及び該第３グローバル識別誤差値に基づいて、識別目的関数を決定する。

ここで、所定の識別重み値には、第２画素識別誤差値に対応する第５重み値、該第２グローバル識別誤差値に対応する第６重み値、該第３画素識別誤差値に対応する第７重み値及び該第３グローバル識別誤差値に対応する第８重み値が含まれる。ステップＳ４３ｂを実現する時、第２画素識別誤差値、該第２グローバル識別誤差値、該第３画素識別誤差値、該第３グローバル識別誤差値及び対応する重み値に対して加重加算を行い、識別目的関数を得ることであってもよい。

いくつかの実施例において、図４に示されるステップＳ５１ａからステップＳ５４ａによって軽量化モデルを得ることができる。

ステップＳ５１ａにおいて、該処理対象画像における各画素点に対応する特徴ベクトルに基づいて、特徴空間を決定する。

ここで、該特徴空間は、各画素点に対応する特徴ベクトルのうち、各次元の最大値及び最小値に基づいて決定されたものであってもよい。

ステップＳ５２ａにおいて、該特徴空間を所定の分割ルールに応じてＮ個の特徴部分空間に分割し、Ｎ個の特徴部分空間に対応するＮ個の中心座標をそれぞれ決定する。

ここで、ステップＳ５２ａを実現する時、特徴ベクトルの各次元を分割し、例えば、特徴ベクトルが４つの次元を有し、各次元を８等分すれば、８＊８＊８＊８＝４０９６個の特徴部分空間を得、各特徴部分空間における各次元の最大値及び最小値に基づいて、対応する中心座標を決定することであってもよい。実現する時、各特徴部分空間における各次元の最大値と最小値との中央値を特徴部分空間に対応する中心座標として決定してもよい。

ステップＳ５３ａにおいて、Ｎ個の中心座標を該訓練されたニューラルネットワークモデルにそれぞれ入力し、Ｎ個の特徴部分空間のＮ個の畳み込みカーネルを得る。

ステップＳ５４ａにおいて、Ｎ個の特徴部分空間とＮ個の畳み込みカーネルを軽量化モデルとして決定する。

上記ステップＳ５１ａからステップＳ５４ａにおいて、特徴空間を分割し、範囲がより小さい特徴部分空間を得、各特徴部分空間に対応する畳み込みカーネルを決定しているため、軽量化モデルを得た。

いくつかの実施例において、下記ステップによっても軽量化モデルを得ることができる。

ステップＳ５１ｂにおいて、該処理対象画像における各画素点に対応する特徴ベクトルに基づいて、決定木を構築する。

ここで、ステップＳ５１ｂを実現する時、まず、全ての特徴ベクトルを１つのノードとして見なし、そして、全ての特徴ベクトルから、１つの特徴ベクトルを選択して、全ての特徴ベクトルに対して分割を行い、複数の子ノードを生成し、各子ノードに対して判断を行い、分割停止条件を満たせば、該ノードをリーフノードとして設定し、そうでなければ、分割停止条件に達するまで、子ノードから、１つの特徴ベクトルを選択して該子ノードにおける全ての特徴ベクトルに対して分割を行うことにより、決定木を得ることであってもよい。

ステップＳ５２ｂにおいて、決定木における各リーフノードを該訓練されたニューラルネットワークモデルにそれぞれ入力し、各リーフノードに対応する畳み込みカーネルを得る。

ここで、各リーフノードを訓練されたニューラルネットワークモデルに入力し、即ち、リーフノードとした特徴ベクトルを訓練されたニューラルネットワークモデルに入力し、各リーフノードに対応する畳み込みカーネルを得る。

ステップＳ５３ｂにおいて、該各リーフノード及び対応する畳み込みカーネルを該軽量化モデルとして決定する。

上記ステップＳ５１ｂからステップＳ５３ｂにおいて、各画素点の特徴ベクトルに基づいて、決定木を構築し、決定木における各リーフノードに対応する畳み込みカーネルを決定しているため、軽量化モデルを得た。

上記ステップＳ５１ａからステップＳ５４ａに基づいて、軽量化モデルを得た後、又は、上記ステップＳ５１ｂからステップＳ５３ｂに基づいて、軽量化モデルを得た後、上記ステップＳ１０３「軽量化モデルを利用して、各画素点の特徴ベクトルと近傍画像ブロックに対して処理を行い、処理後のターゲット画像を得るステップ」は、以下のステップによって実現してもよい。

ステップＳ１０３１において、該各画素点の特徴ベクトルと該軽量化モデルに基づいて、各画素点に対応する畳み込みカーネルを決定する。

ここで、該軽量化モデルが特徴空間に対して分割を行って特徴部分空間を得ることで得られたものであれば、ステップＳ１０３１を実現する時、ある画素点ｉの特徴ベクトルに基づいて、該特徴ベクトルが軽量化モデルにおけるどの特徴部分空間に収まるかを決定し、更に、該特徴部分空間に対応する畳み込みカーネルを取得することであってもよい。本願の実施例において、異なる画像処理を行う時、得られた畳み込みカーネルのチャンネル数は異なる。例えば、超解像処理を行い、そして、超解像倍率がＰであり、Ｐが１よりも大きい整数であり（例えば、２であってもよい）、処理前のオリジナル画像サイズがＷ＊Ｄであり（例えば、１２８０＊７２０である）、処理後の画像サイズがＷ＊Ｐ＊Ｄ＊Ｐである（例えば、処理後の画像サイズは１２８０＊２＊７２０＊２であり、即ち２５６０＊１４４０である）と、この場合、得られた畳み込みカーネルのチャンネル数は、Ｐ＊Ｐ（即ち、４）である。雑音除去処理を行うと、処理前のオリジナル画像のサイズが処理後の画像のサイズと一致するため、この場合、得られた畳み込みカーネルのチャンネル数は、１である。

ここで、該軽量化モデルは、決定木を構築することで得られたものであれば、ステップＳ１０３１を実現する時、各画素点の特徴ベクトルと決定木における各ノードを比較し、最終的に、各画素点に対応するターゲットリーフノードを得、ターゲットリーフノードに対応する畳み込みカーネルを取得することであってもよい。

ステップＳ１０３２において、該各画素点の近傍画像ブロック及び対応する各畳み込みカーネルに対して畳み込み演算を行い、処理後の画素値を得る。

ここで、１つの画素値に対して畳み込み演算を行った後に得られた処理後の画素値の数は、畳み込みカーネルのチャンネル数に関わる。例えば、畳み込みカーネルのチャンネル数が１であれば、得られた処理後の画素値の数も１である。畳み込みカーネルのチャンネル数がＰ＊Ｐであれば、得られた処理後の画素値の数は、Ｐ＊Ｐである。

ステップＳ１０３３において、処理後の画素値に基づいて、処理後のターゲット画像を決定する。

ここで、処理後の画素値の数が１である場合、直接的に、処理後の画素値に基づいて、処理後のターゲット画像を得る。処理後の画素値の数がＰ＊Ｐである場合、処理後の画素値に対してスプライスとシャッフルを行うことによって、処理後のターゲット画像を得る。

ステップＳ１０３１からステップＳ１０３３に関わる実施例において、軽量化モデルを利用して各画素点に対応する畳み込みカーネルを決定するため、軽量化処理前のニューラルネットワークモデルに対応する畳み込みカーネルに比べて、次元が低減する。従って、畳み込み演算を行う時、演算量を低減させることができ、それによって処理効率を向上させ、リアルタイム処理を実現させる。

前記実施例によれば、本願の実施例は、画像処理方法を更に提供する。図５は、本願の実施例による画像処理方法のまた１つの実現フロー概略図である。これは、図１Ａに示されるネットワークアーキテクチャに用いられ、図５に示すように、該方法は、以下を含む。

ステップＳ２０１において、第１端末がビデオ視聴の操作命令を受け付ける。

ここで、該操作指令は、ユーザによってビデオ視聴Ａｐｐのビデオ視聴入口で行われるクリック又はタッチ操作によってトリガーされたものであってもよい。

ステップＳ２０２において、第１端末が該操作指令に基づいて、サーバにビデオ視聴の要求メッセージを送信する。

ここで、該要求メッセージにおいて、ターゲットビデオ識別子が付されている。

ステップＳ２０３において、サーバが該要求メッセージに基づいて、ターゲットビデオファイルを取得する。

ここで、サーバは、該要求メッセージを受信した後、該要求メッセージを解析し、ターゲットビデオ識別子を取得し、ターゲットビデオ識別子に基づいて、ターゲットビデオファイルを取得する。

ステップＳ２０４において、サーバが該ターゲットビデオファイルに基づいて、第１端末にビデオデータストリームを返信する。

ステップＳ２０５において、第１端末が受信されたビデオデータストリームに対して復号を行い、処理対象画像を得る。

ここで、ステップＳ２０５を実現する時、第１端末は、受信されたビデオデータストリームに対して復号を行い、各ビデオ画像フレームを得、各ビデオ画像フレームを処理対象画像として決定する。

ステップＳ２０６において、第１端末が、該処理対象画像がグレースケール画像であるかどうかを判断する。

ここで、処理対象画像がグレースケール画像である場合、ステップＳ２０７へ進み、処理対象画像がカラー画像である場合、ステップＳ２０９へ進む。本願の実施例において、処理対象画像がカラー画像である場合、ＲＧＢカラー画像であってもよく、ｓＲＧＢカラー画像、ＣＭＹＫカラー画像などであってもよい。

ステップＳ２０７において、第１端末が該処理対象画像における各画素点の特徴ベクトルを抽出し、各画素点に対応する近傍画像ブロックを決定する。

ステップＳ２０８において、第１端末が軽量化モデルを利用して、各画素点の特徴ベクトルと近傍画像ブロックに対して処理を行い、処理後のターゲット画像を得る。

該軽量化モデルは、訓練されたニューラルネットワークモデルに対して軽量化処理を行うことで得られたものである。実際に実現する時、訓練されたニューラルネットワークモデルに基づいて、部分空間分割又は決定木生成を行い、軽量化モデルを得ることであってもよい。

本願の実施例におけるステップＳ２０７とステップＳ２０８の実現プロセスは、他の実施例におけるステップＳ１０２とステップＳ１０３の実現プロセスと類似しており、ステップＳ１０２とステップＳ１０３の実現プロセスを参照してもよい。

ステップＳ２０９において、第１端末が処理対象画像を輝度クロマ（ＹＵＶ）色域に変換し、輝度（Ｙ）チャンネル処理対象画像とクロマ（ＵＶ）チャンネル処理対象画像を得る。

ここで、ステップＳ２０９を実現する時、所定の変換関数に基づいて、処理対象カラー画像をＹＵＶ色域に変換し、Ｙチャンネル処理対象画像とＵＶチャンネル処理対象画像を得ることであってもよい。ＹＵＶ画像におけるＹチャンネル情報が、画像のグレースケールを表示するために十分であるため、この場合、Ｙチャンネル処理対象画像は、シングルチャンネルグレースケール画像である。

ステップＳ２１０において、第１端末がＹチャンネル処理対象画像における各Ｙチャンネル画素点の特徴ベクトルを抽出し、各Ｙチャンネル画素点に対応する近傍画像ブロックを決定する。

ここで、ステップＳ２１０の実現プロセスは、上記ステップＳ１０２の実現プロセスと類似しており、実際に実現する時、ステップＳ１０２の実現プロセスを参照してもよい。

ステップＳ２１１において、第１端末が該軽量化モデルを利用して、各Ｙチャンネル画素点の特徴ベクトルと近傍画像ブロックに対して処理を行い、処理後のＹチャンネルターゲット画像を得る。

本願の実施例において、処理対象カラー画像をＹＵＶ色域に変換した後、軽量化モデルを利用して、Ｙチャンネル処理対象画像のみに対して画像処理を行い、処理後のＹチャンネルターゲット画像を得る。ステップＳ２１１の実現プロセスは、上記ステップＳ１０３の実現プロセスと類似しており、実際に実現する時、ステップＳ１０３の実現プロセスを参照してもよい。

ステップＳ２１２において、第１端末が所定の画像処理アルゴリズムを利用して、ＵＶチャンネル処理対象画像に対して処理を行い、ＵＶチャンネルターゲット画像を得る。

ここで、異なる画像処理の目的に対して、所定の画像処理アルゴリズムは異なる。例えば、画像処理の目的が画像解像度向上である時、所定の画像処理アルゴリズムは、画像補間アルゴリズムであってもよく、例えば、バイキュービック補間アルゴリズムであってもよい。画像処理の目的が画像雑音除去である時、所定の画像処理アルゴリズムは、フィルタリングアルゴリズムであってもよく、例えば、空間ドメインフィルタリングアルゴリズム、変換ドメインフィルタリングアルゴリズムなどであってもよい。

ステップＳ２１３において、第１端末がＹチャンネルターゲット画像とＵＶチャンネルターゲット画像に基づいて、ターゲット画像を決定し、該ターゲット画像の色域は、処理対象画像の色域と同じである。

ここで、所定の画像処理アルゴリズムを利用して、ＵＶチャンネル処理対象画像に対して処理を行い、ＵＶチャンネルターゲット画像を得た後、ステップＳ２１３において、ステップＳ２１１で得られたＹチャンネルターゲット画像とＵＶチャンネルターゲット画像に対して色域変換を行い、色域が処理対象画像と同じであるターゲット画像を得る。

ステップＳ２１４において、第１端末がターゲット画像を出力する。

ここで、ステップＳ２１４を実現する時、第１端末の表示インタフェースに該ターゲット画像を表現することであってもよい。

本願の実施例による画像処理方法において、第１端末は、サーバから、ビデオデータストリームを取得した後、ビデオデータストリームに対して復号を行い、処理対象画像を得、処理対象画像がグレースケール画像である時、軽量化モデルを直接的に利用して処理対象画像に対して処理を行い、ターゲット画像を得、処理対象画像がカラー画像である時、処理対象画像をＹＵＶ色域に変換し、軽量化モデルを利用して、Ｙチャンネル処理対象画像に対して処理を行い、Ｙチャンネルターゲット画像を得、所定の画像処理アルゴリズムを利用して、ＵＶチャンネル処理対象画像に対して処理を行い、ＵＶチャンネルターゲット画像を得、更に、Ｙチャンネルターゲット画像とＵＶチャンネルターゲット画像を処理対象画像と同じである色域に更に変換し、ターゲット画像を得、ターゲット画像を出力する。このように、画像処理速度を向上させ、リアルタイム実行を実現させることができる（異なるモデルが変換された後、高速化率が異なり、理論的には、１００倍以上に達することができる）。本願の実施例による画像処理方法は、超解像処理、雑音除去処理、画像強調処理などの方面に用いることができ、適用範囲が広い。

以下では、本願の実施例の、１つの実際な適用シーンへの例示的な応用を説明する。本願の実施例による画像処理方法は、複数種の画像処理の応用（例えば、画像超解像、雑音除去、強調など）に用いることができる。本願の実施例において、画像、ビデオ超解像の応用を例として説明する。

図６を参照すると、図６は、本願の実施例による画像処理方法の実現フロー概略図である。該方法は、画像処理機器に用いられる。該画像処理機器は、図１Ａに示される第１端末であってもよく、図１Ｂに示されるサーバであってもよい。図６に示すように、該方法は、以下を含む。

ステップＳ６０１において、画像処理機器が訓練データ集合の構築を行う。

ここで、ステップＳ６０１を実現する時、まず、高解像度画像に対して、ダウンサンプリングによって、低解像度画像を構築し、そして、特徴抽出アルゴリズムを使用して、低解像度画像における各画素の特徴を抽出し、特徴マップを得、最後に、各組の＜高解像度画像、低解像度画像、特徴マップ＞を使用して訓練データ集合を構築する。

ステップＳ６０２において、画像処理機器が深層学習モデルの訓練を行う。

ここで、ステップＳ６０２を実現する時、訓練データ集合、訓練アルゴリズム及び損失関数に基づいて、深層学習モデルを訓練する。

ステップＳ６０３において、画像処理機器がモデル変換を行う。

ここで、実現する時、モデル変換アルゴリズムを使用して、訓練された深層学習モデルを軽量モデル、例えば、部分空間モデルに簡略化する。

ステップＳ６０４において、画像処理機器がリアルタイム推論を行う。

ここで、実現する時、軽量化モデルを用いてリアルタイム推論を行う。まず、特徴抽出アルゴリズムによって、超解像対象画像の特徴を抽出し、そして、抽出された特徴と超解像対象画像を使用して、軽量化モデル（例えば、部分空間モデル）によって高速処理を行い、超解像画像を得る。

以下では、図面を参照しながら、ステップＳ６０１からステップＳ６０４を説明する。

まず、ステップＳ６０１「訓練データ集合を構築するステップ」を説明する。図７Ａを参照すると、図７Ａは、本願の実施例によるデータ集合の構築の実現フロー概略図である。図７Ａに示すように、該実現フローは、以下を含む。

ステップＳ６０１１において、高解像度画像を取得する。

ここで、高解像度画像の幅と高さは、超解像倍率Ｎの整数倍でなければならず、そして、グレースケール画像でなければならない。

ステップＳ６０１２において、人工的ダウンサンプリングアルゴリズムを使用して、高解像度画像の解像度を低減し、低解像度画像を得る。

ここで、人工的ダウンサンプリング方法を使用して、高解像度画像をＮ倍縮小する。本願の実施例において、ダウンサンプリング方法は、平均値フィルタリング、線形差などの種々の方法であってもよい。

ステップＳ６０１３において、特徴抽出アルゴリズムを使用して、低解像度画像の特徴を抽出し、特徴マップを得る。

ステップＳ６０１４において、高解像度画像、低解像度画像及び特徴マップによって訓練集合を構成する。

本願の実施例において、ステップＳ６０１３を実現する時、勾配特徴と分散を低解像度画像の特徴として用いて、特徴マップを更に構築することができる。いくつかの実施例において、各画素に対して、それに対応する４次元特徴を算出してもよい。そして、元の画素の順番に応じて、幅と高さが低解像度画像と同じであり、チャンネル数が４である特徴マップとなるように配列する。

図７Ｂは、本願の実施例による低解像度画像特徴の抽出の実現フロー概略図である。図７Ｂに示すように、該フローは、以下を含む。

ステップＳ３１において、画像処理機器が低解像度画像の第１方向勾配図ｄｘを算出する。

ここで、画像処理機器は、図１Ａに示される第１端末であってもよく、図１Ｂに示されるサーバであってもよい。実現する時、低解像度画像で、各画素ｉに対して、右の１つの画素の値から左の１つの画素の値を減算し、その差を２で除算し、該画素ｉの、ｄｘにおける対応する勾配値を得る。

ステップＳ３２において、画像処理機器が低解像度画像の第２方向勾配図ｄｙを算出する。

ここで、実現する時、低解像度画像で、各画素ｉに対して、下の１つの画素の値から上の１つの画素の値を減算し、その差を２で除算し、該画素ｉの、ｄｙにおける対応する勾配値を得る。

ステップＳ３３において、低解像度画像における各画素ｉに対して、画像処理機器が以下の処理を行い、それに対応する特徴を得る（本願の実施例において、４次元特徴を得る）。

ステップ３３１において、画像処理機器が、画素ｉの、ｄｘ，ｄｙにおける対応する位置の近傍画像ブロックを算出し、それぞれｘ、ｙと記す。

ここで、ｘとｙは、図７Ｂにおけるｄｘブロックとｄｙブロックに対応する。

ステップ３３２において、ｘ、ｙをベクトルと見なし、ｘ、ｙの長さをＭと記し、その要素がそれぞれｘ_ｉ（ｉ＝１，２，…，Ｍ）、ｙ_ｉ（ｉ＝１，２，…，Ｍ）であり、ｘ、ｙの共分散行列Ａを算出し、共分散行列Ａの定義は、式（１－１）に示すとおりである。

式（１－１）において、ｉ＝１，２…，Ｍである。

ステップ３３３において、共分散行列Ａの特徴値λ_１、λ_２を算出する。

ここで、式（１－２）と式（１－３）に応じて、共分散行列Ａの特徴値λ_１とλ_２をそれぞれ算出する。

ステップ３３４において、低解像度画像で、画素ｉの近傍画像ブロックを取り出し、該近傍画像ブロックの分散ｖを算出する。

ステップ３３５において、画素ｉの４次元特徴を算出する。

ここで、第１次元特徴ｆ_１＝ａｔａｎ２（λ_１，λ_２）であり、第２次元特徴ｆ_２＝λ_１であり、第３次元特徴

であり、第４次元特徴ｆ_４＝ｖである。

上記ステップＳ３１からステップＳ３３に応じて、低解像度画像における各画素の特徴を算出することによって、特徴マップを構築する。

続いて、ステップＳ６０２「深層学習モデル及びその訓練」を説明する。図８Ａを参照すると、図８Ａは、本願の実施例による深層学習モデル及びその訓練の実現フロー概略図である。図８Ａに示すように、該フローは、以下を含む。

ステップＳ６０２１において、生成器（超解像モデル）を構築する。

ステップＳ６０２２において、識別器（識別モデル）を構築する。

ステップＳ６０２３において、生成目的関数を構築する。

ステップＳ６０２４において、識別目的関数を構築する。

ステップＳ６０２５において、２つの目的関数を使用して超解像モデルと識別モデルを訓練する。

本願の実施例において、使用可能な超解像ネットワーク構造とネットワークの使用方法は、図８Ｂに示すとおりであり（ネットワーク構造は、これに限定されない）、使用可能な超解像ネットワーク構造は、図８Ｂにおける８１１に示すとおりである。

本願の実施例において、深層超解像ネットワークは、１つの深層ニューラルネットワークであり、図８Ｂに示すように、全結合層０８１１１、再構築（Ｒｅｓｈａｐｅ）層１８１１２、残差モジュール１～Ｚ８１１３、全結合層２Ｚ＋１８１１４、Ｒｅｓｈａｐｅ層２８１１５を含む。残差モジュールｉ８１１３は、図８Ｂに示すように、全結合層ｉ＿１１１３１、全結合層ｉ＿２１１３２及び加算層１１３３を更に含む。

低解像度画像の特徴マップを深層ニューラルネットワークに入力し、現在の画像ブロックの超解像に用いられる畳み込みカーネルを出力する。

低解像度画像の寸法がＰ×Ｐであり、超解像倍率がＮであるとすれば、推奨されるネットワークパラメータは、下記表１に示すとおりである。

Ｚの推奨値は、１０であり、表において、「－」は、バッチ処理の次元を表す。

図８Ｂに示すように、該深層超解像ネットワークの使用プロセスは以下のとおりである。

ステップＳ８０１において、データ集合から、画素ｉに対応する低解像度画像ブロックＲ_ｉ、４次元特徴Ｆ_ｉを取り出す。

ステップＳ８０２において、特徴Ｆ_ｉを深層超解像ネットワークに入力し、画像ブロックＲ_ｉに用いられる超解像用畳み込みカーネルｉを得る。

ステップＳ８０３において、画像ブロックＲ_ｉと畳み込みカーネルｉに対して畳み込み演算を行い、超解像後のＮ^２個の画素を得て、ベクトルＩ_ｉと記す。

ステップＳ８０４において、全ての画素の超解像後の値Ｉ_ｉを算出した後、スプライスとシャッフル（即ち、画素シャッフル：ＰｉｘｅｌＳｈｕｆｆｌｅ）を行い、超解像度画像Ｓを得る。

ここで、低解像度画像の幅と高さがそれぞれＷ、Ｈであるとすれば、超解像後の画素を直接的に組み合わせることで得られた画像Ｓは、三次元行列であり、３つの次元は、それぞれＷ、Ｈ、Ｎ^２であり、優先度が順に高くなり、Ｎは、超解像倍率である。

例えば、Ｗは、６４０であり、Ｈは、３６０であり、Ｎは、２であり、超解像後に得られた画像Ｓの３つの次元はそれぞれ、６４０、３６０及び４である。

ステップＳ８０４を実現する時、まず、Ｓを４次元行列となるように再構築し、次元はそれぞれ、Ｗ、Ｈ、Ｎ、Ｎであり（例えば、それぞれ６４０、３６０、２、２である）、続いて、Ｓの第２次元と第３次元を交換し、更に、Ｓを２次元行列となるように再構築し、次元はそれぞれＷＮ（６４０＊２＝１２８０）、ＨＮ（３６０＊２＝７２０）であり、再構築後のＳは、超解像度画像Ｓである。

本願の実施例において、超解像ネットワークから出力された畳み込みカーネルは、Ｎ^２個のチャンネルの畳み込みカーネルである。

説明すべきこととして、超解像ネットワークは、上記入力特徴を用いて、後続のモデル変換ステップを効果的に実行できることを確保することができる（使用される特徴次元が多くなく、４次元だけである）。

図８Ｃを参照すると、図８Ｃは、本願の実施例による識別器のネットワーク構造概略図である。図８Ｃに示すように、該ネットワークモデルは、畳み込み層１８２１、畳み込み層２８２２、畳み込み層３８２３、全結合層１８２４及び畳み込み層４８２５を含む。図８Ｃに示される識別ネットワークモデルのネットワーク構造パラメータは、下記表２に示すとおりである。

図８Ｃに示すように、１つの画像８２６を識別ネットワークに入力した後、識別ネットワークは、グローバル識別出力８２７と画素識別出力８２８の２つの出力を有する。

グローバル識別出力８２７は、入力された画像が超解像ネットワークによって構築された画像であるかどうかを識別するためのものであり、出力は、１つの数値であり、入力された画像が生成器によって構築されたものである確率を表す（０－１であり、０は、生成器によって構築されたものではないことを表し、１は、生成器によって構築されたものであることを表す）。

画素識別出力８２８は、入力された画像が超解像ネットワークによって構築された画像であるかどうかを識別するためのものであり、出力は、幅と高さが入力画像と同じである行列であり、各要素は、対応する位置の入力画像の画素が生成器によって構築されたものである確率を表す（０－１であり、０は、生成器によって構築されたものではないことを表し、１は、生成器によって構築されたものであることを表す）。

本願の実施例において、図８Ｄに示すように、生成目的関数を構築することができる。
ステップＳ２３１において、画素レベル誤差を算出する。

ここで、ステップＳ２３１を実現する時、高解像度画像と超解像後の画像との各画素点の平均誤差を算出し、誤差は、最小二乗誤差（ＭＳＥ）、絶対誤差などの種々の形式であってもよい。

ステップＳ２３２において、コンテンツ誤差を算出する。

本願の実施例において、ステップＳ２３２は、以下のステップによって実現してもよい。

ステップＳ２３２１において、高解像度画像をコンテンツ特徴モジュールに入力し、高解像コンテンツ特徴を得る。

ここで、コンテンツ特徴モジュールは、予め訓練されたモジュールであり、一般的には、ＶＧＧ１９の上位の複数層から構成される（上位の１７層を用いることを勧める）。他のネットワーク、又は、異なる上位の複数層を用いてもよい。

ステップＳ２３２２において、超解像後の画像をコンテンツ特徴モジュールに入力し、超解像コンテンツ特徴を得る。

ステップＳ２３２３において、高解像コンテンツ特徴と超解像コンテンツ特徴の平均誤差、即ちコンテンツ誤差を算出し、誤差は、最小二乗誤差（ＭＳＥ）、絶対誤差などの種々の形式であってもよい。

ステップＳ２３３において、画素識別誤差とグローバル識別誤差を算出する。

ここで、ステップＳ２３３は、以下のステップによって実現してもよい。

ステップＳ２３３１において、超解像後の画像を識別ネットワークに入力し、超解像画素識別と超解像グローバル識別を得る。

ステップＳ２３３２において、超解像画素識別と否定値（０）との平均誤差、即ち画素識別誤差を算出する（生成器は、入力された画像の画素が超解像によって得られたものではないと識別ネットワークが認めるように、識別ネットワークを騙せることが望ましい）。

本願の実施例において、画素識別誤差は、バイナリ交差エントロピーなどの種々の形式であってもよい。

ステップＳ２３３３において、超解像グローバル識別と否定値（０）との平均誤差、即ちグローバル識別誤差を算出する（生成器は、入力された画像が全体的に見れば超解像によって得られたものではないと識別ネットワークが認めるように、識別ネットワークを騙せることが望ましい）。

本願の実施例において、グローバル識別誤差は、バイナリ交差エントロピーなどの種々の形式であってもよい。

ステップＳ２３４において、４つの誤差に対して加重加算を行い、生成目的関数を得る。

本願の実施例において、推奨される重み値は、画素識別誤差重み７ｅ－４、グローバル識別誤差重み３ｅ－４、コンテンツ誤差重み２ｅ－６、画素レベル誤差重み１．０である。

本願の実施例において、識別目的関数の構築方法は、図８Ｅに示すとおりである。

ステップＳ２４１において、超解像度画像の超解像グローバル誤差と超解像画素誤差を算出する。

ここで、ステップＳ２４１は、以下のステップによって実現してもよい。

ステップＳ２４１１において、超解像度画像を識別ネットワークに入力し、超解像グローバル識別と超解像画素識別を得る。

ステップＳ２４１２において、超解像画素識別と肯定値（１）との平均誤差、即ち超解像画素誤差を算出する（識別ネットワークは、入力された超解像後の画像の各画素が生成器の超解像モジュールによって構築されたものであることを認識できることが望ましい）。

本願の実施例において、超解像画素誤差は、バイナリ交差エントロピーなどの種々の形式であってもよい。

ステップＳ２４１３において、超解像グローバル識別と肯定値（１）との平均誤差、即ち超解像グローバル誤差を算出する（識別ネットワークは、入力された超解像後の画像が全体的には生成器の超解像モジュールによって構築されたものであることを認識できることが望ましい）。

本願の実施例において、超解像グローバル誤差は、バイナリ交差エントロピーなどの種々の形式であってもよい。

ステップＳ２４２において、高解像度画像の高解像グローバル誤差と高解像画素誤差を算出する。

ここで、ステップＳ２４２は、以下のステップによって実現してもよい。

ステップＳ２４２１において、高解像度画像を識別ネットワークに入力し、高解像グローバル識別と高解像画素識別を得る。

ステップＳ２４２２において、高解像画素識別と否定値（０）との平均誤差、即ち高解像画素誤差を算出する（識別ネットワークは、入力された高解像度画像の各画素が生成器の超解像モジュールによって構築されたものではないことを認識できることが望ましい）。

本願の実施例において、高解像画素誤差は、バイナリ交差エントロピーなどの種々の形式であってもよい。

ステップＳ２４２３において、高解像グローバル識別と否定値（０）との平均誤差、即ち高解像グローバル誤差を算出する（識別ネットワークは、入力された高解像度画像が全体的には生成器の超解像モジュールによって構築されたものではないことを認識できることが望ましい）。

本願の実施例において、高解像グローバル誤差は、バイナリ交差エントロピーなどの種々の形式であってもよい。

ステップＳ２４３において、４つの誤差に対して加重加算を行い、識別損失関数を得る。

本願の実施例において、推奨される重みはそれぞれ、超解像グローバル誤差の重み０．２５、超解像画素誤差の重み０．２５、高解像グローバル誤差の重み０．２５、高解像画素誤差の重み０．２５である。

生成モデル、識別モデル及び生成損失関数と識別損失関数を構築した後、生成損失関数と識別損失関数によって、生成モデルと識別モデルに対して訓練を行う必要がある。図８Ｆを参照すると、図８Ｆは、本願の実施例によるモデル訓練の実現フロー概略図である。図８Ｆに示すように、該フローは、以下を含む。

ステップＳ８４１において、画像処理機器が訓練パラメータとモデルパラメータを初期化する。

ここで、反復回数を１に初期化し、識別ネットワーク、生成ネットワークのパラメータ構造を初期化する。

ステップＳ８４２において、画像処理機器は、反復回数がＴ未満であるかどうかを判断する。

ここで、Ｔは、所定の反復回数閾値であり、例えば、１００００回であってもよい。

ここで、反復回数がＴ未満である場合、ステップＳ８４３へ進み、反復回数がＴ以上である場合、プロセスを終了する。

ステップＳ８４３において、画像処理機器が識別器のパラメータを固定し、最適化アルゴリズムで、訓練集合におけるデータと生成損失関数を用いて、生成器パラメータを一回訓練（反復）する。

ステップＳ８４４において、画像処理機器が生成器のパラメータを固定し、最適化アルゴリズムで、訓練集合におけるデータと識別損失関数を用いて、識別器パラメータを一回訓練（反復）する。

ステップＳ８４５において、反復回数＋１を行い、ステップＳ８４２へ再び進む。

上記ステップＳ８４１からステップＳ８４５によって、訓練された生成器パラメータと識別器パラメータを得ることができ、生成器パラメータは、深層超解像ネットワークのパラメータである。

以下では、ステップＳ６０３「モデル変換」を説明する。モデル変換の要旨は、深層学習モデルに対して近似サンプリングを行い、それを簡単な軽量化モデルに変換することである。以下では、深層超解像ネットワークモデルを部分空間モデルに変換する方法を例とする。一言で述べると、入力された特徴空間を分割し、各部分空間を得、各部分空間の全ての深層学習出力値を現在の空間中心点に対応する深層学習モデルの出力値に近似させる。

図９を参照すると、図９は、本願の実施例によるモデル変換の実現フロー概略図である。図９に示すように、該フローは、以下を含む。

ステップＳ６０３１において、画像処理機器が特徴空間に対して離散化を行う。

ここで、ステップＳ６０３１を実現する時、特徴空間（前記４次元の特徴空間）の各次元をセグメント化し、特徴１について、［０－２π］をＮ_１個（推奨値は、１６である）のセグメントに均一に分けることを推奨する。特徴２について、データの最大値と最小値に応じて、Ｎ_２個（推奨値は、８である）のセグメントに均一に分けることを推奨する。特徴３について、データの最大値と最小値に応じて、Ｎ_３個（推奨値は、８である）のセグメントに均一に分けることを推奨する。特徴４について、０からデータの最大値をＮ_４個（推奨値は、８である）のセグメントに均一に分けることを推奨する。上記セグメント化に応じて、特徴空間をＮ_１＊Ｎ_２＊Ｎ_３＊Ｎ_４（推奨値は、８１９２である）個の部分空間に分割する。

ステップＳ６０３２において、各部分空間ｉに対して、画像処理機器が該部分空間の中心、即ち中心座標ｉを算出する。

ここで、ステップＳ６０３２を実現する時、各次元に対して、その上下限の中央値をそれぞれ算出し、該部分空間の中心座標を得ることであってもよい。

ステップＳ６０３３において、画像処理機器が中心座標ｉを深層超解像ネットワークに入力し、畳み込みカーネルｉを得る。

ステップＳ６０３４において、画像処理機器が各部分空間及びそれに対応する畳み込みカーネルによって変換後の部分空間モデルを構成する。

説明すべきこととして、モデル変換のステップにおいて、部分空間モデルに変換できるのに加えて、いくつかの実施例では、深層学習モデルを他の軽量化モデル、例えば決定木などに変換してもよい。このようなモデル変換について言えば、深層学習モデルの構築データを用いて新たなターゲット軽量化モデルを訓練する方法で達してもよい。

以下では、ステップＳ６０４「リアルタイム推論」を説明する。リアルタイム推論のステップにおいて、我々は、ステップＳ６０３で得られた軽量化モデル（例えば、部分空間モデル）を利用して画像超解像のリアルタイム推論を実現させる。図１０は、本願の実施例によるリアルタイム推論の実現フロー概略図である。図１０に示すように、該フローは、以下を含む。

ステップＳ６０４１において、画像処理機器が超解像対象画像の特徴マップを算出する。

ここで、算出方法は、Ｓ６０１３と同じであり、特徴抽出アルゴリズムを用いて、超解像対象画像の特徴マップを抽出し、超解像対象画像は、シングルチャンネル画像である。

ステップＳ６０４２において、超解像対象画像における各画素ｉに対して、超解像対象画像で、画像処理機器が画素ｉの低解像度画像ブロックＲ_ｉを取得する。

ステップＳ６０４３において、画像処理機器が、画素ｉの、特徴マップにおける特徴Ｆ_ｉを取得する。

ステップＳ６０４４において、画像処理機器が特徴Ｆ_ｉを部分空間モデルに入力し、それの属する部分空間をクエリし、該部分空間に対応する畳み込みカーネルｉを得る。

ステップＳ６０４５において、画像処理機器が低解像度画像ブロックＲ_ｉと決定された部分空間に対応する畳み込みカーネルｉに対して畳み込み演算を行い、画素ｉが超解像された結果Ｌ_ｉ、即ち、超解像後のＮ^２個の超解像画素を得る。

ステップＳ６０４６において、画像処理機器が全ての超解像後の画素Ｌ_ｉ（Ｎ^２チャンネル。Ｎは、超解像倍率である）に対してスプライスとシャッフルを行い、超解像後の画像を得る。

ここで、ステップＳ６０４６のスプライスとシャッフル方法の実現方式は、ステップＳ８０４の実現方式を参照してもよい。

本願の実施例において、画像が往々にしてカラー画像であるため、カラー画像に対して、図１１に示されるフローに応じて超解像画像を得る。

ステップＳ１１０１において、画像処理機器がカラー画像を元の色域（例えば、ＲＧＢ色域）からＹＵＶ色域に変換し、Ｙチャンネル超解像対象画像とＵＶチャンネル超解像対象画像を得る。

ステップＳ１１０２において、画像処理機器がＹチャンネル超解像対象画像をリアルタイム超解像モジュールに入力し、リアルタイム超解像を行い、Ｙチャンネル超解像後の画像を得る。

ステップＳ１１０３において、画像処理機器がＵＶチャンネル超解像対象画像に対して、従来の画像補間方法で超解像処理を行い、ＵＶチャンネル超解像後の画像を得る。

本願の実施例において、バイキュービック補間を用いて、ＵＶチャンネル超解像対象画像に対して超解像処理を行ってもよく、いくつかの実施例において、他の画像補間方法を用いてもよい。

ステップＳ１１０４において、画像処理機器が超解像後のＹＵＶ画像を元の色域に変換し、変換によって得られた画像は、超解像後の画像である。

いくつかの実施例において、ビデオファイルに対して超解像処理を行う必要がある場合、図１２に示されるステップによって実現してもよい。

ステップＳ１２０１において、画像処理機器が超解像対象ビデオを取得する。

ステップＳ１２０２において、画像処理機器がビデオに対して復号を行い、各超解像対象ビデオフレームを得る。

ステップＳ１２０３において、画像処理機器が各超解像対象ビデオフレームｉに対して、それをリアルタイム超解像モジュールに入力し、超解像処理を行い、ビデオフレームｉの超解像後の画像を得る。

ここで、超解像対象ビデオフレームｉがカラー画像フレームである場合、ステップＳ１２０３は、ステップＳ１１０１からステップＳ１１０４に応じて実現してもよい。

ステップＳ１２０４において、画像処理機器が各ビデオフレームｉの超解像後の画像に対してビデオ符号化を行い、超解像後のビデオを得る。

本願の実施例による画像処理方法において、訓練時、種々の深層学習における目的関数を使用することができ、訓練されたモデルに、より高い画面効果を持たせることができ、そして、深層超解像モデルを軽量化モデルに変換することができ、それによってその推論速度を大幅に向上させ、リアルタイム実行を実現させることができる（異なるモデルが変換された後の高速化率が異なり、理論的には、１００倍以上に達することができる）。そして、超解像に加えて、本願の実施例による方法は、他の画像処理応用、例えば画像雑音除去、強調などに用いられてもよく、適用範囲がより広い。

以下では、引き続き、本願の実施例による画像処理装置１５４がソフトフェアモジュールとして実施される場合の例示的な構成を説明する。図１３は、本願の実施例による画像処理装置の構成概略図である。図１３に示すように、画像処理装置１５４は、
処理対象画像を取得するように構成される第１取得モジュール１５４１と、
該処理対象画像がグレースケール画像である場合、該処理対象画像における各画素点の特徴ベクトルを抽出し、該処理対象画像における各画素点に対応する近傍画像ブロックを決定するように構成される第１抽出モジュール１５４２と、
軽量化モデルを利用して、各画素点の特徴ベクトルと近傍画像ブロックに対して処理を行い、処理後のターゲット画像を得るように構成される第１処理モジュール１５４３であって、該軽量化モデルは、訓練されたニューラルネットワークモデルに対して軽量化処理を行うことで得られたものである、第１処理モジュール１５４３と、
該ターゲット画像を出力するように構成される出力モジュール１５４４と、を備える。

いくつかの実施例において、該画像処理装置は、
該処理対象画像がカラー画像である場合、該処理対象画像をＹＵＶ色域に変換し、Ｙチャンネル処理対象画像とＵＶチャンネル処理対象画像を得るように構成される色域変換モジュールと、
該Ｙチャンネル処理対象画像における各Ｙチャンネル画素点の特徴ベクトルを抽出し、該各Ｙチャンネル画素点に対応する近傍画像ブロックを決定するように構成される第２抽出モジュールと、
該軽量化モデルを利用して、該各Ｙチャンネル画素点の特徴ベクトルと近傍画像ブロックに対して処理を行い、処理後のＹチャンネルターゲット画像を得るように構成される第２処理モジュールと、
所定の画像処理アルゴリズムを利用して、該ＵＶチャンネル処理対象画像に対して処理を行い、ＵＶチャンネルターゲット画像を得るように構成される第３処理モジュールと、
該Ｙチャンネルターゲット画像とＵＶチャンネルターゲット画像に基づいて、ターゲット画像を決定するように構成される第１決定モジュールであって、該ターゲット画像の色域は、処理対象画像の色域と同じである、第１決定モジュールと、を更に備える。

いくつかの実施例において、該第１取得モジュールは更に、
処理対象ビデオファイルを取得し、
該ビデオファイルに対して復号を行い、該ビデオファイルにおける各ビデオフレーム画像を得、
該各ビデオフレーム画像を該処理対象画像として決定するように構成される。

いくつかの実施例において、該第１抽出モジュールは更に、
該処理対象画像に対応する第１方向勾配図と第２方向勾配図を決定し、
該処理対象画像における各画素点の、第１方向勾配図における第１勾配近傍ブロックと第２方向勾配図における第２勾配近傍ブロックを決定し、
該各画素点の第１勾配近傍ブロックと第２勾配近傍ブロックに基づいて、該各画素点の特徴ベクトルを決定するように構成される。

いくつかの実施例において、該第１抽出モジュールは更に、
該各画素点の第１勾配近傍ブロックと第２勾配近傍ブロックに基づいて、前記各画素点の共分散行列を決定し、
各共分散行列に対応する各第１特徴値と各第２特徴値を決定し、
該各画素点の近傍画像ブロックに対応する各分散値を決定し、
該各第１特徴値、各第２特徴値及び各分散値に基づいて、該各画素点の特徴ベクトルを決定するように構成される。

いくつかの実施例において、該画像処理装置は、
訓練データと所定のニューラルネットワークモデルを取得するように構成される第２取得モジュールであって、該訓練データは、第１訓練画像と第２訓練画像を含み、該第２訓練画像は、該第１訓練画像に対してダウンサンプリングを行うことで得られたものであり、該ニューラルネットワークモデルは、生成モデルと識別モデルを含む、第２取得モジュールと、
該ニューラルネットワークモデルを利用して、該第２訓練画像に対して処理を行い、予測画像を得るように構成される第４処理モジュールと、
該予測画像、該第１訓練画像及び所定の目的関数に基づいて、該ニューラルネットワークモデルに対して逆伝播訓練を行い、訓練されたニューラルネットワークモデルを得るように構成されるモデル訓練モジュールと、を更に備える。

いくつかの実施例において、該所定の目的関数は、生成目的関数と識別目的関数を含み、これに対応して、該モデル訓練モジュールは更に、
所定の訓練完了条件に達して、訓練されたニューラルネットワークモデルを得るまで、
該識別モデルの識別パラメータを固定し、該予測画像、該第１訓練画像及び生成目的関数に基づいて、該生成モデルに対して逆伝播訓練を行い、該生成モデルの生成パラメータに対して調整を行い、
該生成モデルの生成パラメータを固定し、該予測画像、該第１訓練画像及び識別目的関数に基づいて、該識別モデルに対して逆伝播訓練を行い、該識別モデルの識別パラメータに対して調整を行う、ように構成される。

いくつかの実施例において、該画像処理装置は、
該予測画像と該第１訓練画像との画素レベル誤差値とコンテンツ誤差値を決定するように構成される第２決定モジュールと、
該予測画像と該識別モデルに基づいて、該予測画像の第１画素識別誤差値と第１グローバル識別誤差値を決定するように構成される第３決定モジュールと、
所定の生成重み値、該画素レベル誤差値、該コンテンツ誤差値、該第１画素識別誤差値及び該第１グローバル識別誤差値に基づいて、生成目的関数を決定するように構成される第４決定モジュールと、を更に備える。

いくつかの実施例において、該画像処理装置は、
該予測画像と該識別モデルに基づいて、該予測画像の第２画素識別誤差値と第２グローバル識別誤差値を決定するように構成される第５決定モジュールと、
該第１訓練画像と該識別モデルに基づいて、該第１訓練画像の第３画素識別誤差値と第３グローバル識別誤差値を決定するように構成される第６決定モジュールと、
所定の識別重み値、該第２画素識別誤差値、該第２グローバル識別誤差値、該第３画素識別誤差値及び該第３グローバル識別誤差値に基づいて、識別目的関数を決定するように構成される第７決定モジュールと、を更に備える。

いくつかの実施例において、該画像処理装置は、
該処理対象画像における各画素点に対応する特徴ベクトルに基づいて、特徴空間を決定するように構成される第８決定モジュールと、
該特徴空間を所定の分割ルールに応じてＮ個の特徴部分空間に分割し、該Ｎ個の特徴部分空間に対応するＮ個の中心座標をそれぞれ決定するように構成される部分空間分割モジュールと、
該Ｎ個の中心座標を該訓練されたニューラルネットワークモデルにそれぞれ入力し、Ｎ個の特徴部分空間のＮ個の畳み込みカーネルを得るように構成される第１入力モジュールと、
該Ｎ個の特徴部分空間と該Ｎ個の畳み込みカーネルを該軽量化モデルとして決定するように構成される第９決定モジュールと、を更に備える。

いくつかの実施例において、該画像処理装置は、
該処理対象画像における各画素点に対応する特徴ベクトルに基づいて、決定木を構築するように構成される決定木構築モジュールと、
該決定木における各リーフノードを該訓練されたニューラルネットワークモデルにそれぞれ入力し、各リーフノードに対応する畳み込みカーネルを得るように構成される第２入力モジュールと、
該各リーフノード及び対応する畳み込みカーネルを該軽量化モデルとして決定するように構成される第１０決定モジュールと、を更に備える。

いくつかの実施例において、該第１処理モジュールは更に、
該各画素点の特徴ベクトルと該軽量化モデルに基づいて、各画素点に対応する畳み込みカーネルを決定し、
該各画素点の近傍画像ブロック及び対応する各畳み込みカーネルに対して畳み込み演算を行い、該各画素点の処理後の画素値を得、
各画素点の処理後の画素値に基づいて、処理後のターゲット画像を決定するように構成される。

説明すべきこととして、本願の実施例における画像処理装置の記述は、上記方法の実施例の記述と類似し、方法の実施例と類似した有益な効果を有する。本装置の実施例に開示されていない技術的細部について、本願の方法の実施例の記述を参照しながら、理解すべきである。

本願の実施例は、コンピュータプログラム製品又はコンピュータプログラムを提供する。該コンピュータプログラム製品又はコンピュータプログラムは、コンピュータ命令を含み、該コンピュータ命令は、コンピュータ可読記憶媒体に記憶されている。コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体から該コンピュータ命令を読み取り、該コンピュータ命令は、プロセッサにより実行されて、該コンピュータ機器に、本願の実施例に記載の画像処理方法を実行させる。

本願の実施例は、実行可能な命令が記憶されている記憶媒体を提供する。該記憶媒体に実行可能な命令が記憶されており、実行可能な命令がプロセッサにより実行される場合、プロセッサに、本願の実施例で提供される方法を実行させる。

いくつかの実施例において、記憶媒体は、コンピュータ可読記憶媒体であってもよく、例えば、強誘電体メモリ（ＦＲＡＭ（登録商標）：ＦｅｒｒｏｍａｇｎｅｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、読出し専用メモリ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、プログラマブル読出し専用メモリ（ＰＲＯＭ：ＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、消去可能なプログラマブル読出し専用メモリ（ＥＰＲＯＭ：ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、電気的消去可能なプログラマブル読出し専用メモリ（ＥＥＰＲＯＭ：ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ、磁気表面メモリ、光ディスク、又はコンパクトディスク読出し専用メモリ（ＣＤ－ＲＯＭ：ＣｏｍｐａｃｔＤｉｓｋ－ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などのメモリであってもよく、上記メモリのうちの１つ又は任意の組み合わせを含む種々の機器であってもよい。

いくつかの実施例において、実行可能な命令は、プログラム、ソフトウェア、ソフトウェアモジュール、スクリプト又はコードの形式で、任意の形式のプログラミング言語（コンパイル型言語又はインタプリタ型言語、あるいは、宣言型言語又は手続き型言語を含む）で書かれ、任意の形式で配置されてもよい。独立したプログラムとして配置されてもよく、モジュール、コンポーネント、サブルーチン又はコンピューティング環境に適用される他のユニットとして配置されてもよい。

例として、実行可能な命令は、ファイルシステムにおけるファイルに対応してもよいが、これに限定されない。他のプログラム又はデータを記憶するファイルの一部に記憶されてもよい。例えば、ハイパーテキストマークアップ言語（ＨＴＭＬ：ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）ドキュメントにおける１つ又は複数のスクリプトに記憶され、検討されるプログラム専用の単一のファイルに記憶され、又は、複数のコラボレーションファイル（例えば、１つ又は複数のモジュール、サブプログラム又はコードコンポーネントを記憶するファイル）に記憶される。例として、実行可能な命令は、１つのコンピューティング機器で実行され、又は、１つのサイトに位置する複数のコンピューティング機器で実行され、又は、複数のサイトに分布して通信ネットワークを介して相互接続される複数のコンピューティング機器で実行されるように配置されてもよい。

以上は本願の実施例に過ぎず、本願の保護範囲はそれらに制限されるものではない。本願の精神や範囲を逸脱することなく行われるあらゆる修正、同等置換及び改良などはすべて本願の保護範囲内に含まれるものとする。

100 第１端末
110 プロセッサ
120 ネットワークインタフェース
130 ユーザインタフェース
131 出力装置
132 入力装置
150 メモリ
151 オペレーティングシステム
152 ネットワーク通信モジュール
153 入力処理モジュール
154 画像処理装置
1541 第１取得モジュール
1542 第１抽出モジュール
1543 第１処理モジュール
1544 出力モジュール

Claims

画像処理機器が実行する画像処理方法であって、
処理対象画像を取得するステップと、
前記処理対象画像がグレースケール画像である場合、前記処理対象画像における各画素点の特徴ベクトルを抽出し、前記各画素点に対応する近傍画像ブロックを決定するステップと、
軽量化モデルを利用して、各画素点の特徴ベクトルと近傍画像ブロックに対して処理を行い、処理後のターゲット画像を得るステップであって、前記軽量化モデルは、訓練されたニューラルネットワークモデルに対して軽量化処理を行うことで得られたものである、ステップと、
前記ターゲット画像を出力するステップと、を含む、画像処理方法。
前記処理対象画像がカラー画像である場合、前記処理対象画像を輝度クロマ（ＹＵＶ）色域に変換し、輝度（Ｙ）チャンネル処理対象画像とクロマ（ＵＶ）チャンネル処理対象画像を得るステップと、
前記Ｙチャンネル処理対象画像における各Ｙチャンネル画素点の特徴ベクトルを抽出し、前記各Ｙチャンネル画素点に対応する近傍画像ブロックを決定するステップと、
前記軽量化モデルを利用して、前記各Ｙチャンネル画素点の特徴ベクトルと近傍画像ブロックに対して処理を行い、処理後のＹチャンネルターゲット画像を得るステップと、
所定の画像処理アルゴリズムを利用して、前記ＵＶチャンネル処理対象画像に対して処理を行い、ＵＶチャンネルターゲット画像を得るステップと、
前記Ｙチャンネルターゲット画像とＵＶチャンネルターゲット画像に基づいて、ターゲット画像を決定するステップであって、前記ターゲット画像の色域は、処理対象画像の色域と同じである、ステップと、を更に含む、
請求項１に記載の方法。
処理対象画像を取得する前記ステップは、
処理対象ビデオファイルを取得するステップと、
前記処理対象ビデオファイルに対して復号を行い、前記処理対象ビデオファイルにおける各ビデオフレーム画像を得るステップと、
前記各ビデオフレーム画像を前記処理対象画像として決定するステップと、を含む、
請求項１に記載の方法。
前記処理対象画像における各画素点の特徴ベクトルを抽出する前記ステップは、
前記処理対象画像に対応する第１方向勾配図と第２方向勾配図を決定するステップと、
前記処理対象画像における各画素点の、第１方向勾配図における第１勾配近傍ブロックと第２方向勾配図における第２勾配近傍ブロックを決定するステップと、
前記各画素点の第１勾配近傍ブロックと第２勾配近傍ブロックに基づいて、前記各画素点の特徴ベクトルを決定するステップと、を含む、
請求項１に記載の方法。
前記各画素点の第１勾配近傍ブロックと第２勾配近傍ブロックに基づいて、前記各画素点の特徴ベクトルを決定する前記ステップは、
前記各画素点の第１勾配近傍ブロックと第２勾配近傍ブロックに基づいて、前記各画素点の共分散行列を決定するステップと、
各共分散行列に対応する各第１特徴値と各第２特徴値を決定するステップと、
前記各画素点の近傍画像ブロックに対応する各分散値を決定するステップと、
前記各第１特徴値、各第２特徴値及び各分散値に基づいて、前記各画素点の特徴ベクトルを決定するステップと、を含む、
請求項４に記載の方法。
訓練データと所定のニューラルネットワークモデルを取得するステップであって、前記訓練データは、第１訓練画像と第２訓練画像を含み、前記第２訓練画像は、前記第１訓練画像に対してダウンサンプリングを行うことで得られたものであり、前記ニューラルネットワークモデルは、生成モデルと識別モデルを含む、ステップと、
前記ニューラルネットワークモデルを利用して、前記第２訓練画像に対して処理を行い、予測画像を得るステップと、
前記予測画像、前記第１訓練画像及び所定の目的関数に基づいて、前記ニューラルネットワークモデルに対して逆伝播訓練を行い、訓練されたニューラルネットワークモデルを得るステップと、を更に含む、
請求項１から５のうちいずれか一項に記載の方法。
前記所定の目的関数は、生成目的関数と識別目的関数を含み、前記予測画像、前記第１訓練画像及び所定の目的関数に基づいて、前記ニューラルネットワークモデルに対して逆伝播訓練を行い、訓練されたニューラルネットワークモデルを得る前記ステップは、
所定の訓練完了条件に達して、訓練されたニューラルネットワークモデルを得るまで、
前記識別モデルの識別パラメータを固定し、前記予測画像、前記第１訓練画像及び生成目的関数に基づいて、前記生成モデルに対して逆伝播訓練を行い、前記生成モデルの生成パラメータに対して調整を行い、
前記生成モデルの生成パラメータを固定し、前記予測画像、前記第１訓練画像及び識別目的関数に基づいて、前記識別モデルに対して逆伝播訓練を行い、前記識別モデルの識別パラメータに対して調整を行う、ステップを含む、
請求項６に記載の方法。
前記予測画像と前記第１訓練画像との画素レベル誤差値とコンテンツ誤差値を決定するステップと、
前記予測画像と前記識別モデルに基づいて、前記予測画像の第１画素識別誤差値と第１グローバル識別誤差値を決定するステップと、
所定の生成重み値、前記画素レベル誤差値、前記コンテンツ誤差値、前記第１画素識別誤差値及び前記第１グローバル識別誤差値に基づいて、生成目的関数を決定するステップと、を更に含む、
請求項７に記載の方法。
前記予測画像と前記識別モデルに基づいて、前記予測画像の第２画素識別誤差値と第２グローバル識別誤差値を決定するステップと、
前記第１訓練画像と前記識別モデルに基づいて、前記第１訓練画像の第３画素識別誤差値と第３グローバル識別誤差値を決定するステップと、
所定の識別重み値、前記第２画素識別誤差値、前記第２グローバル識別誤差値、前記第３画素識別誤差値及び前記第３グローバル識別誤差値に基づいて、識別目的関数を決定するステップと、を更に含む、
請求項７に記載の方法。
前記処理対象画像における各画素点に対応する特徴ベクトルに基づいて、特徴空間を決定するステップと、
前記特徴空間を所定の分割ルールに応じてＮ個の特徴部分空間に分割し、前記Ｎ個の特徴部分空間に対応するＮ個の中心座標をそれぞれ決定するステッであって、Ｎは、２よりも大きい整数である、ステップと、
前記Ｎ個の中心座標を前記訓練されたニューラルネットワークモデルにそれぞれ入力し、Ｎ個の特徴部分空間のＮ個の畳み込みカーネルを得るステップと、
前記Ｎ個の特徴部分空間と前記Ｎ個の畳み込みカーネルを前記軽量化モデルとして決定するステップと、を更に含む、
請求項１に記載の方法。
前記処理対象画像における各画素点に対応する特徴ベクトルに基づいて、決定木を構築するステップと、
前記決定木における各リーフノードを前記訓練されたニューラルネットワークモデルにそれぞれ入力し、各リーフノードに対応する畳み込みカーネルを得るステップと、
前記各リーフノード、及び前記各リーフノードに対応する畳み込みカーネルを前記軽量化モデルとして決定するステップと、を更に含む、
請求項１に記載の方法。
軽量化モデルを利用して、各画素点の特徴ベクトルと近傍画像ブロックに対して処理を行い、処理後のターゲット画像を得る前記ステップは、
前記各画素点の特徴ベクトルと前記軽量化モデルに基づいて、各画素点に対応する各畳み込みカーネルを決定するステップと、
前記各画素点の近傍画像ブロック、及び前記各画素点に対応する各畳み込みカーネルに対して畳み込み演算を行い、前記各画素点の処理後の画素値を得るステップと、
各画素点の処理後の画素値に基づいて、処理後のターゲット画像を決定するステップと、を含む、
請求項１０又は１１に記載の方法。
画像処理装置であって、
処理対象画像を取得するように構成される第１取得モジュールと、
前記処理対象画像がグレースケール画像である場合、前記処理対象画像における各画素点の特徴ベクトルを抽出し、前記各画素点に対応する近傍画像ブロックを決定するように構成される第１抽出モジュールと、
軽量化モデルを利用して、各画素点の特徴ベクトルと近傍画像ブロックに対して処理を行い、処理後のターゲット画像を得るように構成される第１処理モジュールであって、前記軽量化モデルは、訓練されたニューラルネットワークモデルに対して軽量化処理を行うことで得られたものである、第１処理モジュールと、
前記ターゲット画像を出力するように構成される出力モジュールと、を備える、画像処理装置。
画像処理機器であって、
実行可能な命令を記憶するためのメモリと、
前記メモリに記憶されている実行可能な命令を実行して、請求項１から１２のうちいずれか一項に記載の方法を実現するためのプロセッサと、を備える、画像処理機器。
コンピュータ可読記憶媒体であって、プロセッサにより実行される時、請求項１から１２のうちいずれか一項に記載の方法を実現させるための実行可能な命令を記憶した、コンピュータ可読記憶媒体。