JP2023508512A

JP2023508512A - 超解像度再構築方法及び関連装置

Info

Publication number: JP2023508512A
Application number: JP2022540308A
Authority: JP
Inventors: 茹王; 雅▲卿▼ 李; 承杰 ▲塗▼; ▲詩▼▲堯▼ 熊; 林燕江; ▲龍▼涛彭
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-21
Filing date: 2021-04-12
Publication date: 2023-03-02
Anticipated expiration: 2041-04-12
Also published as: CN111340711A; US20220261960A1; WO2021233008A1; CN111340711B; JP7417747B2

Abstract

人工知能に基づく超解像度再構築方法と関連装置であって、ビデオファイルに対して超解像度再構築を行う必要がある場合、第１の解像度の処理対象のビデオフレームシーケンスを取得する（Ｓ２０１）。処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、解像度再構築モデルに基づいて処理対象のビデオフレームを解像度再構築することで、第２の解像度の初期再構築ビデオフレームを取得する（Ｓ２０２）。初期再構築ビデオフレームにおける輪郭領域を決定し（Ｓ２０３）、輪郭領域を輪郭強調処理することで、ターゲット再構築ビデオフレームを取得する（Ｓ２０４）ことで、高周波の詳細をより鮮明にし、オンラインの実際のアプリケーションシーンに適合する画質を取得して、ビデオフレームシーケンスを再構築するによって、ユーザによりきれいで鮮明で、自然で快適なビデオ画面を提供することができ、ユーザのビデオ視聴体験の向上に有利である。

Description

本願は、２０２０年０５月２１日に中国国家知識産権局に提出された、出願番号が２０２０１０４３５０８２．８で、発明の名称が「超解像度再構築方法、装置、機器、及び記憶媒体」の中国特許出願についての優先権を主張し、その内容の全てが参照によって本願に組み込まれる。

[技術分野]
本願は、画像処理分野に関し、特に超解像度再構築に関する。

画像超解像度とは、情報が補完される１枚又は複数枚の低解像度画像を処理することによって、１枚の高解像度画像を再構築する技術として、メディアデータ（例えば、ビデオ又は画像）の品質を向上させる必要がある様々な分野、例えばオンラインのビデオ視聴、医学映像、ビデオモニタリング、リモートセンシングイメージングなどの分野に広く応用されている。

本願は、上記課題を解決するために、モデル出力の初期再構築ビデオフレームを後処理することで、オンラインの実際のアプリケーションシーンに適合する画質を取得することができ、汎化効果がより良く、ユーザのビデオ体験の向上に有利である、人工知能に基づく超解像度再構築方法及び関連装置を提供する。

本願の実施例は、以下の技術案を開示する。
一側面では、本願の実施例は、端末機器が実行する人工知能に基づく超解像度再構築方法であって、
第１の解像度の処理対象のビデオフレームシーケンスを取得するステップと、
前記処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、解像度再構築モデルに基づいて前記処理対象のビデオフレームを解像度再構築することで、第２の解像度の初期再構築ビデオフレームを取得するステップであって、前記第２の解像度は、前記第１の解像度よりも高いものであるステップと、
前記初期再構築ビデオフレームにおける輪郭領域を決定するステップと、
前記輪郭領域を輪郭強調処理することで、ターゲット再構築ビデオフレームを取得するステップと、
前記ターゲット再構築ビデオフレームに基づいて、第２の解像度の再構築ビデオフレームシーケンスを生成するステップと、を含む、超解像度再構築方法を提供する。

他側面では、本願の実施例は、人工知能に基づく超解像度再構築装置であって、
第１の解像度の処理対象のビデオフレームシーケンスを取得する取得ユニットと、
前記処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、解像度再構築モデルに基づいて前記処理対象のビデオフレームを解像度再構築することで、前記第１の解像度よりも高い第２の解像度の初期再構築ビデオフレームを取得する再構築ユニットと、
前記初期再構築ビデオフレームにおける輪郭領域を決定する決定ユニットと、
前記輪郭領域を輪郭強調処理することで、ターゲット再構築ビデオフレームを取得する処理ユニットと、
前記ターゲット再構築ビデオフレームに基づいて、第２の解像度の再構築ビデオフレームシーケンスを生成する生成ユニットと、を含む、超解像度再構築装置を提供する。

他側面では、本願の実施例は、プロセッサ及びメモリを含む機器であって、
前記メモリは、プログラムコードを記憶し、前記プログラムコードを前記プロセッサに伝送し、
前記プロセッサは、前記プログラムコードにおける命令に基づいて、上記の方面に記載の超解像度再構築方法を実行する機器を提供する。

他側面では、本願の実施例は、コンピュータプログラムを記憶するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、上記の方面に記載の方法を実行するのに用いられる、コンピュータ読み取り可能な記憶媒体を提供する。

更なる他側面では、本願の実施例は、命令を含むコンピュータプログラム製品であって、コンピュータで運行されると、前記コンピュータに上記の方面に記載の超解像度再構築方法を実行させるコンピュータプログラム製品を提供する。

上記技術案から分かるように、ビデオファイルを超解像度再構築する必要がある場合、このビデオファイルにおける第１の解像度の処理対象のビデオフレームシーケンスを取得する。処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、解像度再構築モデルに基づいて処理対象のビデオフレームを解像度再構築することで、第１の解像度よりも高い第２の解像度の初期再構築ビデオフレームを取得する。初期再構築ビデオフレームの画質を向上させるために、取得された初期再構築ビデオフレームを後処理し、即ち、初期再構築ビデオフレームにおける輪郭領域を決定し、輪郭領域を輪郭強調処理することで、ターゲット再構築ビデオフレームを取得することができる。初期再構築ビデオフレームを精細な輪郭強調処理することによって、高周波の詳細をより鮮明にして、オンラインの実際のアプリケーションシーンに適合する画質を取得して、汎化効果がより良く、この再構築ビデオフレームシーケンスによって、よりきれいで鮮明で、自然で快適なビデオ画面をユーザに提供することができ、ユーザのビデオ視聴体験の向上に有利である。

以下、本願の実施例又は従来技術における技術案をより明瞭に説明するために、実施例又は従来技術の記述において使用される必要のある添付図面を簡単に説明する。以下の記述における添付図面は、単に本願のいくつかの実施例として、当業者にとって、創造的な労力を払わない前提で、これらの添付図面に基づいて他の添付図面も得られることは、自明である。

本願の実施例による人工知能に基づく超解像度再構築方法のアプリケーションシーン概略図である。本願の実施例による人工知能に基づく超解像度再構築方法のフローチャートである。本願の実施例による残差分離の方式によって高周波マスクと低周波マスクを決定するフローチャートである。本願の実施例による異なる超解像度再構築方法の効果比較図である。本願の実施例による解像度再構築モデルのネットワーク構造概略図である。本願の実施例による人工知能に基づく解像度再構築モデルのトレーニング方法のフローチャートである。本願の実施例による低解像度サンプルセットと高解像度サンプルセットを構築するフローチャートである。本願の実施例による第３の画像、ターゲット演算子図及び除去対象のターゲットラベル図の概略図である。本願の実施例による人工知能に基づく超解像度再構築方法のフローチャートである。本願の実施例による人工知能に基づく超解像度再構築装置の構造図である。本願の実施例による端末機器の構造図である。本願の実施例によるサーバの構造図である。

以下、添付図面を参照しながら、本願の実施例を説明する。

関連技術では、超解像度再構築を行う際に、一般的には、簡単なエンドツーエンドマッピングの処理態様を採用し、即ち、低解像度画像をモデル処理することで、超解像度再構築結果を直接取得することである。しかし、この場合、オンラインのリアルシーンに直面し、汎化効果が悪く、いくつかのシーンでは、満足できる超解像効果を取得できないことが多い。

そのため、本願の実施例は、人工知能に基づく超解像度再構築方法を提供する。解像度再構築モデルに基づいて初期再構築ビデオフレームを取得した後、初期再構築ビデオフレームを後処理することで、初期再構築ビデオフレームにおける高周波の詳細がより鮮明になるようにして、オンラインの実際のアプリケーションシーンに適合する画質の最適な結果、即ち、ターゲット再構築ビデオフレームを取得することができる。このように、ターゲット再構築ビデオフレームに基づいて第２の解像度の再構築ビデオフレームシーケンスを生成することで、よりきれいで鮮明で、自然で快適なビデオ体験をユーザに提供することができる。

本願の実施例による方法は、クラウド技術分野に関し、例えばビッグデータ（Ｂｉｇｄａｔａ）に関し、ビッグデータとは、一定期間の範囲内で従来のソフトウェアツールでキャプチャし、管理し、処理することができないデータセットであり、新しい処理モードを利用して、より強い意思決定力、洞察発見力、及びフロー最適化能力を有する大規模で、高成長率と多様化の情報資産を実現する必要がある。クラウド時代の到来と伴い、ビッグデータもますます多くの注目を集めており、ビッグデータは、大量の許容経過時間内のデータを効果的に処理するために、特殊な技術を必要としている。ビッグデータに適用する技術は、大規模な並行処理データベースと、データマイニングと、分散ファイルシステムと、分散データベースと、クラウド計算プラットフォームと、インターネットと、拡張可能な記憶システムとを含む。例えば、オンラインの処理対象のビデオフレームシーケンスを取得し、オンラインのリアルハイビジョンビデオをオリジナルビデオサンプルとするようにマイニングして、解像度再構築モデルをトレーニングする。

例えば、関連する人工知能クラウドサービスとは、一般的には、ＡｌａａＳ（ＡｌａｓａＳｅｒｖｉｃｅ、中国語では

）とも呼ばれる。これは、現在でプライマリストリームの人工知能プラットフォームのサービス方式として、具体的には、ＡｌａａＳプラットフォームは、いくつかのよく見られるＡｌサービスを分割し、クラウドで独立したサービス、又はパッケージ化のサービスを提供する。このサービスモードは、１つのＡ１テーマショッピングモールを開いたことと類似しており、全ての開発者は、ＡＰＩインターフェースによって、プラットフォームにより提供された１つ又は複数の人工知能サービスにアクセスすることができ、一部のベテラン開発者は、プラットフォームにより提供されたＡ１フレームワークとＡＩインフラを用いて独自のクラウド人工知能サービスを配備し、運営維持することもできる。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）は、デジタルコンピュータ又はデジタルコンピュータにより制御される機械シミュレーションを利用して、人の知能を延長・拡張し、環境を感知し、知識を取得し利用して最適な結果としての理論、方法、技術、及びアプリケーションシステムを取得する。

人工知能技術は、１つの総合学科として、関する分野が広く、ハードウェア方面の技術もあれば、ソフトウェア方面の技術もある。人工知能ソフトウェア技術は、主に、コンピュータビジョン技術、ボイス処理技術、自然言語処理技術、及び機械学習／深層学習などのいくつかの方向を含む。

本願の実施例では、係わる人工知能技術は、コンピュータビジョン（画像）と機械学習などの方向を含むことができる。コンピュータビジョン技術（ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ、ＣＶ）は、如何にして機械に「見らせる」方法を研究する科学として、さらに説明すると、人間の目の代わりに、カメラとコンピュータを用いてターゲットに対して認識、追跡、測定などの機械ビジョンを行い、グラフィックス処理をさらに行い、コンピュータ処理を人間の目で観察するか、又は計器に伝送して検出させるのにより適する画像にすることである。

例えば、本願の実施例は、コンピュータビジョン技術におけるビデオ処理（ｖｉｄｅｏｐｒｏｃｅｓｓｉｎｇ）技術によって、オリジナルビデオサンプルに対してダウンサンプリング処理、ビデオ圧縮処理、輪郭強調処理などを行うことができ、画像意味理解（ＩｍａｇｅＳｅｍａｎｔｉｃＵｎｄｅｒｓｔａｎｄｉｎｇ、ＩＳＵ）における画像分割（Ｉｍａｇｅｓｅｇｍｅｎｔｉｏｎ）技術によって画像を分割し、解像度再構築トレーニング過程で、画像意味理解における画像特徴抽出（Ｉｍａｇｅｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎ）技術によって特徴抽出などを行うことができる。

機械学習は、概率論、統計学、近似論、凸解析、アルゴリズム複雑度理論などの複数の学科に関する多分野交差学科である。コンピュータがどのように人類の学習行為をシミュレートするか、又は実現するかを研究して、新しい知識又は技能を取得し、既存の知識構造を再組織して自体の性能を絶えずに改善させる。機械学習は、人工知能のコアとして、コンピュータに知能を有させる根本的な道であり、その応用は、人工知能の各分野に及んでいる。機械学習は、通常、深層学習（ＤｅｅｐＬｅａｒｎｉｎｇ）などの技術を含み、深層学習は、例えば、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）、循環ニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）、深層ニューラルネットワーク（Ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ、ＤＮＮ）などの人工ニューラルネットワーク（ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）を含む。

本実施例では、機械学習を利用して解像度再構築モデルをトレーニングし、解像度再構築モデルを利用して処理対象のビデオフレームをシーケンス解像度再構築することができる。

本願の実施例による方法は、ビデオ解像度、鮮明度を向上させる必要のあるさまざまなアプリケーションシーンに適用され、より良い視聴体験をユーザに提供することができる。例えば、ユーザが各種の長ビデオアプリケーションプログラム（Ａｐｐｌｉｃａｔｉｏｎ、ＡＰＰ）によってビデオを視聴する時、必要に応じて超ハイビジョン／ブルーレイ／４Ｋレベルとしてもよく、又は、古いビデオのリノベーションの技術手段としてもよく、各種の短いビデオＡＰＰで不鮮明なビデオの鮮明度を向上させるために用いられてもよく、４Ｋコンテンツリソース生産などのシーンに用いられてもよい。

以下、本願の技術案を理解することを容易にするために、実際のアプリケーションシーンとともに、本願の実施例による人工知能に基づく超解像度再構築方法を説明する。

図１を参照すると、図１は、本願の実施例による超解像度再構築方法のアプリケーションシーン概略図である。このアプリケーションシーンには、端末機器１０１とサーバ１０２とが含まれ、端末機器１０１には、ビデオＡＰＰが取り付けられてもよく、端末機器１０１がビデオファイルを取得すると、上記の方法でトレーニングして得られた解像度再構築モデルを利用して、このビデオファイルを超解像度再構築することで、より鮮明なビデオを取得することができる。

ネットワークには、大量のビデオファイルが存在し、これらのビデオファイルは、例えば、ゲームビデオ、アニメーションビデオ、リアル人物を撮影した映画テレビコンテンツなどの様々なタイプのビデオファイルであってもよい。ユーザが端末機器１０１におけるあるビデオＡＰＰを介してビデオを視聴する時、ビデオファイルがサーバ１０２により端末機器１０１に伝送される速度を向上させ、ネットワーク伝送圧力などを緩和するために、サーバ１０２により端末機器１０１に提供されるビデオファイルの解像度が比較的に低く、ビデオが不鮮明である可能性があり、端末機器１０２は、ビデオファイルを受信した後、ビデオファイルを超解像度再構築することで、ビデオ解像度、鮮明度を向上させて、ユーザが視聴することを容易にする。また、例えば、４Ｋコンテンツリソースの生成を望む場合、サーバ１０２又は端末機器１０１によって低解像度ビデオファイルに対して超解像度再構築などを行ってもよい。

ここで、端末機器１０１は、スマートフォン、タブレットパソコン、ノートパソコン、デスクトップコンピュータ、スマートスピーカー、スマート時計などであってもよいが、これらに限定されない。サーバ１０２は、独立した物理サーバであってもよく、複数の物理サーバによって構成されるサーバクラスタ又は分散システムであってもよく、クラウド計算サービスを提供するクラウドサーバであってもよい。本願は、端末機器１０１及びサーバ１０２は、有線又は無線通信によって直接又は間接的に接続されてもよく、これについて限定しない。

本実施例では、本願の実施例による超解像度再構築方法は、端末機器１０１に用いられてもよく、端末機器１０１は、グラフィックスプロセッサ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＧＰＵ）を有する機器であってもよい。もちろん、いくつかのシーンでは、上記方法は、さらに、サーバ１０２に用いられてもよく、本願の実施例は、これについて限定しない。

端末機器１０１は、第１の解像度の処理対象のビデオフレームシーケンスを取得してもよく、この処理対象のビデオフレームシーケンスは、端末機器１０１で再生される、超解像度再構築の必要なビデオファイルのビデオフレームシーケンスであってもよい。

端末機器１０１は、処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、解像度再構築モデルに基づいて処理対象のビデオフレームを解像度再構築することで、第１の解像度よりも高い第２の解像度の初期再構築ビデオフレームを取得する。

このとき、超解像度再構築を実現することができるが、取得された初期再構築ビデオフレームが必ずしも上記のアプリケーションシーンにおいて画質が最適な結果ではないため、続いて、取得された初期再構築ビデオフレームを後処理し、即ち、端末機器１０１は、残差分離方式によって初期再構築ビデオフレームにおける輪郭領域を決定し、輪郭領域を輪郭強調処理することで、ターゲット再構築ビデオフレームを取得することができる。初期再構築ビデオフレームを精細な輪郭強調処理することによって、高周波の詳細をより鮮明にして、オンラインの実際のアプリケーションシーンに適合する画質の最適な結果、即ち、ターゲット再構築ビデオフレームを取得する。このように、ターゲット再構築ビデオフレームに基づいて第２の解像度の再構築ビデオフレームシーケンスを生成することで、よりきれいで鮮明で、自然で快適なビデオ体験をユーザに提供することができる。

次に、端末機器を例にして、添付図面を参照しながら本願の実施例による人工知能に基づく超解像度再構築方法について説明する。
図２を参照する、図２は、人工知能に基づく超解像度再構築方法のフローチャートを示す。前記方法は、以下のステップＳ２０１～Ｓ２０５を含む。

Ｓ２０１において、第１の解像度の処理対象のビデオフレームシーケンスを取得する。
処理対象のビデオフレームシーケンスは、端末機器で再生される、超解像度再構築が必要なビデオファイルのビデオフレームシーケンスとして、例えば、端末機器がサーバから取得したビデオフレームシーケンスであるが、このビデオフレームシーケンスの解像度（例えば、第１の解像度）は、いくつかの再生必要に対応する解像度よりも低い。

本実施例では、ビデオファイルを超解像度再構築するタイミングは、異なってもよく、その１つとしては、ビデオファイルを受信すると、ビデオファイルを直接超解像度再構築することで、もう１つとしては、解像度切り替え命令に応答して超解像度再構築し、例えば、ユーザが現在の解像度が低く、ビデオが鮮明でないことを発見した場合、再生解像度を向上させる必要に応じて解像度切り替え命令をトリガーする。もう１つの場合、第１の解像度の処理対象のビデオフレームシーケンスを取得する方式は、あるビデオファイルを再生する必要があることを指示するビデオ再生命令を取得し、ビデオ再生命令に基づいてビデオファイルを取得して再生することであってもよい。ビデオファイルの再生過程で、ユーザが、ビデオファイルの解像度が低く、ビデオが鮮明でないことを発見した場合、解像度を切り替えることを選択し、即ち、解像度切り替え命令をトリガーしてもよく、ビデオファイルに対する解像度切り替え命令が検出されると、前記解像度切り替え命令により切り替えが指示された解像度が前記第２の解像度に関連付けられている場合、Ｓ２０２を実行する。

Ｓ２０２において、前記処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、解像度再構築モデルに基づいて前記処理対象のビデオフレームを解像度再構築することで、第２の解像度の初期再構築ビデオフレームを取得する。
端末機器は、処理対象のビデオフレームシーケンスを取得した後、処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームを低解像度（ＬｏｗＲｅｓｏｌｕｔｉｏｎ、ＬＲ）画像として、解像度再構築モデルに入力し、解像度再構築モデルによって各フレームの処理対象のビデオフレームを解像度再構築することで、第２の解像度の初期再構築ビデオフレーム、即ち、超解像度（ＳｕｐｅｒＲｅｓｏｌｕｔｉｏｎ、ＳＲ）画像を取得することができる。ここで、第２の解像度は、第１の解像度よりも高く、つまり、解像度再構築モデルによってビデオファイルにおける各フレームの処理対象のビデオフレームの解像度を向上させることができる。

Ｓ２０３において、前記初期再構築ビデオフレームにおける輪郭領域を決定する。
上記の解像度再構築モデルによって超解像度再構築することで、処理対象のビデオフレームの解像度を向上させることができるが、取得された初期再構築ビデオフレームが必ずしもそのアプリケーションシーンにおいて画質が最適な結果ではないため、取得された初期再構築ビデオフレームを後処理することができる。

本実施例では、初期再構築ビデオフレームには、一般的には、テクスチャの詳細を反映する高周波の詳細領域、即ち輪郭領域が含まれており、オンラインの複雑なアプリケーションシーンに直面するために、解像度再構築モデルによって初期再構築ビデオフレームを取得した後、輪郭強調の程度を細かく調整することによって、各アプリケーションシーンにおける出力画質を向上させることができる。上記の輪郭領域は、ビデオフレームにて示される対象の輪郭であり、この対象は、人物、各種の物体などであってもよい。

また、初期再構築ビデオフレームには、いくつかの平坦部が集中し、テクスチャの詳細が欠けている平坦領域がさらに含まれる可能性もあり、平坦領域には、いくつかのノイズが存在する可能性があり、画質出力を最適化させるために、残差分離方式によって初期再構築ビデオフレームにおける平坦領域を決定して、輪郭領域を輪郭強調処理する場合、平坦領域をノイズ除去処理して、ターゲット再構築ビデオフレームを取得することもできる。

本願は、ビデオフレームにおける輪郭領域を決定する具体的な決定方式を限定せず、例えば、残差分離方式などの輪郭認識を実現できる各種の方式であってもよい。

いくつかの可能な実施例では、輪郭領域と平坦領域を決定する方式は、処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、バイキュービック補間によってバイキュービック補間増幅結果を取得して、処理対象のビデオフレームに対応する初期再構築ビデオフレームとバイキュービック補間増幅結果に基づいて残差分離を行い、高周波マスクと低周波マスクを取得することであってもよい。残差分離の方式によって高周波マスクと低周波マスクを決定するフローチャートは、図３に示すように、ＬＲ画像に基づいて解像度再構築モデルによってＳＲ画像を生成し、また、ＬＲ画像に基づいてバイキュービック補間（Ｂｉｃｕｂｉｃ）方法を利用してバイキュービック補間（Ｂｉｃｕｂｉｃ）増幅結果を生成し、ＳＲ画像とバイキュービック補間増幅結果の残差図（ハイブリット残差として、この残差図は、ＳＲ画像とバイキュービック補間増幅結果との減算により得られたものであってもよい）を生成し、バイキュービック補間増幅結果と１つのガウスローパスフィルタ結果（ガウスぼかし仕様差σ＝1.5、半径ｒ＝５）を通過する残差図（ハイパス残差として、この残差図は、バイキュービック補間増幅結果とガウスローパスフィルタ結果との減算により得られたものであってもよい）を生成する。２つの残差（ハイブリット残差とハイパス残差）を乗算し、乗算結果が０よりも大きい値を１にし、０よりも小さい値を０にする場合、１つの高周波マスク（mask_h）を取得することができる。乗算結果が０よりも小さい値を１にし、０よりも大きい値を０にする場合、１つの低周波マスク（mask_l）を取得することができる。mask_hとmask_lをＳＲ画像における輪郭領域と平坦領域が位置する位置を判断する根拠とする。

そして、式（１）に示すように、初期再構築ビデオフレーム、バイキュービック補間増幅結果、及び高周波マスクに基づいて輪郭領域を決定してもよく、式（２）に示すように初期再構築ビデオフレーム、バイキュービック補間増幅結果、及び低周波マスクに基づいて平坦領域を決定してもよい。

Ｓ２０４において、前記輪郭領域を輪郭強調処理することで、ターゲット再構築ビデオフレームを取得する。

いくつかの実施例では、輪郭領域を輪郭強調処理することでターゲット再構築ビデオフレームを取得する方式は、輪郭領域を輪郭強調処理するとともに、平坦領域をノイズ除去処理することで、ターゲット再構築ビデオフレームを取得することであってもよい。ここで、輪郭領域を輪郭強調処理することは、輪郭強調係数を利用して輪郭領域を調整することであってもよく、平坦領域をノイズ除去処理することは、ノイズ除去係数を利用して平坦領域を処理することであってもよい。

輪郭強調係数は、アプリケーションシーンに応じて選択されてもよく、異なるアプリケーションシーンが輪郭強調の程度に対する要求が異なり、利用される輪郭強調係数も異なる。アニメーションビデオ又はゲームビデオのシーンでは、ビデオ内の線が単純であるため、輪郭強調の程度を大きくしてもよく、それに応じて、輪郭強調係数は、１よりも大きい数値、例えば１よりも大きく、２以下である数値を取ってもよい。しかし、リアル人物によって撮影された映画テレビビデオシーンでは、ビデオ内の人物の輪郭強調の程度が比較的に大きい場合、ビデオを視聴するユーザが、人物が比較的に突兀であり、画面が調和しておらず、視聴体験が比較的に悪いと感じるため、このようなシーンでは、輪郭強調の程度が比較的に小さく、ひいては、輪郭強調係数が１よりも小さい数値、例えば０以上であり、１以下である数値を取るべきである。

いくつかの実施例では、初期再構築ビデオフレームにおける平坦領域をさらに決定することもでき、ビデオの解像度、鮮明度をさらに向上させ、ユーザがビデオを視聴する体験を向上させるために、初期再構築ビデオフレームにおける低周波平坦領域に対してノイズ除去を行うこともでき、同様に、ノイズ除去の程度は、アプリケーションシーンに応じて決定されてもよい。すると、輪郭強調係数によって輪郭領域を調整すると同時に、ノイズ係数によって平坦領域を調整してもよい。ノイズ除去係数は、異なるアプリケーションシーンに応じて適切な値が選択されてもよい。

輪郭領域と平坦領域を決定した後、輪郭強調係数をαとし、ノイズ除去係数をβとし、α∈ [0,2], β∈[0,2]とし、具体的なアプリケーションシーンに応じてαとβの具体的な数値を選択して、ＳＲ画像に対して輪郭強調とノイズ除去強度の調整を行ってもよく、取得されたターゲット再構築ビデオフレームＹは、式（３）で示されることができる。

本願の実施例は、解像度再構築モデルによって初期再構築ビデオフレームを取得した後、輪郭強調の程度を細かく調整して、オンラインの複雑なアプリケーションシーンに直面し、いずれか１つのアプリケーションシーンにおける画質出力品質を向上させ、汎用性を強調させる。

図４は、異なる超解像度再構築方法の効果比較図を示す。ここで、左図は、バイキュービック補間増幅結果であり、右図は、本願の実施例による超解像度再構築方法で得たターゲット再構築ビデオフレームであり、右図が左図よりもきれいで鮮明で、より自然で快適に視聴することが分かる。
Ｓ２０５において、前記ターゲット再構築ビデオフレームに基づいて第２の解像度の再構築ビデオフレームシーケンスを生成する。

ターゲット再構築ビデオフレームを処理対象のビデオフレームシーケンスにおける対応する処理対象のビデオフレームの順序に従い、再構築ビデオフレームシーケンスを生成して、再構築ビデオフレームシーケンスに従って再生し、即ち、１フレームのビデオフレームを再生するごとに、再構築ビデオフレームシーケンスから１つのターゲット再構築ビデオフレームを決定して再生する。

そのため、再構築ビデオフレームシーケンスを生成した後、現在再生中のビデオフレームの次のビデオフレームを決定し、再構築ビデオフレームシーケンスのうち、次のビデオフレームに対応するターゲット再構築ビデオフレームを決定することができ、次のビデオフレームを再生する時、次のビデオフレームに対応するターゲット再構築ビデオフレームに切り替え、再構築ビデオフレームシーケンスのうちのターゲット再構築ビデオフレームを再生する。

例えば、現在再生中のビデオフレームが１０フレーム目のビデオフレームである場合、次のビデオフレームは、即ち１１フレーム目のビデオフレームであり、１１フレーム目のビデオフレームが再生される時、１１フレーム目のビデオフレームに対応するターゲット再構築ビデオフレームに切り替えて再生される。

上記技術案から分かるように、ビデオファイルに対して超解像度再構築を行う必要がある場合、該ビデオファイルにおける第１の解像度の処理対象のビデオフレームシーケンスを取得する。処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、解像度再構築モデルに基づいて処理対象のビデオフレームを解像度再構築することで、第１の解像度よりも高い第２の解像度の初期再構築ビデオフレームを取得する。初期再構築ビデオフレームの画質を向上させるために、取得された初期再構築ビデオフレームを後処理し、即ち、初期再構築ビデオフレームにおける輪郭領域を決定し、輪郭領域を輪郭強調処理することで、ターゲット再構築ビデオフレームを取得することができる。初期再構築ビデオフレームに対して精細な輪郭強調処理を行うことによって、高周波の詳細をより鮮明にして、オンラインの実際のアプリケーションシーンに適合する画質を取得して、汎化効果がより良く、該再構築ビデオフレームシーケンスによってユーザによりきれいで鮮明で、自然で快適なビデオ画面を提供することができ、ユーザのビデオ視聴体験の向上に有利である。

本実施例では、解像度再構築モデルのモデルタイプとトポロジー構造は、複数を含んでもよく、解像度再構築を実現できる様々なニューラルネットワークモデルであってもよい。いくつかの可能な実施例では、強化された深層超解像度ネットワーク（ｅｎｈａｎｃｅｄｄｅｅｐｓｕｐｅｒ－ｒｅｓｏｌｕｔｉｏｎｎｅｔｗｏｒｋ、ＥＤＳＲ）が残差ネットワーク（ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ、ＲｅｓＮｅｔ）に対する改良構造を解像度再構築モデルの本体構造（ｂａｃｋｂｏｎｅ）として利用し、且つ深層再帰畳み込みネットワーク（ｄｅｅｐｌｙ－ｒｅｅｕｒｓｉｖｅｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋ、ＤＲＣＮ）を組み合わせてネットワークの各レベルの特徴を最後の解像度再構築に参加させることができる。

二倍超解像に対して解像度再構築モデルの確立を例にして、解像度再構築モデルは、図５に示されるネットワーク構造を採用してもよい。解像度再構築モデルの具体的なパラメータは、以下の通りである。解像度再構築モデル入力は、赤緑青（Ｒｅｄ－Ｇｒｅｅｎ－Ｂｌｕｅ、ＲＧＢ）三チャンネル図である。第１層の畳み込みネットワーク入力チャンネル数は、３であり、出力特徴チャンネル数は、３２であり、畳み込みコアサイズは、３ｘ３であり、畳み込みステップサイズは、１である。そして、１つの修正線形ユニット（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ、ＲｅＬＵ）層に接続される。ネットワーク本体構造（ｂａｃｋｂｏｎｅ）は、５つの残差ブロック（ＲｅｓＢｌｏｃｋ）によって構成され、図５の５０１に示すように、各ＲｅｓＢｌｏｃｋは、２つの畳み込みネットワークと１つの修正線形ユニット（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ、ＲｅＬＵ）層によって構成され、入力と出力は、残差接続（図５の５０２に示すように）を構成する。ここで、ｘ_１は、ＲｅｓＢｌｏｃｋの入力を示し、ｘ_１＋ｌは、ＲｅｓＢｌｏｃｋにおける残差が接続された後の出力を示し、全てのＲｅｓＢｌｏｃｋの畳み込みネットワーク層パラメータ設置は、同じであり、入力、出力特徴チャンネル数は、いずれも３２であり、畳み込みコアサイズは、３×３であり、畳み込みステップサイズは、１である。

そして、１つのスプライシング層（ｃｏｎｃａｔ）に接続し、５つのＲｅｓＢｌｏｃｋの出力をスプライシングし、３２×５＝１６０次元の特徴を取得して、１つの畳み込みコアサイズが１×１である畳み込み層によって特徴融合を行い、出力特徴チャンネル数は、３２である。

そして、取得された特徴図に対して１回の畳み込みを行い、畳み込みネットワーク入力チャンネル数は、３２であり、出力特徴チャンネル数は、１２であり、畳み込みコアサイズは、３×３であり、畳み込みステップサイズは、１である。そして、アップサンプリング（ｓｕｂｐｉｘｅｌ）層に接続して特徴図をアップサンプリングし、超解像増幅２倍の結果出力を取得して、即ち、初期再構築ビデオフレームを出力する。

ここで、ｓｕｂｐｉｘｅｌ層の個数は、超解像増幅の倍数に関連し、２倍増幅すると、図５に示すように、１つのｓｕｂｐｉｘｅｌ層に接続する。４倍増幅すると、２つのｓｕｂｐｉｘｅｌ層に接続する。８倍増幅すると、３つのｓｕｂｐｉｘｅｌ層に接続し、これに基づき類推する。

図５に示される解像度再構築モデルのネットワーク構造に基づき、Ｓ２０２において第２の解像度の初期再構築ビデオフレームを取得する方式は、解像度再構築モデルによって処理対象のビデオフレームに対して少なくとも２回の残差抽出を行い、各残差抽出結果を取得して、各残差抽出結果に基づいて処理対象のビデオフレームを解像度再構築することで、第２の解像度の初期再構築ビデオフレームを取得することであってもよい。

いくつかの実施例では、各残差抽出結果を取得する方式は、解像度再構築モデルにおける畳み込み層によって処理対象のビデオフレームに対して畳み込み処理を行い、処理対象のビデオフレームに対応する畳み込み処理結果を取得して、畳み込み処理結果に基づいてネットワーク本体構造における各残差ブロック（例えば図５の残差ブロック）を順に残差抽出して、カスケード接続された各残差ブロックの残差抽出結果を取得することであってもよい。

図５に示されるネットワーク構造において、５つの残差ブロックがカスケード接続された後、スプライシング層と畳み込み層に接続されるため、スプライシング層によって前記各残差抽出結果をスプライシングし、残差スプライシング特徴を取得してから、残差スプライシング特徴に対して特徴融合して融合特徴図を取得してもよい。さらに、融合特徴図に対してアップサンプリング処理を行い、第２の解像度の初期再構築ビデオフレームを取得する。ここで、初期再構築ビデオフレームは、前記処理対象のビデオフレームに対応する。

本願の実施例は、解像度再構築モデルのモデルタイプとトポロジー構造を具体的に限定せず、他の有効な新型モデル構造に置き換えてもよく、例えば、ネットワーク本体構造は、ＲｅｓＮｅｔ残差構造から密集畳み込みネットワーク（ＤｅｎｓｅＮｅｔ）に接続される構造に置き換えてもよい。解像度再構築モデル表現能力に対する要求と所有する計算リソース条件に基づいて解像度再構築モデルのネットワーク構造を変更し、拡張し、又は簡略化してもよい。

本願の実施例は、比較的軽量レベルのネットワークを採用してモデル計算を実現し、ｔ４ＧＰＵで解像度が１０８０×１９２０であるビデオを処理し、４グラフィックス６０ｆｐｓリアルタイムの処理速度（４グラフィックス６０ｆｐｓリアルタイムの処理速度は即ち、四枚のｔ４ＧＰＵを含むグラフィックス並行処理によって６０ｆｐｓリアルタイムの処理速度に達することができる）に達することができ、リアルタイム超解像度再構築を実現することができる。

本願の実施例は、解像度再構築モデルを利用して処理対象のビデオフレームを解像度再構築することで、初期再構築ビデオフレームを取得して、解像度再構築モデルの再構築効果は、最終的に得られたターゲット再構築ビデオフレームの画面効果に重要な影響を及ぼす。次に、解像度再構築モデルのトレーニング方法について詳細に説明する。

関連技術では、解像度再構築モデルをトレーニングする過程で、使用される劣化方式が簡単過ぎ、リアル高解像度（ＨｉｇｈＲｅｓｏｌｕｔｉｏｎ、ＨＲ）画像からＬＲ画像への劣化シーンとは程遠く、このようなトレーニングデータセットで解像度再構築モデルをトレーニングすることで、取得された解像度再構築モデルの汎化効果が悪い。

劣化をシミュレートする時、実際のアプリケーションシーンでは、ダウンサンプリング以外に、画像ぼかし、ビデオコーディングによる圧縮ノイズなどがあるとともに、ダウンサンプリングと画像ぼかしの発生順序が確認されにくいことを考慮して、トレーニングデータセットの構築を容易にするために、低解像度サンプルセットを生成する過程における画像ぼかし、ハイビジョンビデオに対して輪郭強調を行うことによってこのような劣化をシミュレートする。これにより、低解像度サンプルセットと高解像度サンプルセットとを含むトレーニングデータセットを構築して、解像度再構築モデルをトレーニングする。図６を参照すると、前記方法における解像度再構築モデルをトレーニングするステップは、以下のステップＳ６０１～Ｓ６０５を含む。
Ｓ６０１において、収集されたオリジナルビデオサンプルをダウンサンプリング処理しビデオ圧縮処理することで、ターゲットビデオサンプルを取得する。

ネットワークには、大量の高解像度ビデオが存在し、これらの高解像度ビデオを、トレーニングデータセットを構築する根拠としてもよい。端末機器は、ネットワークにおける大量の高解像度ビデオ（例えば解像度が予め設定された閾値よりも高い）をオリジナルビデオサンプルとして収集してもよく、これらの高解像度ビデオは、様々なタイプのビデオ、例えばゲームビデオ、アニメーションビデオ、リアル人物を撮影した映画テレビコンテンツなどであってもよい。例えば、オリジナルビデオサンプルは、ビデオ視聴シーンにおいてよく見られるハイビジョンビデオなどであってもよい。

オンラインの実際のアプリケーションシーンを考慮して、オンラインのリアル状況により近い方式で高解像度ビデオ画像から低解像度ビデオ画像への劣化モデルをシミュレートし、本実施例では、採用される劣化モデルは、式（４）で示されることができる。

ダウンサンプリング処理の方式は、複数があり、いくつかの実施例では、バイキュービック補間の方式を採用してオリジナルビデオサンプルに対してダウンサンプリング処理を行ってもよい。ビデオコーディング過程が常に圧縮歪み、アーティファクト、ブロック効果、輪郭エッジバリなどの圧縮ノイズをもたらすことを考慮して、本実施例では、オリジナルビデオサンプルに対してビデオ圧縮処理を行って劣化中のノイズモデルをシミュレートすることを選択する。

オリジナルビデオサンプルに対してビデオ圧縮処理を行う時、通常、固定コードレート係数（ＣｏｎｓｔａｎｔＲａｔｅＦａｃｔｏｒ、ＣＲＦ）を用いてビデオ圧縮処理を実現し、異なるＣＲＦを用いてビデオ圧縮処理を実現すれば異なるビデオ圧縮結果を取得する。これにより、本実施例では、予め設定された範囲内で複数の異なる固定コードレート係数を選択し、複数の異なるＣＲＦを採用してオリジナルビデオサンプルに対して異なるレベルのビデオ圧縮処理を行うことによって、複数の解像度のターゲットビデオサンプルを取得して、トレーニングデータセットの広がりを実現することができる。ここで、ＣＲＦは、ランダムに選択されてもよく、一般的には、ＣＲＦの予め設定された範囲は、［２０、３５］であってもよい。

Ｓ６０２において、前記ターゲットビデオサンプルに基づいて低解像度サンプルセットを決定する。
ターゲットビデオサンプルを取得した後、ターゲットビデオサンプルに対してビデオフレーム抽出を行い、ターゲットビデオサンプルから予め設定されたフレーム位置に位置する第１の画像を抽出することによって、マルチフレームの第１の画像を取得して低解像度サンプルセットを構成することができる。本実施例は、予め設定されたフレーム位置を限定せず、即ち、ビデオフレーム抽出方式を限定せず、例えばビデオフレーム抽出方式は、ターゲットビデオサンプルに対して１ｓ置きに１フレームを抽出することであってもよく、つまり、予め設定されたフレーム位置は、ターゲットビデオサンプルにおける１ｓ目に対応するビデオフレームであり、２ｓ目に対応するビデオフレームであり、３ｓ目に対応するビデオフレームであり、……Ｎｓ目に対応するビデオフレームであり、Ｎは、ターゲットビデオサンプルの全長である。

オリジナルビデオサンプルが４Ｋ超ハイビジョンビデオであることを例にして、低解像度サンプルセットと高解像度サンプルセットを構築するフローチャートは、図７を参照してもよく、４Ｋ超ハイビジョンビデオに対してバイキュービック補間（Ｓ７０１）を行ってから、バイキュービック補間後の結果に対してビデオ圧縮処理を行い（Ｓ７０２）、ターゲットビデオサンプルを取得する。次に、ターゲットビデオサンプルに対してビデオフレーム抽出を行い（Ｓ７０３）、ＬＲサンプルセットを取得する。

Ｓ６０３において、前記オリジナルビデオサンプルのうち、前記予め設定されたフレーム位置に位置するマルチフレームの第２の画像に対して輪郭強調処理を行い、高解像度サンプルセットを取得する。

実際の劣化シーンでは、ダウンサンプリング処理と画像ぼかしの発生順序は、確認しにくく、オリジナルビデオサンプルに対してダウンサンプリング処理、画像ぼかし及びノイズを行うが、低解像度サンプルにぼかし操作を追加することは、モデルに一定の輪郭強調の能力を備えることに相当し、データセット構築を容易にするために、低解像度サンプル作成過程におけるぼかし処理を除去し、高解像度画像に対して適宜な輪郭強調を行うことによって、このような劣化をシミュレートすることができる。

Ｓ６０１からＳ６０３によって、高解像度画像がどのように劣化して対応する低解像度画像を取得するかをシミュレートしたため、低解像度サンプルセットにおける各第１の画像は、高解像度サンプルセットにおいて対応する画像があるべきだが、第１の画像がターゲットビデオサンプルにおいて予め設定されたフレーム位置に位置する画像であり、それに応じて、高解像度サンプルセットにおける画像もオリジナルビデオサンプルにおいて予め設定されたフレーム位置の第２の画像に基づいて得られたものであるべきだ。従って、本実施例では、オリジナルビデオサンプルにおいて予め設定されたフレーム位置に位置するマルチフレームの第２の画像に対して輪郭強調処理を行い、高解像度サンプルセットを取得してもよい。つまり、ターゲットビデオサンプルに対して１ｓ置きに１フレームを抽出して、低解像度サンプルセットを取得すると、高解像度サンプルセットを取得する過程で、オリジナルビデオサンプルに対しても、１ｓ置きに１フレームのビデオフレームを抽出し、マルチフレームの第２の画像を取得する必要がある。

ここで、輪郭強調処理の方式は、複数を含んでもよく、本実施例では、画像処理ソフトウェア（ＡｄｏｂｅＰｈｏｔｏｓｈｏｐ、ＰＳ）のスマートシャープによって実現されてもよい。

引き続き図７を参照すると、上記オリジナルビデオサンプルが４Ｋ超ハイビジョンビデオであることを例にして、４Ｋ超ハイビジョンビデオに対してビデオフレーム抽出を行い（Ｓ７０４）、マルチフレームの第２の画像を取得する。マルチフレームの第２の画像に対してＰＳスマートシャープを行い（Ｓ７０５）、ＨＲサンプルセットを取得する。
Ｓ６０４において、前記低解像度サンプルセットと前記高解像度サンプルセットに基づいてトレーニングデータセットを構築する。

本実施例では、低解像度サンプルセットと高解像度サンプルセットを利用してトレーニングデータセットを構築する方式は、複数を含んでもよく、１つの構築方式は、直接に低解像度サンプルセットと高解像度サンプルセットをトレーニングデータセットとして、解像度再構築モデルをトレーニングすることであってもよい。

通常、解像度再構築モデルが解像度再構築を学習する過程で、どのように高周波の詳細を再構築するかを主に学習する。ＬＲサンプルセットとＨＲサンプルセットにおける画像には、テクスチャの詳細が比較的に少ない平坦領域が常に多かれ少なかれ存在するため、例えば、図８の８０１に示される画像には、青空、湖面、山、家屋、木、船などが含まれ、青空、湖面などの位置する領域のテクスチャの詳細が非常に少なく、平坦領域と考えられてもよい。しかし、これらの部分は、解像度再構築モデルのトレーニングに実際に役立たず、解像度再構築モデルトレーニングに対するこの部分の干渉を低減するために、トレーニングデータセットを構築する時、ＬＲサンプルセットとＨＲサンプルセットに対して１ステップの操作を行い、平坦領域を除去し、トレーニングのためにテクスチャの詳細が豊かな部分だけを保留してもよい。

これにより、別の構築方式は、第１のサイズに従ってマルチフレームの第３の画像をそれぞれ分割し、切り取ってラベル図を取得し、また、第２のサイズに従ってマルチフレームの第１の画像をそれぞれ分割し、切り取って入力画像を取得することであってもよい。ここで、第１のサイズと第２のサイズは、解像度サイズであってもよく、第１のサイズは、第２のサイズの整数倍であってもよく、第１のサイズと第２のサイズとの間の倍数関係は、解像度再構築モデルがトレーニング過程で低解像度画像に対して解像度再構築を行う時に数倍の解像度増幅を実現できることに影響し、また、解像度再構築モデルが使用過程で処理対象のビデオフレームに対して解像度再構築を行う時に数倍の解像度増幅を実現できることに影響しており、即ち、第２の解像度は、第１の解像度に対して数倍増幅したものである。第１のサイズが６４×６４であり、第２のサイズが３２×３２である場合、トレーニングして得られた解像度再構築モデルは、二倍超解像を実現することができ、即ち、解像度再構築モデルを利用して解像度再構築を行う時、初期再構築ビデオフレームの第２の解像度は、入力された処理対象のビデオフレームシーケンスの第１の解像度に対して二倍増幅したものである。

各フレームの第３の画像がいずれも第１のサイズに従って分割されるため、各フレームの第３の画像は、分割して得られた複数のラベル図に対応する。マルチフレームの第３の画像における各フレームの第３の画像に対応するラベル図について、ラベル図のうち、第３の画像に属する平坦領域のターゲットラベル図が決定されると、該ターゲットラベル図を除去する。各フレームの第１の画像に対しても分割しており、各フレームの第１の画像がそれぞれ第３の画像に対応し、二者から分割されたラベル図と入力画像も対応関係を有するため、ターゲットラベル図に対応する入力画像を除去し、残りのラベル図と入力画像をトレーニングデータセットとしてもよい。

本実施例は、ＨＲサンプルセットとＬＲサンプルセットにおけるデータをフィルタリングし、平坦領域のような、テクスチャの詳細が欠けている冗長部分を除去してトレーニングデータセットを構築することによって、解像度再構築モデルを高周波の詳細に対する学習に集中させ、解像度再構築モデルの効率的なトレーニングを確保することができる。

１つの可能な実現方式では、第３の画像に属する平坦領域のターゲットラベル図を決定する方式は、第３の画像に基づいて対応する初期演算子図を生成することであってもよく、初期演算子図は、各画素点の画素値を反映してもよく、該画素値は、画素点が高周波の詳細点である可能性を示してもよく、画素値が大きければ大きいほど、該画素点が高周波の詳細点である可能性が大きく、画素値が十分に小さければ、例えば第１の閾値よりも小さい場合、該画素点が非高周波の詳細点ではないとみなしてもよく、そのため、初期演算子図における画素値が第１の閾値よりも小さい画素点の画素値をゼロに再付与し、ターゲット演算子図を取得してもよい。第１のサイズに従ってターゲット演算子図を分割し、切り取ってターゲット演算子図の演算子サブ図を取得して、各演算子サブ図は、第３の画像のラベル図に一対一で対応する。各演算子サブ図には複数の画素点が含まれており、演算子サブ図における画素値がゼロでない画素点の個数が第２の閾値を超えない場合、該演算子サブ図において高周波の詳細に属する画素点が非常に少ないことを意味し、該演算子サブ図に対応するラベル図が平坦領域であるとみなしてもよく、該演算子サブ図に対応するラベル図がターゲットラベル図であると決定される。

ここで、初期演算子図の生成方式は、第３の画像に対してガウスぼかし処理を行い、例えば、標準偏差をσ＝1.5とし、半径をr=5としてガウスぼかし処理を行い、ガウスぼかし処理された画像に対して初期演算子図を求めることであってもよい。初期演算子図は、複数のアルゴリズム、例えばガウスぼかし処理された画像に対して１次のソベル（ｓｏｂｅｌ）演算子、ロバーツ（Ｒｏｂｅｒｔｓ）演算子やラプラス（Ｌａｐｌａｃｉａｎ）演算子を取るなどのことによって得られてもよく、本実施例は、これについて限定しない。

第１の閾値（ｔ_１）と第２の閾値（ｔ_２）は、経験に応じて、例えばｔ_１＝６０、ｔ_２＝６０と設定されてもよい。つまり、初期演算子図内の画素値がｔ_１よりも小さい画素点の画素値に０を再付与し、ターゲット演算子図を取得して、ラベル図に対応する演算子サブ図における画素値が０でない画素点の個数がｔ_２以下である場合、該ラベル図が第３の画像全体の平坦領域、即ちターゲットラベル図に属するとみなし、該ターゲットラベル図と対応する入力画像を破棄する。

図８の８０１に示される画像が第３の画像であることを例にして、生成された第３の画像に対応するターゲット演算子図は、８０２に示すように、８０２では、白い画素点は、山、家屋、木、船などの高周波の詳細であり、上記方法により第３の画像を複数のラベル図を分割して切り取り、ターゲット演算子図に対して、同じ方法を採用して分割し切り取ってラベル図にそれぞれ対応する演算子サブ図を取得することができる。各演算子サブ図に基づいて平坦領域に属するターゲットラベル図を決定することができ、決定した後、これらのターゲットラベル図を除去する。除去したターゲットラベル図は、８０３を参照してもよく、８０３における各小画像は、１つのターゲットラベル図（例えば８０３の破線枠で標記された画像）を示し、除去したターゲットラベル図は、基本的に空（例えば８０３の破線枠で標記された画像）、湖面などの対応する画像である。

Ｓ６０５において、前記トレーニングデータセットに基づいて初期再構築モデルをトレーニングすることで、解像度再構築モデルを取得する。
トレーニングデータセットに基づいて初期再構築モデルをトレーニングし、初期再構築モデルは、トレーニングデータセットにおける第１の画像又は第１の画像によって決定された入力画像に基づいて解像度再構築を行い、初期再構築ビデオフレームを出力してもよい。ここで、第１の画像又は入力画像は、解像度再構築モデル使用過程における処理対象のビデオフレームに相当する。初期再構築ビデオフレームとラベル図を利用して損失関数を構築することによって、損失関数値が最小になるまで、損失関数に基づいて初期再構築モデルのパラメータを調整する。

ここで、構築される損失関数は、L1損失関数であってもよく、即ち、ラベル図をターゲット値Y_iとして、出力される初期再構築ビデオフレームを推定値として、ターゲット値Y_iと推定値f(X_i)との絶対差分の総和Ｓは、最小化され、具体的な式は、以下の通りである。

ただし、Ｓは、L1損失関数であり、Y_iは、ターゲット値であり、f(X_i)は、推定値であり、X_iは、入力画像である。

本実施例は、トレーニング過程でL1損失関数を採用するが、トレーニングデータセットにおけるＨＲ画像（第３の画像）が輪郭強調処理によって得られたものであるため、トレーニングして得られた解像度再構築モデルが、輪郭強調の能力を有し、高周波の詳細のより鮮明である初期再構築ビデオフレームを出力することになり、初期再構築ビデオフレームが平均化、ぼかしや過度に滑らかになるという問題を回避することができる。

トレーニング過程でバッチ（ｂａｔｃｈ）を１６とし、初期学習率を1×10-⁴と設定し、2×10⁵回のバッチトレーニングを繰り返すと、学習率は、対応して半減し、解像度再構築モデルは、自己適応モーメント推定（Ａｄａｍ）オプティマイザを採用し、Ａｄａｍオプティマイザのパラメータβ₁=0.9、β₂=0.999、ε=10^-8を設定する。ＤＩＶ２Ｋ（１つのデータセット）検証セットを採用してトレーニング過程の全体を指導し、トレーニングデータセット全体を６０回繰り返すと、初期再構築モデルが検証セットにおける表現は、基本的に変化せず、トレーニングを停止し、且つ検証セットで最も良く表現している初期再構築モデルを最終的な解像度再構築モデルとして選択する。

トレーニングデータセットを構築する時、ビデオコーディングによる圧縮ノイズなどを考慮して、劣化シーンをオンラインのリアルシーンにより近づけるようにすることで、解像度再構築モデルの汎化効果を向上させ、オンラインのリアル超解像度再構築シーンに面して、より良い解像度再構築効果を取ることができ、即ち、取得された初期再構築ビデオフレームは、関連する技術効果に比べてより良い。また、オリジナルビデオサンプルに対して輪郭強調を行い、解像度再構築モデルの輪郭強調が付与されるため、より豊かな高周波の詳細の能力が生じる。

次に、実際のアプリケーションシーンを組み合わせながら本願の実施例による人工知能の超解像度再構築方法を説明する。該アプリケーションシーンは、ユーザがビデオＡＰＰによってビデオを視聴することであってもよく、サービス側から端末機器へビデオを伝送する速度を向上させ、ネットワーク伝送圧力を緩和するなどのために、サービス側により端末機器に提供されたビデオファイルの解像度が比較的に低く、ビデオが鮮明でない可能性があり、端末機器は、ビデオファイルを受信した後、ビデオファイルに対して超解像度再構築を行い、ビデオファイルの解像度、鮮明度を向上させ、ユーザが視聴することを容易にすることができる。図９を参照すると、前記方法は、以下のステップＳ９０１～Ｓ９０７を含む。

Ｓ９０１において、ユーザは、端末機器上のビデオＡＰＰを開く。
Ｓ９０２において、ユーザは、あるビデオを検索する。
Ｓ９０３において、端末機器は、該ビデオのビデオファイルを取得して再生し、該ビデオファイルのビデオフレームシーケンスを処理対象のビデオフレームシーケンスとする。
Ｓ９０４において、端末機器は、処理対象のビデオフレームシーケンスにおける各処理対象のビデオフレームを順に読み取る。
Ｓ９０５において、端末機器は、解像度再構築モデルによって読み取った処理対象のビデオフレームを解像度再構築することで、第２の解像度の初期再構築ビデオフレームを取得する。
Ｓ９０６において、輪郭強調係数とノイズ係数によって初期再構築ビデオフレームにおける輪郭領域と平坦領域をそれぞれ調整することで、ターゲット再構築ビデオフレームを取得する。
Ｓ９０７において、端末機器は、ユーザにターゲット再構築ビデオフレームを再生する。

前記図２に対応する実施例に基づき、本願の実施例は、人工知能に基づく超解像度再構築装置をさらに提供する。図１０を参照すると、前記装置は、取得ユニット１００１と、再構築ユニット１００２と、決定ユニット１００３と、処理ユニット１００４と、生成ユニット１００５とを含む。

前記取得ユニット１００１は、第１の解像度の処理対象のビデオフレームシーケンスを取得するために用いられる。
前記再構築ユニット１００２は、前記処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、解像度再構築モデルに基づいて前記処理対象のビデオフレームを解像度再構築することで、前記第１の解像度よりも高い第２の解像度の初期再構築ビデオフレームを取得するために用いられる。
前記決定ユニット１００３は、前記初期再構築ビデオフレームにおける輪郭領域を決定するために用いられる。
前記処理ユニット１００４は、前記輪郭領域を輪郭強調処理することで、ターゲット再構築ビデオフレームを取得するために用いられる。
前記生成ユニット１００５は、前記ターゲット再構築ビデオフレームに基づいて第２の解像度の再構築ビデオフレームシーケンスを生成するために用いられる。

１つの可能な実現方式では、前記決定ユニット１００３は、前記残差分離方式によって前記初期再構築ビデオフレームにおける輪郭領域と平坦領域を決定するために用いられ、前記処理ユニット１００４は、前記輪郭領域を輪郭強調処理し、且つ前記平坦領域に対してノイズ除去処理を行うことで、ターゲット再構築ビデオフレームを取得するために用いられる。

１つの可能な実現方式では、前記決定ユニット１００３は、前記処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、バイキュービック補間によってバイキュービック補間増幅結果を取得すること、
前記処理対象のビデオフレームに対応する前記初期再構築ビデオフレームと前記バイキュービック補間増幅結果に基づいて残差分離を行い、高周波マスクと低周波マスクを取得すること、
前記初期再構築ビデオフレーム、前記バイキュービック補間増幅結果、及び前記高周波マスクに基づいて前記輪郭領域を決定し、前記初期再構築ビデオフレーム、前記バイキュービック補間増幅結果、及び前記低周波マスクに基づいて前記平坦領域を決定することに用いられる。

１つの可能な実現方式では、前記取得ユニット１００１は、
ビデオ再生命令を取得すること、
前記ビデオ再生命令に基づいて前記処理対象のビデオフレームシーケンスに対応するビデオファイルを再生すること、
前記ビデオファイルの解像度切り替え命令が検出されると、前記解像度切り替え命令により切り替えが指示された解像度が前記第２の解像度に関連付けられている場合、トリガー再構築ユニット１００２は、前記処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、解像度再構築モデルに基づいて前記処理対象のビデオフレームを解像度再構築することで、第２の解像度の初期再構築ビデオフレームを取得するように実行することに用いられる。

１つの可能な実現方式では、前記装置は、再生ユニットさらに含み、
現在再生中のビデオフレームの次のビデオフレームを決定すること、
前記再構築ビデオフレームシーケンスのうち、前記次のビデオフレームに対応するターゲット再構築ビデオフレームを決定すること、
次のビデオフレームを再生する時、前記次のビデオフレームに対応するターゲット再構築ビデオフレームに切り替え、前記再構築ビデオフレームシーケンスのうちのターゲット再構築ビデオフレームを再生することに用いられる。

１つの可能な実現方式では、前記装置は、トレーニングユニットをさらに含み、
収集された、解像度が予め設定された閾値よりも高いオリジナルビデオサンプルに対してダウンサンプリング処理とビデオ圧縮処理を行い、ターゲットビデオサンプルを取得すること、
前記ターゲットビデオサンプルに基づいて、前記ターゲットビデオサンプル内の予め設定されたフレーム位置に位置するマルチフレームの第１の画像が含まれる低解像度サンプルセットを決定すること、
前記オリジナルビデオサンプルのうち、前記予め設定されたフレーム位置に位置するマルチフレームの第２の画像に対して輪郭強調処理を行うことで、輪郭強調処理された前記マルチフレームの第２の画像である第３の画像が含まれる高解像度サンプルセットを取得すること、
前記低解像度サンプルセットと前記高解像度サンプルセットに基づいてトレーニングデータセットを構築すること、
前記トレーニングデータセットに基づいて初期再構築モデルをトレーニングし、前記解像度再構築モデルを取得することに用いられる。

１つの可能な実現方式では、前記トレーニングユニットは、
第１のサイズに従って前記マルチフレームの第３の画像をそれぞれ分割することでラベル図を取得し、第２のサイズに従って前記マルチフレームの第１の画像をそれぞれ分割することで入力画像を取得すること、
前記マルチフレームの第３の画像のうち、各フレームの第３の画像に対応するラベル図に対して、前記ラベル図のうち、前記第３の画像に属する平坦領域のターゲットラベル図を決定すること、
前記ターゲットラベル図及び前記ターゲットラベル図に対応する入力画像を除去することに用いられる。

１つの可能な実現方式では、前記トレーニングユニットは、
前記第３の画像に基づいて対応する初期演算子図を生成すること、
前記初期演算子図における画素値が第１の閾値よりも小さい画素点の画素値をゼロに再付与し、ターゲット演算子図を取得すること、
前記第１のサイズに従って前記ターゲット演算子図を分割し、前記第３の画像のラベル図に一対一で対応する、前記ターゲット演算子図の演算子サブ図を取得すること、
前記演算子サブ図における画素値がゼロでない画素点の個数が第２の閾値を超えない場合、前記演算子サブ図に対応するラベル図が前記ターゲットラベル図であると決定することに用いられる。

１つの可能な実現方式では、前記トレーニングユニットは、
予め設定された範囲内で複数の異なる固定コードレート係数を選択すること、
前記複数の異なる固定コードレート係数を利用して前記オリジナルビデオサンプルに対してそれぞれビデオ圧縮処理を行い、複数の解像度のターゲットビデオサンプルを取得することに用いられる。

１つの可能な実現方式では、前記再構築ユニット１００２は、
前記解像度再構築モデルによって前記処理対象のビデオフレームに対して少なくとも２回の残差抽出を行い、各残差抽出結果を取得すること、
各残差抽出結果に基づいて前記処理対象のビデオフレームを解像度再構築することで、第２の解像度の初期再構築ビデオフレームを取得することに用いられる。

１つの可能な実現方式では、前記再構築ユニット１００２は、
前記解像度再構築モデルにおける畳み込み層によって前記処理対象のビデオフレームに対して畳み込み処理を行い、前記処理対象のビデオフレームに対応する畳み込み処理結果を取得すること、
前記畳み込み処理結果に基づいてネットワーク本体構造における各残差ブロックを順に残差抽出を行い、カスケード接続された前記各残差ブロックの残差抽出結果を取得することに用いられる。

１つの可能な実現方式では、前記再構築ユニット１００２は、
スプライシング層によって前記各残差抽出結果をスプライシングし、残差スプライシング特徴を取得すること、
前記残差スプライシング特徴に対して特徴融合を行って融合特徴図を取得すること、
融合特徴図に対してアップサンプリング処理を行い、前記処理対象のビデオフレームに対応する、第２の解像度の初期再構築ビデオフレームを取得することに用いられる。

本願の実施例は、人工知能の超解像度再構築方法に基づくことが可能な機器をさらに提供する。以下では、添付図面を参照しながら、該機器を説明する。図１１を参照すると、本願の実施例は、機器を提供しており、該機器は、端末機器であってもよく、この端末機器は、コンピュータ、タブレットパソコン、携帯電話、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡと略称）、販売端末（ＰｏｉｎｔｏｆＳａｌｅｓ、ＰＯＳと略称）、車載コンピュータなどを含んでもよく、端末機器が携帯電話であることを例にする。

図１１は、本願の実施例による端末機器に関連する携帯電話の一部の構造のブロック図を示す。図１１を参照すると、携帯電話は、無線周波数（ＲａｄｉｏＦｒｅｑｕｅｎｃｙ、ＲＦと略称）回路１１１０、メモリ１１２０、入力ユニット１１３０、表示ユニット１１４０、センサ１１５０、オーディオ回路１１６０、ワイファイ（ｗｉｒｅｌｅｓｓｆｉｄｅｌｉｔｙ、ＷｉＦｉと略称）モジュール１１７０、プロセッサ１１８０、及び電源１１９０などの部品を含む。当業者であれば理解できるように、図１１に示す携帯電話の構造は、携帯電話に対する限定を構成せず、図示された部品の数よりも多い又は少ない部品、又はなんらかの部品の組み合わせ、又は異なる部品の配置を含んでもよい。

以下、図１１を参照しながら携帯電話の各構成部品について具体的に説明する。
ＲＦ回路１１１０は、情報の送受信又は通話中の信号の受信と送信に用いられてもよく、特に、基地局のダウンリンク情報を受信してから、プロセッサ１１８０に処理させ、また、アップリンク用のデータを基地局に送信する。一般的には、ＲＦ回路１１１０は、アンテナ、少なくとも１つの増幅器、送受信機、カプラ、低雑音増幅器（ＬｏｗＮｏｉｓｅＡｍｐｌｉｆｉｅｒ、ＬＮＡと略称）、デュプレクサなどを含むが、これらに限らない。なお、ＲＦ回路１１１０は、無線通信とネットワークを介して他の機器との通信を行ってもよい。上記無線通信は、いずれか１つの通信規格又はプロトコルを用いてもよく、グローバル移動通信システム（ＧｌｏｂａｌＳｙｓｔｅｍｏｆＭｏｂｉｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ、ＧＳＭと略称）、汎用パケット無線サービス（ＧｅｎｅｒａｌＰａｃｋｅｔＲａｄｉｏＳｅｒｖｉｃｅ、ＧＰＲＳと略称）、符号分割多元接続（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ、ＣＤＭＡと略称）、広帯域符号分割多元接続（ＷｉｄｅｂａｎｄＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ、ＷＣＤＭＡ（登録商標）と略称）、長期の進化（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ、ＬＴＥと略称）、電子メール、ショートメッセージサービス（ＳｈｏｒｔＭｅｓｓａｇｉｎｇＳｅｒｖｉｃｅ、ＳＭＳと略称）などを含むが、これらに限らない。

メモリ１１２０は、ソフトウェアプログラム及びモジュールを記憶するために用いられてもよく、プロセッサ１１８０は、メモリ１１２０に記憶されているソフトウェアプログラム及びモジュールを運行することによって、携帯電話の様々な機能アプリケーションを実行し、データを処理する。メモリ１１２０は、主にプログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラム（例えば、音声再生機能、画像再生機能など）などを記憶することができ、データ記憶領域は、携帯電話の使用によって作成されるデータ（例えば、オーディオデータ、電話帳など）などを記憶することができる。なお、メモリ１１２０は、高速ランダムアクセスメモリを含んでもよく、不揮発性メモリ、例えば少なくとも１つの磁気ディスクメモリデバイス、フラッシュメモリデバイス、又は他の揮発性ソリッドステートメモリデバイスをさらに含んでもよい。

入力ユニット１１３０は、入力された数字又はキャラクタ情報の受信、及び携帯電話のユーザによる設置及び機能制御に関するキー信号入力の発生に用いられてもよい。具体的に、入力ユニット１１３０は、タッチパネル１１３１及び他の入力機器１１３２を含んでもよい。タッチパネル１１３１は、タッチスクリーンとも呼ばれてもよく、それ又はその付近でのユーザによるタッチ操作（例えばユーザが指、タッチペンなどの任意の適切な物体又は付属品を用いてタッチパネル１１３１又はタッチパネル１１３１付近で行う操作）を収集することができ、予め設定されたプログラムに基づいて相応な接続装置を駆動する。選択的に、タッチパネル１１３１は、タッチ検出装置とタッチコントローラとの２つの部分を含んでもよい。ここで、タッチ検出装置は、ユーザによるタッチ方位を検出し、タッチ操作による信号を検出し、信号をタッチコントローラに伝送し、タッチコントローラは、タッチ検出装置からタッチ情報を受信し、タッチポイント座標に変換してから、プロセッサ１１８０に送信し、プロセッサ１１８０から送信されてきたコマンドを受信して実行する。なお、抵抗式、静電容量式、赤外線及び表面音波などの様々なタイプを用いてタッチパネル１１３１を実現してもよい。入力ユニット１１３０は、タッチパネル１１３１以外にも、他の入力機器１１３２０を含んでもよい。具体的に、他の入力機器１１３２は、物理的なキーボード、機能キー（例えば、ボリューム制御ボタン、スイッチボタンなど）、トラックボール、マウス、操作レバーなどのうちの１つ又は複数を含んでもよいが、これらに限らない。

表示ユニット１１４０は、ユーザによって入力された情報又はユーザに提供される情報及び携帯電話の様々なメニューを表示するために用いられている。表示ユニット１１４０は、表示パネル１１４１を含んでもよく、選択的に、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤと略称）、有機発光ダイオード（ＯｒｇａｎｉｃＬｉｇｈｔ－ＥｍｉｔｔｉｎｇＤｉｏｄｅ、ＯＬＥＤと略称）などの形式で表示パネル１１４１が配置されてもよい。さらに、タッチパネル１１３１は、表示パネル１１４１を覆ってもよく、タッチパネル１１３１は、それ又はその付近でのユーザによるタッチ操作を検出すると、プロセッサ１１８０に伝送して、タッチイベントのタイプを特定し、その後、プロセッサ１１８０は、タッチイベントのタイプに応じて表示パネル１１４１に相応な視覚出力を提供する。図１１では、タッチパネル１１３１と表示パネル１１４１は、２つの独立した部品として携帯電話の入力と出力機能を実現するものであるが、なんらかの実施例では、タッチパネル１１３１と表示パネル１１４１を集積して携帯電話の入力と出力機能を実現してもよい。

携帯電話は、少なくとも１つのセンサ１１５０、例えば光センサ、モーションセンサ及び他のセンサをさらに含んでもよい。具体的に、光センサは、環境光センサ及び接近センサを含んでもよい。ここで、環境光センサは、環境光の明暗に応じて、表示パネル１１４１の輝度を調整してもよい。接近センサは、携帯電話が耳元に移動した時、表示パネル１１４１及び／又はバックライトをオフにすることができる。モーションセンサの１つとして、加速度計センサは、各方向（一般的には、三軸）での加速度の大きさを検出することができ、静止時、重力の大きさ及び方向を検出することができ、携帯電話の姿勢のアプリケーション（例えば縦横スクリーン切り替え、関連ゲーム、磁力計姿勢キャリブレーション）の識別、振動識別関連機能（例えば歩数計、タップ）などに用いられてもよく、携帯電話については、ジャイロ、気圧計、湿度計、温度計、赤外線センサなどの他のセンサをさらに配置してもよく、ここでは説明を省略する。

オーディオ回路１１６０、スピーカ１１６１、マイクロホン１１６２は、ユーザと携帯電話との間のオーディオインターフェースを提供することができる。オーディオ回路１１６０は、受信したオーディオデータ変換後の電気信号をスピーカ１１６１に伝送し、スピーカ１１６１によって音声信号に変換され出力されてもよく、他方では、マイクロホン１１６２は、收集した音声信号を電気信号に変換し、オーディオ回路１１６０が受信した後、オーディオデータに変換してから、プロセッサ１１８０に出力して処理させた後、ＲＦ回路１１１０を介して、例えば別の携帯電話に送信し、又はオーディオデータをメモリ１１２０に出力して、さらなる処理を行う。

ＷｉＦｉは、短距離無線伝送技術に属し、携帯電話は、ＷｉＦｉモジュール１１７０によってユーザへの電子メールの送受信、ウェブページの閲覧、ストリーミングメディアへのアクセスなどを支援することができ、ユーザに無線のブロードバンドインターネットアクセスを提供した。図１１では、ＷｉＦｉモジュール１１７０を示したが、理解できるように、それは携帯電話の必要な構成ではなく、必要に応じて発明の本質を変更しない範囲で完全に省略されてもよい。

プロセッサ１１８０は、携帯電話の制御センターとして、様々なインターフェースと回路を利用して携帯電話全体の各部分に接続され、メモリ１１２０に記憶されたソフトウェアプログラム及び／又はモジュールを運行又は実行すること、及びメモリ１１２０に記憶されたデータを呼び出し、携帯電話の様々な機能を実行し、データを処理することで、携帯電話全体をモニタリングする。選択的に、プロセッサ１１８０は、１つ又は複数の処理ユニットを含んでもよく、好ましくは、プロセッサ１１８０は、アプリケーションプロセッサとモデムプロセッサを集積してもよい。ここで、アプリケーションプロセッサは、主にオペレーティングシステム、ユーザインターフェース及びアプリケーションプログラムなどを処理するためのものであり、モデムプロセッサは、主に無線通信を処理するためのものである。理解できるように、上記モデムプロセッサは、プロセッサ１１８０に集積されなくてもよい。

携帯電話は、各部品に電力を供給する電源１１９０（例えば電池）をさらに含み、好ましくは、電源は、電源管理システムによってプロセッサ１１８０にロジック的に接続されてもよく、これにより、電源管理システムによって充放電管理及び消費電力管理などの機能を実現することができる。
図示されてはいないが、携帯電話は、カメラ、ブルートゥース（登録商標）モジュールなどをさらに含んでもよく、ここでは説明を省略する。

本実施例では、この端末機器に含まれるプロセッサ１１８０はさらに、
第１の解像度の処理対象のビデオフレームシーケンスを取得する機能、
前記処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、解像度再構築モデルに基づいて前記処理対象のビデオフレームを解像度再構築することで、前記第１の解像度よりも高い第２の解像度の初期再構築ビデオフレームを取得する機能、
前記初期再構築ビデオフレームにおける輪郭領域を決定する機能、
前記輪郭領域を輪郭強調処理することで、ターゲット再構築ビデオフレームを取得する機能、
前記ターゲット再構築ビデオフレームに基づいて第２の解像度の再構築ビデオフレームシーケンスを生成する機能を有する。

本願の実施例はさらに、サーバを提供する。図１２を参照すると、図１２は、本願の実施例によるサーバ１２００の構造図であり、サーバ１２００は、配置又は性能の違いによって比較的に大きい相違が発生してもよく、１つ又はそれ以上の中央プロセッサ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ、ＣＰＵと略称）１２２２（例えば、１つ又はそれ以上のプロセッサ）とメモリ１２３２、１つ又はそれ以上のアプリケーションプログラム１２４２又はデータ１２４４を記憶する記憶媒体１２３０（例えば１つ又はそれ以上の大規模の記憶機器）を含んでもよい。ここで、メモリ１２３２と記憶媒体１２３０は、一時記憶又は永続記憶であってもよい。記憶媒体１２３０に記憶されたプログラムは、１つ又はそれ以上のモジュール（図示されていない）を含んでもよく、各モジュールは、サーバ内の一連の命令に対する操作を含んでもよい。さらに、中央プロセッサ１２２２は、記憶媒体１２３０と通信するように設定され、サーバ１２００で記憶媒体１２３０内の一連の命令操作を実行してもよい。

サーバ１２００は、１つ又はそれ以上の電源１２２６、１つ又はそれ以上の有線又は無線ネットワークインターフェース１２５０、１つ又はそれ以上の入出力インターフェース１２５８、及び／又は、１つ又はそれ以上のオペレーティングシステム１２４１、例えばＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、Ｌｉｎｕｘ（登録商標）ＴＭ、ＦｒｅｅＢＳＤＴＭなどをさらに含んでもよい。
上記実施例においてサーバが実行するステップは、該図１２に示されるサーバ構造に基づいて実行してもよい。

本願の実施例はさらに、コンピュータ読み取り可能な記憶媒体を提供する。前記コンピュータ読み取り可能な記憶媒体は、プログラムコードを記憶するために用いられ、前記プログラムコードは、前述した各実施例に記載の方法を実行するために用いられる。

本願の実施例はさらに、命令を含むコンピュータプログラム製品であって、コンピュータで運行されると、コンピュータに前記各実施例に記載の方法を実行させるコンピュータプログラム製品を提供する。

本願によるいくつかの実施例では、理解すべきことは、開示されたシステム、装置、及び方法は、他の形態によって実現されてもよい。例えば、以上に記述された装置の実施例は例示的なものに過ぎず、例えば、前記ユニットの区分は、ただ論理機能区分に過ぎず、実際に実現する時、他の区分形態があってもよく、例えば、複数のユニット又はコンポーネントは、別のシステムに組み合わせてもよく、又は集積されてもよく、いくつかの特徴は、無視されてもよく、又は実行されてもよい。また、表示又は討論されたお互いの組み合わせ又は直接結合又は通信接続は、いくつかのインターフェース、装置又はユニットによる間接結合又は通信接続であってもよく、電気的、机械的又は他の形式であってもよい。

前述分離された部品として説明されたユニットは、物理的に分離されてもよく、又は物理的に分離されなくてもよく、ユニットとして表示される部品は、物理的なユニットであってもよく、又は、物理的なユニットでなくてもよく、即ち、１つの場所に位置してもよく、又は複数のネットワークユニットに分布されてもよい。実際の必要に応じて、そのうちの一部又は全てのユニットを選択して、本実施例の方案の目的を実現することができる。

また、本願の各実施例における各機能ユニットは、１つの処理ユニットに集積されてもよく、各ユニットは、独立して物理的に存在しもよく、２つ又はそれ以上のユニットは、１つのユニットに集積されてもよい。上述した集積されたユニットは、ハードウェアの形式で実現されてもよく、ソフトウェア機能ユニットの形式で実現されてもよい。

前記集積されたユニットは、ソフトウェア機能ユニットの形式で実現され、且つ独立した製品として販売又は使用される場合、１つのコンピュータ読み取り可能な記憶媒体に記憶されてもよい。このような理解を踏まえて、本願の技術案は、実質には、又は従来の技術に寄与した部分又は該技術案の全て又は一部がソフトウェア製品の形式によって具現されてもよく、このコンピュータソフトウェア製品は、１つの記憶媒体に記憶され、一台のコンピュータ機器（パーソナルコンピュータ、サーバ、又はネットワーク機器などであってもよい）に本願の各実施例に記載の方法の全て又は一部のステップを実行させるための若干の命令を含む。ただし、前述した記憶媒体は、Ｕディスク、リムーバブルハードディスク、リードオンリーメモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭと略称）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭと略称）、磁気ディスク又は光ディスクなどのプログラムコードを記憶可能な様々な媒体を含む。

前述したように、以上の実施例は、本願の技術案を説明するためにのみ用いられるが、それを制限するものではなく、前述した実施例を参照しながら本願を詳細に説明したが、当業者なら理解できるように、依然として前述した各実施例に記載の技術案を修正するか、又はそのうちの一部の技術的特徴を同等の置き換えを行ってもよいが、これらの修正又は置き換えは、相応な技術案の本質を本願の各実施例の技術案の思想と範囲から逸脱せずに行われる。

Claims

端末機器が実行する人工知能に基づく超解像度再構築方法であって、
第１の解像度の処理対象のビデオフレームシーケンスを取得するステップと、
前記処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、解像度再構築モデルに基づいて前記処理対象のビデオフレームを解像度再構築することで、第２の解像度の初期再構築ビデオフレームを取得するステップであって、前記第２の解像度は、前記第１の解像度よりも高いものであるステップと、
前記初期再構築ビデオフレームにおける輪郭領域を決定するステップと、
前記輪郭領域を輪郭強調処理することで、ターゲット再構築ビデオフレームを取得するステップと、
前記ターゲット再構築ビデオフレームに基づいて、第２の解像度の再構築ビデオフレームシーケンスを生成するステップと、を含む、超解像度再構築方法。
前記初期再構築ビデオフレームにおける輪郭領域を決定する前記ステップは、
残差分離方式によって前記初期再構築ビデオフレームにおける輪郭領域と平坦領域を決定するステップを含み、
前記輪郭領域を輪郭強調処理することで、ターゲット再構築ビデオフレームを取得する前記ステップは、
前記輪郭領域を輪郭強調処理するとともに、前記平坦領域をノイズ除去処理して、ターゲット再構築ビデオフレームを取得するステップを含む、請求項１に記載の方法。
前記残差分離方式によって前記初期再構築ビデオフレームにおける輪郭領域と平坦領域を決定する前記ステップは、
前記処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、バイキュービック補間によってバイキュービック補間増幅結果を取得するステップと、
前記処理対象のビデオフレームに対応する前記初期再構築ビデオフレームと前記バイキュービック補間増幅結果に基づいて残差分離を行うことで、高周波マスクと低周波マスクを取得するステップと、
前記初期再構築ビデオフレームと、前記バイキュービック補間増幅結果と、前記高周波マスクに基づいて前記輪郭領域を決定し、前記初期再構築ビデオフレームと、前記バイキュービック補間増幅結果と、前記低周波マスクに基づいて前記平坦領域を決定するステップと、を含む、請求項２に記載の方法。
第１の解像度の処理対象のビデオフレームシーケンスを取得する前記ステップは、
ビデオ再生命令を取得するステップと、
前記ビデオ再生命令に基づいて、前記処理対象のビデオフレームシーケンスに対応するビデオファイルを再生するステップと、
前記ビデオファイルの解像度切り替え命令が検出されると、前記解像度切り替え命令により切り替えが指示された解像度が前記第２の解像度に関連付けられている場合、前記処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、解像度再構築モデルに基づいて前記処理対象のビデオフレームを解像度再構築することで、第２の解像度の初期再構築ビデオフレームを取得する前記ステップを実行するステップと、を含む、請求項１に記載の方法。
前記ターゲット再構築ビデオフレームに基づいて第２の解像度の再構築ビデオフレームシーケンスを生成する前記ステップの後、
現在再生中のビデオフレームの次のビデオフレームを決定するステップと、
前記再構築ビデオフレームシーケンスのうち、前記次のビデオフレームに対応するターゲット再構築ビデオフレームを決定するステップと、
次のビデオフレームを再生する際、前記次のビデオフレームに対応するターゲット再構築ビデオフレームに切り替えて、前記再構築ビデオフレームシーケンスのうちのターゲット再構築ビデオフレームを再生するステップと、をさらに含む、請求項１に記載の方法。
前記解像度再構築モデルは、
収集されたオリジナルビデオサンプルをダウンサンプリング処理とビデオ圧縮処理することで、ターゲットビデオサンプルを取得するステップであって、前記オリジナルビデオサンプルの解像度は、予め設定された閾値よりも高いものであるステップと、
前記ターゲットビデオサンプルに基づいて低解像度サンプルセットを決定するステップであって、前記低解像度サンプルセットには、前記ターゲットビデオサンプル内の予め設定されたフレーム位置に位置するマルチフレームの第１の画像が含まれるステップと、
前記オリジナルビデオサンプルのうち、前記予め設定されたフレーム位置に位置するマルチフレームの第２の画像を輪郭強調処理することで、高解像度サンプルセットを取得するステップであって、前記高解像度サンプルセットには、輪郭強調処理後の前記マルチフレームの第２の画像である、マルチフレームの第３の画像が含まれる、ステップと、
前記低解像度サンプルセットと前記高解像度サンプルセットに基づいてトレーニングデータセットを構築するステップと、
前記トレーニングデータセットに基づいて初期再構築モデルをトレーニングすることで、前記解像度再構築モデルを取得するステップと、
に従ってトレーニングされたものである、請求項１に記載の方法。
前記低解像度サンプルセットと前記高解像度サンプルセットに基づいてトレーニングデータセットを構築する前記ステップは、
第１のサイズに従って前記マルチフレームの第３の画像をそれぞれ分割して、ラベル図を取得し、第２のサイズに従って前記マルチフレームの第１の画像をそれぞれ分割して、入力画像を取得するステップと、
前記マルチフレームの第３の画像のうち、各フレームの第３の画像に対応するラベル図に対して、前記ラベル図のうち、前記第３の画像に属する平坦領域のターゲットラベル図を決定するステップと、
前記ターゲットラベル図及び前記ターゲットラベル図に対応する入力画像を除去するステップと、を含む、請求項６に記載の方法。
前記ラベル図のうち、前記第３の画像に属する平坦領域のターゲットラベル図を決定する前記ステップは、
前記第３の画像に基づいて対応する初期演算子図を生成するステップと、
前記初期演算子図における画素値が第１の閾値よりも小さい画素点の画素値をゼロに再付与し、ターゲット演算子図を取得するステップと、
前記第１のサイズに従って前記ターゲット演算子図を分割し、前記ターゲット演算子図の演算子サブ図を取得するステップであって、前記演算子サブ図は、前記第３の画像のラベル図に一対一で対応するステップと、
前記演算子サブ図における画素値がゼロでない画素点の個数が第２の閾値を超えない場合、前記演算子サブ図に対応するラベル図が前記ターゲットラベル図であると決定するステップと、を含む、請求項７に記載の方法。
収集されたオリジナルビデオサンプルをビデオ圧縮処理することは、
予め設定された範囲内で複数の異なる固定コードレート係数を選択するステップと、
前記複数の異なる固定コードレート係数を利用して前記オリジナルビデオサンプルをそれぞれビデオ圧縮処理することで、複数の解像度のターゲットビデオサンプルを取得するステップと、を含む、請求項６に記載の方法。
解像度再構築モデルに基づいて前記処理対象のビデオフレームを解像度再構築することで、第２の解像度の初期再構築ビデオフレームを取得する前記ステップは、
前記解像度再構築モデルによって前記処理対象のビデオフレームに対して少なくとも２回の残差抽出を行い、各残差抽出結果を取得するステップと、
各残差抽出結果に基づいて前記処理対象のビデオフレームを解像度再構築することで、第２の解像度の初期再構築ビデオフレームを取得するステップと、を含む、請求項１に記載の方法。
前記解像度再構築モデルによって前記処理対象のビデオフレームに対して少なくとも２回の残差抽出を行うことで、各残差抽出結果を取得する前記ステップは、
前記解像度再構築モデルにおける畳み込み層によって前記処理対象のビデオフレームを畳み込み処理することで、前記処理対象のビデオフレームに対応する畳み込み処理結果を取得するステップと、
前記畳み込み処理結果に基づいて、ネットワーク本体構造における各残差ブロックを順に残差抽出を行い、前記各残差ブロックの残差抽出結果を取得するステップであって、前記各残差ブロックは、カスケード接続されたものであるステップと、を含む、請求項１０に記載の方法。
各残差抽出結果に基づいて前記処理対象のビデオフレームを解像度再構築することで、第２の解像度の初期再構築ビデオフレームを取得する前記ステップは、
スプライシング層によって前記各残差抽出結果をスプライシングし、残差スプライシング特徴を取得するステップと、
前記残差スプライシング特徴を特徴融合することで、融合特徴図を取得するステップと、
融合特徴図をアップサンプリング処理することで、第２の解像度の初期再構築ビデオフレームを取得するステップであって、前記初期再構築ビデオフレームは、前記処理対象のビデオフレームに対応するものであるステップと、を含む、請求項１０に記載の方法。
人工知能に基づく超解像度再構築装置であって、
第１の解像度の処理対象のビデオフレームシーケンスを取得する取得ユニットと、
前記処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、解像度再構築モデルに基づいて前記処理対象のビデオフレームを解像度再構築することで、前記第１の解像度よりも高い第２の解像度の初期再構築ビデオフレームを取得する再構築ユニットと、
前記初期再構築ビデオフレームにおける輪郭領域を決定する決定ユニットと、
前記輪郭領域を輪郭強調処理することで、ターゲット再構築ビデオフレームを取得する処理ユニットと、
前記ターゲット再構築ビデオフレームに基づいて、第２の解像度の再構築ビデオフレームシーケンスを生成する生成ユニットと、を含む、超解像度再構築装置。
プロセッサ及びメモリを含む機器であって、
前記メモリは、プログラムコードを記憶し、前記プログラムコードを前記プロセッサに伝送し、
前記プロセッサは、前記プログラムコードにおける命令に基づいて、請求項１から請求項１２のいずれか１項に記載の方法を実行する、機器。
コンピュータプログラムを記憶するコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータプログラムは、請求項１から請求項１２のいずれか１項に記載の方法を実行するのに用いられる、コンピュータ読み取り可能な記憶媒体。
コンピュータプログラム製品であって、
前記コンピュータプログラム製品がコンピュータで運行されると、前記コンピュータに請求項１から請求項１２のいずれか１項に記載のデータ処理方法を実行させる、コンピュータプログラム製品。