JP2020191631A

JP2020191631A - 画像符号化装置、確率モデル生成装置及び画像圧縮システム

Info

Publication number: JP2020191631A
Application number: JP2020083134A
Authority: JP
Inventors: 思寒温; Sihan Wen; 静周; Jing Zhou; タヌ・ジミン; Tan Zhiming
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-05-22
Filing date: 2020-05-11
Publication date: 2020-11-26
Also published as: CN111986278A; US11257252B2; US20200372684A1; CN111986278B

Abstract

【課題】復号時間を短縮することができる、画像符号化方法、装置及び画像圧縮システムを提供する。【解決手段】画像符号化装置は、入力画像に対して特徴抽出を行い、Ｎ個のチャネルの特徴マップを取得する第１特徴抽出部と、各チャネルの特徴マップに重みを割り当てる重み付け部と、該重み付け部により処理された特徴マップに対して次元削減処理を行い、Ｎよりも小さいＭ個のチャネルの特徴マップを取得して出力する第２特徴抽出部と、を含む。【効果】これによって、異なる特徴マップに１つの重みを乗算して対応する重要度を取得し、重み付け部により処理された特徴マップに対して第２特徴抽出部により次元削減を行う。【選択図】図８

Description

本発明は、画像圧縮及び深層学習の技術分野に関する。

近年、深層学習（ディープラーニング）は、コンピュータビジョンの分野に支配的な地位を占めており、画像認識や超解像再生のいずれにおいても、深層学習は画像研究にとって重要な技術となっているが、その機能はこれらのタスクに限定されない。現在、深層学習の技術は、画像圧縮の分野に導入され、徐々に大きな潜在力を示し、注目される研究分野となっている。

なお、上述した技術背景の説明は、本発明の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本発明の背景技術部分として説明されたものであり、当業者により周知されたものではない。

本発明の実施例は、潜在変数のボトルネックを低減させることで復号時間を短縮し、独立したエントロピーモデルを用いて正確な確率分布の予測を実現することでコードストリームの要求を低減させる画像圧縮方法を提供する。

本発明の実施例の第１態様では、画像符号化装置であって、入力画像に対して特徴抽出を行い、Ｎ個のチャネルの特徴マップを取得する第１特徴抽出部と、各チャネルの特徴マップに重みを割り当てる重み付け部と、前記重み付け部により処理された特徴マップに対して次元削減処理を行い、Ｍ個のチャネルの特徴マップを取得して出力する第２特徴抽出部であって、ＭはＮよりも小さい、第２特徴抽出部と、を含む、画像符号化装置を提供する。

本発明の実施例の第２態様では、確率モデル生成装置であって、ハイパーエンコーダから受信されたコードストリームに対してハイパー復号を行い、補助情報を取得するハイパーデコーダと、エンコーダの出力を入力とし、内容に基づく予測を取得するコンテキストモデル処理部と、前記コンテキストモデル処理部の出力と前記ハイパーデコーダの出力とを組み合わせ、予測された確率モデルを取得して前記エンコーダ及びデコーダに提供するエントロピーモデル処理部と、を含み、前記コンテキストモデル処理部は、前記エンコーダの出力に基づいて、前記内容に基づく予測の予測結果の平均値部分を取得する第１処理部と、前記エンコーダの出力に基づいて、前記内容に基づく予測の予測結果の分散部分を取得する第２処理部と、を含み、前記エントロピーモデル処理部は、前記第１処理部により取得された前記予測結果の平均値部分と前記ハイパーデコーダにより出力された補助情報とを組み合わせ、前記予測された確率モデルの平均値部分を取得する第３処理部と、前記第２処理部により取得された前記予測結果の分散部分と前記ハイパーデコーダにより出力された補助情報とを組み合わせ、前記予測された確率モデルの分散部分を取得する第４処理部と、を含む、装置を提供する。

本発明の実施例の第３態様では、画像圧縮システムであって、入力画像をダウンサンプリングし、前記入力画像を潜在表現に変換する画像符号化装置と、前記潜在表現の確率分布を予測し、前記潜在表現の確率モデルを取得する確率モデル生成装置と、前記確率モデルに基づいて、復号により取得された潜在表現をアップサンプリングし、潜在表現を前記入力画像にマッピングして戻す画像復号装置と、を含み、前記画像符号化装置は、上記の第１態様に記載の装置を含み、或いは、前記確率モデル生成装置は、上記の第２態様に記載の装置を含む、システムを提供する。

本発明の実施例の第４態様では、画像符号化方法であって、入力画像に対して特徴抽出を行い、Ｎ個のチャネルの特徴マップを取得するステップと、各チャネルの特徴マップに重みを割り当てるステップと、重みが割り当てられたＮ個のチャネルの特徴マップに対して次元削減処理を行い、Ｍ個のチャネルの特徴マップを取得して出力するステップであって、ＭはＮよりも小さい、ステップと、を含む、画像符号化方法を提供する。

本発明の実施例の第５態様では、確率モデル生成方法であって、ハイパーデコーダを用いて、エンコーダから受信されたコードストリームに対して復号を行い、補助情報を取得するステップと、コンテキストモデルを用いて前記エンコーダの出力を入力とし、内容に基づく予測を取得するステップと、エントロピーモデルを用いて前記コンテキストモデルの出力と前記ハイパーデコーダの出力とを組み合わせ、予測された確率モデルを取得して前記エンコーダ及びデコーダに提供するステップと、を含み、前記エントロピーモデルは、前記コンテキストモデルにより取得された予測結果の平均値部分と前記ハイパーデコーダにより出力された補助情報とを組み合わせ、前記確率モデルの平均値部分を取得し、前記コンテキストモデルにより取得された予測結果の分散部分と前記ハイパーデコーダにより出力された補助情報とを組み合わせ、前記確率モデルの分散部分を取得する、方法を提供する。

本発明の実施例の他の態様では、コンピュータ読み取り可能なプログラムであって、画像処理装置において前記プログラムが実行される際に、前記画像処理装置に上記の第４態様及び／又は第５態様に記載の方法を実行させる、プログラムを提供する。

本発明の実施例の他の態様では、コンピュータ読み取り可能なプログラムが記憶されている記憶媒体であって、前記コンピュータ読み取り可能なプログラムが画像処理装置に上記の第４態様及び／又は第５態様に記載の方法を実行させる、記憶媒体を提供する。

本発明の実施例の有利な効果は以下の通りである。本発明の実施例の少なくとも１つの態様によれば、画像圧縮において、潜在変数のボトルネックを低減させることで復号時間を短縮し、即ち、重み付け部により異なる特徴マップに１つの重みを乗算して対応する重要度を取得し、重み付け部により処理された特徴マップに対して該第２特徴抽出部により次元削減を行い、復号時間を短縮することができる。また、本発明の実施例の少なくとも１つの態様によれば、独立したエントロピーモデルを用いて正確な確率分布の予測を実現することでコードストリームの要求を低減させ、即ち、２つの独立したコンテキストモデル処理部及びエントロピーモデル処理部により確率モデルの２つのパラメータｍｕ及びｓｉｇｍａを取得することで、より正確なエントロピーモデルにより符号化に必要なコードストリームを低減させることができる。

本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施形態は、範囲上には限定されるものではない。本発明の実施形態は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の改変、修正、及び均等的なものが含まれる。

ある一つの実施形態に説明及び又は示されている特徴は、同一又は類似の方式で一つ又は多くの他の実施形態に使用されてもよく、他の実施形態における特徴と組み合わせてもよく、他の実施形態における特徴を代替してもよい。

なお、用語「含む／有する」は、本文に使用される際に、特徴、要素、ステップ又は構成要件の存在を意味し、一つ又は複数の他の特徴、要素、ステップ又は構成要件の存在又は追加を排除するものではない。

本発明の実施例の図面又は実施形態に説明されている要素及び特徴は、１つ又は複数の他の図面又は実施形態に示す要素及び特徴と組み合わせてもよい。図面において、類似する符号は複数の図面における対応する構成部を表し、複数の態様に用いられる対応構成部を表してもよい。

ここで含まれる図面は、本発明の実施例を理解させるためのものであり、本明細書の一部を構成し、本発明の実施例を例示するためのものであり、文言の記載と合わせて本発明の原理を説明する。なお、ここに説明される図面は、単なる本発明の実施例を説明するためのものであり、当業者にとって、これらの図面に基づいて他の図面を容易に得ることができる。
実施例１の画像圧縮システムの概略図である。実施例２の画像符号化装置の概略図である。図２に示す画像符号化装置の第１特徴抽出部の１つの実施例のネットワーク構造の概略図である。図２に示す画像符号化装置の重み付け部の概略図である。図４に示す重み付け部に対応するネットワーク構造の概略図である。実施例３の確率モデル生成装置の概略図である。実施例１の画像圧縮システムの１つの実施例のネットワーク構造の概略図である。実施例４の画像符号化方法の概略図である。実施例５の確率モデル生成方法の概略図である。実施例６の画像処理装置の概略図である。

本発明の上記及びその他の特徴は、図面及び下記の説明により明確になる。明細書及び図面では、本発明の特定の実施形態、即ち本発明の原則に従う一部の実施形態を表すものを公開している。なお、本発明は説明される実施形態に限定されず、本発明は、特許請求の範囲内の全ての修正、変更されたもの、及び均等なものを含む。

本発明の実施例では、用語「第１」、「第２」は異なる要素を名称で区分するためのものであり、これらの要素の空間的配列又は時間的順序などを意味するものではなく、これらの要素はこれらの用語に限定されない。用語「及び／又は」は列挙された用語の１つ又は複数のうち何れか及びその組み合わせを含む。用語「包括」、「含む」、「有する」は説明された特徴、要素、素子又は部材の存在を意味するが、他の１つ又は複数の特徴、要素、素子又は部材の存在又は追加を排除するものではない。

本発明の実施例では、単数形の「一」、「該」等は複数形を含み、「一種」又は「一類」を意味し、「１つ」に限定するものではない。また、用語「前記」は、文脈上明確に指示されない限り、単数形及び複数形両方を含む。また、文脈上明確に指示されない限り、用語「応じて」は「少なくとも部分的に応じて」を意味し、用語「に基づいて」は「少なくとも部分的に基づいて」を意味する。

以下は、図面を参照しながら本発明の実施例の各態様を説明する。これらの態様は単なる例示的なものであり、本発明を限定するものではない。

＜実施例１＞
本発明の実施例は画像圧縮システムを提供する。図１は実施例１の画像圧縮システムの概略図である。図１に示すように、本発明の実施例の画像圧縮システム１００は、画像符号化装置１０１、確率モデル生成装置１０２、及び画像復号装置１０３を含む。画像符号化装置１０１は、入力画像をダウンサンプリングし、前記入力画像を潜在表現に変換する。確率モデル生成装置１０２は、該潜在表現の確率分布を予測し、該潜在表現の確率モデルを取得する。画像復号装置１０３は、該確率モデルに基づいて、復号により取得された潜在表現をアップサンプリングし、潜在表現を入力画像にマッピングして戻す。

本発明の実施例では、図１に示すように、画像圧縮システム１００は、算術エンコーダ１０４及び算術デコーダ１０５をさらに含んでもよい。算術エンコーダ１０４は、確率モデル生成装置１０２により生成された確率モデルに基づいて、画像符号化装置１０１の出力を符号化する。算術デコーダ１０５は、確率モデル生成装置１０２により生成された確率モデルに基づいて、受信されたコードストリームを復号し、画像復号装置１０３に提供する。

本発明の実施例では、画像符号化装置１０１は、入力画像（本発明の実施例では、入力画像の画素である）を、次元空間を削減可能な（即ち次元削減された）潜在表現に変換し、画像復号装置１０３は、近似逆関数により該潜在表現を該画素にマッピングして戻し、確率モデル生成装置１０２は、エントロピーモデルを用いて該潜在表現の確率分布を予測し、該潜在表現の確率モデルを取得する。

図２は実施例２の画像符号化装置１０１の概略図である。図２に示すように、本発明の実施例の画像符号化装置１０１は、第１特徴抽出部２０１、重み付け部２０２、及び第２特徴抽出部２０３を含む。第１特徴抽出部２０１は、入力画像に対して特徴抽出を行い、Ｎ個のチャネルの特徴マップを取得する。重み付け部２０２は、各チャネルの特徴マップに重みを割り当てる。第２特徴抽出部２０３は、重み付け部２０２により処理された特徴マップ（即ち、重み付けされた各特徴マップ）に対して次元削減処理を行い、Ｍ個のチャネルの特徴マップを取得して出力する。ここで、ＭはＮよりも小さい。

本発明の実施例では、第１特徴抽出部２０１は、複数の畳み込み層（畳み込み層はフィルタと称されてもよい）を用いて入力画像に対して特徴抽出を行ってもよい。図３は、第１特徴抽出部２０１の１つの実施例のネットワーク構造の概略図である。図３に示すように、この例では、複数の畳み込み層及び１つの結合層により入力画像に対して特徴抽出を行い、Ｎ個のチャネルの特徴マップを取得する。図３は単なる一例を示し、本発明の実施例は第１特徴抽出部２０１のネットワーク構造に限定されず、例えばより多くの畳み込み層を追加し、或いは畳み込み層の数を減らして、入力画像に対して特徴抽出を行ってもよい。

本発明の実施例では、重み付け部２０２は、有用な特徴を強化し、あまり有用でない特徴を抑制するように、１つの重み付け層を用いて、該Ｎ個のチャネルの各チャネルの特徴マップに重みを割り当ててもよい。

本発明の実施例では、第２特徴抽出部２０３は、１つの畳み込み層により、重み付け部２０２により処理された該Ｎ個のチャネルの特徴マップに対して次元削減処理を行い、Ｍ個のチャネルの特徴マップを取得してもよい。該畳み込み層は、Ｍ×１×１の畳み込み層であってもよく、ここで、Ｍはチャネル数であり、１×１は該畳み込み層のカーネル（畳み込みカーネルとも称される）である。該畳み込み層により、該Ｎ個のチャネルの特徴マップに対する次元削減の目的を実現することができる。また、次元削減処理の動作原理は、従来技術を参照してもよく、ここでその説明を省略する。

本発明の実施例では、エントロピーモデルは画像圧縮にとって非常に重要であるため、エントロピーモデルの入力の一部として、コンテキストモデルは、現在の画素の前の画素情報を用いて予測の正確性を効果的に向上させることができる。しかし、コンテキストモデルは自己回帰型ネットワークであるため、画素ごとに潜在表現を符号化する必要があり、潜在表現のボトルネックが大きくなると、符号化時間が大幅に増加してしまう。本発明の実施例は、１つの重み付け層（該重み付け層は、エンコーダ部分の最後の層の選択と見なされてもよい）を追加して異なるチャネルに重みを割り当てることで、有用な特徴を効果的に強化し、あまり有用でない特徴を抑制するとともに、１つの畳み込み層を用いて特徴マップの数をＮからＭに減少させることで、符号化時間を短縮する。

図４は、本発明の実施例の重み付け部２０２の１つの実施例の概略図である。図４に示すように、重み付け部２０２は、プーリング部４０１、第３特徴抽出部４０２、第４特徴抽出部４０３、及び第１計算部４０４を含む。

プーリング部４０１は、入力されたＮ個のチャネルの各チャネルの特徴マップの平均値を求め、各チャネルの特徴マップの統計的特性を取得する。プーリング部４０１は、１つの大域平均プーリング層を用いて、入力された特徴マップに対してプーリング処理を行ってもよい。該大域平均プーリング層の動作原理について、従来技術を参照してもよく、ここでその説明を省略する。

第３特徴抽出部４０２は、プーリング部４０１により処理された特徴マップに対して次元削減処理を行い、Ｍ個のチャネルの特徴マップを取得する。第３特徴抽出部４０２は、１つの畳み込み層により実現されてもよく、該畳み込み層は、Ｍ×１×１の畳み込み層であってもよく、Ｍはチャネル数であり、１×１は該畳み込み層の畳み込みカーネル（カーネル）である。該畳み込み層の動作原理について、従来技術を参照してもよく、ここでその説明を省略する。

第４特徴抽出部４０３は、該Ｍ個のチャネルの特徴マップに対して次元増加処理を行い、Ｎ個のチャネルの特徴マップを取得する。第４特徴抽出部４０３も、１つの畳み込み層により実現されてもよく、該畳み込み層は、Ｎ×１×１の畳み込み層であってもよく、Ｎはチャネル数であり、１×１は該畳み込み層の畳み込みカーネル（カーネル）である。該畳み込み層の動作原理について、従来技術を参照してもよく、ここでその説明を省略する。

第１計算部４０４は、第４特徴抽出部４０３により抽出されたＮ個のチャネルの特徴マップに入力された該Ｎ個のチャネルの特徴マップ（即ち、エンコーダからのＮ個のチャネルの特徴マップ）を乗算し、重み付け処理後のＮ個のチャネルの特徴マップを取得して第２特徴抽出部２０３に出力する。第１計算部４０４は、ｓｃａｌｅ関数により実現されてもよい。該ｓｃａｌｅ関数の動作原理について、従来技術を参照してもよく、ここでその説明を省略する。

本発明の実施例の重み付け部２０２は、エンコーダ部分の最後の層に重みを提供し、有用な特徴を選択的に強化し、あまり有用でない特徴を抑制する。まず、１つの大域平均プーリング層を用いて各チャネル統計的特性を生成し、そして、２つの畳み込み層を用いてチャネル数を増減することで、チャネル間の非線形の相互作用をより良く学習する。さらに、特徴マップの数をＮからＭに減らす必要があるため、本発明の実施例では、該２つの畳み込み層を用いてチャネル数をＭからＮに変更することで、より相応な重みを取得する。

本発明の実施例では、図４に示すように、重み付け部２０２は、第２計算部４０５、第３計算部４０６、及び第４計算部４０７をさらに含んでもよい。第２計算部４０５は、プーリング部４０１の前に位置し、入力されたＮ個のチャネルの特徴マップ（エンコーダからのＮ個のチャネルの特徴マップ）の絶対値を求め、プーリング部４０１に出力する。第２計算部４０５は１つのａｂｓ関数により実現されてもよく、その動作原理についての説明を省略する。第３計算部４０６は、第３特徴抽出部４０２と第４特徴抽出部４０３との間に位置し、第３特徴抽出部４０２からのＭ個のチャネルの特徴マップに対して活性化演算を行う。第３計算部４０６は１つのｒｅｌｕ関数により実現されてもよく、その動作原理についての説明を省略する。第４計算部４０７は、第４特徴抽出部４０３と第１計算部４０４との間に位置し、第４特徴抽出部４０３からのＮ個のチャネルの特徴マップを０〜１の範囲内に制限する。第４計算部４０７は１つのｓｉｇｍｏｉｄ関数により実現されてもよく、その動作原理についての説明を省略する。

図５は、本発明の実施例の重み付け部２０２の１つの実施例のネットワーク構造の概略図である。図５に示すように、結合層５０１は、エンコーダの最後の層に対応し、図３に示すように、その出力はＮ個のチャネルの特徴マップである。ａｂｓ５０２は、図４の第２計算部４０５に対応し、該Ｎ個のチャネルの特徴マップの絶対値を求める。大域プーリング層５０３は、図４のプーリング部４０１に対応し、ａｂｓにより出力されたＮ個のチャネルの特徴マップに対してプーリング処理を行う。畳み込み層５０４は、図４の第３特徴抽出部４０２に対応し、大域プーリング層５０３により出力されたＮ個のチャネルの特徴マップに対して次元削減処理を行い、Ｍ個のチャネルの特徴マップを取得する。Ｒｅｌｕ５０５は、図４の第３計算部４０６に対応し、該Ｍ個のチャネルの特徴マップに対して活性化演算を行う。畳み込み層５０６は、図４の第４特徴抽出部４０３に対応し、Ｒｅｌｕにより出力されたＭ個のチャネルの特徴マップに対して次元増加処理を行い、Ｎ個のチャネルの特徴マップを取得する。ｓｉｇｍｏｉｄ５０７は、図４の第４計算部４０７に対応し、該Ｎ個のチャネルの特徴マップを０〜１の範囲内に制限する。Ｓｃａｌｅ５０８は、図４の第１計算部４０４に対応し、結合層により出力されたＮ個のチャネルの特徴マップとｓｉｇｍｏｉｄにより出力されたＮ個のチャネルの特徴マップとに対して乗算処理を行い、Ｎ個のチャネルの特徴マップを取得して出力する。

図５に示す重み付け層のネットワーク構造は単なる一例であり、本発明の実施例では、該重み付け層は、他のネットワーク構造を有してもよい。例えば、畳み込み層を追加してもよいし、該大域プーリング層などを削除してもよく、入力されたＮ個のチャネルの特徴マップに重みを割り当てることができれば良い。

画像符号化装置に該重み付け層を追加し、異なるチャネルに重みを割り当てることで、有用な特徴を強化し、あまり有用でない特徴を抑制することができる。

図６は、本発明の実施例の確率モデル生成装置１０２の概略図である。図６に示すように、本発明の実施例の確率モデル生成装置１０２は、ハイパーデコーダ６０１、コンテキストモデル処理部６０２、及びエントロピーモデル処理部６０３を含む。ハイパーデコーダ６０１は、ハイパーエンコーダから受信されたコードストリームに対して復号を行い、補助情報を取得する。コンテキストモデル処理部６０２は、エンコーダの出力を入力とし、内容に基づく予測を取得する。エントロピーモデル処理部６０３は、コンテキストモデル処理部６０２の出力とハイパーデコーダ６０１の出力とを組み合わせ、予測された確率モデルを取得してエンコーダ及びデコーダに提供する。

本発明の実施例では、図６に示すように、コンテキストモデル処理部６０２は、第１処理部及び第２処理部を含む。第１処理部は、エンコーダの出力に基づいて、予測結果の平均値部分を取得する。第２処理部は、エンコーダの出力に基づいて、予測結果の分散部分を取得する。エントロピーモデル処理部６０３は、第３処理部及び第４処理部を含む。第３処理部は、第１処理部により取得された予測結果の平均値部分とハイパーデコーダ６０１により出力された補助情報とを組み合わせ、確率モデルの平均値部分を取得する。第４処理部は、第２処理部により取得された予測結果の分散部分とハイパーデコーダ６０１により出力された補助情報とを組み合わせ、確率モデルの分散部分を取得する。

本発明の実施例では、エントロピーモデル処理部６０３は、潜在表現の確率モデルを予測し、コンテキストモデル（ｃｏｎｔｅｘｔｍｏｄｅｌ）（潜在的な自己回帰型モデル）とハイパーネットワーク（ハイパーエンコーダ及びハイパーデコーダ）とを組み合わせ、ハイパーネットワークにより学習した有用な情報によりコンテキストに基づく予測情報を補正し、条件付きガウスエントロピーモデル（上記の確率モデル）の平均値及びスケールパラメータ（分散）を生成する。従来技術と異なって、本発明の実施例は、コンテキストモデルの平均値部分とハイパーデコーダの出力とを組み合わせ、エントロピーモデルの平均値部分を取得し、コンテキストモデルの分散部分とハイパーデコーダの出力とを組み合わせ、エントロピーモデルの分散部分を取得する。エントロピーモデルの平均値部分及び分散部分をそれぞれ取得することで、潜在的な分布をより正確に分析することができる。

本発明の実施例では、図６に示すように、本発明の実施例の確率モデル生成装置１０２は、計算部６０４をさらに含んでもよい。計算部６０４は、第２処理部により取得された予測結果の分散部分の絶対値を求め、第４処理部に提供し、ハイパーデコーダ６０１の出力の絶対値を求め、第４処理部に提供する。計算部６０４は、絶対値関数Ａｂｓにより実現されてもよい。ｓｉｇｍａの値は主にデータの分散を表すため、ｓｉｇｍａを生成するためのエントロピーモデルの前に絶対値関数を有する層を追加することで、ｓｉｇｍａをより適切に表現することができる。

本発明の実施例では、図６に示すように、本発明の実施例の確率モデル生成装置１０２は、量子化器６０８、ハイパーエンコーダ６０５、算術エンコーダ６０６、及び算術デコーダ６０７をさらに含んでもよい。量子化器６０８は、エンコーダからの出力に対して量子化処理を行うことで、エンコーダからの潜在表現を量子化し、離散値ベクトルを生成する。ハイパーエンコーダ６０５は、量子化器６０８の出力をさらに符号化する。算術エンコーダ６０６は、ハイパーエンコーダ６０５の出力を算術符号化し、コードストリームを生成して出力する。算術デコーダ６０７は、受信されたコードストリームを復号し、ハイパーデコーダ６０１に出力する。量子化器６０８、ハイパーエンコーダ６０５、算術エンコーダ６０６、及び算術デコーダ６０７の動作原理について、従来技術を参照してもよく、ここでその説明を省略する。

図７は、本発明の実施例の画像圧縮システムの１つの実施例のネットワーク構造の概略図である。図７に示すように、該画像圧縮システムは、画像符号化装置７１、画像復号装置７２、及び確率モデル生成装置７３を含む。画像符号化装置７１は、図２の画像符号化装置１０１に対応し、重み付け層７１１を追加することで有用な特徴を強化し、あまり有用でない特徴を抑制し、畳み込み層７１２を用いて特徴マップの数（チャネル数）をＮからＭに減らすことで、画素数を減らす。確率モデル生成装置７３は、図６の確率モデル生成装置１０２に対応する。ここで、エントロピーモデルのｍｕ部分７３１は、コンテキストモデルのｍｕ部分７３２とハイパーデコーダ７３３の出力と組み合わせて確率モデルのｍｕ部分を生成し、エントロピーモデルのｓｉｇｍａ部分７３４は、コンテキストモデルのｓｉｇｍａ部分７３５とハイパーデコーダ７３３の出力を組み合わせて確率モデルのｓｉｇｍａ部分を生成する。さらに、エントロピーモデルのｓｉｇｍａ部分７３４の前にａｂｓ７３６を追加し、該ａｂｓ７３６は、コンテキストモデルのｓｉｇｍａ部分及びハイパーデコーダの出力の絶対値を求め、エントロピーモデルのｓｉｇｍａ部分をより適切に表現する。

本発明の実施例では、図７に示すように、画像圧縮システムは、算術エンコーダ（ＡＥ）７４及び算術デコーダ（ＡＤ）７５をさらに含んでもよい。算術エンコーダ７４は、確率モデル生成装置７３により生成された確率モデルに基づいて、画像符号化装置７１の出力を符号化する。算術デコーダ７５は、確率モデル生成装置７３により生成された確率モデルに基づいて、受信されたコードストリームを復号し、復号されたコードストリームを画像復号装置７２に提供する。また、図７に示すように、該画像圧縮システムは、量子化器７６をさらに含んでもよい。量子化器７６は、画像符号化装置７１からの出力に対して量子化処理を行うことで、画像符号化装置７１の潜在表現を量子化し、離散ベクトルを生成し、算術エンコーダ７４及びコンテキストモデル７３２、７３５に提供する。

本発明の実施例では、画像復号装置７２は、４つの畳み込み層を用いて、入力された特徴マップに対して逆マッピングを行い、出力画像を取得する。本発明の実施例はこれに限定されず、例えば、画像復号装置７２は、より多い畳み込み層又はより少ない畳み込み層を用いて、入力された特徴マップに対して逆マッピングを行ってもよく、その具体的な内容は従来技術を参照してもよく、ここでその説明を省略する。

本発明の実施例の画像圧縮システムは、本発明の実施例の画像符号化装置を用い、重み付け部により異なる特徴マップに１つの重みを乗算して対応する重要度を取得し、重み付け部により処理された特徴マップに対して該第２特徴抽出部により次元削減を行うことで、復号時間を短縮することができるため、潜在変数のボトルネックを低減させることで復号時間を短縮することができる。また、本発明の実施例の画像圧縮システムは、本発明の実施例の確率モデル生成装置を用い、２つの独立したコンテキストモデル処理部及びエントロピーモデル処理部により確率モデルの２つのパラメータｍｕ及びｓｉｇｍａを取得することで、より正確なエントロピーモデルにより符号化に必要なコードストリームを低減させることができ、独立したエントロピーモデルを用いて確率分布を正確に予測することでコードストリームの要求を低減させることができる。

＜実施例２＞
本発明の実施例は画像符号化装置を提供する。図２は本発明の実施例の画像符号化装置の概略図であり、図３は本発明の実施例の画像符号化装置の第１特徴抽出部２０１の１つの実施例のネットワーク構造の概略図であり、図４は本発明の実施例の画像符号化装置の重み付け部２０２の概略図であり、図５は図４に示す重み付け部２０２の１つの実施例のネットワーク構造の概略図であり、図７は本発明の実施例の画像符号化装置を示している。実施例１において該画像符号化装置を既に詳細に説明しているため、ここでその内容を援用し、その説明を省略する。

本発明の実施例の画像符号化装置によれば、潜在変数のボトルネックを低減させることで、復号時間を短縮することができる。

＜実施例３＞
本発明の実施例は確率モデル生成装置を提供する。図６は本発明の実施例の確率モデル生成装置の概略図であり、図７は本発明の実施例の確率モデル生成装置を示している。実施例１において該確率モデル生成装置を既に詳細に説明しているため、ここでその内容を援用し、その説明を省略する。

本発明の実施例の確率モデル生成装置によれば、独立したエントロピーモデルを用いて確率分布を正確に予測することで、コードストリームの要求を低減させることができる。

＜実施例４＞
本発明の実施例は画像符号化方法を提供する。該方法の問題解決の原理は実施例２の方法と同様であり、既に実施例で説明されているため、その具体的な実施は実施例１及び実施例２の装置の実施を参照してもよく、同様な内容について説明を省略する。

図８は本発明の実施例の画像符号化方法の概略図である。図８に示すように、該画像符号化方法は、以下のステップを含む。

８０１：入力画像に対して特徴抽出を行い、Ｎ個のチャネルの特徴マップを取得する。

８０２：各チャネルの特徴マップに重みを割り当てる。

８０３：重みが割り当てられたＮ個のチャネルの特徴マップに対して次元削減処理を行い、Ｍ個のチャネルの特徴マップを取得して出力する。ここで、ＭはＮよりも小さい。

本発明の実施例では、図８の各動作の実施は実施例１における図２の各部の実施を参照してもよく、ここでその説明を省略する。

動作８０２において、以下の処理を行ってもよい。

大域平均プーリング層を用いて、エンコーダからのＮ個のチャネルの各チャネルの特徴マップの平均値を求め、各チャネルの特徴マップの統計的特性を取得する。

Ｍ×１×１の畳み込み層を用いて、該Ｎ個のチャネルの特徴マップに対して次元削減処理を行い、Ｍ個のチャネルの特徴マップを取得する。

Ｎ×１×１の畳み込み層を用いて、該Ｍ個のチャネルの特徴マップに対して次元増加処理を行い、Ｎ個のチャネルの特徴マップを取得する。

エンコーダからのＮ個のチャネルの特徴マップに該Ｎ×１×１の畳み込み装置からのＮ個のチャネルの特徴マップを乗算し、重み付け処理後のＮ個のチャネルの特徴マップを取得して出力する。

本発明の実施例では、動作８０２の実施は実施例１における図４及び図５の実施を参照してもよく、ここでその説明を省略する。

本発明の実施例では、大域平均プーリング層を用いてエンコーダからのＮ個のチャネルの各チャネルの特徴マップの平均値を求める前に、ａｂｓ関数を用いてエンコーダからのＮ個のチャネルの特徴マップの絶対値を求めてもよく、ここでａｂｓ関数の動作原理についての説明を省略する。

本発明の実施例では、Ｎ×１×１の畳み込み層を用いて該Ｍ個のチャネルの特徴マップに対して次元増加処理を行う前に、ｒｅｌｕ関数を用いてＭ個のチャネルの特徴マップに対して活性化演算を行ってもよく、ここでｒｅｌｕ関数の動作原理についての説明を省略する。

本発明の実施例では、エンコーダからのＮ個のチャネルの特徴マップに該Ｎ×１×１の畳み込み装置からのＮ個のチャネルの特徴マップを乗算する前に、ｓｉｇｍｏｉｄ関数を用いて該Ｎ個のチャネルの特徴マップを０〜１の範囲内に制限してもよく、ここでｓｉｇｍｏｉｄ関数の動作原理についての説明を省略する。

本発明の実施例の画像符号化方法によれば、潜在変数のボトルネックを低減させることで、復号時間を短縮することができる。

＜実施例５＞
本発明の実施例は確率モデル生成方法を提供する。該方法の問題解決の原理は実施例３の方法と同様であり、既に実施例１で説明されているため、その具体的な実施は実施例１及び実施例３の装置の実施を参照してもよく、同様な内容について説明を省略する。

図９は本発明の実施例の確率モデル生成方法の概略図である。図９に示すように、該確率モデル生成方法は以下のステップを含む。

９０１：ハイパーデコーダを用いて、エンコーダから受信されたコードストリームに対して復号を行い、補助情報を取得する。

９０２：コンテキストモデルを用いて該エンコーダの出力を入力とし、内容に基づく予測を取得する。

９０３：エントロピーモデルを用いて該コンテキストモデルの出力と該ハイパーデコーダの出力とを組み合わせ、予測された確率モデルを取得して該エンコーダ及びデコーダに提供する。

本発明の実施例では、該エントロピーモデルは、コンテキストモデルのｍｕ部分とハイパーデコーダの出力とを組み合わせ、該確率モデルのｍｕ部分を取得し、コンテキストモデルのｓｉｇｍａ部分とハイパーデコーダの出力とを組み合わせ、該確率モデルのｓｉｇｍａ部分を取得する。

本発明の実施例では、動作９０１の前に、ハイパーエンコーダを用いてエンコーダの出力をさらに符号化し、算術エンコーダを用いてハイパーエンコーダの出力を算術符号化し、コードストリームを生成して出力し、算術デコーダを用いて、受信されたコードストリームを復号し、該ハイパーデコーダに提供してもよい。

本発明の実施例では、動作９０３の前に、絶対値関数ａｂｓを用いてコンテキストモデルのｓｉｇｍａ部分の絶対値及びハイパーデコーダの出力の絶対値を求めて、エントロピーモデルに提供してもよい。即ち、エントロピーモデルは、コンテキストモデルのｓｉｇｍａ部分の絶対値とハイパーデコーダの出力の絶対値とを組み合わせて、該確率モデルのｓｉｇｍａ部分を取得してもよい。

本発明の実施例の確率モデル生成方法によれば、独立したエントロピーモデルを用いて確率分布を正確に予測することで、コードストリームの要求を低減させることができる。

＜実施例６＞
本発明の実施例は画像処理装置を提供する。該画像処理装置は、実施例１及び２の画像符号化装置又は実施例１及び３の確率モデル生成装置を含み、或いは実施例１及び２の画像符号化装置と実施例１及び３の確率モデル生成装置の両方を含み、或いは実施例１及び３の確率モデル生成装置と実施例１の画像復号装置を含む。

実施例１〜３では画像符号化装置、確率モデル生成装置及び画像復号装置を既に詳細に説明しているため、ここでその内容を援用し、その説明を省略する。

図１０は本発明の実施例の画像処理装置の概略図である。図１０に示すように、画像処理装置１０００は、中央処理装置（ＣＰＵ）１００１及び記憶装置１００２を含んでもよく、記憶装置１００２は中央処理装置１００１に接続される。記憶装置１００２は、各種のデータ及び情報処理のプログラムを記憶してもよく、中央処理装置１００１の制御により該プログラムを実行する。

１つの態様では、画像符号化装置及び／又は確率モデル生成装置及び／又は画像復号装置の機能は中央処理装置１００１に統合されてもよい。ここで、中央処理装置１００１は、実施例４及び／又は実施例５に記載された方法を実現するように構成されてもよい。

もう１つの態様では、画像符号化装置及び／又は確率モデル生成装置及び／又は画像復号装置は中央処理装置１００１とそれぞれ配置されてもよく、例えば、画像符号化装置及び／又は確率モデル生成装置及び／又は画像復号装置は中央処理装置１００１に接続されたチップであり、中央処理装置１００１の制御により画像符号化装置及び／又は確率モデル生成装置及び／又は画像復号装置の機能を実現するように構成されてもよい。

また、図１０に示すように、画像処理装置は、入力出力（Ｉ／Ｏ）装置１００３及び表示装置１００４などをさらに含んでもよい。ここで、上記各部の機能は従来技術と類似し、ここでその説明を省略する。なお、画像処理装置は、図１０に示す全ての構成部を含まなくてもよい。また、画像処理装置は、図１０に示していない構成部を含んでもよく、従来技術を参考してもよい。

本発明の実施例は、画像処理装置においてプログラムを実行する際に、該画像処理装置に実施例４及び／又は実施例５に記載の方法を実行させる、コンピュータ読み取り可能なプログラムを提供する。

本発明の実施例は、画像処理装置に実施例４及び／又は実施例５に記載の方法を実行させるためのコンピュータ読み取り可能なプログラムを記憶する、記憶媒体をさらに提供する。

本発明の以上の装置及び方法は、ハードウェアにより実現されてもよく、ハードウェアとソフトウェアを結合して実現されてもよい。本発明はコンピュータが読み取り可能なプログラムに関し、該プログラムは論理部により実行される時に、該論理部に上述した装置又は構成要件を実現させる、或いは該論理部に上述した各種の方法又はステップを実現させることができる。本発明は上記のプログラムを記憶するための記憶媒体、例えばハードディスク、磁気ディスク、光ディスク、ＤＶＤ、フラッシュメモリ等に関する。

本発明の実施例を参照しながら説明した方法／装置は、ハードウェア、プロセッサにより実行されるソフトウェアモジュール、又は両者の組み合わせで実施されてもよい。例えば、図２、図６に示す機能的ブロック図における１つ若しくは複数、又は機能的ブロック図の１つ若しくは複数の組み合わせは、コンピュータプログラムフローの各ソフトウェアモジュールに対応してもよいし、各ハードウェアモジュールに対応してもよい。これらのソフトウェアモジュールは、図８、図９に示す各ステップにそれぞれ対応してもよい。これらのハードウェアモジュールは、例えばフィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）を用いてこれらのソフトウェアモジュールをハードウェア化して実現されてもよい。

ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、モバイルハードディスク、ＣＤ−ＲＯＭ又は当業者にとって既知の任意の他の形の記憶媒体に位置してもよい。プロセッサが記憶媒体から情報を読み取ったり、記憶媒体に情報を書き込むように該記憶媒体をプロセッサに接続してもよいし、記憶媒体がプロセッサの構成部であってもよい。プロセッサ及び記憶媒体はＡＳＩＣに位置する。該ソフトウェアモジュールは移動端末のメモリに記憶されてもよいし、移動端末に挿入されたメモリカードに記憶されてもよい。例えば、機器（例えば移動端末）が比較的に大きい容量のＭＥＧＡ−ＳＩＭカード又は大容量のフラッシュメモリ装置を用いる場合、該ソフトウェアモジュールは該ＭＥＧＡ−ＳＩＭカード又は大容量のフラッシュメモリ装置に記憶されてもよい。

図面に記載されている一つ以上の機能ブロックおよび/または機能ブロックの一つ以上の組合せは、本発明に記載されている機能を実行するための汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）又は他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理装置、ディスクリートハードウェアコンポーネント、またはそれらの任意の適切な組み合わせで実現されてもよい。図面に記載されている一つ以上の機能ブロックおよび/または機能ブロックの一つ以上の組合せは、例えば、コンピューティング機器の組み合わせ、例えばＤＳＰとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、ＤＳＰ通信と組み合わせた１つ又は複数のマイクロプロセッサ又は他の任意の構成で実現されてもよい。

以上、具体的な実施形態を参照しながら本発明を説明しているが、上記の説明は、例示的なものに過ぎず、本発明の保護の範囲を限定するものではない。本発明の趣旨及び原理を離脱しない限り、本発明に対して各種の変形及び変更を行ってもよく、これらの変形及び変更も本発明の範囲に属する。

Claims

画像符号化装置であって、
入力画像に対して特徴抽出を行い、Ｎ個のチャネルの特徴マップを取得する第１特徴抽出部と、
各チャネルの特徴マップに重みを割り当てる重み付け部と、
前記重み付け部により処理された特徴マップに対して次元削減処理を行い、Ｍ個のチャネルの特徴マップを取得して出力する第２特徴抽出部であって、ＭはＮよりも小さい、第２特徴抽出部と、を含む、画像符号化装置。
前記重み付け部は、
入力された前記Ｎ個のチャネルの各チャネルの特徴マップの平均値を求め、各チャネルの特徴マップの統計的特性を取得するプーリング部と、
前記プーリング部により処理された特徴マップに対して次元削減処理を行い、Ｍ個のチャネルの特徴マップを取得する第３特徴抽出部と、
前記Ｍ個のチャネルの特徴マップに対して次元増加処理を行い、Ｎ個のチャネルの特徴マップを取得する第４特徴抽出部と、
前記第４特徴抽出部により抽出されたＮ個のチャネルの特徴マップに入力された前記Ｎ個のチャネルの特徴マップを乗算し、重み付け処理後のＮ個のチャネルの特徴マップを取得して前記第２特徴抽出部に出力する第１計算部と、を含む、請求項１に記載の画像符号化装置。
前記重み付け部は、
前記プーリング部の前に位置し、入力された前記Ｎ個のチャネルの特徴マップの絶対値を求め、前記プーリング部に出力する第２計算部と、
前記第３特徴抽出部と前記第４特徴抽出部との間に位置し、前記Ｍ個のチャネルの特徴マップに対して活性化演算を行う第３計算部と、
前記第４特徴抽出部と前記第１計算部との間に位置し、前記Ｎ個のチャネルの特徴マップを０〜１の範囲内に制限する第４計算部と、をさらに含む、請求項２に記載の画像符号化装置。
確率モデル生成装置であって、
ハイパーエンコーダから受信されたコードストリームに対してハイパー復号を行い、補助情報を取得するハイパーデコーダと、
エンコーダの出力を入力とし、内容に基づく予測を取得するコンテキストモデル処理部と、
前記コンテキストモデル処理部の出力と前記ハイパーデコーダの出力とを組み合わせ、予測された確率モデルを取得して前記エンコーダ及びデコーダに提供するエントロピーモデル処理部と、を含み、
前記コンテキストモデル処理部は、
前記エンコーダの出力に基づいて、前記内容に基づく予測の予測結果の平均値部分を取得する第１処理部と、
前記エンコーダの出力に基づいて、前記内容に基づく予測の予測結果の分散部分を取得する第２処理部と、を含み、
前記エントロピーモデル処理部は、
前記第１処理部により取得された前記予測結果の平均値部分と前記ハイパーデコーダにより出力された補助情報とを組み合わせ、前記予測された確率モデルの平均値部分を取得する第３処理部と、
前記第２処理部により取得された前記予測結果の分散部分と前記ハイパーデコーダにより出力された補助情報とを組み合わせ、前記予測された確率モデルの分散部分を取得する第４処理部と、を含む、装置。
前記エンコーダの出力を符号化するハイパーエンコーダと、
前記ハイパーエンコーダの出力に対して量子化処理を行い、離散値ベクトルを生成する量子化器と、
前記量子化器の出力を算術符号化し、コードストリームを生成して出力する算術エンコーダと、
受信されたコードストリームを復号し、前記ハイパーデコーダに出力する算術デコーダと、をさらに含む、請求項４に記載の装置。
前記第２処理部により取得された予測結果の分散部分の絶対値を求めて前記第４処理部に提供し、前記ハイパーデコーダの出力の絶対値を求めて前記第４処理部に提供する計算部、をさらに含む、請求項４又は５に記載の装置。
画像圧縮システムであって、
入力画像をダウンサンプリングし、前記入力画像を潜在表現に変換する画像符号化装置と、
前記潜在表現の確率分布を予測し、前記潜在表現の確率モデルを取得する確率モデル生成装置と、
前記確率モデルに基づいて、復号により取得された潜在表現をアップサンプリングし、潜在表現を前記入力画像にマッピングして戻す画像復号装置と、を含み、
前記画像符号化装置は、請求項１乃至３の何れかに記載の装置を含み、或いは、
前記確率モデル生成装置は、請求項４乃至６の何れかに記載の装置を含む、システム。
前記画像符号化装置の出力に対して量子化処理を行い、離散値ベクトルを生成する量子化器と、
前記確率モデル生成装置により生成された確率モデルに基づいて、前記量子化器の出力を符号化し、コードストリームを生成して出力する算術エンコーダと、
前記確率モデル生成装置により生成された確率モデルに基づいて、受信されたコードストリームを復号し、前記画像復号装置に提供する算術デコーダと、をさらに含む、請求項７に記載のシステム。