JP2020191630A

JP2020191630A - 画像コーディング装置、確率モデル生成装置及び画像デコーディング装置

Info

Publication number: JP2020191630A
Application number: JP2020083122A
Authority: JP
Inventors: 思寒温; Sihan Wen; 静周; Jing Zhou; タヌ・ジミン; Tan Zhiming
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-05-22
Filing date: 2020-05-11
Publication date: 2020-11-26
Anticipated expiration: 2040-05-11
Also published as: US11386583B2; JP2024071773A; JP7491041B2; CN111988609A; US20200372686A1

Abstract

【課題】本発明は、画像コーディング装置、確率モデル生成装置及び画像デコーディング装置を提供する。【解決手段】画像コーディング装置は、入力画像に対して特徴抽出を行い、N個のチャンネルの特徴マップを取得する第一特徴抽出ユニット；サイズがK回調整された入力画像に対して特徴抽出を行い、それぞれ、N個のチャンネルの特徴マップを取得する第二特徴抽出ユニット；及び、前記第一特徴抽出ユニットからのN個のチャンネルの特徴マップと、前記第二特徴抽出ユニットからのK×N個のチャンネルの特徴マップとを結合して出力する第一結合ユニットを含む。これにより、画像の特徴を正確に抽出し、競争力のもっとある潜在表現を得ることができる。【選択図】図２

Description

本発明は、画像圧縮及びディープラーニングの技術分野に関する。

近年、ディープラーニングがコンピュータビジョン分野で主導な地位を成している。画像認識や超解像再生では、ディープラーニングが画像についての研究の重要な技術になっているが、その能力がこれらのタスクに限定されない。また、ディープラーニング技術は、画像圧縮分野でも応用され、ホットな研究テーマになっている。

今のところ、ディープニューラルネットワークに基づく画像圧縮は、できるだけ少ないコードストリームを用いて高品質の画像を生成することを目的としているため、レート‐ディストーションのトレードオフの問題が生じてしまう。ビット率とディストーションとの間の良好なバランスを取るために、次のような2つの研究が行っており、即ち、（1）潜在表現のために最も近似したエントロピーモデルを見つけてビットストリームの長さを最適化し（ビット率を低くする）；及び、（2）より有効な潜在表現を得て画像を正確に再構成する（ディストーションを減少させる）。

本発明の実施例は、画像コーディング方法及び装置、確率モデル生成方法及び装置、画像デコーディング方法及び装置、並びに画像圧縮システムを提供し、ピラミッドサイズ調整ジュール（pyramidal resize module）及びインセプション（inception）コーダーネットワークを用いることで、画像の特徴を正確に抽出し、競争力のもっとある潜在表現を得ることができる。

本発明の実施例の第一側面によれば、画像コーディング装置が提供され、前記装置は、
入力画像に対して特徴抽出を行い、N個のチャンネルの特徴マップを取得する第一特徴抽出ユニット；
サイズがK回調整された入力画像に対して特徴抽出を行い、それぞれ、N個のチャンネルの特徴マップを取得する第二特徴抽出ユニット；及び
前記第一特徴抽出ユニットからのN個のチャンネルの特徴マップと、前記第二特徴抽出ユニットからのK×N個のチャンネルの特徴マップとを結合して出力する第一結合ユニットを含む。

本発明の実施例の第二側面によれば、確率モデル生成装置が提供され、前記装置は、
ハイパーデコーダの出力に対して特徴抽出を行い、マルチスケール補助情報を取得するマルチスケールダイレイテッド畳み込みユニット；
量子化器からの入力画像の潜在表現を入力とし、コンテンツに基づく予測を取得するコンテキストモデル処理ユニット；及び
前記コンテキストモデル処理ユニットの出力及び前記マルチスケールダイレイテッド畳み込みユニットの出力を処理し、予測の確率モデルを取得するエントロピーモデル処理ユニットを含む。

本発明の実施例の第三側面によれば、画像デコーディング装置が提供され、前記画像デコーディング装置は、
ハイパーデコーダの出力に対して特徴抽出を行い、マルチスケール補助情報を取得するマルチスケールダイレイテッド畳み込みユニット；
算術デコーダからの入力画像の潜在表現と、前記マルチスケールダイレイテッド畳み込みユニットからのマルチスケール補助情報とを結合する結合器；及び
前記結合器からの出力に対してデコーディングを行い、前記入力画像の再構成画像を取得するデコーダを含む。

本発明の実施例の第四側面によれば、画像コーディング方法が提供され、前記方法は、
複数のインセプションユニットを用いて、入力画像に対して特徴抽出を行い、N個のチャンネルの特徴マップの取得し；
複数の畳み込み層を用いて、それぞれ、サイズが調整された入力画像に対して特徴抽出を行い、それぞれ、N個のチャンネルの特徴マップを取得し；及び
前記インセプションユニットからのN個のチャンネルの特徴マップと、前記複数の畳み込み層からのそれぞれ対応するN個のチャンネルの特徴マップとを結合して出力することを含む。

本発明の実施例の第五側面によれば、確率モデル生成方法が提供され、前記方法は、
マルチスケールダイレイテッド畳み込みユニットを用いて、前記ハイパーデコーダの出力に対して特徴抽出を行い、マルチスケール補助情報を取得し；
コンテキストモデルを用いて、量子化器からの入力画像の潜在表現を入力とし、コンテンツに基づく予測を取得し；及び
エントロピーモデルを用いて、前記コンテキストモデルの出力及び前記マルチスケールダイレイテッド畳み込みユニットの出力を処理し、予測の確率モデルを取得することを含む。

本発明の実施例の第六側面によれば、画像デコーディング方法が提供され、前記方法は、
マルチスケールダイレイテッド畳み込みユニットを用いて、ハイパーデコーダの出力に対して特徴抽出を行い、マルチスケール補助情報を取得し；
結合器を用いて、算術デコーダからの入力画像の潜在表現及び前記マルチスケールダイレイテッド畳み込みユニットからのマルチスケール補助情報に対して結合を行い；及び
デコーダを用いて、前記結合器からの出力に対してデコーディングを行い、前記入力画像の再構成画像を取得することを含む。

本発明の実施例の他の側面によれば、コンピュータ可読プログラムが提供され、画像処理装置中で前記プログラムを実行するときに、前記プログラムは、前記画像処理装置に、前述の第四、第五、第六側面のうちの任意の一側面に記載の方法を実行させる。

本発明の実施例の他の側面によれば、コンピュータ可読プログラムを記憶した記憶媒体が提供され、前記コンピュータ可読プログラムは、画像処理装置に、前述の第四、第五、第六側面のうちの任意の一側面に記載の方法を実行させる。

本発明の実施例の有益な効果は、次の通りであり、即ち、本発明の実施例における画像コーディング方法及び装置により、画像の特徴を正確に抽出し、競争力のもっとある潜在表現を得ることができ、また、本発明の実施例における画像デコーディング方法及び装置により、マルチスケール補助情報を融合することで、より正確に画像を再構成することができる。

実施例1における画像圧縮システムを示す図である。実施例2における画像コーディング装置を示す図である。図2に示す画像コーディング装置の第一特徴抽出ユニットのインセプションユニットの一実施例におけるネットワーク構成を示す図である。図2に示す画像コーディング装置の第二特徴抽出ユニットの一実施例におけるネットワーク構成を示す図である図2に示す画像コーディング装置の一実施例におけるネットワーク構成を示す図である。実施例3における画像デコーディング装置を示す図である。マルチスケールダイレイテッド畳み込みユニットの一実施例におけるネットワーク構成を示す図である。実施例4における確率モデル生成装置を示す図である。実施例5における画像コーディング方法を示す図である。実施例6における画像デコーディング方法を示す図である。実施例7における確率モデル生成方法を示す図である。実施例8における画像処理装置を示す図である。

以下、添付した図面を参照しながら、本発明を実施するための好適な実施例を詳しく説明する。

本発明の実施例は、画像圧縮システムを提供し、図1は、本発明の実施例における画像圧縮システムを示す図である。図1に示すように、本発明の実施例における画像圧縮システム100は、画像コーディング装置101、確率モデル生成装置102、及び画像デコーディング装置103を含む。画像コーディング装置101は、入力画像に対してダウンサンプリングを行い、入力画像を潜在表現（latent representation）に変換することができる。確率モデル生成装置102は、上述の潜在表現の確率分布に対して予測を行い、該潜在表現の確率モデルを得ることができる。画像デコーディング装置103は、該確率モデルに基づいて、デコーディングにより得られた潜在表現に対してアップサンプリングを行い、該潜在表現を入力画像にマッピングすることができる。

本発明の実施例では、図1に示すように、画像コーディング装置101は、コーダー101と称されても良く、該コーダー101は、入力画像に対して圧縮コーディングを行い、即ち、入力画像を潜在的なコード空間にマッピングすることができる。なお、コーダー101のネットワーク構成及びその実施方式については、後述する。

本発明の実施例では、図1に示すように、該画像圧縮システム100は、さらに、量子化器（Q）104、算術コーダー（AE）105、及び算術デコーダ（AD）106を含んでも良い。量子化器104は、コーダー101からの出力を量化子処理し、これにより、コーダー101からの潜在表現は、量子化され、離散値ベクトルを生成することができる。算術コーダー105は、上述の確率モデル生成装置102が生成した確率モデル（即ち、予測の確率分布）に基づいて、量子化器104からの出力をコーディングし、即ち、上述の離散値ベクトルをビットストリームに圧縮することができる。算術デコーダ106は、算術コーダー105の逆であり、それは、上述の確率モデル生成装置102が生成した確率モデルに基づいて、受信したビットストリームをデコーディングし、即ち、上述のビットストリームを量子化の潜在表現に解凍し、そして、画像デコーディング装置103に提供することができる。

本発明の実施例では、図1に示すように、該画像圧縮システム100は、さらに、ハイパーコーダー107、量子化器（Q）108、算術コーダー（AE）109、算術デコーダ（AD）110、及びハイパーデコーダ111を含んでも良い。該ハイパーコーダー107は、コーダー101からの出力をさらにコーディングすることできる。該量子化器108、算術コーダー109、及び算術デコーダ110の処理が量子化器104、算術コーダー105、及び算術デコーダ106と同様であり、相違点は、算術コーダー109及び算術デコーダ110が圧縮及び解凍を行うときに上述の確率モデルを使用しないことにあり、他の具体的な処理プロセスについては、ここでその説明が省略される。ハイパーデコーダ111は、算術デコーダ109からの出力をさらにデコーディングすることができる。なお、該ハイパーコーダー107、量子化器（Q）108、算術コーダー（AE）109、算術デコーダ（AD）110、及びハイパーデコーダ111のネットワークの構成及び実施方式については、従来技術を参照することができ、ここでは、詳細な説明を省略する。

本発明の実施例では、図1に示すように、画像デコーディング装置103は、マルチスケールダイレイテッド（dilated）畳み込みユニット（Pyramid atrous）1031、結合器1032、及びデコーダ1033を含む。マルチスケールダイレイテッド畳み込みユニット1031は、マルチスケール補助情報を生成することができる。結合器1032は、上述のマルチスケールの補助情報と、算術デコーダ106からの出力とを結合することができる。デコーダ1033は、結合器1032からの出力をデコーディングすることで、入力画像を復元し、即ち、潜在表現の離散要素を再びデータ空間に変換することで、再構成画像を得ることができる。なお、マルチスケールダイレイテッド畳み込みユニット1031のネットワーク構成及びその実施方式については、後術する。

本発明の実施例では、図1に示すように、確率モデル生成装置102は、コンテキストモデル及びエントロピーモデルを含み、コンテキストモデルは、量子化器104の出力（潜在表現）をもとに、コンテンツ（内容）に基づく予測を取得することができる。エントロピーモデルは、潜在表現の確率モデルの学習を担当することができる。本発明の実施例では、エントロピーモデルは、マルチスケールダイレイテッド畳み込みユニット1031からのマルチスケール補助情報及びコンテキストモデルからの出力に基づいて、該確率モデルを生成することができる。該マルチスケール補助情報により、コンテキストに基づく予測を修正することができる。一実施例では、エントロピーモデルは、コンテキストモデルのmu部分及び上述のマルチスケール補助情報に基づいて、該確率モデルのmu部分（平均値パラメータ‘mean’）を生成し、また、コンテキストモデルのsigma部分及び上述のマルチスケール補助情報に基づいて、該確率モデルのsigma部分（割合パラメータ‘scale’）を生成することができるが、本発明の実施例は、これに限定されない。該エントロピーモデルは、mu部分及びsigma部分を区分せず、直接、コンテキストモデルの出力及び該マルチスケール補助情報に基づいて上述の確率モデルの平均値パラメータ及び割合パラメータを生成することもできる。

図1に示す画像コーディング装置101、画像デコーディング装置103、及び確率モデル生成装置102の構成は、例示に過ぎず、本発明の実施例は、これに限られない。例えば、ハイパーコーダー107及びハイパーデコーダ111は、確率モデル生成装置102の一部とされても良く、又は、画像デコーディング装置103の一部とされてもよい。また、例えば、マルチスケールダイレイテッド畳み込みユニット1032は、画像デコーディング装置103の一部とされても良く、確率モデル生成装置102の一部とされても良い。

本発明の実施例では、オリジナル画像と再構成画像との間のディストーションが、抽出される特徴の品質と直接関係があり、一般的に言えば、抽出される特徴が多いほど、ディストーションが小さい。特徴を含む潜在表現をできるだけ得るために、本発明の実施例では、上述のコーダー101を用いて1つマルチスケールネットワークを構成することで、入力画像の特徴を有効に抽出することができる。

図2は、本発明の実施例における画像コーディング装置101を示す図である。図2に示すように、本発明の実施例における画像コーディング装置101は、第一特徴抽出ユニット201、第二特徴抽出ユニット202、及び第一結合ユニット203を含む。該第一特徴抽出ユニット201、第二特徴抽出ユニット202、及び第一結合ユニット203は、図1に示すコーダー101を構成する。本発明の実施例では、第一特徴抽出ユニット201は、入力画像に対して特徴抽出を行い、N個のチャンネルの特徴マップを取得することができる。第二特徴抽出ユニット202は、サイズがK回調整された入力画像に対して特徴抽出を行い、それぞれ、N個のチャンネルの特徴マップを取得することができる。第一結合ユニット203は、第一特徴抽出ユニット201からのN個のチャンネルの特徴マップと、第二特徴抽出ユニット202からのK×N個のチャンネルの特徴マップとを結合して出力することができる。

通常、畳み込みニューラルネットワークを用いて画像から特徴マップを抽出するときに、比較的深い層でグローバル情報及びハイレベル情報を示すが、比較的浅い層でロカール情報及び細部情報、例えば、エッジを示す。よって、本発明の実施例では、上述の第一特徴抽出ユニット201を用いて、オリジナル入力画像からグローバル情報及びハイレベル情報を取得し、また、上述の第二特徴抽出ユニット202を用いて、サイズが調整された入力画像から細部特徴を取得する。該第一特徴抽出ユニット201は、1つの複数層のネットワーク、例えば、4層のネットワークであっても良く、該第二特徴抽出ユニット202は、1つの畳み込み層ネットワークであっても良く、以下、それぞれ説明する。

本発明の実施例では、第一特徴抽出ユニット201は、複数のインセプションユニットを含んでも良く、各インセプションユニットは、順次結合され、上述の入力画像又は前のインセプションユニットからの特徴マップに対して特徴抽出を行い、該入力画像の上述のグローバル情報及びハイレベル情報を得ることができる。インセプションユニットのワーキング原理については、従来技術、例えば、「Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. Going deeper with convolutions. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1-9, 2015」を参照することができ、ここでは、その説明を省略する。

図3は、本発明の実施例におけるインセプションユニットの一実施例に係るネットワーク構成を示す図である。図3に示すように、この実施例では、該インセプションユニットは、3つの畳み込み層（第三特徴抽出ユニットとも言う）301、１つのプーリング層（プーリングユニットとも言う）302、１つの結合層（第二結合ユニットとも言う）303、及び１つの畳み込み層（第四特徴抽出ユニットとも言う）304を含む。この3つの畳み込み層301は、異なる畳み込みカーネル（3×3、5×5、7×7）及び同じチャンネル数（N）を用いて、上述の入力画像又は前のインセプションユニットからの特徴マップに対して特徴抽出を行い、それぞれ、N個のチャンネルの特徴マップを取得することがきる。プーリング層302は、上述の入力画像又は前のインセプションユニットからの特徴マップに対して次元削減処理を行い、N個のチャンネルの特徴マップを得ることもできる。結合層303は、上述3つの畳み込み層301からのN個のチャンネルの特徴マップと、上述のプーリング層302からのN個のチャンネルの特徴マップとを結合し、4N個のチャンネルの特徴マップを取得することができる。畳み込み層304は、さらに、結合層303からの特徴マップに対して次元削減処理を行い、N個のチャンネルの特徴マップを取得することができる。本発明の実施例では、該プーリング層302が最大プーリング方法を採用することを例とするが、本発明の実施例は、これに限定されず、また、該プーリング層のワーキング原理については、従来技術を参照することができ、ここでは、その説明を省略する。

本発明の実施例におけるインセプションユニットは、マルチスケール特徴を用いて、画像の再構成を助けることができる。また、本発明の実施例におけるインセプションユニットは、異なるカーネルによりマルチスケール特徴を用いることで、オリジナル入力画像からより多くの特徴を得ることができる。また、本発明の実施例では、異なるカーネルの畳み込み層301が同じチャンネル数を用いてそれらの結果を結合し、また、カーネルが1×1である１つの畳み込み層304を用いてどれがより重要であるかを決定し、これにより、現在の層の出力を得ることができる。

図3に示すインセプションユニットのネットワーク構成は、例示に過ぎず、本発明の実施例は、これに限定されない。

本発明の実施例では、第二特徴抽出ユニット202は、サイズ調整ユニット及び特徴抽出ユニット（第五特徴抽出ユニットとも言う）を含んでも良く、該サイズ調整ユニットは、入力画像に対してサイズ調整を行い、該第五特徴抽出ユニットは、サイズが調整された入力画像に対して特徴抽出を行い、N個のチャンネルの特徴マップを取得することができる。

本発明の実施例では、サイズ調整ユニット及び第五特徴抽出ユニットは、1組又は複数組であっても良く、即ち、1つのサイズ調整ユニット及び1つの第五特徴抽出ユニットを1組の特徴抽出モジュールとし、第二特徴抽出ユニット202は、1組又は複数組の特徴抽出モジュールを含んでも良く、異なる組のサイズ調整ユニットは、異なる割合を用いて、入力画像に対してサイズ調整を行い、また、異なる組の第五特徴抽出ユニットは、異なる畳み込みカーネル（kernel）を用いて、サイズが調整された入力画像に対して特徴抽出を行うことができる。該第二特徴抽出ユニット202は、1つの畳み込み層ネットワークを構成することができる。

図4は、第二特徴抽出ユニット202の一実施例におけるネットワーク構成を示す図である。図4に示すように、該第二特徴抽出ユニット202は、3つのサイズ調整ユニット401及び3つの畳み込み層402を含み、即ち、3組の特徴抽出モジュールを含み、そのうち、3つのサイズ調整ユニット401、401’、401’’は、それぞれ、入力画像に対して1／2、1／4、1／8のサイズ調整を行い、これにより、入力画像に対して3回調整を行い、即ち、K=3であり、そのうち、Hは、入力画像の高さであり、Wは、入力画像の幅であり、3つの畳み込み層402、402’、402’’は、第五特徴抽出ユニットとして、異なるカーネル（9×9、5×5、3×3）を用いて、サイズが調整された入力画像に対して特徴抽出を行い、N個のチャンネルの特徴マップを得て第一結合ユニット203に出力することができる。本発明の実施例では、3つのサイズ調整ユニット401、401’、401’’が入力画像に対してサイズ調整を行う割合が異なるため、3つの畳み込み層402、402’、402’’による次元削減の数も異なる。例えば、1／2の入力画像について、畳み込み層402は、8次元の削減処理を行い、1／4の入力画像について、畳み込み層402’は、4次元の削減処理を行い、1／8の入力画像について、畳み込み層402’’は、2次元の削減処理を行い、これにより、第二特徴抽出ユニット202から第一結合ユニット203に入力する特徴マップの次元と、第一特徴抽出ユニット201から第一結合ユニット203に入力する特徴マップの次元とが同じであるように保証することができる。

本発明の実施例では、図2に示すように、該画像コーディング装置101は、さらに、加重ユニット204及び第六特徴抽出ユニット205を含んでも良い。加重ユニット204は、第一結合ユニット203からの各チャンネルの特徴マップに重みを与えることができる。第六特徴抽出ユニット205は、加重ユニット204からの特徴マップに対して次元削減処理を行い、M個のチャンネルの特徴マップを得て出力することができる。本発明の実施例では、加重ユニット204を用いて、各チャンネルの特徴マップに重みを与えることで、有用な特徴を保留し、そうでない特徴を抑制することができ、また、第六特徴抽出ユニットを用いて、入力された特徴マップに対して次元削減処理を行うことで、計算量を減少させることができる。

本発明の実施例では、加重ユニット204のネットワーク構成について限定せず、従来技術中の加重層に関する構造は、本発明の実施例における加重ユニット204として機能することができる。本発明の実施例では、第六特徴抽出ユニット205は、カーネルが1×1である1つの畳み込み層により実現することができるが、本発明の実施例は、これに限られない。

図5は、本発明の実施例における画像コーディング装置101の一実施例に係るネットワーク構成を示す図である。図5に示すように、該画像コーディング装置101の第一特徴抽出ユニット201は、4つのインセプションユニットにより実現され、4層のネットワークアーキテクチャを構成し、オリジナル入力画像からグローバル情報及びハイレベル情報を抽出することができる。該画像コーディング装置101の第二特徴抽出ユニット202は、3組の特徴抽出モジュールを有し、それぞれは、オリジナル入力画像に対してサイズ調整を行った後にさらに特徴抽出を行うことができ、その具体的なネットワーク構成は、図4で説明されているから、ここでは、その説明を省略する。該画像コーディング装置101の第一結合ユニット203は、1つのconcat関数により実現されても良い。該画像コーディング装置101の加重ユニット204は、1つの加重層により実現することができる。該画像コーディング装置101の第六特徴抽出ユニット205は、1つの1×1の畳み込み層により実現され、この例では、N=192、M=128である。

図6は、本発明の実施例における画像デコーディング装置103を示す図である。図6に示すように、本発明の実施例に係る画像デコーディング装置103は、マルチスケールダイレイテッド畳み込みユニット601、結合器602、及びデコーダ603を含む。マルチスケールダイレイテッド畳み込みユニット601は、ハイパーデコーダ111の出力に対して特徴抽出を行い、マルチスケール補助情報を取得することができる。結合器602は、算術デコーダ106からの入力画像の潜在表現及びマルチスケールダイレイテッド畳み込みユニット601からのマルチスケール補助情報に対して結合を行うことができる。デコーダ603は、結合器602からの出力をデコーディングし、前記入力画像の再構成画像を取得することができる。なお、該ハイパーデコーダ111及び算術デコーダ106のネットワーク構成及びその実施方式については、図1に示すハイパーデコーダ111及び算術デコーダ106と同じであり、また、従来技術を参照することができ、ここでは、その詳しい説明を省略する。

本発明の実施例では、該マルチスケールダイレイテッド畳み込みユニット602は、複数の特徴抽出ユニットを含んでも良く、該特徴抽出ユニットは、ダイレイテッド畳み込み層により実現されも良く、例えば、3つのダイレイテッド畳み込み層により実現され、この3つの畳み込み層は、異なる拡張率（即ち、異なる拡張率のダイレイテッド畳み込みカーネル）及び同じチャンネル数を用いて、該ハイパーデコーダの出力に対して特徴抽出を行い、上述のマルチスケールの補助情報を取得することができる。

図7は、該マルチスケールダイレイテッド畳み込みユニット601の一実施例におけるネットワーク構成を示す図である。図7に示すように、該マルチスケールダイレイテッド畳み込みユニット601は、3つの、異なる拡張率を有する3×3のダイレイテッド畳み込み層により実現され、拡張率は、それぞれ、1、2、3であり、且つこの3つの畳み込み層のチャンネル数は、ともに、Nであり、これにより、マルチスケールの補助情報を得ることができる。なお、ダイレイテッド畳み込み層の実施方式については、従来技術を参照することができるため、ここでは、その説明を省略す。

本発明の実施例では、ハイパーデコーダ111の後にマルチスケールダイレイテッド畳み込みユニット601を加えることで、ハイパーネットワーク（ハイパーコーダー及びハイパーデコーダ）からマルチスケール補助情報を得ることができ、そして、結合器602により、これらの情報と、量子化の潜在表現（算術デコーダ106の出力）とを結合することで、より多くの特徴を得てデコーダネットワーク（デコーダ603）にフィードバックすることができる。

図8は、本発明の実施例における確率モデル生成装置102を示す図である。図8に示すように、本発明の実施例における確率モデル生成装置102は、マルチスケールダイレイテッド畳み込みユニット801、コンテキストモデル処理ユニット802、及びエントロピーモデル処理ユニット803を含む。マルチスケールダイレイテッド畳み込みユニット801は、ハイパーデコーダ111の出力に対して特徴抽出を行い、マルチスケール補助情報を取得することができる。コンテキストモデル処理ユニット802は、量子化器104からの入力画像の潜在表現を入力とし、コンテンツに基づく予測を取得することができる。エントロピーモデル処理ユニット803は、コンテキストモデル処理ユニット802の出力及びマルチスケールダイレイテッド畳み込みユニット801の出力を処理し、予測の確率モデルを取得し、そして、算術コーダー105及び算術デコーダ106に提供することができる。なお、算術コーダー105及び算術デコーダ106のネットワーク構成及び実施方式については、従来技術を参照することができ、ここでは、その説明を省略する。

本発明の実施例では、該マルチスケールダイレイテッド畳み込みユニット801のネットワーク構成について限定せず、図7は、1つの例を示しているが、本発明の実施例は、これに限られない。

本発明の実施例における画像圧縮システムにより、画像の特徴を正確に抽出し、競争力のもっとある潜在表現を得ることができる。

本発明の実施例は、画像コーディング装置を提供し、図2は、本発明の実施例における画像コーディング装置101を示す図である。図3は、本発明の実施例における画像コーディング装置の第一特徴抽出ユニット201のインセプションユニットの一実施例によるネットワーク構成を示す図である、図4は、本発明の実施例における画像コーディング装置の第二特徴抽出ユニット202の一実施例に係るネットワーク構成を示す図である。図5は、本発明の実施例における画像コーディング装置の一実施例に係るネットワーク構成を示す図である。実施例1では、該画像コーディング装置について詳細に説明したので、その内容がここに合併され、ここでは、その説明が省略される。

本発明の実施例における画像コーディング装置により、画像の特徴を正確に抽出し、競争力のもっとある潜在表現を得ることができる。

本発明の実施例は、画像デコーディング装置を提供し、図6は、本発明の実施例における画像デコーディング装置103を示す図である。図7は、該画像デコーディング装置103のマルチスケールダイレイテッド畳み込みユニット601の一実施例のネットワーク構成を示す図である。実施例1では、該画像デコーディング装置について詳細に説明したから、その内容がここに合併され、ここでは、その説明を省略する。

本発明の実施例に係る画像デコーディング装置により、より多くの補助情報を得てより正確な画像再構成を実現することができる。

本発明の実施例は、確率モデル生成装置を提供し、図8は、本発明の実施例による確率モデル生成装置を示す図である。図7は、該確率モデル生成装置のマルチスケールダイレイテッド畳み込みユニット801の一実施例のネットワーク構成を示す図である。実施例1では、該確率モデル生成装置について詳細に説明したので、その内容がここに合併され、ここでは、その説明を省略する。

本発明の実施例における確率モデル生成装置により、マルチスケール補助情報を加えた後に、より良く潜在表現の確率分布を予測することができる。

本発明の実施例は、画像コーディング方法を提供し、該方法が問題を解決する原理が実施例2の装置と同様であり、且つ実施例1において説明されているため、その具体的なの実施について実施例1及び実施例2の装置の実施を参照することができ、内容が同じである重複説明が省略される。

図9は、本発明の実施例に係る画像コーディング方法を示す図であり、図9に示すように、該画像コーディング方法は、以下の操作を含む。

901：複数のインセプションユニットを用いて、入力画像に対して特徴抽出を行い、N個のチャンネルの特徴マップの取得し；
902：複数の畳み込み層を用いて、それぞれ、サイズが調整された入力画像に対して特徴抽出を行い、それぞれ、N個のチャンネルの特徴マップを取得し；及び
903：前記インセプションユニットからのN個のチャンネルの特徴マップと、前記複数の畳み込み層からのそれぞれ対応するN個のチャンネルの特徴マップとを結合して出力する。

本発明の実施例では、図9における各操作の実施について実施例1における図2の各ユニットの実施を参照することができ、ここでその説明が省略される。

本発明の実施例における操作901では、上述の複数のインセプションユニットは、順次結合され、前記入力画像又は前のインセプションユニットからの特徴マップに対して特徴抽出を行い、前記入力画像のグローバル情報及びハイレベル情報を得ることができる。

一実施例では、各インセプションユニットは、3つの畳み込み層及び1つのプーリング層を含み、この3つの畳み込み層は、異なる畳み込みカーネル及び同じチャンネル数を用いて前記入力画像又は前のインセプションユニットからの特徴マップに対して特徴抽出を行い、それぞれ、N個のチャンネルの特徴マップを取得し、該プーリング層は、前記入力画像又は前のインセプションユニットからの特徴マップに対して次元削減処理を行い、N個のチャンネルの特徴マップを取得することができる。

幾つかの実施例では、各インセプションユニットは、さらに、1つの結合層及び１つの畳み込み層を含んでも良く、該結合層は、上述の3つの畳み込み層からのそれぞれ対応するN個のチャンネルの特徴マップと、前記プーリング層からのN個のチャンネルの特徴マップとを結合し、4N個のチャンネルの特徴マップを取得し、該畳み込み層は、前記結合層からの特徴マップに対して次元削減処理を行い、N個のチャンネルの特徴マップを取得することができる。

本発明の実施例における操作902では、先に入力画像に対して異なる割合のサイズ調整を行い、それから、複数の畳み込み層により、サイズが調整された各入力画像に対して特徴抽出を行っても良く、ここで、各畳み込み層は、サイズが調整された1つの入力画像に対応し、これにより、それぞれ、N個のチャンネルの特徴マップを取得することができる。

幾つかの実施例では、上述の複数の畳み込み層は、異なる畳み込みカーネル及び同じチャンネル数を用いても良く、このようにして、各畳み込み層は、サイズが調整された入力画像に対して行われる次元削減処理の次元削減の数が同じであるように保証し、結合を便利にすることができる。

本発明の実施例における操作903では、結合層又は結合関数（concat）を用いて、上述の各特徴抽出ユニットにより抽出された特徴マップを結合しても良い。

本発明の実施例では、さらに、結合後の各チャンネルの特徴マップに重みを与え、そして、重みが与えられた後の特徴マップに対して次元削減処理を行い、M個のチャンネルの特徴マップ出力を得ることができ、これにより、処理待ちの画素数を減少させ、計算量を節約することができる。

本発明の実施例による画像コーディング方法により、画像の特徴を正確に抽出し、競争力のもっとある潜在表現を得ることができる。

本発明の実施例は、画像デコーディング方法を提供し、該方法が問題を解決する原理が実施例3の装置と同様であり、且つ実施例1で説明されているから、その具体的な実施について考実施例1及び実施例3の装置の実施を参照することができ、内容が同じである重複説明が省略される。

図10は、本発明の実施例における画像デコーディング方法を示す図である。図10に示すように、該画像デコーディング方法は、以下の操作を含む。

1001：マルチスケールダイレイテッド畳み込みユニットを用いて、ハイパーデコーダの出力に対して特徴抽出を行い、マルチスケール補助情報を取得し；
1002：結合器を用いて、算術デコーダからの入力画像の潜在表現と、前記マルチスケールダイレイテッド畳み込みユニットからのマルチスケール補助情報とを結合し、及び
1003：デコーダを用いて、前記結合器からの出力に対してデコーディングを行い、前記入力画像の再構成画像を取得する。

本発明の実施例では、上述のマルチスケールダイレイテッド畳み込みユニットは、3つのダイレイテッド畳み込み層を含んでも良く、この3つの畳み込み層は、異なる拡張率及び同じチャンネル数を用いて、前記ハイパーデコーダの出力に対して特徴抽出を行い、前記マルチスケールの補助情報を得ることができる。

本発明の実施例では、上述の結合器は、畳み込みニューラルネットワークにおける結合層であっても良く、他の実施方式を省略する。

本発明の実施例における画像デコーディング方法により、より多くの補助情報を得てより正確な画像再構成を実現することができる。

本発明の実施例は、確率モデル生成方法を提供し、該方法が問題を解決する原理が実施例4の装置と同様であり、且つ実施例1において説明されているから、その具体的な実施について実施例1及び実施例4の装置の実施を参照することができ、内容が同じである重複説明が省略される。

図11は、是本発明の実施例における確率モデル生成方法を示す図であり、図11に示すように、該確率モデル生成方法は、以下の操作を含む。

1101：マルチスケールダイレイテッド畳み込みユニットを用いて、前記ハイパーデコーダの出力に対して特徴抽出を行い、マルチスケール補助情報を取得し；
1102：コンテキストモデルを用いて、コーダーからの入力画像の潜在表現を入力とし、コンテンツに基づく予測を取得し；及び
1103：エントロピーモデルを用いて、前記コンテキストモデルの出力及び前記マルチスケールダイレイテッド畳み込みユニットの出力を処理し、予測の確率モデルを取得する。

本発明の実施例では、上述のコンテキストモデル及び上述のエントロピーモデルは、畳み込みニューラルネットワークを用いた画像圧縮システムにおけるコンテキストモデル及びエントロピーモデルであっても良く、他の実施方式を省略す。

本発明の実施例に係る確率モデル生成方法により、マルチスケール補助情報を加えた後に、より良く潜在表現の確率分布を予測することができる。

本発明の実施例は、画像処理装置を提供し、該画像処理装置は、実施例1及び2に記載の画像コーディング装置を含み、又は、実施例1及び3に記載の画像デコーディング装置を含み、又は、実施例1及び4に記載の確率モデル生成装置を含み、又は、同時に上述の画像コーディング装置、画像デコーディング装置及び確率モデル生成装置を含む。同時に画像デコーディング装置及び確率モデル生成装置を含むときに、前述のマルチスケールダイレイテッド畳み込みユニットは、共用することができる。

実施例1-4では、画像コーディング装置、確率モデル生成装置、及び画像デコーディング装置について詳細に説明したので、その内容がここに合併され、ここではその説明が省略される。

図12は、本発明の実施例における画像処理装置を示す図である。図12に示すように、画像処理装置1200は、中央処理装置（CPU）1201及び記憶器1202を含んでも良く、記憶器1202は、中央処理装置1201に接続される。該記憶器1202は、各種のデータを記憶しても良く、また、情報処理用のプログラムをさらに記憶しても良く、且つ中央処理装置1201の制御下で該プログラムを実行することができる。

一実施例では、画像コーディング装置及び／又は確率モデル生成装置及び／又は画像デコーディング装置の機能は、中央処理装置1201に統合されても良い。中央処理装置1201は、実施例5及び／又は6及び／又は7に記載の方法を実現するように構成されても良い。

もう１つの実施例では、画像コーディング装置及び／又は確率モデル生成装置及び／又は画像デコーディング装置は、中央処理装置1201と別々で配置されても良く、例えば、画像コーディング装置及び／又は確率モデル生成装置及び／又は画像デコーディング装置を、中央処理装置1201に接続されるチップとして構成されても良く、中央処理装置1201の制御により画像コーディング装置及び／又は確率モデル生成装置及び／又は画像デコーディング装置の機能を実現しても良い。

また、如図12に示すように、画像処理装置は、さらに、入出力（I／O）装置1203及び表示器1204などを含んでも良く、これらの部品の機能が従来技術と同様であるため、ここではその説明を省略する。なお、画像処理装置は、図12に示すすべての部品を含む必要がない。また、画像処理装置は、さらに、図12にない部品を含んでも良く、これについては、従来技術を参照することができる。

本発明の実施例は、コンピュータ可読プログラムを提供し、画像処理装置中で前記プログラムを実行するときに、前記プログラムは、前記画像処理装置に、実施例5及び／又は6及び／又は7に記載の方法を実行させる。

本発明の実施例は、コンピュータ可読プログラムを記憶した記憶媒体を提供し、前記コンピュータ可読プログラムは、画像処理装置に、実施例5及び／又は6及び／又は7に記載の方法を実行させる。

また、本発明の実施例による装置、方法などは、ソフトウェアにより実現されても良く、ハードェアにより実現されてもよく、ハードェア及びソフトウェアの組み合わせにより実現されても良い。本発明は、このようなコンピュータ可読プログラムにも関し、即ち、前記プログラムは、ロジック部品により実行されるときに、前記ロジック部品に、上述の装置又は構成要素を実現させることができ、又は、前記ロジック部品に、上述の方法又はそのステップを実現させることができる。さらに、本発明は、上述のプログラムを記憶した記憶媒体、例えば、ハードディスク、磁気ディスク、光ディスク、DVD、フレッシュメモリなどにも関する。

以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術的範囲に属する。

Claims

画像コーディング装置であって、
入力画像に対して特徴抽出を行い、N個のチャンネルの特徴マップを取得する第一特徴抽出ユニット；
サイズがK回調整された入力画像に対して特徴抽出を行い、それぞれ、N個のチャンネルの特徴マップを取得する第二特徴抽出ユニット；及び
前記第一特徴抽出ユニットからのN個のチャンネルの特徴マップと、前記第二特徴抽出ユニットからのK×N個のチャンネルの特徴マップとを結合して出力する第一結合ユニットを含む、装置。
請求項1に記載の画像コーディング装置であって、
前記第一特徴抽出ユニットは、複数のインセプションユニットを含み、各インセプションユニットは、順次結合され、前記入力画像又は前のインセプションユニットからの特徴マップに対して特徴抽出を行い、前記入力画像のグローバル情報及びハイレベル情報を取得する、装置。
請求項2に記載の画像コーディング装置であって、
各前記インセプションユニットは、3つの第三特徴抽出ユニット、プーリングユニット、第二結合ユニット、及び第四特徴抽出ユニットを含み、
前記3つの第三特徴抽出ユニットは、異なる畳み込みカーネル及び同じチャンネル数を用いて前記入力画像又は前のインセプションユニットからの特徴マップに対して特徴抽出を行い、それぞれ、N個のチャンネルの特徴マップを取得し、
前記プーリングユニットは、前記入力画像又は前のインセプションユニットからの特徴マップに対して次元削減処理を行い、N個のチャンネルの特徴マップを取得し、
前記第二結合ユニットは、前記3つの第三特徴抽出ユニットからのN個のチャンネルの特徴マップと、前記プーリングユニットからのN個のチャンネルの特徴マップとを結合し、4N個のチャンネルの特徴マップを取得し、
前記第四特徴抽出ユニットは、前記第二結合ユニットからの特徴マップに対して次元削減処理を行い、N個のチャンネルの特徴マップを取得する、装置。
請求項1に記載の画像コーディング装置であって、
前記第二特徴抽出ユニットは、
前記入力画像に対してサイズ調整を行うサイズ調整ユニット；及び
サイズが調整された入力画像に対して特徴抽出を行い、N個のチャンネルの特徴マップを取得する第五特徴抽出ユニットを含む、装置。
請求項4に記載の画像コーディング装置であって、
前記サイズ調整ユニット及び前記第五特徴抽出ユニットは、一組又は複数組であり、異なる組のサイズ調整ユニットは、異なる割合を用いて、前記入力画像に対してサイズ調整を行い、異なる組の第五特徴抽出ユニットは、異なる畳み込みカーネルを用いて、サイズが調整された前記入力画像に対して特徴抽出を行う、装置。
請求項1に記載の画像コーディング装置であって、
前記第一結合ユニットからの各チャンネルの特徴マップに重みを与える加重ユニット；及び
前記加重ユニットからの特徴マップに対して次元削減処理を行い、M個のチャンネルの特徴マップを得て出力する第六特徴抽出ユニットをさらに含む、装置。
画像デコーディング装置であって、
ハイパーデコーダの出力に対して特徴抽出を行い、マルチスケール補助情報を取得するマルチスケールダイレイテッド畳み込みユニット；
算術デコーダからの入力画像の潜在表現と、前記マルチスケールダイレイテッド畳み込みユニットからのマルチスケール補助情報とを結合する結合器；及び
前記結合器からの出力に対してデコーディングを行い、前記入力画像の再構成画像を取得するデコーダを含む、装置。
請求項7に記載の装置であって、
前記マルチスケールダイレイテッド畳み込みユニットは、3つの特徴抽出ユニットを含み、
前記3つの特徴抽出ユニットは、異なる拡張率のダイレイテッド畳み込みカーネル及び同じチャンネル数を用いて前記ハイパーデコーダの出力に対して特徴抽出を行い、前記マルチスケールの補助情報を取得する。装置。
確率モデル生成装置であって、
ハイパーデコーダの出力に対して特徴抽出を行い、マルチスケール補助情報を取得するマルチスケールダイレイテッド畳み込みユニット；
量子化器からの入力画像の潜在表現を入力とし、コンテンツに基づく予測を取得するコンテキストモデル処理ユニット；及び
前記コンテキストモデル処理ユニットの出力及び前記マルチスケールダイレイテッド畳み込みユニットの出力を処理し、予測の確率モデルを取得するエントロピーモデル処理ユニットを含む、装置。
請求項9に記載の装置であって、
前記マルチスケールダイレイテッド畳み込みユニットは、3つの特徴抽出ユニットを含み、
前記3つの特徴抽出ユニットは、異なる拡張率のダイレイテッド畳み込みカーネル及び同じチャンネル数を用いて前記ハイパーデコーダの出力に対して特徴抽出を行い、前記マルチスケールの補助情報を取得する、装置。