JP2020191631A - 画像符号化装置、確率モデル生成装置及び画像圧縮システム - Google Patents

画像符号化装置、確率モデル生成装置及び画像圧縮システム Download PDF

Info

Publication number
JP2020191631A
JP2020191631A JP2020083134A JP2020083134A JP2020191631A JP 2020191631 A JP2020191631 A JP 2020191631A JP 2020083134 A JP2020083134 A JP 2020083134A JP 2020083134 A JP2020083134 A JP 2020083134A JP 2020191631 A JP2020191631 A JP 2020191631A
Authority
JP
Japan
Prior art keywords
channels
unit
output
feature
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020083134A
Other languages
English (en)
Inventor
思寒 温
Sihan Wen
思寒 温
静 周
Jing Zhou
静 周
タヌ・ジミン
Tan Zhiming
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2020191631A publication Critical patent/JP2020191631A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/1887Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a variable length codeword

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】復号時間を短縮することができる、画像符号化方法、装置及び画像圧縮システムを提供する。【解決手段】画像符号化装置は、入力画像に対して特徴抽出を行い、N個のチャネルの特徴マップを取得する第1特徴抽出部と、各チャネルの特徴マップに重みを割り当てる重み付け部と、該重み付け部により処理された特徴マップに対して次元削減処理を行い、Nよりも小さいM個のチャネルの特徴マップを取得して出力する第2特徴抽出部と、を含む。【効果】これによって、異なる特徴マップに1つの重みを乗算して対応する重要度を取得し、重み付け部により処理された特徴マップに対して第2特徴抽出部により次元削減を行う。【選択図】図8

Description

本発明は、画像圧縮及び深層学習の技術分野に関する。
近年、深層学習(ディープラーニング)は、コンピュータビジョンの分野に支配的な地位を占めており、画像認識や超解像再生のいずれにおいても、深層学習は画像研究にとって重要な技術となっているが、その機能はこれらのタスクに限定されない。現在、深層学習の技術は、画像圧縮の分野に導入され、徐々に大きな潜在力を示し、注目される研究分野となっている。
なお、上述した技術背景の説明は、本発明の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本発明の背景技術部分として説明されたものであり、当業者により周知されたものではない。
本発明の実施例は、潜在変数のボトルネックを低減させることで復号時間を短縮し、独立したエントロピーモデルを用いて正確な確率分布の予測を実現することでコードストリームの要求を低減させる画像圧縮方法を提供する。
本発明の実施例の第1態様では、画像符号化装置であって、入力画像に対して特徴抽出を行い、N個のチャネルの特徴マップを取得する第1特徴抽出部と、各チャネルの特徴マップに重みを割り当てる重み付け部と、前記重み付け部により処理された特徴マップに対して次元削減処理を行い、M個のチャネルの特徴マップを取得して出力する第2特徴抽出部であって、MはNよりも小さい、第2特徴抽出部と、を含む、画像符号化装置を提供する。
本発明の実施例の第2態様では、確率モデル生成装置であって、ハイパーエンコーダから受信されたコードストリームに対してハイパー復号を行い、補助情報を取得するハイパーデコーダと、エンコーダの出力を入力とし、内容に基づく予測を取得するコンテキストモデル処理部と、前記コンテキストモデル処理部の出力と前記ハイパーデコーダの出力とを組み合わせ、予測された確率モデルを取得して前記エンコーダ及びデコーダに提供するエントロピーモデル処理部と、を含み、前記コンテキストモデル処理部は、前記エンコーダの出力に基づいて、前記内容に基づく予測の予測結果の平均値部分を取得する第1処理部と、前記エンコーダの出力に基づいて、前記内容に基づく予測の予測結果の分散部分を取得する第2処理部と、を含み、前記エントロピーモデル処理部は、前記第1処理部により取得された前記予測結果の平均値部分と前記ハイパーデコーダにより出力された補助情報とを組み合わせ、前記予測された確率モデルの平均値部分を取得する第3処理部と、前記第2処理部により取得された前記予測結果の分散部分と前記ハイパーデコーダにより出力された補助情報とを組み合わせ、前記予測された確率モデルの分散部分を取得する第4処理部と、を含む、装置を提供する。
本発明の実施例の第3態様では、画像圧縮システムであって、入力画像をダウンサンプリングし、前記入力画像を潜在表現に変換する画像符号化装置と、前記潜在表現の確率分布を予測し、前記潜在表現の確率モデルを取得する確率モデル生成装置と、前記確率モデルに基づいて、復号により取得された潜在表現をアップサンプリングし、潜在表現を前記入力画像にマッピングして戻す画像復号装置と、を含み、前記画像符号化装置は、上記の第1態様に記載の装置を含み、或いは、前記確率モデル生成装置は、上記の第2態様に記載の装置を含む、システムを提供する。
本発明の実施例の第4態様では、画像符号化方法であって、入力画像に対して特徴抽出を行い、N個のチャネルの特徴マップを取得するステップと、各チャネルの特徴マップに重みを割り当てるステップと、重みが割り当てられたN個のチャネルの特徴マップに対して次元削減処理を行い、M個のチャネルの特徴マップを取得して出力するステップであって、MはNよりも小さい、ステップと、を含む、画像符号化方法を提供する。
本発明の実施例の第5態様では、確率モデル生成方法であって、ハイパーデコーダを用いて、エンコーダから受信されたコードストリームに対して復号を行い、補助情報を取得するステップと、コンテキストモデルを用いて前記エンコーダの出力を入力とし、内容に基づく予測を取得するステップと、エントロピーモデルを用いて前記コンテキストモデルの出力と前記ハイパーデコーダの出力とを組み合わせ、予測された確率モデルを取得して前記エンコーダ及びデコーダに提供するステップと、を含み、前記エントロピーモデルは、前記コンテキストモデルにより取得された予測結果の平均値部分と前記ハイパーデコーダにより出力された補助情報とを組み合わせ、前記確率モデルの平均値部分を取得し、前記コンテキストモデルにより取得された予測結果の分散部分と前記ハイパーデコーダにより出力された補助情報とを組み合わせ、前記確率モデルの分散部分を取得する、方法を提供する。
本発明の実施例の他の態様では、コンピュータ読み取り可能なプログラムであって、画像処理装置において前記プログラムが実行される際に、前記画像処理装置に上記の第4態様及び/又は第5態様に記載の方法を実行させる、プログラムを提供する。
本発明の実施例の他の態様では、コンピュータ読み取り可能なプログラムが記憶されている記憶媒体であって、前記コンピュータ読み取り可能なプログラムが画像処理装置に上記の第4態様及び/又は第5態様に記載の方法を実行させる、記憶媒体を提供する。
本発明の実施例の有利な効果は以下の通りである。本発明の実施例の少なくとも1つの態様によれば、画像圧縮において、潜在変数のボトルネックを低減させることで復号時間を短縮し、即ち、重み付け部により異なる特徴マップに1つの重みを乗算して対応する重要度を取得し、重み付け部により処理された特徴マップに対して該第2特徴抽出部により次元削減を行い、復号時間を短縮することができる。また、本発明の実施例の少なくとも1つの態様によれば、独立したエントロピーモデルを用いて正確な確率分布の予測を実現することでコードストリームの要求を低減させ、即ち、2つの独立したコンテキストモデル処理部及びエントロピーモデル処理部により確率モデルの2つのパラメータmu及びsigmaを取得することで、より正確なエントロピーモデルにより符号化に必要なコードストリームを低減させることができる。
本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施形態は、範囲上には限定されるものではない。本発明の実施形態は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の改変、修正、及び均等的なものが含まれる。
ある一つの実施形態に説明及び又は示されている特徴は、同一又は類似の方式で一つ又は多くの他の実施形態に使用されてもよく、他の実施形態における特徴と組み合わせてもよく、他の実施形態における特徴を代替してもよい。
なお、用語「含む/有する」は、本文に使用される際に、特徴、要素、ステップ又は構成要件の存在を意味し、一つ又は複数の他の特徴、要素、ステップ又は構成要件の存在又は追加を排除するものではない。
本発明の実施例の図面又は実施形態に説明されている要素及び特徴は、1つ又は複数の他の図面又は実施形態に示す要素及び特徴と組み合わせてもよい。図面において、類似する符号は複数の図面における対応する構成部を表し、複数の態様に用いられる対応構成部を表してもよい。
ここで含まれる図面は、本発明の実施例を理解させるためのものであり、本明細書の一部を構成し、本発明の実施例を例示するためのものであり、文言の記載と合わせて本発明の原理を説明する。なお、ここに説明される図面は、単なる本発明の実施例を説明するためのものであり、当業者にとって、これらの図面に基づいて他の図面を容易に得ることができる。
実施例1の画像圧縮システムの概略図である。 実施例2の画像符号化装置の概略図である。 図2に示す画像符号化装置の第1特徴抽出部の1つの実施例のネットワーク構造の概略図である。 図2に示す画像符号化装置の重み付け部の概略図である。 図4に示す重み付け部に対応するネットワーク構造の概略図である。 実施例3の確率モデル生成装置の概略図である。 実施例1の画像圧縮システムの1つの実施例のネットワーク構造の概略図である。 実施例4の画像符号化方法の概略図である。 実施例5の確率モデル生成方法の概略図である。 実施例6の画像処理装置の概略図である。
本発明の上記及びその他の特徴は、図面及び下記の説明により明確になる。明細書及び図面では、本発明の特定の実施形態、即ち本発明の原則に従う一部の実施形態を表すものを公開している。なお、本発明は説明される実施形態に限定されず、本発明は、特許請求の範囲内の全ての修正、変更されたもの、及び均等なものを含む。
本発明の実施例では、用語「第1」、「第2」は異なる要素を名称で区分するためのものであり、これらの要素の空間的配列又は時間的順序などを意味するものではなく、これらの要素はこれらの用語に限定されない。用語「及び/又は」は列挙された用語の1つ又は複数のうち何れか及びその組み合わせを含む。用語「包括」、「含む」、「有する」は説明された特徴、要素、素子又は部材の存在を意味するが、他の1つ又は複数の特徴、要素、素子又は部材の存在又は追加を排除するものではない。
本発明の実施例では、単数形の「一」、「該」等は複数形を含み、「一種」又は「一類」を意味し、「1つ」に限定するものではない。また、用語「前記」は、文脈上明確に指示されない限り、単数形及び複数形両方を含む。また、文脈上明確に指示されない限り、用語「応じて」は「少なくとも部分的に応じて」を意味し、用語「に基づいて」は「少なくとも部分的に基づいて」を意味する。
以下は、図面を参照しながら本発明の実施例の各態様を説明する。これらの態様は単なる例示的なものであり、本発明を限定するものではない。
<実施例1>
本発明の実施例は画像圧縮システムを提供する。図1は実施例1の画像圧縮システムの概略図である。図1に示すように、本発明の実施例の画像圧縮システム100は、画像符号化装置101、確率モデル生成装置102、及び画像復号装置103を含む。画像符号化装置101は、入力画像をダウンサンプリングし、前記入力画像を潜在表現に変換する。確率モデル生成装置102は、該潜在表現の確率分布を予測し、該潜在表現の確率モデルを取得する。画像復号装置103は、該確率モデルに基づいて、復号により取得された潜在表現をアップサンプリングし、潜在表現を入力画像にマッピングして戻す。
本発明の実施例では、図1に示すように、画像圧縮システム100は、算術エンコーダ104及び算術デコーダ105をさらに含んでもよい。算術エンコーダ104は、確率モデル生成装置102により生成された確率モデルに基づいて、画像符号化装置101の出力を符号化する。算術デコーダ105は、確率モデル生成装置102により生成された確率モデルに基づいて、受信されたコードストリームを復号し、画像復号装置103に提供する。
本発明の実施例では、画像符号化装置101は、入力画像(本発明の実施例では、入力画像の画素である)を、次元空間を削減可能な(即ち次元削減された)潜在表現に変換し、画像復号装置103は、近似逆関数により該潜在表現を該画素にマッピングして戻し、確率モデル生成装置102は、エントロピーモデルを用いて該潜在表現の確率分布を予測し、該潜在表現の確率モデルを取得する。
図2は実施例2の画像符号化装置101の概略図である。図2に示すように、本発明の実施例の画像符号化装置101は、第1特徴抽出部201、重み付け部202、及び第2特徴抽出部203を含む。第1特徴抽出部201は、入力画像に対して特徴抽出を行い、N個のチャネルの特徴マップを取得する。重み付け部202は、各チャネルの特徴マップに重みを割り当てる。第2特徴抽出部203は、重み付け部202により処理された特徴マップ(即ち、重み付けされた各特徴マップ)に対して次元削減処理を行い、M個のチャネルの特徴マップを取得して出力する。ここで、MはNよりも小さい。
本発明の実施例では、第1特徴抽出部201は、複数の畳み込み層(畳み込み層はフィルタと称されてもよい)を用いて入力画像に対して特徴抽出を行ってもよい。図3は、第1特徴抽出部201の1つの実施例のネットワーク構造の概略図である。図3に示すように、この例では、複数の畳み込み層及び1つの結合層により入力画像に対して特徴抽出を行い、N個のチャネルの特徴マップを取得する。図3は単なる一例を示し、本発明の実施例は第1特徴抽出部201のネットワーク構造に限定されず、例えばより多くの畳み込み層を追加し、或いは畳み込み層の数を減らして、入力画像に対して特徴抽出を行ってもよい。
本発明の実施例では、重み付け部202は、有用な特徴を強化し、あまり有用でない特徴を抑制するように、1つの重み付け層を用いて、該N個のチャネルの各チャネルの特徴マップに重みを割り当ててもよい。
本発明の実施例では、第2特徴抽出部203は、1つの畳み込み層により、重み付け部202により処理された該N個のチャネルの特徴マップに対して次元削減処理を行い、M個のチャネルの特徴マップを取得してもよい。該畳み込み層は、M×1×1の畳み込み層であってもよく、ここで、Mはチャネル数であり、1×1は該畳み込み層のカーネル(畳み込みカーネルとも称される)である。該畳み込み層により、該N個のチャネルの特徴マップに対する次元削減の目的を実現することができる。また、次元削減処理の動作原理は、従来技術を参照してもよく、ここでその説明を省略する。
本発明の実施例では、エントロピーモデルは画像圧縮にとって非常に重要であるため、エントロピーモデルの入力の一部として、コンテキストモデルは、現在の画素の前の画素情報を用いて予測の正確性を効果的に向上させることができる。しかし、コンテキストモデルは自己回帰型ネットワークであるため、画素ごとに潜在表現を符号化する必要があり、潜在表現のボトルネックが大きくなると、符号化時間が大幅に増加してしまう。本発明の実施例は、1つの重み付け層(該重み付け層は、エンコーダ部分の最後の層の選択と見なされてもよい)を追加して異なるチャネルに重みを割り当てることで、有用な特徴を効果的に強化し、あまり有用でない特徴を抑制するとともに、1つの畳み込み層を用いて特徴マップの数をNからMに減少させることで、符号化時間を短縮する。
図4は、本発明の実施例の重み付け部202の1つの実施例の概略図である。図4に示すように、重み付け部202は、プーリング部401、第3特徴抽出部402、第4特徴抽出部403、及び第1計算部404を含む。
プーリング部401は、入力されたN個のチャネルの各チャネルの特徴マップの平均値を求め、各チャネルの特徴マップの統計的特性を取得する。プーリング部401は、1つの大域平均プーリング層を用いて、入力された特徴マップに対してプーリング処理を行ってもよい。該大域平均プーリング層の動作原理について、従来技術を参照してもよく、ここでその説明を省略する。
第3特徴抽出部402は、プーリング部401により処理された特徴マップに対して次元削減処理を行い、M個のチャネルの特徴マップを取得する。第3特徴抽出部402は、1つの畳み込み層により実現されてもよく、該畳み込み層は、M×1×1の畳み込み層であってもよく、Mはチャネル数であり、1×1は該畳み込み層の畳み込みカーネル(カーネル)である。該畳み込み層の動作原理について、従来技術を参照してもよく、ここでその説明を省略する。
第4特徴抽出部403は、該M個のチャネルの特徴マップに対して次元増加処理を行い、N個のチャネルの特徴マップを取得する。第4特徴抽出部403も、1つの畳み込み層により実現されてもよく、該畳み込み層は、N×1×1の畳み込み層であってもよく、Nはチャネル数であり、1×1は該畳み込み層の畳み込みカーネル(カーネル)である。該畳み込み層の動作原理について、従来技術を参照してもよく、ここでその説明を省略する。
第1計算部404は、第4特徴抽出部403により抽出されたN個のチャネルの特徴マップに入力された該N個のチャネルの特徴マップ(即ち、エンコーダからのN個のチャネルの特徴マップ)を乗算し、重み付け処理後のN個のチャネルの特徴マップを取得して第2特徴抽出部203に出力する。第1計算部404は、scale関数により実現されてもよい。該scale関数の動作原理について、従来技術を参照してもよく、ここでその説明を省略する。
本発明の実施例の重み付け部202は、エンコーダ部分の最後の層に重みを提供し、有用な特徴を選択的に強化し、あまり有用でない特徴を抑制する。まず、1つの大域平均プーリング層を用いて各チャネル統計的特性を生成し、そして、2つの畳み込み層を用いてチャネル数を増減することで、チャネル間の非線形の相互作用をより良く学習する。さらに、特徴マップの数をNからMに減らす必要があるため、本発明の実施例では、該2つの畳み込み層を用いてチャネル数をMからNに変更することで、より相応な重みを取得する。
本発明の実施例では、図4に示すように、重み付け部202は、第2計算部405、第3計算部406、及び第4計算部407をさらに含んでもよい。第2計算部405は、プーリング部401の前に位置し、入力されたN個のチャネルの特徴マップ(エンコーダからのN個のチャネルの特徴マップ)の絶対値を求め、プーリング部401に出力する。第2計算部405は1つのabs関数により実現されてもよく、その動作原理についての説明を省略する。第3計算部406は、第3特徴抽出部402と第4特徴抽出部403との間に位置し、第3特徴抽出部402からのM個のチャネルの特徴マップに対して活性化演算を行う。第3計算部406は1つのrelu関数により実現されてもよく、その動作原理についての説明を省略する。第4計算部407は、第4特徴抽出部403と第1計算部404との間に位置し、第4特徴抽出部403からのN個のチャネルの特徴マップを0〜1の範囲内に制限する。第4計算部407は1つのsigmoid関数により実現されてもよく、その動作原理についての説明を省略する。
図5は、本発明の実施例の重み付け部202の1つの実施例のネットワーク構造の概略図である。図5に示すように、結合層501は、エンコーダの最後の層に対応し、図3に示すように、その出力はN個のチャネルの特徴マップである。abs 502は、図4の第2計算部405に対応し、該N個のチャネルの特徴マップの絶対値を求める。大域プーリング層503は、図4のプーリング部401に対応し、absにより出力されたN個のチャネルの特徴マップに対してプーリング処理を行う。畳み込み層504は、図4の第3特徴抽出部402に対応し、大域プーリング層503により出力されたN個のチャネルの特徴マップに対して次元削減処理を行い、M個のチャネルの特徴マップを取得する。Relu 505は、図4の第3計算部406に対応し、該M個のチャネルの特徴マップに対して活性化演算を行う。畳み込み層506は、図4の第4特徴抽出部403に対応し、Reluにより出力されたM個のチャネルの特徴マップに対して次元増加処理を行い、N個のチャネルの特徴マップを取得する。sigmoid 507は、図4の第4計算部407に対応し、該N個のチャネルの特徴マップを0〜1の範囲内に制限する。Scale 508は、図4の第1計算部404に対応し、結合層により出力されたN個のチャネルの特徴マップとsigmoidにより出力されたN個のチャネルの特徴マップとに対して乗算処理を行い、N個のチャネルの特徴マップを取得して出力する。
図5に示す重み付け層のネットワーク構造は単なる一例であり、本発明の実施例では、該重み付け層は、他のネットワーク構造を有してもよい。例えば、畳み込み層を追加してもよいし、該大域プーリング層などを削除してもよく、入力されたN個のチャネルの特徴マップに重みを割り当てることができれば良い。
画像符号化装置に該重み付け層を追加し、異なるチャネルに重みを割り当てることで、有用な特徴を強化し、あまり有用でない特徴を抑制することができる。
図6は、本発明の実施例の確率モデル生成装置102の概略図である。図6に示すように、本発明の実施例の確率モデル生成装置102は、ハイパーデコーダ601、コンテキストモデル処理部602、及びエントロピーモデル処理部603を含む。ハイパーデコーダ601は、ハイパーエンコーダから受信されたコードストリームに対して復号を行い、補助情報を取得する。コンテキストモデル処理部602は、エンコーダの出力を入力とし、内容に基づく予測を取得する。エントロピーモデル処理部603は、コンテキストモデル処理部602の出力とハイパーデコーダ601の出力とを組み合わせ、予測された確率モデルを取得してエンコーダ及びデコーダに提供する。
本発明の実施例では、図6に示すように、コンテキストモデル処理部602は、第1処理部及び第2処理部を含む。第1処理部は、エンコーダの出力に基づいて、予測結果の平均値部分を取得する。第2処理部は、エンコーダの出力に基づいて、予測結果の分散部分を取得する。エントロピーモデル処理部603は、第3処理部及び第4処理部を含む。第3処理部は、第1処理部により取得された予測結果の平均値部分とハイパーデコーダ601により出力された補助情報とを組み合わせ、確率モデルの平均値部分を取得する。第4処理部は、第2処理部により取得された予測結果の分散部分とハイパーデコーダ601により出力された補助情報とを組み合わせ、確率モデルの分散部分を取得する。
本発明の実施例では、エントロピーモデル処理部603は、潜在表現の確率モデルを予測し、コンテキストモデル(context model)(潜在的な自己回帰型モデル)とハイパーネットワーク(ハイパーエンコーダ及びハイパーデコーダ)とを組み合わせ、ハイパーネットワークにより学習した有用な情報によりコンテキストに基づく予測情報を補正し、条件付きガウスエントロピーモデル(上記の確率モデル)の平均値及びスケールパラメータ(分散)を生成する。従来技術と異なって、本発明の実施例は、コンテキストモデルの平均値部分とハイパーデコーダの出力とを組み合わせ、エントロピーモデルの平均値部分を取得し、コンテキストモデルの分散部分とハイパーデコーダの出力とを組み合わせ、エントロピーモデルの分散部分を取得する。エントロピーモデルの平均値部分及び分散部分をそれぞれ取得することで、潜在的な分布をより正確に分析することができる。
本発明の実施例では、図6に示すように、本発明の実施例の確率モデル生成装置102は、計算部604をさらに含んでもよい。計算部604は、第2処理部により取得された予測結果の分散部分の絶対値を求め、第4処理部に提供し、ハイパーデコーダ601の出力の絶対値を求め、第4処理部に提供する。計算部604は、絶対値関数Absにより実現されてもよい。sigmaの値は主にデータの分散を表すため、sigmaを生成するためのエントロピーモデルの前に絶対値関数を有する層を追加することで、sigmaをより適切に表現することができる。
本発明の実施例では、図6に示すように、本発明の実施例の確率モデル生成装置102は、量子化器608、ハイパーエンコーダ605、算術エンコーダ606、及び算術デコーダ607をさらに含んでもよい。量子化器608は、エンコーダからの出力に対して量子化処理を行うことで、エンコーダからの潜在表現を量子化し、離散値ベクトルを生成する。ハイパーエンコーダ605は、量子化器608の出力をさらに符号化する。算術エンコーダ606は、ハイパーエンコーダ605の出力を算術符号化し、コードストリームを生成して出力する。算術デコーダ607は、受信されたコードストリームを復号し、ハイパーデコーダ601に出力する。量子化器608、ハイパーエンコーダ605、算術エンコーダ606、及び算術デコーダ607の動作原理について、従来技術を参照してもよく、ここでその説明を省略する。
図7は、本発明の実施例の画像圧縮システムの1つの実施例のネットワーク構造の概略図である。図7に示すように、該画像圧縮システムは、画像符号化装置71、画像復号装置72、及び確率モデル生成装置73を含む。画像符号化装置71は、図2の画像符号化装置101に対応し、重み付け層711を追加することで有用な特徴を強化し、あまり有用でない特徴を抑制し、畳み込み層712を用いて特徴マップの数(チャネル数)をNからMに減らすことで、画素数を減らす。確率モデル生成装置73は、図6の確率モデル生成装置102に対応する。ここで、エントロピーモデルのmu部分731は、コンテキストモデルのmu部分732とハイパーデコーダ733の出力と組み合わせて確率モデルのmu部分を生成し、エントロピーモデルのsigma部分734は、コンテキストモデルのsigma部分735とハイパーデコーダ733の出力を組み合わせて確率モデルのsigma部分を生成する。さらに、エントロピーモデルのsigma部分734の前にabs 736を追加し、該abs 736は、コンテキストモデルのsigma部分及びハイパーデコーダの出力の絶対値を求め、エントロピーモデルのsigma部分をより適切に表現する。
本発明の実施例では、図7に示すように、画像圧縮システムは、算術エンコーダ(AE)74及び算術デコーダ(AD)75をさらに含んでもよい。算術エンコーダ74は、確率モデル生成装置73により生成された確率モデルに基づいて、画像符号化装置71の出力を符号化する。算術デコーダ75は、確率モデル生成装置73により生成された確率モデルに基づいて、受信されたコードストリームを復号し、復号されたコードストリームを画像復号装置72に提供する。また、図7に示すように、該画像圧縮システムは、量子化器76をさらに含んでもよい。量子化器76は、画像符号化装置71からの出力に対して量子化処理を行うことで、画像符号化装置71の潜在表現を量子化し、離散ベクトルを生成し、算術エンコーダ74及びコンテキストモデル732、735に提供する。
本発明の実施例では、画像復号装置72は、4つの畳み込み層を用いて、入力された特徴マップに対して逆マッピングを行い、出力画像を取得する。本発明の実施例はこれに限定されず、例えば、画像復号装置72は、より多い畳み込み層又はより少ない畳み込み層を用いて、入力された特徴マップに対して逆マッピングを行ってもよく、その具体的な内容は従来技術を参照してもよく、ここでその説明を省略する。
本発明の実施例の画像圧縮システムは、本発明の実施例の画像符号化装置を用い、重み付け部により異なる特徴マップに1つの重みを乗算して対応する重要度を取得し、重み付け部により処理された特徴マップに対して該第2特徴抽出部により次元削減を行うことで、復号時間を短縮することができるため、潜在変数のボトルネックを低減させることで復号時間を短縮することができる。また、本発明の実施例の画像圧縮システムは、本発明の実施例の確率モデル生成装置を用い、2つの独立したコンテキストモデル処理部及びエントロピーモデル処理部により確率モデルの2つのパラメータmu及びsigmaを取得することで、より正確なエントロピーモデルにより符号化に必要なコードストリームを低減させることができ、独立したエントロピーモデルを用いて確率分布を正確に予測することでコードストリームの要求を低減させることができる。
<実施例2>
本発明の実施例は画像符号化装置を提供する。図2は本発明の実施例の画像符号化装置の概略図であり、図3は本発明の実施例の画像符号化装置の第1特徴抽出部201の1つの実施例のネットワーク構造の概略図であり、図4は本発明の実施例の画像符号化装置の重み付け部202の概略図であり、図5は図4に示す重み付け部202の1つの実施例のネットワーク構造の概略図であり、図7は本発明の実施例の画像符号化装置を示している。実施例1において該画像符号化装置を既に詳細に説明しているため、ここでその内容を援用し、その説明を省略する。
本発明の実施例の画像符号化装置によれば、潜在変数のボトルネックを低減させることで、復号時間を短縮することができる。
<実施例3>
本発明の実施例は確率モデル生成装置を提供する。図6は本発明の実施例の確率モデル生成装置の概略図であり、図7は本発明の実施例の確率モデル生成装置を示している。実施例1において該確率モデル生成装置を既に詳細に説明しているため、ここでその内容を援用し、その説明を省略する。
本発明の実施例の確率モデル生成装置によれば、独立したエントロピーモデルを用いて確率分布を正確に予測することで、コードストリームの要求を低減させることができる。
<実施例4>
本発明の実施例は画像符号化方法を提供する。該方法の問題解決の原理は実施例2の方法と同様であり、既に実施例で説明されているため、その具体的な実施は実施例1及び実施例2の装置の実施を参照してもよく、同様な内容について説明を省略する。
図8は本発明の実施例の画像符号化方法の概略図である。図8に示すように、該画像符号化方法は、以下のステップを含む。
801:入力画像に対して特徴抽出を行い、N個のチャネルの特徴マップを取得する。
802:各チャネルの特徴マップに重みを割り当てる。
803:重みが割り当てられたN個のチャネルの特徴マップに対して次元削減処理を行い、M個のチャネルの特徴マップを取得して出力する。ここで、MはNよりも小さい。
本発明の実施例では、図8の各動作の実施は実施例1における図2の各部の実施を参照してもよく、ここでその説明を省略する。
動作802において、以下の処理を行ってもよい。
大域平均プーリング層を用いて、エンコーダからのN個のチャネルの各チャネルの特徴マップの平均値を求め、各チャネルの特徴マップの統計的特性を取得する。
M×1×1の畳み込み層を用いて、該N個のチャネルの特徴マップに対して次元削減処理を行い、M個のチャネルの特徴マップを取得する。
N×1×1の畳み込み層を用いて、該M個のチャネルの特徴マップに対して次元増加処理を行い、N個のチャネルの特徴マップを取得する。
エンコーダからのN個のチャネルの特徴マップに該N×1×1の畳み込み装置からのN個のチャネルの特徴マップを乗算し、重み付け処理後のN個のチャネルの特徴マップを取得して出力する。
本発明の実施例では、動作802の実施は実施例1における図4及び図5の実施を参照してもよく、ここでその説明を省略する。
本発明の実施例では、大域平均プーリング層を用いてエンコーダからのN個のチャネルの各チャネルの特徴マップの平均値を求める前に、abs関数を用いてエンコーダからのN個のチャネルの特徴マップの絶対値を求めてもよく、ここでabs関数の動作原理についての説明を省略する。
本発明の実施例では、N×1×1の畳み込み層を用いて該M個のチャネルの特徴マップに対して次元増加処理を行う前に、relu関数を用いてM個のチャネルの特徴マップに対して活性化演算を行ってもよく、ここでrelu関数の動作原理についての説明を省略する。
本発明の実施例では、エンコーダからのN個のチャネルの特徴マップに該N×1×1の畳み込み装置からのN個のチャネルの特徴マップを乗算する前に、sigmoid関数を用いて該N個のチャネルの特徴マップを0〜1の範囲内に制限してもよく、ここでsigmoid関数の動作原理についての説明を省略する。
本発明の実施例の画像符号化方法によれば、潜在変数のボトルネックを低減させることで、復号時間を短縮することができる。
<実施例5>
本発明の実施例は確率モデル生成方法を提供する。該方法の問題解決の原理は実施例3の方法と同様であり、既に実施例1で説明されているため、その具体的な実施は実施例1及び実施例3の装置の実施を参照してもよく、同様な内容について説明を省略する。
図9は本発明の実施例の確率モデル生成方法の概略図である。図9に示すように、該確率モデル生成方法は以下のステップを含む。
901:ハイパーデコーダを用いて、エンコーダから受信されたコードストリームに対して復号を行い、補助情報を取得する。
902:コンテキストモデルを用いて該エンコーダの出力を入力とし、内容に基づく予測を取得する。
903:エントロピーモデルを用いて該コンテキストモデルの出力と該ハイパーデコーダの出力とを組み合わせ、予測された確率モデルを取得して該エンコーダ及びデコーダに提供する。
本発明の実施例では、該エントロピーモデルは、コンテキストモデルのmu部分とハイパーデコーダの出力とを組み合わせ、該確率モデルのmu部分を取得し、コンテキストモデルのsigma部分とハイパーデコーダの出力とを組み合わせ、該確率モデルのsigma部分を取得する。
本発明の実施例では、動作901の前に、ハイパーエンコーダを用いてエンコーダの出力をさらに符号化し、算術エンコーダを用いてハイパーエンコーダの出力を算術符号化し、コードストリームを生成して出力し、算術デコーダを用いて、受信されたコードストリームを復号し、該ハイパーデコーダに提供してもよい。
本発明の実施例では、動作903の前に、絶対値関数absを用いてコンテキストモデルのsigma部分の絶対値及びハイパーデコーダの出力の絶対値を求めて、エントロピーモデルに提供してもよい。即ち、エントロピーモデルは、コンテキストモデルのsigma部分の絶対値とハイパーデコーダの出力の絶対値とを組み合わせて、該確率モデルのsigma部分を取得してもよい。
本発明の実施例の確率モデル生成方法によれば、独立したエントロピーモデルを用いて確率分布を正確に予測することで、コードストリームの要求を低減させることができる。
<実施例6>
本発明の実施例は画像処理装置を提供する。該画像処理装置は、実施例1及び2の画像符号化装置又は実施例1及び3の確率モデル生成装置を含み、或いは実施例1及び2の画像符号化装置と実施例1及び3の確率モデル生成装置の両方を含み、或いは実施例1及び3の確率モデル生成装置と実施例1の画像復号装置を含む。
実施例1〜3では画像符号化装置、確率モデル生成装置及び画像復号装置を既に詳細に説明しているため、ここでその内容を援用し、その説明を省略する。
図10は本発明の実施例の画像処理装置の概略図である。図10に示すように、画像処理装置1000は、中央処理装置(CPU)1001及び記憶装置1002を含んでもよく、記憶装置1002は中央処理装置1001に接続される。記憶装置1002は、各種のデータ及び情報処理のプログラムを記憶してもよく、中央処理装置1001の制御により該プログラムを実行する。
1つの態様では、画像符号化装置及び/又は確率モデル生成装置及び/又は画像復号装置の機能は中央処理装置1001に統合されてもよい。ここで、中央処理装置1001は、実施例4及び/又は実施例5に記載された方法を実現するように構成されてもよい。
もう1つの態様では、画像符号化装置及び/又は確率モデル生成装置及び/又は画像復号装置は中央処理装置1001とそれぞれ配置されてもよく、例えば、画像符号化装置及び/又は確率モデル生成装置及び/又は画像復号装置は中央処理装置1001に接続されたチップであり、中央処理装置1001の制御により画像符号化装置及び/又は確率モデル生成装置及び/又は画像復号装置の機能を実現するように構成されてもよい。
また、図10に示すように、画像処理装置は、入力出力(I/O)装置1003及び表示装置1004などをさらに含んでもよい。ここで、上記各部の機能は従来技術と類似し、ここでその説明を省略する。なお、画像処理装置は、図10に示す全ての構成部を含まなくてもよい。また、画像処理装置は、図10に示していない構成部を含んでもよく、従来技術を参考してもよい。
本発明の実施例は、画像処理装置においてプログラムを実行する際に、該画像処理装置に実施例4及び/又は実施例5に記載の方法を実行させる、コンピュータ読み取り可能なプログラムを提供する。
本発明の実施例は、画像処理装置に実施例4及び/又は実施例5に記載の方法を実行させるためのコンピュータ読み取り可能なプログラムを記憶する、記憶媒体をさらに提供する。
本発明の以上の装置及び方法は、ハードウェアにより実現されてもよく、ハードウェアとソフトウェアを結合して実現されてもよい。本発明はコンピュータが読み取り可能なプログラムに関し、該プログラムは論理部により実行される時に、該論理部に上述した装置又は構成要件を実現させる、或いは該論理部に上述した各種の方法又はステップを実現させることができる。本発明は上記のプログラムを記憶するための記憶媒体、例えばハードディスク、磁気ディスク、光ディスク、DVD、フラッシュメモリ等に関する。
本発明の実施例を参照しながら説明した方法/装置は、ハードウェア、プロセッサにより実行されるソフトウェアモジュール、又は両者の組み合わせで実施されてもよい。例えば、図2、図6に示す機能的ブロック図における1つ若しくは複数、又は機能的ブロック図の1つ若しくは複数の組み合わせは、コンピュータプログラムフローの各ソフトウェアモジュールに対応してもよいし、各ハードウェアモジュールに対応してもよい。これらのソフトウェアモジュールは、図8、図9に示す各ステップにそれぞれ対応してもよい。これらのハードウェアモジュールは、例えばフィールド・プログラマブル・ゲートアレイ(FPGA)を用いてこれらのソフトウェアモジュールをハードウェア化して実現されてもよい。
ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、モバイルハードディスク、CD−ROM又は当業者にとって既知の任意の他の形の記憶媒体に位置してもよい。プロセッサが記憶媒体から情報を読み取ったり、記憶媒体に情報を書き込むように該記憶媒体をプロセッサに接続してもよいし、記憶媒体がプロセッサの構成部であってもよい。プロセッサ及び記憶媒体はASICに位置する。該ソフトウェアモジュールは移動端末のメモリに記憶されてもよいし、移動端末に挿入されたメモリカードに記憶されてもよい。例えば、機器(例えば移動端末)が比較的に大きい容量のMEGA−SIMカード又は大容量のフラッシュメモリ装置を用いる場合、該ソフトウェアモジュールは該MEGA−SIMカード又は大容量のフラッシュメモリ装置に記憶されてもよい。
図面に記載されている一つ以上の機能ブロックおよび/または機能ブロックの一つ以上の組合せは、本発明に記載されている機能を実行するための汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲートアレイ(FPGA)又は他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理装置、ディスクリートハードウェアコンポーネント、またはそれらの任意の適切な組み合わせで実現されてもよい。図面に記載されている一つ以上の機能ブロックおよび/または機能ブロックの一つ以上の組合せは、例えば、コンピューティング機器の組み合わせ、例えばDSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、DSP通信と組み合わせた1つ又は複数のマイクロプロセッサ又は他の任意の構成で実現されてもよい。
以上、具体的な実施形態を参照しながら本発明を説明しているが、上記の説明は、例示的なものに過ぎず、本発明の保護の範囲を限定するものではない。本発明の趣旨及び原理を離脱しない限り、本発明に対して各種の変形及び変更を行ってもよく、これらの変形及び変更も本発明の範囲に属する。

Claims (8)

  1. 画像符号化装置であって、
    入力画像に対して特徴抽出を行い、N個のチャネルの特徴マップを取得する第1特徴抽出部と、
    各チャネルの特徴マップに重みを割り当てる重み付け部と、
    前記重み付け部により処理された特徴マップに対して次元削減処理を行い、M個のチャネルの特徴マップを取得して出力する第2特徴抽出部であって、MはNよりも小さい、第2特徴抽出部と、を含む、画像符号化装置。
  2. 前記重み付け部は、
    入力された前記N個のチャネルの各チャネルの特徴マップの平均値を求め、各チャネルの特徴マップの統計的特性を取得するプーリング部と、
    前記プーリング部により処理された特徴マップに対して次元削減処理を行い、M個のチャネルの特徴マップを取得する第3特徴抽出部と、
    前記M個のチャネルの特徴マップに対して次元増加処理を行い、N個のチャネルの特徴マップを取得する第4特徴抽出部と、
    前記第4特徴抽出部により抽出されたN個のチャネルの特徴マップに入力された前記N個のチャネルの特徴マップを乗算し、重み付け処理後のN個のチャネルの特徴マップを取得して前記第2特徴抽出部に出力する第1計算部と、を含む、請求項1に記載の画像符号化装置。
  3. 前記重み付け部は、
    前記プーリング部の前に位置し、入力された前記N個のチャネルの特徴マップの絶対値を求め、前記プーリング部に出力する第2計算部と、
    前記第3特徴抽出部と前記第4特徴抽出部との間に位置し、前記M個のチャネルの特徴マップに対して活性化演算を行う第3計算部と、
    前記第4特徴抽出部と前記第1計算部との間に位置し、前記N個のチャネルの特徴マップを0〜1の範囲内に制限する第4計算部と、をさらに含む、請求項2に記載の画像符号化装置。
  4. 確率モデル生成装置であって、
    ハイパーエンコーダから受信されたコードストリームに対してハイパー復号を行い、補助情報を取得するハイパーデコーダと、
    エンコーダの出力を入力とし、内容に基づく予測を取得するコンテキストモデル処理部と、
    前記コンテキストモデル処理部の出力と前記ハイパーデコーダの出力とを組み合わせ、予測された確率モデルを取得して前記エンコーダ及びデコーダに提供するエントロピーモデル処理部と、を含み、
    前記コンテキストモデル処理部は、
    前記エンコーダの出力に基づいて、前記内容に基づく予測の予測結果の平均値部分を取得する第1処理部と、
    前記エンコーダの出力に基づいて、前記内容に基づく予測の予測結果の分散部分を取得する第2処理部と、を含み、
    前記エントロピーモデル処理部は、
    前記第1処理部により取得された前記予測結果の平均値部分と前記ハイパーデコーダにより出力された補助情報とを組み合わせ、前記予測された確率モデルの平均値部分を取得する第3処理部と、
    前記第2処理部により取得された前記予測結果の分散部分と前記ハイパーデコーダにより出力された補助情報とを組み合わせ、前記予測された確率モデルの分散部分を取得する第4処理部と、を含む、装置。
  5. 前記エンコーダの出力を符号化するハイパーエンコーダと、
    前記ハイパーエンコーダの出力に対して量子化処理を行い、離散値ベクトルを生成する量子化器と、
    前記量子化器の出力を算術符号化し、コードストリームを生成して出力する算術エンコーダと、
    受信されたコードストリームを復号し、前記ハイパーデコーダに出力する算術デコーダと、をさらに含む、請求項4に記載の装置。
  6. 前記第2処理部により取得された予測結果の分散部分の絶対値を求めて前記第4処理部に提供し、前記ハイパーデコーダの出力の絶対値を求めて前記第4処理部に提供する計算部、をさらに含む、請求項4又は5に記載の装置。
  7. 画像圧縮システムであって、
    入力画像をダウンサンプリングし、前記入力画像を潜在表現に変換する画像符号化装置と、
    前記潜在表現の確率分布を予測し、前記潜在表現の確率モデルを取得する確率モデル生成装置と、
    前記確率モデルに基づいて、復号により取得された潜在表現をアップサンプリングし、潜在表現を前記入力画像にマッピングして戻す画像復号装置と、を含み、
    前記画像符号化装置は、請求項1乃至3の何れかに記載の装置を含み、或いは、
    前記確率モデル生成装置は、請求項4乃至6の何れかに記載の装置を含む、システム。
  8. 前記画像符号化装置の出力に対して量子化処理を行い、離散値ベクトルを生成する量子化器と、
    前記確率モデル生成装置により生成された確率モデルに基づいて、前記量子化器の出力を符号化し、コードストリームを生成して出力する算術エンコーダと、
    前記確率モデル生成装置により生成された確率モデルに基づいて、受信されたコードストリームを復号し、前記画像復号装置に提供する算術デコーダと、をさらに含む、請求項7に記載のシステム。
JP2020083134A 2019-05-22 2020-05-11 画像符号化装置、確率モデル生成装置及び画像圧縮システム Pending JP2020191631A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910429115.5 2019-05-22
CN201910429115.5A CN111986278B (zh) 2019-05-22 2019-05-22 图像编码装置、概率模型生成装置和图像压缩系统

Publications (1)

Publication Number Publication Date
JP2020191631A true JP2020191631A (ja) 2020-11-26

Family

ID=73435946

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020083134A Pending JP2020191631A (ja) 2019-05-22 2020-05-11 画像符号化装置、確率モデル生成装置及び画像圧縮システム

Country Status (3)

Country Link
US (1) US11257252B2 (ja)
JP (1) JP2020191631A (ja)
CN (1) CN111986278B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022130496A1 (ja) * 2020-12-15 2022-06-23 富士通株式会社 画像処理装置、画像処理方法及び画像処理プログラム
JP7476631B2 (ja) 2019-05-22 2024-05-01 富士通株式会社 画像コーディング方法及び装置並びに画像デコーディング方法及び装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11538197B2 (en) * 2020-09-15 2022-12-27 Google Llc Channel-wise autoregressive entropy models for image compression
US20220147818A1 (en) * 2020-11-11 2022-05-12 Microsoft Technology Licensing, Llc Auxiliary model for predicting new model parameters
CN113657468A (zh) * 2021-07-29 2021-11-16 北京百度网讯科技有限公司 预训练模型的生成方法、装置、电子设备和存储介质
CN113642587A (zh) * 2021-08-09 2021-11-12 京东鲲鹏(江苏)科技有限公司 特征图的处理方法及装置
CN116170596A (zh) * 2021-11-24 2023-05-26 华为技术有限公司 编解码方法及电子设备
CN114663536B (zh) * 2022-02-08 2022-12-06 中国科学院自动化研究所 一种图像压缩方法及装置
CN114501011B (zh) * 2022-02-22 2023-04-21 北京市商汤科技开发有限公司 图像压缩方法、图像解压缩方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100419783C (zh) 2006-10-09 2008-09-17 武汉大学 一种遥感图像空间形状特征提取与分类方法
WO2012090181A1 (en) * 2010-12-29 2012-07-05 Nokia Corporation Depth map coding
CN107251053B (zh) * 2015-02-13 2018-08-28 北京市商汤科技开发有限公司 一种降低有损压缩图像的压缩失真的方法及装置
US20190205758A1 (en) * 2016-12-30 2019-07-04 Konica Minolta Laboratory U.S.A., Inc. Gland segmentation with deeply-supervised multi-level deconvolution networks
KR102301232B1 (ko) * 2017-05-31 2021-09-10 삼성전자주식회사 다채널 특징맵 영상을 처리하는 방법 및 장치
EP3432263B1 (en) 2017-07-17 2020-09-16 Siemens Healthcare GmbH Semantic segmentation for cancer detection in digital breast tomosynthesis
US10643306B2 (en) * 2017-10-11 2020-05-05 Qualcomm Incoporated Image signal processor for processing images
US10614574B2 (en) * 2017-10-16 2020-04-07 Adobe Inc. Generating image segmentation data using a multi-branch neural network
US10671855B2 (en) * 2018-04-10 2020-06-02 Adobe Inc. Video object segmentation by reference-guided mask propagation
CN108846355B (zh) 2018-06-11 2020-04-28 腾讯科技(深圳)有限公司 图像处理方法、人脸识别方法、装置和计算机设备
CN108875624B (zh) 2018-06-13 2022-03-25 华南理工大学 基于多尺度的级联稠密连接神经网络的人脸检测方法
US10977530B2 (en) * 2019-01-03 2021-04-13 Beijing Jingdong Shangke Information Technology Co., Ltd. ThunderNet: a turbo unified network for real-time semantic segmentation

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7476631B2 (ja) 2019-05-22 2024-05-01 富士通株式会社 画像コーディング方法及び装置並びに画像デコーディング方法及び装置
WO2022130496A1 (ja) * 2020-12-15 2022-06-23 富士通株式会社 画像処理装置、画像処理方法及び画像処理プログラム

Also Published As

Publication number Publication date
CN111986278A (zh) 2020-11-24
US11257252B2 (en) 2022-02-22
US20200372684A1 (en) 2020-11-26
CN111986278B (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
JP2020191631A (ja) 画像符号化装置、確率モデル生成装置及び画像圧縮システム
Hu et al. Learning end-to-end lossy image compression: A benchmark
CN113424547B (zh) 点云属性编解码的方法和装置
CN111988609B (zh) 图像编码装置、概率模型生成装置和图像解码装置
JP7225333B2 (ja) ニューラルネットワークを使用するタイル型画像圧縮
JP2020173782A (ja) 画像エンコーディング方法及び装置並びに画像デコーディング方法及び装置
JP7379524B2 (ja) ニューラルネットワークモデルの圧縮/解凍のための方法および装置
CN113795870B (zh) 一种对点云属性编解码的方法、装置及存储介质
WO2022028197A1 (zh) 一种图像处理方法及其设备
Wang et al. Stochastic circuit design and performance evaluation of vector quantization for different error measures
CN114116635A (zh) 压缩数据流的并行解压缩
CN113705575B (zh) 一种图像分割方法、装置、设备及存储介质
CN114501031B (zh) 一种压缩编码、解压缩方法以及装置
Choi et al. Squeezing large-scale diffusion models for mobile
CN112101511A (zh) 稀疏卷积神经网络
CN109635238A (zh) 矩阵运算方法、装置、设备及可读介质
KR20240025629A (ko) 광학 흐름를 이용한 비디오 압축
CN113115019A (zh) 视频编解码方法、装置、计算机设备及存储介质
Shipton et al. Implementing WaveNet Using Intel® Stratix® 10 NX FPGA for Real-Time Speech Synthesis
CN112188216B (zh) 视频数据的编码方法、装置、计算机设备及存储介质
CN116934883A (zh) 针对目标序列进行模态转换的方法及装置
KR20230158597A (ko) 신경 이미지 압축에서의 온라인 트레이닝 기반 인코더 튜닝
CN107079153B (zh) 编码方法、装置、系统以及存储介质
KR20240124304A (ko) 포인트 클라우드 압축을 위한 하이브리드 프레임워크
KR20230162061A (ko) 압축 도메인에서의 컴퓨터 비전 작업 신경망들의 멀티-레이트

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240306

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240416

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240614