JP4701448B2 - Region of interest encoding method - Google Patents
Region of interest encoding method Download PDFInfo
- Publication number
- JP4701448B2 JP4701448B2 JP2000283259A JP2000283259A JP4701448B2 JP 4701448 B2 JP4701448 B2 JP 4701448B2 JP 2000283259 A JP2000283259 A JP 2000283259A JP 2000283259 A JP2000283259 A JP 2000283259A JP 4701448 B2 JP4701448 B2 JP 4701448B2
- Authority
- JP
- Japan
- Prior art keywords
- mask
- wavelet
- roi
- region
- original image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
- Compression Of Band Width Or Redundancy In Fax (AREA)
Description
【0001】
【発明の属する技術分野】
この発明は、画像全体中の人物や物体などの特定の関心領域に対し優先的に符号化のビットレートを割り振ることにより、その関心領域の画質を他領域に比較して高く保持する関心領域符号化方法に関する。
【0002】
【従来の技術】
画像を効率的に符号化する方法として、画像全体中の人物や物体などの特定の関心領域に対し優先的に符号化のビットレートを割り振ることにより、その関心領域の画質を他領域に比較して高く保持する、ROI(Region of Interest:関心領域)と背景などの重要でない情報の非ROIに分ける方法がある。
【0003】
この方式の代表例としては、Maxshift法(第一従来例)とビットプレーン法としてのEBCOT(Embedded Block Coding with Optimized Truncation:第二従来例)とがある。
【0004】
Maxshift法(第一従来例)は、ROI部分を任意の形で指定し、その部分を可逆圧縮する一方、非ROI部分を非可逆圧縮するものである。具体的には、まず原画像に対して既知のウェーブレット変換を行って図13のようなウェーブレット係数の分布を得た後、これらの分布の中で、非ROI部分に想到する係数分布の最も大きなウェーブレット係数の値Vmを求めておく。そして、S>=max(Vm)となるようなビット数Sを求め、ROI部分Ar1のウェーブレット係数のみを図14のように増大する方向へSビットだけシフトさせる。例えば、Vmの値が十進数で「255」(即ち、二進数で「11111111」)である場合には、S=8ビットであり、またVmの値が十進数で「128」(即ち、二進数で「10000000」)である場合にも同様にS=8ビットであるため、この場合にはROI部分Ar1のウェーブレット係数を図14のように増大する方向へS=8ビットだけシフトさせることになる。これにより、ROI部分Ar1については非ROI部分に比べて圧縮率を低く設定でき、これによりROI部分Ar1について可逆圧縮の圧縮データを得ることが可能となる。この方法によれば、復号化側において、事前にROI部分の形状等の定義情報を入手する必要がなく、そのまま復号化するだけでROI部分の可逆的な復号を行うことができるので便利である。
【0005】
また、ビットプレーン法のEBCOT(第二従来例)は、図15の如く、画像を複数の矩形ブロックBに分けて、その矩形ブロックBごとにビットレートの優先度をつけて圧縮するものである。したがって、EBCOTによれば、一部の矩形ブロックBについて、他の矩形ブロックBよりもビットレートの高い画像圧縮を行うことができる。
【0006】
【発明が解決しようとする課題】
Maxshift法(第一従来例)では、ROI部分において可逆圧縮を行っていたため、その部分の圧縮率に一定の限界があり、圧縮された画像ファイルのサイズは全体として比較的大きいものとならざるを得なかった。逆に、Maxshift法において圧縮率を高めて圧縮された画像ファイルのサイズを小さくするためには、非ROI部分のビットレートを大幅に下げなければならず、よって非ROI部分の画質がROI部分の画質に比べて極めて劣悪なものとなってしまう。
【0007】
一方、EBCOTでは、矩形ブロックB毎にビットレートを変化させているため、復号化側に事前にブロックの座標及び大きさや境界等の定義情報が必要である。
【0008】
また、EBCOTでは、矩形ブロックBとしてしかROI部分を指定していなかったため、任意の形状のROI部分を定義することができず、例えば背景の中の人物の顔のみのビットレートを増大させたい場合などには、その処理が極めて困難にならざるを得ないこととなる。
【0009】
そこで、この発明の課題は、任意の形状のROI部分を非可逆圧縮することにより画像を効率的に符号化することができるとともに、復号化側において事前にROI部分の形状や大きさ等の定義情報を入手する必要のない関心領域符号化方法を提供することにある。
【0010】
【課題を解決するための手段】
上記課題を解決すべく、請求項1に記載の発明は、原画像をウェーブレット変換する第一工程と、前記原画像に対して指定された任意の形状の複数のマスク領域を、前記ウェーブレット変換に対応するウェーブレット平面に展開してマスク信号を生成する第二工程と、前記複数のマスク領域及び当該複数のマスク領域以外の非マスク領域に対して圧縮する際の符号量をそれぞれ割り当てる第三工程と、前記第三工程で割り当てられた符号量に応じて量子化及び符号化を行う第四工程とを備え、前記第二工程は、ウェーブレット平面に展開された異なるマスク領域に関する部分同士が重なるときは、重なる部分を優先順位の高いマスク領域に関する部分としてマスク信号を生成し、前記第四工程は、前記複数のマスク領域及び前記非マスク領域に個別に前記量子化及び前記符号化を行い、それぞれの圧縮データを生成するものである。
【0012】
請求項2に記載の発明は、請求項1に記載の関心領域符号化方法であって、前記第四工程は、前記第一工程においてウェーブレット変換された原画像のウェーブレット係数を前記マスク信号に対応付けて取り出した複数のマスク領域に関する各ウェーブレット係数と、非マスク領域に関するウェーブレット係数とに量子化及び符号化を行うものである。
【0014】
【発明の実施の形態】
図1はこの発明の一の実施の形態に係る関心領域符号化方法を示すフローチャートである。このフローチャートに沿って、この関心領域符号化方法を説明する。
【0015】
<圧縮方法>
画像の圧縮は、図1中の圧縮装置Co側のフローで実行される。
【0016】
圧縮装置Coでは、図1の如く、まず原画像であるディジタル式の画像データ1に対してウェーブレット変換を行う。ウェーブレット変換とは、2分割フィルタバンクを使用してローパス側とハイパス側に画像を分けて符号化圧縮を行う変換方法である。ここで、ウェーブレット変換の代表的な方式としては、ウェーブレットパケット木の形態の相違によって、図2及び図3に示したmallat型と、図4及び図5に示したspacle型と、図6及び図7に示したpacket型といった複数の種類に区別される。ここでは、これらの中からひとつを選んでウェーブレット変換を行う。尚、図2、図4及び図6は一次元での、図3、図5及び図7は二次元での、それぞれウェーブレット変換の態様を示している。ただし、ウェーブレット変換の展開階層は各図に示した階層数に限定されず任意である。
【0017】
ここで、図2及び図3に示したmallat型は、低い周波数成分(ローパス成分:図2中の相対的に小さなブロックで示した画像及び図3中の「L」で示したパス参照)が高い周波数成分(ハイパス成分:図2中の相対的に大きなブロックで示した画像及び図3中の「H」で示したパス参照)より多くの情報を含んでいるという仮定の下に低域通過フィルタのみを繰り返す方式のものである。これに対して、ウェーブレットパケット基底が任意の2進木構造に対応できることから、図4及び図5に示したspacle型では、低い周波数成分(ローパス成分:図4中の相対的に小さなブロックで示した画像及び図5中の「L」で示したパス参照)だけでなく、高い周波数成分(ハイパス成分:図4中の最大ブロックで示した画像及び図5中の最初の分岐で「H」で示したパス参照)においても、さらに低い周波数成分(ローパス成分:「L」)と高い周波数成分(ハイパス成分:「H」)とに1段だけ展開している。また、図6及び図7に示したpacket型では、短時間フーリエ変換のように、全ての枝において周波数成分(ローパス成分:「L」)と高い周波数成分(ハイパス成分:「H」)に展開して完全木構成を採用している。ここでは、これらのいずれの型を選択するかは、コストと容量に基づいて決められたレートを制約とし、復元歪みを最小にする型を選択する。
【0018】
次に、圧縮装置Coにおいて、ウェーブレット変換された画像データ2に対して、重要な部分をROI部分として指定するためのマスク信号3を与える。例えば、図8のような人物の画像データ(原画像)1において、額より下の顔部分のみをROI部分とする場合、図9の白抜き部分に示すように単一のマスク領域4を設定し、これをROI部分として指定する。このマスク領域4は、原画像1をディスプレイ装置の画面で見ながら、所謂マウス等のポインティング入力デバイスを用いて原画像1に対応して指定することができる。
【0019】
尚、図9は、原画像1に対して単一のROI部分を指定した例であるが、複数の領域をROI部分として指定してもよい。これらは、それぞれ異なったマスク信号3により規定される。尚、全てのROI部分についての全てのマスク領域4を除去した残りの部分が非ROI部分5(図9)となる。
【0020】
次に、図1のように複数のマスク信号3が与えられた場合には、その複数のマスク信号3に対して優先順位をつける。この優先順位が高いほど、情報量、例えばビットレートが高くなり、伸張時の損失が少なくなることになる。この際の優先順位としては、「1」「2」…というように数字の昇順で指定を行う。
【0021】
そして、上述のように選択された型(mallat型/spacle型/packet型)のウェーブレット変換に対応して、マスク領域4をウェーブレット平面に展開してマスク信号3を生成する。
【0022】
ここで、マスク信号をウェーブレット平面に相当する部分に変換する方法はウェーブレット変換のフィルタのタップ数に依存する。
【0023】
例えば、図11のようにウェーブレット変換の演算処理においてリバーシブル(Reversible)5×3フィルタ(分解側のローパスフィルタのタップ数が5タップで分解側のハイパスフィルタのタップ数が3タップであるフィルタ)を適用するものとすると、原画像1の偶数番目(2n番目)の画素データがROI部分として指定されている場合には、ローパスフィルタ(低域側)7のn番目のデータと、ハイパスフィルタ(高域側)8の(n−1)番目及びn番目のデータとがROI部分であるものとして、マスク信号をウェーブレット平面に展開する。また、原画像1の奇数番目(2n+1番目)の画素データがROI部分として指定されている場合には、ローパスフィルタ(低域側)7のn番目及び(n+1)番目のデータと、ハイパスフィルタ(高域側)8の(n−1)番目、n番目及び(n+1)番目のデータとがROI部分であるものとして、マスク信号をウェーブレット平面に展開する。尚、図11は原画像1と最初の階層のウェーブレット平面との対応関係のみを示しているが、より深い階層の展開についても同様の再帰的な展開が行われる。
【0024】
あるいは、例えば、図12のようにウェーブレット変換の演算処理においてドビュッシー(Daubechies)9×7フィルタ(分解側のローパスフィルタのタップ数が9タップで分解側のハイパスフィルタのタップ数が7タップであるフィルタ)を適用するものとすると、原画像1の偶数番目(2n番目)の画素データがROI部分として指定されている場合には、ローパスフィルタ(低域側)7の(n−1)番目、n番目及び(n+1)番目のデータと、ハイパスフィルタ(高域側)8の(n−2)番目、(n−1)番目、n番目及び(n+1)番目のデータとがROI部分であるものとして、マスク信号をウェーブレット平面に展開する。また、原画像1の奇数番目(2n+1番目)の画素データがROI部分として指定されている場合には、ローパスフィルタ(低域側)7の(n−1)番目、n番目、(n+1)番目及び(n+2)番目のデータと、ハイパスフィルタ(高域側)8の(n−2)番目、(n−1)番目、n番目、(n+1)番目及び(n+2)番目のデータとがROI部分であるものとして、マスク信号をウェーブレット平面に展開する。尚、図12は原画像1と最初の階層のウェーブレット平面との対応関係のみを示しているが、より深い階層の展開についても同様の再帰的な展開が行われる。
【0025】
尚、ローパスフィルタ(低域側)7及びハイパスフィルタ(高域側)8において、図11及び図12の対応関係について、原画像1の或る画素データとの対応により非ROI部分と、且つ原画像1の他の画素データとの対応によりROI部分とが重なり合う部分は、ROI部分であるものとして、マスク信号をウェーブレット平面に展開する。
【0026】
図10中の白抜き部分4aは、上記のようにしてマスク領域(ROI部分)4をmallat型のウェーブレット平面に展開した領域(以下「展開マスク領域」と称す)4であり、この展開マスク領域4aに対応したマスク信号3が生成され、ウェーブレット変換された画像データ2に与えられる。図10中の符号5aは非ROI部分5がウェーブレット平面に展開された領域(以下「展開非マスク領域」と称す)を示している。そして、マスク領域(ROI部分)4同士が重なり合う部分及びマスク領域(ROI部分)4と非ROI部分5とが重なり合う部分では、いずれか優先順位の高い方をマスク領域(ROI部分)4とする一方、低い方を非ROI部分5として処理する。
【0027】
そして、図1において、ウェーブレット変換された画像データ2のウェーブレット係数を、それぞれのマスク信号3に対応付けして取り出していく。
【0028】
次に、図10のようにウェーブレット平面上に展開された各マスク領域4aに対して優先順位をつける。尚、上述のように、原画像1に対して複数のROI部分4を設定している場合は、この複数のROI部分4毎にウェーブレット平面上に展開された数の展開マスク領域4aに対して、互いに対応する各マスク領域4aに対して同等の優先順位をつけ、最終的に全ての展開マスク領域4aに優先順位を設定する。
【0029】
ここで、原画像1に対して複数のROI部分4を設定している場合において、ウェーブレット平面上のローパスフィルタ(低域側)7を通過した部分については、複数の展開マスク領域4aが重なり合うことがあり得る。この場合は、その重なり合った部分について、重なり合った複数の展開マスク領域4aのうち優先順位の高い方の展開マスク領域4aであるとして優先順位を決定する。
【0030】
そして、ウェーブレット変換された画像データ2において、どのマスク信号にもかからなかった展開非マスク領域5aのウェーブレット係数を取り出す。この場合、展開非マスク領域5aの優先順位は、全ての展開マスク領域4aよりも低くなり(即ち、数字の昇順で大きな数字が付与される)、そのウェーブレット係数としては例えば「0」の値が採用される。
【0031】
このようにして、複数のROI部分6a,6bのウェーブレット係数が出力される。尚、このROI部分6a,6b…及び展開非マスク領域5aのウェーブレット係数の出力データを、以下に「ROI信号」と称することにする。
【0032】
次に、先に設定した優先順位に応じて、ROI部分6a,6bと展開非マスク領域5aにそれぞれビット量を割り当てる。
【0033】
この際のビット量の割り当て方法としては、ROI部分6a,6bの情報量、例えばビット量が可逆圧縮に必要なビット量に満たない値に設定される。具体的に、例えば、まず、画像全体の圧縮率ビット量を決定し、その内、各ROI部分6a,6b…の優先順位の高いものから順番に所定の割合のビット量を順次割り当て、残りのビット量を展開非マスク領域5aに割り当てる第1の方法と、各ROI部分6a,6b…と展開非マスク領域5aの優先順位に応じて所定の割合で直接ビット量を決定する第2の方法とがあるが、いずれの方法を予め選択しておき、その選択された方法に従って各ROI部分6a,6b…及び展開非マスク領域5aのビット量を決定する。この際、上述のように、ROI部分6a,6bのビット量が可逆圧縮に必要なビット量に満たない値に設定される。尚、ROI部分6a,6bのビット量を、可逆圧縮に必要なビット量以上に割り当てるモードと、可逆圧縮に必要なビット量に満たない値に設定するモードとを選択できるようにしてもよい。
【0034】
そして、各ROI部分6a,6b…及び展開非マスク領域5aのROI信号に対して量子化処理を行い、それぞれ2値化されたデータ10a,10b…10zを生成する。尚、この量子化処理の方法としては、EBCOTやSPIHT(Image Compression with Set Partitioning in Hierarchical Trees)等のビットプレーン符号化法と同様の方法で2値化してもよい。
【0035】
そして、それぞれの2値化されたデータ10a,10b…10zに対して、MQコーダーやQMコーダーなどの算術符号化やハフマン符号化等の所定の方式を用いてエントロピー符号化を行う。
【0036】
このようにすることで、各ROI部分6a,6b…及び展開非マスク領域5a毎の圧縮データ11a,11b…11zが生成される。
【0037】
そして、各圧縮データ11a,11b…11zを、その優先順位に応じて順番に並べて、例えば所定の経路に送出し、あるいはハードディスクドライブ等の所定の記録媒体に記録する。
【0038】
<復号方法>
画像の復号は、図1中の伸張装置Ex側のフローで実行される。
【0039】
伸張装置Exでは、図1の如く、各圧縮データ11a,11b…11zを所定の方式に従ってエントロピー復号化し、順次に並べられた順番(即ち、ビットレートの優先順位の高い順番)で、2値化されたデータ21a,21b…21zを生成する。
【0040】
次に、それぞれの2値化されたデータ21a,21b…21zを逆量子化(多値化)して、複数のROI信号22a,22b…22zを生成する。この際、順次に並べられた順番(即ち、ビットレートの優先順位の高い順番)で、逆量子化(多値化)を行い、複数のROI信号22a,22b…22zをビットレートの優先順位の高い順番で生成する。
【0041】
そして、ウェーブレット平面において、各ROI信号22a,22b…22zを優先順位に応じて、ウェーブレット変換されたウェーブレット係数を合成する。このとき、各ROI信号22a,22b…22zの優先順位は、データが送られて来た順番(即ち、データの並んでいる順番)であるため、与えられた順番に従って順次ウェーブレット係数を合成し、ウェーブレット変換された画像データ23を形成する。尚、複数のROI信号22a,22b…22zの間で重なり合う部分が発生している場合には、優先順位の高い方を選択する。尚、非ROI部分5のウェーブレット係数を「0」の値に設定していた場合は、各ROI部分6a,6b…及び非ROI部分5に対応するROI信号22a,22b…22zの値を加算するだけでよい。
【0042】
最後に、ウェーブレット変換の型(mallat型/spacle型/packet型)に対応して、逆ウェーブレット変換を行なって画像データ24を復元する。
【0043】
以上のように、ウェーブレット平面に相当する部分に変換された任意の形状のROI部分6a,6b…に対して非可逆圧縮を行っているので、可逆圧縮を行っていたMaxshift法(第一従来例)に比べて、圧縮後の画像ファイルのサイズを全体として小さくできる。また、EBCOT(第二従来例)に比べて、任意の形状のROI部分6a,6b…を指定でき、例えば背景の中の人物の顔のみのビットレートを増大させたい場合などにおいて、その処理が容易になる。
【0044】
【発明の効果】
本発明によれば、EBCOT(第二従来例)に比べて、任意の形状のROI部分を指定でき、例えば背景の中の人物の顔のみのビットレートを増大させたい場合などにおいて、その処理が容易になる。
【0045】
また、本発明によれば、複数の任意の形状のマスク領域を指定した場合にも、それぞれのマスク領域に対して容易に非可逆圧縮を行うことができる。この場合、それぞれのマスク領域に対して個別に符号量を割り当てることで、割り当て符号量の自由な設定が可能となるという効果がある。
【図面の簡単な説明】
【図1】この発明の一の実施の形態に係る関心領域符号化方法を示すフローチャートである。
【図2】mallat型のウェーブレットパケット木を示す図である。
【図3】mallat型のウェーブレット平面を示す図である。
【図4】spacle型のウェーブレットパケット木を示す図である。
【図5】spacle型のウェーブレット平面を示す図である。
【図6】packet型のウェーブレットパケット木を示す図である。
【図7】packet型のウェーブレット平面を示す図である。
【図8】原画像の例を示す図である。
【図9】図8の原画像に対して設定された単一のマスク領域を示す図である。
【図10】図9のマスク領域をmallat型のウェーブレット平面に展開した状態を示す図である。
【図11】逆ウェーブレット5×3フィルタにおける低域側及び高域側と入力側との間のマスク領域の対応関係を示す図である。
【図12】逆ウェーブレット9×7フィルタにおける低域側及び高域側と入力側との間のマスク領域の対応関係を示す図である。
【図13】原画像に対して既知のウェーブレット変換を行った後のウェーブレット係数の分布を示す図である。
【図14】第一従来例におけるウェーブレット係数の分布を示す図である。
【図15】第二従来例のEBCOTの概念を説明する図である。
【符号の説明】
1 画像データ(原画像)
10a〜10z 2値化されたデータ
11a〜11z 圧縮データ
2 ウェーブレット変換された画像データ
21a〜21z 2値化されたデータ
22a〜22z ROI信号
3 マスク信号
4,4a マスク領域
5,5a 非ROI部分
6a,6b… ROI部分
Co 圧縮装置
Ex 伸張装置[0001]
BACKGROUND OF THE INVENTION
The present invention assigns a coding bit rate to a specific region of interest such as a person or an object in the entire image, thereby maintaining the image quality of the region of interest higher than that of other regions. It relates to the conversion method.
[0002]
[Prior art]
As a method of efficiently encoding an image, the image quality of the region of interest is compared with other regions by preferentially allocating the encoding bit rate to a specific region of interest such as a person or object in the entire image. There is a method of dividing the ROI (Region of Interest) and the non-ROI of unimportant information such as the background.
[0003]
Typical examples of this method include a Maxshift method (first conventional example) and an EBCOT (Embedded Block Coding with Optimized Truncation) as a bit plane method.
[0004]
The Maxshift method (first conventional example) designates an ROI part in an arbitrary form, and reversibly compresses the part while irreversibly compresses the non-ROI part. Specifically, first, a known wavelet transform is performed on the original image to obtain the distribution of wavelet coefficients as shown in FIG. 13, and among these distributions, the largest coefficient distribution is conceived for the non-ROI portion. The value Vm of the wavelet coefficient is obtained in advance. Then, the number of bits S such that S> = max (Vm) is obtained, and only the wavelet coefficient of the ROI part Ar1 is shifted by S bits in the increasing direction as shown in FIG. For example, if the value of Vm is “255” in decimal (ie, “11111111” in binary), S = 8 bits, and the value of Vm is “128” in decimal (ie, binary). Similarly, in the case of “10000000”), S = 8 bits. In this case, the wavelet coefficient of the ROI part Ar1 is shifted by S = 8 bits in the increasing direction as shown in FIG. Become. As a result, the ROI portion Ar1 can be set to a lower compression rate than the non-ROI portion, and thus it is possible to obtain lossless compressed data for the ROI portion Ar1. According to this method, there is no need to obtain definition information such as the shape of the ROI portion in advance on the decoding side, and it is convenient because reversible decoding of the ROI portion can be performed simply by decoding as it is. .
[0005]
The bit plane EBCOT (second conventional example) divides an image into a plurality of rectangular blocks B as shown in FIG. 15, and compresses each rectangular block B with a priority of the bit rate. . Therefore, according to EBCOT, image compression with a bit rate higher than that of other rectangular blocks B can be performed for some rectangular blocks B.
[0006]
[Problems to be solved by the invention]
In the Maxshift method (first conventional example), the lossless compression is performed in the ROI part, so there is a certain limit in the compression rate of the part, and the size of the compressed image file must be relatively large as a whole. I didn't get it. Conversely, in order to reduce the size of the image file compressed by increasing the compression rate in the Maxshift method, the bit rate of the non-ROI portion must be greatly reduced, and therefore the image quality of the non-ROI portion is the same as that of the ROI portion. It will be extremely poor compared to the image quality.
[0007]
On the other hand, in EBCOT, since the bit rate is changed for each rectangular block B, definition information such as the coordinates, size, and boundary of the block is required in advance on the decoding side.
[0008]
Also, in EBCOT, the ROI part was specified only as the rectangular block B, so it is not possible to define the ROI part of an arbitrary shape. For example, when it is desired to increase the bit rate of only the human face in the background In such a case, the processing becomes extremely difficult.
[0009]
Therefore, an object of the present invention is to efficiently encode an image by irreversibly compressing an ROI portion having an arbitrary shape, and defining the shape and size of the ROI portion in advance on the decoding side. It is an object of the present invention to provide a region-of-interest encoding method that does not require information.
[0010]
[Means for Solving the Problems]
In order to solve the above problems, a first aspect of the present invention, a first step of the wavelet transform of the original image, a plurality of mask areas of any shape specified for the original image, the wavelet transform A second step of generating a mask signal by developing on a corresponding wavelet plane, and a third step of assigning a code amount for compression to the plurality of mask regions and a non-mask region other than the plurality of mask regions, respectively A fourth step of performing quantization and encoding according to the code amount allocated in the third step, and when the second step overlaps portions related to different mask regions developed in the wavelet plane , the overlapped part to generate a masked signal as a part related to high priority mask area, the fourth step, the plurality of mask areas and the unmasked region Performed individually the quantization and the encoding, and generates a respective compressed data.
[0012]
The invention according to
[0014]
DETAILED DESCRIPTION OF THE INVENTION
FIG. 1 is a flowchart showing a region of interest encoding method according to one embodiment of the present invention. This region-of-interest encoding method will be described along this flowchart.
[0015]
<Compression method>
The image compression is executed according to the flow on the compression device Co side in FIG.
[0016]
As shown in FIG. 1, the compression apparatus Co first performs wavelet transform on
[0017]
Here, the mallat type shown in FIG. 2 and FIG. 3 has a low frequency component (low-pass component: refer to an image shown by a relatively small block in FIG. 2 and a path shown by “L” in FIG. 3). Low pass under the assumption that it contains more information than high frequency components (high pass component: see image shown in relatively large blocks in FIG. 2 and path shown as “H” in FIG. 3) This is a system that repeats only the filter. On the other hand, since the wavelet packet base can correspond to an arbitrary binary tree structure, in the scale type shown in FIGS. 4 and 5, a low frequency component (low-pass component: indicated by a relatively small block in FIG. 4). In addition to the image and the path indicated by “L” in FIG. 5, high frequency components (high pass component: the image indicated by the largest block in FIG. 4 and “H” in the first branch in FIG. 5) Also in the path shown), only one stage is developed for a lower frequency component (low-pass component: “L”) and a higher frequency component (high-pass component: “H”). Further, in the packet type shown in FIGS. 6 and 7, the frequency component (low-pass component: “L”) and the high frequency component (high-pass component: “H”) are developed in all branches as in the short-time Fourier transform. And adopts a complete tree structure. Here, which of these types is selected is based on a rate determined based on cost and capacity, and a type that minimizes the restoration distortion is selected.
[0018]
Next, in the compression apparatus Co, a
[0019]
Although FIG. 9 shows an example in which a single ROI portion is specified for the
[0020]
Next, when a plurality of
[0021]
Then, corresponding to the wavelet transform of the type selected as described above (mallat type / scale type / packet type), the
[0022]
Here, the method of converting the mask signal into a portion corresponding to the wavelet plane depends on the number of taps of the wavelet transform filter.
[0023]
For example, as shown in FIG. 11, a reversible 5 × 3 filter (a filter in which the number of taps on the decomposition-side low-pass filter is 5 taps and the number of taps on the decomposition-side high-pass filter is 3 taps) in the wavelet transform arithmetic processing is used. Assuming that the even-numbered (2n-th) pixel data of the
[0024]
Or, for example, as shown in FIG. 12, in the wavelet transform calculation process, a Deubechies 9 × 7 filter (the number of taps of the low-pass filter on the decomposition side is 9 taps and the number of taps of the high-pass filter on the decomposition side is 7 taps) ) Is applied, when the even-numbered (2n-th) pixel data of the
[0025]
In the low-pass filter (low-frequency side) 7 and the high-pass filter (high-frequency side) 8, the correspondence relationship in FIG. 11 and FIG. The part where the ROI part overlaps with the other pixel data of the
[0026]
A
[0027]
In FIG. 1, the wavelet coefficients of the
[0028]
Next, priorities are assigned to the
[0029]
Here, when a plurality of
[0030]
Then, in the
[0031]
In this way, the wavelet coefficients of the plurality of ROI parts 6a and 6b are output. The output data of the wavelet coefficients of the ROI portions 6a, 6b... And the unmasked unmasked
[0032]
Next, according to the priorities set in advance, bit amounts are allocated to the ROI portions 6a and 6b and the expanded
[0033]
As a bit amount allocation method at this time, the information amount of the ROI portions 6a and 6b, for example, the bit amount is set to a value that does not satisfy the bit amount necessary for lossless compression. Specifically, for example, first, the compression rate bit amount of the entire image is determined, and among them, a predetermined amount of bit amount is sequentially assigned in descending order of the priority of each ROI portion 6a, 6b. A first method for allocating the bit amount to the expanded
[0034]
Then, the ROI signals in the ROI portions 6a, 6b,... And the unmasked
[0035]
Then, entropy coding is performed on each of the
[0036]
In this way,
[0037]
Then, the
[0038]
<Decoding method>
The decoding of the image is executed in the flow on the decompression device Ex side in FIG.
[0039]
In the decompression device Ex, as shown in FIG. 1, the
[0040]
Next, the
[0041]
Then, on the wavelet plane, wavelet-transformed wavelet coefficients are synthesized for each
[0042]
Finally, the inverse wavelet transform is performed to restore the
[0043]
As described above, since the irreversible compression is performed on the ROI portions 6a, 6b... Having an arbitrary shape converted into the portion corresponding to the wavelet plane, the Maxshift method (first conventional example) in which the lossless compression has been performed. ), The size of the compressed image file as a whole can be reduced. .. Can be designated as compared with EBCOT (second conventional example). For example, when it is desired to increase the bit rate of only the face of a person in the background, the processing is not performed. It becomes easy.
[0044]
【The invention's effect】
According to the onset bright, as compared to the EBCOT (Second conventional example), to specify an ROI portion of any shape, such as in order to enhance the bit rate of only the face of the person in the background, the process Becomes easier.
[0045]
Furthermore, according to the present invention, even when a plurality of mask regions having an arbitrary shape are designated, it is possible to easily perform irreversible compression on each mask region. In this case, there is an effect that it is possible to freely set the assigned code amount by individually assigning the code amount to each mask region.
[Brief description of the drawings]
FIG. 1 is a flowchart showing a region-of-interest encoding method according to an embodiment of the present invention.
FIG. 2 is a diagram showing a mallat-type wavelet packet tree;
FIG. 3 is a diagram showing a mallat-type wavelet plane;
FIG. 4 is a diagram illustrating a space type wavelet packet tree;
FIG. 5 is a diagram showing a space-type wavelet plane;
FIG. 6 is a diagram illustrating a packet-type wavelet packet tree.
FIG. 7 is a diagram showing a packet type wavelet plane;
FIG. 8 is a diagram illustrating an example of an original image.
9 is a diagram showing a single mask area set for the original image of FIG. 8. FIG.
10 is a diagram showing a state in which the mask region of FIG. 9 is developed on a mallat wavelet plane. FIG.
FIG. 11 is a diagram illustrating a correspondence relationship between a low-frequency side and a high-frequency side in the
FIG. 12 is a diagram illustrating a correspondence relationship of a mask region between a low frequency side and a high frequency side and an input side in an inverse wavelet 9 × 7 filter.
FIG. 13 is a diagram illustrating a distribution of wavelet coefficients after a known wavelet transform is performed on an original image.
FIG. 14 is a diagram showing a distribution of wavelet coefficients in the first conventional example.
FIG. 15 is a diagram for explaining the concept of EBCOT of the second conventional example.
[Explanation of symbols]
1 Image data (original image)
10a to 10z
Claims (2)
前記原画像に対して指定された任意の形状の複数のマスク領域を、前記ウェーブレット変換に対応するウェーブレット平面に展開してマスク信号を生成する第二工程と、
前記複数のマスク領域及び当該複数のマスク領域以外の非マスク領域に対して圧縮する際の符号量をそれぞれ割り当てる第三工程と、
前記第三工程で割り当てられた符号量に応じて量子化及び符号化を行う第四工程と、
を備え、
前記第二工程は、ウェーブレット平面に展開された異なるマスク領域に関する部分同士が重なるときは、重なる部分を優先順位の高いマスク領域に関する部分としてマスク信号を生成し、
前記第四工程は、前記複数のマスク領域及び前記非マスク領域に個別に前記量子化及び前記符号化を行い、それぞれの圧縮データを個別に生成することを特徴とする関心領域符号化方法。A first step of wavelet transforming the original image;
A second step of generating a mask signal to deploy multiple mask areas of any shape specified for the original image, the wavelet plane corresponding to the wavelet transform,
A third step of assigning a code amount when compressing each of the plurality of mask regions and a non-mask region other than the plurality of mask regions;
A fourth step of performing quantization and encoding according to the code amount allocated in the third step;
With
In the second step, when the portions related to different mask regions developed in the wavelet plane overlap each other, a mask signal is generated with the overlapping portion as a portion related to the mask region having a high priority,
The region-of-interest encoding method, wherein the fourth step performs the quantization and the encoding individually on the plurality of mask regions and the non-mask region, and individually generates compressed data.
前記第四工程は、前記第一工程においてウェーブレット変換された原画像のウェーブレット係数を前記マスク信号に対応付けて取り出した複数のマスク領域に関する各ウェーブレット係数と、非マスク領域に関するウェーブレット係数とに量子化及び符号化を行うことを特徴とする関心領域符号化方法。 In the fourth step, the wavelet coefficients of the original image wavelet transformed in the first step are quantized into wavelet coefficients related to a plurality of mask areas extracted in association with the mask signal and wavelet coefficients related to a non-mask area. And a region of interest encoding method, wherein encoding is performed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000283259A JP4701448B2 (en) | 2000-09-19 | 2000-09-19 | Region of interest encoding method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000283259A JP4701448B2 (en) | 2000-09-19 | 2000-09-19 | Region of interest encoding method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002094991A JP2002094991A (en) | 2002-03-29 |
JP4701448B2 true JP4701448B2 (en) | 2011-06-15 |
Family
ID=18767646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000283259A Expired - Fee Related JP4701448B2 (en) | 2000-09-19 | 2000-09-19 | Region of interest encoding method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4701448B2 (en) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004235990A (en) * | 2003-01-30 | 2004-08-19 | Canon Inc | Image selection device |
JP4514464B2 (en) * | 2004-02-09 | 2010-07-28 | 三洋電機株式会社 | Image encoding apparatus and image decoding apparatus, and image display apparatus and method using them |
CN1655620B (en) | 2004-02-09 | 2010-09-22 | 三洋电机株式会社 | Image display apparatus |
US7720295B2 (en) | 2004-06-29 | 2010-05-18 | Sanyo Electric Co., Ltd. | Method and apparatus for coding images with different image qualities for each region thereof, and method and apparatus capable of decoding the images by adjusting the image quality |
JP4656912B2 (en) | 2004-10-29 | 2011-03-23 | 三洋電機株式会社 | Image encoding device |
JP2006129248A (en) * | 2004-10-29 | 2006-05-18 | Sanyo Electric Co Ltd | Image encoding and decoding method and apparatus thereof |
JP4841504B2 (en) * | 2007-05-31 | 2011-12-21 | 三洋電機株式会社 | Image coding apparatus and method |
JP6165491B2 (en) * | 2013-04-12 | 2017-07-19 | 株式会社メガチップス | Image processing apparatus and image processing method |
JP6345961B2 (en) | 2014-03-28 | 2018-06-20 | 株式会社メガチップス | Image decoding apparatus and image decoding method |
JP6471023B2 (en) * | 2015-03-31 | 2019-02-13 | 株式会社メガチップス | Image processing system and image processing method |
JP6471022B2 (en) | 2015-03-31 | 2019-02-13 | 株式会社メガチップス | Image processing system and image processing method |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07222048A (en) * | 1994-02-02 | 1995-08-18 | Hitachi Ltd | Image pickup device |
JPH0918876A (en) * | 1995-06-27 | 1997-01-17 | Sharp Corp | Moving image encoding and decoding device |
WO2000001153A1 (en) * | 1998-06-18 | 2000-01-06 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus in transmission of images |
-
2000
- 2000-09-19 JP JP2000283259A patent/JP4701448B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07222048A (en) * | 1994-02-02 | 1995-08-18 | Hitachi Ltd | Image pickup device |
JPH0918876A (en) * | 1995-06-27 | 1997-01-17 | Sharp Corp | Moving image encoding and decoding device |
WO2000001153A1 (en) * | 1998-06-18 | 2000-01-06 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus in transmission of images |
Also Published As
Publication number | Publication date |
---|---|
JP2002094991A (en) | 2002-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3436832B2 (en) | Wavelet transform filter | |
Walker et al. | Wavelet-based image compression | |
JP3800551B2 (en) | Data processing apparatus and method | |
US6347157B2 (en) | System and method for encoding a video sequence using spatial and temporal transforms | |
US6101279A (en) | Image compression system using block transforms and tree-type coefficient truncation | |
JP4420415B2 (en) | Encoding method and encoding apparatus | |
JP3461821B2 (en) | Memory management system and memory management method | |
US7215820B2 (en) | Method and apparatus for compression using reversible wavelet transforms and an embedded codestream | |
JP3976876B2 (en) | Image compression method | |
EP1062623B1 (en) | Method and apparatus for compressing images | |
US7418142B2 (en) | Method for compression using reversible embedded wavelets | |
JP2006191557A (en) | Method and device for zerotree encoding of wavelet data, and computer system | |
JP4768728B2 (en) | Method and apparatus for encoding a block of values | |
JPH08506226A (en) | Apparatus and method for compressing information | |
JP2000032461A (en) | Image coding method, image decoding method, and system and computer program product | |
JP4701448B2 (en) | Region of interest encoding method | |
JP2007267384A (en) | Compression apparatus and compression method | |
JP2006502604A (en) | Image compression method for arbitrarily shaped objects | |
JP2004505520A (en) | Video coding method using wavelet decomposition | |
JP2914549B2 (en) | Image coding method | |
JPH11136520A (en) | Picture data processor | |
GB2305829A (en) | A context model coder | |
Munteanu et al. | Segmentation-driven direction-adaptive discrete wavelet transform | |
KR0178216B1 (en) | Mask generation apparatus for encoding object image | |
JP2000013796A (en) | Image data processor and image data processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070912 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070912 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090901 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091023 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100518 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100716 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110218 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4701448 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |