JP4717860B2 - データ圧縮方法及び画像表示方法及び表示画像拡大方法 - Google Patents

データ圧縮方法及び画像表示方法及び表示画像拡大方法 Download PDF

Info

Publication number
JP4717860B2
JP4717860B2 JP2007216008A JP2007216008A JP4717860B2 JP 4717860 B2 JP4717860 B2 JP 4717860B2 JP 2007216008 A JP2007216008 A JP 2007216008A JP 2007216008 A JP2007216008 A JP 2007216008A JP 4717860 B2 JP4717860 B2 JP 4717860B2
Authority
JP
Japan
Prior art keywords
data
image
compression method
data compression
compression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007216008A
Other languages
English (en)
Other versions
JP2009049895A (ja
Inventor
眞一郎 湯村
Original Assignee
眞一郎 湯村
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 眞一郎 湯村 filed Critical 眞一郎 湯村
Priority to JP2007216008A priority Critical patent/JP4717860B2/ja
Priority to PCT/JP2008/064978 priority patent/WO2009025347A1/ja
Publication of JP2009049895A publication Critical patent/JP2009049895A/ja
Application granted granted Critical
Publication of JP4717860B2 publication Critical patent/JP4717860B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques

Description

本発明は、デジタル信号から成るデータを、データの実質的な性質を保ったまま、データ量を減少させた別のデータに変換するためのデータ圧縮方法に関し、より詳細には、静止画像データ、動画像データ、音声データなどのデータを圧縮するためのデータ圧縮方法に関する。
また、本発明は、静止画像データ又は動画像データをディスプレイ上に表示させるための画像表示方法に関する。
また、本発明は、静止画像データ又は動画像データの表示画像を拡大表示するための表示画像拡大方法に関する。
近年、インターネットが仮想的巨大データベースとなりつつあり、例えば、医療診断データ、企業情報、行政上の各種事業情報、地理的空間情報、金融機関や保険等の個人情報などのデータの送受信において、データをより圧縮して、ネットワーク環境の負荷軽減、モバイルコミュニケーションやWebブラウザ閲覧による操作性の簡素化を図る一方、情報セキュリティ性能を高める為の高度な暗号化を図るといった新しいデータマネジメントが必要になってきている。
特に、医療診断データとして、画像検査・診断の急速な進歩に伴って、レントゲン装置やCT、MRI、ポジトロンCT(PET)、マンモグラフィーなど多数の医用画像装置などで撮影される膨大な画像データを蓄積する必要が生じている。例えば、最新のCTでは、1秒間に約780枚のスライス断層写真を撮影可能で、人体全身を撮影した場合には、2000枚にも及び、そのデータ量は1GBを超えることになる。そのため、医療現場においては、年間で40TBもの画像データが生じており、さらには、医用画像には5年間の保存義務があるため、医用画像データを保存するためには、膨大な記憶装置が必要となっている。また、近年医療現場において使われている電子カルテで、医用画像データを表示する際には、画像データそのもののデータ量が大きいため、表示するために数分の時間を要している。
このような医用画像データの保存には、データ圧縮技術が重要になっている。データ圧縮技術には、オリジナルの画像データを損なわない可逆圧縮と、表示する際に人間の目で見て遜色のない程度のデータ損失を伴う非可逆圧縮がある。医用画像データの場合、画像診断の際には可逆圧縮を行った画像を用い、保管及び二次使用の際には画像データを非可逆圧縮することが一般的であり、従来、医用画像の圧縮には可逆圧縮及び非可逆圧縮の両方に対応したJPEG 2000が用いられている。
JPEG 2000は、画像データを8×8画素のブロックに分割し、そのブロック単位で空間
領域から離散ウェーブレット変換(Discrete Wavelet Transform;以下、DWT)によって周波数領域に変換したうえで、JPEG(特許文献1を参照)と同じく、データを量子化したのちに、エントロピー符号化を用いてデータ圧縮を実現している。
特開昭63−148789号公報
しかしながら、JPEG 2000によって可逆圧縮を行った場合、データ量は理論値で2.5
分の1、実際には2分の1程度の圧縮が限界である。また、データ量を小さくするために非可逆圧縮によってデータ量を10分の1以下にするようなデータ圧縮を行ってしまうと、画質の低下が著しく、例えば、図8のような医用画像の場合には、毛細血管のような細部が潰れてしまい、診断が不可能となってしまう。
本発明は、このような現状に鑑み、可逆圧縮であっても15分の1以上のデータ圧縮率が実現可能なデータ圧縮方法を提供することを目的とする。また、非可逆圧縮の場合、JPEG 2000による非可逆圧縮と同程度の画質の場合に、データ圧縮率がJPEG 2000の10分の1程度となるデータ圧縮方法を提供することを目的とする。
また、本発明は、従来のJPEGやJPEG 2000、GIFなどの形式によって非可逆圧縮され、画像の細部が潰れてしまった画像データを鮮明に表示することが可能となる画像表示方法を提供することを目的とする。
さらに、本発明は、画像データの拡大を行う際に、従来のように表示画像が不鮮明とはならず、鮮明な表示画像で画像データの拡大を行うことが可能となる表示画像拡大方法を提供することを目的とする。
本発明は、前述したような従来技術における課題及び目的を達成するために発明されたものであって、本発明のデータ圧縮方法は、複数の値を有するデジタル信号から成るオリジナルデータを、データの実質的な性質を保ったまま、データ量を減少させた別の圧縮データに変換するためのデータ圧縮方法であって、
上記データ圧縮方法は、上記オリジナルデータを16×16のマクロブロックに分割し、各ブロックをさらに4×4のサブブロックに分割し、ニューラルネットワークを用いて予測ブロックを近隣の値によって形成して、予測データを形成するステップと、
前記オリジナルデータと予測データの相違となる残余データを形成するステップと、
前記残余データを空間領域のデータ及び周波数領域のデータを比較し、各変換ブロックで変換計算によって周波数変換するステップと、
前記各変換ブロックにおいて、各変換ブロックに入力されたデータを量子化するステップと、
前記周波数変換を、人工知能促進されたエントロピー・エンコード方式、可変長エンコード方式、演算コード方式のいずれかを用いて、エントロピー・エンコードするステップと、
を備えることを特徴とする。
このようにデータ圧縮の際に、ニューラルネットワークを用いることによって、次元削減がなされるので、例えば、画像や音声など多次元量のデータで、かつ、線形分離不可能なオリジナルデータに対して、比較的小さな計算量で良好な結果が得られることとなる。
また、本発明のデータ圧縮方法は、前記ニューラルネットワークが、フィードフォワードネットワークであることを特徴とする。
このように構成することによって、ニューラルネットワークにループする結合が存在せず、入力ステップ、中間ステップ、出力ステップというように、単一方向へのみ信号が伝播することとなるので、データ圧縮に要する演算が容易となり、データ圧縮を実用的な時間内で実行することが可能となるとともに、演算処理による負荷が低く抑えられるので、スペックの低いコンピュータであっても本発明のデータ圧縮方法を実行することができる。
また、本発明のデータ圧縮方法は、前記変換計算が、整数演算、ビットシフト、掛け算のみから構成されていることを特徴とする。
このように構成することによって、割り算や浮動小数点演算といったコンピュータでの演算速度が比較的遅い演算をする必要がないため、データ圧縮を実用的な時間内で実行することが可能となるとともに、演算処理による負荷が低く抑えられるので、スペックの低いコンピュータであっても本発明のデータ圧縮方法を実行することができる。
また、本発明のデータ圧縮方法は、前記量子化のステップにおいて、量子化媒介変数に応じて、前記各変換ブロックによって変換されたデータの一部を0に置き換えることを特徴とする。
このように構成することによって、データの非可逆圧縮を行うことができ、オリジナルデータの再現度は低下するものの、データの可逆圧縮に比べて大幅に圧縮率を高めることが可能となる。
また、本発明のデータ圧縮方法は、前記オリジナルデータが、静止画像データ、動画像データ、音声データのいずれかであることを特徴とする。
このように構成することによって、静止画像データ及び動画像データ、音声データについて、理論的には、オリジナルデータのデータ量の1/15程度までデータ圧縮をすることができる。このため、例えば、CTやMRIなどの医用画像を蓄積・表示する場合であっても、従来の画像圧縮方法による画像データとして蓄積・表示する場合と比べて、ネットワークの負荷軽減、画像データの保存可能量の増加、画像データ保存期間の延長、画像データ表示速度の短縮化などが可能となる。
本発明によれば、画像データのデータ量を、可逆圧縮によって、15分の1以上の大きさに圧縮することが可能となる。また、非可逆圧縮の場合であっても、データ圧縮による画像データの劣化を抑え、JPEG 2000による非可逆圧縮と同程度の画質の場合に、データ
量をJPEG 2000によって圧縮した画像データの10分の1程度とすることが可能となる。
また、本発明によれば、JPEGやJPEG 2000、GIFなどの形式によって非可逆圧縮され、画像の細部が潰れてしまった画像データであっても、画像データを鮮明に表示することが可能となる。
さらに、本発明によれば、画像データの拡大を行う際にも、従来のように表示画像が不鮮明とはならず、鮮明な表示画像で画像データの拡大を行うことが可能となる。
以下、本発明の実施の形態(実施例)を図面に基づいてより詳細に説明する。
図1は、簡易ニューラルネット組織構造を説明する模式図、図2は、ニューラルネットのアルゴリズムを説明するための例として、2つの入力に対して排他的論理和演算を行う、誤差逆伝播ネットワークを表したネットワーク概要図、図3は、エンコーダーに対して入力されたデータがカレント接頭辞の記号として出力されるまでの流れを説明するフロー図である。
(a)予測画像イメージの生成
オリジナル画像データは、エンコーダーによって、16×16画素のマクロブロックに分割され、各ブロックをさらに4×4画素のサブブロックに細分化される。また、予測ブロックは、図1に示したような簡易ニューラルネット組織構造を用いて、近隣の値によって形成される。
なお、本発明の画像圧縮方法では、従来のように16×16画素のマクロブロックを単純に縦横4分割して、4×4画素のサブブロックに細分化するのではなく、16×16画素のマクロブロックを縦横2分割して、8×8画素のサブブロックに細分化したのち、この8×8画素のサブブロックを4画素分ずらすことによって、8×8画素のサブブロックが重複して、4×4画素のサブブロック(サブ領域)に細分化している。このように構成することによって、従来のようにそれぞれが独立した4×4画素のサブブロックに細分化されるのではなく、8×8画素のサブブロックを維持しながら、4×4画素のサブ領域を形成することができるので、8×8画素のサブブロック内の色彩パターンなどを連続した領域として数値化や圧縮処理することができる。このため、従来の圧縮形式に見られたブロックノイズを解除・低減することが可能となる。
また、ニューラルネットは、ニューロンをモデル化し、それを互いに多数結合させ接続し、ネットワーク状にしたものである。ニューラルネットの利点は、巧妙なアルゴリズムが全く必要ないということと、各々の処理を並列に計算できるということである。なお、この実施例に示される図1では、教師信号(正解)の入力によって与えられた問題に最適化されていく「教師あり学習」に分類される誤差逆伝搬法(バックプロパゲーション)を用いたフィードフォワードニューラルネットである、多層パーセプトロンを用いている。
誤差逆伝搬法を用いたフィードフォワードニューラルネットでは、最急降下法を用いて、実際の出力と希望の出力の誤差が最小となるように、結合荷重を変更する。この誤差逆伝搬法では、中間層がいくつあっても、この方法によって誤差信号を逆伝搬させ、どの層の結合荷重をも変更することが可能であり、さらには、出力関数に非線形のシグモイド型の関数を用いて結合させることにより、線形分離不可能な問題も処理できる特徴を有している。
図2において、円は極めて単純なアナログ演算装置であるニューロン、ユニット、もしくはノードであり、円の中の数字は、そのユニットの活性値を表している。
メインノードはレイヤ化されており、この場合、x値とy値を含む入力層、ひとつのノー
ドhを含む隠れ層、そして出力値zを持つ出力層の3層構造となっている。
図2では、この他に、バイアスユニットと呼ばれる、値が常に1.0となる2つのユニッ
トを有している。バイアスユニットはどの層にも属していないユニットである。
また、円同士をつなぐ線は重みを表し、その横に記載されているのが重みの値である。誤差逆伝播ネットワークの多くは隣接レイヤのみとつながっているが、図2では入力ユニットから出力ユニットを直接つなぐ線を2つ有している。例えば、XORのような問題の場合には、このように入力と出力とを直接接続する追加接続がネットワークの学習を早めることとなる。
図2のネットワークは、入力−出力結合を追加した2-1-1ネットワークと記述すること
ができ、以下、2-1-1-xと短縮して表現する。
なお、XOR関数z=xor(x,y)は、表1のように定義する。
出力ユニットz値の演算には、x値とy値を入力層のユニットに入力する。ここでは、例
えば、それぞれ1.0、0.0とする。初めに、隠れ層ユニットhをそれぞれの下位のユニット
と、隠れ層と結合したバイアスユニットとを確認する。そして、それぞれの結合に対して、ユニットの値に重みの値をかけて、全ての結果を合計すると、数1のようになる。
ここでは、線形活性化関数が使われているが、誤差逆伝播はこの値が、ある種の非線形関数に渡された場合のほうが、最もよく機能することとなる。数2に、最もよく用いられる非線形関数を示す。
sはニューロンへの入力値の合計であり、vはニューロンの値となる。すなわち、例えばs=4.34の場合には、v=0.987となる。この特殊な関数は、標準シグモイド関数やロジステ
ィック関数と呼ばれるものである。また、ニューロン値の計算のために使われる関数は、活性化関数、スカッシング関数、もしくは伝達関数と呼ばれる。
そして、出力ユニットz値の計算は数3のように行われる。
ここで、出力値として0.926という値が出力されているが、ある問題において出力を0もしくは1にしたい場合に、特殊な活性化関数を用いる場合、出力値に目標値と0.1以内の誤差が生じることはごく一般的なことである。
なお、ニューラルネットがXOR関数の計算を行うと表2の結果が得られる。
ニューロンの活性値の計算式jは、数4のように、より簡潔に記述することができる。
ニューロンjの活性値をojとし、活性化関数を一般関数とする。ニューロンjとニューロンi間の重みをwij、ニューロンjへのネットインプットをnetjとした場合、数4のように
なる。
ここで、nはユニットjに入力する数値である。
このようなニューラルネットを用いた処理では、例えば、それぞれの文字ストリーム操作オブジェクト(チャートストリーム)は、チャンネルごとに8-bitから成り、エンコー
ダーはそれぞれのチャンネルに対して12-bitのエンコードコードを用いる。これにより、線図には各チャンネルごとに、赤、緑、青、4096のエントリーが可能となり、これは、各チャンネルごとに0から4095に値する記号が目印となる。
最初の2nコード、2n-1を割り当てられたそれぞれのチャンネルは、1文字の線に初期化されるとともに、カレント接頭辞は0に初期化される。コードの値は0から255の8-bit ASCII文字に相当し、1つの文字線はルートと呼ばれる。
そして、図3に示したように、エンコーダーは文字を1つずつ読み込み、各文字が読み込まれるたびにカレント線が形成される。このカレント線は、カレント接頭辞に加えられたカレント文字から成る。
ついで、エンコーダーによって形成されたカレント線が、線表の中にあるかどうかを判断するため、線表の検索が実行される。そして、線表の中にカレント線が存在する場合は、カレント接頭辞がカレント線にセットされる。
一方、線表の中にカレント線が存在しない場合には、カレント線が線表に加えられ、カレント接頭辞の文字が文字ストリームの出力となり、カレント接頭辞がカレント文字にセットされる。
このプロセスは文字が入力されるたびに繰り返され、文字が完全になくなるまで続けられ、最終ステップとしてカレント接頭辞の記号が出力となる。
記号ストリームは7-bit ASCII文字セットを使った1-bit記号シーケンスからなり、これは記号ストリームの中で使用されていないパッディング・ビットが発生しないようにひとまとまりにしたもので、低オーダー・ビットコードは次に利用できる記号ストリームバイトの低オーダー・ビットに組み込まれる。ここで、豊富になった記号ストリームは、表3に示した記号コードにマッピングされる。この豊富なイメージマップ化された記号は、標準的なエンコード・マッピングプロセスにおいてエンコードの効率を劇的に上げることができ、非常に有効な働きを有するものである。
そして、表4に示したように、各4×4画素のサブブロックは、予測されるピクセル値を示す小文字で表示され、予測ブロックは、近隣で利用可能なピクセルのサブセットから
なされ、大文字で記される。
このプロセスを開始するために、図の左上の4×4画素のブロックに128の16値がランダムに指定される。続く各ブロックは、9つのモードの中の一つと予測されるが、最上列と最左列のブロックには有効でないモードが存在することとなる。ここで9つのモードとは、
(1)DCモード:サンプルA-Hからの平均+サンプルI-L
(2)水平モード:左方向に外挿するI-L値
(3)垂直モード:下方向に外挿するA-H値
(4)右下ダイアグラム:図表の左上段端にある3つの大文字の直線勢力の平均。予測される全ての画素が同じ対角線上にある時には同じ値が与えられる。(傾斜=−1)
(5)左下ダイアグラム:図表の右上段端にある3つの大文字の直線勢力の平均。予測される全ての画素が同じ対角線上にある時には同じ値が与えられる。(傾斜=+1)
(6)〜(9):(4)及び(5)と同様の方法で、予測される画素は+または−2、もしくは+または−の傾斜の対角線上にあるもの
を示している。
この9つのモードは、画像のルミナンス・ピクセル値に関連するもので、クロミナンスは古典的な4:2:0方式でサブサンプルされている。その結果、各オリジナル画像データの16×16画素のマクロブロック画像に対して、それぞれの色のチャンネルに8×8画素のクロミナンスブロックが二つあることになる。この8×8画素のカラーボックスは上記ルミナンス予測方式と同じ形で予測されることになる。
各4×4画素のルミナンスブロック又は8×8画素のクロミナンスブロックで、近隣で許可された予測モードはそれぞれ計算にかけられ、各予測モードのオリジナルブロックと予測を比較し、ピクセルごとに絶対的に違いを割り出し合計される。この合計値はSAE値と呼ぶ。
ここで、SAE値を絶対エラーの合計とすると、各ブロックに対して最もSAE値が少ないモードが最適モードとして選ばれ、この判断は圧縮された画像と共にエンコードされ、4×4画素又は8×8画素ブロックでモードが参照したポジションにリンクが貼られる。このようにして、予測画像イメージが作成される。
(b)相違プロセスによる圧縮可能残余データ
上述するように、予測画像イメージが完成すると、オリジナル画像と予測画像との違いがピクセル単位でコンピュータ処理される。この処理の結果となる画像を残余画像と呼ぶ。この残余画像は、オリジナル画像に比べてデータが大幅に減少したにもかかわらず、より豊富なデータとなるもので、この残余画像を用いることによってさらなるデータ圧縮が可能となる。
(c)変換プロセス
変換ブロックは、残余画像データを空間関係のデータと周波数関係のデータを比較して、これらを変換するものである。このように構成することによって、データは関係が除去され、圧縮率を高めることとなる。
ここでは、通常用いられる8×8 DCT(Discrete Cosine Transform:離散コサイ
ン変換)を使ったブロック基準の変換に替わり、新しく修正された4×4 DCTを用いている。DCTの核となる変換プロセスの前の段階で全ての変換計算が整数、ビットシフト、そしてごく限られた掛け算のみで可能なように設計されており、これには割り算または浮動小数点演算は一切用いられていない。このように構成することによって、演算時間の劇的な短縮や、スペックの低いコンピュータであっても実用的な計算時間での圧縮処理が可能となる。
例えば、グレースケールの医用画像では、4×4画素のブロックがそれぞれこの変換プロセスを通過する。8×8画素のクロームブロックについては、各8×8画素ブロックを4つの4×4画素ブロックに再分し、これらの再分ブロックを変換することとなる。次いで、この4つのブロック(各カラーチャンネルにつき4つ)のDC(最低周波)係数値が、小さな2×2画素アレイに配列され、DC係数がさらに相関隔離されるように変換される。この一連の操作が画像の高い圧縮率を容易にすることとなる。
(d)量子化
各変換ブロックが、レベル0から51の間のQP(量子化媒介変数)値を持つ。QP=0の場合には、変換値に変更は加えられず、QP値が高いほど変換値が0に置き換えられ、圧縮率を高める一方、圧縮された画像データの忠実度を減少されることとなる。
量子化の段階では、全ての値を整数に保つという目標を達成されるために変換値を再スケールする。このスケーリングの要素は、エンコードを行った時に選んだQP値によって変わることになる。このため、最終ビットストリーム又は保存イメージには、QP値が含まれる必要があり、画像を表示される際のデコーダーは、そのQP値を用いてインバース変換をする前に変換値をスケールバックするためにスケーリング値を参照することとなる。
(e)エントロピー・エンコード
エントロピー・エンコードでは、近隣にあるブロックの0の数を数えることが出来るもので、近隣ブロックの0の数は相互関係にある傾向がある。このため、コーデックの使用目的によって、AI(Artificial Intelligence:人工知能)促進されたエントロピー・
エンコーディング、可変長エンコーディング、演算コーディングのうち、いずれかのエンコーディングを用いてエントロピー・エンコードを行ったとしても、パフォーマンスを高めることが可能となる。
このように、(a)〜(e)のステップによって画像データをエンコードする場合、従来の画像圧縮方式に比べ、コンピュータへの負荷が小さくなる。さらには、従来の画像圧縮方法に比べ、データの圧縮率が高くなり、データ量を小さくすることが可能となる。具体的には、QP=0とした可逆圧縮の場合、オリジナル画像(ビットマップ画像)のデータ量を1/15程度にまで圧縮することが可能である。
なお、上述したようにニューラルネットを用いて、画像圧縮などの演算を行う場合には、例えば、以下に示すように、ニューラルネットに学習させる必要がある。
図4は、XOR関数の計算を学習させる前の段階の2-1-1-xのXORネットワークであ
る。この例では、ネットワークの重みは全て0で始まり、学習プロセスの中で適切な重みに修正されていく。学習プロセスは以下のとおりである。
(1) 入力ユニットに学習させる画像を入力する。
(2) 隠れユニットと出力ユニットの値を検出する。
(3) 出力ユニットにどれくらいの誤差が生じたかを検出する。
(4) 誤差逆伝播法のひとつを適用し、出力ユニットに合わせて重みを修正する。
(5) (4)で用いたものとは別の公式を用いて、隠れユニットの誤差を検出する。
(6) 違う公式によって、隠れユニットに合わせて重みを修正する。
(1)から(6)までのステップを全ての入力に対して繰り返し行うことによって、出力値が正解へと近づくこととなる。
次に、誤差逆伝播ネットワークの出力ユニットに入れる重みを調整する式について、f'を活性化関数fの微分、出力ユニットkの実際の活性値をok、目標値をtkとし、エラーシグナルδkを求める式とするとき、エラーシグナルδkは数5となる。
ここで、数6のような通常の活性化関数の場合、微分方程式は数7となる。
また、出力ユニットkとユニットj間の重みの変更式wjkは、数8となる。
hは学習率といい、比較的小さな正定数である。例えば、図4のネットワークにおいて
、h=0.1の場合、エラーシグナル及び重みの変更式は数9となる。
また、隠れユニットjの誤差δjの計算式は、数10となる。
ここで、kサブスクリプトは出力層の全ユニットに使われるが、この例ではユニットは
ひとつしか存在しないので、数11のようになる。
そして、新しい重みは数12のようになる。
これらの新しい重みによって、出力層の活性値は0.507031となる。また、XOR関数における、他の3つのパターンに対し同様に計算すると、表5のようになる。
ここで、出力値zactualを正解であるzdesiredに近づけるためには、以上のステップを
反復計算する必要がある。しかしながら、正解との誤差を0.1以内とするためには、多大
な学習回数及び学習時間を要する。例えば、上述したステップを繰り返し、正解との誤差を0.1以内とするためには、2万回以上の反復計算が必要となる。
学習回数及び学習時間を減少させ、XOR問題にかかる反復数を約12から20回に減少させることができる方法は、多数知られているが、学習率hを上げることによって、最
も簡単に学習回数及び学習時間を減少させることができる。表6は、学習率hと反復回数
の関係を示す表である。
表6に示したように、誤差逆伝播法の問題点のひとつとして、学習率hを3.0のように大きくしすぎると、学習に失敗してしまうため、学習率hは適切な値に設定する必要がある
以下、実際の画像データを本発明のデータ圧縮方法を用いてデータ圧縮した場合と、従来の圧縮方式によってデータ圧縮した場合との比較した結果を示す。
表7は、図5のレントゲン画像をロスレスのJPEG 2000によって圧縮した画像のデータ
量と本発明のデータ圧縮方法によって圧縮した画像のデータ量を比較したものである。
表7からも明らかなように、ロスレスのJPEG 2000によって圧縮した場合には、1/1
0程度の圧縮率なのに対して、本発明のデータ圧縮システムによって圧縮した場合には、データ圧縮率が1/60程度とJPEG 2000によって圧縮した場合の1/6程度とすること
が可能である。
また、表8は、表7同様に、図5のレントゲン画像をJPEG 2000及び本発明のデータ圧
縮方法によって非可逆圧縮した場合のデータ量とデータロス率を比較したものである。
表8に示したように、オリジナル画像を、オリジナル画像の1/10程度のデータ量にJPEG 2000によって非可逆圧縮した場合のデータロス率は、14.90%となる。これに
対して、本発明のデータ圧縮方法を用いて、非可逆圧縮をした場合、圧縮後のデータロス率はJPEG 2000による非可逆圧縮の場合よりも小さいにもかかわらず、圧縮後のデータ量
は、オリジナル画像のデータ量の1/60程度、JPEG 2000による非可逆圧縮をした画像
の1/5程度とすることができる。
このように、本発明のデータ圧縮方法を用いて画像圧縮を行うことによって、圧縮率はオリジナル画像のデータ量にもよるが、可逆圧縮、非可逆圧縮に関わらず、従来の画像圧縮形式に比較して、大幅にデータ量を圧縮することができる。
なお、上述したようなデータ圧縮方法では、色データの定義や数値処理において、10進法ではなく、16進法を用いることによって、除数の四捨五入、切捨て、切上げによって生じる丸め誤差(rounding error)を最小限に抑えることが可能となる。
図6は、JPEGによって非可逆圧縮した眼球の画像、図7は、図6の画像を3倍に拡大した拡大画像、図8は、図6の画像を本発明の画像表示方法によって表示した画像である。
JPEGによって非可逆圧縮した画像は、ブロック単位で離散コサイン変換を行っているため、圧縮率をあげると、図7に示したように、ブロックノイズが生じてしまう。このブロックノイズは、各ブロックに本来必要なデータが残っていないために各ブロックごとで画像が不鮮明となるとともに、隣接するブロックとの不鮮明具合が一致していないために生じるものである。
以上、本発明の好ましい実施の形態を説明してきたが、本発明はこれに限定されることはなく、例えば、上記実施例では静止画像のデータ圧縮、静止画像表示、静止画像拡大についてのみを考慮に入れたが、動画像のデータ圧縮、動画像表示、動画像拡大にも用いることができ、また、音声データの圧縮などにも用いることができるなど本発明の目的を逸脱しない範囲で種々の変更が可能である。
図1は、簡易ニューラルネット組織構造を説明する模式図である。 図2は、ニューラルネットのアルゴリズムを説明するための例として、2つの入力に対して排他的論理和演算を行う、誤差逆伝播ネットワークを表したネットワーク概要図である。 図3は、エンコーダーに対して入力されたデータがカレント接頭辞の記号として出力されるまでの流れを説明するフロー図である。 図4は、XOR関数の計算を学習させる前の段階の2-1-1-xのXORネットワークである。 図5は、本発明の圧縮方法とJPEG 2000との圧縮率の比較に用いた、レントゲン画像である。 図6は、JPEGによって非可逆圧縮した眼球の画像である。 図7は、図6の画像を3倍に拡大した拡大画像である。 図8は、医用画像の一例である、眼球の画像である。

Claims (7)

  1. 複数の値を有するデジタル信号から成るオリジナルデータを、データの実質的な性質を保ったまま、データ量を減少させた別の圧縮データに変換するためのデータ圧縮方法であって、
    前記データ圧縮方法は、
    前記オリジナルデータを所定画素数のマクロブロックに分割し、各ブロックをさらに所定画素数のサブブロックに分割し、該サブブロックごとにニューラルネットワークを用いて予測ブロックをサブブロックの近隣の値によって形成して、予測ブロックの集合から成る予測データを形成するステップと、
    前記オリジナルデータと予測データの相違となる残余データを形成するステップと、
    前記残余データを、変換計算によって空間領域のデータから周波数領域のデータに周波数変換するステップと、
    前記周波数変換が行われた周波数領域のデータを量子化するステップと、
    前記量子化が行われたデータを、人工知能促進されたエントロピー・エンコード方式、可変長エンコード方式、演算コード方式のいずれかであるエントロピー・エンコードするステップと、
    を備えることを特徴とするデータ圧縮方法。
  2. 前記オリジナルデータを、16×16の画素数のマクロブロックに分割することを特徴とする請求項1に記載のデータ圧縮方法。
  3. 前記マクロブロックを、4×4の画素数のサブブロックに分割することを特徴とする請求項2に記載のデータ圧縮方法。
  4. 前記ニューラルネットワークは、フィードフォワードネットワークであることを特徴とする請求項1から3のいずれかに記載のデータ圧縮方法。
  5. 前記変換計算が、整数演算、ビットシフト、掛け算のみから構成されていることを特徴とする請求項1から4のいずれかに記載のデータ圧縮方法。
  6. 前記量子化のステップにおいて、量子化媒介変数に応じて、前記各変換ブロックによって変換されたデータの一部を0に置き換えることを特徴とする請求項1から5のいずれかに記載のデータ圧縮方法。
  7. 前記オリジナルデータが、静止画像データ、動画像データ、音声データのいずれかであることを特徴とする請求項1から6のいずれかに記載のデータ圧縮方法。
JP2007216008A 2007-08-22 2007-08-22 データ圧縮方法及び画像表示方法及び表示画像拡大方法 Expired - Fee Related JP4717860B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007216008A JP4717860B2 (ja) 2007-08-22 2007-08-22 データ圧縮方法及び画像表示方法及び表示画像拡大方法
PCT/JP2008/064978 WO2009025347A1 (ja) 2007-08-22 2008-08-22 データ圧縮方法及び画像表示方法及び表示画像拡大方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007216008A JP4717860B2 (ja) 2007-08-22 2007-08-22 データ圧縮方法及び画像表示方法及び表示画像拡大方法

Publications (2)

Publication Number Publication Date
JP2009049895A JP2009049895A (ja) 2009-03-05
JP4717860B2 true JP4717860B2 (ja) 2011-07-06

Family

ID=40378247

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007216008A Expired - Fee Related JP4717860B2 (ja) 2007-08-22 2007-08-22 データ圧縮方法及び画像表示方法及び表示画像拡大方法

Country Status (2)

Country Link
JP (1) JP4717860B2 (ja)
WO (1) WO2009025347A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106127300A (zh) * 2016-07-04 2016-11-16 哈尔滨理工大学 一种旋转机械健康状态预测方法
WO2018020299A1 (en) * 2016-07-29 2018-02-01 Chan Kam Fu Lossless compression and decompression methods
WO2018199051A1 (ja) * 2017-04-25 2018-11-01 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置、符号化方法および復号方法
CN110915215B (zh) 2017-05-26 2024-03-08 谷歌有限责任公司 使用神经网络的图块化图像压缩
KR102535361B1 (ko) 2017-10-19 2023-05-24 삼성전자주식회사 머신 러닝을 사용하는 영상 부호화기 및 그것의 데이터 처리 방법
CN108665067B (zh) * 2018-05-29 2020-05-29 北京大学 用于深度神经网络频繁传输的压缩方法及系统
CN109241322B (zh) * 2018-08-28 2020-09-11 北京地平线机器人技术研发有限公司 代码生成方法、代码生成装置和电子设备
JP7225445B2 (ja) * 2021-01-14 2023-02-20 株式会社日立製作所 ストレージシステム
CN113220201B (zh) * 2021-05-31 2023-04-18 上海御微半导体技术有限公司 一种图片的显示方法、装置、设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07154607A (ja) * 1993-11-30 1995-06-16 Mitsubishi Electric Corp 2値画像符号化装置
JPH11259455A (ja) * 1998-03-12 1999-09-24 Victor Co Of Japan Ltd 離散コサイン変換の直流成分予測方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10200756A (ja) * 1996-11-18 1998-07-31 Seiko Epson Corp 画像処理装置、画像処理方法および画像処理プログラムを記録した媒体
JP2003174580A (ja) * 2001-12-07 2003-06-20 Minolta Co Ltd ディジタルカメラ

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07154607A (ja) * 1993-11-30 1995-06-16 Mitsubishi Electric Corp 2値画像符号化装置
JPH11259455A (ja) * 1998-03-12 1999-09-24 Victor Co Of Japan Ltd 離散コサイン変換の直流成分予測方法

Also Published As

Publication number Publication date
WO2009025347A1 (ja) 2009-02-26
JP2009049895A (ja) 2009-03-05

Similar Documents

Publication Publication Date Title
JP4717860B2 (ja) データ圧縮方法及び画像表示方法及び表示画像拡大方法
Johnston et al. Improved lossy image compression with priming and spatially adaptive bit rates for recurrent networks
Liang et al. Lossless compression of medical images using Hilbert space-filling curves
CN111247797A (zh) 用于图像编解码的方法和装置
Hassan et al. Color image compression based on DCT, differential pulse coding modulation, and adaptive shift coding
Sahami et al. Bi-level image compression technique using neural networks
Li et al. Image compression using transformed vector quantization
Sadeeq et al. Image compression using neural networks: a review
Rahman et al. A semi-lossless image compression procedure using a lossless mode of JPEG
de Lima Filho et al. Universal image compression using multiscale recurrent patterns with adaptive probability model
Chen et al. An entropy minimization histogram mergence scheme and its application in image compression
Tagne et al. An Efficient Data Compression Approach based on Entropic Codingfor Network Devices with Limited Resources
JP3700976B2 (ja) 画像処理装置および画像処理方法
Meenakshi et al. Design and simulation of constant bit rate compressor using fuzzy logic
Saudagar Learning based coding for medical image compression
Naaz et al. Implementation of hybrid algorithm for image compression and decompression
Saudagar Minimize the percentage of noise in biomedical images using neural networks
Purba et al. Analysis and improvement of JPEG compression performance with discrete cosine transform and convolution Gaussian filtering
Yeo et al. A feedforward neural network compression with near to lossless image quality and lossy compression ratio
Rani et al. Improving accuracy of deep learning-based compression techniques by introducing perceptual loss in industrial IoT
Deshmukh Image compression using neural networks
Thalji Hybrid algorithm in image compression between spatial domain and frequency domain based on discrete cosine transform
Amin et al. Improved median edge detection (iMED) for lossless image compression
Preethi et al. Quantization table selection using firefly with teaching and learning based optimization algorithm for image compression
Al-Khafaji et al. Hierarchical Fixed Prediction of Mixed based for Medical Image Compression

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090825

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091026

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100702

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20100702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100702

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110126

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110330

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140408

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140408

Year of fee payment: 3

S201 Request for registration of exclusive licence

Free format text: JAPANESE INTERMEDIATE CODE: R314201

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140408

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140408

Year of fee payment: 3

S804 Written request for registration of cancellation of exclusive licence

Free format text: JAPANESE INTERMEDIATE CODE: R314805

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140408

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees