JP4717860B2

JP4717860B2 - データ圧縮方法及び画像表示方法及び表示画像拡大方法

Info

Publication number: JP4717860B2
Application number: JP2007216008A
Authority: JP
Inventors: 眞一郎湯村
Original assignee: 眞一郎湯村
Priority date: 2007-08-22
Filing date: 2007-08-22
Publication date: 2011-07-06
Anticipated expiration: 2027-08-22
Also published as: WO2009025347A1; JP2009049895A

Description

本発明は、デジタル信号から成るデータを、データの実質的な性質を保ったまま、データ量を減少させた別のデータに変換するためのデータ圧縮方法に関し、より詳細には、静止画像データ、動画像データ、音声データなどのデータを圧縮するためのデータ圧縮方法に関する。

また、本発明は、静止画像データ又は動画像データをディスプレイ上に表示させるための画像表示方法に関する。
また、本発明は、静止画像データ又は動画像データの表示画像を拡大表示するための表示画像拡大方法に関する。

近年、インターネットが仮想的巨大データベースとなりつつあり、例えば、医療診断データ、企業情報、行政上の各種事業情報、地理的空間情報、金融機関や保険等の個人情報などのデータの送受信において、データをより圧縮して、ネットワーク環境の負荷軽減、モバイルコミュニケーションやＷｅｂブラウザ閲覧による操作性の簡素化を図る一方、情報セキュリティ性能を高める為の高度な暗号化を図るといった新しいデータマネジメントが必要になってきている。

特に、医療診断データとして、画像検査・診断の急速な進歩に伴って、レントゲン装置やＣＴ、ＭＲＩ、ポジトロンＣＴ（ＰＥＴ）、マンモグラフィーなど多数の医用画像装置などで撮影される膨大な画像データを蓄積する必要が生じている。例えば、最新のＣＴでは、１秒間に約７８０枚のスライス断層写真を撮影可能で、人体全身を撮影した場合には、２０００枚にも及び、そのデータ量は１ＧＢを超えることになる。そのため、医療現場においては、年間で４０ＴＢもの画像データが生じており、さらには、医用画像には５年間の保存義務があるため、医用画像データを保存するためには、膨大な記憶装置が必要となっている。また、近年医療現場において使われている電子カルテで、医用画像データを表示する際には、画像データそのもののデータ量が大きいため、表示するために数分の時間を要している。

このような医用画像データの保存には、データ圧縮技術が重要になっている。データ圧縮技術には、オリジナルの画像データを損なわない可逆圧縮と、表示する際に人間の目で見て遜色のない程度のデータ損失を伴う非可逆圧縮がある。医用画像データの場合、画像診断の際には可逆圧縮を行った画像を用い、保管及び二次使用の際には画像データを非可逆圧縮することが一般的であり、従来、医用画像の圧縮には可逆圧縮及び非可逆圧縮の両方に対応したJPEG 2000が用いられている。

JPEG 2000は、画像データを８×８画素のブロックに分割し、そのブロック単位で空間
領域から離散ウェーブレット変換（Discrete Wavelet Transform；以下、ＤＷＴ）によって周波数領域に変換したうえで、JPEG（特許文献１を参照）と同じく、データを量子化したのちに、エントロピー符号化を用いてデータ圧縮を実現している。
特開昭６３−１４８７８９号公報

しかしながら、JPEG 2000によって可逆圧縮を行った場合、データ量は理論値で２．５
分の１、実際には２分の１程度の圧縮が限界である。また、データ量を小さくするために非可逆圧縮によってデータ量を１０分の１以下にするようなデータ圧縮を行ってしまうと、画質の低下が著しく、例えば、図８のような医用画像の場合には、毛細血管のような細部が潰れてしまい、診断が不可能となってしまう。

本発明は、このような現状に鑑み、可逆圧縮であっても１５分の１以上のデータ圧縮率が実現可能なデータ圧縮方法を提供することを目的とする。また、非可逆圧縮の場合、JPEG 2000による非可逆圧縮と同程度の画質の場合に、データ圧縮率がJPEG 2000の１０分の１程度となるデータ圧縮方法を提供することを目的とする。

また、本発明は、従来のJPEGやJPEG 2000、GIFなどの形式によって非可逆圧縮され、画像の細部が潰れてしまった画像データを鮮明に表示することが可能となる画像表示方法を提供することを目的とする。

さらに、本発明は、画像データの拡大を行う際に、従来のように表示画像が不鮮明とはならず、鮮明な表示画像で画像データの拡大を行うことが可能となる表示画像拡大方法を提供することを目的とする。

本発明は、前述したような従来技術における課題及び目的を達成するために発明されたものであって、本発明のデータ圧縮方法は、複数の値を有するデジタル信号から成るオリジナルデータを、データの実質的な性質を保ったまま、データ量を減少させた別の圧縮データに変換するためのデータ圧縮方法であって、
上記データ圧縮方法は、上記オリジナルデータを１６×１６のマクロブロックに分割し、各ブロックをさらに４×４のサブブロックに分割し、ニューラルネットワークを用いて予測ブロックを近隣の値によって形成して、予測データを形成するステップと、
前記オリジナルデータと予測データの相違となる残余データを形成するステップと、
前記残余データを空間領域のデータ及び周波数領域のデータを比較し、各変換ブロックで変換計算によって周波数変換するステップと、
前記各変換ブロックにおいて、各変換ブロックに入力されたデータを量子化するステップと、
前記周波数変換を、人工知能促進されたエントロピー・エンコード方式、可変長エンコード方式、演算コード方式のいずれかを用いて、エントロピー・エンコードするステップと、
を備えることを特徴とする。

このようにデータ圧縮の際に、ニューラルネットワークを用いることによって、次元削減がなされるので、例えば、画像や音声など多次元量のデータで、かつ、線形分離不可能なオリジナルデータに対して、比較的小さな計算量で良好な結果が得られることとなる。

また、本発明のデータ圧縮方法は、前記ニューラルネットワークが、フィードフォワードネットワークであることを特徴とする。
このように構成することによって、ニューラルネットワークにループする結合が存在せず、入力ステップ、中間ステップ、出力ステップというように、単一方向へのみ信号が伝播することとなるので、データ圧縮に要する演算が容易となり、データ圧縮を実用的な時間内で実行することが可能となるとともに、演算処理による負荷が低く抑えられるので、スペックの低いコンピュータであっても本発明のデータ圧縮方法を実行することができる。

また、本発明のデータ圧縮方法は、前記変換計算が、整数演算、ビットシフト、掛け算のみから構成されていることを特徴とする。
このように構成することによって、割り算や浮動小数点演算といったコンピュータでの演算速度が比較的遅い演算をする必要がないため、データ圧縮を実用的な時間内で実行することが可能となるとともに、演算処理による負荷が低く抑えられるので、スペックの低いコンピュータであっても本発明のデータ圧縮方法を実行することができる。

また、本発明のデータ圧縮方法は、前記量子化のステップにおいて、量子化媒介変数に応じて、前記各変換ブロックによって変換されたデータの一部を０に置き換えることを特徴とする。

このように構成することによって、データの非可逆圧縮を行うことができ、オリジナルデータの再現度は低下するものの、データの可逆圧縮に比べて大幅に圧縮率を高めることが可能となる。

また、本発明のデータ圧縮方法は、前記オリジナルデータが、静止画像データ、動画像データ、音声データのいずれかであることを特徴とする。
このように構成することによって、静止画像データ及び動画像データ、音声データについて、理論的には、オリジナルデータのデータ量の１／１５程度までデータ圧縮をすることができる。このため、例えば、ＣＴやＭＲＩなどの医用画像を蓄積・表示する場合であっても、従来の画像圧縮方法による画像データとして蓄積・表示する場合と比べて、ネットワークの負荷軽減、画像データの保存可能量の増加、画像データ保存期間の延長、画像データ表示速度の短縮化などが可能となる。

本発明によれば、画像データのデータ量を、可逆圧縮によって、１５分の１以上の大きさに圧縮することが可能となる。また、非可逆圧縮の場合であっても、データ圧縮による画像データの劣化を抑え、JPEG 2000による非可逆圧縮と同程度の画質の場合に、データ
量をJPEG 2000によって圧縮した画像データの１０分の１程度とすることが可能となる。

また、本発明によれば、JPEGやJPEG 2000、GIFなどの形式によって非可逆圧縮され、画像の細部が潰れてしまった画像データであっても、画像データを鮮明に表示することが可能となる。

さらに、本発明によれば、画像データの拡大を行う際にも、従来のように表示画像が不鮮明とはならず、鮮明な表示画像で画像データの拡大を行うことが可能となる。

以下、本発明の実施の形態（実施例）を図面に基づいてより詳細に説明する。
図１は、簡易ニューラルネット組織構造を説明する模式図、図２は、ニューラルネットのアルゴリズムを説明するための例として、２つの入力に対して排他的論理和演算を行う、誤差逆伝播ネットワークを表したネットワーク概要図、図３は、エンコーダーに対して入力されたデータがカレント接頭辞の記号として出力されるまでの流れを説明するフロー図である。
（ａ）予測画像イメージの生成
オリジナル画像データは、エンコーダーによって、１６×１６画素のマクロブロックに分割され、各ブロックをさらに４×４画素のサブブロックに細分化される。また、予測ブロックは、図１に示したような簡易ニューラルネット組織構造を用いて、近隣の値によって形成される。

なお、本発明の画像圧縮方法では、従来のように１６×１６画素のマクロブロックを単純に縦横４分割して、４×４画素のサブブロックに細分化するのではなく、１６×１６画素のマクロブロックを縦横２分割して、８×８画素のサブブロックに細分化したのち、この８×８画素のサブブロックを４画素分ずらすことによって、８×８画素のサブブロックが重複して、４×４画素のサブブロック（サブ領域）に細分化している。このように構成することによって、従来のようにそれぞれが独立した４×４画素のサブブロックに細分化されるのではなく、８×８画素のサブブロックを維持しながら、４×４画素のサブ領域を形成することができるので、８×８画素のサブブロック内の色彩パターンなどを連続した領域として数値化や圧縮処理することができる。このため、従来の圧縮形式に見られたブロックノイズを解除・低減することが可能となる。

また、ニューラルネットは、ニューロンをモデル化し、それを互いに多数結合させ接続し、ネットワーク状にしたものである。ニューラルネットの利点は、巧妙なアルゴリズムが全く必要ないということと、各々の処理を並列に計算できるということである。なお、この実施例に示される図１では、教師信号（正解）の入力によって与えられた問題に最適化されていく「教師あり学習」に分類される誤差逆伝搬法（バックプロパゲーション）を用いたフィードフォワードニューラルネットである、多層パーセプトロンを用いている。

誤差逆伝搬法を用いたフィードフォワードニューラルネットでは、最急降下法を用いて、実際の出力と希望の出力の誤差が最小となるように、結合荷重を変更する。この誤差逆伝搬法では、中間層がいくつあっても、この方法によって誤差信号を逆伝搬させ、どの層の結合荷重をも変更することが可能であり、さらには、出力関数に非線形のシグモイド型の関数を用いて結合させることにより、線形分離不可能な問題も処理できる特徴を有している。

図２において、円は極めて単純なアナログ演算装置であるニューロン、ユニット、もしくはノードであり、円の中の数字は、そのユニットの活性値を表している。
メインノードはレイヤ化されており、この場合、x値とy値を含む入力層、ひとつのノー
ドhを含む隠れ層、そして出力値zを持つ出力層の３層構造となっている。

図２では、この他に、バイアスユニットと呼ばれる、値が常に1.0となる２つのユニッ
トを有している。バイアスユニットはどの層にも属していないユニットである。
また、円同士をつなぐ線は重みを表し、その横に記載されているのが重みの値である。誤差逆伝播ネットワークの多くは隣接レイヤのみとつながっているが、図２では入力ユニットから出力ユニットを直接つなぐ線を２つ有している。例えば、ＸＯＲのような問題の場合には、このように入力と出力とを直接接続する追加接続がネットワークの学習を早めることとなる。

図２のネットワークは、入力−出力結合を追加した2-1-1ネットワークと記述すること
ができ、以下、2-1-1-xと短縮して表現する。
なお、ＸＯＲ関数z=xor(x,y)は、表１のように定義する。

出力ユニットz値の演算には、x値とy値を入力層のユニットに入力する。ここでは、例
えば、それぞれ1.0、0.0とする。初めに、隠れ層ユニットhをそれぞれの下位のユニット
と、隠れ層と結合したバイアスユニットとを確認する。そして、それぞれの結合に対して、ユニットの値に重みの値をかけて、全ての結果を合計すると、数１のようになる。

ここでは、線形活性化関数が使われているが、誤差逆伝播はこの値が、ある種の非線形関数に渡された場合のほうが、最もよく機能することとなる。数２に、最もよく用いられる非線形関数を示す。

sはニューロンへの入力値の合計であり、vはニューロンの値となる。すなわち、例えばs=4.34の場合には、v=0.987となる。この特殊な関数は、標準シグモイド関数やロジステ
ィック関数と呼ばれるものである。また、ニューロン値の計算のために使われる関数は、活性化関数、スカッシング関数、もしくは伝達関数と呼ばれる。

そして、出力ユニットz値の計算は数３のように行われる。

ここで、出力値として0.926という値が出力されているが、ある問題において出力を0もしくは1にしたい場合に、特殊な活性化関数を用いる場合、出力値に目標値と0.1以内の誤差が生じることはごく一般的なことである。

なお、ニューラルネットがＸＯＲ関数の計算を行うと表２の結果が得られる。

ニューロンの活性値の計算式jは、数４のように、より簡潔に記述することができる。
ニューロンjの活性値をo_jとし、活性化関数を一般関数とする。ニューロンjとニューロンi間の重みをw_ij、ニューロンjへのネットインプットをnet_jとした場合、数４のように
なる。

ここで、nはユニットjに入力する数値である。
このようなニューラルネットを用いた処理では、例えば、それぞれの文字ストリーム操作オブジェクト（チャートストリーム）は、チャンネルごとに8-bitから成り、エンコー
ダーはそれぞれのチャンネルに対して12-bitのエンコードコードを用いる。これにより、線図には各チャンネルごとに、赤、緑、青、4096のエントリーが可能となり、これは、各チャンネルごとに0から4095に値する記号が目印となる。

最初の２ⁿコード、２ⁿ-1を割り当てられたそれぞれのチャンネルは、１文字の線に初期化されるとともに、カレント接頭辞は０に初期化される。コードの値は0から255の8-bit ASCII文字に相当し、１つの文字線はルートと呼ばれる。

そして、図３に示したように、エンコーダーは文字を１つずつ読み込み、各文字が読み込まれるたびにカレント線が形成される。このカレント線は、カレント接頭辞に加えられたカレント文字から成る。

ついで、エンコーダーによって形成されたカレント線が、線表の中にあるかどうかを判断するため、線表の検索が実行される。そして、線表の中にカレント線が存在する場合は、カレント接頭辞がカレント線にセットされる。

一方、線表の中にカレント線が存在しない場合には、カレント線が線表に加えられ、カレント接頭辞の文字が文字ストリームの出力となり、カレント接頭辞がカレント文字にセットされる。

このプロセスは文字が入力されるたびに繰り返され、文字が完全になくなるまで続けられ、最終ステップとしてカレント接頭辞の記号が出力となる。
記号ストリームは7-bit ASCII文字セットを使った1-bit記号シーケンスからなり、これは記号ストリームの中で使用されていないパッディング・ビットが発生しないようにひとまとまりにしたもので、低オーダー・ビットコードは次に利用できる記号ストリームバイトの低オーダー・ビットに組み込まれる。ここで、豊富になった記号ストリームは、表３に示した記号コードにマッピングされる。この豊富なイメージマップ化された記号は、標準的なエンコード・マッピングプロセスにおいてエンコードの効率を劇的に上げることができ、非常に有効な働きを有するものである。

そして、表４に示したように、各４×４画素のサブブロックは、予測されるピクセル値を示す小文字で表示され、予測ブロックは、近隣で利用可能なピクセルのサブセットから
なされ、大文字で記される。

このプロセスを開始するために、図の左上の４×４画素のブロックに１２８の１６値がランダムに指定される。続く各ブロックは、９つのモードの中の一つと予測されるが、最上列と最左列のブロックには有効でないモードが存在することとなる。ここで９つのモードとは、
（１）ＤＣモード：サンプルA-Hからの平均＋サンプルI-L
（２）水平モード：左方向に外挿するI-L値
（３）垂直モード：下方向に外挿するA-H値
（４）右下ダイアグラム：図表の左上段端にある３つの大文字の直線勢力の平均。予測される全ての画素が同じ対角線上にある時には同じ値が与えられる。（傾斜＝−１）
（５）左下ダイアグラム：図表の右上段端にある３つの大文字の直線勢力の平均。予測される全ての画素が同じ対角線上にある時には同じ値が与えられる。（傾斜＝＋１）
（６）〜（９）：（４）及び（５）と同様の方法で、予測される画素は＋または−２、もしくは＋または−の傾斜の対角線上にあるもの
を示している。

この９つのモードは、画像のルミナンス・ピクセル値に関連するもので、クロミナンスは古典的な４：２：０方式でサブサンプルされている。その結果、各オリジナル画像データの１６×１６画素のマクロブロック画像に対して、それぞれの色のチャンネルに８×８画素のクロミナンスブロックが二つあることになる。この８×８画素のカラーボックスは上記ルミナンス予測方式と同じ形で予測されることになる。

各４×４画素のルミナンスブロック又は８×８画素のクロミナンスブロックで、近隣で許可された予測モードはそれぞれ計算にかけられ、各予測モードのオリジナルブロックと予測を比較し、ピクセルごとに絶対的に違いを割り出し合計される。この合計値はＳＡＥ値と呼ぶ。

ここで、ＳＡＥ値を絶対エラーの合計とすると、各ブロックに対して最もＳＡＥ値が少ないモードが最適モードとして選ばれ、この判断は圧縮された画像と共にエンコードされ、４×４画素又は８×８画素ブロックでモードが参照したポジションにリンクが貼られる。このようにして、予測画像イメージが作成される。

（ｂ）相違プロセスによる圧縮可能残余データ
上述するように、予測画像イメージが完成すると、オリジナル画像と予測画像との違いがピクセル単位でコンピュータ処理される。この処理の結果となる画像を残余画像と呼ぶ。この残余画像は、オリジナル画像に比べてデータが大幅に減少したにもかかわらず、より豊富なデータとなるもので、この残余画像を用いることによってさらなるデータ圧縮が可能となる。

（ｃ）変換プロセス
変換ブロックは、残余画像データを空間関係のデータと周波数関係のデータを比較して、これらを変換するものである。このように構成することによって、データは関係が除去され、圧縮率を高めることとなる。

ここでは、通常用いられる８×８ＤＣＴ（Discrete Cosine Transform：離散コサイ
ン変換）を使ったブロック基準の変換に替わり、新しく修正された４×４ＤＣＴを用いている。ＤＣＴの核となる変換プロセスの前の段階で全ての変換計算が整数、ビットシフト、そしてごく限られた掛け算のみで可能なように設計されており、これには割り算または浮動小数点演算は一切用いられていない。このように構成することによって、演算時間の劇的な短縮や、スペックの低いコンピュータであっても実用的な計算時間での圧縮処理が可能となる。

例えば、グレースケールの医用画像では、４×４画素のブロックがそれぞれこの変換プロセスを通過する。８×８画素のクロームブロックについては、各８×８画素ブロックを４つの４×４画素ブロックに再分し、これらの再分ブロックを変換することとなる。次いで、この４つのブロック（各カラーチャンネルにつき４つ）のＤＣ（最低周波）係数値が、小さな２×２画素アレイに配列され、ＤＣ係数がさらに相関隔離されるように変換される。この一連の操作が画像の高い圧縮率を容易にすることとなる。

（ｄ）量子化
各変換ブロックが、レベル０から５１の間のＱＰ（量子化媒介変数）値を持つ。ＱＰ＝０の場合には、変換値に変更は加えられず、ＱＰ値が高いほど変換値が０に置き換えられ、圧縮率を高める一方、圧縮された画像データの忠実度を減少されることとなる。

量子化の段階では、全ての値を整数に保つという目標を達成されるために変換値を再スケールする。このスケーリングの要素は、エンコードを行った時に選んだＱＰ値によって変わることになる。このため、最終ビットストリーム又は保存イメージには、ＱＰ値が含まれる必要があり、画像を表示される際のデコーダーは、そのＱＰ値を用いてインバース変換をする前に変換値をスケールバックするためにスケーリング値を参照することとなる。

（ｅ）エントロピー・エンコード
エントロピー・エンコードでは、近隣にあるブロックの０の数を数えることが出来るもので、近隣ブロックの０の数は相互関係にある傾向がある。このため、コーデックの使用目的によって、ＡＩ（Artificial Intelligence：人工知能）促進されたエントロピー・
エンコーディング、可変長エンコーディング、演算コーディングのうち、いずれかのエンコーディングを用いてエントロピー・エンコードを行ったとしても、パフォーマンスを高めることが可能となる。

このように、（ａ）〜（ｅ）のステップによって画像データをエンコードする場合、従来の画像圧縮方式に比べ、コンピュータへの負荷が小さくなる。さらには、従来の画像圧縮方法に比べ、データの圧縮率が高くなり、データ量を小さくすることが可能となる。具体的には、ＱＰ＝０とした可逆圧縮の場合、オリジナル画像（ビットマップ画像）のデータ量を１／１５程度にまで圧縮することが可能である。

なお、上述したようにニューラルネットを用いて、画像圧縮などの演算を行う場合には、例えば、以下に示すように、ニューラルネットに学習させる必要がある。
図４は、ＸＯＲ関数の計算を学習させる前の段階の2-1-1-xのＸＯＲネットワークであ
る。この例では、ネットワークの重みは全て０で始まり、学習プロセスの中で適切な重みに修正されていく。学習プロセスは以下のとおりである。
（１）入力ユニットに学習させる画像を入力する。
（２）隠れユニットと出力ユニットの値を検出する。
（３）出力ユニットにどれくらいの誤差が生じたかを検出する。
（４）誤差逆伝播法のひとつを適用し、出力ユニットに合わせて重みを修正する。
（５）（４）で用いたものとは別の公式を用いて、隠れユニットの誤差を検出する。
（６）違う公式によって、隠れユニットに合わせて重みを修正する。

（１）から（６）までのステップを全ての入力に対して繰り返し行うことによって、出力値が正解へと近づくこととなる。
次に、誤差逆伝播ネットワークの出力ユニットに入れる重みを調整する式について、f'を活性化関数fの微分、出力ユニットkの実際の活性値をo_k、目標値をt_kとし、エラーシグナルδ_kを求める式とするとき、エラーシグナルδ_kは数５となる。

ここで、数６のような通常の活性化関数の場合、微分方程式は数７となる。

また、出力ユニットkとユニットj間の重みの変更式w_jkは、数８となる。

hは学習率といい、比較的小さな正定数である。例えば、図４のネットワークにおいて
、h=0.1の場合、エラーシグナル及び重みの変更式は数９となる。

また、隠れユニットjの誤差δ_jの計算式は、数１０となる。

ここで、kサブスクリプトは出力層の全ユニットに使われるが、この例ではユニットは
ひとつしか存在しないので、数１１のようになる。

そして、新しい重みは数１２のようになる。

これらの新しい重みによって、出力層の活性値は0.507031となる。また、ＸＯＲ関数における、他の３つのパターンに対し同様に計算すると、表５のようになる。

ここで、出力値z_actualを正解であるz_desiredに近づけるためには、以上のステップを
反復計算する必要がある。しかしながら、正解との誤差を0.1以内とするためには、多大
な学習回数及び学習時間を要する。例えば、上述したステップを繰り返し、正解との誤差を0.1以内とするためには、２万回以上の反復計算が必要となる。

学習回数及び学習時間を減少させ、ＸＯＲ問題にかかる反復数を約１２から２０回に減少させることができる方法は、多数知られているが、学習率hを上げることによって、最
も簡単に学習回数及び学習時間を減少させることができる。表６は、学習率hと反復回数
の関係を示す表である。

表６に示したように、誤差逆伝播法の問題点のひとつとして、学習率hを3.0のように大きくしすぎると、学習に失敗してしまうため、学習率hは適切な値に設定する必要がある
。

以下、実際の画像データを本発明のデータ圧縮方法を用いてデータ圧縮した場合と、従来の圧縮方式によってデータ圧縮した場合との比較した結果を示す。
表７は、図５のレントゲン画像をロスレスのJPEG 2000によって圧縮した画像のデータ
量と本発明のデータ圧縮方法によって圧縮した画像のデータ量を比較したものである。

表７からも明らかなように、ロスレスのJPEG 2000によって圧縮した場合には、１／１
０程度の圧縮率なのに対して、本発明のデータ圧縮システムによって圧縮した場合には、データ圧縮率が１／６０程度とJPEG 2000によって圧縮した場合の１／６程度とすること
が可能である。

また、表８は、表７同様に、図５のレントゲン画像をJPEG 2000及び本発明のデータ圧
縮方法によって非可逆圧縮した場合のデータ量とデータロス率を比較したものである。

表８に示したように、オリジナル画像を、オリジナル画像の１／１０程度のデータ量にJPEG 2000によって非可逆圧縮した場合のデータロス率は、１４．９０％となる。これに
対して、本発明のデータ圧縮方法を用いて、非可逆圧縮をした場合、圧縮後のデータロス率はJPEG 2000による非可逆圧縮の場合よりも小さいにもかかわらず、圧縮後のデータ量
は、オリジナル画像のデータ量の１／６０程度、JPEG 2000による非可逆圧縮をした画像
の１／５程度とすることができる。

このように、本発明のデータ圧縮方法を用いて画像圧縮を行うことによって、圧縮率はオリジナル画像のデータ量にもよるが、可逆圧縮、非可逆圧縮に関わらず、従来の画像圧縮形式に比較して、大幅にデータ量を圧縮することができる。

なお、上述したようなデータ圧縮方法では、色データの定義や数値処理において、１０進法ではなく、１６進法を用いることによって、除数の四捨五入、切捨て、切上げによって生じる丸め誤差（rounding error）を最小限に抑えることが可能となる。

図６は、JPEGによって非可逆圧縮した眼球の画像、図７は、図６の画像を３倍に拡大した拡大画像、図８は、図６の画像を本発明の画像表示方法によって表示した画像である。
JPEGによって非可逆圧縮した画像は、ブロック単位で離散コサイン変換を行っているため、圧縮率をあげると、図７に示したように、ブロックノイズが生じてしまう。このブロックノイズは、各ブロックに本来必要なデータが残っていないために各ブロックごとで画像が不鮮明となるとともに、隣接するブロックとの不鮮明具合が一致していないために生じるものである。

以上、本発明の好ましい実施の形態を説明してきたが、本発明はこれに限定されることはなく、例えば、上記実施例では静止画像のデータ圧縮、静止画像表示、静止画像拡大についてのみを考慮に入れたが、動画像のデータ圧縮、動画像表示、動画像拡大にも用いることができ、また、音声データの圧縮などにも用いることができるなど本発明の目的を逸脱しない範囲で種々の変更が可能である。

図１は、簡易ニューラルネット組織構造を説明する模式図である。図２は、ニューラルネットのアルゴリズムを説明するための例として、２つの入力に対して排他的論理和演算を行う、誤差逆伝播ネットワークを表したネットワーク概要図である。図３は、エンコーダーに対して入力されたデータがカレント接頭辞の記号として出力されるまでの流れを説明するフロー図である。図４は、ＸＯＲ関数の計算を学習させる前の段階の2-1-1-xのＸＯＲネットワークである。図５は、本発明の圧縮方法とJPEG 2000との圧縮率の比較に用いた、レントゲン画像である。図６は、JPEGによって非可逆圧縮した眼球の画像である。図７は、図６の画像を３倍に拡大した拡大画像である。図８は、医用画像の一例である、眼球の画像である。

Claims

複数の値を有するデジタル信号から成るオリジナルデータを、データの実質的な性質を保ったまま、データ量を減少させた別の圧縮データに変換するためのデータ圧縮方法であって、
前記データ圧縮方法は、
前記オリジナルデータを所定画素数のマクロブロックに分割し、各ブロックをさらに所定画素数のサブブロックに分割し、該サブブロックごとにニューラルネットワークを用いて予測ブロックをサブブロックの近隣の値によって形成して、予測ブロックの集合から成る予測データを形成するステップと、
前記オリジナルデータと予測データの相違となる残余データを形成するステップと、
前記残余データを、変換計算によって空間領域のデータから周波数領域のデータに周波数変換するステップと、
前記周波数変換が行われた周波数領域のデータを量子化するステップと、
前記量子化が行われたデータを、人工知能促進されたエントロピー・エンコード方式、可変長エンコード方式、演算コード方式のいずれかであるエントロピー・エンコードするステップと、
を備えることを特徴とするデータ圧縮方法。
前記オリジナルデータを、１６×１６の画素数のマクロブロックに分割することを特徴とする請求項１に記載のデータ圧縮方法。
前記マクロブロックを、４×４の画素数のサブブロックに分割することを特徴とする請求項２に記載のデータ圧縮方法。
前記ニューラルネットワークは、フィードフォワードネットワークであることを特徴とする請求項１から３のいずれかに記載のデータ圧縮方法。
前記変換計算が、整数演算、ビットシフト、掛け算のみから構成されていることを特徴とする請求項１から４のいずれかに記載のデータ圧縮方法。
前記量子化のステップにおいて、量子化媒介変数に応じて、前記各変換ブロックによって変換されたデータの一部を０に置き換えることを特徴とする請求項１から５のいずれかに記載のデータ圧縮方法。
前記オリジナルデータが、静止画像データ、動画像データ、音声データのいずれかであることを特徴とする請求項１から６のいずれかに記載のデータ圧縮方法。