JPH08263649A

JPH08263649A - ニューラルベースの空間画像強化システム

Info

Publication number: JPH08263649A
Application number: JP8050843A
Authority: JP
Inventors: U Shaodong; ウシアオドング; G Sterns Richard; ジー．スターンズリチャード
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1995-02-21
Filing date: 1996-02-14
Publication date: 1996-10-11

Abstract

(57)【要約】【課題】ビットマップ画像の空間解像度を強化するニ
ューラルネットワークベースのシステムを提供する。【解決手段】ビットマップ画像はニューラルネットワ
ークの入力レイヤへ伝送される。ニューラルネットワー
クはルックアップテーブルに適切に実現される。ニュー
ラルネットワークの出力は、入力レイヤの解像度よりも
高い解像度を有するビットマップ画像データを含む。オ
リジナル画像に備えられる冗長な情報からより高い解像
度の画像を抽出できるよう、ニューラルネットワークの
ためのウェイトのトレーニングセットが得られる。トレ
ーニングセットは、ニューラルネットワークの出力を所
望の出力解像度を表すデータと組み合わせることによっ
て生成される。この比較はフィードバック信号を生成
し、該信号はニューラルネットワークへも提供される。
空間的に強化された出力画像に収束を生じるように、ウ
ェイティングが選択される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はデジタル画像の強化
技術に関し、より詳細には人工知能技法を用いる画像強
化に関する。

【０００２】本発明はよりコンパクトな伝送画像の有効
解像度を増加するのに特に適用可能であり、よりコンパ
クトな伝送画像の有効解像度の増加を特に言及して説明
される。しかし、本発明は、例えばより低い有効空間解
像度を有するデジタル入力の使用によって出力デバイス
の解像度を整合させることが望ましい任意のデジタル画
像形成システムにおいてなどのより広範囲のアプリケー
ションを有することが理解される。

【０００３】

【従来の技術】デジタル化は写真及びグラフィック技術
においてしっかりと定着されている。デジタル化された
画像は、画素（ "picture elements" ）と呼ばれる多く
の画像部分の各々に１つの数値を割り当てる。デジタル
化された画像は、画像の解像度即ち濃度によって特徴づ
けられる。これは、しばしばドットパーインチ（ "ＤＰ
Ｉ" ）と定義される。解像度は一般に、平らな画像上を
水平方向に及び垂直方向に測定される。別の値が各画素
に関連する。これは、白黒画像の場合、 "０" 又は "1"
のいずれかである。各画素の数値範囲は、色の区別を識
別する人間の能力の限界としてしばしばみなされる２４
ビットを越えることができる。

【０００４】画像の明瞭性又は完全性は共に解像度及び
カラーパレットによって示される。もちろん、これらの
値のうちの１つ又は双方を増加すると、写真の情報を記
憶及び／又は伝送するのに必要な情報量は実質的に増加
する。

【０００５】デジタル画像デバイスは、捕捉デバイス、
記憶デバイス、伝送デバイス及び出力デバイスに分類さ
れることができる。各段階において、可能な限り最も少
ない量のデータを用いて動作することが望ましい。しか
し、目的は出力として最も高い解像度の画像を得ること
である。データ量を少なくすると、より安価でより複雑
でない画像捕捉又はデジタル化デバイスが可能になる。
データがより少なくなると、より少ないキャリアバンド
幅を用いて画像をより迅速に伝送することも可能にな
る。

【０００６】捕捉画像に関連する解像度と表示画像に関
連する解像度とが一致しないと、特定の問題が生じる。
例えば、画像がある解像度で捕捉されて別の解像度で表
示される場合、モアレ効果などの干渉パターンが出力画
像を実質的に歪める可能性がある。

【０００７】画像のデジタル化、特に画像データの伝送
及び保存がより遍在するにつれ、様々な圧縮方式が生じ
ている。静止画像では、現在の水準はＪＰＥＧ（"Joint
Photographic Experts Group"）によって提供されてい
る。動く画像の水準はＭＰＥＧ（"Motion Picture Expe
rts Group"）によって提供されている。これらのシステ
ムは、中間記憶又は伝送のためのデータを "圧縮" する
ように比較的高い入力解像度画像のアルゴリズム集中分
析に強く依存している。より高い解像度の画像を抽出す
るように、リバースアルゴリズムが画像の生成前に適用
される。これらのシステムは有効であるが得られた画像
の解像度を強化することに関連せず、むしろ得られた画
像と最終的に眺められる画像との整合を試みることに関
連する。更に、このようなシステムは画像入力デバイス
の解像度を画像出力デバイスの解像度と整合することに
関連しない。最後に、このようなシステムは圧縮／圧縮
解除（ "ＣＯＤＥＣ")を実行するのにかなりの量の計算
力を必要とする。これらのシステムのアルゴリズムの複
雑さに依存すると、リアルタイムで圧縮／圧縮解除動作
をすることが不可能になりうる。

【０００８】

【発明が解決しようとする課題】本発明は、上述の問題
及び他の問題全てを克服する、デジタル化画像の解像度
変換のための新しい改良されたシステムを意図し、比較
的低い解像度の画像内に提供される冗長な情報から高解
像度の画像が抽出可能なシステムを提供する。

【０００９】

【課題を解決するための手段】本発明によると、２次元
のビットマップ画像を表すデータを受け取る入力部を含
む、ビットマップ画像のためのニューラルベースの空間
解像度強化システムが提供される。ニューラルウェイト
がトレーニングセットデータに従って予めセットされて
いるニューラルネットワークは、この入力画像を受け取
る。特定の解像度を有する入力画像とより高い解像度を
有する出力画像との間に収束を生じるために選択される
トレーニングセットデータが提供される。

【００１０】本発明の別の態様によると、上述のことを
実行するためにトレーニングセットデータを得る手段が
提供される。

【００１１】本発明の更により限定される態様による
と、比較的低い解像度の画像から高解像度画像を抽出す
る方法が提供される。

【００１２】本発明の更に別の態様によると、ビットマ
ップ画像のためのニューラルベースの空間画像強化シス
テムであって、関連するオリジナル画像を表すＮ₁×Ｎ
₂画素のビットマップ画像から成る入力データを受け取
る入力手段を含み、Ｎ₁及びＮ₂はそれぞれ正の整数と
定義され、入力レイヤ及び出力レイヤ間の移動の間に収
束を生じるように、ニューラルウェイトがトレーニング
セットデータに従って予めセットされるニューラルネッ
トワークを含み、前記入力データを前記ニューラルネッ
トワークの前記入力レイヤへ伝送する手段を含み、少な
くとも１つのｍ₁×ｍ₂のビットマップ画像部分から形
成されるＭ₁×Ｍ₂のビットマップ画像を表す出力デー
タを前記ニューラルネットワークの前記出力レイヤから
出力する手段を含み、Ｍ₁、Ｍ₂、ｍ₁及びｍ₂はそれ
ぞれ正の整数と定義され、Ｍ₁×Ｍ₂の画像が前記関連
するオリジナル画像に対して前記Ｎ₁×Ｎ₂のビットマ
ップ画像よりも高い画素の解像度を有するように画定さ
れる。

【００１３】本発明の利点は、いかなる事前圧縮も必要
とせずに低解像度の画像から高解像度の画像を得るシス
テムを備えることである。

【００１４】本発明の別の利点は、顕著な画像の劣化又
はアーチファクト（人工生成物）なしに低解像度の画像
から高解像度の画像を生成するシステムを備えることで
ある。

【００１５】本発明の更に別の利点は、デジタル化又は
入力デバイスの解像度と視覚的出力デバイスの解像度を
整合させるシステムである。

【００１６】本発明の更に別の利点は、ルックアップテ
ーブルによって安価に構成される人工知能ベースの解像
度強化システムを備えることである。

【００１７】本発明の更に別の利点は、単一画像に配置
される様々な画像タイプを識別し強化する画像解像度強
化システムを備えることである。

【００１８】本発明の更に別の利点は、上述のことを非
常に迅速に即ちリアルタイムで達成できるシステムを備
えることである。

【００１９】本発明の更に別の利点は、捕捉されデジタ
ル化された画像をスキャナーから得て、得られた画像の
アーチファクトをニューラルネットワークを介して補正
するシステムを備えることである。

【００２０】本発明の更なる利点は、以下を読み理解す
るにつれ当業者には明白になるであろう。

【００２１】本発明はいくつかの部分及び部分の構成に
おいて物理的な形をとりうるため、本発明の好適な実施
の形態が本明細書中で詳細に述べられ、その一部を形成
する付随図面に例示される。

【００２２】

【発明の実施の形態】本発明の好適な実施の形態を限定
する目的ではなく例示する目的のみである図面を参照す
ると、図面はより低い解像度のビットマップ画像からよ
り高い解像度のビットマップ画像への変換を実行するニ
ューラルネットワークベースのシステムを詳細に述べて
いる。用紙の文書を高解像度で走査することは、有効な
電子保存システム又は高忠実度ネットワークプリントシ
ステムにとって重要である。人間の眼の応答特性のた
め、（水平及び垂直双方の）３００ＤＰＩ又は６００Ｄ
ＰＩがレーザプリンタなどのプリントマシンに一般に使
用される解像度を提供する。プリントされた文書を顕著
なモアレ効果を生じずに走査するためには、文書を少な
くとも６００ｓｐｉ（スポットパーインチ）の解像度の
デジタル形式で走査又は入力することが望ましい。

【００２３】６００ＤＰＩのプリントマシンは比較的一
般的であるが、この解像度を備える走査又はデジタル化
デバイスは進歩した製造技術をセンサアレイに必要とす
る。従って、このような高解像度入力デバイスは高価で
ある。

【００２４】本明細書中に述べられるシステムは走査さ
れた画像内の冗長な情報を使用して、その空間解像度を
強化する。低解像度の画像はオリジナル画像の特性のた
めに冗長な情報を提供することが認識されるべきであ
る。例えば、スキャナー又は入力デバイスの解像度が十
分なレベル（テキスト文書の場合は２００ＤＰＩなど）
に達すると、隣接画素の値は一般的に密接に関連してい
る。この限定された情報はテキストのエッジを生成する
のに有益に把握され、実際に入力された即ち走査された
画像よりも高い解像度の出力を形成することができる。
より低い解像度で得られた画像にはニューラルウェイテ
ィングが実施され、この変換が実行される。

【００２５】付加的な冗長な情報が、走査された各画素
のグレースケール（又はカラー）値に提供される。これ
は、殆どのセンサの特性によって示される。典型的なス
キャナーシステムは８ビット又はそれより多くのグレー
スケール解像度を有する。この情報は把握され、テキス
ト及び背景のレベルがわかる場合は走査された画素内の
テキストエッジの位置を決定することができる。

【００２６】本明細書中に述べられるシステムは、エッ
ジの情報が重要である２レベルのテキスト画像で特に有
効である。これは、テキスト画像が隣接画素の間に強い
空間相関関係を有する限り当てはまる。通常の写真画像
は、非常に細かなピッチ及び鋭いエッジがない限り２０
０ＤＰＩで申し分なく走査されることが可能である。人
間の視覚認識は優れた統合を提供し、写真のコンテクス
トからグレースケール画像の詳細な情報を外挿する。好
適な実施の形態の解像度の強化は、２つの段階を用い
る。第１の段階は、サンプル画像を用いてニューラルネ
ットワークを設定しトレーニングすることである。第２
の段階は、ニューラルネットワークを走査された低解像
度の画像に適用し、より高い空間解像度を有する画素値
を生じることである。

【００２７】図１を特に参照すると、示されるのは低解
像度の走査された画像の画素グリッドＡである。開示さ
れる実施の形態では、Ｎ₁×Ｎ₂隣接画素の値を使用し
て、低解像度グリッドＡの特定の画素（ｉ、ｊ）内の高
解像度画素の画素値を計算する。画素１４（即ち部分
Ｂ）の解像度強化は、ｍ₁×ｍ₂によって示される。完
全な強化画像が、１つ又はそれより多くのｍ₁×ｍ₂領
域から形成されるＭ₁×Ｍ₂アレイによって提供され
る。Ｍ₁、Ｍ₂はそれぞれ正の整数である。ｍ₁及びｍ
₂の値は正の整数であり、走査された又は入力された画
像による要件セットによって決定される。値Ｎ₁及びＮ
₂は双方とも正の整数であり、以下により詳細に述べら
れるように、収束解をニューラルネットワークに与える
最小のものである。本明細書中に使用されるように、Ｎ
₁及びＮ₂のような下付きの変数は別個の値を示し、必
ずしも等しいとは限らない。

【００２８】画素グリッドＡは複数の画素１０から成
る。図１の例示では、解像度強化部分Ｂは画素の境界線
が１２で示されるＮ₁×Ｎ₂画像から抽出され、例えば
画素１４である。

【００２９】ここで図２を参照すると、本明細書中に述
べられる発明において提供されるようなニューラルネッ
トワークＣの概略図が述べられる。ニューラルネットワ
ークＣはＬ層のニューロンレイヤから成り、Ｌは正の整
数である。以下に詳細に述べられるように、ニューラル
ネットワークＣの各ニューロン２０は図３に提供される
例の構成によって示される。

【００３０】ネットワークＣは入力レイヤ２２に複数の
入力を有し、好適な実施の形態ではＮ₁×Ｎ₂である。
同様に、好適な実施の形態はｍ₁×ｍ₂のニューロンを
有する出力レイヤ２４を提供する。

【００３１】図３を特に参照すると、図２のニューロン
２０の各々の構成が詳細に述べられる。各ニューロン２
０には、複数の入力値（ｘ１、ｘ２、・・・、ｘｓ）が
入力される。各入力に対応するのは、関連するウェイト
値（ｗ１、ｗ２、・・・、ｗｓ）である。これらの値は
加算ユニット２８に提供される。得られた出力は、非線
形関数変換ｆ（ｚ）に伝送される。従って、ｚ＝ｗ１×
ｘ１＋ｗ２×ｘ２＋・・・＋ｗｓ×ｘｓである。ニュー
ロン２０の数は、レイヤＬの数と共に非常にアプリケー
ション固有であり、画像の特性に依存する。

【００３２】本明細書中に述べられるシステムでは、全
てのウェイトｗはトレーニングプロセスによって決定さ
れる。トレーニングを実行するために、低解像度の画素
グリッド及び高解像度のグリッドがスキャナーの解像度
及び所望の出力解像度に応じてセットされる。例とし
て、図１に示されるようにＮ₁＝Ｎ₂＝５及びｍ₁＝ｍ
₂＝３である場合、双方のグリッドをテストサンプル画
像にスライドさせることによって適切なトレーニングセ
ットが生成される。

【００３３】許容可能なテキストサンプルは様々なフォ
ントとサイズのテキストから成り、このフォントは完全
な又は完全に近いエッジの画定を有する。トレーニング
を簡潔にするため、２レベルのテキスト、即ち白黒のみ
を有するテキストが適切に選択される。８ビットのグレ
ースケールシステムでは、レベルは０〜２５５の範囲の
値で測定される。グレーレベルテキスト又は反転テキス
トでは、文字内の又は文字の外側の完全な画素のグレー
スケールは、セグメンテーションによって適切に決定さ
れる。従って、テキストは白黒テキストに変換され、本
文中に詳細に述べられるシステムによって処理されるこ
とができる。強化後、オリジナル文書を表すため、画素
値は適切に変換されてオリジナルなグレースケールレベ
ルに戻される。

【００３４】図４を参照すると、トレーニングセットの
適切な例が提供される。図において、シェード部分３０
はテキストを表す。同様に、白領域３２は文字同士の間
の又は文字内の空白を表す。小さなｍ₁×ｍ₂マトリッ
クス３６はしきい値によって処理されてフィルタリング
され、電子プリンタによって適切に容認されるバイナリ
（二値）ビットマップを生成する。しかし、このような
しきい値処理はしばしば望ましいことであるが、常に必
要であるとは限らないことが理解される。得られたｍ₁
×ｍ₂マトリックス３８は、ニューラルネットワークＣ
の所望の出力を形成する。ニューラルネットワークＣ
は、収束ウェイトパラメータが設けられると完全にトレ
ーニングされる。Ｎ₁×Ｎ₂のグレーレベル画素入力に
よって完全にトレーニングされたネットワークは、非常
に小さな誤差で所望のｍ₁×ｍ₂の高解像度マトリック
スを生成する。

【００３５】ここで図５を参照すると、トレーニングの
ための概略的なネットワークが提供される。一連のトレ
ーニングセットを入力としてニューラルネットワークＣ
に提供することにより、正確なウェイトパラメータの許
容可能なセットが得られる。トレーニングは、初めにお
およそのウェイトパラメータを推定することにより適切
に開始される。テストサンプルセットがＮ₁×Ｎ₂の入
力ライン５２に提供される。得られた値は次にｍ₁×ｍ
₂の出力ライン５４に提供される。ライン５２の出力
は、ライン５４に提供されるｍ₁×ｍ₂マトリックスの
所望の出力と比較される。この所望の出力は、一連の加
算器５６（１）、５６（２）・・・、５６（ｎ）によっ
て出力５２と比較される。加算器５６の出力は、サブシ
ステム５８の平均２乗誤差分析を受ける。この分析によ
って決定された平均２乗誤差は、ネットワーク予測の測
定値としてニューラルネットワークＣへライン６０を介
して伝送される。次に最小平均２乗アルゴリズム又は逆
伝搬トレーニングアルゴリズムが適切に実施され、平均
２乗誤差を最小にするのに選択されたウェイトパラメー
タの新しいセットを計算する。

【００３６】Ｎ₁×Ｎ₂、各レイヤのニューロンの数、
及びＬ、即ちニューラルネットワークＣにおけるニュー
ロンのレイヤの数が許容可能に選択されると、ウェイト
パラメータはｍ₁×ｍ₂マトリックスの最良の予測を与
える値の１セットにおいて収束する。即ち、それらの値
は最小の平均２乗誤差を供給する。これらのウェイトパ
ラメータを用いて、システムは（グレースケール情報を
適切に有する）低解像度のスキャンテキスト画像を用い
てより高い解像度の画像を得ることができる。

【００３７】上述の実施の形態は、テキスト画像につい
て言及された。しかし、このシステムは他のタイプの画
像、例えば写真、手書き、ファクシミリ、ハーフトーン
画像又は写真上のテキストでさえも有益に適用可能であ
る。

【００３８】ニューラルネットワークが一度トレーニン
グされると、ニューラルネットワークＣ、入力５０及び
出力５２を含む図５の部分のように、実施はニューラル
ネットワークを直接適用することによって達成される。
入力されたＮ₁×Ｎ₂の画像はニューラルネットワーク
Ｃによって変換され、５２において高解像度の小さなｍ
₁×ｍ₂出力を形成する。

【００３９】次に、２００ｓｐｉ、８ビット／画素の画
像から６００ｓｐｉ、１ビット／画素の出力画像への実
際の変化が述べられる。この代表的な変換において、初
めのビットマップの各画素は９個のバイナリ出力画素に
変換される。図６（ａ）及び（ｂ）を参照のこと。

【００４０】代表的なネットワークにおいて、ニューラ
ルネットワークは低解像度の情報、仮定上は対象となる
画素の値（図６（ｂ）のｗ_i,j）を入力として使用す
る。隣接画素の値を反映する更なる情報が使用される。
ニューラルネットワークの出力は、ｗ_i,j内に含まれる
６００ｓｐｉ画素のための９つの値から成る。ニューラ
ルネットワークは、既知の出力画像データを使用してト
レーニングされる。即ち、２００ｓｐｉの画像が使用さ
れ、２００ｓｐｉの画像に対して高品質の６００ｓｐｉ
バージョンの画像が利用可能である。このような画像の
対は、６００ｓｐｉ、８ビット／画素の画像で始めて該
画像を６００ｓｐｉのバイナリ画像及び２００ｓｐｉ、
８ビット／画素の画像に変換することにより適切に生成
される。

【００４１】このアプローチを実施するため、公知の３
レイヤパーセプトロンネットワークが適切に使用され
る。ネットワークは、標準の逆伝搬アルゴリズムを使用
してトレーニングされる。ネットワークの出力レイヤ
は、図６（ｂ）のｏ_3i-1,3j-1〜ｏ_3i+1,3j+1の画素に
相当する９つのニューロンを含むよう条件付けられてい
る。ネットワークの入力は、より柔軟である。この実施
の形態において入力値は、目標画素ｗ_i,j及び８個の最
も近い隣接画素からのみの情報を使用して生成される。
更に離れた画素からの情報は、更により良い結果を生じ
うることが理解される。このような追加の情報は、本明
細書中に述べられる開示によりたやすく実施されうるこ
とも理解される。

【００４２】画素の特定の選択はかなりアプリケーショ
ン固有であり、処理時間、メモリのオーバーヘッドなど
を考慮に入れなくてはならない。

【００４３】ニューラルネットワークを構成する簡素な
アプローチは、ネットワークへの入力情報として画素ｗ
_i,jの値を８つの最も近い隣接画素ｗ_i-1,j-1〜ｗ
_i+1,j+1の値と共に使用する。これにより、２００ｓｐ
ｉのビットマップ画像の小さな部分に相当する９つの入
力のネットワークが提供される。画素ｗ_i,jについての
局所のスロープ情報を提供することにより、改良された
表示が達成されることも可能である。例えば、適切な入
力は下の表１に提供されるように構成されることができ
る。

【００４４】

【表１】

【００４５】表に示される９つの数量は線形的に独立し
ており、画素ｗ_i,jに関する画像情報の級数展開にほぼ
対応する。即ち、表１の９つの数量から９個の画素ｗ
_i-1,j-1〜ｗ_i+1,j+1が正確に決定されることができ
る。従って、この表示を使用することによってネットワ
ークには追加の情報は与えられない。しかし、いくつか
のアプリケーションは、差し迫る問題に対して自然な物
理的意義を有する入力表示を使用することにより、より
高効率の改良されたニューラルネットワークを提供する
ことができる。以下に明白であるように、上記の表示に
より、例えば級数展開の高次の項（単数又は複数）を取
り除くことによって、必要に応じて十分な次数に入力の
数を減らすことができる。

【００４６】この例において、９つの入力ユニット、８
５の隠れユニット及び９つの出力ユニットから成る３レ
イヤニューラルネットワークは、２００ｓｐｉで８ビッ
ト／画素のテキスト及びラインアート画像をバイナリ
（２ビット／画素）で６００ｓｐｉの画像に変換するよ
うにトレーニングされる。図７において明らかなよう
に、ネットワーク入力は６００ｓｐｉの画像の一部から
得られ、２００ｓｐｉに変換され、上記の表１に従って
変換された。このトレーニングセットは、６００ｓｐｉ
画像のテキスト及びラインアートから得られる２０，０
００の入力／出力の対から成る。この例では、ネットワ
ークは小さな画像フィールド（３×３の画素）を使用し
てトレーニングされた。従って、このネットワークはロ
ーテーション、フォントのタイプ又はサイズなどの全体
的な画像特性に敏感ではなかった。しかし、トレーニン
グセットの多種のテキスト及びラインアートのタイプに
ネットワークをさらすことは有益である。ネットワーク
は一般に、その誤り率に明らかな収束が生じるまでトレ
ーニングされる。例えば、このネットワークは５０万回
の大きさのトレーニングサイクルを必要とするかもしれ
ない。

【００４７】ニューラルネットワークが一度トレーニン
グされると、即ちネットワークのウェイトが一度決定さ
れると、ネットワークは新しい低解像度画像の解像度変
換を実行するのに使用されることができる。このため、
低解像度画像の各画素がその３×３の近隣画素と共に抽
出される。表１の代表的な変換が、３×３の画素グルー
プに対して実行される。ネットワークの９つの入力ニュ
ーロンの値が設定される。ネットワークは通常のフィー
ドフォーワードの態様で実行される。ネットワークの９
つの出力ニューロンの得られた値はスレショルディング
され、解像度が３倍高い画像の９つの画素値を生じる。
例えば、図６（ｂ）を参照のこと。

【００４８】ほぼリアルタイムで画像変換を行うため
に、ルックアップテーブルが先のトレーニングされたネ
ットワークを使用して適切に構成される。従って、最終
の画像解像度の収束は実際のニューラルネットワークを
実行して行われるのではなく、低解像度画像の３×３の
近隣画素の値をルックアップテーブルのメモリアドレス
を用いて処理することによって行われ、ルックアップテ
ーブルの値はより高解像度の出力情報に対応する。

【００４９】現在では、経済的に適したルックアップテ
ーブルは数メガバイトのサイズしか提供しない。もちろ
ん、メモリサイズ又はコストの進歩及び全体の処理能力
の進歩はこれを変える。ルックアップテーブルはまた、
特定の実施の要件に関して非常にアプリケーション固有
である。この特定のサイズとは、ニューラルネットワー
クをトレーニングするのに使用される入力情報は約２０
ビットに制限されなくてはならない、ということであ
る。上述では、ネットワークへの入力データを生成する
のに８ビット低解像度画像の３×３の部分が使用された
ため、使用された情報は約９×８＝７２ビットである。

【００５０】ネットワークへの入力情報を２０ビットに
減らすために、次のアプローチが適切にとられる。ま
ず、低解像度画像から、図６（ｂ）の基本画素ｗ_i,j及
びその最も近い４個の近隣画素が考慮され、これらの画
素からニューラルネットワークへの入力が構成される。
更に、これらの５個の低解像度画素を組み合わせて（５
つの入力を含む）新しいニューラルネットワークへの入
力値を得る前に、低解像度の画素値は４ビット値に切捨
てられる。これは、２０ビットの情報に相当する。これ
らの５つの４ビット低解像度画素は組み合わされて、上
の表１に示される最初の５つの入力の組み合わせを生成
する。これは、新しいニューラルネットワークへの入力
として役立つ。

【００５１】ここでニューラルネットワークは、その９
つの出力において適切な値を生成するように、このより
限定された入力情報に対してトレーニングされる。これ
らはより高い解像度のデータ（図６（ｂ）のｏ_i,j）に
相当する。トレーニングが完了すると、ネットワークは
２０ビットのルックアップテーブルを充填するのに使用
される。ルックアップテーブルの各アドレスは、５個の
ソース画素の４ビット値の組み合わせに対応する。即
ち、図６（ｂ）の画素ｗ_i,j、ｗ_i,j+1、ｗ_i,j-1、ｗ
_i+1,j及びｗ_i-1,jである。５個の低解像度画素の各値
である各アドレスにつき、適切な入力ニューロン値が計
算される（表１）。更に、トレーニングされたニューラ
ルネットワークは、各画素ｗ_i,jに関連する９個の高解
像度画素に相当する出力を生成するように動作される。
次に、ニューラルネットワークのスレショルディングさ
れた出力が対応するメモリアドレスに配置される。全て
のアドレスがニューラルネットワークを通過すると、ル
ックアップテーブルは完了する。

【００５２】トレーニング及びルックアップテーブルの
生成の概略図が図８によって提供される。ルックアップ
テーブルを形成するため、システムはトレーニングセッ
ト即ちトレーニングウェイトの収集とこれらのウェイト
の実際の適用の双方を示す。ブロック１００から始める
と、高解像度バイナリ画像が入力される。ブロック１０
２に進むと、この画像は走査デバイスに選択的に提供さ
れる。この点から、走査処理のために低解像度グレース
ケール画像即ち空間的に歪められた画像がブロック１０
４において形成される。この後、最も近い近隣画素の組
み合わせが完了し、ニューラルネットワークへの入力値
（必ずしも画素値とは限らない）が計算される。ブロッ
ク１０６において、これらの値はトレーニングのために
ニューラルネットワークへ伝送される。

【００５３】ブロック１００の高解像度バイナリ画像
は、トレーニングのためにブロック１０８のニューラル
ネットワークへも伝送される。

【００５４】収束のテストの後、システムはブロック１
０８からブロック１１０へ進む。この点でネットワーク
はトレーニングされ、適切なウェイトが決定される。こ
れによりニューラルネットワークに入力が提供され、ブ
ロック１１２でニューラルネットワークがランされる。

【００５５】ブロック１１６において、全ての可能な入
力値が使用されてニューラルネットワーク入力を生成す
る。これらの値は、ニューラルネットワークへ入力され
る。ブロック１１２及びブロック１１６からの双方の出
力が伝送されてルックアップテーブルを形成し、該ルッ
クアップテーブルはブロック１１４において完全に構成
される。

【００５６】本明細書中に述べられるシステムによって
画像全体の解像度の総変換についての特定な詳細が述べ
られたが、画像全体の一部分又はサブセットのみをアド
レスすることがしばしば有益であることが理解される。
例えば、画像の特定の領域のみが特に重要である又は特
に対象になる場合がある。更に、全体の画像を介して進
む又はステップを進む間にこのような手順を繰り返し指
令することにより、各部分ごとに処理する態様で同様の
全体変換を達成することが可能である。

【００５７】ここで図９を参照すると、様々な上述の画
像タイプに順応する一般化されたシステムが提供され
る。ブロック７０において、生の低解像度画像が提供さ
れる。この画像はブロック７２においてセグメント化さ
れる。この点で、画像タイプに関する決定がなされる。
図では、テキスト、写真、ハーフトーン及び写真上のテ
キストの区別がなされる。

【００５８】本質的にテキストであると決定された画像
は、ブロック７４へ移る。この点で、システムはテキス
トのどの部分が黒でどの部分が白かを確定する。ブロッ
ク７４のテキストレベル情報はブロック７６へ伝送され
る。標準化されたテキスト情報はブロック７８のニュー
ラルネットワークへ提供され、その出力はまたブロック
７６へ伝送される。ブロック７６からの情報によって画
像の再構成がブロック８０でなされ、ブロック８０から
高解像度画像の出力が得られることが可能になる。

【００５９】画像セグメント化ブロック７２において対
象の画像が本質的に写真であると決定されると、ブロッ
ク８２へ進められる。この点で、写真用にトレーニング
されるニューラルネットワークの直接の適用が写真の情
報と共に提供される。これによって画像の再構成がブロ
ック８０においてなされ、高解像度画像の出力が得られ
ることが可能になる。

【００６０】ブロック７２においてハーフトーン画像と
決定されるとブロック８４へ進められ、ここでハーフト
ーン用にトレーニングされるニューラルネットワークの
適用が提供される。この後に画像再構成ブロック８０へ
進められ、高解像度画像の出力が可能になる。

【００６１】画像セグメント化ブロック７２によって写
真上のテキストの部分の存在が決定されると、ブロック
８６へ進められる。この点で、特に写真上のテキスト画
像用のニューラルネットワークの適用が提供される。こ
の後ブロック８０に進められ、この点から画像再構成及
び高解像度画像出力の生成がなされることが可能であ
る。ブロック８２、８４及び８６に使用されるニューラ
ルネットワークは、標準テキスト用のニューラルネット
ワークにおいて述べられる方法と非常に類似した方法で
設定されトレーニングされることができる。

【００６２】本発明は好適な実施の形態を参照して述べ
られてきた。本明細書を読み理解するにつれ、変更及び
変形が他の実施の形態に生じることは明らかである。請
求の範囲又はそれに相当するものの範囲内である限り、
全てのこのような変更及び変形が含まれるものと意図さ
れる。

【図面の簡単な説明】

【図１】本発明のシステムへの入力として提供されるよ
うな低解像度の走査画像の画素グリッドを示す。

【図２】本発明において適切に実施されるようなニュー
ラルネットワークの概略図を提供する。

【図３】図２に示されるような各ニューロンの基本構造
を示す。

【図４】本発明のニューラルネットワークにおいて適切
に実施されるトレーニングセットの一例を提供する。

【図５】本発明のネットワークトレーニングシステムの
概略図である。

【図６】（ａ）及び（ｂ）は、より低い解像度のグレー
スケールからより高い解像度のバイナリ画像への所望の
解像度変換を示す。

【図７】ニューラルトレーニングのシーケンスを要約す
るフロー図である。

【図８】ルックアップテーブルの構成のためのトレーニ
ング処理を要約するフローチャートである。

【図９】本発明の一般化された被走査画像の解像度強化
システムの概略図である。

【符号の説明】

Ａ画素グリッドＣニューラルネットワーク２２入力レイヤ２４出力レイヤ

フロントページの続き (72)発明者リチャードジー．スターンズアメリカ合衆国 95031 カリフォルニア州ロスガトスグレンウッドドライヴ 2300

Claims

【特許請求の範囲】

【請求項１】ビットマップ画像のためのニューラルベ
ースの空間画像強化システムであって、関連するオリジナル画像を表すＮ₁×Ｎ₂画素のビット
マップ画像から成る入力データを受け取る入力手段を含
み、Ｎ₁及びＮ₂はそれぞれ正の整数と定義され、入力レイヤ及び出力レイヤ間の移動の間に収束を生じる
ように、ニューラルウェイトがトレーニングセットデー
タに従って予めセットされるニューラルネットワークを
含み、前記入力データを前記ニューラルネットワークの前記入
力レイヤへ伝送する手段を含み、少なくとも１つのｍ₁×ｍ₂のビットマップ画像部分か
ら形成されるＭ₁×Ｍ₂のビットマップ画像を表す出力
データを前記ニューラルネットワークの前記出力レイヤ
から出力する手段を含み、Ｍ₁、Ｍ₂、ｍ₁及びｍ₂は
それぞれ正の整数と定義され、Ｍ₁×Ｍ₂の画像が前記
関連するオリジナル画像に対して前記Ｎ₁×Ｎ₂のビッ
トマップ画像よりも高い画素の解像度を有するように画
定される、ニューラルベースの空間画像強化システム。