JPH05303618A

JPH05303618A - 画像生成器

Info

Publication number: JPH05303618A
Application number: JP4350371A
Authority: JP
Inventors: Gary E Kopec; エドワードコペックゲイリー; Philip A Chou; アンドリューチョウフィリップ
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1991-12-10
Filing date: 1992-12-03
Publication date: 1993-11-16
Anticipated expiration: 2018-09-16
Also published as: EP0546843A2; US5321773A; EP0546843B1; EP0546843A3; DE69226338T2; DE69226338D1; JP3447762B2

Abstract

(57)【要約】【目的】複雑な画像を従来より短時間に処理可能な文
法型画像モデリングおよび認識システムを提供する。【構成】有限ネットワークにより確立された経路に基
づき、テンプレートのライブラリ１３０から選抜された
記号テンプレートを組み合わせることにより対象のビッ
トマップ画像１４０を構成するイメージ合成器１１０を
備える。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は画像生成および認識シス
テム、特に知的物体認識システムとして特徴づけられる
型のシステムに関する。

【０００２】

【従来の技術】引用文献としては、米国特許第５,０２
０,１１２号およびＳＰＩＥ（写真−光学計測技術者協
会）の会員であるチョウによる関連文献が「画像通信お
よび画像処理ＩＶ」１１９９号（１９８９年刊）の８５
２乃至８６３頁に掲載されており、引用したこれらの開
示内容はすべて、本明細書の一部として援用される。前
記米国特許公報はここでも同様に適用できる背景を開示
し、さらに画像の基底構造を区別する物体認識と区別し
ない物体認識との相違について説明する（画像の基底構
造を区別するものは「知的画像認識」とよばれる）。前
記米国特許公報および引用文献は、あらゆる商業的スキ
ャニング装置で生成されるビットマップにされた２値画
像ファイルの知的認識について開示し、前記米国特許の
アペンディックスではコードを含み、さらにこの２値画
像を処理し、２値画像ファイルが生成されるハードコピ
ーソースドキュメントを知的に再現する方法を開示す
る。

【０００３】特に前記引用文献では、音声認識において
すでに評価されている確率型の文法を利用してこのよう
な２値画像を解読（デコ−ド）する方法について開示す
る。この中で筆者の達した結論は、この認識システムの
特定の応用例すなわち音声のかわりに画像を利用する場
合、文脈自由型の確率文法が最適であり、通常の確率文
法の方が本来は構文解析時間が短いにもかかわらず不適
当であるという点である。

【０００４】あらゆるグラフィックス（図形）システム
はイメージング（画像形成）モデルに基づき、このイメ
−ジングモデル物体の基底構造の記述から前記物体の画
像を生成する方法を確定する規則の集合であるものと
し、さらに結果として得られる画素画像を構文解析する
ために利用される形式文法は同一イメージングモデルに
基づくものとする。

【０００５】上述の米国特許公報および引用文献（トミ
タ著「構文解析技術に関するＡＣＭ国際研究会」（１９
８９年刊）も参照）に開示されるように、２次元（２−
ｄ）画像構造を記述する形式文法を利用しようとするこ
れまでの試みではすべて、１次元句（フレ−ズ）の概念
を２次元（２−ｄ）矩形領域の概念と置換することで１
次元（１−ｄ）形式主義を導き出す手法がとられてき
た。通常、結果として得られる文法規則は、ある句に対
応する領域が一対の縦または横に隣接する小区域を組み
合わせることにより形成されるその方法を記述する。矩
形小区域が重ならずまたそれらの寸法および相対的位置
が複合領域も矩形となるような寸法および位置であれ
ば、前記矩形小区域を組み合わせてもよい。

【０００６】

【発明が解決しようとする課題】この手法の欠点の一つ
は、正規（有限状態）列文法に対する２次元対応物（カ
ウンターパート）は、画像モデリングにとってそれほど
有用ではなく、この結果、文脈自由２次元文法のみが研
究されてきたことである。引用文献に述べられているよ
うに、文脈自由文法を用いた計算結果によれば、通常、
構文解析時間は正規文法の場合、０（ｎ）であるのに比
べて終端記号（例、画素）の数において０（ｎ3）であ
る。この結果、画像画素へ直接文脈自由文法を適用して
も特に現実的なシステムは生成されない。

【０００７】さらに、領域を重複させないという必要条
件に基づくイメージングモデルは、この手法をテキスト
や式の画像へ適用するさいに、文字（「ｊ」等）が負の
サイドベアリングを有する場合があるためあまり問題と
ならないものの、楽譜のようなさらに複雑なグラフィッ
ク（図形）画像へこの手法を適用した場合には重大な障
害となる。上述の試みのさらに別の欠点は、認識文法は
通常、モデル化される画像の実例を認識するために利用
することにより実証されるという点である。認識時間が
長くなればこの方法は時間がかかると同時に不便であ
る。

【０００８】

【課題を解決するための手段】本発明の目的は、２値画
像を処理または復号するのに時間がかからない、あるい
は認識文法を確認するのに時間がかからない文法型文法
（ベースの）画像モデリング（モデル化）および認識シ
ステムを提供することである。

【０００９】本発明の他の目的は、楽譜のような複雑な
グラフィック画像を扱うことが可能な文法型画像モデリ
ングおよび認識システムを提供することである。

【００１０】本発明は、有限状態オートマトンをテキス
ト、式、楽譜および印刷されたデジタルデータを含む広
範囲にわたる種類の画像に利用可能にするイメージング
モデルに基づく。

【００１１】チョウの文献によって例示される先行技術
においては、再構成方法（プロセス）においてビットマ
ップ画像画素を文字や他の認識可能な形状に変換するコ
ンパイラで利用されるようなプロダクションの形式集合
あるいは生成規則を定義するために「文法」という用語
を使用する。プロダクションの集合として表される文法
は本発明で利用するためにはあまり適さない。「文法」
という用語を用いるかわりに、正規文法に対応する「有
限状態ネットワーク」という表現を用いて、ドキュメン
ト（文書）をビットマップへ変換するか、または前記ビ
ットマップからドキュメントを認識し再構成する装置ま
たは手段を表す。認識装置で使用される有限状態ネット
ワークが画像生成装置（イメージャー）で使用される有
限状態ネットワークと同一であればビットマップ画像を
作成する上で好ましく、この場合、計算時間が最小とな
るとともに精度が最大となる。しかしながら、本発明は
そのように限定されるものではない。本発明の認識装置
は他の方法で作成されたビットマップ画像であっても、
前記認識装置が前記画像に現れる文字の画像テンプレー
トの適当な集合へアクセスしたならば認識することがで
きる。たとえば、ビットマップ内の文字が１２ポイント
クーリエであることを認識装置が知っているかまたは指
示された場合、認識装置は認識処理においてそのフォン
トの標準印刷画像テンプレートを利用できる。画像生成
装置が同一有限状態ネットワークを利用せず、さらに文
字や他の形状が標準印刷画像テンプレートと関連してい
ない場合であっても、文字や形状の各々のサンプル（対
であれば好ましい）が本発明の一態様に従ってフォント
距離を推定でき適当なテンプレートが作成されるものか
ら供給されるのであれば、ドキュメントを認識し再構成
することができる。テンプレートが作成される精度によ
って再構成の精度が決まり、この精度は供給されたサン
プルを利用して試験することができ、さらに必要であれ
ば所要のレベルの精度を達成するまで試行錯誤法でテン
プレートを調整することができる。したがって、上述よ
りさらに以下の点が明らかとなる。すなわち、同一有限
状態ネットワークが前記画像生成装置で使用されていた
かまたは標準画像テンプレートを利用するだけで十分な
場合、本発明の認識装置ではフォント距離推定手順が利
用できるものの必要ではない。

【００１２】他の態様の画像合成方法は、イメージされ
るべき対象を画像生成器へ入力し、イメージされるべき
物体のクラスに対する有限状態ネットワークを入力し、
記号テンプレートのライブラリを提供し、有限状態ネッ
トワークにより確定された経路に基づきライブラリから
選択された記号テンプレートを組み合わせることにより
画像生成器に前記対象のビットマップ画像を構成させ
る。

【００１３】他の態様のデコーダは、画像認識システム
に用いられ、ビットマップ画像を作成するために利用さ
れる対象を再構成するデコーダにおいて、対象に現れる
記号にほぼ対応する記号テンプレートのライブラリと、
有限状態ネットワークにより確定される経路に基づきテ
ンプレートのライブラリから選択された記号テンプレー
トを組み合わせることにより対象を再構成するためにビ
ットマップ画像を構文解析する有限状態ネットワークと
から構成される。

【００１４】他の態様の画像認識方法は、デコーダへ再
構成すべきビットマップ画像を入力し、画像により表さ
れる対象のクラスに対する有限状態ネットワークを入力
し、画像の対象記号にほぼ対応する記号テンプレートの
ライブラリを提供し、有限状態ネットワークにより確定
された経路に基づきライブラリから選択された記号テン
プレートを組み合わせることによりデコーダに対象を再
構成させる。

【００１５】さらに他の態様の画像認識方法は、複数の
文字から構成されるドキュメントからドキュメントが知
的に再構成できる２値画像を生成する画像生成の有限状
態モデルから構成される画像認識方法において、絵文字
のサイドベアリングモデル属性を確定することでビット
マップにおける絵文字位置決めを確定する第１ステップ
と、第１ステップで確定されたように位置決めされた各
絵文字を表す文字テンプレートを生成する第２ステップ
と、ドキュメントを再構成するため有限状態ネットワー
クの経路にしたがって第２ステップで生成されたテンプ
レートの選択を用いて２値画像を構文解析する第３ステ
ップとを有する。

【００１６】さらに他の態様の画像認識方法は、複数の
文字から構成されるドキュメントからドキュメントが知
的に再構成できる２値画像を生成する画像生成の有限状
態モデルから構成される画像認識方法において、最小二
乗法手続きを用いて各文字のフォント距離を推定するこ
とによりドキュメントにおいて用いられる文字サンプル
から文字モデルを確立する第１ステップと、各ドキュメ
ント文字のテンプレートを生成し、画像を構成するため
テンプレートおよびマルコフソースを利用する第２ステ
ップとを有する。

【００１７】

【作用】本発明には数多くの重要な特徴があるがこれら
を簡単に要約すると以下のようになる。

【００１８】１．広範囲に分類される画像（テキスト、
音楽、式）の構造を画像認識に適した形態で記述する画
像生成の有限状態モデルが利用される。このモデルは手
続き上のもので、思想的にはポストスクリプト（Ｐｏｓ
ｔｓｃｒｉｐｔ）を非常に単純化されたものに類似し、
特に、デジタル印刷で広く利用されている文字位置決め
のサイドベアリングモデルに基づく。

【００１９】２．上述の型のモデルとして表される生成
プログラム（生成器）からあるクラスの画像のための画
像デコーダまたは画像認識装置を自動的に生成する方法
が提供される。生成プログラムからの認識装置の自動生
成には、再帰的定義済関数の集合を計算するスケジュー
ルの自動生成も含まれる。基本的な概念は、ＶＳＬＩ
（超大規模集積回路）分野の公知文献において展開され
開示されているような正規反復アルゴリズム用の線形ス
ケジューリング理論に基づく。

【００２０】３．上述の引用文献で開示されたビットマ
ップ整合関数を修正したものを利用する。この手法によ
り画像構成要素の重複に関する条件集合が緩やかなもの
となる。画像の構成要素は、素なバウンディングボック
スではなく素な支持を有しなければならない。つまり、
２次元画像文法を構文解析する言語では、その黒い画素
が重複しない限りは重複した小区域あるいは重複した矩
形バウンディングボックスを組み合わせればよいという
ことである。本発明の手法ではバウンディングボックス
および矩形は特別な意味をもたない。画像整合採点法に
利用される尤度関数を単に正規化することで条件が緩和
される。これによって画像の副構成要素のための確率処
理で利用されるスコアを、単純な加算によって組合せ可
能とする。

【００２１】４．ドキュメント認識に対する従来の手法
に比べ、本発明の方法は文字サイドベアリングや底線深
度等の印刷パラメータについてさらに詳細な情報を必要
とする。文字のサンプルを含む画像から上記画像生成プ
ログラムおよび認識装置が必要とするさらに詳細な文字
モデルを獲得する方法が利用される。この方法により、
最小二乗推定手順を用いて文字のサンプルを含む画像か
らサイドベアリングや底線深度パラメータ等のフォント
距離も推定される。

【００２２】以下の説明において、「文字」という用語
が使用されることがある。文脈によって特に指示されな
い限り、用語「文字」は最も広義な解釈が与えられるも
のとし、通常の記号を含み、アルファベット記号のみな
らず「絵文字」、言葉によらずに情報を伝える記号、さ
らに連結された黒の画素領域である「小斑点」を含む。
これらは「文字」と交換可能に用いられることがある。

【００２３】

【実施例】本発明を詳細に説明するには数学および数学
解析を多数用いる必要がある。この数学のあるものはす
でに公知である情報に基づき発明者が案出したものでは
なく、またあるものは新規である。このシステムの実現
は数学的展開を理解することで支援されるが、このため
読みにくく理解しにくいものとなっている。したがっ
て、数学的展開のあるものは数学的な興味のある読者の
ために一連の添付書類Ａ乃至Ｄにまとめてある。数学的
展開のあるものは本発明のいくつかの態様を定義するの
に不可欠となっている。膨大な量の式を請求項に書き込
むのを避けるため、数学的展開のそれぞれの部分をラベ
ル付けし、このように定義されたラベルを請求項内で利
用している。したがって、ラベルが利用されている部分
では対応する数学的記述が本明細書の一部として援用さ
れるものとする。

【００２４】本発明に関する上述の要約から明らかであ
るように、正規文法に対応する有限状態オートマトン
は、本技術分野ではすでに公知であるように、音声およ
び文字認識のための隠れマルコフモデルを用いた確率型
文法である。

【００２５】たとえば、１９８８年７月にサン・ディエ
ゴで開催された「神経網に関するＩＥＥＥ国際会議会
報」におけるブロンゾスおよびクンらによる論文、「音
響、音声および信号処理に関するＩＥＥＥ国際会議会
報」（１９８９年５月２３−２６）で発表されたブロン
ゾスおよびクンらによる論文（１７１９乃至１７２２
頁）、特に、後者で引かれた音声および文字認識に対す
る隠れマルコフモデル手法の特徴および実現について詳
細に開示する文献を参照されたい。この構成要件に関し
ては新規性を請求しない。本発明は使用されるイメージ
ングモデル、解釈に有限状態オートマトンの公知の原理
を利用可能とする文字の解析方法に関する。したがっ
て、本明細書の大部分において公知の構成要件が添付書
類中に含まれるか、または本明細書の一部として援用さ
れる。この詳細な説明の本体では本発明のシステムの基
礎となるイメージングモデルおよび文字解析態様につい
て焦点をあてる。

【００２６】古典的伝達理論に基づくドキュメント認識
問題の定式化は添付書類Ａに詳細に開示され、解決策が
画像ソースの適当なモデルを開発することにあり、さら
にチャネル特性を理解し、計算上十分な探査アルゴリズ
ムを利用することにあるということが示される。

【００２７】画像ソースモデルはメッセージソース１０
と画像生成装置（イメージャー）１１（図１）とを組み
合わせたものである。ソースモデリングに対して本発明
の手法では、文字形状記述および字間あけのサイドベア
リングモデル（Ｒ．ルーベンシュタイン著「デジタルテ
クノロジー」リーディング社／アジソン−ウエスレー、
１９８８年刊）を利用する。このモデルはデジタル印刷
では広く用いられており、ＰｏｓｔＳｃｒｉｐｔ（ポス
トスクリプト：アドビーシステム社、ＰｏｓｔＳｃｒｉ
ｐｔ言語レファレンスマニュアル、第二版、リーディン
グ社／アジソン−ウエスレー、１９９０年刊）等のペー
ジ記述言語で形式化されている。ここでは非常に簡単に
文字形状および字間あけについて述べ、さらに本発明の
画像ソースモデルを形式的に定義する。

【００２８】図５は文字形状を記述し位置決めするため
のサイドベアリングモデルを簡略化したものを図示す
る。文字の形状は一列とされた局所座標系によって決ま
るため、十字（クロス）で示される文字の起点は（０，
０）である。文字の設定幅は、一語の連続した文字をイ
メージ（画像形成）する場合、文字起点から次の文字の
起点が通常配置される地点までのベクトル変位→Δ'＝
［Δｘ，Δｙ］である。ベクトルは列ベクトルであ
り、'は移行を示す。ローマ字を含むほとんどのインド
ヨーロッパのアルファベットでは、Δｘ＞０かつΔｙ＝
０である。しかしながら、その他の筆記体系では、Δｘ
は負の場合があり（例、セム語）、またはΔｙがゼロで
ない場合がある（例、東洋絵文字）。Δｙ＝０の場合、
テキスト行における文字起点は同一直線上にあると同時
にテキストラインの底線を決める。文字のバウンディン
グボックス（境界付ボックス）は最小の長方形であり、
ちょうど文字を囲む文字座標軸で方向づけられる。文字
幅はバウンディングボックスの対応する寸法ｗである。
左サイドベアリングは文字の起点からバウンディングボ
ックスの左端部までの水平変位λである。サイドベアリ
ングがベクトル変位であると一般化することができる。
ベクトルサイドベアリングはＰｏｓｔＳｃｒｉｐｔ等に
より支援されるが使用されることは希である。同様に、
右サイドベアリングはバウンディングボックスの右端部
から次の文字の起点までの水平変位ρである。底線より
下の深度は文字起点から文字バウンディングボックスの
底部までの垂直距離μである。同様に、底線より上の高
さは文字起点から文字バウンディングボックスの頂上ま
での垂直距離である。サイドベアリングモデル設定幅の
水平成分は次のような関係でサイドベアリングおよびバ
ウンディングボックス幅と関連づけられている。

【００２９】

【数１０】同様に、サイドベアリングは次の関係により字間あけｄ
と関連づけられている。

【００３０】

【数１１】ただし、下つき文字ｌおよびｒはそれぞれ一対の左、右
の文字を示す。バウンディングボックスサイドベアリングのひとつあるいは双方が負の場合があ
る。たとえば、図５の「ｊ」の左サイドベアリングは負
であり、この結果、「ｂ」および「ｊ」のバウンディン
グボックスは重複する。しかしながら、図５に示される
ように、タイプフェイスは通常、隣接する文字バウンデ
ィングボックスが重複しても文字自身が重複することの
ないように設計されている。ここではこの観測を次のよ
うに形式化する。Ｑ∈ＦをあるフォントＦから引き出さ
れた文字テンプレートであるとする。Ｑ［→ｘ0］は、
その起点が→ｘ0に配置されるよう移動されたＱを示す
ものとする。次に示す、

【００３１】

【数１２】がＦの右グリーキングであると定義する。（ここでは、
２値画像と画像が非ゼロである場合［画像の支持］画素
の集合とを区別せず、両者を示すためにたとえばＱを使
用する。その意味するところは文脈から明らかとなる。
さらに、ここでは集合演算の画像支持への適用に対応す
る明らかな２値画像演算を示すように集合演算子標記を
用いる。）ＧRは右に一直線となったフォント文字の重
複である。文字の非重複に関する観測は、Ｑ∈Ｆである
各Ｑに対して次のような条件として形式化してもよい。

【００３２】

【数１３】ただし、φは空集合を示す。これは図６に図示される。
「ｊ」の起点は十字で示される。墨色（グレー）領域で
は、フォントからのすべての文字が重複している。ここ
で、各文字は起点で右にそろえられている。マルコフ・ソースソースモデリングに対する本発明の手法も、ネットワー
ク（マルコフ・ソース）として表現され、すでに公知の
確率的有限状態文法の利用に基づく。序論として、図７
はテキストの列に対する単純な文法の非公式な表現を示
し、状態遷移図の集合として表される（利用されている
標記は以下においてさらに完全に定義する）。各ネット
ワークの初期状態および最終状態はそれぞれｎI、ｎFと
してラベル付けされる。テキスト列は縦に、テキストラ
インおよびｖ字空間領域の交替列から構成される。ｖ字
空間はゼロまたは１以上のブランク画素行から成るホワ
イトスペースの可変長ブロックである。テキストライン
は交替するｈ字空間およびあるフォントから引き出され
た文字を水平に配置したもので、キャリッジ・リターン
で終わっている。さらに洗練された文法ならば、テキス
トライン中に可能な文字列を制限する言語モデルを実施
できる。たとえば、ＯＣＲ精度を向上させるため単語辞
典を利用することはこの構想（フレームワーク）に容易
に取り入れることができる。

【００３３】画像集合の構造は、図８に示されるような
マルコフ・ソースとしてのモデリング（モデル化）イメ
ージ生成によって形式的に捕らえられる。マルコフ・ソ
ースは状態（ノード、頂部）Ｎの有限集合および有向遷
移（枝、端部）Ｔから成る。各遷移ｔはそれぞれｔの先
行状態及び後続状態とよばれる一対の状態ＬtおよびＲt
を接続する。Ｎの区別された２つのメンバーは初期状態
ｎIと最終状態ｎFである。各ノードｎに関連するのは負
でない初期確率ｐ0nである。ただし、

【００３４】

【数１４】通常、初期状態ｎIに対してｐ0n＝１であり、他のすべ
てのノードに対してｐ0n＝０である。属性各遷移ｔは４項組の属性（Ｑt，Ｍt，ａt，→Δ
t）に関連し、ただし、Ｑtはテンプレート、Ｍtはメッ
セージ列、ａtは推移確率、→Δtは（文字の設定幅と同
様に）ｔのベクトル変位である。対ごとに飾りひげをつ
ける等の文脈依存の字間あけ規則を適用するためもあ
り、変位はテンプレートよりも遷移と関連する。マルコ
フ・ソースの経路πは、ｉ＝１．．．Ｐ−１の場合、

【００３５】

【数１５】に対して遷移ｔ1．．．ｔPの列である。完全な経路はＬ
t1＝ｎ1かつＲtP＝ｎFである場合の経路である。周期ま
たはループは、Ｌt1＝ＲtPの場合の経路ｔ1．．．ｔPで
ある。

【００３６】各経路πと関連するのは次の複合メッセー
ジであり、

【００３７】

【数１６】これは経路の遷移のメッセージ列を連鎖させることで形
成される。画像ソースにより生成される可能性のあるメ
ッセージの集合は正規言語であり、ソースモデル自体は
その言語を受け入れる有限状態オートマトンである。マ
ルコフソースは次の式によって経路に関する確率分布を
決定し、

【００３８】

【数１７】さらに次の式によってメッセージに関する確率分布を帰
納する。

【００３９】

【数１８】ただし、Ｍπは経路πに関連するメッセージである。

【００４０】また、各経路πに関連するのは、

【００４１】

【数１９】

【００４２】

【数２０】によって帰納的に定義される一連の位置→ｘ1．．．→
ｘP+1である。ただし、→ｘP+1は便宜的に導入されたも
ので、複合画像Ｑは、

【００４３】

【数２１】によって定義される。

【００４４】経路πに対して、ここでは

【００４５】

【数２２】が経路の変位であるものと定義する。数１３からの類推
により、ここでのソースは、各経路πに対してｉ≠ｊの
場合、

【００４６】

【数２３】となるように設計されている必要がある。この必要条件
の重要性はまもなく明らかとなる。別々の経路と関連す
るメッセージおよび画像が別個であれば、マルコフソー
スは単線であるといわれる。その場合、

【００４７】

【数２４】である。単線のソースは数５の向きでは１対１である。
説明を簡単にするため、ここでは画像ソースが単線に設
計されたものとする。記号テンプレート数２１により定義されるイメージングモデルは解釈が単
純である。透明なプラスチックシートのコレクションが
あったとし、Ｑの起点をシートの中心としながらシート
の各々にあるテンプレートＱのコピーが塗られていると
する。経路πの各遷移ｔiに対して、Ｑtiを有するシー
トはシートの中心を→ｘiに一直線としながら重ねた透
明シートの最上部に置かれる。透明シートが積み重ね終
わるとＱπが定義される。塗られた個々のシートは極め
て重なりやすいものとする。バウンディングボックスは
このイメージングモデルでは特に役割がないので、重複
してもテンプレートバウンディングボックスにとっては
差し支えない。しかしながら、数２３により、シート上
の塗られた領域は互いに素でなければならない。

【００４８】画像ソースはメッセージ列と画像との関係
を基礎となる経路および数１６および数２１により定義
する。ここでの第一の関心事は観測された画像からのメ
ッセージを回復することであるが、ソースモデルを利用
して特定のメッセージの画像を生成してもよい。上述の
ように、画像モデルは前記モデルによって生成されたメ
ッセージの言語に対する有限状態アクセプタを定義す
る。したがって、メッセージ列をＭとすると、Ｍπ＝Ｍ
の場合、経路を一つ求めるための完全経路πが存在する
かどうかおよびこのような経路が存在するかどうかを確
定するためのすでに公知の手続きが存在する。数２１に
より定義された画像ＱπはＭの画像である。合成のため
に画像モデルを利用するのは、あるクラスの画像のソー
スモデルであって復号に利用されるソースモデルを設計
する上で効果的な手法である。チャネルモデルチャネルモデリングの目的は、数９で利用するＬ（Ｚ／
ＱM）に対する式を引き出すことである。これについて
は添付書類ＢおよびＣで説明する。デコーダさて、画像ソースおよびある観測された画像Ｚが与えら
れたとする。数９へ導く添付書類Ａの説明により、Ｚの
ＭＡＰ復号はソースを介して完全経路πを求めることと
同等である。このソースは、制約→ｘ'P+1＝［ＷＨ］
を条件として、

【００４９】

【数３０】を最大にする。仮にソースが数５を満足する単線マルコ
フソースであるとすれば、数１７を利用し、

【００５０】

【数３１】

【００５１】

【数３２】

【００５２】

【数３３】数３３および数２９を数３０へ代入すれば、

【００５３】

【数３４】が得られる。

【００５４】数３４の右辺を最大にする経路を求めるこ
の手法は、公知のヴィテルビ（Ｖｉｔｅｒｂｉ）アルゴ
リズムが隠れマルコフモデル（ＨＭＭｓ）を用いた音声
認識において利用されたのを真似たものである（Ｘ．フ
ァン、Ｙ．アリキ、Ｍ．ジャック共著「音声認識用隠れ
マルコフモデル」エジンバラ大学出版、１９９０年
刊）。音声の場合に対する直接類推により、帰納的に定
義された関数を計算すればＺは復号することができる。
この関数は、図１０に図示されるように、各（ｎ，→
ｘ）∈Ｎ×Ωの場合、

【００５５】

【数３５】である。前記帰納のあいだ、適宜、対応する最上の経路
が回復されるようにバックポインタが格納される。デコーダスケジュール数３５の計算にはＮ×Ωの要素が現れる順序を特定する
必要がある。このような順序の特定は帰納スケジュール
と呼ばれる。有効スケジュールは、数３５の右辺に現れ
る各Ｌ（Ｌt；→ｘ−→Δt）の計算のあとでのみＬ
（ｎ；→ｘ）が計算できる場合があるという制約を満足
しなければならない。音声隠れマルコフモデルの場合、
インデックス集合Ωは１次元間隔［０，Ｔ］であり、→
Δt∈｛０，１｝は非負スカラである。ここで、→Δ＝
０である遷移がゼロ（マル）遷移と呼ばれる。隠れマル
コフモデルがゼロ遷移の閉ループを含まない場合、その
ノードはΩの要素が０，１，．．．，Ｔの順序で現れる
時にスケジューリング条件が満足されるように順序づけ
してよい。さらに、ゼロ遷移の閉ループに対して隠れマ
ルコフモデルを試験し、ノードを分類するのは単純な手
続きである。Ωが多次元であるとともに→Δの成分が画
像ソースモデルの場合と同じく符号上制限されていない
場合、数３５のスケジューリングは隠れマルコフモデル
のスケジューリングよりも極めて複雑なものとなる。こ
こでは正規反復アルゴリズムのための線形スケジュール
の公知である一般理論に基づきこの問題に対する手法を
展開させる（Ｓ．ラオによる博士論文「プロセッサ配列
に関する正規反復アルゴリズムおよびその実現」（スタ
ンフォード大学、１９８５年１０月刊）、およびＡＣＭ
会報第１４号（１９６７年刊）の５６３乃至５９０頁に
掲載されたＲ．カープ、Ｒ．ミラー、Ｓ．ウィノグラッ
ド共著「一様漸化式の計算編成」を参照）。

【００５６】復号スケジュールは非負であり、各ノード
ｎ∈Ｎおよび画像地点→ｘ∈Ωに対し数３５を用いてＬ
（ｎ；→ｘ）が計算される「時間」を割り当てる整数値
の関数｛Ｓn（→ｘ）｜ｎ∈Ｎ｝の集合である。数３５
のデータ従属性と一致させるため、有効スケジュールは
各遷移ｔ∈Ｔの場合、

【００５７】

【数３６】という条件を満足しなければならない。ただし、各→ｘ
∈Ωである。スケジューリング問題に利用可能な構造を
強制するため、通常、スケジューリング関数がアファイ
ン変換となるよう制約を与える。このため、

【００５８】

【数３７】となり、ただし、

【００５９】

【数３８】かつγn≧０である。Λnの成分は符号上制約されること
がない。数３７のスケジュールは線形スケジュールと呼
ばれる。→Δπ＝→０に対してループπが存在しない場
合、また存在しない場合にのみ数３６を満足する線形ス
ケジュールを求めるのが可能であるということが、線形
スケジューリング理論の基本的な結果である。このた
め、全体変位がゼロ（ベクトル）であるループをもたな
いグラフが計算可能であるといわれる。頂部から底部ま
で行ごとに画像を復号するため動機づけされたスケジュ
ールの式に対してやや強めの制約を与える。行優先線形
スケジュールは、

【００６０】

【数３９】における線形スケジュールである。ただし、λx≧０か
つλy＞０かつ、

【００６１】

【数４０】である。

【００６２】数４０の結果は、各ノードｎに対して、行
ｉ＋１のあらゆる画素に対するＬ（ｎ；→ｘ）を計算す
る前に画像の行ｉの各画素に対するＬ（ｎ；→ｘ）を計
算することを要求する点である。しかしながら、ｎ1お
よびｎ2が異なるノードであれば、行優先制約条件はＬ
（ｎ1；→ｘ）とＬ（ｎ2；→ｘ）の計算順序を強制する
ものではない。したがって、たとえば、行ｉ＋１に対す
るＬ（ｎ2；→ｘ）を計算した後に行ｉに対するＬ（ｎ
1；→ｘ）を計算する場合がある。

【００６３】添付書類Ｄでは、Δｙπ＜０となるような
ループπが存在しなければ計算可能な画像デコーダに対
して行優先線形スケジュールが求められる場合があると
いうことを示す。これを示すため、行優先スケジュール
の特定形式に対する単純な制約条件を与える。強制的な
行優先スケジュールは、Ｓn（→ｘ）≡Ｓn（ｘ，ｙ）が
ｎによって次の二つの式のいずれかを有する行優先スケ
ジュールである。すなわち、

【００６４】

【数４１】または、

【００６５】

【数４２】のいずれかである。ただし、ＭはＮにおけるノード数で
あり、Ｋは正の定数であり、

【００６６】

【数４３】

【００６７】

【数４４】

【００６８】

【数４５】であるが、ただし、Ｓn1（ｘ，ｙ）およびＳn2（ｘ，
ｙ）が同一式である場合のみＰn1＝Ｐn2である。

【００６９】数４３乃至数４５により、強制的な行優先
スケジュールはＬ（ｎ；→ｘ）の値を計算する４レベル
入れ子型反復として単純な解釈を有する。反復のレベル
はそれぞれ数４１または数４２の右辺の４項に対応す
る。

【００７０】図３２に示されるとともに以下でさらに詳
述されるように、最も外側のレベルはｙを繰り返し、次
の行へ進む前に所与の行の各ｎおよび→ｘに対するＬ
（ｎ；→ｘ）を計算する。前記最も外側のレベルが行ご
とに進むのは、各ｎ1、ｎ2、ｘ1、ｘ2に対して、

【００７１】

【数４６】であるという事実を反映している。第２レベル（ｙは固
定）はｐnで索引付された一連のＫ「パス」を繰り返
す。パスはＮのノードの部分集合に対応する。ｐn1＜ｐ
n2であれば、各ｘ1、ｘ2に対して

【００７２】

【数４７】であるため、ｎ2に対するパスよりも先にｎ1を有するパ
スが発生する。第３レベル（例、ｙおよびｐnを固定）
はｘを繰り返す。Ｓn（ｘ，ｙ）が数４１となるような
パスにｐnが対応する場合、この反復はｘが増加する順
に進む（左から右へ）。一方、Ｓn（ｘ，ｙ）が数４２
となる場合、反復は右から左へ進む。最後に、反復の最
も深いレベル（ｙ、ｐnおよびｘを固定）では、γnが増
加する順にパスのノードに対するＬ（ｎ；→ｘ）の数値
を求める。フォント距離マルコフソースの各遷移はテンプレートＱおよび変位→
Δでラベルづけされる。さらに、復号およびイメージン
グのあいだに正確にテンプレートを一直線化（整合）す
るには文字サイドベアリングλおよびρ、文字底線μの
知識が必要となる。場合によっては、テンプレートおよ
び距離パラメータを公知のフォントテーブルから利用し
てもよい。しかしながら、フォント距離テーブルが利用
可能であっても、その値は不適当な場合があり、特に、
低解像度装置において小型サイズでイメージされたアウ
トラインフォントでは不適当である。アウトラインフォ
ント距離は通常、標準フォントサイズで与えられ、他の
サイズに対する値は拡大縮小によって得られたものであ
る。文字設定幅は通常、文字サイズに合わせて線的に拡
大縮小され、フォントテーブルから正確に予想できる場
合もある。しかしながら、フォントインタプリタが「ヒ
ント」を利用することによりステム幅等の絵文字の寸法
を調節するため、文字画像のサイドベアリングおよび底
線が、テーブルから推定された値よりずれることがあ
る。これらの想定される問題を避けるため、図１６に
示したような設計されたサンプルテキスト画像から文字
距離を推定する手続きを開発した。この手続では、ある
フォントで印字されたテキストおよびそのテキストの筆
写版が入力される。さらにこの手続きでは、ビットマッ
プテンプレートおよび各文字ごとにフォント距離値（サ
イドベアリング、底線深度および設定幅）が出力され
る。このフォント距離推定手続きにより、図５に定義さ
れるように一つのフォントの各文字ごとに左右のサイド
ベアリングλおよびρ、設定幅Δｘ、底線より下の深度
μが推定される。この手続きにはサンプルテキストを有
する画像、このテキストの筆写版が入力されるため、こ
の絵文字の恒等式がわかる。テキスト画像を解析するこ
とにより絵文字バウンディングボックスと字間あけｄと
の座標を得られるものと仮定する。また、λ、ρ、Δ
ｘ、μは、絵文字起点の位置に関する情報がなければ直
接計測することができないものとする。このような情報
が得られないことが、フォント距離推定問題の原因であ
る。サイドベアリングおよび底線パラメータを推定する
手続きについては別に後述する。

【００７３】数１１は、サンプル画像において隣接する
絵文字の対ごとの式から成る一組の一次方程式を解くこ
とによりサイドベアリングが確定できることを示す。こ
の問題点は、テキスト画像が所与の文字組のサンプルを
２個以上有する場合、サイドベアリング方程式が重複決
定される場合があるということである。印刷の歪みまた
は走査の歪みの結果として、所与の文字組に対する観測
された絵文字間あけが変動する場合がある。その結果、
同じ左右のサイドベアリング変数が、異なる値ｄととも
に２個以上の数１１にあらわれる場合がある。この型の
重複決定された式を扱う標準的な手法は、最小二乗法パ
ラメータ最適化の一つとして推定問題を再度定式化する
ことである（Ｗ．Ｈ．プレス、Ｂ．Ｐ．フラナリ、Ｓ．
Ａ．トイコルスキー、Ｗ．Ｔ．ベターリング共著「Ｃに
おける数的秘法」ケンブリッジ大学出版、１９８８年
刊）。これが本発明の推定手続きの基礎となっている。最小二乗法推定手続き左右のサイドベアリングがそれぞれλkおよびρkであっ
て、Ｃk（ｋ＝１．．．Ｋ）を文字の集合とする。さら
にＰi（ｉ＝１．．．Ｍ）がテキストのサンプルが像に
おけるｉ番目の対の絵文字を示すものとする。ただし、
この対の左右の絵文字はそれぞれ文字ＣliおよびＣriの
画像である。「文字」という用語は通常の意味で使われ
ているものの、絵文字に関連する文字ラベルはあらゆる
型のラベルであってよい。たとえば、画像の絵文字は、
形状の類似性またはその他の性質に基づいてそれぞれの
群に区分されてもよい。さらに、推定手続きにおける
「文字」ラベルと同様に使用されるように固有の識別子
が各群へ割り当てられる。各Ｐiに対して、Ｃriおよび
Ｃliの左右サイドベアリングは絵文字間あけｄiへ関係
づけられる。すなわち、

【００７４】

【数８６】ただし、εiは雑音および歪みの影響を引き起こす確率
変数である。全体二乗法サイドベアリング推定誤差は、

【００７５】

【数８７】であり、ρkおよびλkの最小二乗法推定は＾ρkおよび
＾λkで示され、共同的にＥSを最小とする値である。サ
イドベアリング誤差は、

【００７６】

【数８８】であり、かつ

【００７７】

【数８９】の時に最小となる。

【００７８】条件８８は、

【００７９】

【数９０】ということを暗示する。ただし、δi,jはクロネッカー
のデルタ関数である。数９０の第一項は、

【００８０】

【数９１】と書くこともできる。ただし、

【００８１】

【数９２】は、その左項がＣkの例である絵文字組の数である。同
様に、

【００８２】

【数９３】である。ただし、

【００８３】

【数９４】は、その左右の項がそれぞれＣkおよびＣjの例である絵
文字組の数である。最後に、

【００８４】

【数９５】である。ただし、ｄi(k,★)は、その左文字がＣkである
ｉ番目の対に対する絵文字間あけである。数９１、数９
３、数９５を数９０へ代入し、Ｍk,★で除すと、ｋ＝
１．．．Ｋのとき、

【００８５】

【数９６】となる。

【００８６】数９６の右辺は、左の絵文字の文字コード
に対して条件づけされた平均絵文字間スペースを推定す
るものとして解釈してもよい。このため、

【００８７】

【数９７】である。ただし、Ｅは期待値演算子である。同様に、

【００８８】

【数９８】であるため、数９６は、ｋ＝１．．．Ｋのとき、

【００８９】

【数９９】と書くことができる。数８９からはじまる同様の導出に
よって、ｋ＝１．．．Ｋのとき、

【００９０】

【数１００】で表される条件が導かれる。最小二乗法推定の通常の用
語法に一致させて、以下、数９９および数１００はサイ
ドベアリング標準方程式とよぶ。これらの式は行列形式
に置き換えることができる。すなわち、

【００９１】

【数１０１】となる。ただし、

【００９２】

【数１０２】

【００９３】

【数１０３】であるとともに、ＩkはＫ×Ｋ恒等行列である。

【００９４】サイドベアリング標準方程式は本質的に劣
決定されるため、ほとんど問題は生じない。直感的に
は、左右のサイドベアリングの対ごとの合計のみが数８
６により直接、観測可能であるため、観測された絵文字
間あけに影響を与えずに定数を各右サイドベアリングへ
加え、左サイドベアリングから引くことができる。この
曖昧さは、＾ρiおよび＾λiが数１０１を満足する場
合、ｉ＝１．．．Ｋのとき

【００９５】

【数１０４】であるため、あらゆるγに対して＾ρi＋γおよび＾γi
−γを実施するものとすることによって形式的に論証さ
れる。曖昧さを解決する単純な方法は＾ρ1＝０を選択
することである。その場合、２Ｋ×２Ｋ係数行列の第一
行および第一列と、数１０１の２Ｋ×１列ベクトルの第
一行とを削除することで少なくなった一次方程式の集合
を解くことで残りの２Ｋ−１個のサイドベアリングが確
定できる場合がある。標準方程式を解いた後、何らかの
定数を加算および減じることにより推定されたサイドベ
アリングを調節することができる。たとえば、通常の印
刷経験を反映させて「Ｏ」の左右サイドベアリングを等
しくすることができる。

【００９６】推定に利用されたテキストサンプルの統計
によって、サイドベアリング標準方程式の自由度が付加
される場合がある。対応する文字が画像中の絵文字組の
右（左）項として発生しなければ、明らかに、ある左
（右）サイドベアリングを推定することは不可能とな
る。テキスト画像が十分な数の個別の文字組のサンプル
を含まなかった場合、さらに微妙な形の不確定性が生じ
る。数８６の等式はサイドベアリング変数ρliおよびλ
riとの間の二項関係を表すものとして見てもよい。この
関係の遷移的な閉包はすべての絵文字組のあいだで、サ
イドベアリングの集合を相互依存変数の同値類へ分割す
る。各同値類は、独立的に解くことが可能なサイドベア
リング方程式の完全集合の部分集合に対応する。各部分
集合は自由度が１であるため、各同値類におけるサイド
ベアリングは上述のように任意に設定できる。上述の観
測は、サイドベアリング変数が相互依存変数の独立した
群および各群のために解かれる標準方程式へ別個に分割
されるということを示す。ただし、分割されるのは文字
ではなくサイドベアリング変数であるものとする。した
がって、文字の左右のサイドベアリングが異なるサイド
ベアリング群に属することが可能となる。これはすなわ
ち、推定されたサイドベアリングを絵文字の位置決めに
利用する場合、何らかの警戒が必要だということであ
る。たとえば、文字の左右のサイドベアリングが同一サ
イドベアリング群に属さない限り、数１０を用いて文字
の設定幅を推定するため前記サイドベアリングを加算し
てはならない。同様に、数１１を用いて絵文字間あけを
計算するためには同一群からのサイドベアリングだけが
加算できる。図１６のようなフォントサンプル画像は、
すべてのサイドベアリング変数を同一群に確実に属させ
ることでこの問題を避けるように設計しなければならな
い。

【００９７】文字底線の深度推定は、図５の印刷モデル
に関する一般化である図１５に図示される文字垂直位置
合わせのモデルに基づく。テキストのページはテキスト
の平行線の集合から成る。走査中に歪む可能性があるの
を考慮に入れるため、各テキスト行は水平線に対して未
知の角度θで方向づけられているものとする。ただし、
θは行と行のあいだで変動する。したがって、各テキス
ト行の底線は次の一次方程式で記述される。すなわち、

【００９８】

【数１０５】ただし、

【００９９】

【数１０６】である。

【０１００】各行の絵文字は、文字座標系がθで回転さ
れた場合、図５に与えられたモデルに従って行に沿って
位置づけられる。絵文字バウンディングボックスは最小
の長方形であり、絵文字のみを囲んだ画像座標軸で方向
づけられている。画像がずれていれば、絵文字バウンデ
ィングボックスは図５で定義された文字バウンディング
ボックスと異なることになる。というのは、後者のバウ
ンディングボックスは（回転された）文字座標系で方向
づけられたものだからである。絵文字起点は絵文字バウ
ンディングボックスの下方の左コーナ隅であり、この絵
文字座標は絵文字起点のｘｙ座標である。絵文字座標お
よび行底線は、

【０１０１】

【数１０７】で関連づけられる。ただし、μは（回転された）文字の
底線より下の深度である。ただし、正のｙ方向が下降し
ている場合、底線より下に延びる文字に対してμ＞０で
あるものとする。底線推定の目的は、絵文字座標の集合
が与えられた場合、各行に対してαおよびβを確定し、
サンプルテキスト画像の各文字に対してμを確定するこ
とである。

【０１０２】サンプル画像が絵文字Ｇi（ｉ＝１．．．
Ｎ）を有するとする。ただし、Ｇiは文字Ｃciの例であ
る。前記絵文字はまとめられてテキストＬi（ｉ＝
１．．．Ｌ）の行となる。ただし、Ｇiは行Ｌliに属す
る。Ｇiの計測可能座標は、

【０１０３】

【数１０８】により、基礎となる文字および行パラメータに関連づけ
られている。ただし、εは雑音項である。全体二乗法底
線推定の誤差は、

【０１０４】

【数１０９】であって、さらに最小二乗法推定＾αk、＾βkおよび＾
μkは、

【０１０５】

【数１１０】

【０１０６】

【数１１１】および、

【０１０７】

【数１１２】を共同的に満足する数値である。

【０１０８】条件１１０は、

【０１０９】

【数１１３】という関係を、数８８から数９９を得るために利用した
ものに類似した導出によって示す。同様に、数８９から
数１００を得るために利用したものに類似した導出を行
った後、数１１１によって、

【０１１０】

【数１１４】が導かれる。最後に、数１１２は、

【０１１１】

【数１１５】を示す。

【０１１２】集合的に底線標準方程式と名付けられた条
件数１１３、数１１４、数１１５は、次の行列式へ置き
換えることができる。すなわち、

【０１１３】

【数１１６】ただし、

【０１１４】

【数１１７】

【０１１５】

【数１１８】

【０１１６】

【数１１９】

【０１１７】

【数１２０】

【０１１８】

【数１２１】上述の導出によって各行の勾配を異なるよう設定でき
る。同様の等式によって行が群へ分割された場合、各群
の行は同一勾配を有し、異なる群は異なる勾配を有す
る。これが極端となった場合のサンプルは、所与のペー
ジのすべての行が大域的にずれた場合である。βおよび
μの合計のみが数１０８により観測可能であるため底線
標準方程式は本質的な特異点を有する。サイドベアリン
グに対してそうであったように、底線変数βiおよびμi
は同値類へ分割することができ、さらに各群の一変数は
任意に設定される。たとえば、考えられる選択として、
「Ｍ」の深度をゼロに固定することがある。例示サンプルサンプルテキスト画像から文字距離を推定する新規な手
続きを含めて、上述のような画像ソースのモデルを利用
すれば、メッセージソースと画像変換器（画像生成器、
イメージャー）を組み合わせた複合マルコフソース（確
率有限状態オートマトン）の形態でドキュメント画像生
成器を直截な方法で作成することができる。メッセージ
ソースは、伝達する情報を含む記号またはテキストの列
を生成する。画像変換器は、メッセージを理想的なビッ
トマップに変換する有限状態変換器としてモデル化され
ている。デコーダは観測された画像が与えられると、ヴ
ィテルビ的な動的計画法アルゴリズムを利用して組合わ
されたソースおよびチャネルモデルによって事後に最も
確からしい経路を求めることによってメッセージを推定
する。デコーダで利用されるものだけでなく、画像変換
器で利用される有限状態ネットワークは、直截なネット
ワークであり、その構造は上述の説明から当業者であれ
ば明らかとなる。図７はそのような単純な有限状態ネッ
トワークの一例である。本発明によるシステムは上述の
ように構成され、４種類の画像についてソースモデルお
よび認識結果を示す。すなわち、１）単純なテキスト
列、２）一貫した手書き風フォントのテキスト、３）辞
書項目（各項目の論理的成分は確認済みである）、４）
高密度印刷デジタルデータ、である。特に断らない限
り、テキスト画像は既知のパラメータとともにビットフ
リップ雑音モデルを、ＰｏｓｔＳｃｒｉｐｔインタプリ
タを用いて３００ｄｐｉの想定解像度で合成画像へ適用
することにより生成されたものである。フォント距離の
推定に用いられたフォントサンプル画像は同様に作成さ
れたもので、テストテキストの公知のフォントおよび文
字サイズを利用している。すべてのテキスト行の底線は
完全に水平であり、所与の文字のすべての例のビットマ
ップはクリーンな画像において同一である。テキスト筆写テキスト筆写は図２に図示された種類の単純なテキスト
列を抽出する復号画像に関する。図１４（ａ）はアドー
ビタイムズローマン１２ポイントのサンプルテキスト行
を示す。図１４（ｂ）の雑音画像は、原画像の黒の画素
１０％と、白の画素４９％とをランダムに反転させて形
成したものである（例、ビットフリップモデルにおいて
π0＝０．５１かつπ1＝０．９）。図１４（ｂ）の雑音
画像は図７のテキスト列有限状態ネットワークを利用し
て復号したもので、フルタイムズローマンフォントの７
０文字部分集合は、アルファベットの大文字小文字、数
字、８個の句読点！；，．：？［］から成る。テキスト
行サブネットワークにおける各文字枝の推移確率は１／
７０に設定された。復号されたメッセージが図１７に示
される。文法が「−」を含んでいないためエンドユーザ
の「−」が失われているほかは筆写ではエラーがない。

【０１１９】図１８及び１９は、一単語における文字が
連結された手書き風フォントであるミストラルの場合の
上記サンプルを繰り返したものである。図１８（ａ）は
１２ポイントテキストの原画像であり、図１８（ｂ）は
その雑音チャネルをシミュレートする劣化された画像で
ある。図１８の筆写には、「ｒ」が「ｓ」として誤って
認識された箇所がいくつかある（例、architecture
s）。クリーンなビットマップを検査すると、ミストラ
ルでは「ｒ」と「ｓ」とが酷似していることがわかる。
したがって、このエラーはさほど重大なものではない。
このようなエラーは図７に示された単純な設定よりさら
に制約の加えられた設定のネットワーク（例、語彙辞
典）を利用することで解消することができる。

【０１２０】図２０は走査された画像を使用した２回の
予備実験の結果である。図１４（ａ）の合成テキスト画
像および図１７のタイムズローマンフォントサンプル画
像はプリントされ、３００ｄｐｉで走査された。走査中
のずれを最小限にするようページは慎重に位置合わせさ
れた。走査画像は上述のような最小二乗法推定手続きを
用いて各テキスト行の底線を推定するとともに、水平な
底線に対して各文字を垂直にずらすことでずれ補正され
た。各文字の単一サンプルは、文字テンプレートとして
作用するようフォントサンプル画像から引き出された。
良好な復号精度が達成されるまでビットフリップ雑音モ
デルのパラメータは相互に調整された。図２０に示され
る結果は白黒双方のフリップを１０％にした場合であ
る。

【０１２１】図２０（ａ）は走査されたフォントサンプ
ルを利用した走査画像を復号した結果を示す。「−」が
落ちた以外にはエラーは存在しなかった。図２０（ｂ）
は設定幅をテンプレートのバウンディングボックス幅に
等しくするとともに、すべてのサイドベアリングをゼロ
とすることで文字モデルを修正した結果を示す。「ｊ」
が認識されない箇所がいくつか存在するが、これは距離
が修正されても「ｊ」が先行する文字のバウンディング
ボックス内へ伸長することができないという事実を反映
したものである。「１」が「Ｉ」と誤認された箇所は予
想しないものである。走査された文字テンプレートを調
べると、「１」および「Ｉ」に対する抽出されたテンプ
レートが酷似していることが判明した。しかしながら、
推定された設定幅は著しく異なり、これが図２０（ａ）
において正しい分類を可能とする字間あけの制約を加え
るものと思われる。論理構造分析論理構造分析は、図３で図示された種類のメッセージ列
を抽出するための画像の復号に関する。このようなメッ
セージには、ドキュメント構成要素の論理的機能を確認
するものの画像中に絵文字として直接的に示されること
のない注釈やタグがある。図２１は、市販の科学技術用
語辞典（「科学技術用語辞典」第二版、マグローヒル
社）をもとに作った単純な辞書風のページのクリーンな
画像および雑音画像が示される。この辞書ページのため
に用いられる有限状態ネットワークは図２２に示され
る。縦方向において、辞書ページは項目成分とｖ字空間
成分とが交替する列となっている。また、項目は０また
はそれ以上の本文行が続く第一行を有する。水平方向に
は、前記第一行はネーム、フィールドおよびキャリッジ
・リターンで終わる本文テキストフィールドから構成さ
れる。第一行のフィールドは、異なるフォントおよびフ
ィールドの周囲の「共通記事」括弧を用いて画像中で区
別される。

【０１２２】出力復号メッセージに含まれている印刷上
の指示は図２２に示されていない。これは、図２１
（ｂ）の画像の復号を示す図２３に図示されている。個
々の項目構成要素だけでなく各項目はラテックス風の標
記を用いて示される。印刷上の指示注釈（例、＼ネーム
｛｝）は辞書ページネットワークのさまざまなゼロ遷移
に対してメッセージ列として付される。プリントデジタルデータ最後の例は高密度プリントデジタルデータの復号であ
る。図２４（ａ）は、各ビットごとに７画素平方のセル
において斜めの絵文字を利用して符号化されたデータの
５１２０ビットのブロックを示す。データは、１６ビッ
ト１６行から成る２５６ビットのセグメントにまとめら
れる。セグメント内のビットは行優先順で配列される。
ブロック自身は５セグメントごとの４行から成り、これ
も行優先順である。雑音バージョンは図２４（ｂ）に図
示される。

【０１２３】プリントデータブロックに対する単純な有
限状態ネットワークは図２５に示される。このネットワ
ークはデータブロックの全体ビット順序づけを保存して
いるわけではないが、単純な行ごとの復号を生成する。
ビットを正しい順序にもどすためにポストプロセッサを
用いる。図示のように、復号された各行は多数の８ビッ
トを有するように条件づけされている。条件づけのゆる
やかな文法と比較すると、これによってビット挿入・削
除エラーの数を低減させることができ、したがって、全
体の精度が向上される。

【０１２４】図２６は図２４（ｂ）の画像を図２５のネ
ットワークを用いて復号し、ビットをもとにもどし、結
果のデータ流を８ビットのアスキー（ＡＳＣＩＩ）文字
として解釈した結果を示す。復号メッセージには誤認さ
れた文字がいくつか含まれ、それぞれデータバイトにお
ける単一ビットエラーに対応する。

【０１２５】以下、本技術分野および音声処理の関連分
野で十分確立された確率型の有限状態画像生成プログラ
ムに関する概念を利用して本発明のシステムの実現方法
のひとつを詳細に説明するが、これに限定するものでは
ない。

【０１２６】図２７は画像合成のために本発明を用いた
場合を示す。画像合成器１１０（ａ．ｋ．ａ画像生成
器）は、画像ネットワーク１２０として表現された画像
のクラスに関する記述、図５に図示されるような特定の
文字の印刷モデルのパラメータを各々リストする画像テ
ンプレート１３０のライブラリ、および画像ネットワー
クにより記述されるクラスから特定の画像を指定するた
めに用いられる文字列１００をそれぞれ入力として受
け取る。画像生成器１１０の出力はテンプレートライブ
ラリ１３０から引き出された構成画像の集合を配置する
ことで形成されたビットマップ画像１４０である。これ
はイメージング処理を説明するために用いた透明シート
の積み重ねに対する類推である。構成画像の恒等式およ
び空間的位置は入力記号列１００と画像ネットワーク１
２０とにより共同的に確定される。

【０１２７】図２８は、通常有限状態文法を表すために
用いられる種類の有限状態遷移ネットワークに類似した
画像ネットワーク１２０のサンプル２００を示す。画像
ネットワーク２００は２０５、２１０等のノードの集合
から成り、これらのノードは２３５、２４０等の有向枝
により相互接続されている。たとえば、枝２３５はノー
ド２０５を出て、ノード２１０に入るよう指示される。
ノードは状態または頂点と呼ばれることがあり、枝は遷
移または辺と呼ばれることがある。ネットワークの状態
は２つに区別され、開始状態２０５と最終状態２２０と
呼ばれ、それぞれｎI、ｎFとラベルづけされる。各遷移
は次の４つの属性でラベルづけされる。文字名（２３
６、２４２等）、画像テンプレート名（２３７、２４２
等）、水平ｄｘおよび垂直変位ｄｙ（図５参照）から成
る２次元変位ベクトル（２３８、２４３等）、そして推
移確率（２３９、２４４等）である。枝２５０の文字２
５１または枝２４５のテンプレート２４７のように、文
字ラベルまたは画像テンプレートはゼロでもよい。推移
確率は画像復号中に使用されるが、画像合成中には使用
されない。入力記号列および画像ネットワークが与えら
れると、画像生成器は後述するように、画像位置ポイン
タを更新するとともにテンプレートライブラリからテン
プレートを出力画像配列へコピーすると同時に、画像ネ
ットワークの枝を横切ることにより出力画像を合成す
る。

【０１２８】画像生成器は、画像位置ポインタが出力画
像配列の座標（０，０）に初期化される初期状態２０５
で始動する。入力記号列の第一文字は、ノード２０５か
ら出た枝２８０、２３５、２８５の文字ラベル２８１、
２３６、２８６と比較される。枝ラベルのひとつが入力
された文字と一致すれば、画像生成器は対応する枝を選
択し、次の動作を実行する。たとえば、入力記号列の第
一文字が「ｂ」であるとする。この場合、「ｂ」は文字
ラベル２３６と一致するため、画像生成器は枝２３５を
選択することになる。枝２３５が選択されると、画像生
成器は、テンプレートの原型（図５参照）を現在の画像
位置（０，０）に位置合わせしながら、枝２３５に関連
する画像テンプレート２３７のコピーを出力配列内へ引
き込む。現在の画像位置は枝２３５に関連する変位２３
８だけ増分され、（１，０）となる。最後に、次に選択
された枝２３５により画像生成器はノード２１０へ移動
する。画像生成器はこの過程をノード２１０で繰り返
し、入力記号列の第二文字を調べ、ノード２１０から出
た枝のラベル２４１および２４６と比較し、一致した枝
を選択する。たとえば、第二文字が「ａ」であれば、枝
２４０が選択される。その場合、枝２４０に対するテン
プレート２４２のコピーは、現在の画像位置（１，０）
で出力画像配列へ引き込まれる。現在の画像位置は変位
２４３だけ増分されることにより（２，１）となり、画
像生成器はふたたびノード２１０へ移動する。

【０１２９】この過程は入力記号列のすべての文字が処
理されるまで続く。処理が終わった時点で、画像生成器
は最終状態２２０に到達するか、または文字ラベルがゼ
ロとなった枝を選択することにより最終状態に到達でき
る状態でなければならない。入力記号列がなくなった時
点で画像生成器が最終状態２２０に到達できなければエ
ラーが発生する。また、過程のどこかの地点で、現在の
入力文字と一致する枝が見つからない場合にもエラーが
発生する。さらに、現在の文字に一致する枝が二つ以上
存在する場合にも問題が生じる。これらの問題およびそ
の他の例外的な状況を扱えるように上記の記述を一般化
する方法は、有限状態言語に関する文献において公知で
ある。図２９および３０は、図２８で示された画像ネ
ットワーク２００および入力記号列「ｂａａ＄」に対す
る完全な過程を図示したものである。図２９は列３１０
がネットワーク２００にしたがって処理されたときに生
成された画像３２０を示す。合成過程のステップ１乃至
５は図３０のテーブルに詳細に示される。ステップ１の
前に、画像生成器は、空白となっている出力配列の位置
（０，０）で初期状態２０５にある。ステップ１では、
画像生成器は第一入力文字３１１を、ノード２０５から
出た３個の枝２８０、２３５、２８５と比較する。入力
文字は枝２３５のラベル２３６と一致する。画像生成器
は枝２３５に関連するテンプレート２３７のコピー４１
１（この場合は「ｂ」の画像）を位置（０，０）の出力
配列へ引き入れ、ノード２１０および画像位置（１，
０）へ移動する。この例で、各テンプレートの位置合わ
せ地点はテンプレートの左下のコーナであるとする。図
３０の画像列では、ステップ１が始動する画像位置は画
像４１０においてドット「.」４１２で示される。終了
ステップ１での画像位置は「Ｘ」４１４で示される。ス
テップ２乃至５に対する画像４２０、４３０、４４０、
４５０は同様に印が付されている。ステップ２では、
状態２１０から始動して、画像生成器は第二入力文字３
１２をノード２１０から出た枝２４０および２４５の文
字２４１および２４６と比較する。入力文字「ａ」は枝
２４０のラベル２４１と一致するため、画像生成器はテ
ンプレート２４２のコピー４２１（この場合、「ａ」の
画像）を現在の位置（１，０）へ入れ、現在の位置を変
位２４３だけ進めて（２，１）へ移動し、さらに状態２
１０へ移る。

【０１３０】ステップ３では、第三入力文字３１３に対
して前記過程が繰り返される。画像生成器が枝２４０を
選択し、テンプレート２４２のコピー４３１を位置
（２，１）に入れ、現在の画像位置を（３，２）に更新
し、ノード２１０へ移動する。

【０１３１】ステップ４では、第四入力文字３１４が処
理され、画像生成器は枝２４５に従ってノード２１５へ
進む。枝２４５に関連する変位２４８が（０，０）であ
るため、画像位置ポインタは変化しない。また、枝２４
５に関連するテンプレートラベル２４７がゼロテンプレ
ートを指定するため、出力配列にはテンプレートがコピ
ーされない。

【０１３２】ステップ５の最初に、画像生成器は入力記
号列を使いはたしてしまう。しかしながら、枝２５０の
文字ラベル２５１がゼロ文字を指定するため、枝２５０
を選択してもよい。枝２５０に対するテンプレート２５
２のコピー４５１、つまり画像「ｍ」は現在の画像位置
（３，２）に置かれ、画像生成器は状態２２０へ移動
し、画像位置は（４，０）に更新される。この時点で、
画像生成器は最終状態２２０にあり、処理すべき入力文
字は存在しない。したがって、イメージング動作は正常
に終了した。この例は、入力列記号と結果ビットマップ
画像との間が必ずしも１対１の対応である必要がないと
いうことも示す。たとえば、イメージされる列にはコー
ド中のコメントに対応する情報が含まれるが、ビットマ
ップ中に含まれるという意味ではない。同様に、認識装
置はビットマップに関するその出力情報（そのソース
等）をその中に有することはできるが、ビットマップ自
身に表すことはできない。上記の例が図２３の論理構造
タグである。また、ビットマップ記号は列記号と異なる
ものにすることができる（記号列では「＄」であり、ビ
ットマップでは「ｍ」）。さらに、認識装置が一定の規
定された条件下で文字を自動的に生成する場合には、ビ
ットマップに記号が現れる必要はない。

【０１３３】図３１は、出力記号列５９０を生成するた
め入力ビットマップ５１０を復号する画像ネットワーク
を使用した場合を示す。図２９に示された例に対して、
同一の画像ネットワーク２００が利用できる。テンプレ
ート整合器５２０はテンプレートライブラリ５３０（図
２７の画像生成器で用いられたテンプレートライブラリ
１３０と同一のもの）の各項を、数２５で定義されたＬ
（Ｚ｜Ｑ）を計算する整合関数を用いて入力画像５１０
と比較する。テンプレート整合器の出力はライブラリか
らのテンプレートごとのスコアのスコア配列５４０の集
合である。このスコアには、入力画像の各位置でのテン
プレートに対する数値整合スコアが含まれる。ノードス
コア／バックポインタプロセッサ５５０は、画像ネット
ワーク５６０の各ノードに対するスコア配列およびバッ
クポインタ配列５７０を計算する。ノードに対するスコ
ア配列には、入力画像の各位置で位置合わせされたその
ノードに対して数３５で定義された数値整合スコアＬ
（ｎ；→ｘ）が含まれる。ノードに対するバックポイン
タ配列はそのノードに最も入りやすい枝を確認する。つ
まり、数３５を最大にする各画像位置の枝を確認する。
ノードスコア／バックポインタプロセッサ５５０には、
テンプレート整合器に対するテンプレート整合スコア５
４０と、図２７の画像生成器において用いられた画像ネ
ットワーク１２０と同一の画像ネットワーク５６０から
のデコーダスケジュール５５５とが入力される。最後
に、バックトレースプロセッサ５８０はバックポインタ
配列５７０を利用し、画像ネットワーク５６０を介して
経路を生成する。この経路から、経路の枝の文字ラベル
を鎖状につなぐことで出力記号列５９０が形成される。
図２９に示される例の場合では、これは記号列「ｂａａ
＄」を再構成することになる。

【０１３４】ノードスコア／バックポインタプロセッサ
５５０によって実行される場合、上記のように配列５７
０を生成することになるアルゴリズムの一形態が図３２
において詳細に説明される。プロセッサ５５０が行優先
順にノードスコア／バックポインタ配列５７０を埋め
る。すべての値が第一行に対して計算され、さらに第二
行に対してすべての値が計算され、すべての行が終わる
まで同様に計算される。各行に対する計算は順に一連の
「パス」としてまとめられる。各パスでは、スコアおよ
びバックポインタ配列の部分集合における各配列ごとに
一行が計算される。スケジュールで指定されるように、
行は左から右へ増加ｘ位置の順で計算されるか、または
右から左へ減少ｘ位置の順で計算される。左−右パスは
「前進」パスと呼ばれ、右−左パスは「逆進」パスとよ
ばれる。パス内の各ｘ位置で、画像ネットワークのノー
ドの部分集合に対するスコアおよびバックポインタが規
定の順序で計算される。

【０１３５】図３２のアルゴリズムは４レベルの入れ子
型反復である。最も外側のレベルはステップ６０２から
６３２まで行を繰り返す。ステップ６０２では行カウン
タｙを１に初期設定する。ステップ６３０では、行カウ
ンタが画像の行Ｈと比較される。すべての行が計算され
終わるまで、行カウンタはステップ６３２において増分
され、次の行が処理される。第二レベルであるステップ
６０４乃至６２８では、パスを繰り返す。パスカウンタ
はステップ６０４で初期設定され、ステップ６２６でパ
スＫの全体数と比較され、ステップ６２８で増分され
る。第三レベルであるステップ６０５乃至６２４は、行
カウンタｙにより指定された行内の水平な位置を繰り返
す。３個の水平位置ポインタは同時に維持される。ポイ
ンタＸFは前進パスに対して水平位置を指定する。ＸFは
ステップ６０５で１に初期設定され、ステップ６２４で
増分され、ステップ６２２で行内の位置数Ｗと比較され
る。ポインタＸRは後方パスに対する水平位置である。
ステップ６０５でＷに初期設定され、ステップ６２４で
減少される。ポインタＸは、カレントパスが前進か後方
かによってステップ６０８、６１０、６１２でＸFまた
はＸRへ設定される。反復の第四レベルであるステップ
６１４乃至６２０では、パスカウンタにより指定された
パスのノードｎごとにｙで指定された行およびｘで指定
された水平位置でのスコアＬ（ｎ，ｘ，ｙ）およびバッ
クポインタＢ（ｎ，ｘ，ｙ）を計算する。スコアＬ
（ｎ，ｘ，ｙ）およびバックポインタＢ（ｎ，ｘ，ｙ）
の実際の計算はステップ６１６で行われ、図３３に説明
されている。

【０１３６】図３３は、特定のノードｎおよび画像位置
（ｘ，ｙ）に対するスコアＬ（ｎ，ｘ，ｙ）およびバッ
クポインタＢ（ｎ，ｘ，ｙ）を計算する例を示す。この
アルゴリズムは、隠れマルコフモデルとともに音声認識
で利用される標準１次元動的計画法ステップを２次元的
に一般化したものである。この計算には指定されたノー
ドｎに入るすべての枝の中から、指定された画像位置
（ｘ，ｙ）のノードのスコアを最大にする枝を求めるこ
とも含まれる。最大スコアおよび対応する最良の枝の識
別がステップ７７０でＬ（ｎ，ｘ，ｙ）およびＢ（ｎ，
ｘ，ｙ）として返される。計算の途中で、ステップ７１
０で初期設定された変数ベストスコアおよびベストブラ
ンチが、これまで出会った中で最上のスコアおよび対応
する枝を有する。

【０１３７】ステップ７１５乃至７６５はノードｎに入
る枝を繰り返す。ステップ７１５は枝インデックスｔを
ｎへの第一枝に初期設定する。ｎのすべての枝が考慮さ
れ終わるまでステップ７６０および７６５は反復する。
ステップ７２０、７２５、７３０はテンプレートＱ、変
位（ｄｘ，ｄｙ）、枝ｔと関連する推移確率ａを検索す
る。これらは図２８に図示される枝または遷移の属性に
対応する。ステップ７３５は画像位置（ｘ−ｄｘ，ｙ−
ｄｙ）でテンプレートＱに対するテンプレート整合スコ
アを、事前に入力５４０としてノードスコア／バックポ
インタプロセッサ５５０へ供給されたテンプレートスコ
ア配列から検索する。ステップ７４０はノードＬの識別
を枝ｔが発生したものから検索し、ステップ７４２は画
像位置（ｘ−ｄｘ，ｙ−ｄｙ）でノードＬに対するノー
ドスコア値Ｌ（ｎ，ｘ，ｙ）を検索する。この値は図３
３のアルゴリズムの実行のさいに計算された。デコーダ
スケジュール５５５は、現在の計算の間にＬ（ｎ，ｘ，
ｙ）を計算するのに必要なあらゆるノードスコア値が前
記計算により確実に得られるようにしなければならな
い。ステップ７４５は現在の枝に対する候補ノードスコ
アを計算する。最後に、ステップ７４５で計算した候補
スコアがベストスコアの値よりも大きい場合には、ステ
ップ７５０および７５５がベストスコアおよびベストブ
ランチを更新する。

【０１３８】テンプレート整合器５２０は添付書類Ｂの
数２５で定義され、各テンプレートＱに対して各画像位
置に位置合わせされたＬ（Ｚ｜Ｑ）を計算する。実現方
法は直截なものである。

【０１３９】スケジューラ５６５は画像ネットワーク５
６０からスケジュール５５５を生成する。このスケジュ
ールは、ノードスコア／バックポインタ配列５７０の項
目が計算される順序を指定し、数３５に含まれるデータ
依存性が確実に守られなければならない。このようなス
ケジューリングの問題を解決する通常の手法および理論
はＶＬＳＩ分野では公知である。添付書類Ｄは、この理
論に基づきデコーダスケジュールを生成するための特定
のアルゴリズムを開示する。

【０１４０】バックトレースプロセッサ５８０は出力記
号列５９０をノードスコア／バックポインタ配列５７０
から、図３４で示される例のようなアルゴリズムを用い
て計算する。バックトレースプロセッサは、書記ノード
ｎIが達成されるまでバックポインタ配列で識別された
枝に連続的に続くことにより画像位置（Ｗ，Ｈ）で最終
ノードｎFから後ろにトレースする。このバックトレー
スで出会う枝の文字ラベルが鎖状につながれることによ
り出力記号列５９０を形成する。

【０１４１】ステップ８１０は現在の画像位置（ｘ，
ｙ）を（Ｗ，Ｈ）に初期設定し、現在のノードｎを最終
ノードｎFに初期設定し、さらに出力記号列ｍをゼロ記
号列に初期設定する。ステップ８２０はｔを、ノードス
コア／バックポインタプロセッサ５５０により事前に計
算された枝Ｂ（ｎ，ｘ，ｙ）へ設定する。枝ｔに対する
文字ラベル「ｃ」がステップ８３０で検索されるととも
に、ステップ８４０では記号列ｍの最初へ前進する。ス
テップ８５０はｎを枝ｔが由来するものからノードへ更
新し、ステップ８６０は枝ｔに対する変位（ｄｘ，ｄ
ｙ）を検索する。ステップ８７０は、変位（ｄｘ，ｄ
ｙ）を引くことにより現在の画像位置（ｘ，ｙ）を更新
する。ステップ８５０で確立されたノードｎの新しい値
が、ステップ８８０でｎI、すなわち画像ネットワーク
の始動ノードと比較される。ｎIが到達されると、バッ
クトレースはステップ８９０で終了し、記号列ｍを返
す。到達されていなければ、ステップ８２０から過程が
繰り返される。

【０１４２】上述の説明は本発明のシステムを実現する
ために利用可能なアルゴリズムの例を示すものであっ
て、これに限定されるものではない。

【０１４３】なお、→△、→×、＾ρ、＾λ、＾α、＾
β、＾μはそれぞれ外２、外３、外４、外５、外６、外
７、外８を表す。添付書類Ａ古典的な通信理論に基づくドキュメント認識問題の公式
化を示す。確率メッセージソース１０が事前確率分布Ｐ
r（Ｍ）にしたがって候補記号列の集合から有限記号列
Ｍを選択する。メッセージは生テキスト記号列でも、レ
イアウトや論理構造タグ（例、ＬＡＴEＸ［Ｌ．ランポ
ート著「ＬＡＴEＸ／ドキュメント製版システム」リー
ディング社（アジソン−ウエスレー）、１９８６年刊］
またはＳＧＭＬ）が埋め込まれたテキスト、または分離
記号の線形数列内への情報のその他の符号化でもよい。
図２乃至４はメッセージ断片のこれらの例を示し、図２
は生テキストを、図３はＬＡＴEＸコマンドの埋め込ま
れたテキストを、図４はプリント楽譜のテキスト標記を
それぞれ示す。

【０１４４】結像器１１はこのメッセージを、画素がΩ
によって索引づけされる２値画像の母集団から引き出さ
れる理想的な２値画像Ｑ＝｛ｑi｜ｉ∈Ω｝へ変換す
る。画像は矩形であると仮定し、したがって、

【０１４５】

【数１】ただし、ＷおよびＨはそれぞれ画像幅および画像高さで
ある。ここではｘが右方向へ増加し、ｙが下向きに増加
し、さらに上方左コーナがｘ＝ｙ＝０である画像座標系
を利用する。通常、各メッセージＭに関連する一意画像
ＱMが存在するよう画像は決定論的であると仮定する
が、さらに画像は座標量子化等の効果をモデル化する確
率的要素を有してもよいものとする。

【０１４６】チャネル１２は、ずれ、ぼやけ、付加的雑
音等の印字や走査による歪みを導入することにより理想
的な画像を観測された画像Ｚ＝｛ｚi｜ｉ∈Ω｝内へマ
ップする。デコーダは画像Ｚを受け取り、原メッセージ
の推定Ｍを生成する。デコーダは、帰納的最大（ＭＡ
Ｐ）判定法にしたがってＭを選ぶ場合、エラーの確率を
最小とする。したがって、

【０１４７】

【数２】である。

【０１４８】

【外１】

【０１４９】

【数３】である。さらに、画像が決定論的であると仮定すれば、

【０１５０】

【数４】である。最後に、画像が１対１マッピングであると仮定
すれば、

【０１５１】

【数５】である。集合的に、これらの仮定はＭとＱの区別を不鮮
明にし、これによって、

【０１５２】

【数６】と書くことができる。

【０１５３】したがって、画像復号問題はＭまたはＱM
の推定する問題として考えることができる。

【０１５４】Ｚを観測する事前確率Ｐr｛Ｚ｝はＭとは
独立であるため、Ｍの選択とは無関係であり省略でき
る。通常、ＭＡＰ（帰納的最大）決定法則は数５の右辺
のいずれかの単調関数をを最大にすることで実現しても
よい。特に、決定関数を

【０１５５】

【数７】として定義するのが便利であるとわかる。ただし、Ｐr
｛Ｚ｜Ｑ0｝は、Ｑが全白色背景画像Ｑ0である場合にＺ
を観測する確率である。最後に、

【０１５６】

【数８】であると定義すれば、ＭＡＰ（帰納的最大）復号が、

【０１５７】

【数９】を最大化することに等しいとわかる。

【０１５８】数９が示すように、ドキュメント画像認識
システムの設計において解決すべき３つの主要問題があ
る。まず、対数Ｐr｛ＱM｝を計算するためには画像ソー
スのモデルを発展させる必要がある。第二に、Ｌ（Ｚ｜
ＱM）を計算するためにはチャネルの文字を理解する必
要がある。最後に、計算上効率のよい方法で数９を最大
化するためには探査アルゴリズムが必要となる。添付書類Ｂイメージングシステムに対する実際の欠陥モデルは極め
て複雑であるので、図９に示すような非常に単純な非対
称ビットフリップ雑音モデルに着目した。このモデルは
理想的な画像Ｑの各画素が独立的に摂動されるものと仮
定する。理想的な画素Ｑにおける１（黒）画素が観測さ
れた画像Ｚにおいて１として残る確率はπ1である。同
様に、０が０として観測される確率はπ0である。雑音
パラメータは全画像において一定であるものとする。

【０１５９】添付書類Ｃにおいて、非対称ビットフリッ
プチャネルに対して、

【０１６０】

【数２５】であり、ただし、

【０１６１】

【数２６】かつ、

【０１６２】

【数２７】

【０１６３】

【数２８】は、それぞれバックグラウンド重みおよびフォアグラウ
ンド重みである。ＢQはＺとは独立な級従属の偏った項
である。数２５の右辺側の第二項は、画像ＺとＱとの論
理積（ＡＮＤ）におけるゼロでないビットをカウントす
ることにより計算できる。

【０１６４】添付書類Ｃでは、数２３により、Ｑπがマ
ルコフソースによる経路πに関連する複合画像であれ
ば、

【０１６５】

【数２９】であることも示す。添付書類Ｃこのセクションの目的は、図９で示された非対称ビット
フリップチャネルに対するＬ（Ｚ｜Ｑ）の式を得ること
である。導出の初期ステップはより一般的な画像生成モ
デルに基づく。ｉ∈Ωのとき、

【０１６６】

【数４８】が、Ｚが画像Ｃのあるクラスから引き出された場合、Ｚ
のｉ番目の画素がオンである確率であるとする。この場
合、チャネル入力Ｑが与えられると、Ｃは観測可能な画
像Ｚの集合である。

【０１６７】標記を簡単にするため、Ｃ（またはＱ）に
対する条件づけは明らかにする必要がある場合にのみ明
確に示される。

【０１６８】画素が独立であると仮定した場合、Ｚの確
率は、

【０１６９】

【数４９】であるため、

【０１７０】

【数５０】である。

【０１７１】

【数５１】と示すことにより、数５０は、

【０１７２】

【数５２】と書くことができる。

【０１７３】さらに、

【０１７４】

【数５３】であるため、数５２は、

【０１７５】

【数５４】と書くことができる。また、

【０１７６】

【数５５】によって２値画像〜Ｑ＝｛〜ｑi｜ｉ∈Ω｝であると定
義すると、数５４は、

【０１７７】

【数５６】と書くことができる。

【０１７８】最後に、

【０１７９】

【数５７】と定義すれば、

【０１８０】

【数５８】かつ、

【０１８１】

【数５９】である。

【０１８２】画像〜Ｑは画像クラスＣに対するテンプレ
ートとして見てもよい。数５９よりＱは最も確率の高い
Ｃの項であるものとする。非対称ビットフリップモデル
に戻って、π0＞０．５かつπ1＞０．５であれば、Ｑ＝
〜Ｑであり、区別する必要はない。この場合、

【０１８３】

【数６０】であるため、ｐiはｑiの値によるが、そうでなければｉ
から独立である。「ｉ∈Ｑ」は「ｉ∈支持［Ｑ］」と読
めるものとする。ここで、

【０１８４】

【数６１】

【０１８５】

【数６２】がそれぞれバックグラウンドの重みおよびフォアグラウ
ンドの重みであると定義すれば、

【０１８６】

【数６３】である。

【０１８７】さらに、数６３において

【０１８８】

【数６４】

【０１８９】

【数６５】という関係式を利用し、項を組み合わせると、

【０１９０】

【数６６】である。最後に、数６６の関係式、

【０１９１】

【数６７】を利用して、再度、整理すると、

【０１９２】

【数６８】となる。

【０１９３】数６８の右辺側で括弧で囲まれた項はＱと
は独立で、実際には対数Ｐr｛Ｚ｜Ｑ0｝である。ただ
し、Ｑ0は全白色バックグラウンド画像である。したが
って、数２５および数２６は非対称ビットフリップ雑音
チャネルに従う。

【０１９４】対数標準化確率数２５は重要な分解特性を
有する。テンプレートＱがサブテンプレートＱ1．．．
ＱPの直和として表現されると、ｉ≠ｊのとき、

【０１９５】

【数６９】かつ、

【０１９６】

【数７０】であるため、

【０１９７】

【数７１】である。

【０１９８】この数７０は支持に対する条件を表すもの
で、ＱiおよびＱjのバウンディングボックスではない。
したがって、構成するテンプレートのバウンディングボ
ックスが重複しても構成する支持が素である限り、数７
１は複合テンプレートに対する対数標準価格率数２５を
計算するために利用できる。

【０１９９】最後に、数２３により、分解数７１に対す
る事前条件が、数２１を介してマルコフソースにより生
成される画像に対して満足され、数２９が続く。添付書類Ｄここでは、各ループπに対してΔｙπ≧０であるという
特性を有するあらゆる計算可能な画像デコーダに対して
数４１および数４２の強制的な行優先スケジュールを求
めることができるということを示す。この手法は構造的
であり、正規反復アルゴリズムの理論に基づく。Ｓ．ラ
オ著「プロセッサ配列における正規反復アルゴリズムお
よびその実現方法」（博士論文、スタンフォード大学、
１９８５年１０月刊）を参照されたい。説明を簡単にす
るため、上述の４レベル反復アルゴリズムによって構成
を説明する。数４１および数４２の関係は明らかであ
る。

【０２００】マルコフソースデコーダに対する簡化従属
グラフ（ＲＤＧ）（Ｓ．ラオ著「プロセッサ配列におけ
る正規反復アルゴリズムおよびその実現方法」博士論
文、スタンフォード大学、１９８５年１０月刊、参照）
は、図１１に示すような各遷移を一対の辺で置換すると
ともに新しいノードを導入することによりデコーダグラ
フから引き出される。通常、ＲＤＧのノードは各→ｘ∈
Ωで計算されるべき値の変数を表す。→ｘ−→Δの値が
→ｘでｎ2を計算するために必要とされる場合、ノード
ｎ1からノードｎ2までの辺が変位ラベル→Δで存在す
る。次に来る枝をもたないノードは入力ノードと呼ばれ
る。入力ノードからの枝は入力枝と呼ばれることもあ
る。デコーダＲＤＧの入力ノードはＬ（Ｚ｜Ｑt［→
ｘ］）の値を表す。スケジューリングのために、入力値
は残りのグラフにより表される制約を満足するのに必要
ないかなる順序であっても生成可能であるものと仮定す
る。出て行く枝を持たないノードは出力ノードと呼ばれ
ることがある。デコーダＲＤＧは通常、単一出力ノード
である最終ノードｎFを有する。図１１が示すように、
デコーダグラフをＲＤＧへ変形させる主要な効果はＬ
（Ｒt；→ｘ）のＬ（Ｌt；→ｘ−→Δt）に対する従属
が、Ｌ（Ｒt；→ｘ）のＬ（Ｚ｜Ｑt［→ｘ−→Δt］）
に対する従属とは別個に表されるということである。こ
れによって、後述するようにＲtへの二つの枝の変位を
別個に修正するグラフ変形を適用することができる。

【０２０１】いったん計算された変数値はその後、いつ
でも利用可能であるものとする。すなわち、将来アクセ
スするための値を保有するためスケジュールによって必
要とされる全体的な記憶に関しては制約はないものとす
る。Ｇは、各ループπに対して、Δｙπ≧０であるよう
なデコーダＲＤＧであるとする。これより、このような
グラフを、負のｙ変位を有する枝のみが入力枝または出
力枝であるというより強制的な条件を満たす同等のＲＤ
Ｇへ変換できることを示す。さらに、入力変数および出
力変数の定義において適当な遅延を導入することによっ
て、入力枝および出力枝から負の変位までも削除するこ
とができる。これらの結果を予想して、Ｇのすべての枝
が負ではないｙ変位を有すると仮定する。明らかに、強
制的な行優先スケジュールを構成するためには、すべて
の事前に計算された値は利用可能であると仮定している
ためΔｙt＞０のあらゆる枝ｔはまったく制約を与えな
い。ＧからΔｙt＞０であるすべての枝ｔを除くことで
形成され、すべてのノードに入ってくる枝も出て行く枝
も残っていないグラフＧ'を考えてみる。Ｎ+は除かれた
ノードの集合を示すものとする。Δｙπ＝０であるよう
なすべてのループπが完全にＧ'内に位置しなければな
らないことは明らかである。Ｇに対する強制的な行優先
スケジュールは、ｎ∈Ｎ+であるＬ（ｎ；→ｘ）をＧ'ス
ケジュールのいずれかのパスの間に計算することによ
り、またはＮ+に対する新しいパスを定義することによ
りＧ'に対するスケジュールから構成することができ
る。したがって、Ｇ'に対するスケジュールの構成に注
意を向けることとする。

【０２０２】Ｇ'を、次のような条件を満足するＧ'の頂
点排反サブグラフとして定義されるその密結合成分（Ｔ
ＣＣ：Ｓ．ラオ著「プロセッサ配列における正規反復ア
ルゴリズムおよびその実現方法」（博士論文、スタンフ
ォード大学、１９８５年１０月刊））へ分解する。条件
とはすなわち、・同一成分内でノードから他のノード
へ有向経路が存在する・成分が単一ノードを有する場合、そのノードが自身に
関連する自己ループを有する・ある成分のノードから異なる成分のノードへの有向経
路が存在する場合、復帰経路は存在しないことである。

【０２０３】グラフの密結合成分は、強力結合成分
（Ａ．Ｖ．エイホ、Ｊ．Ｅ．ホップクロフト、Ｊ．Ｄ．
ウルマン共著「コンピュータアルゴリズムの設計および
解析」リーディング社／アジソン−ウエスレー、１９７
４年刊）を求めるなんらかのアルゴリズムの出力をわず
かにフィルタリングすることにより求めることができ
る。Δｙπ＝０であるＧにおけるあらゆるループπは
Ｇ'のＴＣＣ（密結合成分）のひとつの内に完全に位置
していなければならない。Ｇ'の密結合成分がＧ''
1、．．．Ｇ''Nで示されるとし、Ｎ0は密結合成分に属
すＧ'のノードを示すものとする。図１２はＧの分解を
要約し、Ｇ、Ｎ+、Ｇ'、Ｎ0、Ｇ''1．．．Ｇ''Nの中の
関係を図示する。

【０２０４】Ｇ'に対するスケジュールは次のようなや
り方で構成される。〜Ｇ'を、各密結合成分Ｇ''iのノー
ドを単一「スーパー」Ｇ'から引き出されたグラフとす
る。すなわち、〜Ｇ'のノードは、

【０２０５】

【数７２】である。

【０２０６】〜Ｇ'の枝はいずれのＧ''iにも属さない
Ｇ'の枝である。つまり、〜Ｇ'は、１）ことなる密結合
成分を結合するか、２）密結合成分をＮ0の要素へ結合
するか、３）Ｎ0の２個の要素を結合するＧ'のこれらの
枝を有する。〜Ｇ'は非循環であるため、ｎ1からｎ2ま
での枝が存在する場合、ｎ1がｎ2へ進むようにそのノー
ドを分類するのが直接的である。〜Ｇ'の各ノードは、
この分類にしたがって配置されたＧ'に対するスケジュ
ールにおける１個のパスに対応する。Ｎ0の項である〜
Ｇ'のノードは、Ｌ（ｎ；→ｘ）が単一ノードｎに対し
て計算されるパスを定義する。密結合成分Ｇ''iに対応
する〜Ｇ'のノードは、Ｇ''iのノードに対してＬ（ｎ；
→ｘ）が計算されるパスを定義する。これより、各密結
合成分Ｇ''iに対するパスを別個に予定する方法につい
て示す。

【０２０７】Ｇ''iをＧ'の密結合成分であるとする。た
だし、Ｇ''iへ入る（から出て行く）〜Ｇ'の枝はＧ''i
の入力（出力）枝であるものとする。Ｇは計算可能であ
り、Ｇ''iの各枝のｙ変位はゼロであるので、Ｇ''iがΔ
ｘπ＝０のループπを含まないことは明らかである。さ
らに強制的に、Ｇ'iは、その中の各ループπに対するΔ
ｘπが同一記号を有するという特性を持つ。これを示す
ため、逆にＧ''iがループπ1およびπ2を有すると仮定
する。ただし、Δπ1＞０かつΔｘπ2＜０である。

【０２０８】ｎ1、ｎ2はそれぞれπ1、π2のノードであ
るとする。密結合成分の定義により、ｎ1、ｎ2を含む
Ｇ''iにループπ3が存在する。Δｘπ3＞０と仮定する
（Δｘπ3＜０に対する論法は同様である）。π3はπ1
とπ2の双方と交差するため、各πj（ｊ＝１、２、３；
指定されたいかなる回数でもｋj≧１）を横切るＧ''iに
ループπ0を構成することができる。π0の全ｘ変位は、

【０２０９】

【数７３】である。

【０２１０】数７３の右辺側は正および負の項を含むた
め、Ｇが計算可能であるという過程に反するが、Δｘπ
0＝０となるようにｋjを調節することができる。したが
って、Ｇ''i内の各ループは同一の記号ｘ変位を有す
る。

【０２１１】Ｇ''iのループは正のｘ変位を有するもの
と仮定する。直ちに後述するように、Ｇ''iは、すべて
の負の枝変位を入力枝および出力枝へ「プッシュ」する
ことによって、各内部の枝が負でないｘ変位を有する等
価グラフへ変形することができる。変形されたＧ''iの
ノードは標準音声隠れマルコフモデルスケジューリング
技術を用いて分類することができる。ループｘ変位が負
の成分Ｇ''iは同様に取り扱われるが、Ｌ（ｎ；→ｘ）
が減少ｘの順序（右から左）で計算される点が別であ
る。これでＧに対する強制的な行優先スケジュールの構
成が完了した。

【０２１２】最後に、Ｇが、各ループが負でないｘ（ま
たはｙ）変位を有するＲＤＧである場合、＾Ｇのすべて
の内部枝のｘ（またはｙ）変位が負でない同等のＲＤＧ
＾Ｇが存在することを示す。スカラー変位のＲＤＧに対
してこれを証明すれば十分であることは明らかである。
したがって、Ｇの各ループの変位が負でないように、Ｇ
をスカラー枝変位を有するＲＤＧとする。ｎ∈Ｎを入力
ノードでも出力ノードでもないＧのノードであるとし、
さらに、

【０２１３】

【数７４】

【０２１４】

【数７５】を、それぞれｎから起点で終了するＧの枝とする。さら
に、ξを整数の定数とする。＾ＧをＧに等しいＲＤＧと
定義するが、枝変位〜Δtは、

【０２１５】

【数７６】で定義される。＾Ｇは、図１３に示すようにノードｎを
横切る大量の変位ξを「プッシュ」することにより得ら
れるＲＤＧである。この変形によってＧの入力−出力の
ふるまいを修正しないということを示すのが直接的であ
る。各→ｘおよび出力ノードｎFに対して、

【０２１６】

【数７７】である。これによって、変形の集合が求められ、その各
々は数７６で定義されるが、集合的に各内部枝に対する
変位は負でない。入力ノードまたは出力ノードで変形数
７６が適用される場合（ただし、ＩnまたはＯnが空であ
る）、その効果は全体の空間的オフセットを対応する入
力または出力変数の定義へ導入できることである。この
ようなオフセットのトラックを確保することが直接的で
あるため、この変形をあらゆるノードに対して適用可能
とすることで説明を簡単にする。その場合、すべての枝
変位が負でないということを示すことができる。数７６
の型の変形集合は、Ｇのノードを横切ってプッシュされ
た変位集合Ξ＝｛ξn｜ｎ∈Ｎ｝により特徴づけされ
る。Ξに対応する変形を適用した後、各枝ｔに関する最
終変位は、

【０２１７】

【数７８】で与えられ、これは次のような行列形式で書くことがで
きる。すなわち、

【０２１８】

【数７９】である。ただし、Ｄおよび＾Ｄは（スカラー）枝変位の
ベクトルであり、Ξはノード変形変位のベクトルであ
り、ＣはグラフＧの結合行列である。Ｃは、

【０２１９】

【数８０】

【図面の簡単な説明】

【図１】ドキュメント認識問題の定式化を示すブロック
図である。

【図２】メッセージ断片の例を示す。

【図３】メッセージ断片の例を示す。

【図４】メッセージ断片の例を示す。

【図５】文字形状を記述するとともに位置づけするサイ
ドベアリングモデルを単純化したものを示す。

【図６】数個の文字の重複を示す。

【図７】有限状態ネットワークとして表現されたテキス
ト列文法の例を示す。

【図８】マルコフソースのモデルである。

【図９】ビットフリップ雑音モデルを図示する。

【図１０】デコーダ再帰の概要図である。

【図１１】マルコフソースデコーダのＲＤＧの構成を図
示する。

【図１２】デコーダＲＤＧの解体を図示する。

【図１３】ノードを横切って進む変位を概略的に図示す
る。

【図１４】サンプルテキスト列およびその雑音画像をそ
れぞれ示す。

【図１５】文字垂直位置合わせの印刷モデルを示す。

【図１６】フォントサンプル画像を示す。

【図１７】図１４の画像から本発明のシステムを利用し
て得られた復号メッセージを示す。

【図１８】ミストラルサンプル画像およびその雑音画像
をそれぞれ示す。

【図１９】本発明のシステムを利用して得られた復号メ
ッセージを示す。

【図２０】異なるフォントモデルを利用して同一の走査
画像の復号されたバージョンを示す。

【図２１】辞書のページのクリーンな画像と雑音画像を
それぞれ示す。

【図２２】図２１の雑音画像を復号するため本発明にし
たがって利用される文法を示す。

【図２３】図２２の文法による出力結果である。

【図２４】データブロックおよびその雑音画像を示す。

【図２５】図２４の雑音画像を復号するため本発明にし
たがって利用される文法を示す。

【図２６】図２５の文法により復号された出力結果を示
す。

【図２７】本発明による画像合成器の一形態のブロック
図である。

【図２８】本発明のシステムで利用される型の有限状態
遷移網のサンプルを示す。

【図２９】サンプル記号列において図２８のネットワー
クの動作を図示する。

【図３０】図３０の記号列に対する出力結果画像ビット
マップのステップバイステップ構成を示す。

【図３１】記号列が形成されたもととなるものから記号
列を再構成するため画像ビットマップを複合する本発明
による画像認識装置の一形態のブロック図である。

【図３２】本発明を実施する場合に図３１のノードスコ
ア／バックポインタプロセッサが利用できるアルゴリズ
ムの一形態の一例のフローチャートである。

【図３３】図３２の処理のステップ６１６の間に実行さ
れる計算を図示するフローチャートである。

【図３４】本発明を実施する場合、図３１のバックトレ
ースプロセッサが利用可能なアルゴリズムの一形態のフ
ローチャートである。

【符号の説明】

１０メッセージソース１１画像生成器（イメージャー）１２チャネル１００入力記号列１１０画像合成器１２０、５６０画像ネットワーク１３０、５３０テンプレートライブラリ１４０、５１０ビットマップ画像５２０テンプレート整合器５４０テンプレート整合スコア配列５５０ノードスコア／バックポインタプロセッサ５５５デコーダスケジュール５６５スケジューラ５７０ノードスコア／バックポインタ配列５８０バックトレースプロセッサ５９０出力記号列

【数８１】

【数８２】

【数８３】

【数８４】

【数８５】

【外２】

【外３】

【外４】

【外５】

【外６】

【外７】

【外８】

───────────────────────────────────────────────────── フロントページの続き (72)発明者フィリップアンドリューチョウアメリカ合衆国 94025 カリフォルニア州メンローパークブラックバーンアヴェニュー 116

Claims

【特許請求の範囲】

【請求項１】画像認識システムにおいて用いられ、有
限状態ネットワークおよびイメージされるべき対象を入
力する手段とから構成されるイメージングモデルに基づ
く画像生成器であって、有限状態ネットワークにより確定された経路に基づきテ
ンプレートのライブラリから選択された記号テンプレー
トを組み合わせることにより対象のビットマップ画像を
構成する手段から構成される画像生成器。