JP3585523B2

JP3585523B2 - テキスト状画像認識方法

Info

Publication number: JP3585523B2
Application number: JP09275294A
Authority: JP
Inventors: イー．コペックゲイリー; シー．カムアンソニー; エイ．チョウフィリップ
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1993-05-07
Filing date: 1994-04-28
Publication date: 2004-11-04
Anticipated expiration: 2019-11-04
Also published as: US5526444A; EP0623915B1; DE69419809D1; EP0623915A1; DE69419809T2; JPH06348852A

Description

【０００１】
【産業上の利用分野】
本発明は、画像復号及び認識技術に係り、特に、確率有限状態（マルコフ（Ｍａｒｋｏｖ））ソースモデルを用いたこの種の技術に関する。
【０００２】
【従来の技術】
関連文献リスト
［１］Ａ．Ｖ．Ａｈｏ、Ｊ．Ｅ．Ｈｏｐｃｒｏｆｔ、及びＪ．Ｄ．Ｕｌｌｍａｎ著、”ＴｈｅＤｅｓｉｇｎａｎｄＡｎａｌｙｓｉｓｏｆＣｏｍｐｕｔｅｒＡｌｇｏｒｉｔｈｍｓ（コンピュータアルゴリズムの設計及び分析） ”（１９７４年）、選択文書：Ａｄｄｉｓｏｎ−Ｗｅｓｌｅｙ社（２０７頁乃至２０９頁と２２１頁）。
［２］Ｆ．Ｍ．Ｗａｈｌｅ、Ｋ．Ｙ．Ｗｏｎｇ、及びＲ．Ｇ．Ｃａｓｅｙ著、「コンピュータグラフィックスと画像処理」の第２０巻、３７５頁から３９０頁の” ＢｌｏｃｋＳｅｇｍｅｎｔａｔｉｏｎａｎｄＴｅｘｔＥｘｔｒａｃｔｉｏｎｉｎＭｉｘｅｄＴｅｓｔ／ＩｍａｇｅＤｏｃｕｍｅｎｔｓ（混合テスト／画像文書におけるブロックセグメンテーション及びテキスト抽出）（１９８２年）。
［３］ＷｉｌｌｉａｍＫａｕｆｍａｎ社（カリフォルニア州、ロスアルトス市）発行のＡ．ＢａｒｒとＥ．Ｆｅｉｇｅｎｂａｕｍ著の「人工知能ハンドブック」（５８頁乃至７１頁、２６３頁乃至２６７頁、３６４頁乃至３８８頁）。
［４］１９９２年９月、オランダ、ハーグ市で開催された「パターン認識についての第１１回国際会議」によってＣ．Ｂ．ＢｏｓｅとＳ．Ｋｕｏ著の”ＣｏｎｎｅｃｔｅｄａｎｄＤｅｇｒａｄｅｄＴｅｘｔＲｅｃｏｇｎｉｔｉｏｎｕｓｉｎｇａＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ（隠蔽されたマルコフモデルを用いて接続され且つ劣化されたテキスト認識）” 。
［５］１９９３年４月２７日乃至３０日にミネソタ州ミネアポリス市において開催された「音響、スピーチ、及び信号処理に関する１９９３年度ＩＥＥＥ（アイトリプルイー）の国際会議」におけるＦ．ＣｈｅｎとＬ．Ｗｉｌｃｏｘ著の”ＷｏｒｄｓｐｏｔｔｉｎｇｉｎｓｃａｎｎｅｄｉｍａｇｅｓｕｓｉｎｇｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌｓ（隠蔽されたマルコフモデルを用いて走査された画像におけるワードスポッティング）” 。
［６］１９８９年１１月ペンシルバニア州フィラデルフィアに於ける「ビジュアル通信及び画像処理に関するＳＰＩＥ会議」においてＰ．Ｃｈｏｕによって発表された”Ｒｅｃｏｇｎｉｔｉｏｎｏｆｅｑｕａｔｉｏｎｓｕｓｉｎｇａｔｗｏ−ｄｉｍｅｎｓｉｏｎａｌｓｔｏｃｈａｓｔｉｃｃｏｎｔｅｘｔ−ｆｒｅｅｇｒａｍｍａｒ（２次元確率文脈自在文法を用いた方程式の認識）” 。
［７］１９９２年１０月２１乃至２３日にワシントンＤ．Ｃ．で開催された「文書処理の原理に関する第１回インターナショナルワークショップ」においてＰ．ＣｈｏｕとＧ．Ｋｏｐｅｃ著によって発表された”Ｓｔｏｃｈａｓｔｉｃａｔｔｒｉｂｕｔｅｇｒａｍｍａｒｍｏｄｅｌｏｆｄｏｃｕｍｅｎｔｐｒｏｄｕｃｔｉｏｎａｎｄｉｔｓｕｓｅｉｎｄｏｃｕｍｅｎｔｒｅｃｏｇｎｉｔｉｏｎ（文書再生の確率属性文法モデルと文書認識におけるその使用）” 。
［８］１９９２年１月、「ＩＥＥＥトランズ．のパターン分析とマシン知能」に提出されたＰ．ＣｈｏｕとＧ．Ｋｏｐｅｃ著の”ＤｏｃｕｍｅｎｔｉｍａｇｅｄｅｃｏｄｉｎｇｕｓｉｎｇＭａｒｋｏｖｓｏｕｒｃｅｍｏｄｅｌｓ（マルコフソースモデルを用いた文書画像復号）” 。
［９］１９９２年６月、カリフォルニア州パロアルト市のゼロックスパロアルト研究センターから発表されたＧ．Ｋｏｐｅｃ著の”Ｒｏｗ−ＭａｊｏｒＳｃｈｅｄｕｌｉｎｇｏｆＩｍａｇｅＤｅｃｏｄｅｒｓ（画像デコーダの行中心スケジューリング）” と題されたリポートＰ９２−０００６（ＥＤＬ−９２−５）。
［１０］１９９２年７月、「画像処理に関するＩＥＥＥトランズ．」へ提出されたＧ．Ｋｏｐｅｃ著の”Ｌｅａｓｔ−ＳｑｕａｒｅｓＦｏｎｔＭｅｔｒｉｃＥｓｔｉｍａｔｉｏｎｆｒｏｍＩｍａｇｅｓ（画像からの最小二乗フォントメートル推定値）” 。１９９２年７月、カリフォルニア州、パロアルト市のゼロックスパロアルト研究センター発行のリポートＰ９２−０００８６（ＩＳＴＬ−９２−１）。
［１１］１９９２年３月２３乃至２６日、カリフォルニア州サンフランシスコ市で開催された「１９９２年度ＩＥＥＥ国際会議の音響、スピーチ、及び信号処理」の第３巻、１４９乃至１５２頁のＥ．ＬｅｖｉｎとＲ．Ｐｉｅｒａｃｃｉｎｉ著の”Ｄｙｎａｍｉｃｐｌａｎａｒｗａｒｐｉｎｇｆｏｒｏｐｔｉｃａｌｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ（光学的文字認識に関する動的プレーナワーピング）” 。
［１２］１９８１年、カリフォルニア州ロスアルトスのＷｉｌｌｉａｍＫａｕｆｍａｎ社発行の「人工知能ハンドブック」の５８乃至７１頁、２６３乃至２６７頁、３６４乃至３８８頁。
【０００３】
隠れマルコフモデル（ＨＭＭ）に基づいた自動スピーチ認識システムと他の確率文法フレームワークが知られている。実施例が米国特許出願番号０７／７６２，２９０（”ＷｏｒｄｓｐｏｔｔｉｎｇＦｏｒＶｏｉｃｅＥｄｉｔｉｎｉｇＡｎｄＩｎｄｅｘｉｎｇ”と題された１９９１年９月１９日付の同一所有の同時係属出願）と参考文献［５］（上記リスト参照）に記述されている。括弧内の数字は、上記リストに挙げられている参照された刊行物を識別している。ＨＭＭも文書画像認識問題に用いられてきた。文書画像復号（ＤＩＤ）と呼ばれる最も包括的なこれらの試行は、文書認識の明示的通信理論見解に基づく。米国特許出願番号０７／８０５，７００（”ＩｍａｇｅＲｅｃｏｇｎｉｔｉｏｎＭｅｔｈｏｄＵｓｉｎｇＦｉｎｉｔｅＳｔａｔｅＮｅｔｗｏｒｋｓ”と題された１９９２年１２月１０日付の同一所有の同時係属出願）と参考文献［６、７、８、９、１０］を参照されたい。原出願、米国特許出願番号０７／８０５，７００の図１（即ち本明細書中の図２６を参照されたい）に示されているように、ＤＩＤモデルにおいては、確率メッセージソースは事前確率分布によって一組の候補ストリングから有限ストリングＭを選択する。画像シンセサイザ（イメージャ（ｉｍａｇｅｒ）の別名）はメッセージを理想的な２値画像Ｑへ変換する。チャネルは、スキュー、ブラー、及び加法性ノイズのような印刷及び走査によって歪みを導入することにより理想的な画像を観察された画像Ｚへマップする。最終的に、デコーダ（復号器）は画像Ｚを受け取り、且つ最大事後（ＭＡＰ）決定基準によってオリジナルメッセージの推定値
【０００４】
【外１】

【０００５】
を生成する。
【０００６】
メッセージソースとイメージャのストラクチュアは、図１に示されているように、マルコフ（Ｍａｒｋｏｖ）ソースを用いて画像形成をモデリングすることによって形式的に捕捉される。マルコフソースに関する画像の復号は、モデルのノード及び画像平面の座標によってインデックス付けされた３次元（３Ｄ）復号トレリス（ｔｒｅｌｌｉｓ：棚）を介して最良（ＭＡＰ）経路を発見することを含む。ＭＡＰ復号への直接のアプローチは、画像平面の各ポイントで一組の帰納的に定義付けられた尤度関数を計算するため、２次元形式のセグメンタルヴィテルビ（Ｖｉｔｅｒｂｉ）アルゴリズムを使用することにある。ヴィテルビ画像復号の時間の複雑性は、Ｏ（‖β‖×Ｈ×Ｗ）であり、ここで、‖β‖はソースモデルにおけるブランチ数であり、且つＨ及びＷはそれぞれ画素における画像高さと画像幅である。計算は画像サイズと共に線形にのみ成長するが、絶対項においてはそれは禁止され得る。例えば、単一の公知のフォントにおけるテキストの列（コラム）に対する単純な三つの状態モデルは、３００ｄｐｉ（ドット／インチ（２．５４ｃｍ））の解像度で走査される８．５インチ（２１．５４ｃｍ）×１１インチ（２７．９４ｃｍ）の画像上で実行するために約４５分かかる。従って、要求された計算量を減少させるための方法は、ＤＩＤが文書画像分析への実践的な方法（アプローチ）となるべき場合、不可欠である。
【０００７】
テキスト列表記形式の場合において、実際に、画像の各行（ロー）が使用可能なテキストラインとして評価されるので画像復号が複雑化になる。これによって、例えば、ライン復号は１１インチ（２７．９４ｃｍ）の画像（３００ｄｐｉドット／インチ（２．５４ｃｍ）×１１インチ（２７．９４ｃｍ））に対して３３００回発生する。文書認識への従来のアプローチは、一般的に５０より下の数字である列の実際のテキストラインにおいてのみテキスト認識を実行することによってこの問題を回避しようと試みる。これらのアプローチは、認識［２］の前にテキストラインを検出し且つ位置付けるため、水平画素射影のような単純なセグメンテーションアルゴリズムを用いることによってこれを行なう。
【０００８】
従来のセグメンテーションアルゴリズムが、テキスト認識［４、５］への１ＤＨＭＭベースのアプローチによるそれらの使用に類似した方法で、画像復号の前に使用され得る。しかしながら、事前復号セグメンテーションは非常に劣化した（ノイジー：雑音のある）画像に対しては特に信頼できない。さらに、従来のセグメンテーションアルゴリズムは、厳格な確率形成に基づいてないので、これらのアルゴリズムの使用はＤＩＤの論理的利点のうちの多くを無効にする。
【０００９】
【発明が解決しようとする課題】
本発明の目的は、改善されたＤＩＤシステムである。
【００１０】
本発明の目的はまた、削減された演算コストを有するＤＩＤシステムを提供することにある。
【００１１】
本発明の目的はさらに、直接（ストレートフォワード）ヴィテルビ手順の最適性を提供する削減された演算コストで行なわれる、ＤＩＤシステムを提供することにある。
【００１２】
【課題を解決するための手段】
本発明は、直接ヴィテルビ手順の最適性を犠牲にせずに画像の復号の計算コストにおける削減を達成する。本発明の第１の態様によれば、画像復号システムは、ブランチアンドバウンド（分岐限定：ｂｒａｎｃｈ−ａｎｄ−ｂｏｕｎｄ）、Ａ^＊に類似した反復完了経路（ｉｔｅｒａｔｅｄｃｏｍｐｌｅｔｅｐａｔｈ（ＩＣＰ））アルゴリズムと呼ばれる、通知された最良の第１の検索アルゴリズムと、関係ヒューリステイック探索及び最適化技術［１２］を用いる。ＩＣＰは、分離可能モデルと呼ばれるマルコフソースモデルのクラスのための復号アルゴリズムである。分離可能ソースは、曖昧（ルーズ）には、水平と垂直ストラクチュアのそれぞれを表示する１Ｄモデルの積へ因数分解されてもよいソースである。分離可能モデルは、より形式的には、帰納的遷移ネットワーク［３］に類似するネーム付けされたマルコフサブソースの集合である。画像平面のいくつかの領域へのノードに対するエントリ（入力）を制約する位置制約条件が、モデルのノードのうちのいくつかと対応している。トップレベルサブソースは、ノードが全て特定水平位置に密に制約されている垂直モデルである。
【００１３】
本発明による分離可能モデルを用いた復号は、トップレベルモデルのノードと画像の垂直次元によって定義される２Ｄ（２次元）復号トレリスを介して最良経路を見つけることを含む。垂直モデルのブランチの内のいくつかは水平モデルによってラベル付けされる。このようなブランチに対する整合スコア（採点）は、画像の適切な行に沿って水平モデルを実行することによって計算される。分離可能モデルに対する全体的な復号時間は、水平モデルを実行するのに必要とされる時間によって支配される。ＩＣＰは、大部分の水平行の完全復号を、スコア上の単純上限の計算と置換することにより水平方向のモデルが実行される回数を減少する。これらの上限はヒューリスティック（発見的）関数（機能）と呼ばれる。
【００１４】
本発明の第２の態様によれば、テキスト状画像の分離可能モデルのために有用である二つのタイプのパラメータ化されたヒューリスティック関数が提供されている。一つのタイプは、テキストラインを位置付ける為に水平画素射影の共通使用に対応している。第２のヒューリスティックは、隣接行のスコアによって所定の行に対するスコアを限定する。これらの両ヒューリスティック（発見的方法）の重要な特徴は、これらのパラメータがソースモデルから自動的に推論され得ることである。
【００１５】
分離可能ソースは帰納的に制約されたソースの特別の形式であり、それらはまた、事前に導入された単純ソースのクラスへノード位置制約条件を導入することによって得られる［８］。本発明の第３の態様によれば、いくつかの制約されたソースを分離可能な形式へ変換するための手順が記述される。分離手順の重要な構成要素は、小さなサブセットのノードのために一般的に供給されるユーザ指定位置制約条件をモデルの残りのノードへ伝搬するためのアルゴリズムである。
【００１６】
要するに、本発明は、ＨＭＭの形式における確率有限状態（マルコフ）分離可能ソースモデルを用いた迅速なヒューリスティック検索アルゴリズムを備えるテキスト状復号システム及び方法を備える。周知のブランチアンドバウンド（分岐限定法）の後にパターン化された新しい検索アルゴリズム（ＩＣＰ）は、その複雑性を有効に削減し、且つ直接ＤＩＤ手順の最適性を犠牲にせずに、ＨＭＭ画像復号の速度を高める。「テキスト状画像（”ｔｅｘｔ−ｌｉｋｅｉｍａｇｅｓ ” ）」は、テキスト状テンプレートを用いてタイプセットされたあらゆるタイプの人工的画像を意味する。これは、限定はされないが、テキスト、方程式、及び音楽を含む。テキスト状画像を組み込む文書の例は、ビジネスレター、テクニカルジャーナル、特許、及び特許出願、シートミュージック（楽譜等の紙上音楽）及び工学的図面である。
【００１７】
本発明は、マルコフソースモデルとヴィテルビ復号を用いて復号トレリスを走査することから決定される経路を基本としてテンプレートのライブラリから選択された複数のシンボルテンプレートの組合せにビットマップ画像を特徴付けるためのテキスト状画像認識方法であって、前記復号トレリスは、該復号トレリスを走査するための最良経路を含みそうな第１の複数の領域と、該復号トレリスを走査するための最良経路を含みそうにない第２の複数の領域と、を含み、前記ヴィテルビ復号は、画像平面の各ポイントで一組の尤度関数を計算するために用いられる２次元ヴィテルビアルゴリズムを備え、前記画像平面の各ポイントが複数のノードと該ノード間の遷移によって前記復号トレリス内でモデル化され、ヴィテルビ復号は、前記画像平面の各ポイントにおける各ノードへの最尤経路の尤度を計算することを備え、前記テキスト状画像認識方法は、（ａ）マルコフソースモデルとして分離可能モデルを使用するステップであって、該分離可能モデルはトップレベル１次元垂直モデル及び該垂直モデルのブランチに対応する水平モデルのセットとして示される２次元モデルであって、該水平モデルの各々の各完了経路は該水平モデルを介して固定された水平位置で始まり固定された水平位置で終わり、該モデルの各完了経路の垂直変位は該経路の垂直開始位置とは独立に一定である、ステップと、（ｂ）完全な復号を行わず、最良経路を含みそうな前記復号トレリスの第１の複数の領域を識別するステップと、（ｃ）前記復号トレリスを介する最良経路を決定するために、ステップ（ｂ）で決定された前記第１の複数の領域内でのみ完全なヴィテルビ復号を実行するステップと、（ｄ）ステップ（ｃ）で決定された前記最良経路から推定されるシンボルテンプレートの組合せに基づいて、画像を示す画像若しくはテキスト文字列を生成するステップと、を備えることにより改良される、テキスト状画像認識方法である。
【００１８】
【実施例】
関連ケースである米国特許出願番号０７／７６２，２９０は、部分的トレースバックを有するヴィテルビ検索を用いたＨＭＭベースのワードスポッティングシステムを記述している。この出願に提供されているＨＭＭモデリング処理とスコアリング技術についての記述は、本明細書中に参照することによって組み込まれている。
【００１９】
関連ケースである米国特許出願番号０７／８０５，７００は、ＨＭＭモデリングを用いて画像復号及び認識アプリケーションのための最適な汎用アプローチを記述しており、その内容が本明細書中に参照されることにより組み込まれている。
【００２０】
他のバックグランドとして、読者は、１９８９年２月発行のＰＩＥＥＥの２５７乃至２８５頁の７７巻のＮｏ．２においてＬ．Ｒ．Ｒａｂｉｎｅｒ（ラビナー）により表されたＨＭＭ上の優れた教示内容を参照されたい。
【００２１】
”ＡｕｔｏｍａｔｉｃＧｅｎｅｒａｔｉｏｎＯｆＣｕｓｔｏｍＤｏｃｕｍｅｎｔＩｍａｇｅＤｅｃｏｄｅｒｓ（カスタム文書画像デコーダの自動的発生） ”と題された発明者のうちの二人による刊行物の内容が本明細書中に参照することによって組み込まれている。この刊行物は、関連親出願の米国特許出願番号０７／８０５，７００において提供された記述内容を要約し、且つ読者が、本発明と、親出願と本発明がいかにして異なるかを理解するために優れた教示内容を提供している。
【００２２】
要するに、親出願は、画像ソースモデル、チャネルモデル、及びデコーダを必要とする復号処理を記述している。使用されているソースモデルは、１セットのノードと、各ノードへ指定された遷移のセットとから構成される有限状態ネットワークを有するマルコフソースモデルである。ネットワークは初期状態及び最終状態によって特徴付けされる。各遷移は、テンプレート、ラベル又はメッセージストリング、遷移確率、及び２次元整数ベクトル変位を備える４組型（４−ｔｕｐｌｅ）の属性にそれ自体対応する。復号は、初期から最終状態までのネットワークを介して最尤経路を決定することを含む。それが達成されると、最尤経路の遷移に対応するメッセージストリングが、復号された画像の記述を形成するために連結される。各メッセージストリングも最尤経路の遷移と対応するテンプレートをオーバーラップすることによって入力画像の版を再構築するために使用されることもできる。
【００２３】
一般に各ノードへ多くの遷移が生じるので、親出願において説明されるように、最尤経路を決定するために公知のヴィテルビアルゴリズムを基にした探索アルゴリズムが、各画像位置とすべてのノードへの各遷移に対して反復し、且つ遷移を通過した後でノードと画像位置において終了する最良経路の尤度（確度）を計算することによって使用され得る。この計算の一部は、遷移のテンプレートが画像ポイントの近傍において復号されるべき画像領域に対応する尤度を計算することを含む。
【００２４】
本発明は、探索アルゴリズムにおける改良に係り、各ノードへの遷移の削減されたセットに対するスコアを計算する方法を特に教示し、且つ当該遷移の削減された数がノードへの全ての可能な遷移の数より実質的に小さくなる。計算が非常に規則的なので、遷移スコア計算の回数を削減することによって、画像を復号するために必要とされる計算時間がほぼ比例して実質的に短縮される。反復数は、遷移のスコアリングを限定するために一つ又はそれより多くのヒューリスティックス（発見的方法）を用いることによって削減される。言い換えれば、最良経路を含みそうもないような特定の遷移が廃棄されるのを可能とし、これによって計算時間を減らされることになる。
【００２５】
親出願ケースにおいて引用された教示内容から明確であるように、従来の技術において、全ての遷移の完全な復号は最尤経路を決定するために実行された。これとは反対に、本発明においては、分離可能モデルと呼ばれるマルコフソースモデルのクラスを使用することによって、及び適切なヒューリスティック関数と一緒にＩＣＰアルゴリズムを用いて復号を実行することによって、各遷移の完全な復号は遷移スコア上の単純な上限のより短期間の計算と置き換えられ得る。これは、可能遷移の大きな部分の廃棄を動作可能とし、これによってより長い計算時間を用いた完全な復号が一層少ない数の可能遷移に対してのみ実行されることが必要とされる。多くの長時間の遷移のスコア計算のより短時間のヒューリスティックスコア計算による置換は、以下に説明されるように、一つの実施例において１１の因子だけ、他の実施例において１９の因子だけ、本発明による全体的計算時間の顕著な短縮に対して重要な役割を有する。
【００２６】
本発明は、親出願に記述されている最適な技術の上に組み立てられ、且つ読者に役立つため、親出願ケースに記述されているように、合成器（シンセサイザ）と復号処理の記述を含むことが有用である。
【００２７】
スピーチ処理の本発明とその関連する技術分野において良好に設定された確率的タイプの有限状態画像ジェネレータに付随する概念を用いて、親出願即ち米国特許出願番号第０７／８０７，７００号において記述され且つ請求された発明のシステムを実行するために、それに限定されないが、一つの方法が、詳細に記述されている。
【００２８】
図１５は、画像合成に適用された方法を示す。画像シンセサイザ１１０（別名：イメージャ）は、画像ネットワーク１２０として表現される画像のクラスの記述、親出願の図３に示されているように、各々が特定文字のタイポグラフィモデルのパラメータをリストする画像テンプレートのライブラリ１３０、及び画像ネットワークによって記述されるクラスからある特定画像を指定するために使用される文字ストリング１００を入力として受け取る。イメージャ１１０の出力は、テンプレートライブラリ１３０から引き出された一組の連続画像を配列することによって形成されるビットマップ画像１４０である。これは、画像形成処理を説明するために前もって使用された透明性のスタックに類似している。連続画像のアイデンティティ（同一性）と空間的位置は、入力ストリング１００と画像ネットワーク１２０によって結合的に決定される。
【００２９】
図１６は、有限状態文法を表すために一般に使用される種類の有限状態遷移ネットワークと類似している画像ネットワーク１２０の例２００である。画像ネットワーク２００は、例えば方向付けられたブランチ２３５と２４０によって相互接続される例えば一組のノード２０５と２１０からなる。例えば、ブランチ２３５は、ノード２０５を出で、ノード２１０に入ると呼ばれる。ノードは状態即ち頂点と呼ばれる。ブランチは遷移即ちエッジと呼ばれる。ネットワークの二つの区別された状態は、それぞれ_{ｎＩ}と_{ｎＦ}とラベル付けされた開始状態２０５と最終状態２２０である。各遷移は以下の四つの属性によってラベル付けされる。即ち、メッセージ、この場合、参照番号２３６と２４１のような文字のネームと、参照番号２３７と２４２のような画像テンプレートのネームと、参照番号２３８と２４３のような水平変位ｄ_ｘと垂直変位ｄ_ｙの各々からなる２次元変位ベクトルと、参照番号２３９と２４４のような遷移確率である。文字ラベル又は画像テンプレートは、ブランチ２５０の文字２５１において又はブランチ２４５のテンプレート２４７のようにヌル（空文字）であってもよい。遷移確率は画像復号の間は使用されるが、画像合成の間は使用されない。入力ストリングと画像ネットワークが提供されると、イメージャは、画像ネットワークのブランチを走査する出力画像を合成するが、画像位置ポインタを更新し、次いで以下のように、テンプレートライブラリから出力画像アレイ（配列）へテンプレートをコピーする。
【００３０】
イメージャは、出力画像アレイの座標（０、０）へ初期化された画像位置ポインタで初期状態２０５において開始される。入力ストリングの最初の文字は、ノード２０５から出たブランチ２８０、２３５、及び２８５上の文字ラベル２８１、２３６、及び２８６と比較される。ブランチラベルの内の一つが入力文字と整合する場合、イメージャは対応するブランチを選択し、且つ以下の動作を実行する。図示するために、入力ストリングの最初の文字が’ｂ’であると想定されたい。この場合、’ｂ’が文字ラベル２３６と整合するので、イメージャはブランチ２３５を選択する。ブランチ２３５が選択された場合、イメージャは、ブランチ２３５に対応する画像テンプレート２３７のコピーを、現在画像位置（０）に位置合わせされたテンプレートの原点を有する出力アレイへ、描写する。現在画像位置は、ブランチ２３５と対応する変位２３８によってインクリメント（増分）され、（１、０）になる。最終的に、イメージャは選択されたブランチ２３５に従うことによりノード２１０へ移動される。イメージャはノード２１０においてこの処理を反復する。イメージャは入力ストリングの第２の文字を検査し、それをノード２１０を出るブランチ上のラベル２４１と２４６と比較し、次いで整合ブランチを選択する。例えば、第２の文字が’ａ’である場合、ブランチ２４０が選択される。この場合、ブランチ２４０に対するテンプレート２４２のコピーが、（１、０）の現在画像位置における出力画像アレイへ描画される。現在画像位置は、変位２４３によって（２、１）になるようにインクリメントされ、且つイメージャは再びノード２１０へ移動する。
【００３１】
この処理は入力ストリングの全ての文字が処理されるまで続けられる。この時点で、イメージャは最終状態２２０に達成しているべきか又はヌル文字ラベルを有するブランチを選択することによって最終状態に達成することが可能であるべきである。イメージャが入力ストリングが使い果たされる時点で最終状態２２０に達成することができない場合、エラーが発生する。処理のある時点で、現在入力文字に整合するブランチがない場合もエラーは発生する。一つより多くのブランチが現在文字に整合した場合にも問題が発生する。これらや他の例外的な状態を処理するために上記の処理の記述を汎用化するための方法は、有限状態言語の文献において周知である。
【００３２】
図１７及び図１８は、図１６に示されている画像ネットワーク２００に対する完了処理、及び入力ストリング”ｂａａ＄”３１０を示す。図１７は、ストリング３１０がネットワーク２００によって処理される時に形成される画像３２０を示す。合成処理のステップ１乃至５は図１８のテーブルに詳細に示されている。ステップ１の前に、イメージャはブランクの出力アレイの位置（０、０）で初期状態２０５にある。ステップ１の間、イメージャは、第１の入力文字３１１をノード２０５を出る三つのブランチ２８０、２３５、及び２８５のラベルと比較する。入力文字はブランチ２３５上のラベル２３６と整合する。イメージャはブランチ２３５に対応しているテンプレート２３７のコピー４１１、この場合、’ｂ’の画像を、位置（０、０）における出力アレイへ描画し、次いでノード２１０即ち画像位置（１、０）へ移動する。この実施例において、すべてのテンプレートの位置合わせ（整合）ポイントはテンプレートの下部左隅であると想定される。図１８の画像列において、ステップ１の開始時の画像の位置は、点’．’４１２によって画像４１０内に表わされる。ステップ１の終了時の画像位置は、 ”Ｘ” ４１４によって表わされる。ステップ２乃至５に対する画像４２０、４３０、４４０、及び４５０も同様に記される。
【００３３】
ステップ２において、状態２１０で開始されるイメージャは、第２の入力文字３１２と、ノード２１０を出るブランチ２４０及び２４５上の文字２４１及び２４６と比較する。入力文字’ａ’はブランチ２４０のラベル２４１と整合し、これによりイメージャはテンプレート２４２のコピー４２１を配し、この場合、現在位置（１、０）における’ａ’の画像は、変位２４３によって現在位置を（２、１）へ進め、次いで状態２１０へ再び移動する。
【００３４】
ステップ３の間、処理は第３の入力文字３１３に対して反復される。イメージャは、ブランチ２４０を選択し、テンプレート２４２のコピー４３１を位置（２、１）へ置き、現在画像位置を（３、２）へ更新し、次いでノード２１０へ再び移動する。
【００３５】
ステップ４の間、第４の入力文字３１４が処理され、引き続いてイメージャがブランチ２４５からノード２１５へ進む。ブランチ２４５に対応する変位２４８が（０、０）であるので、画像位置ポインタは変更されないし、またブランチ２４５に対応するテンプレートラベル２４７がヌルテンプレートを指定するので、テンプレートは出力アレイへコピーされない。
【００３６】
ステップ５の開始において、イメージャは入力ストリングを使い果たした。しかしながら、ブランチ２５０の文字ラベル２５１がヌル文字を指定するので、ブランチ２５０が選択されてもよい。ブランチ２５０に対するテンプレート２５２のコピー４５１即ち画像’ｍ’が現在画像位置（３、２）に配置され、イメージャは状態２２０へ移動し、次いで画像位置が（４、０）へ更新される。この時点で、イメージャは最終状態２２０にあり、従って処理すべき入力文字はこれ以上存在しない。これにより、画像形成動作は首尾よく完了されることになる。この実施例は、入力ストリングシンボルと結果的に生じるビットマップ画像の間の１対１の対応である必要はないことも図示している。例えば、画像形成されるべきストリングは、ビットマップ内に組み込まれようと意図されないコード内のコメントに対応する情報をその内部に有することができる。同様に、認識装置は、その出力内に、ビットマップそれ自体内に存在しない（そのソースのような）ビットマップに関する情報を含むことができる。さらに、ビットマップシンボルはストリングシンボルとは区別されることができ（ストリング内の’＄’とビットマップ内の’ｍ’に注目せよ）、且つ認識装置がいくつかの規定条件の下で文字を自動的に生成する場合、ビットマップ内にシンボルは全く存在する必要がなくなる。
【００３７】
図１９は、出力ストリング５９０を発生するために入力ビットマップ５１０を復号するための画像ネットワークの使用即ち逆処理を示す。これは、本発明によって改善されるシステムの一部である。図１７に提供される実施例に関しては、同様な画像ネットワーク２００が使用される。テンプレート整合器５２０は、（図１５のイメージャにおいて使用されるテンプレートライブラリ１３０と同じである）テンプレートライブラリ５３０の各要素を、親出願ケースに定義されているようなＬ（Ｚ｜Ｑ）を計算する整合関数を用いて入力画像５１０と比較する。テンプレート整合器（ｍａｔｃｈｅｒ）の出力は、入力画像の各位置におけるテンプレートに対する数値整合スコアを含むライブラリからの各テンプレート毎に一つの一組のスコアアレイ５４０である。ノードスコア及びバックポインタプロセッサ５５０は、画像ネットワーク５６０のノード毎にスコアアレイとバックポインタアレイ５７０を計算する。ノードに対するスコアは、入力画像の各位置において位置合わせされるノードに対して親出願において定義された数値整合スコアＬ（ｎ；ベクトルｘ）を含む。ノードに対するバックポインタアレイは、ノードへの最尤ブランチ、即ちスコアを最大とする各画像位置におけるブランチ、を識別する。ノードスコア及びバックポインタプロセッサ５５０への入力は、テンプレート整合器に対するテンプレート整合スコア５４０と、図１５のイメージャ内で使用された同一画像ネットワーク１２０である画像ネットワーク５６０からのデコーダスケジュール５５５である。最終的に、バックトレースプロセッサ５８０は、画像ネットワーク５６０を介して経路を発生するためにバックポインタアレイ５７０を使用し、次いでこの経路から、出力ストリング５９０が経路のブランチの文字ラベルを連結することによって形成される。例えば、図１７に示されている実施例では、これがストリング”ｂａａ＄”を再構築する。
【００３８】
ノードスコアとバックポインタプロセッサ５５０によって実行されると、上記のようにアレイ５７０を生成するアルゴリズムの一つの形式が図２０に詳細に示されている。プロセッサ５５０は行優先順にノードスコアとバックポインタアレイ５７０を埋め込む。要するに、全ての行が完了するまで、次に第１の行に対する全ての値が計算され、次に第２の行に対する全ての値が計算され、同様に、順に計算されていく。各行に対する計算はまた一連の「引渡し（パス）」として編成される。各パスの間、一つの行がスコアとバックポインタアレイのいくつかのサブセットに対する各アレイに対して計算される。スケジュールによって指定されるように、ｘ位置の増加する順番に左から右へ、又はｘ位置の減少する順番に右から左へ、のいずれかへ計算される。左から右へのパスは「順方向」パスと呼ばれ、右から左へのパスは「逆方向」パスと呼ばれる。パス内の各ｘ位置において、スコア及びバックポインタは規定の順序において画像ネットワークのノードのうちのあるサブセットに対して計算される。
【００３９】
図２０におけるアルゴリズムは４レベルを有する入れ子形反復である。ステップ６０２乃至ステップ６３２の最も外側のレベルは行を反復する。ステップ６０２は行カウンタｙを１に初期化する。ステップ６３０においては、行カウンタが画像Ｈにおける行の数と比較される。すべての行が計算されたのではなかった場合、行カウンタはステップ６３２で増分され且つ次の行が処理される。ステップ６０４乃至ステップ６２８における第２のレベルはパスを反復する。パスカウンタはステップ６０４において初期化され、ステップ６２６におけるパスの総数Ｋと比較され、次いでステップ６２８において増分される。ステップ６０５乃至ステップ６２４における第３のレベルは行カウンタｙによって指定された行内の水平な位置上で反復する。三つの水平位置ポインタは同時に保持される。ポインタＸ_Ｒは順方向パスに対して水平な位置を指定する。Ｘ_Ｆはステップ６０５において１に初期化され、ステップ６２４においてインクリメントされ、且つステップ６２２において行、Ｗ内の位置の数と比較される。ポインタＸ_Ｒは後方向パスに対する水平位置である。Ｘ_Ｒはステップ６０５でＷへ初期化され、且つステップ６２４でデクリメントされる。ポインタＸは、ステップ６０８、６１０、及び６１２において、現在パスが順方向か又は逆方向かによってＸ_Ｆ又はＸ_Ｒのいずれかへセットされる。ステップ６１４乃至ステップ６２０における反復の第４のレベルは、ｙによって指定された行とｘによて指定された水平位置においてパスカウンタによって指定さらえたパスのノードｎごとにスコアＬ（ｎ、ｘ、ｙ）及びバックポインタＢ（ｎ、ｘ、ｙ）を計算する。スコアＬ（ｎ、ｘ、ｙ）とバックポインタＢ（ｎ、ｘ、ｙ）の実際の計算は、図２１に示されているステップ６１６において行なわれる。
【００４０】
図１２は、特定ノードｎと画像位置（ｘ、ｙ）に対するノードスコアＬ（ｎ、ｘ、ｙ）とバックポインタＢ（ｎ、ｘ、ｙ）の計算の実施例を示している。このアルゴリズムは、隠れマルコフモデルでスピーチ認識において使用される標準的１次元動的プログラミングステップの２次元汎用化である。この計算は、全てのブランチの中から、指定された画像位置（ｘ、ｙ）においてノードのスコアを最大限とする指定されたノードｎに入るようなブランチを見つけることを含む。対応するベスト（最良）ブランチの最大スコアと識別は、ステップ７７０において、スコアＬ（ｎ、ｘ、ｙ）とバックポインタＢ（ｎ、ｘ、ｙ）としてリターンされる。計算の行程の間、ステップ７１０で初期化された変数のベストスコアとベストブランチは、ベストスコアと、これまでに遭遇した対応するブランチを含む。
【００４１】
ステップ７１５乃至ステップ７６５は、ノードｎに入るブランチを反復する。ステップ７１５はブランチインデックスｔをｎへの第１のブランチへ初期化する。ステップ７６０とステップ７６５はｎのすべてのブランチが考慮されるまで反復を繰り返す。ステップ７２０、７２５、及び７３０は、テンプレートＱ、変位（ｄ_ｘ、ｄ_ｙ）、及びブランチｔと対応する遷移確率、を検索する。これらは図１６に示されている遷移又はブランチの属性に対応している。ステップ７３５は、ノードスコアとバックポインタプロセッサ５５０へ入力５４０として事前に供給されたテンプレートスコアアレイからの画像位置（ｘ−ｄｘ、ｙ−ｄｙ）におけるテンプレートＱに対するテンプレート整合スコアを検索する。ステップ７４０はブランチｔが始まるノードＲの識別を検索し、次いでステップ７４２は画像位置（ｘ−ｄｘ、ｙ−ｄｙ）においてノードＲに対するノードスコア値Ｌ（ｎ、ｘ、ｙ）を検索する。この値は、図２１においてアルゴリズムの事前の実行の間、計算された。要するに、デコーダスケジュール５５５は、現在計算の間、Ｌ（ｎ、ｘ、ｙ）を計算するために必要とされるいかなるノードスコアも事前計算を通して利用可能であることを確実としなければならない。ステップ７４５は、現在ブランチに対する候補ノードスコアを計算する。最終的に、ステップ７５０とステップ７５５は、ステップ７４５において計算された候補スコアがベストスコアの事前の値よりも大きい場合、ベストスコアとベストブランチを更新する。
【００４２】
テンプレート整合器５２０は、各画像位置において位置合わせされたテンプレートＱ毎にＬ（Ｚ｜Ｑ）を計算する。実行は直接的である。
【００４３】
スケジューラ５６５は画像ネットワーク５６０からスケジュール５５５を生成する。スケジュールはノードスコア及びバックポインタアレイ５７０におけるエントリが計算される順序を指定し、且つデータの依存関係が守られることを確実とすべきである。
【００４４】
バックトレースプロセッサ５８０は、図２２に記述されている実施例のように、アルゴリズムを用いてノードスコアとバックポインタアレイ５７０から出力ストリング５９０を計算する。バックトレースプロセッサは、スタートノードｎ_Ｉに達するまで、バックポインタアレイ内で識別されたブランチに連続的に従うことによって画像位置（Ｗ、Ｈ）における最終ノードｎＦからトレースバックする。このバックトレース（逆方向トレース）の間に遭遇されたブランチにおける文字ラベルは出力ストリング５９０を形成するために連結される。
【００４５】
ステップ８１０は現在画像位置（ｘ、ｙ）を（Ｗ、Ｈ）へ初期化し、現在ノードｎを最終ノードｎ_Ｆへ初期化し、次いで出力ストリングｍをヌルストリングへ初期化する。ステップ８２０は、ｔをノードスコアとバックポインタプロセッサ５５５によって事前に計算されたブランチＢ（ｎ、ｘ、ｙ）へセットする。ブランチｔに対する文字ラベル’ｃ’は、ステップ８３０において検索され且つステップ８４０においてストリングｍの始まりへプッシュされる。ステップ８５０は、ｎを、ブランチｔが開始されるノードへ更新し、且つステップ８６０はブランチｔに対する変位（ｄｘ、ｄｙ）を検索する。ステップ８７０は、変位（ｄｘ、ｄｙ）を減算することによって現在画像位置（ｘ、ｙ）を更新する。ステップ８５０において設定されたノードｎの新しい値は、ステップ８８０において、画像ネットワークのスタートノードｎ_Ｉと比較される。ｎ_Ｉが達成されると、ステップ８９０においてバックトレースが終了し、ストリングｍを戻す。そうでなければ、処理はステップ８２０から反復される。
【００４６】
本発明は本発明を再現する方法を理解し且つ学ぶために相当の数学を必要とする。読者を援助するために、引き続くセクションは以下のように編成される。
【００４７】
セクション１は、分離可能なマルコフソースのクラスと、制約されたソース及び帰納的ソースの関連クラスを定義付ける。セクション２は、本発明の反復された完了パスアルゴリズム（ＩＣＰ）を記述する。セクション３は、本発明のパラメータ化された水平射影及び隣接行のヒューリスティック関数を定義付ける。セクション４は、分離可能性のために制約されたソースを検査し、且つ本発明によって可能な場合は変換を実行するためのアルゴリズムを提供する。このセクションは分離の前にユーザ指定の制約条件の伝搬についても説明している。最終的に、セクション５は、ＩＣＰとヒューリスティックスを用いて使用可能な昇速（スピードアップ）を図示する実験結果を提供する。
【００４８】
１．分離可能マルコフソース
このセクションはＩＣＰがベースとされる分離可能ソースの概念を発展させる。われわれは、単純マルコフソースと呼ばれる［８］に導入された画像モデルの復習を始める。単純ソースは、ノード位置制約条件を導入することによって制約されたソースへ汎用化され、及び一つのソースが他のソースを帰納的に「呼び出す（ｉｎｖｏｋｅ）」のを可能とすることによって帰納的ソースへ汎用化される。分離可能モデルは特別なクラスの帰納的ソースとして定義付けられる。このセクションは、ソースモデルと単一フォント内の単純列のテキストに対する制約条件の実施例から結論付けされる。
【００４９】
１．１単純マルコフソース
図１に示されている単純マルコフソースＧは、有限セットのＮ個の状態（ノード、頂点）、
【００５０】
【数１】

【００５１】
と、Ｂに指向された遷移（ブランチ、エッヂ）のセット、
【００５２】
【数２】

【００５３】
からなる指向されたグラフである。各遷移ｔは、それぞれｔの先行値（左）状態と後続値（右）状態と呼ばれる状態対、Ｌ_ｔとＲ_ｔを結ぶ。二つの区分された状態は初期状態ｎ_Ｉと最終状態ｎ_Ｆである。各遷移は４組型の属性、（Ｑ_ｔ、ｍ_ｔ、ａ_ｔ、及びベクトルΔ_ｔ）と対応しており、ここで、Ｑ_ｔはテンプレート、ｍ_ｔはメッセージストリング、ａ_ｔは遷移確率、及びベクトルΔ_ｔ＝（Δｘ_ｔ、Δｙ_ｔ）は２次元整数ベクトル変位である。単純マルコフソースにおいて発見された遷移のタイプは単純遷移と呼ばれる。
【００５４】
マルコフソースにおける経路πは、ｉ＝１、．．．、Ｐ−１である
【００５５】
【数３】

【００５６】
に対する遷移ｔ_１．．．ｔ_ｐのシーケンスである。完了経路はＬ_ｔ１＝ｎ_Ｉであり、且つＲ_ｔｐ＝ｎ_Ｆの経路である。サイクル又はループは、Ｌ_ｔ１＝Ｒ_ｔｐである遷移ｔ_１．．．ｔ_ｐのシーケンスである。
【００５７】
各経路πに対応しているのは、経路の遷移のメッセージストリングを連結することによって形成される合成メッセージ
【００５８】
【数４】

【００５９】
である。単純マルコフソースは、
【００６０】
【数５】

【００６１】
によって完了経路の確率分布を定義し、且つ
【００６２】
【数６】

【００６３】
によってメッセージ上で確率分布を導入し、ここで、その和が完了経路に取って代わられる。さらに各経路πと対応しているのは、ベクトルξ_０が初期位置、通常はベクトル０である
【００６４】
【数７】

【００６５】
によって帰納的に定義される位置ベクトルξ_０．．．ベクトルξ_ｐのシーケンスである。非形式的には、ベクトルξ_ｉは、経路のｉ^ｔｈの遷移の後のグラフィックスカーソルの位置である。
【００６６】
経路は、
【００６７】
【数８】

【００６８】
によって合成画像Ｑを定義する。ここで、Ｑ［ベクトルｘ］は、その局所的座標系の原点が、ベクトルｘに位置付けられるようにシフトされたＱを表記する。経路πに対して、我々は、
【００６９】
【数９】

【００７０】
が経路の変位になるように定義し、且つ
【００７１】
【外２】

【００７２】
ｐとｔ_ｉがπの関数であり、且つベクトルξ_ｉと
【００７３】
【外３】

【００７４】
がベクトルξ_０にも従属することに注目されたい。この依存関係は、この場合、例えば、ベクトルξ_ｉ（ｎ；ベクトルξ_０）と書き込むアンビギュイテイ（誤解）を避けるために必要な時だけ明示的に表示される。
【００７５】
ＭＡＰ復号は、
【００７６】
【数１０】

【００７７】
によって定義される経路尤度関数を最大とする
【００７８】
【外４】

【００７９】
を見つけることを含む。ここで、Ｌ（Ｚ｜Ｑ［ベクトルｘ］）は位置、ベクトルｘにおいて位置合わせされたＱに対するテンプレート整合スコアであり、且つチャネルモデルに依存する。ＭＡＰ復号は、Ωが整数束［Ｏ、Ｗ］×［Ｏ、Ｈ］である各（ｎ、ベクトルｘ）∈Ｎ×Ω６において尤度関数、
【００８０】
【数１１】

【００８１】
を計算することによって実行されてもよい。この記述は、ｘが右方向へ大きくなり、ｙが下方へ大きくなり、且つ上部左コーナがｘ＝ｙ＝０である画像座標システムを使用する。その表示法
【００８２】
【数１２】

【００８３】
は、πが、画像位置、ベクトルξ_０においてノードｎ_Ｉからベクトルｘにおけるノードｎ迄の経路であるという制約条件を表す。尤度関数、Ｌ（ｎ；ベクトルｘ）は、セグメンタルヴィテルビ（動的プログラミング）アルゴリズムを用いて、
【００８４】
【数１３】

【００８５】
によって帰納的に計算されてもよい。
【００８６】
式（１０）における先の確率項ｌｏｇＰｒ｛π｝は、非常に劣化した画像を除く、観測項
【００８７】
【外５】

【００８８】
によって通常は支配される。従って、これは好適な近似としてドロップされ得る。尤度関数Ｌ（ｎ；ベクトルｘ）は、スタートノードｎ_Ｉ、初期経路位置ベクトルξ_０、及びソースモデルＧに暗示的に依存する。これらを明示的に表示する必要がある時、我々は、Ｌ（ｎ、ベクトルｘ｜ｎ_Ｉ；ベクトルξ_０；Ｇ）と書き込む。
【００８９】
１．２制約されたマルコフソース
列境界、ページ数、及び脚注の位置のような文書レイアウトの多くの態様が、画像の特徴の絶対的位置における制約条件の項において当然表現されることができる。制約されたマルコフソースは、文書復号パラダイム内のこのような制約条件を表現し且つ検査するためのフレームワークを提供する。制約されたマルコフソースは、ノードのうちの幾つか又はすべてが、図２において示されているように、ｘ及び／又はｙの位置制約条件によってラベル付けされる単純ソースである。非形式的には、位置制約条件は、経路がノードを通過する時、ｘ又はｙの値の上の上限及び下限を指定する。形式的には、制約ソース内の経路のある遷移ｔ_ｉに対してＲ_ｔｊ＝ｎである場合、
【００９０】
【数１４】

【００９１】
となる。
【００９２】
【外６】

【００９３】
である場合、我々は、ノードｎがｘにおいて密に制約されているという。同様に、
【００９４】
【外７】

【００９５】
の場合、我々は、ノードがｙにおいて密に制約されているという。ソースの開始及び終了ノードは、
【００９６】
【外８】

【００９７】
の場合、ｘとｙの両方において一般的に密に制約されている。
【００９８】
制約されたソースは、
【００９９】
【数１５】

【０１００】
によって、許容された完了経路上で確率分布を定義する。ここで、γは、確率が１の和をとるように導入された正規化因子である。γが経路独立定数であるので、それは復号計算へ入らない。制約されたソースに対して、式（１１）は制約条件を満たす経路へ最大化を制御することによって変更され、さもなければ、式（１３）は、
【０１０１】
【数１６】

【０１０２】
となり、これは復号アルゴリズムへの単純変更を表す。便宜上、われわれは、ｘについての制約条件を通常は省略し、且つ式（１６）を単純に式（１３）として書き込む。
【０１０３】
式（１６）が示すように、位置制約条件の計算効果は、ノードに対する復号束を、画像平面のサブセットへ、制限することである。これによって、位置制約条件は、標準ヴィテルビ復号と共に使用される時、有効な計算の節約を提供することになる。
【０１０４】
１．３帰納マルコフソース
ほぼ６５００ブランチと１８００ノードを含む、［８］において記述されているイェローページ列モデルのような大型のソースモデルの展開は、モデルを階層的に記述することによって円滑化される。階層の記述に対する形式的基本は、図３に示されている帰納マルコフソースである。帰納的ソースは、各々が、遷移の追加のタイプを含み得ることを除いて、制約されたマルコフソースに類似しているネーム付けされたサブソースＧ_０、Ｇ_１．．．Ｇ_ｋの集合である。帰納的ブランチは、遷移確率ａ_ｔとサブソースの内の一つのネームＳ_ｔによってラベル付けされる。帰納的ブランチの解釈は、ネーム付けされたサブソースのコピーを表示することである。サブソースの内の一つは帰納的ソースのトップレベルのサブソースとして指定され、且つＧ_０とラベル付けされる。帰納的ソースの開始と最終ノードはＧ_０のそれらであるように定義付けられる。
【０１０５】
帰納的ソースのサブソースは、第１のサブソースが第２のサブソースのネームによってラベル付けされた帰納的ブランチを含む場合、一つのサブソースから他のサブソースへのブランチを有する方向付けされた依存関係グラフ内のノードとして観察されてもよい。帰納的ソースの依存関係グラフが非周期グラフである場合、ソースは、帰納的ブランチが全く残らなくなるまで、Ｇ_０内の各帰納的ブランチｔを、Ｓ_ｔのコピーと、繰り返し置換することによって導かれる制約されたマルコフソースと等しい。図４は、拡張の一つのステップを示している。
【０１０６】
拡張処理は依存関係グラフが非周期である場合は終了する。
【０１０７】
【外９】

【０１０８】
と表記された結果的に生じる「平坦化」されたソースは、基本的な遷移のみを含む。依存関係グラフが周期を有する場合、帰納的ソースは、制約されたソースに等しくはないが、コンテクストフリーな文法［３］の帰納的遷移ネットワークに対応する。我々は、本明細書中においては依存関係グラフが非周期であると仮定する。
【０１０９】
帰納的ソースに相対する画像の復号は、等しく制約されたソース
【０１１０】
【外１０】

【０１１１】
に関してそれを復号することを意味するように定義され、これによって、例えば、ｎ∈Ｇ_０に対して
【０１１２】
【数１７】

【０１１３】
が得られる。我々は、最終ノード尤度Ｌ（ｎ_Ｆ；Ｗ、Ｈ）のみに最終的に興味があるので、トップレベルサブソースＧ_０内のノードに対してのみ、Ｌ（ｎ；ベクトルｘ）を明示的に計算するので充分である。図４即ち最大経路スコアとしての
【０１１４】
【外１１】

【０１１５】
の定義を考慮してみると、式（１６）が
【０１１６】
【数１８】

【０１１７】
として、Ｇ_０内の遷移によって書き込まれてもよいことを観察することは難しくない。ここで、原始的遷移に対して、我々は、
【０１１８】
【数１９】

【０１１９】
と定義する。帰納的ブランチが可変サイズの画像領域をスパンすることもあるので、ベクトルｘ_１に対して入れ子形の最大化が導入される。
【０１２０】
１．４分離可能マルコフソース
【０１２１】
【外１２】

【０１２２】
が、
【０１２３】
【外１３】

【０１２４】
における全ての完了経路πに対して同一である場合、帰納的ソースＧは定数ｙの変位を有するといわれる。帰納的遷移に対応するサブソースが定数ｙの変位、
【０１２５】
【外１４】

【０１２６】
を有する場合、我々は、原始的ブランチの変位から類推して、遷移のｙの変位が、
【０１２７】
【外１５】

【０１２８】
であると定義する。Ｇ_０の各ノードがｘにおいて密に制約される場合、及びＳ_ｔがＧ_０内のすべての帰納的ブランチｔに対して定数ｙの変位を有する場合、帰納的ソースは分離可能であると言われる。
【０１２９】
Ｇが分離可能である場合、式（１８）におけるベクトルｘ_１の最大化は、Ｌ_ｔがｘにおいて密に制約され、且つ
【０１３０】
【外１６】

【０１３１】
が定数ｙの変位を有するので、
【０１３２】
【外１７】

【０１３３】
における値へ減少する。さらに、各ｎ∈Ｇ_０がｘにおいて密に制約されるので、式（１８）は、
【０１３４】
【数２０】

【０１３５】
へさらに減少され、ここで、ｘとｙの座標が明示的に示されている。式（２０）における固定パラメータが関数引数としてドロップされ且つ我々が、
【０１３６】
【数２１】

【０１３７】
と定義すれば、式（２０）は、
【０１３８】
【数２２】

【０１３９】
へさらに簡素化され、この式は、Ｆ（ｔ；ｙ）によって提供されたセグメントスコアを有するｙにおける１次元セグメンタルヴィテルビ帰納として解釈されてもよい。
【０１４０】
ｔが単純遷移である場合、Ｆ（ｔ；ｙ）は、入力画像と画像位置（χ_Ｒｔ、ｙ）におけるテンプレートＱの間の整合スコアである。ｔが帰納的遷移である場合、Ｆ（ｔ；ｙ）は、画像位置（χ_{ｎＩ（Ｓｔ）}、ｙ−Δｙ_ｔ）におけるノードｎ_Ｉ（Ｓ_ｔ）から画像位置（χ_{ｎＦ（Ｓｔ）}、ｙ）におけるノードｎ_Ｆ（Ｓ_ｔ）へのＳ_ｔ内の最良経路を見つけることによって計算される。
【０１４１】
【外１８】

【０１４２】
の全ての完了経路が同じｙの変位を有するので、従って、ノードｎ_Ｉ（Ｓ_ｔ）からあらゆる他のノードｎ迄の
【０１４３】
【外１９】

【０１４４】
内の経路の変位はｎのみに依存することになる。それゆえ、任意のｙに対してＦ（ｔ；ｙ）を計算する際、
【０１４５】
【外２０】

【０１４６】
のノードはｙにおいて密に制約されているように観察されてもよい。これによって計算はｘにおいて１次元帰納へ減少される。結果的に、分離可能なソースに対する全体的な復号計算は、Ｆ（ｔ；ｙ）の値を計算する一組の独立水平帰納からなり、この後に式（２２）を計算する単一垂直帰納が続いて行なわれる。
【０１４７】
１．５テキスト列の実施例
図５は、［８］に記述されている単純ソースモデルに類似する１２ｐｔアドーベタイムズローマン（ＡｄｏｂｅＴｉｍｅｓＲｏｍａｎ）におけるテキストの列に対する単純ソースモデルを示している。我々は、概念とアルゴリズムを図示すため、この出願によってこの例を使用する。テキスト列ソースの動作は、ソースモデルの制御下での画像平面に対して移動するイメージャオートマトンによって説明されることができる。状態ｎ_１において、イメージャは垂直のホワイトスペースを生成する。自己遷移の各走査はイメージャを一行下へ移動させる。ある点において、イメージャはテキストラインの頂部へ到達し、次いで水平テキストラインの作成を表す状態ｎ_２へ入る。ｎ_２への遷移の変位（０、３４）はテキストのベースラインへイメージャを下げるが、３４はベースライン上のフォント高さである。ｎ_２における自己遷移はフォントと水平ホワイトスペースの個々の文字に対応する。テキストラインの最後において、イメージャはベースラインの下のフォント深さ（デプス）、１３だけ下へ移動し、次いでｎ_３に入る。この時点で、イメージャは最終状態へ出るか、又は次のテキストラインを準備するために左マージンへ戻るために「キャリッジリターン」状態ｎ_４に入る。
【０１４８】
表１は、図５のテキスト列ソースに対するノード位置制約条件のセットを示す。Ｃ_ｎとラベル付けされた列はユーザ指定制約条件を含み、且つ残りの列は、以下に説明されるように、制約条件の伝搬に関する。この実施例が図示するように、初期及び最終状態は、画像平面の上部左及び下部右コーナーのそれぞれへ通常は密に制約される。ｎ_１とｎ_３上のｘの制約条件は、（テキストそれ自体の前び後のホワイトスペースを含む）各テキストラインを列の幅全体を強制的にスパンさせる。一様性のために、全てのノードは制約によってラベル付けされる。且つ明示的制約条件が供給されないところには［−∞、＋∞］が仮定される。
【０１４９】
【表１】

【０１５０】
表１：図５のテキスト列ソースに対する初期（ユーザ指定）及び伝搬された制約条件。例えば、（ａ）ｘにおける制約条件。（ｂ）ｙにおける制約条件。
【０１５１】
図６は、図５と表１によって定義された制約されたソースに等しい帰納テキスト列ソースモデルを示す。このモデルは、この出願において後で記述される分離手順を用いて自動的に構築された。サブソースＧ_１は、ラインのトップからベースラインまで及びベースラインからラインボトムまでの垂直変位を含む水平テキストの単一ラインの発生をモデリングする。サブソースＧ_２は右から左へのキャリッジリターン（復帰）である。
【０１５２】
トップレベルソースＧ_０の各ノードは、表１（ａ）から検証されてもよいように、ｘにおいて密に制約される。さらに、Ｇ_１を介する各完了経路はｙの変位４７を有し、且つＧ_２を介する各完了経路はｙの変位０を有する。このように、テキスト列ソースは分離可能である。
【０１５３】
２．反復された完了経路（ＩＣＰ）アルゴリズム
分離可能ソースを用いた復号への直接アプローチは、全てのｔ∈Ｇ_０及びｙ∈［Ｏ、Ｈ］に対するＦ（ｔ；ｙ）を最初に計算し、次いで式（２２）を使用することである。このような手順はヴィテルビ復号に効果的に対応し、これにより計算上の節約を全く呈示しない。
【０１５４】
本発明による反復された完了経路（ＩＣＰ）アルゴリズムは、最良経路
【０１５５】
【外２１】

【０１５６】
上の（ｔ；ｙ）に対するＦ（ｔ；ｙ）の値だけが、
【０１５７】
【外２２】

【０１５８】
のリカバリング（復元）に事実上関連しているという観察に基づく。要するに、残りの値は、
【０１５９】
【外２３】

【０１６０】
が本当に最良経路であることを検証するために必然的に計算される。ＩＣＰは、
【０１６１】
【外２４】

【０１６２】
上にない（ｔ；ｙ）に対してできるだけ少ない回数でＦ（ｔ；ｙ）を評価することによって全体的な復号計算を削減しようと試みる。
【０１６３】
ＩＣＰは以下の補題に基づき、その証明は直接である。Ｕは上限Ｆが各ｔとｙに対して、
【０１６４】
【数２３】

【０１６５】
となるような関数であると仮定されたい。各経路πに対しては、Ｕ（π）を、
【０１６６】
【数２４】

【０１６７】
によって定義させ、且つＦ（π）を同様に定義させる。Ｆ（π）が、式（１０）によって提供される経路尤度Ｌ（π）であることに注目されたい。
【０１６８】
【外２５】

【０１６９】
が、すべてのπに対して
【０１７０】
【外２６】

【０１７１】
となるようにＵを最大とする完了経路であると想定されたい。従って、
【０１７２】
【数２５】

【０１７３】
とすると、
【０１７４】
【外２７】

【０１７５】
もＦを最大とし、従ってＬも最大となることを示すことは簡単である。
【０１７６】
ＩＣＰはＵ関数のシーケンスを最大とする完了経路のシーケンスを見つける。最初に、Ｕは、計算的に評価するのに多かれ少なかれＦよりも高価であると想定されるヒューリスティック（ｈｅｕｒｉｓｔｉｃ）と呼ばれる上限関数Ｈによって提供される。ＩＣＰが進行すると、Ｕは、Ｈの値の内のいくつかを、実際に画像の行を復号することによって計算されるＦの値と、置換することによって詳細化（リファィン）される。ＩＣＰは、
【０１７７】
【外２８】

【０１７８】
における各遷移に対して
【０１７９】
【外２９】

【０１８０】
である時に終了する。
【０１８１】
基本的なＩＣＰ手順が図７に示されている。ＩＣＰへの入力は、分離可能なマルコフソースのトップレベルのサブソースＧ_０、任意のｔ及びｙに対してＦ（ｔ；ｙ）を計算するために呼び出され得る手順、及びＨ（ｔ；ｙ）を計算する手順である。ＩＣＰ手順は、（ｔ；ｙ）によってインデックス付けされる二つの内部データアレイを保持する。アレイＵのエレメントは反復が開始される前にＨの値によって初期化される。上記のように、Ｕのエレメントのうちのいくつかが反復の行程の間にＦの実際の値によって更新される。アレイＡの各エレメントは、Ｕの対応するエレメントが上限（Ｈ）スコアか実際の（Ｆ）スコアかを示すブールフラグ（ＢｏｏｌｅｎＦｌａｇ）である。Ｕ（ｔ；ｙ）＝Ｆ（ｔ；ｙ）の場合、；Ａ（ｔ；ｙ）＝真である。
【０１８２】
反復の各パス（引き渡し）の間、式（２２）はＦの代わりにＵを用いて動的プログラミングによって計算され、且つ最良経路
【０１８３】
【外３０】

【０１８４】
が決定される。各遷移
【０１８５】
【外３１】

【０１８６】
ごとに、アレイエレメント
【０１８７】
【外３２】

【０１８８】
が上限スコアである場合、それは、
【０１８９】
【外３３】

【０１９０】
と置き換られ、且つ
【０１９１】
【外３４】

【０１９２】
が更新される。反復は、
【０１９３】
【外３５】

【０１９４】
が、
【０１９５】
【外３６】

【０１９６】
ごとに実際のスコアになるまで継続される。先の補題は、最終の
【０１９７】
【外３７】

【０１９８】
が完全ヴィテルビ復号の結果に等しいことを保証する。
【０１９９】
基本的なＩＣＰアルゴリズムは、
【０２００】
【外３８】

【０２０１】
の更新された値が詳細化された上限を近傍のアレイエレメントへ伝搬するのを可能とすることによって拡張されてもよい。その実施例は次のセクションにおいて提供される。
【０２０２】
３．ＩＣＰヒューリスティック関数
ＩＣＰにおけるヒューリスティック関数は、各帰納的遷移ｔに対する実際のスコア、
【０２０３】
【数２６】

【０２０４】
に対する上限Ｈ（ｔ；ｙ）であり、ここでｎ_Ｉとｎ_ＦがＳ_ｔの初期及び最終ノードである。このセクションは、二つのタイプのヒューリスティック関数を展開する。重み付けされた射影ヒューリスティックは、水平射影プロファイルベクトルｚに関してＦ（ｔ；ｙ）上の上限であり、ここでｚ_ｉは、観察された画像Ｚの行ｉ内の１の数である。隣接行ヒューリスティックは、Ｆ（ｔ；ｙ−１）又はＦ（ｔ；ｙ＋１）に関してＦ（ｔ；ｙ）上の上限である。それは、
【０２０５】
【外３９】

【０２０６】
の新しく計算された値に隣接するＵへのエントリを更新するためにＩＣＰ内の各パスの最後に使用されることができる。
【０２０７】
一般に、ヒューリスティック関数の形式はチャネルモデルに依存する。このセクションは非対称なビットフリップチャネルを想定し、このチャネルにおいて、理想的な画像Ｑの各画素が、観察された画像Ｚの形成の間、独立して摂動される。Ｚ内の１個の１として残存するＱ内の前景（黒、１）の確率はα_１である。同様に、１個の０として観察される１個の０の確率はα_０である。ノイズパラメータは画像に対して一定していると仮定される。これらの仮定によって、我々は、以下の式、
【０２０８】
【数２７】

【０２０９】
を示すことができ、ここで、
‖Ｑ‖はＱ内の１の数を表記し、且つＱ∧ＺはＱとＺのビット形式の論理和（ＡＮＤ）である［８］。通常、本明細書中において我々が仮定するように、α_０は０．５より大きいか又は等しく、且つα_１も０．５より大きいか又は等しい。
【０２１０】
Ｑの各画素はチャネルによって独立して摂動されるので、引き続いて、固定されたＱに対する‖Ｑ∧Ｚ‖は、平均α_１‖Ｑ‖と分散α_１（１−α_１）‖Ｑ‖を有する二項式分布確率変数となる。このセクションにおけるヒューリスティックス（発見方法）は、この分布を正規分布と近似させることに基づく。
【０２１１】
３．１重み付けされた射影ヒューリスティック
重み付けされた射影ヒューリスティックは、テキストラインを検出ための共通のアドホック（その場限りの）アプローチの厳密な確率の定式化である。Ｐｒ｛π｝は１より小さいか又は等しい、そして‖Ｑ∧Ｚ‖は‖Ｑ‖より小さいか又は等しいので、この式は、式（１０）と（２７）から、引き続いて、
【０２１２】
【数２８】

【０２１３】
となり、ここで、
【０２１４】
【外４０】

【０２１５】
簡素化のためにＱと書き込まれる。重み付けされた射影ヒューリスティックは、観察された画像の水平射影プロファイルから計算された‖Ｑ‖の最尤（ＭＬ）推定値を有するＨ（ｔ；ｙ）として式（２８）の右手側を使用する。
【０２１６】
ベクトルｑが基本的（下にある）テンプレートＱの水平射影プロファイルを表記する場合、
【０２１７】
【数２９】

【０２１８】
となり、且つＷ−ｑ_ｉはＱの行ｉ内の０の数である。重み付けされた射影ヒューリスティックは、ベクトルｑが所定のソースから全てのＱに対して同じ形状を有するという仮定に基づく。これによって、
【０２１９】
【数３０】

【０２２０】
となり、ここでベクトルｈは１の和を取る非負定数のソース依存ベクトルである。単純テキストラインソースに対して、プロファイルベクトルｈは、関連文字頻度によって重み付けされた個々の文字テンプレートのプロファイルの線形の組み合わせとして計算されてもよい。
【０２２１】
各テンプレート画素はチャネルによって独立して摂動されるので、これによって、Ｑを加算したベクトルｚの構成要素は独立し、且つ平均値、
【０２２２】
【数３１】

【０２２３】
と、分散、
【０２２４】
【数３２】

【０２２５】
によって二項式に分布されることになる。
【０２２６】
二項分布が正規分布として近似された場合、
【０２２７】
【数３３】

【０２２８】
となる。
【０２２９】
【０２３０】
【外４１】

【０２３１】
を示す‖Ｑ‖の最尤（ＭＬ）推定値は、式（３３）の対数をとり、‖Ｑ‖に対して微分し、且つゼロへ等価することによって見付けられる。チャネルがほぼ対称であると想定すると、「α_０はα_１にほぼ等しい」となり、結果的に生じた推定値は、
【０２３２】
【数３４】

【０２３３】
へ簡素化される。
【０２３４】
分子の第２項は一定した正のバイアス項である。さらに、仮定により、α_０とα_１は共に０．５を超えるので、分母は正となる。我々は上限に関心があるので、従って、式（３４）は分子の第二項を省略することによってさらに簡素化されてもよく、これによって行射影ｚ_ｉの線形の組み合わせである推定値を生じることになる。引き続いて、重み付けされた射影ヒューリスティックは、この線形推定値を減算し、式（２８）を得て、これによって、
【０２３５】
【数３５】

【０２３６】
を提供する。ここで、
【０２３７】
【数３６】

【０２３８】
は定数である。
【０２３９】
図２３は重み付けされた射影ヒューリスティックがどのように計算され得るかを示す擬似コードである。
【０２４０】
式（３６）がチャネルパラメータの関数としてｋ_ｗｐを定義するが、手動最適化、又はサンプルデータからのトレーニングのような好適な値を決定するために他の手順が使用されることもできる。
【０２４１】
３．２隣接行ヒューリスティック
隣接行ヒューリスティックはＦ（ｔ；ｙ）が通常は一つの行から次の行へ大きく変化しないという観察を形式化する。それゆえ、ＩＣＰパスの間に計算されたＦの値はＵにおける初期境界より密であってもよい隣接値上の上限を推論するために使用されることができる。
【０２４２】
隣接行ヒューリスティックは、ｙ−１において終了する、
【０２４３】
【外４２】

【０２４４】
を介する最良経路が、ｙ、即ち、
【０２４５】
【数３７】

【０２４６】
において終了する最良経路と同じである。従って、
【０２４７】
【数３８】

【０２４８】
となり、式（３８）は、合成テンプレート
【０２４９】
【外４３】

【０２５０】
の単純な垂直シフトと対応する。もし、我々が、
【０２５１】
【数３９】

【０２５２】
であると定義すれば、我々は、
【０２５３】
【数４０】

【０２５４】
を得て、且つこの式（４０）は式（２７）と組み合わせられることができ、且つ、
【０２５５】
【数４１】

【０２５６】
を導出するために簡素化され得る。ここで、
【０２５７】
【数４２】

【０２５８】
であり、且つ
【０２５９】
【数４３】

【０２６０】
はＱの下限上の前景画素のセットであり、且つ
【０２６１】
【数４４】

【０２６２】
はＱの上限上の背景画素のセットである。
【０２６３】
Ｑ^０１の各エレメントがｙを増加する方向の０→１の遷移に対応しており、且つＱ^１０の各エレメントは１→０の遷移に対応しているので、これにより‖Ｑ^０１‖＝‖Ｑ^１０‖となる。我々は、画像ソースがエルゴード的（ｅｒｇｏｄｉｃ）であると仮定し、これによって、
【０２６４】
【数４５】

【０２６５】
となり、ここで、
【０２６６】
【数４６】

【０２６７】
【数４７】

【０２６８】
はＱから独立したソースの特性である。
【０２６９】
ここで、‖Ｑ^１０∧Ｚ‖と‖Ｑ^０１∧Ｚ‖は、統計的に独立しており、且つ、平均、α_１ｐ_１０‖Ｑ‖と（１−α_０）ｐ_１０‖Ｑ‖、及び分散α_１（１−α_１）ｐ_１０‖Ｑ‖とα_０（１−α_０）ｐ_１０‖Ｑ‖によって二項式に分布される。これによって、ΔＦの平均値は、
【０２７０】
【数４８】

【０２７１】
であり、且つ分散は、
【０２７２】
【数４９】

【０２７３】
である。正規近似を用いると、δ_１は、高い確率を有する
【０２７４】
【数５０】

【０２７５】
を保証するために選択されてもよい。例えば、δ_１＝３である場合、式（５０）の確率は０．９９８７である。式（４８）と（４９）を結合し且つ再調整した後で、式（５０）は、
【０２７６】
【数５１】

【０２７７】
となり、ここで、
【０２７８】
【数５２】

【０２７９】
となる。充分に大きな‖Ｑ‖に対しては、∈_１は定上限によって置換されるか、又は全体的にドロップされてもよい。
【０２８０】
我々は、次に、式（２７）を用いてＦ（ｔ；ｙ）に関して‖Ｑ‖に対する上限を見つける。‖Ｑ∧Ｚ‖は平均値α_１‖Ｑ‖と分散α_１（１−α_１）‖Ｑ‖を有するので、正規近似は、
【０２８１】
【数５３】

【０２８２】
によって下限Ｌ（Ｚ｜Ｑ）へ使用されることができ且つδ_２が適切に選択される。以前のように、∈_２は大きな‖Ｑ‖に対する定上限によって置換されてもよい。Ｆ（ｔ；ｙ）に対する
【０２８３】
【外４４】

【０２８４】
の寄与が無視された場合、我々は、
【０２８５】
【数５４】

【０２８６】
を得る。最終的に、式（５１）と（５６）が結合され、次いで以下の数式を提供するために再調整される。
【０２８７】
【数５５】

【０２８８】
∈_１と∈_２がドロップされた場合、これはさらに、
【０２８９】
【数５６】

【０２９０】
へ簡素化され、且つ隣接行ヒューリスティックは、
【０２９１】
【数５７】

【０２９２】
となる。
【０２９３】
図２４は隣接行ヒューリスティックがどのようにして計算され得るかを示す擬似コードである。
【０２９４】
式（６１）がＦ（ｔ；ｙ−１）に関してＦ（ｔ；ｙ）を限定するので、同様の境界が、ｉの他の値に対して、Ｆ（ｔ；ｙ±ｉ）に関して導出され得る。さらに、以前のように、データからの手動最適化及びトレーニングのような手順がκ_ａｒをセットする時に式（５９）の代わりとして使用され得る。
【０２９５】
３．３テキスト列の例
図８は、図６に示されている水平テキストラインサブソースＧ_１に対する射影重み付け関数を示す。関数は、大文字と小文字、ディジット（数字）、並びに８句読記号からなる１２ｐｔ（ピッチ）のアドーベタイムズローマンフォントのサブセットに対して個別の文字射影関数を重畳することによって計算された。重畳された射影は、ランダムテキストの体内にそれらの相対する発生頻度によって重み付けされた。
【０２９６】
図９は、ランダムタイムズローマンテキストの１０ライン（行）を含む画像を示す。サブソースＧ_１に対する実際のスコアＦと重み付けされた射影ヒューリスティックＨ_ｗｐの対応する値は、画像行ｙの座標の関数として図１０に示されている。
【０２９７】
４．帰納的ソースを分離可能形式へ変換すること
ＩＣＰは画像ソースモデルが分離可能であることを必要とする。いくつかの状態において、ユーザによって作成されたモデルは分離可能であり、且つＩＣＰが直接適用され得る。しかしながら、１クラスの画像の自然なストラクチュア（構造）が帰納的であるが、分離可能でないモデルへ導かれるれることも良くあることである。分離可能性はモデルの形式の属性であるが、画像ソースに固有の特性ではないことに留意されたい。従って、所定の非分離可能な帰納的ソースがある分離可能ソースに等しくてもよいことも起こり得るし、且つさらに分離可能な形式への変換がアルゴリズム的に実行されることも起こり得る。このセクションは、帰納的ソースを分離可能な形式へ変換するための本発明による簡単な手順を記述している。アルゴリズムによって作成されたあらゆる分離可能な形式も元のモデルと等価であることが保証される。
【０２９８】
手順の第１のステップは直接的であり、且つ上記のように、入力された帰納的ソースＧを等価な制約されたソース
【０２９９】
【外４５】

【０３００】
へ平坦化することからなる。次いで、アルゴリズムは、
【０３０１】
【外４６】

【０３０２】
に等しい分離可能ソースを構築しようと試みる。制約されたソースの分離可能性を決定する主要ファクタはｘ内で密に制約されたノードの数である。一般的に、位置の制約条件はノードの小さなサブセットに対してのみユーザによって供給される。任意ではあるが、変換手順の第２のステップは、ユーザ指定の制約条件をモデルの他のノードへ伝搬する。手順の最終ステップは、制約されたソースの実際の分離である。
【０３０３】
我々は分離を最初に記述し、次いで制約条件の伝搬について説明する。
【０３０４】
４．１制約されたソースを分離可能形式への変換
図１１は、アルゴリズムによって生成された分離可能ソースのストラクチュアを要約する。
【０３０５】
【外４７】

【０３０６】
を制約されたマルコフソースとし、且つＮ_ＴＣをｘにおいて密に制約されたノードのセットとする。Ｎ_ＴＣにおけるノードはトップレベルのサブソースＧ_０のノードとなる。Ｇ_０の開始及び最終ノードは、
【０３０７】
【外４８】

【０３０８】
の開始及び最終ノードであるように取られる。これらのノードは上記のように一般にＮ_ＴＣ内にある。Ｎ_ＴＣにおけるノードを接続する
【０３０９】
【外４９】

【０３１０】
の遷移はＧ_０における原始的遷移となる。
【０３１１】
ノード（ｎ_ｉ、ｎ_ｆ）∈Ｎ_ＴＣ×Ｎ_ＴＣの各対（ペア）に対して、
【０３１２】
【外５０】

【０３１３】
をして、ｎ_ｉとｎ_ｆを除くＮ_ＴＣの全てのノードと、削除されたノードに接続される全てのブランチと、ｎ_ｉに入る全てのブランチと、ｎ_ｆを出る全てのブランチと、ｎ_ｉからｎ_ｆまでの全てのブランチと、を取り去ることによって形成される
【０３１４】
【外５１】

【０３１５】
のサブグラフを表記させる。ｎ_ｉからｎ_ｆまでの
【０３１６】
【外５２】

【０３１７】
内に経路があるならば、Ｇ_０はｎ_ｉからｎ_ｆまでの帰納的遷移を含み、ここで、その遷移に対応するサブソースＧ_{（ｎｉ；ｎｆ）}はｎ_ｉとｎ_ｆの両方に接続された
【０３１８】
【外５３】

【０３１９】
のサブグラフである。Ｇ_{（ｎｉ；ｎｆ）}の開始及び終了ノードは、ｎ_ｉとｎ_ｆのコピーである。Ｇ_{（ｎｉ；ｎｆ）}は、非形式的に、ｎ_ｆにおいて終了する前に、密に制約されたノードに入らないｎ_ｉからｎ_ｆまでの
【０３２０】
【外５４】

【０３２１】
における経路を表示する。
【０３２２】
各Ｇ_{（ｎｉ；ｎｆ）}が定数ｙの変位を有する場合、Ｇ_０とＧ_{（ｎｉ；ｎｆ）}のサブソースのセットは分離可能なソースを形成する。そうでない場合、その結果は分離不可能な帰納的ソースである。
【０３２３】
上記の構成は、Ｇ_０だけが帰納的遷移を含み且つ各サブソースが単一帰納的遷移によって呼び出される分離可能ソースを発生する。このモデルは、Ｇ_{（ｎｉ；ｎｆ）}を等しいサブソースのセットへ分割し、且つ各等価クラスから一つの要素だけを保持することによって簡素化されてもよい。我々は、この簡素化された分離可能ソースを用いたヴィテルビ復号が、元の制約ソースを用いたよりもはるかに迅速であることを発見した。このように、分離が後に続く平坦化は、たとえＩＣＰが使用されない時でも、有利であるかもしれない。
【０３２４】
４．２ノード位置制約条件の伝搬
制約条件の伝搬の原始的な目的は、ユーザ供給制約条件からこのモデルの残りのノードに対して含意された制約条件のセットを導出することにある。示されているように、第２の帰結は、ユーザ供給制約条件のうちのいくつかが他のノードからの制約条件の伝搬の結果として密にされることである。それゆえ、一様性の為、我々は、すべてのノードがユーザ指定制約条件を有し、且つその目的が単にそれらを密にすることにすぎないと仮定してもよい。制約条件が全く明示的に提供されない場合、Ｃ_ｎ＝［−∞、＋∞］が想定される。ｘとｙに対する位置制約は別々に伝搬される。簡素化のために、ベクトル量に対して事前に導入された記数法が、スカラ座標及び制約条件に言及するためにこのセクションにおいて使用される。例えば、Ｃ_ｎは（矩形よりも）制約条件のインターバル（区間）を表記し、ξは（ベクトルよりも）スカラ経路位置を表記し、ブランチ変位はスカラである等である。
【０３２５】
図１２は、制約条件の伝搬の基本的な原理を示す単純な例を示す。ノードｎ_１、ｎ、及びｎ_２がユーザ供給制約条件Ｃ_１、Ｃ_ｎ、及びＣ_２をそれぞれ有していると想定し、且つノードｎにおける経路位置ξの可能な値に対してこれらの制約条件の含意を考慮されたい。まず最初に、ｎにおける明示的制約条件は、
【０３２６】
【数５８】

【０３２７】
が、すべての許容された経路に対して保持しなればならないことを意味する。しかしながら、ｎに入る経路がｎ_１を出たばかりなので、ξは、ｎ_１における制約条件の結果として、条件
【０３２８】
【数５９】

【０３２９】
も満たす。同様に、ｎを残す全ての経路がｎ_２に入るので、
【０３３０】
【数６０】

【０３３１】
も保持される。従って、
【０３３２】
【数６１】

【０３３３】
即ちセット表記では、
【０３３４】
【数６２】

【０３３５】
において定義される区間
【０３３６】
【外５５】

【０３３７】
におけるξの値のみを許容するには充分である。セット表記の数式において、
【０３３８】
【数６３】

【０３３９】
は順方向伝搬制約条件と呼ばれ、
【０３４０】
【数６４】

【０３４１】
は逆方向制約条件と呼ばれ、且つ
【０３４２】
【外５６】

【０３４３】
は指定されたスカラ変位によって区間を変換する演算子である。制約条件、
【０３４４】
【外５７】

【０３４５】
は式（６８）と（６９）におけるＣ_１とＣ_２が、
【０３４６】
【外５８】

【０３４７】
によって置換されてもよいことを表記することによってさらに密にされる。最終的に、複数の入力又は出力ブランチを有するノードに対して式（６８）と（６９）は、
【０３４８】
【数６５】

【０３４９】
のそれぞれへ汎用化する。
【０３５０】
位置制約条件の伝搬は、開始及び最終ノードに対する解法が指定された区間を含む境界の条件を受けることになっている
【０３５１】
【外５９】

【０３５２】
ごとに、式（６７）、（７０）、及び（７１）のセットを解くことを含む。一般的に、境界条件は、
【０３５３】
【外６０】

【０３５４】
であり、ここでＷは画像の幅を示す。
【０３５５】
制約条件方程式を解くことは、順方向及び逆方向の制約条件が式（６７）によって結合され且つソースにおけるサイクルが帰納的依存関係に導かれるので、複雑化される。難しさを軽減するための一つのアプローチは、計算された制約ができるだけ密であるという要求を緩めることにある。ユーザ指定制約条件が満たされている限り、唯一の結論は、復号トレリスが必要以上に大きくなり且つ／又は充分に密に制約されてないノードがソースを分離するために識別されることである。従って、我々は、その影響が解法区間を拡大しようとする制約条件の方程式に対する変更を探索する。特に、我々は、式（７０）と（７１）の右側において、
【０３５６】
【外６１】

【０３５７】
に対して代入を行なう。式（６７）から我々は、以下の関係式を得る。
【０３５８】
【数６６】

【０３５９】
我々は、
【０３６０】
【数６７】

【０３６１】
を提供するため、
【０３６２】
【外６２】

【０３６３】
を
【０３６４】
【数６８】

【０３６５】
によって定義された
【０３６６】
【外６３】

【０３６７】
と置換することによって式（７０）を変更する。同様に、式（７１）は、
【０３６８】
【数６９】

【０３６９】
となる、ここで
【０３７０】
【外６４】

【０３７１】
は類似的に定義される。これらの代入の基本的な効果は順方向及び逆方向の制約条件が非干渉化され且つ独立して伝搬されることができることである。我々は順方向の制約条件の伝搬について説明する。逆方向制約条件の伝搬は類似しており、且つ各遷移の方向を逆にし、且つ各ブランチの変位をその負と置き換えることによって構築されるＧの入れ換え（置換）における順方向の制約条件の伝搬へ還元する。
【０３７２】
【外６５】

【０３７３】
が有限（即ち、ユーザがノードｎに対する制約条件を実際に指定した）である場合、
【０３７４】
【外６６】

【０３７５】
は式（７６）の右手側に発生しない。これによって、Ｇにおける順方向の制約条件の伝搬は、各々の有限に制約されたノードｎを二つのノードｎ^ｉ及びｎ^０へ分割することによって導出された変更されたソースＧ´における伝搬に等しく、ここで、ｎ^ｉはｎの入力ブランチを継承し、且つｎ^０は制約条件
【０３７６】
【外６７】

【０３７７】
だけでなく出力ブランチも継承する。例えば、図１２におけるノードｎの分割は図１３に示されている。
【０３７８】
制約されたノードを分割することの利点は、Ｇ´における順方向の制約条件の伝搬が、Ｇ´の単純な導関数（ｄｅｒｉｖａｔｉｖｅｓ）であるグラフにおける最大及び最小の変位の経路を見つけることに等しいことである。
【０３７９】
【外６８】

【０３８０】
の上限及び下限は別々に見つけられる。下限
【０３８１】
【外６９】

【０３８２】
はユーザ指定下限
【０３８３】
【外７０】

【０３８４】
がｎ_ｓを残すブランチ上の変位となる図１４におけるグラフを用いて計算される。下限は、ｎ_ｓからＧ´の各ノードへの最小の経路変位を見つけることによって伝搬される。ノードｎが分割された場合、
【０３８５】
【外７１】

【０３８６】
はｎ_ｉへの最小変位であり、そうでない場合、
【０３８７】
【外７２】

【０３８８】
がｎへの最小変位である。上限
【０３８９】
【外７３】

【０３９０】
も、ｎ_ｓを残すブランチの変位が上限
【０３９１】
【外７４】

【０３９２】
である時、最大経路変位を見つけることによって同様に発見される。
【０３９３】
単一グラフノードからの最小又は最大変位の経路を見つけることは標準的グラフ問題である［１］。Ｇ´が非ゼロの全体変位の周期を含んでもよいので、現在の状態においてはより少数の問題が発生し、これによって伝搬された制約条件の限界のうちの一つ又は両方がいくつかのノードに対して無限であってもよい。このような周期（サイクル）を検出する経路発見アルゴリズムも周知である［１］。
【０３９４】
図２５は、制約されたソース分離手続きの動作を示す擬似コードチャートである。
【０３９５】
４．３テキスト列の例
表１は、制約条件の伝搬のアルゴリズムを用いて計算された図５のテキスト列ソースの各ノードに対する
【０３９６】
【外７５】

【０３９７】
の値を示す。
【０３９８】
上記のように、図６は、制約されたテキスト列ソースへ分離アルゴリズムを用いた時の結果を示す。
【０３９９】
５．実験結果
表２は、ヴィテルビアルゴリズムとＩＣＰの二つの変形（バリエーション）を用いてテキストページを復号するための時間を比較した単純な実験結果をまとめたものである。サンプルページは約７インチ×１０．５インチ（１７．７８ｃｍ×２６．６７ｃｍ）であって、且つ各々７０文字の４５行で編成された図９に類似したランダムテキストを有していた。ページは３００ｄｐｉ（ドット／インチ）において走査され且つ２値画像の面積はＷ（幅）＝２１３４且つＨ（高さ）＝３１７６であった。ページ画像は、図５（ヴィテルビ復号）及び図６（ＩＣＰ）からのタイムズローマンテキスト列モデルを用いて復号された。重み付けされた射影ヒューリスティックＨ_ｗｐ、及びＨ_ｗｐと隣接行ヒューリスティックＨ_ａｒの組み合わせを有するＩＣＰに対する結果が示されている。（ヴィテルビに対して）観察されたＩＣＰスピードアップはＨ_ｗｐに対しては約１１であり、組み合わせに対しては約１９であった。
【０４００】
【表２】

【０４０１】
表２：ヴィテルビアルゴリズムとＩＣＰの二つの変形を用いたサンプルテキストページを復号するための時間。
【０４０２】
一つのヒューリスティックを有するＩＣＰが復号時間において大きなスピードアップを提供することは表２から明白である。一方、両方のヒューリスティックを有するＩＣＰはより大きなスピードアップを提供することができる。
【０４０３】
本発明のデコーダ（復号器）がヴィテルビアルゴリズムのみと比較してどのように動作するかを正確に示すことは読者に役立つでろう。この比較は、図６の分離可能ソースと類似している分離可能ソースが、図９の画像における第１行のようなテキストの単一ラインを有する少さなノイズフリー（ノイズなし）画像を復号するために使用される単純な実施例を使用する。画像が単一なテキストラインを含むので、図６のソースを介した最良経路が正確に一回だけＧ_１とラベル付けされた帰納的ブランチを走査することは明らかである。これによって、画像を復号することは、この走査が発生する画像の行を識別することに還元される。これはまた、Ｇ_１の遷移に対してＦ（ｔ；ｙ）を最大とするｙの値を見つけることを含む。表３は、重み付けされた射影ヒューリスティックＨ_ｗｐ（ｔ；ｙ）と実際のスコアＦ（ｔ；ｙ）の仮説（Ｈｙｐｏｔｈｅｓｉｓ）の値を行のインデッックスｙの関数としてリストする。画像は高さＨ＝１０を有すると仮定される。Ｆ（ｔ；ｙ）の最大値が１０００であり、且つｙ＝５で発生することは表から明確である。直接ヴィテルビデコーダは、Ｆ（ｔ；ｙ）の１０個全ての値を単純計算し且つ最大値を取ることによってこの値を見つける。ヒューリスティック探索の目的は、最大値が求められた時に実際に計算されるＦ（ｔ；ｙ）の値の数を最小とすることにある。
【０４０４】
【表３】

【０４０５】
表３：重み付けされた列射影ヒューリスティックＨ_ｗｐと実際のスコアＦ
【０４０６】
重み付けされた射影ヒューリスティックを用いたＩＣＰの動作が表４にまとめられている。「反復」の下での表の各列（コラム）は表示された反復の開始時におけるスコアアレイＵ（ｔ；ｙ）の状態を表している。Ｕのエレメントは最初にヒューリスティックスコアＨ_ｗｐ（ｔ；ｙ）の値にセットされる。アルゴリズムが進行するにつれて、エントリの内のいくつかは実際のスコアＦ（ｔ；ｙ）によって置換される。これらのエントリは表において’^＊’によってマークされる。
【０４０７】
【表４】

【０４０８】
表４：重み付けされた行の射影ヒューリスティックによるＩＣＰの間のＵ（ｔ；ｙ）の展開。アスタリスクは実際のスコアを表記する。
【０４０９】
ＩＣＰ反復０の間、Ｕ（ｔ；ｙ）の最大値は１５００であり、且つｙ＝７で発生する。これによって、テキストは行７において発生するように最初に仮説が与えられる。１５００の値が実際のスコアでなくヒューリスティックスコアなので、ｙ＝７における画像の行の完全な復号はソースモデルＧ_１を用いることによって実行される。Ｆ（ｔ；７）の結果的に生じる値、７００は、実際のスコアとしてタグが付けられ、且つＵ（ｔ；ｙ）アレイへ格納される。
【０４１０】
反復１の間、Ｕ（ｔ；ｙ）の最大値は１３００であり、且つｙ＝６において発生する。この値もヒューリスティックスコアなので、Ｆ（ｔ；６）が計算され、且つその結果、９００は表に配置される。この処理は、表における最大エントリがヒューリスティックスコアではなく、実際のスコアに対応するまで続けられる。反復２乃至５の間の最大値がｙ＝８、３、５、２においてそれぞれ発生し、且つ全てがヒューリスティックスコアであることを段階を踏んで検証することは簡単である。（等しい場合、ｙの下位値を有する行が任意に選択される。）最後に、反復６の間、最大値１０００はｙ＝５で発生し且つ実際のスコアである。アルゴリズムはこのように終了する。最終列内のアスタリスクを数えることによって、Ｆ（ｔ；ｙ）の６個の値がＩＣＰアルゴリズムによって計算されたことが示されてもよい。これはヴィテルビデコーダによって計算された１０個の値よりも少ない。
【０４１１】
表５は、重み付けされた射影ヒューリスティックに加えて、隣接行のスコアヒューリスティックが使用された時のＩＣＰの進行をまとめたものである。以前のように、Ｕ（ｔ；ｙ）の初期内容は重み付けされた射影スコアであり、反復の間の最大値は１５００であり且つｙ＝７で発生する。しかしながら、Ｆ（ｔ；７）を計算し、次いでＵ（ｔ；７）を７００ヘ更新した後で、ＩＣＰは、次に、隣接行ヒューリスティックをｙ＝６とｙ＝８において適用する。この実施例において、我々はヒューリスティック係数がκ_ａｒ＝１．２５であると仮定する。従って、隣接行ヒューリスティックスコアは８７５（１．２５×７００）である。この値はＵ（ｔ；６）の現在値１３００よりも少ないので、及びＵ（ｔ；６）はヒューリスティックスコアなので、Ｕ（ｔ；６）の値は８７５へ減少される。同様に、Ｕ（ｔ；８）も１２００から８７５へ減少される。これらの値がやはりヒューリスティックスコアであり、従ってこれらのアスタリスクによってフラグを立てられないことに注目されたい。
【０４１２】
【表５】

【０４１３】
表５：重み付けされた行の射影と隣接行のスコアヒューリスティック（κ_ａｒ＝１．２５）によるＩＣＰの間のＵ（ｔ；ｙ）の展開。アスタリスクは実際のスコアを表記する。
【０４１４】
反復１の間、Ｕ（ｔ；ｙ）の最大値は１１００であり、且つｙ＝３で発生する。前のように、実際のスコアＦ（ｔ；３）が計算され、且つＵ（ｔ；３）は６００に更新される。隣接行ヒューリスティックスコアは７５０である。これらが７５０（１０００と９００のそれぞれ）よりも大きいヒューリスティックスコアなので、この値は、Ｕ（ｔ；２）とＵ（ｔ；４）の両方を置換する。
【０４１５】
反復２の間、Ｕ（ｔ；ｙ）の最大値は１１００であり、且つｙ＝５で発生する。Ｆ（ｔ；５）の値が計算され、且つＵ（ｔ；５）は１０００に更新される。この場合、隣接行ヒューリスティックスコアは１２５０であり、この値は、Ｕ（ｔ；４）とＵ（ｔ；６）の現在値よりも大きい。結果として、これらの隣接スコアは変更されない。
【０４１６】
最終的に、反復３の間、Ｕ（ｔ；ｙ）の最大値は１０００であり、且つｙ＝５で発生する。これは実際のスコアなので、アルゴリズムは終了する。ヴィテルビアルゴリズムと重み付けされたばかりの射影ヒューリスティックによるＩＣＰの両方よりも少ない、Ｆ（ｔ；ｙ）の３個の値のみが計算されることに注目されたい。
【０４１７】
【発明の効果】
本発明、改善されたＤＩＤシステムを提供する。
【図面の簡単な説明】
【図１】画像生成のための単純マルコフソースモデルを示す図である。
【図２】制約されたマルコフソースを示す図である。
【図３】トップレベルサブソースＧ_０において帰納的ブランチを示す帰納マルコフソースを示す図である。サブソースはシンプルブランチと位置制約条件も含んでよい。
【図４】帰納的遷移の拡大を示す図である。（ａ）元の遷移及び（ｂ）ｔをサブリソースＳ_ｔのコピーと置換した結果を示す図である。
【図５】単純テキスト列ソースを示す図である。遷移確率、テンプレート、及びメッセージが単純化のために省略されている。
【図６】図５のソースから導出された分離可能テキスト列ソースを示す図である。
【図７】本発明の基本的反復完了パス（ＩＣＰ）アルゴリズムの一つの形式を示す図である。
【図８】１２ｐｔタイムズローマンに対する射影重み付け関数ｈ_ｉを示す図である。
【図９】１２ｐｔアドーベタイムズローマンにおけるテキストページ画像の実施例を示す図である。
【図１０】本発明による重み付けされた射影ヒューリスティックＨ_ｗｐ（点線）と図９の画像に対する実際のスコアＦ（実線）の一つの形式を示す図である。
【図１１】制約されたソースの本発明による分離可能な形式への変換の一つの形式を示す図である。
【図１２】単純な制約条件の伝搬実施例を示す図である。
【図１３】順方向制約条件の伝搬に対する図１２の分割ノードｎの結果を示す図である。
【図１４】順方向制約条件の伝搬の下限に対するグラフを示す図である。制約条件はｎ_ｓからの最小変位のパスを見つけることによって伝搬される。
【図１５】画像シンセサイザの一つの形式を示すブロック図である。
【図１６】図１５のシンセサイザにおいて使用されるタイプの有限状態遷移ネットワークの実施例を示す図である。
【図１７】サンプルストリング上での図１６のネットワークの動作を示す図である。
【図１８】図１７のストリングに対して結果的に生じる出力画像ビットマップのステップバイステップの構築を示す図である。
【図１９】画像ビットマップが形成されるストリングを再構築するために画像ビットマップを復号するために本発明によって使用され得る画像認識器の一つの形式を示すブロック図である。
【図２０】図１９のノードスコア及びバックポインタプロセッサが使用できる一つの形式のアルゴリズムの例を示すフローチャートである。
【図２１】図２０の処理のステップ６１６の間に実行される計算を示すフローチャートである。
【図２２】図１９のバックトレースプロセッサが使用できるアルゴリズムの一つの形式を示すフローチャートである。
【図２３】重み付けされた射影ヒューリスティックの一つの形式を示す図である。
【図２４】隣接行ヒューリスティックの一つの形式を示す図である。
【図２５】制約されたソース分離手順の一つの形式を示す図である。
【図２６】従来の技術の文書認識の通信理論を示す図である。
【符号の説明】
１００入力ストリング
１１０画像シンセサイザ
１２０画像ネットワーク
１３０テンプレートライブラリ
１４０ビットマップ画像

Claims

マルコフソースモデルとヴィテルビ復号を用いて復号トレリスを走査することから決定される経路を基本として、テンプレートのライブラリから選択されたシンボルテンプレートの組合せに基づいて画像を示す画像若しくはテキスト文字列を生成するために、複数のシンボルテンプレートの組合せにビットマップ画像を特徴付けるためのテキスト状画像認識方法であって、
前記復号トレリスは、該復号トレリスを走査するための最良経路を含みそうな第１の複数の領域と、該復号トレリスを走査するための最良経路を含みそうにない第２の複数の領域と、を含み、
前記ヴィテルビ復号は、画像平面の水平方向及び垂直方向における文字単位により表現される各ポイントで一組の尤度関数を計算するために用いられる２次元ヴィテルビアルゴリズムを備え、
前記画像平面の各ポイントが複数のノードと該ノード間の遷移によって前記復号トレリス内でマルコフソースモデルを用いてモデル化され、
ヴィテルビ復号は、前記画像平面の各ポイントにおける各ノードへの最尤経路の尤度を計算することを備え、
前記テキスト状画像認識方法は、
（ａ）分離可能マルコフソースモデルを使用するステップであって、該分離可能マルコフソースモデルはトップレベル垂直モデルを示す１次元モデル及び該垂直モデルのブランチに対応する水平モデルを示す１次元モデルのセットとして示される２次元モデルであって、該水平モデルの各々の各完了経路は該水平モデルを介して固定された水平位置で始まり固定された水平位置で終わり、該モデルの各完了経路の垂直変位は該経路の垂直開始位置とは独立に一定である、ステップと、
（ｂ）完全な復号を行わず、最良経路を含みそうな前記復号トレリスの第１の複数の領域を識別するステップと、
（ｃ）前記復号トレリスを介する最良経路を決定するために、ステップ（ｂ）で決定された前記第１の複数の領域内でのみ完全なヴィテルビ復号を実行するステップと、
（ｄ）ステップ（ｃ）で決定された前記最良経路から推定されるシンボルテンプレートの組合せに基づいて、画像を示す前記画像若しくはテキスト文字列を生成するステップと、
を備えることにより改良される、テキスト状画像認識方法。