JPH05303618A - 画像生成器 - Google Patents
画像生成器Info
- Publication number
- JPH05303618A JPH05303618A JP4350371A JP35037192A JPH05303618A JP H05303618 A JPH05303618 A JP H05303618A JP 4350371 A JP4350371 A JP 4350371A JP 35037192 A JP35037192 A JP 35037192A JP H05303618 A JPH05303618 A JP H05303618A
- Authority
- JP
- Japan
- Prior art keywords
- image
- equation
- character
- node
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003384 imaging method Methods 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 abstract description 57
- 230000008569 process Effects 0.000 abstract description 16
- 239000000470 constituent Substances 0.000 abstract description 8
- 238000007639 printing Methods 0.000 abstract description 8
- 238000006073 displacement reaction Methods 0.000 description 44
- 230000007704 transition Effects 0.000 description 26
- 238000004422 calculation algorithm Methods 0.000 description 23
- 238000004364 calculation method Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 239000013598 vector Substances 0.000 description 11
- 238000013459 approach Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 239000002131 composite material Substances 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 238000003491 array Methods 0.000 description 5
- 238000009795 derivation Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000013518 transcription Methods 0.000 description 4
- 230000035897 transcription Effects 0.000 description 4
- RYAUSSKQMZRMAI-YESZJQIVSA-N (S)-fenpropimorph Chemical compound C([C@@H](C)CC=1C=CC(=CC=1)C(C)(C)C)N1C[C@H](C)O[C@H](C)C1 RYAUSSKQMZRMAI-YESZJQIVSA-N 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000009472 formulation Methods 0.000 description 3
- 239000004816 latex Substances 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001143 conditioned effect Effects 0.000 description 2
- 230000003750 conditioning effect Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006698 induction Effects 0.000 description 2
- 230000001939 inductive effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- OVSKIKFHRZPJSS-UHFFFAOYSA-N 2,4-D Chemical compound OC(=O)COC1=CC=C(Cl)C=C1Cl OVSKIKFHRZPJSS-UHFFFAOYSA-N 0.000 description 1
- 241000252233 Cyprinus carpio Species 0.000 description 1
- 125000002015 acyclic group Chemical group 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 229920003023 plastic Polymers 0.000 description 1
- 239000002985 plastic film Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19187—Graphical models, e.g. Bayesian networks or Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
法型画像モデリングおよび認識システムを提供する。 【構成】 有限ネットワークにより確立された経路に基
づき、テンプレートのライブラリ130から選抜された
記号テンプレートを組み合わせることにより対象のビッ
トマップ画像140を構成するイメージ合成器110を
備える。
Description
テム、特に知的物体認識システムとして特徴づけられる
型のシステムに関する。
0,112号およびSPIE(写真−光学計測技術者協
会)の会員であるチョウによる関連文献が「画像通信お
よび画像処理IV」1199号(1989年刊)の85
2乃至863頁に掲載されており、引用したこれらの開
示内容はすべて、本明細書の一部として援用される。前
記米国特許公報はここでも同様に適用できる背景を開示
し、さらに画像の基底構造を区別する物体認識と区別し
ない物体認識との相違について説明する(画像の基底構
造を区別するものは「知的画像認識」とよばれる)。前
記米国特許公報および引用文献は、あらゆる商業的スキ
ャニング装置で生成されるビットマップにされた2値画
像ファイルの知的認識について開示し、前記米国特許の
アペンディックスではコードを含み、さらにこの2値画
像を処理し、2値画像ファイルが生成されるハードコピ
ーソースドキュメントを知的に再現する方法を開示す
る。
すでに評価されている確率型の文法を利用してこのよう
な2値画像を解読(デコ−ド)する方法について開示す
る。この中で筆者の達した結論は、この認識システムの
特定の応用例すなわち音声のかわりに画像を利用する場
合、文脈自由型の確率文法が最適であり、通常の確率文
法の方が本来は構文解析時間が短いにもかかわらず不適
当であるという点である。
はイメージング(画像形成)モデルに基づき、このイメ
−ジングモデル物体の基底構造の記述から前記物体の画
像を生成する方法を確定する規則の集合であるものと
し、さらに結果として得られる画素画像を構文解析する
ために利用される形式文法は同一イメージングモデルに
基づくものとする。
タ著「構文解析技術に関するACM国際研究会」(19
89年刊)も参照)に開示されるように、2次元(2−
d)画像構造を記述する形式文法を利用しようとするこ
れまでの試みではすべて、1次元句(フレ−ズ)の概念
を2次元(2−d)矩形領域の概念と置換することで1
次元(1−d)形式主義を導き出す手法がとられてき
た。通常、結果として得られる文法規則は、ある句に対
応する領域が一対の縦または横に隣接する小区域を組み
合わせることにより形成されるその方法を記述する。矩
形小区域が重ならずまたそれらの寸法および相対的位置
が複合領域も矩形となるような寸法および位置であれ
ば、前記矩形小区域を組み合わせてもよい。
は、正規(有限状態)列文法に対する2次元対応物(カ
ウンターパート)は、画像モデリングにとってそれほど
有用ではなく、この結果、文脈自由2次元文法のみが研
究されてきたことである。引用文献に述べられているよ
うに、文脈自由文法を用いた計算結果によれば、通常、
構文解析時間は正規文法の場合、0(n)であるのに比
べて終端記号(例、画素)の数において0(n3)であ
る。この結果、画像画素へ直接文脈自由文法を適用して
も特に現実的なシステムは生成されない。
件に基づくイメージングモデルは、この手法をテキスト
や式の画像へ適用するさいに、文字(「j」等)が負の
サイドベアリングを有する場合があるためあまり問題と
ならないものの、楽譜のようなさらに複雑なグラフィッ
ク(図形)画像へこの手法を適用した場合には重大な障
害となる。上述の試みのさらに別の欠点は、認識文法は
通常、モデル化される画像の実例を認識するために利用
することにより実証されるという点である。認識時間が
長くなればこの方法は時間がかかると同時に不便であ
る。
像を処理または復号するのに時間がかからない、あるい
は認識文法を確認するのに時間がかからない文法型文法
(ベースの)画像モデリング(モデル化)および認識シ
ステムを提供することである。
グラフィック画像を扱うことが可能な文法型画像モデリ
ングおよび認識システムを提供することである。
ト、式、楽譜および印刷されたデジタルデータを含む広
範囲にわたる種類の画像に利用可能にするイメージング
モデルに基づく。
においては、再構成方法(プロセス)においてビットマ
ップ画像画素を文字や他の認識可能な形状に変換するコ
ンパイラで利用されるようなプロダクションの形式集合
あるいは生成規則を定義するために「文法」という用語
を使用する。プロダクションの集合として表される文法
は本発明で利用するためにはあまり適さない。「文法」
という用語を用いるかわりに、正規文法に対応する「有
限状態ネットワーク」という表現を用いて、ドキュメン
ト(文書)をビットマップへ変換するか、または前記ビ
ットマップからドキュメントを認識し再構成する装置ま
たは手段を表す。認識装置で使用される有限状態ネット
ワークが画像生成装置(イメージャー)で使用される有
限状態ネットワークと同一であればビットマップ画像を
作成する上で好ましく、この場合、計算時間が最小とな
るとともに精度が最大となる。しかしながら、本発明は
そのように限定されるものではない。本発明の認識装置
は他の方法で作成されたビットマップ画像であっても、
前記認識装置が前記画像に現れる文字の画像テンプレー
トの適当な集合へアクセスしたならば認識することがで
きる。たとえば、ビットマップ内の文字が12ポイント
クーリエであることを認識装置が知っているかまたは指
示された場合、認識装置は認識処理においてそのフォン
トの標準印刷画像テンプレートを利用できる。画像生成
装置が同一有限状態ネットワークを利用せず、さらに文
字や他の形状が標準印刷画像テンプレートと関連してい
ない場合であっても、文字や形状の各々のサンプル(対
であれば好ましい)が本発明の一態様に従ってフォント
距離を推定でき適当なテンプレートが作成されるものか
ら供給されるのであれば、ドキュメントを認識し再構成
することができる。テンプレートが作成される精度によ
って再構成の精度が決まり、この精度は供給されたサン
プルを利用して試験することができ、さらに必要であれ
ば所要のレベルの精度を達成するまで試行錯誤法でテン
プレートを調整することができる。したがって、上述よ
りさらに以下の点が明らかとなる。すなわち、同一有限
状態ネットワークが前記画像生成装置で使用されていた
かまたは標準画像テンプレートを利用するだけで十分な
場合、本発明の認識装置ではフォント距離推定手順が利
用できるものの必要ではない。
るべき対象を画像生成器へ入力し、イメージされるべき
物体のクラスに対する有限状態ネットワークを入力し、
記号テンプレートのライブラリを提供し、有限状態ネッ
トワークにより確定された経路に基づきライブラリから
選択された記号テンプレートを組み合わせることにより
画像生成器に前記対象のビットマップ画像を構成させ
る。
に用いられ、ビットマップ画像を作成するために利用さ
れる対象を再構成するデコーダにおいて、対象に現れる
記号にほぼ対応する記号テンプレートのライブラリと、
有限状態ネットワークにより確定される経路に基づきテ
ンプレートのライブラリから選択された記号テンプレー
トを組み合わせることにより対象を再構成するためにビ
ットマップ画像を構文解析する有限状態ネットワークと
から構成される。
構成すべきビットマップ画像を入力し、画像により表さ
れる対象のクラスに対する有限状態ネットワークを入力
し、画像の対象記号にほぼ対応する記号テンプレートの
ライブラリを提供し、有限状態ネットワークにより確定
された経路に基づきライブラリから選択された記号テン
プレートを組み合わせることによりデコーダに対象を再
構成させる。
文字から構成されるドキュメントからドキュメントが知
的に再構成できる2値画像を生成する画像生成の有限状
態モデルから構成される画像認識方法において、絵文字
のサイドベアリングモデル属性を確定することでビット
マップにおける絵文字位置決めを確定する第1ステップ
と、第1ステップで確定されたように位置決めされた各
絵文字を表す文字テンプレートを生成する第2ステップ
と、ドキュメントを再構成するため有限状態ネットワー
クの経路にしたがって第2ステップで生成されたテンプ
レートの選択を用いて2値画像を構文解析する第3ステ
ップとを有する。
文字から構成されるドキュメントからドキュメントが知
的に再構成できる2値画像を生成する画像生成の有限状
態モデルから構成される画像認識方法において、最小二
乗法手続きを用いて各文字のフォント距離を推定するこ
とによりドキュメントにおいて用いられる文字サンプル
から文字モデルを確立する第1ステップと、各ドキュメ
ント文字のテンプレートを生成し、画像を構成するため
テンプレートおよびマルコフソースを利用する第2ステ
ップとを有する。
を簡単に要約すると以下のようになる。
音楽、式)の構造を画像認識に適した形態で記述する画
像生成の有限状態モデルが利用される。このモデルは手
続き上のもので、思想的にはポストスクリプト(Pos
tscript)を非常に単純化されたものに類似し、
特に、デジタル印刷で広く利用されている文字位置決め
のサイドベアリングモデルに基づく。
プログラム(生成器)からあるクラスの画像のための画
像デコーダまたは画像認識装置を自動的に生成する方法
が提供される。生成プログラムからの認識装置の自動生
成には、再帰的定義済関数の集合を計算するスケジュー
ルの自動生成も含まれる。基本的な概念は、VSLI
(超大規模集積回路)分野の公知文献において展開され
開示されているような正規反復アルゴリズム用の線形ス
ケジューリング理論に基づく。
ップ整合関数を修正したものを利用する。この手法によ
り画像構成要素の重複に関する条件集合が緩やかなもの
となる。画像の構成要素は、素なバウンディングボック
スではなく素な支持を有しなければならない。つまり、
2次元画像文法を構文解析する言語では、その黒い画素
が重複しない限りは重複した小区域あるいは重複した矩
形バウンディングボックスを組み合わせればよいという
ことである。本発明の手法ではバウンディングボックス
および矩形は特別な意味をもたない。画像整合採点法に
利用される尤度関数を単に正規化することで条件が緩和
される。これによって画像の副構成要素のための確率処
理で利用されるスコアを、単純な加算によって組合せ可
能とする。
に比べ、本発明の方法は文字サイドベアリングや底線深
度等の印刷パラメータについてさらに詳細な情報を必要
とする。文字のサンプルを含む画像から上記画像生成プ
ログラムおよび認識装置が必要とするさらに詳細な文字
モデルを獲得する方法が利用される。この方法により、
最小二乗推定手順を用いて文字のサンプルを含む画像か
らサイドベアリングや底線深度パラメータ等のフォント
距離も推定される。
が使用されることがある。文脈によって特に指示されな
い限り、用語「文字」は最も広義な解釈が与えられるも
のとし、通常の記号を含み、アルファベット記号のみな
らず「絵文字」、言葉によらずに情報を伝える記号、さ
らに連結された黒の画素領域である「小斑点」を含む。
これらは「文字」と交換可能に用いられることがある。
解析を多数用いる必要がある。この数学のあるものはす
でに公知である情報に基づき発明者が案出したものでは
なく、またあるものは新規である。このシステムの実現
は数学的展開を理解することで支援されるが、このため
読みにくく理解しにくいものとなっている。したがっ
て、数学的展開のあるものは数学的な興味のある読者の
ために一連の添付書類A乃至Dにまとめてある。数学的
展開のあるものは本発明のいくつかの態様を定義するの
に不可欠となっている。膨大な量の式を請求項に書き込
むのを避けるため、数学的展開のそれぞれの部分をラベ
ル付けし、このように定義されたラベルを請求項内で利
用している。したがって、ラベルが利用されている部分
では対応する数学的記述が本明細書の一部として援用さ
れるものとする。
るように、正規文法に対応する有限状態オートマトン
は、本技術分野ではすでに公知であるように、音声およ
び文字認識のための隠れマルコフモデルを用いた確率型
文法である。
ゴで開催された「神経網に関するIEEE国際会議会
報」におけるブロンゾスおよびクンらによる論文、「音
響、音声および信号処理に関するIEEE国際会議会
報」(1989年5月23−26)で発表されたブロン
ゾスおよびクンらによる論文(1719乃至1722
頁)、特に、後者で引かれた音声および文字認識に対す
る隠れマルコフモデル手法の特徴および実現について詳
細に開示する文献を参照されたい。この構成要件に関し
ては新規性を請求しない。本発明は使用されるイメージ
ングモデル、解釈に有限状態オートマトンの公知の原理
を利用可能とする文字の解析方法に関する。したがっ
て、本明細書の大部分において公知の構成要件が添付書
類中に含まれるか、または本明細書の一部として援用さ
れる。この詳細な説明の本体では本発明のシステムの基
礎となるイメージングモデルおよび文字解析態様につい
て焦点をあてる。
問題の定式化は添付書類Aに詳細に開示され、解決策が
画像ソースの適当なモデルを開発することにあり、さら
にチャネル特性を理解し、計算上十分な探査アルゴリズ
ムを利用することにあるということが示される。
と画像生成装置(イメージャー)11(図1)とを組み
合わせたものである。ソースモデリングに対して本発明
の手法では、文字形状記述および字間あけのサイドベア
リングモデル(R.ルーベンシュタイン著「デジタルテ
クノロジー」リーディング社/アジソン−ウエスレー、
1988年刊)を利用する。このモデルはデジタル印刷
では広く用いられており、PostScript(ポス
トスクリプト:アドビーシステム社、PostScri
pt言語レファレンスマニュアル、第二版、リーディン
グ社/アジソン−ウエスレー、1990年刊)等のペー
ジ記述言語で形式化されている。ここでは非常に簡単に
文字形状および字間あけについて述べ、さらに本発明の
画像ソースモデルを形式的に定義する。
のサイドベアリングモデルを簡略化したものを図示す
る。文字の形状は一列とされた局所座標系によって決ま
るため、十字(クロス)で示される文字の起点は(0,
0)である。文字の設定幅は、一語の連続した文字をイ
メージ(画像形成)する場合、文字起点から次の文字の
起点が通常配置される地点までのベクトル変位→Δ'=
[Δx,Δy]である。ベクトルは列ベクトルであ
り、'は移行を示す。ローマ字を含むほとんどのインド
ヨーロッパのアルファベットでは、Δx>0かつΔy=
0である。しかしながら、その他の筆記体系では、Δx
は負の場合があり(例、セム語)、またはΔyがゼロで
ない場合がある(例、東洋絵文字)。Δy=0の場合、
テキスト行における文字起点は同一直線上にあると同時
にテキストラインの底線を決める。文字のバウンディン
グボックス(境界付ボックス)は最小の長方形であり、
ちょうど文字を囲む文字座標軸で方向づけられる。文字
幅はバウンディングボックスの対応する寸法wである。
左サイドベアリングは文字の起点からバウンディングボ
ックスの左端部までの水平変位λである。サイドベアリ
ングがベクトル変位であると一般化することができる。
ベクトルサイドベアリングはPostScript等に
より支援されるが使用されることは希である。同様に、
右サイドベアリングはバウンディングボックスの右端部
から次の文字の起点までの水平変位ρである。底線より
下の深度は文字起点から文字バウンディングボックスの
底部までの垂直距離μである。同様に、底線より上の高
さは文字起点から文字バウンディングボックスの頂上ま
での垂直距離である。サイドベアリングモデル設定幅の
水平成分は次のような関係でサイドベアリングおよびバ
ウンディングボックス幅と関連づけられている。
と関連づけられている。
の文字を示す。 バウンディングボックス サイドベアリングのひとつあるいは双方が負の場合があ
る。たとえば、図5の「j」の左サイドベアリングは負
であり、この結果、「b」および「j」のバウンディン
グボックスは重複する。しかしながら、図5に示される
ように、タイプフェイスは通常、隣接する文字バウンデ
ィングボックスが重複しても文字自身が重複することの
ないように設計されている。ここではこの観測を次のよ
うに形式化する。Q∈FをあるフォントFから引き出さ
れた文字テンプレートであるとする。Q[→x0]は、
その起点が→x0に配置されるよう移動されたQを示す
ものとする。次に示す、
2値画像と画像が非ゼロである場合[画像の支持]画素
の集合とを区別せず、両者を示すためにたとえばQを使
用する。その意味するところは文脈から明らかとなる。
さらに、ここでは集合演算の画像支持への適用に対応す
る明らかな2値画像演算を示すように集合演算子標記を
用いる。)GRは右に一直線となったフォント文字の重
複である。文字の非重複に関する観測は、Q∈Fである
各Qに対して次のような条件として形式化してもよい。
「j」の起点は十字で示される。墨色(グレー)領域で
は、フォントからのすべての文字が重複している。ここ
で、各文字は起点で右にそろえられている。 マルコフ・ソース ソースモデリングに対する本発明の手法も、ネットワー
ク(マルコフ・ソース)として表現され、すでに公知の
確率的有限状態文法の利用に基づく。序論として、図7
はテキストの列に対する単純な文法の非公式な表現を示
し、状態遷移図の集合として表される(利用されている
標記は以下においてさらに完全に定義する)。各ネット
ワークの初期状態および最終状態はそれぞれnI、nFと
してラベル付けされる。テキスト列は縦に、テキストラ
インおよびv字空間領域の交替列から構成される。v字
空間はゼロまたは1以上のブランク画素行から成るホワ
イトスペースの可変長ブロックである。テキストライン
は交替するh字空間およびあるフォントから引き出され
た文字を水平に配置したもので、キャリッジ・リターン
で終わっている。さらに洗練された文法ならば、テキス
トライン中に可能な文字列を制限する言語モデルを実施
できる。たとえば、OCR精度を向上させるため単語辞
典を利用することはこの構想(フレームワーク)に容易
に取り入れることができる。
マルコフ・ソースとしてのモデリング(モデル化)イメ
ージ生成によって形式的に捕らえられる。マルコフ・ソ
ースは状態(ノード、頂部)Nの有限集合および有向遷
移(枝、端部)Tから成る。各遷移tはそれぞれtの先
行状態及び後続状態とよばれる一対の状態LtおよびRt
を接続する。Nの区別された2つのメンバーは初期状態
nIと最終状態nFである。各ノードnに関連するのは負
でない初期確率p0nである。ただし、
てのノードに対してp0n=0である。 属 性各遷移tは4項組の属性(Qt,Mt,at,→Δ
t)に関連し、ただし、Qtはテンプレート、Mtはメッ
セージ列、atは推移確率、→Δtは(文字の設定幅と同
様に)tのベクトル変位である。対ごとに飾りひげをつ
ける等の文脈依存の字間あけ規則を適用するためもあ
り、変位はテンプレートよりも遷移と関連する。マルコ
フ・ソースの経路πは、i=1...P−1の場合、
t1=n1かつRtP=nFである場合の経路である。周期ま
たはループは、Lt1=RtPの場合の経路t1...tPで
ある。
ジであり、
成される。画像ソースにより生成される可能性のあるメ
ッセージの集合は正規言語であり、ソースモデル自体は
その言語を受け入れる有限状態オートマトンである。マ
ルコフソースは次の式によって経路に関する確率分布を
決定し、
納する。
xP+1である。ただし、→xP+1は便宜的に導入されたも
ので、複合画像Qは、
により、ここでのソースは、各経路πに対してi≠jの
場合、
の重要性はまもなく明らかとなる。別々の経路と関連す
るメッセージおよび画像が別個であれば、マルコフソー
スは単線であるといわれる。その場合、
説明を簡単にするため、ここでは画像ソースが単線に設
計されたものとする。 記号テンプレート 数21により定義されるイメージングモデルは解釈が単
純である。透明なプラスチックシートのコレクションが
あったとし、Qの起点をシートの中心としながらシート
の各々にあるテンプレートQのコピーが塗られていると
する。経路πの各遷移tiに対して、Qtiを有するシー
トはシートの中心を→xiに一直線としながら重ねた透
明シートの最上部に置かれる。透明シートが積み重ね終
わるとQπが定義される。塗られた個々のシートは極め
て重なりやすいものとする。バウンディングボックスは
このイメージングモデルでは特に役割がないので、重複
してもテンプレートバウンディングボックスにとっては
差し支えない。しかしながら、数23により、シート上
の塗られた領域は互いに素でなければならない。
を基礎となる経路および数16および数21により定義
する。ここでの第一の関心事は観測された画像からのメ
ッセージを回復することであるが、ソースモデルを利用
して特定のメッセージの画像を生成してもよい。上述の
ように、画像モデルは前記モデルによって生成されたメ
ッセージの言語に対する有限状態アクセプタを定義す
る。したがって、メッセージ列をMとすると、Mπ=M
の場合、経路を一つ求めるための完全経路πが存在する
かどうかおよびこのような経路が存在するかどうかを確
定するためのすでに公知の手続きが存在する。数21に
より定義された画像QπはMの画像である。合成のため
に画像モデルを利用するのは、あるクラスの画像のソー
スモデルであって復号に利用されるソースモデルを設計
する上で効果的な手法である。 チャネルモデル チャネルモデリングの目的は、数9で利用するL(Z/
QM)に対する式を引き出すことである。これについて
は添付書類BおよびCで説明する。 デコーダ さて、画像ソースおよびある観測された画像Zが与えら
れたとする。数9へ導く添付書類Aの説明により、Zの
MAP復号はソースを介して完全経路πを求めることと
同等である。このソースは、制約→x'P+1=[W H]
を条件として、
フソースであるとすれば、数17を利用し、
の手法は、公知のヴィテルビ(Viterbi)アルゴ
リズムが隠れマルコフモデル(HMMs)を用いた音声
認識において利用されたのを真似たものである(X.フ
ァン、Y.アリキ、M.ジャック共著「音声認識用隠れ
マルコフモデル」エジンバラ大学出版、1990年
刊)。音声の場合に対する直接類推により、帰納的に定
義された関数を計算すればZは復号することができる。
この関数は、図10に図示されるように、各(n,→
x)∈N×Ωの場合、
が回復されるようにバックポインタが格納される。 デコーダスケジュール 数35の計算にはN×Ωの要素が現れる順序を特定する
必要がある。このような順序の特定は帰納スケジュール
と呼ばれる。有効スケジュールは、数35の右辺に現れ
る各L(Lt;→x−→Δt)の計算のあとでのみL
(n;→x)が計算できる場合があるという制約を満足
しなければならない。音声隠れマルコフモデルの場合、
インデックス集合Ωは1次元間隔[0,T]であり、→
Δt∈{0,1}は非負スカラである。ここで、→Δ=
0である遷移がゼロ(マル)遷移と呼ばれる。隠れマル
コフモデルがゼロ遷移の閉ループを含まない場合、その
ノードはΩの要素が0,1,...,Tの順序で現れる
時にスケジューリング条件が満足されるように順序づけ
してよい。さらに、ゼロ遷移の閉ループに対して隠れマ
ルコフモデルを試験し、ノードを分類するのは単純な手
続きである。Ωが多次元であるとともに→Δの成分が画
像ソースモデルの場合と同じく符号上制限されていない
場合、数35のスケジューリングは隠れマルコフモデル
のスケジューリングよりも極めて複雑なものとなる。こ
こでは正規反復アルゴリズムのための線形スケジュール
の公知である一般理論に基づきこの問題に対する手法を
展開させる(S.ラオによる博士論文「プロセッサ配列
に関する正規反復アルゴリズムおよびその実現」(スタ
ンフォード大学、1985年10月刊)、およびACM
会報第14号(1967年刊)の563乃至590頁に
掲載されたR.カープ、R.ミラー、S.ウィノグラッ
ド共著「一様漸化式の計算編成」を参照)。
n∈Nおよび画像地点→x∈Ωに対し数35を用いてL
(n;→x)が計算される「時間」を割り当てる整数値
の関数{Sn(→x)|n∈N}の集合である。数35
のデータ従属性と一致させるため、有効スケジュールは
各遷移t∈Tの場合、
∈Ωである。スケジューリング問題に利用可能な構造を
強制するため、通常、スケジューリング関数がアファイ
ン変換となるよう制約を与える。このため、
がない。数37のスケジュールは線形スケジュールと呼
ばれる。→Δπ=→0に対してループπが存在しない場
合、また存在しない場合にのみ数36を満足する線形ス
ケジュールを求めるのが可能であるということが、線形
スケジューリング理論の基本的な結果である。このた
め、全体変位がゼロ(ベクトル)であるループをもたな
いグラフが計算可能であるといわれる。頂部から底部ま
で行ごとに画像を復号するため動機づけされたスケジュ
ールの式に対してやや強めの制約を与える。行優先線形
スケジュールは、
つλy>0かつ、
i+1のあらゆる画素に対するL(n;→x)を計算す
る前に画像の行iの各画素に対するL(n;→x)を計
算することを要求する点である。しかしながら、n1お
よびn2が異なるノードであれば、行優先制約条件はL
(n1;→x)とL(n2;→x)の計算順序を強制する
ものではない。したがって、たとえば、行i+1に対す
るL(n2;→x)を計算した後に行iに対するL(n
1;→x)を計算する場合がある。
ループπが存在しなければ計算可能な画像デコーダに対
して行優先線形スケジュールが求められる場合があると
いうことを示す。これを示すため、行優先スケジュール
の特定形式に対する単純な制約条件を与える。強制的な
行優先スケジュールは、Sn(→x)≡Sn(x,y)が
nによって次の二つの式のいずれかを有する行優先スケ
ジュールである。すなわち、
あり、Kは正の定数であり、
y)が同一式である場合のみPn1=Pn2である。
スケジュールはL(n;→x)の値を計算する4レベル
入れ子型反復として単純な解釈を有する。反復のレベル
はそれぞれ数41または数42の右辺の4項に対応す
る。
述されるように、最も外側のレベルはyを繰り返し、次
の行へ進む前に所与の行の各nおよび→xに対するL
(n;→x)を計算する。前記最も外側のレベルが行ご
とに進むのは、各n1、n2、x1、x2に対して、
定)はpnで索引付された一連のK「パス」を繰り返
す。パスはNのノードの部分集合に対応する。pn1<p
n2であれば、各x1、x2に対して
スが発生する。第3レベル(例、yおよびpnを固定)
はxを繰り返す。Sn(x,y)が数41となるような
パスにpnが対応する場合、この反復はxが増加する順
に進む(左から右へ)。一方、Sn(x,y)が数42
となる場合、反復は右から左へ進む。最後に、反復の最
も深いレベル(y、pnおよびxを固定)では、γnが増
加する順にパスのノードに対するL(n;→x)の数値
を求める。 フォント距離 マルコフソースの各遷移はテンプレートQおよび変位→
Δでラベルづけされる。さらに、復号およびイメージン
グのあいだに正確にテンプレートを一直線化(整合)す
るには文字サイドベアリングλおよびρ、文字底線μの
知識が必要となる。場合によっては、テンプレートおよ
び距離パラメータを公知のフォントテーブルから利用し
てもよい。しかしながら、フォント距離テーブルが利用
可能であっても、その値は不適当な場合があり、特に、
低解像度装置において小型サイズでイメージされたアウ
トラインフォントでは不適当である。アウトラインフォ
ント距離は通常、標準フォントサイズで与えられ、他の
サイズに対する値は拡大縮小によって得られたものであ
る。文字設定幅は通常、文字サイズに合わせて線的に拡
大縮小され、フォントテーブルから正確に予想できる場
合もある。しかしながら、フォントインタプリタが「ヒ
ント」を利用することによりステム幅等の絵文字の寸法
を調節するため、文字画像のサイドベアリングおよび底
線が、テーブルから推定された値よりずれることがあ
る。 これらの想定される問題を避けるため、図16に
示したような設計されたサンプルテキスト画像から文字
距離を推定する手続きを開発した。この手続では、ある
フォントで印字されたテキストおよびそのテキストの筆
写版が入力される。さらにこの手続きでは、ビットマッ
プテンプレートおよび各文字ごとにフォント距離値(サ
イドベアリング、底線深度および設定幅)が出力され
る。このフォント距離推定手続きにより、図5に定義さ
れるように一つのフォントの各文字ごとに左右のサイド
ベアリングλおよびρ、設定幅Δx、底線より下の深度
μが推定される。この手続きにはサンプルテキストを有
する画像、このテキストの筆写版が入力されるため、こ
の絵文字の恒等式がわかる。テキスト画像を解析するこ
とにより絵文字バウンディングボックスと字間あけdと
の座標を得られるものと仮定する。また、λ、ρ、Δ
x、μは、絵文字起点の位置に関する情報がなければ直
接計測することができないものとする。このような情報
が得られないことが、フォント距離推定問題の原因であ
る。サイドベアリングおよび底線パラメータを推定する
手続きについては別に後述する。
絵文字の対ごとの式から成る一組の一次方程式を解くこ
とによりサイドベアリングが確定できることを示す。こ
の問題点は、テキスト画像が所与の文字組のサンプルを
2個以上有する場合、サイドベアリング方程式が重複決
定される場合があるということである。印刷の歪みまた
は走査の歪みの結果として、所与の文字組に対する観測
された絵文字間あけが変動する場合がある。その結果、
同じ左右のサイドベアリング変数が、異なる値dととも
に2個以上の数11にあらわれる場合がある。この型の
重複決定された式を扱う標準的な手法は、最小二乗法パ
ラメータ最適化の一つとして推定問題を再度定式化する
ことである(W.H.プレス、B.P.フラナリ、S.
A.トイコルスキー、W.T.ベターリング共著「Cに
おける数的秘法」ケンブリッジ大学出版、1988年
刊)。これが本発明の推定手続きの基礎となっている。 最小二乗法推定手続き 左右のサイドベアリングがそれぞれλkおよびρkであっ
て、Ck(k=1...K)を文字の集合とする。さら
にPi(i=1...M)がテキストのサンプルが像に
おけるi番目の対の絵文字を示すものとする。ただし、
この対の左右の絵文字はそれぞれ文字CliおよびCriの
画像である。「文字」という用語は通常の意味で使われ
ているものの、絵文字に関連する文字ラベルはあらゆる
型のラベルであってよい。たとえば、画像の絵文字は、
形状の類似性またはその他の性質に基づいてそれぞれの
群に区分されてもよい。さらに、推定手続きにおける
「文字」ラベルと同様に使用されるように固有の識別子
が各群へ割り当てられる。各Piに対して、Criおよび
Cliの左右サイドベアリングは絵文字間あけdiへ関係
づけられる。すなわち、
変数である。全体二乗法サイドベアリング推定誤差は、
^λkで示され、共同的にESを最小とする値である。サ
イドベアリング誤差は、
のデルタ関数である。数90の第一項は、
様に、
文字組の数である。最後に、
i番目の対に対する絵文字間あけである。数91、数9
3、数95を数90へ代入し、Mk,★で除すと、k=
1...Kのとき、
に対して条件づけされた平均絵文字間スペースを推定す
るものとして解釈してもよい。このため、
よって、k=1...Kのとき、
語法に一致させて、以下、数99および数100はサイ
ドベアリング標準方程式とよぶ。これらの式は行列形式
に置き換えることができる。すなわち、
決定されるため、ほとんど問題は生じない。直感的に
は、左右のサイドベアリングの対ごとの合計のみが数8
6により直接、観測可能であるため、観測された絵文字
間あけに影響を与えずに定数を各右サイドベアリングへ
加え、左サイドベアリングから引くことができる。この
曖昧さは、^ρiおよび^λiが数101を満足する場
合、i=1...Kのとき
−γを実施するものとすることによって形式的に論証さ
れる。曖昧さを解決する単純な方法は^ρ1=0を選択
することである。その場合、2K×2K係数行列の第一
行および第一列と、数101の2K×1列ベクトルの第
一行とを削除することで少なくなった一次方程式の集合
を解くことで残りの2K−1個のサイドベアリングが確
定できる場合がある。標準方程式を解いた後、何らかの
定数を加算および減じることにより推定されたサイドベ
アリングを調節することができる。たとえば、通常の印
刷経験を反映させて「O」の左右サイドベアリングを等
しくすることができる。
によって、サイドベアリング標準方程式の自由度が付加
される場合がある。対応する文字が画像中の絵文字組の
右(左)項として発生しなければ、明らかに、ある左
(右)サイドベアリングを推定することは不可能とな
る。テキスト画像が十分な数の個別の文字組のサンプル
を含まなかった場合、さらに微妙な形の不確定性が生じ
る。数86の等式はサイドベアリング変数ρliおよびλ
riとの間の二項関係を表すものとして見てもよい。この
関係の遷移的な閉包はすべての絵文字組のあいだで、サ
イドベアリングの集合を相互依存変数の同値類へ分割す
る。各同値類は、独立的に解くことが可能なサイドベア
リング方程式の完全集合の部分集合に対応する。各部分
集合は自由度が1であるため、各同値類におけるサイド
ベアリングは上述のように任意に設定できる。上述の観
測は、サイドベアリング変数が相互依存変数の独立した
群および各群のために解かれる標準方程式へ別個に分割
されるということを示す。ただし、分割されるのは文字
ではなくサイドベアリング変数であるものとする。した
がって、文字の左右のサイドベアリングが異なるサイド
ベアリング群に属することが可能となる。これはすなわ
ち、推定されたサイドベアリングを絵文字の位置決めに
利用する場合、何らかの警戒が必要だということであ
る。たとえば、文字の左右のサイドベアリングが同一サ
イドベアリング群に属さない限り、数10を用いて文字
の設定幅を推定するため前記サイドベアリングを加算し
てはならない。同様に、数11を用いて絵文字間あけを
計算するためには同一群からのサイドベアリングだけが
加算できる。図16のようなフォントサンプル画像は、
すべてのサイドベアリング変数を同一群に確実に属させ
ることでこの問題を避けるように設計しなければならな
い。
に関する一般化である図15に図示される文字垂直位置
合わせのモデルに基づく。テキストのページはテキスト
の平行線の集合から成る。走査中に歪む可能性があるの
を考慮に入れるため、各テキスト行は水平線に対して未
知の角度θで方向づけられているものとする。ただし、
θは行と行のあいだで変動する。したがって、各テキス
ト行の底線は次の一次方程式で記述される。すなわち、
れた場合、図5に与えられたモデルに従って行に沿って
位置づけられる。絵文字バウンディングボックスは最小
の長方形であり、絵文字のみを囲んだ画像座標軸で方向
づけられている。画像がずれていれば、絵文字バウンデ
ィングボックスは図5で定義された文字バウンディング
ボックスと異なることになる。というのは、後者のバウ
ンディングボックスは(回転された)文字座標系で方向
づけられたものだからである。絵文字起点は絵文字バウ
ンディングボックスの下方の左コーナ隅であり、この絵
文字座標は絵文字起点のxy座標である。絵文字座標お
よび行底線は、
底線より下の深度である。ただし、正のy方向が下降し
ている場合、底線より下に延びる文字に対してμ>0で
あるものとする。底線推定の目的は、絵文字座標の集合
が与えられた場合、各行に対してαおよびβを確定し、
サンプルテキスト画像の各文字に対してμを確定するこ
とである。
N)を有するとする。ただし、Giは文字Cciの例であ
る。前記絵文字はまとめられてテキストLi(i=
1...L)の行となる。ただし、Giは行Lliに属す
る。Giの計測可能座標は、
られている。ただし、εは雑音項である。全体二乗法底
線推定の誤差は、
μkは、
ものに類似した導出によって示す。同様に、数89から
数100を得るために利用したものに類似した導出を行
った後、数111によって、
件数113、数114、数115は、次の行列式へ置き
換えることができる。すなわち、
る。同様の等式によって行が群へ分割された場合、各群
の行は同一勾配を有し、異なる群は異なる勾配を有す
る。これが極端となった場合のサンプルは、所与のペー
ジのすべての行が大域的にずれた場合である。βおよび
μの合計のみが数108により観測可能であるため底線
標準方程式は本質的な特異点を有する。サイドベアリン
グに対してそうであったように、底線変数βiおよびμi
は同値類へ分割することができ、さらに各群の一変数は
任意に設定される。たとえば、考えられる選択として、
「M」の深度をゼロに固定することがある。 例示サンプル サンプルテキスト画像から文字距離を推定する新規な手
続きを含めて、上述のような画像ソースのモデルを利用
すれば、メッセージソースと画像変換器(画像生成器、
イメージャー)を組み合わせた複合マルコフソース(確
率有限状態オートマトン)の形態でドキュメント画像生
成器を直截な方法で作成することができる。メッセージ
ソースは、伝達する情報を含む記号またはテキストの列
を生成する。画像変換器は、メッセージを理想的なビッ
トマップに変換する有限状態変換器としてモデル化され
ている。デコーダは観測された画像が与えられると、ヴ
ィテルビ的な動的計画法アルゴリズムを利用して組合わ
されたソースおよびチャネルモデルによって事後に最も
確からしい経路を求めることによってメッセージを推定
する。デコーダで利用されるものだけでなく、画像変換
器で利用される有限状態ネットワークは、直截なネット
ワークであり、その構造は上述の説明から当業者であれ
ば明らかとなる。図7はそのような単純な有限状態ネッ
トワークの一例である。本発明によるシステムは上述の
ように構成され、4種類の画像についてソースモデルお
よび認識結果を示す。すなわち、1)単純なテキスト
列、2)一貫した手書き風フォントのテキスト、3)辞
書項目(各項目の論理的成分は確認済みである)、4)
高密度印刷デジタルデータ、である。特に断らない限
り、テキスト画像は既知のパラメータとともにビットフ
リップ雑音モデルを、PostScriptインタプリ
タを用いて300dpiの想定解像度で合成画像へ適用
することにより生成されたものである。フォント距離の
推定に用いられたフォントサンプル画像は同様に作成さ
れたもので、テストテキストの公知のフォントおよび文
字サイズを利用している。すべてのテキスト行の底線は
完全に水平であり、所与の文字のすべての例のビットマ
ップはクリーンな画像において同一である。 テキスト筆写 テキスト筆写は図2に図示された種類の単純なテキスト
列を抽出する復号画像に関する。図14(a)はアドー
ビタイムズローマン12ポイントのサンプルテキスト行
を示す。図14(b)の雑音画像は、原画像の黒の画素
10%と、白の画素49%とをランダムに反転させて形
成したものである(例、ビットフリップモデルにおいて
π0=0.51かつπ1=0.9)。図14(b)の雑音
画像は図7のテキスト列有限状態ネットワークを利用し
て復号したもので、フルタイムズローマンフォントの7
0文字部分集合は、アルファベットの大文字小文字、数
字、8個の句読点!;,.:?[]から成る。テキスト
行サブネットワークにおける各文字枝の推移確率は1/
70に設定された。復号されたメッセージが図17に示
される。文法が「−」を含んでいないためエンドユーザ
の「−」が失われているほかは筆写ではエラーがない。
連結された手書き風フォントであるミストラルの場合の
上記サンプルを繰り返したものである。図18(a)は
12ポイントテキストの原画像であり、図18(b)は
その雑音チャネルをシミュレートする劣化された画像で
ある。図18の筆写には、「r」が「s」として誤って
認識された箇所がいくつかある(例、architecture
s)。クリーンなビットマップを検査すると、ミストラ
ルでは「r」と「s」とが酷似していることがわかる。
したがって、このエラーはさほど重大なものではない。
このようなエラーは図7に示された単純な設定よりさら
に制約の加えられた設定のネットワーク(例、語彙辞
典)を利用することで解消することができる。
予備実験の結果である。図14(a)の合成テキスト画
像および図17のタイムズローマンフォントサンプル画
像はプリントされ、300dpiで走査された。走査中
のずれを最小限にするようページは慎重に位置合わせさ
れた。走査画像は上述のような最小二乗法推定手続きを
用いて各テキスト行の底線を推定するとともに、水平な
底線に対して各文字を垂直にずらすことでずれ補正され
た。各文字の単一サンプルは、文字テンプレートとして
作用するようフォントサンプル画像から引き出された。
良好な復号精度が達成されるまでビットフリップ雑音モ
デルのパラメータは相互に調整された。図20に示され
る結果は白黒双方のフリップを10%にした場合であ
る。
ルを利用した走査画像を復号した結果を示す。「−」が
落ちた以外にはエラーは存在しなかった。図20(b)
は設定幅をテンプレートのバウンディングボックス幅に
等しくするとともに、すべてのサイドベアリングをゼロ
とすることで文字モデルを修正した結果を示す。「j」
が認識されない箇所がいくつか存在するが、これは距離
が修正されても「j」が先行する文字のバウンディング
ボックス内へ伸長することができないという事実を反映
したものである。「1」が「I」と誤認された箇所は予
想しないものである。走査された文字テンプレートを調
べると、「1」および「I」に対する抽出されたテンプ
レートが酷似していることが判明した。しかしながら、
推定された設定幅は著しく異なり、これが図20(a)
において正しい分類を可能とする字間あけの制約を加え
るものと思われる。 論理構造分析 論理構造分析は、図3で図示された種類のメッセージ列
を抽出するための画像の復号に関する。このようなメッ
セージには、ドキュメント構成要素の論理的機能を確認
するものの画像中に絵文字として直接的に示されること
のない注釈やタグがある。図21は、市販の科学技術用
語辞典(「科学技術用語辞典」第二版、マグローヒル
社)をもとに作った単純な辞書風のページのクリーンな
画像および雑音画像が示される。この辞書ページのため
に用いられる有限状態ネットワークは図22に示され
る。縦方向において、辞書ページは項目成分とv字空間
成分とが交替する列となっている。また、項目は0また
はそれ以上の本文行が続く第一行を有する。水平方向に
は、前記第一行はネーム、フィールドおよびキャリッジ
・リターンで終わる本文テキストフィールドから構成さ
れる。第一行のフィールドは、異なるフォントおよびフ
ィールドの周囲の「共通記事」括弧を用いて画像中で区
別される。
の指示は図22に示されていない。これは、図21
(b)の画像の復号を示す図23に図示されている。個
々の項目構成要素だけでなく各項目はラテックス風の標
記を用いて示される。印刷上の指示注釈(例、\ネーム
{})は辞書ページネットワークのさまざまなゼロ遷移
に対してメッセージ列として付される。 プリントデジタルデータ 最後の例は高密度プリントデジタルデータの復号であ
る。図24(a)は、各ビットごとに7画素平方のセル
において斜めの絵文字を利用して符号化されたデータの
5120ビットのブロックを示す。データは、16ビッ
ト16行から成る256ビットのセグメントにまとめら
れる。セグメント内のビットは行優先順で配列される。
ブロック自身は5セグメントごとの4行から成り、これ
も行優先順である。雑音バージョンは図24(b)に図
示される。
限状態ネットワークは図25に示される。このネットワ
ークはデータブロックの全体ビット順序づけを保存して
いるわけではないが、単純な行ごとの復号を生成する。
ビットを正しい順序にもどすためにポストプロセッサを
用いる。図示のように、復号された各行は多数の8ビッ
トを有するように条件づけされている。条件づけのゆる
やかな文法と比較すると、これによってビット挿入・削
除エラーの数を低減させることができ、したがって、全
体の精度が向上される。
ットワークを用いて復号し、ビットをもとにもどし、結
果のデータ流を8ビットのアスキー(ASCII)文字
として解釈した結果を示す。復号メッセージには誤認さ
れた文字がいくつか含まれ、それぞれデータバイトにお
ける単一ビットエラーに対応する。
野で十分確立された確率型の有限状態画像生成プログラ
ムに関する概念を利用して本発明のシステムの実現方法
のひとつを詳細に説明するが、これに限定するものでは
ない。
場合を示す。画像合成器110(a.k.a画像生成
器)は、画像ネットワーク120として表現された画像
のクラスに関する記述、図5に図示されるような特定の
文字の印刷モデルのパラメータを各々リストする画像テ
ンプレート130のライブラリ、および画像ネットワー
クにより記述されるクラスから特定の画像を指定するた
めに用いられる文字列100 をそれぞれ入力として受
け取る。画像生成器110の出力はテンプレートライブ
ラリ130から引き出された構成画像の集合を配置する
ことで形成されたビットマップ画像140である。これ
はイメージング処理を説明するために用いた透明シート
の積み重ねに対する類推である。構成画像の恒等式およ
び空間的位置は入力記号列100と画像ネットワーク1
20とにより共同的に確定される。
用いられる種類の有限状態遷移ネットワークに類似した
画像ネットワーク120のサンプル200を示す。画像
ネットワーク200は205、210等のノードの集合
から成り、これらのノードは235、240等の有向枝
により相互接続されている。たとえば、枝235はノー
ド205を出て、ノード210に入るよう指示される。
ノードは状態または頂点と呼ばれることがあり、枝は遷
移または辺と呼ばれることがある。ネットワークの状態
は2つに区別され、開始状態205と最終状態220と
呼ばれ、それぞれnI、nFとラベルづけされる。各遷移
は次の4つの属性でラベルづけされる。文字名(23
6、242等)、画像テンプレート名(237、242
等)、水平dxおよび垂直変位dy(図5参照)から成
る2次元変位ベクトル(238、243等)、そして推
移確率(239、244等)である。枝250の文字2
51または枝245のテンプレート247のように、文
字ラベルまたは画像テンプレートはゼロでもよい。推移
確率は画像復号中に使用されるが、画像合成中には使用
されない。入力記号列および画像ネットワークが与えら
れると、画像生成器は後述するように、画像位置ポイン
タを更新するとともにテンプレートライブラリからテン
プレートを出力画像配列へコピーすると同時に、画像ネ
ットワークの枝を横切ることにより出力画像を合成す
る。
像配列の座標(0,0)に初期化される初期状態205
で始動する。入力記号列の第一文字は、ノード205か
ら出た枝280、235、285の文字ラベル281、
236、286と比較される。枝ラベルのひとつが入力
された文字と一致すれば、画像生成器は対応する枝を選
択し、次の動作を実行する。たとえば、入力記号列の第
一文字が「b」であるとする。この場合、「b」は文字
ラベル236と一致するため、画像生成器は枝235を
選択することになる。枝235が選択されると、画像生
成器は、テンプレートの原型(図5参照)を現在の画像
位置(0,0)に位置合わせしながら、枝235に関連
する画像テンプレート237のコピーを出力配列内へ引
き込む。現在の画像位置は枝235に関連する変位23
8だけ増分され、(1,0)となる。最後に、次に選択
された枝235により画像生成器はノード210へ移動
する。画像生成器はこの過程をノード210で繰り返
し、入力記号列の第二文字を調べ、ノード210から出
た枝のラベル241および246と比較し、一致した枝
を選択する。たとえば、第二文字が「a」であれば、枝
240が選択される。その場合、枝240に対するテン
プレート242のコピーは、現在の画像位置(1,0)
で出力画像配列へ引き込まれる。現在の画像位置は変位
243だけ増分されることにより(2,1)となり、画
像生成器はふたたびノード210へ移動する。
理されるまで続く。処理が終わった時点で、画像生成器
は最終状態220に到達するか、または文字ラベルがゼ
ロとなった枝を選択することにより最終状態に到達でき
る状態でなければならない。入力記号列がなくなった時
点で画像生成器が最終状態220に到達できなければエ
ラーが発生する。また、過程のどこかの地点で、現在の
入力文字と一致する枝が見つからない場合にもエラーが
発生する。さらに、現在の文字に一致する枝が二つ以上
存在する場合にも問題が生じる。これらの問題およびそ
の他の例外的な状況を扱えるように上記の記述を一般化
する方法は、有限状態言語に関する文献において公知で
ある。 図29および30は、図28で示された画像ネ
ットワーク200および入力記号列「baa$」に対す
る完全な過程を図示したものである。図29は列310
がネットワーク200にしたがって処理されたときに生
成された画像320を示す。合成過程のステップ1乃至
5は図30のテーブルに詳細に示される。ステップ1の
前に、画像生成器は、空白となっている出力配列の位置
(0,0)で初期状態205にある。ステップ1では、
画像生成器は第一入力文字311を、ノード205から
出た3個の枝280、235、285と比較する。入力
文字は枝235のラベル236と一致する。画像生成器
は枝235に関連するテンプレート237のコピー41
1(この場合は「b」の画像)を位置(0,0)の出力
配列へ引き入れ、ノード210および画像位置(1,
0)へ移動する。この例で、各テンプレートの位置合わ
せ地点はテンプレートの左下のコーナであるとする。図
30の画像列では、ステップ1が始動する画像位置は画
像410においてドット「.」412で示される。終了
ステップ1での画像位置は「X」414で示される。ス
テップ2乃至5に対する画像420、430、440、
450は同様に印が付されている。 ステップ2では、
状態210から始動して、画像生成器は第二入力文字3
12をノード210から出た枝240および245の文
字241および246と比較する。入力文字「a」は枝
240のラベル241と一致するため、画像生成器はテ
ンプレート242のコピー421(この場合、「a」の
画像)を現在の位置(1,0)へ入れ、現在の位置を変
位243だけ進めて(2,1)へ移動し、さらに状態2
10へ移る。
して前記過程が繰り返される。画像生成器が枝240を
選択し、テンプレート242のコピー431を位置
(2,1)に入れ、現在の画像位置を(3,2)に更新
し、ノード210へ移動する。
理され、画像生成器は枝245に従ってノード215へ
進む。枝245に関連する変位248が(0,0)であ
るため、画像位置ポインタは変化しない。また、枝24
5に関連するテンプレートラベル247がゼロテンプレ
ートを指定するため、出力配列にはテンプレートがコピ
ーされない。
号列を使いはたしてしまう。しかしながら、枝250の
文字ラベル251がゼロ文字を指定するため、枝250
を選択してもよい。枝250に対するテンプレート25
2のコピー451、つまり画像「m」は現在の画像位置
(3,2)に置かれ、画像生成器は状態220へ移動
し、画像位置は(4,0)に更新される。この時点で、
画像生成器は最終状態220にあり、処理すべき入力文
字は存在しない。したがって、イメージング動作は正常
に終了した。この例は、入力列記号と結果ビットマップ
画像との間が必ずしも1対1の対応である必要がないと
いうことも示す。たとえば、イメージされる列にはコー
ド中のコメントに対応する情報が含まれるが、ビットマ
ップ中に含まれるという意味ではない。同様に、認識装
置はビットマップに関するその出力情報(そのソース
等)をその中に有することはできるが、ビットマップ自
身に表すことはできない。上記の例が図23の論理構造
タグである。また、ビットマップ記号は列記号と異なる
ものにすることができる(記号列では「$」であり、ビ
ットマップでは「m」)。さらに、認識装置が一定の規
定された条件下で文字を自動的に生成する場合には、ビ
ットマップに記号が現れる必要はない。
め入力ビットマップ510を復号する画像ネットワーク
を使用した場合を示す。図29に示された例に対して、
同一の画像ネットワーク200が利用できる。テンプレ
ート整合器520はテンプレートライブラリ530(図
27の画像生成器で用いられたテンプレートライブラリ
130と同一のもの)の各項を、数25で定義されたL
(Z|Q)を計算する整合関数を用いて入力画像510
と比較する。テンプレート整合器の出力はライブラリか
らのテンプレートごとのスコアのスコア配列540の集
合である。このスコアには、入力画像の各位置でのテン
プレートに対する数値整合スコアが含まれる。ノードス
コア/バックポインタプロセッサ550は、画像ネット
ワーク560の各ノードに対するスコア配列およびバッ
クポインタ配列570を計算する。ノードに対するスコ
ア配列には、入力画像の各位置で位置合わせされたその
ノードに対して数35で定義された数値整合スコアL
(n;→x)が含まれる。ノードに対するバックポイン
タ配列はそのノードに最も入りやすい枝を確認する。つ
まり、数35を最大にする各画像位置の枝を確認する。
ノードスコア/バックポインタプロセッサ550には、
テンプレート整合器に対するテンプレート整合スコア5
40と、図27の画像生成器において用いられた画像ネ
ットワーク120と同一の画像ネットワーク560から
のデコーダスケジュール555とが入力される。最後
に、バックトレースプロセッサ580はバックポインタ
配列570を利用し、画像ネットワーク560を介して
経路を生成する。この経路から、経路の枝の文字ラベル
を鎖状につなぐことで出力記号列590が形成される。
図29に示される例の場合では、これは記号列「baa
$」を再構成することになる。
550によって実行される場合、上記のように配列57
0を生成することになるアルゴリズムの一形態が図32
において詳細に説明される。プロセッサ550が行優先
順にノードスコア/バックポインタ配列570を埋め
る。すべての値が第一行に対して計算され、さらに第二
行に対してすべての値が計算され、すべての行が終わる
まで同様に計算される。各行に対する計算は順に一連の
「パス」としてまとめられる。各パスでは、スコアおよ
びバックポインタ配列の部分集合における各配列ごとに
一行が計算される。スケジュールで指定されるように、
行は左から右へ増加x位置の順で計算されるか、または
右から左へ減少x位置の順で計算される。左−右パスは
「前進」パスと呼ばれ、右−左パスは「逆進」パスとよ
ばれる。パス内の各x位置で、画像ネットワークのノー
ドの部分集合に対するスコアおよびバックポインタが規
定の順序で計算される。
型反復である。最も外側のレベルはステップ602から
632まで行を繰り返す。ステップ602では行カウン
タyを1に初期設定する。ステップ630では、行カウ
ンタが画像の行Hと比較される。すべての行が計算され
終わるまで、行カウンタはステップ632において増分
され、次の行が処理される。第二レベルであるステップ
604乃至628では、パスを繰り返す。パスカウンタ
はステップ604で初期設定され、ステップ626でパ
スKの全体数と比較され、ステップ628で増分され
る。第三レベルであるステップ605乃至624は、行
カウンタyにより指定された行内の水平な位置を繰り返
す。3個の水平位置ポインタは同時に維持される。ポイ
ンタXFは前進パスに対して水平位置を指定する。XFは
ステップ605で1に初期設定され、ステップ624で
増分され、ステップ622で行内の位置数Wと比較され
る。ポインタXRは後方パスに対する水平位置である。
ステップ605でWに初期設定され、ステップ624で
減少される。ポインタXは、カレントパスが前進か後方
かによってステップ608、610、612でXFまた
はXRへ設定される。反復の第四レベルであるステップ
614乃至620では、パスカウンタにより指定された
パスのノードnごとにyで指定された行およびxで指定
された水平位置でのスコアL(n,x,y)およびバッ
クポインタB(n,x,y)を計算する。スコアL
(n,x,y)およびバックポインタB(n,x,y)
の実際の計算はステップ616で行われ、図33に説明
されている。
(x,y)に対するスコアL(n,x,y)およびバッ
クポインタB(n,x,y)を計算する例を示す。この
アルゴリズムは、隠れマルコフモデルとともに音声認識
で利用される標準1次元動的計画法ステップを2次元的
に一般化したものである。この計算には指定されたノー
ドnに入るすべての枝の中から、指定された画像位置
(x,y)のノードのスコアを最大にする枝を求めるこ
とも含まれる。最大スコアおよび対応する最良の枝の識
別がステップ770でL(n,x,y)およびB(n,
x,y)として返される。計算の途中で、ステップ71
0で初期設定された変数ベストスコアおよびベストブラ
ンチが、これまで出会った中で最上のスコアおよび対応
する枝を有する。
る枝を繰り返す。ステップ715は枝インデックスtを
nへの第一枝に初期設定する。nのすべての枝が考慮さ
れ終わるまでステップ760および765は反復する。
ステップ720、725、730はテンプレートQ、変
位(dx,dy)、枝tと関連する推移確率aを検索す
る。これらは図28に図示される枝または遷移の属性に
対応する。ステップ735は画像位置(x−dx,y−
dy)でテンプレートQに対するテンプレート整合スコ
アを、事前に入力540としてノードスコア/バックポ
インタプロセッサ550へ供給されたテンプレートスコ
ア配列から検索する。ステップ740はノードLの識別
を枝tが発生したものから検索し、ステップ742は画
像位置(x−dx,y−dy)でノードLに対するノー
ドスコア値L(n,x,y)を検索する。この値は図3
3のアルゴリズムの実行のさいに計算された。デコーダ
スケジュール555は、現在の計算の間にL(n,x,
y)を計算するのに必要なあらゆるノードスコア値が前
記計算により確実に得られるようにしなければならな
い。ステップ745は現在の枝に対する候補ノードスコ
アを計算する。最後に、ステップ745で計算した候補
スコアがベストスコアの値よりも大きい場合には、ステ
ップ750および755がベストスコアおよびベストブ
ランチを更新する。
数25で定義され、各テンプレートQに対して各画像位
置に位置合わせされたL(Z|Q)を計算する。実現方
法は直截なものである。
60からスケジュール555を生成する。このスケジュ
ールは、ノードスコア/バックポインタ配列570の項
目が計算される順序を指定し、数35に含まれるデータ
依存性が確実に守られなければならない。このようなス
ケジューリングの問題を解決する通常の手法および理論
はVLSI分野では公知である。添付書類Dは、この理
論に基づきデコーダスケジュールを生成するための特定
のアルゴリズムを開示する。
号列590をノードスコア/バックポインタ配列570
から、図34で示される例のようなアルゴリズムを用い
て計算する。バックトレースプロセッサは、書記ノード
nIが達成されるまでバックポインタ配列で識別された
枝に連続的に続くことにより画像位置(W,H)で最終
ノードnFから後ろにトレースする。このバックトレー
スで出会う枝の文字ラベルが鎖状につながれることによ
り出力記号列590を形成する。
y)を(W,H)に初期設定し、現在のノードnを最終
ノードnFに初期設定し、さらに出力記号列mをゼロ記
号列に初期設定する。ステップ820はtを、ノードス
コア/バックポインタプロセッサ550により事前に計
算された枝B(n,x,y)へ設定する。枝tに対する
文字ラベル「c」がステップ830で検索されるととも
に、ステップ840では記号列mの最初へ前進する。ス
テップ850はnを枝tが由来するものからノードへ更
新し、ステップ860は枝tに対する変位(dx,d
y)を検索する。ステップ870は、変位(dx,d
y)を引くことにより現在の画像位置(x,y)を更新
する。ステップ850で確立されたノードnの新しい値
が、ステップ880でnI、すなわち画像ネットワーク
の始動ノードと比較される。nIが到達されると、バッ
クトレースはステップ890で終了し、記号列mを返
す。到達されていなければ、ステップ820から過程が
繰り返される。
ために利用可能なアルゴリズムの例を示すものであっ
て、これに限定されるものではない。
β、^μはそれぞれ外2、外3、外4、外5、外6、外
7、外8を表す。 添付書類A 古典的な通信理論に基づくドキュメント認識問題の公式
化を示す。確率メッセージソース10が事前確率分布P
r(M)にしたがって候補記号列の集合から有限記号列
Mを選択する。メッセージは生テキスト記号列でも、レ
イアウトや論理構造タグ(例、LATEX[L.ランポ
ート著「LATEX/ドキュメント製版システム」リー
ディング社(アジソン−ウエスレー)、1986年刊]
またはSGML)が埋め込まれたテキスト、または分離
記号の線形数列内への情報のその他の符号化でもよい。
図2乃至4はメッセージ断片のこれらの例を示し、図2
は生テキストを、図3はLATEXコマンドの埋め込ま
れたテキストを、図4はプリント楽譜のテキスト標記を
それぞれ示す。
によって索引づけされる2値画像の母集団から引き出さ
れる理想的な2値画像Q={qi|i∈Ω}へ変換す
る。画像は矩形であると仮定し、したがって、
ある。ここではxが右方向へ増加し、yが下向きに増加
し、さらに上方左コーナがx=y=0である画像座標系
を利用する。通常、各メッセージMに関連する一意画像
QMが存在するよう画像は決定論的であると仮定する
が、さらに画像は座標量子化等の効果をモデル化する確
率的要素を有してもよいものとする。
音等の印字や走査による歪みを導入することにより理想
的な画像を観測された画像Z={zi|i∈Ω}内へマ
ップする。デコーダは画像Zを受け取り、原メッセージ
の推定Mを生成する。デコーダは、帰納的最大(MA
P)判定法にしたがってMを選ぶ場合、エラーの確率を
最小とする。したがって、
すれば、
明にし、これによって、
の推定する問題として考えることができる。
独立であるため、Mの選択とは無関係であり省略でき
る。通常、MAP(帰納的最大)決定法則は数5の右辺
のいずれかの単調関数をを最大にすることで実現しても
よい。特に、決定関数を
{Z|Q0}は、Qが全白色背景画像Q0である場合にZ
を観測する確率である。最後に、
システムの設計において解決すべき3つの主要問題があ
る。まず、対数Pr{QM}を計算するためには画像ソー
スのモデルを発展させる必要がある。第二に、L(Z|
QM)を計算するためにはチャネルの文字を理解する必
要がある。最後に、計算上効率のよい方法で数9を最大
化するためには探査アルゴリズムが必要となる。 添付書類B イメージングシステムに対する実際の欠陥モデルは極め
て複雑であるので、図9に示すような非常に単純な非対
称ビットフリップ雑音モデルに着目した。このモデルは
理想的な画像Qの各画素が独立的に摂動されるものと仮
定する。理想的な画素Qにおける1(黒)画素が観測さ
れた画像Zにおいて1として残る確率はπ1である。同
様に、0が0として観測される確率はπ0である。雑音
パラメータは全画像において一定であるものとする。
プチャネルに対して、
ンド重みである。BQはZとは独立な級従属の偏った項
である。数25の右辺側の第二項は、画像ZとQとの論
理積(AND)におけるゼロでないビットをカウントす
ることにより計算できる。
ルコフソースによる経路πに関連する複合画像であれ
ば、
フリップチャネルに対するL(Z|Q)の式を得ること
である。導出の初期ステップはより一般的な画像生成モ
デルに基づく。i∈Ωのとき、
のi番目の画素がオンである確率であるとする。この場
合、チャネル入力Qが与えられると、Cは観測可能な画
像Zの集合である。
対する条件づけは明らかにする必要がある場合にのみ明
確に示される。
率は、
義すると、数54は、
ートとして見てもよい。数59よりQは最も確率の高い
Cの項であるものとする。非対称ビットフリップモデル
に戻って、π0>0.5かつπ1>0.5であれば、Q=
〜Qであり、区別する必要はない。この場合、
から独立である。「i∈Q」は「i∈支持[Q]」と読
めるものとする。ここで、
ンドの重みであると定義すれば、
は独立で、実際には対数Pr{Z|Q0}である。ただ
し、Q0は全白色バックグラウンド画像である。したが
って、数25および数26は非対称ビットフリップ雑音
チャネルに従う。
有する。テンプレートQがサブテンプレートQ1...
QPの直和として表現されると、i≠jのとき、
で、QiおよびQjのバウンディングボックスではない。
したがって、構成するテンプレートのバウンディングボ
ックスが重複しても構成する支持が素である限り、数7
1は複合テンプレートに対する対数標準価格率数25を
計算するために利用できる。
る事前条件が、数21を介してマルコフソースにより生
成される画像に対して満足され、数29が続く。 添付書類D ここでは、各ループπに対してΔyπ≧0であるという
特性を有するあらゆる計算可能な画像デコーダに対して
数41および数42の強制的な行優先スケジュールを求
めることができるということを示す。この手法は構造的
であり、正規反復アルゴリズムの理論に基づく。S.ラ
オ著「プロセッサ配列における正規反復アルゴリズムお
よびその実現方法」(博士論文、スタンフォード大学、
1985年10月刊)を参照されたい。説明を簡単にす
るため、上述の4レベル反復アルゴリズムによって構成
を説明する。数41および数42の関係は明らかであ
る。
グラフ(RDG)(S.ラオ著「プロセッサ配列におけ
る正規反復アルゴリズムおよびその実現方法」博士論
文、スタンフォード大学、1985年10月刊、参照)
は、図11に示すような各遷移を一対の辺で置換すると
ともに新しいノードを導入することによりデコーダグラ
フから引き出される。通常、RDGのノードは各→x∈
Ωで計算されるべき値の変数を表す。→x−→Δの値が
→xでn2を計算するために必要とされる場合、ノード
n1からノードn2までの辺が変位ラベル→Δで存在す
る。次に来る枝をもたないノードは入力ノードと呼ばれ
る。入力ノードからの枝は入力枝と呼ばれることもあ
る。デコーダRDGの入力ノードはL(Z|Qt[→
x])の値を表す。スケジューリングのために、入力値
は残りのグラフにより表される制約を満足するのに必要
ないかなる順序であっても生成可能であるものと仮定す
る。出て行く枝を持たないノードは出力ノードと呼ばれ
ることがある。デコーダRDGは通常、単一出力ノード
である最終ノードnFを有する。図11が示すように、
デコーダグラフをRDGへ変形させる主要な効果はL
(Rt;→x)のL(Lt;→x−→Δt)に対する従属
が、L(Rt;→x)のL(Z|Qt[→x−→Δt])
に対する従属とは別個に表されるということである。こ
れによって、後述するようにRtへの二つの枝の変位を
別個に修正するグラフ変形を適用することができる。
でも利用可能であるものとする。すなわち、将来アクセ
スするための値を保有するためスケジュールによって必
要とされる全体的な記憶に関しては制約はないものとす
る。Gは、各ループπに対して、Δyπ≧0であるよう
なデコーダRDGであるとする。これより、このような
グラフを、負のy変位を有する枝のみが入力枝または出
力枝であるというより強制的な条件を満たす同等のRD
Gへ変換できることを示す。さらに、入力変数および出
力変数の定義において適当な遅延を導入することによっ
て、入力枝および出力枝から負の変位までも削除するこ
とができる。これらの結果を予想して、Gのすべての枝
が負ではないy変位を有すると仮定する。明らかに、強
制的な行優先スケジュールを構成するためには、すべて
の事前に計算された値は利用可能であると仮定している
ためΔyt>0のあらゆる枝tはまったく制約を与えな
い。GからΔyt>0であるすべての枝tを除くことで
形成され、すべてのノードに入ってくる枝も出て行く枝
も残っていないグラフG'を考えてみる。N+は除かれた
ノードの集合を示すものとする。Δyπ=0であるよう
なすべてのループπが完全にG'内に位置しなければな
らないことは明らかである。Gに対する強制的な行優先
スケジュールは、n∈N+であるL(n;→x)をG'ス
ケジュールのいずれかのパスの間に計算することによ
り、またはN+に対する新しいパスを定義することによ
りG'に対するスケジュールから構成することができ
る。したがって、G'に対するスケジュールの構成に注
意を向けることとする。
点排反サブグラフとして定義されるその密結合成分(T
CC:S.ラオ著「プロセッサ配列における正規反復ア
ルゴリズムおよびその実現方法」(博士論文、スタンフ
ォード大学、1985年10月刊))へ分解する。条件
とはすなわち、 ・同一成分内でノードから他のノード
へ有向経路が存在する ・成分が単一ノードを有する場合、そのノードが自身に
関連する自己ループを有する ・ある成分のノードから異なる成分のノードへの有向経
路が存在する場合、復帰経路は存在しないことである。
(A.V.エイホ、J.E.ホップクロフト、J.D.
ウルマン共著「コンピュータアルゴリズムの設計および
解析」リーディング社/アジソン−ウエスレー、197
4年刊)を求めるなんらかのアルゴリズムの出力をわず
かにフィルタリングすることにより求めることができ
る。Δyπ=0であるGにおけるあらゆるループπは
G'のTCC(密結合成分)のひとつの内に完全に位置
していなければならない。G'の密結合成分がG''
1、...G''Nで示されるとし、N0は密結合成分に属
すG'のノードを示すものとする。図12はGの分解を
要約し、G、N+、G'、N0、G''1...G''Nの中の
関係を図示する。
り方で構成される。〜G'を、各密結合成分G''iのノー
ドを単一「スーパー」G'から引き出されたグラフとす
る。すなわち、〜G'のノードは、
G'の枝である。つまり、〜G'は、1)ことなる密結合
成分を結合するか、2)密結合成分をN0の要素へ結合
するか、3)N0の2個の要素を結合するG'のこれらの
枝を有する。〜G'は非循環であるため、n1からn2ま
での枝が存在する場合、n1がn2へ進むようにそのノー
ドを分類するのが直接的である。〜G'の各ノードは、
この分類にしたがって配置されたG'に対するスケジュ
ールにおける1個のパスに対応する。N0の項である〜
G'のノードは、L(n;→x)が単一ノードnに対し
て計算されるパスを定義する。密結合成分G''iに対応
する〜G'のノードは、G''iのノードに対してL(n;
→x)が計算されるパスを定義する。これより、各密結
合成分G''iに対するパスを別個に予定する方法につい
て示す。
だし、G''iへ入る(から出て行く)〜G'の枝はG''i
の入力(出力)枝であるものとする。Gは計算可能であ
り、G''iの各枝のy変位はゼロであるので、G''iがΔ
xπ=0のループπを含まないことは明らかである。さ
らに強制的に、G'iは、その中の各ループπに対するΔ
xπが同一記号を有するという特性を持つ。これを示す
ため、逆にG''iがループπ1およびπ2を有すると仮定
する。ただし、Δπ1>0かつΔxπ2<0である。
るとする。密結合成分の定義により、n1、n2を含む
G''iにループπ3が存在する。Δxπ3>0と仮定する
(Δxπ3<0に対する論法は同様である)。π3はπ1
とπ2の双方と交差するため、各πj(j=1、2、3;
指定されたいかなる回数でもkj≧1)を横切るG''iに
ループπ0を構成することができる。π0の全x変位は、
め、Gが計算可能であるという過程に反するが、Δxπ
0=0となるようにkjを調節することができる。したが
って、G''i内の各ループは同一の記号x変位を有す
る。
と仮定する。直ちに後述するように、G''iは、すべて
の負の枝変位を入力枝および出力枝へ「プッシュ」する
ことによって、各内部の枝が負でないx変位を有する等
価グラフへ変形することができる。変形されたG''iの
ノードは標準音声隠れマルコフモデルスケジューリング
技術を用いて分類することができる。ループx変位が負
の成分G''iは同様に取り扱われるが、L(n;→x)
が減少xの順序(右から左)で計算される点が別であ
る。これでGに対する強制的な行優先スケジュールの構
成が完了した。
たはy)変位を有するRDGである場合、^Gのすべて
の内部枝のx(またはy)変位が負でない同等のRDG
^Gが存在することを示す。スカラー変位のRDGに対
してこれを証明すれば十分であることは明らかである。
したがって、Gの各ループの変位が負でないように、G
をスカラー枝変位を有するRDGとする。n∈Nを入力
ノードでも出力ノードでもないGのノードであるとし、
さらに、
に、ξを整数の定数とする。^GをGに等しいRDGと
定義するが、枝変位〜Δtは、
横切る大量の変位ξを「プッシュ」することにより得ら
れるRDGである。この変形によってGの入力−出力の
ふるまいを修正しないということを示すのが直接的であ
る。各→xおよび出力ノードnFに対して、
々は数76で定義されるが、集合的に各内部枝に対する
変位は負でない。入力ノードまたは出力ノードで変形数
76が適用される場合(ただし、InまたはOnが空であ
る)、その効果は全体の空間的オフセットを対応する入
力または出力変数の定義へ導入できることである。この
ようなオフセットのトラックを確保することが直接的で
あるため、この変形をあらゆるノードに対して適用可能
とすることで説明を簡単にする。その場合、すべての枝
変位が負でないということを示すことができる。数76
の型の変形集合は、Gのノードを横切ってプッシュされ
た変位集合Ξ={ξn|n∈N}により特徴づけされ
る。Ξに対応する変形を適用した後、各枝tに関する最
終変位は、
きる。すなわち、
ベクトルであり、Ξはノード変形変位のベクトルであ
り、CはグラフGの結合行列である。Cは、
図である。
ドベアリングモデルを単純化したものを示す。
ト列文法の例を示す。
示する。
る。
れぞれ示す。
て得られた復号メッセージを示す。
をそれぞれ示す。
ッセージを示す。
画像の復号されたバージョンを示す。
それぞれ示す。
たがって利用される文法を示す。
たがって利用される文法を示す。
す。
図である。
遷移網のサンプルを示す。
クの動作を図示する。
マップのステップバイステップ構成を示す。
列を再構成するため画像ビットマップを複合する本発明
による画像認識装置の一形態のブロック図である。
ア/バックポインタプロセッサが利用できるアルゴリズ
ムの一形態の一例のフローチャートである。
れる計算を図示するフローチャートである。
ースプロセッサが利用可能なアルゴリズムの一形態のフ
ローチャートである。
Claims (1)
- 【請求項1】 画像認識システムにおいて用いられ、有
限状態ネットワークおよびイメージされるべき対象を入
力する手段とから構成されるイメージングモデルに基づ
く画像生成器であって、 有限状態ネットワークにより確定された経路に基づきテ
ンプレートのライブラリから選択された記号テンプレー
トを組み合わせることにより対象のビットマップ画像を
構成する手段から構成される画像生成器。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/805,700 US5321773A (en) | 1991-12-10 | 1991-12-10 | Image recognition method using finite state networks |
US805700 | 1991-12-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH05303618A true JPH05303618A (ja) | 1993-11-16 |
JP3447762B2 JP3447762B2 (ja) | 2003-09-16 |
Family
ID=25192281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP35037192A Expired - Lifetime JP3447762B2 (ja) | 1991-12-10 | 1992-12-03 | 画像生成器及び画像認識システム |
Country Status (4)
Country | Link |
---|---|
US (1) | US5321773A (ja) |
EP (1) | EP0546843B1 (ja) |
JP (1) | JP3447762B2 (ja) |
DE (1) | DE69226338T2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002007965A (ja) * | 2000-05-12 | 2002-01-11 | Xerox Corp | テキスト行イメージデコーディングのためのスキップモードによるダイナミックプログラミングオペレーション |
JP2002007966A (ja) * | 2000-05-12 | 2002-01-11 | Xerox Corp | 文書画像復号方法 |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5526444A (en) * | 1991-12-10 | 1996-06-11 | Xerox Corporation | Document image decoding using modified branch-and-bound methods |
CA2108536C (en) * | 1992-11-24 | 2000-04-04 | Oscar Ernesto Agazzi | Text recognition using two-dimensional stochastic models |
JP3572632B2 (ja) * | 1993-06-29 | 2004-10-06 | ソニー株式会社 | 異常検出装置 |
JP2673871B2 (ja) * | 1993-08-26 | 1997-11-05 | 日本アイ・ビー・エム株式会社 | ニューラル・ネットワークによるパターン認識方法及び装置 |
US5748763A (en) | 1993-11-18 | 1998-05-05 | Digimarc Corporation | Image steganography system featuring perceptually adaptive and globally scalable signal embedding |
US5768426A (en) | 1993-11-18 | 1998-06-16 | Digimarc Corporation | Graphics processing system employing embedded code signals |
US6345104B1 (en) | 1994-03-17 | 2002-02-05 | Digimarc Corporation | Digital watermarks and methods for security documents |
US6449377B1 (en) | 1995-05-08 | 2002-09-10 | Digimarc Corporation | Methods and systems for watermark processing of line art images |
US6064819A (en) * | 1993-12-08 | 2000-05-16 | Imec | Control flow and memory management optimization |
JPH07168913A (ja) * | 1993-12-14 | 1995-07-04 | Chugoku Nippon Denki Software Kk | 文字認識システム |
EP0694862A3 (en) * | 1994-07-22 | 1996-07-24 | At & T Corp | Detection of degraded, grayscale documents using two-dimensional hidden pseudo-Markov models and N-best hypotheses |
WO1996017310A1 (en) * | 1994-11-29 | 1996-06-06 | Avalanche Development Company | System and process for creating structured documents |
DE69600461T2 (de) | 1995-01-17 | 1999-03-11 | Eastman Kodak Co | System und Verfahren zur Bewertung der Abbildung eines Formulars |
US5982926A (en) * | 1995-01-17 | 1999-11-09 | At & T Ipm Corp. | Real-time image enhancement techniques |
DE69629071T2 (de) * | 1995-03-29 | 2004-04-22 | Eastman Kodak Co. | Vorrichtung zum Drucken, Speichern und Wiederauffinden eines aufgezeichneten Bildes |
US5956419A (en) * | 1995-04-28 | 1999-09-21 | Xerox Corporation | Unsupervised training of character templates using unsegmented samples |
US5689620A (en) * | 1995-04-28 | 1997-11-18 | Xerox Corporation | Automatic training of character templates using a transcription and a two-dimensional image source model |
US5706364A (en) * | 1995-04-28 | 1998-01-06 | Xerox Corporation | Method of producing character templates using unsegmented samples |
US5594809A (en) * | 1995-04-28 | 1997-01-14 | Xerox Corporation | Automatic training of character templates using a text line image, a text line transcription and a line image source model |
US5883986A (en) * | 1995-06-02 | 1999-03-16 | Xerox Corporation | Method and system for automatic transcription correction |
US5748860A (en) * | 1995-06-06 | 1998-05-05 | R.R. Donnelley & Sons Company | Image processing during page description language interpretation |
US6571013B1 (en) * | 1996-06-11 | 2003-05-27 | Lockhead Martin Mission Systems | Automatic method for developing custom ICR engines |
JP3895431B2 (ja) * | 1996-07-08 | 2007-03-22 | 株式会社ハイニックスセミコンダクター | 物体境界ブロック合併/分割を利用した映像情報符号化方法 |
US6003002A (en) * | 1997-01-02 | 1999-12-14 | Texas Instruments Incorporated | Method and system of adapting speech recognition models to speaker environment |
JP3069058B2 (ja) * | 1997-04-07 | 2000-07-24 | 株式会社エイ・ティ・アール人間情報通信研究所 | ニューロセルラオートマトンおよび最適化装置 |
US6111985A (en) | 1997-06-06 | 2000-08-29 | Microsoft Corporation | Method and mechanism for providing partial results in full context handwriting recognition |
US6687404B1 (en) | 1997-06-20 | 2004-02-03 | Xerox Corporation | Automatic training of layout parameters in a 2D image model |
US6741743B2 (en) * | 1998-07-31 | 2004-05-25 | Prc. Inc. | Imaged document optical correlation and conversion system |
JP3695217B2 (ja) * | 1999-04-30 | 2005-09-14 | オムロン株式会社 | 画像処理装置及び画像入力装置 |
US6738526B1 (en) * | 1999-07-30 | 2004-05-18 | Microsoft Corporation | Method and apparatus for filtering and caching data representing images |
JP2001291060A (ja) * | 2000-04-04 | 2001-10-19 | Toshiba Corp | 単語列照合装置および単語列照合方法 |
US6678415B1 (en) | 2000-05-12 | 2004-01-13 | Xerox Corporation | Document image decoding using an integrated stochastic language model |
US6628837B1 (en) | 2000-05-19 | 2003-09-30 | Xerox Corporation | Assist channel coding with convolution coding |
US7110621B1 (en) | 2000-05-19 | 2006-09-19 | Xerox Corporation | Assist channel coding using a rewrite model |
US6862113B1 (en) | 2000-05-19 | 2005-03-01 | Xerox Corporation | Assist channel coding with character classifications |
US6768560B1 (en) | 2000-05-19 | 2004-07-27 | Xerox Corporation | Assist channel coding with vertical block error correction |
US7046848B1 (en) | 2001-08-22 | 2006-05-16 | Olcott Peter L | Method and system for recognizing machine generated character glyphs and icons in graphic images |
US7065740B2 (en) * | 2001-08-24 | 2006-06-20 | Microsoft Corporation | System and method to automate the management of computer services and programmable devices |
US7689037B2 (en) * | 2004-10-22 | 2010-03-30 | Xerox Corporation | System and method for identifying and labeling fields of text associated with scanned business documents |
US7492366B2 (en) * | 2005-05-13 | 2009-02-17 | Microsoft Corporation | Method and system of character placement in opentype fonts |
DE602005002835T2 (de) * | 2005-06-09 | 2008-02-07 | Pdflib Gmbh | Verfahren zur Identifizierung von redundantem Text in elektronischen Dokumenten |
US8020091B2 (en) * | 2005-07-15 | 2011-09-13 | Microsoft Corporation | Alignment and breaking of mathematical expressions in documents |
US7454063B1 (en) * | 2005-09-22 | 2008-11-18 | The United States Of America As Represented By The Director National Security Agency | Method of optical character recognition using feature recognition and baseline estimation |
US7945101B2 (en) * | 2007-07-26 | 2011-05-17 | Palo Alto Research Center Incorporated | Innovative OCR systems and methods that combine a template based generative model with a discriminative model |
JP5557419B2 (ja) * | 2007-10-17 | 2014-07-23 | スパンション エルエルシー | 半導体装置 |
US7991153B1 (en) | 2008-08-26 | 2011-08-02 | Nanoglyph, LLC | Glyph encryption system and related methods |
CN102402693B (zh) * | 2010-09-09 | 2014-07-30 | 富士通株式会社 | 处理包含字符的图像的方法和设备 |
US9684842B2 (en) | 2015-10-29 | 2017-06-20 | The Nielsen Company (Us), Llc | Methods and apparatus to extract text from imaged documents |
CN111783533B (zh) * | 2020-05-28 | 2023-10-24 | 宁波大学 | 一种基于粒子群算法的离子淌度重叠信号峰分离方法 |
CN116452696B (zh) * | 2023-06-16 | 2023-08-29 | 山东省计算中心(国家超级计算济南中心) | 一种基于双域特征采样的图像压缩感知重构方法及系统 |
CN116503880B (zh) * | 2023-06-29 | 2023-10-31 | 武汉纺织大学 | 一种倾斜字体的英文字符识别方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5020112A (en) * | 1989-10-31 | 1991-05-28 | At&T Bell Laboratories | Image recognition method using two-dimensional stochastic grammars |
-
1991
- 1991-12-10 US US07/805,700 patent/US5321773A/en not_active Expired - Lifetime
-
1992
- 1992-12-03 JP JP35037192A patent/JP3447762B2/ja not_active Expired - Lifetime
- 1992-12-10 DE DE69226338T patent/DE69226338T2/de not_active Expired - Lifetime
- 1992-12-10 EP EP92311321A patent/EP0546843B1/en not_active Expired - Lifetime
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002007965A (ja) * | 2000-05-12 | 2002-01-11 | Xerox Corp | テキスト行イメージデコーディングのためのスキップモードによるダイナミックプログラミングオペレーション |
JP2002007966A (ja) * | 2000-05-12 | 2002-01-11 | Xerox Corp | 文書画像復号方法 |
JP4624592B2 (ja) * | 2000-05-12 | 2011-02-02 | ゼロックス コーポレイション | テキスト行イメージデコーディングのためのスキップモードによるダイナミックプログラミングオペレーション |
Also Published As
Publication number | Publication date |
---|---|
EP0546843A2 (en) | 1993-06-16 |
US5321773A (en) | 1994-06-14 |
EP0546843B1 (en) | 1998-07-22 |
EP0546843A3 (ja) | 1994-04-20 |
DE69226338T2 (de) | 1999-01-28 |
DE69226338D1 (de) | 1998-08-27 |
JP3447762B2 (ja) | 2003-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3447762B2 (ja) | 画像生成器及び画像認識システム | |
JP3585523B2 (ja) | テキスト状画像認識方法 | |
Deng et al. | Image-to-markup generation with coarse-to-fine attention | |
US6687404B1 (en) | Automatic training of layout parameters in a 2D image model | |
EP0740263B1 (en) | Method of training character templates for use in a recognition system | |
Nagy | Twenty years of document image analysis in PAMI | |
Rocha et al. | A shape analysis model with applications to a character recognition system | |
US5956419A (en) | Unsupervised training of character templates using unsegmented samples | |
Wang et al. | Document zone content classification and its performance evaluation | |
CN112232149A (zh) | 一种文档多模信息和关系提取方法及系统 | |
Paaß et al. | Machine learning for document structure recognition | |
Rabi et al. | Recognition of cursive Arabic handwritten text using embedded training based on hidden Markov models | |
Shilman et al. | Learning nongenerative grammatical models for document analysis | |
Den Hartog et al. | Knowledge-based interpretation of utility maps | |
Balashova et al. | Learning A Stroke‐Based Representation for Fonts | |
CN110851627B (zh) | 一种用于描述全日面图像中太阳黑子群的方法 | |
US20220327286A1 (en) | Iterative training for text-image-layout transformer | |
US8401298B2 (en) | Storage medium storing character recognition program, character recognition method, and character recognition apparatus | |
JP2015069256A (ja) | 文字識別システム | |
Elms | The representation and recognition of text using hidden Markov models | |
Kopec et al. | Supervised template estimation for document image decoding | |
Kopec et al. | Markov source model for printed music decoding | |
US20220058842A1 (en) | Generating handwriting via decoupled style descriptors | |
Assabie et al. | Hmm-based handwritten amharic word recognition with feature concatenation | |
Johnston et al. | Sketch recognition of digital logical circuits |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20030624 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070704 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080704 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080704 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090704 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090704 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100704 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110704 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110704 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120704 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130704 Year of fee payment: 10 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130704 Year of fee payment: 10 |