JPH05303618A - 画像生成器 - Google Patents

画像生成器

Info

Publication number
JPH05303618A
JPH05303618A JP4350371A JP35037192A JPH05303618A JP H05303618 A JPH05303618 A JP H05303618A JP 4350371 A JP4350371 A JP 4350371A JP 35037192 A JP35037192 A JP 35037192A JP H05303618 A JPH05303618 A JP H05303618A
Authority
JP
Japan
Prior art keywords
image
equation
character
node
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4350371A
Other languages
English (en)
Other versions
JP3447762B2 (ja
Inventor
Gary E Kopec
エドワード コペック ゲイリー
Philip A Chou
アンドリュー チョウ フィリップ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH05303618A publication Critical patent/JPH05303618A/ja
Application granted granted Critical
Publication of JP3447762B2 publication Critical patent/JP3447762B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19187Graphical models, e.g. Bayesian networks or Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

(57)【要約】 【目的】 複雑な画像を従来より短時間に処理可能な文
法型画像モデリングおよび認識システムを提供する。 【構成】 有限ネットワークにより確立された経路に基
づき、テンプレートのライブラリ130から選抜された
記号テンプレートを組み合わせることにより対象のビッ
トマップ画像140を構成するイメージ合成器110を
備える。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は画像生成および認識シス
テム、特に知的物体認識システムとして特徴づけられる
型のシステムに関する。
【0002】
【従来の技術】引用文献としては、米国特許第5,02
0,112号およびSPIE(写真−光学計測技術者協
会)の会員であるチョウによる関連文献が「画像通信お
よび画像処理IV」1199号(1989年刊)の85
2乃至863頁に掲載されており、引用したこれらの開
示内容はすべて、本明細書の一部として援用される。前
記米国特許公報はここでも同様に適用できる背景を開示
し、さらに画像の基底構造を区別する物体認識と区別し
ない物体認識との相違について説明する(画像の基底構
造を区別するものは「知的画像認識」とよばれる)。前
記米国特許公報および引用文献は、あらゆる商業的スキ
ャニング装置で生成されるビットマップにされた2値画
像ファイルの知的認識について開示し、前記米国特許の
アペンディックスではコードを含み、さらにこの2値画
像を処理し、2値画像ファイルが生成されるハードコピ
ーソースドキュメントを知的に再現する方法を開示す
る。
【0003】特に前記引用文献では、音声認識において
すでに評価されている確率型の文法を利用してこのよう
な2値画像を解読(デコ−ド)する方法について開示す
る。この中で筆者の達した結論は、この認識システムの
特定の応用例すなわち音声のかわりに画像を利用する場
合、文脈自由型の確率文法が最適であり、通常の確率文
法の方が本来は構文解析時間が短いにもかかわらず不適
当であるという点である。
【0004】あらゆるグラフィックス(図形)システム
はイメージング(画像形成)モデルに基づき、このイメ
−ジングモデル物体の基底構造の記述から前記物体の画
像を生成する方法を確定する規則の集合であるものと
し、さらに結果として得られる画素画像を構文解析する
ために利用される形式文法は同一イメージングモデルに
基づくものとする。
【0005】上述の米国特許公報および引用文献(トミ
タ著「構文解析技術に関するACM国際研究会」(19
89年刊)も参照)に開示されるように、2次元(2−
d)画像構造を記述する形式文法を利用しようとするこ
れまでの試みではすべて、1次元句(フレ−ズ)の概念
を2次元(2−d)矩形領域の概念と置換することで1
次元(1−d)形式主義を導き出す手法がとられてき
た。通常、結果として得られる文法規則は、ある句に対
応する領域が一対の縦または横に隣接する小区域を組み
合わせることにより形成されるその方法を記述する。矩
形小区域が重ならずまたそれらの寸法および相対的位置
が複合領域も矩形となるような寸法および位置であれ
ば、前記矩形小区域を組み合わせてもよい。
【0006】
【発明が解決しようとする課題】この手法の欠点の一つ
は、正規(有限状態)列文法に対する2次元対応物(カ
ウンターパート)は、画像モデリングにとってそれほど
有用ではなく、この結果、文脈自由2次元文法のみが研
究されてきたことである。引用文献に述べられているよ
うに、文脈自由文法を用いた計算結果によれば、通常、
構文解析時間は正規文法の場合、0(n)であるのに比
べて終端記号(例、画素)の数において0(n3)であ
る。この結果、画像画素へ直接文脈自由文法を適用して
も特に現実的なシステムは生成されない。
【0007】さらに、領域を重複させないという必要条
件に基づくイメージングモデルは、この手法をテキスト
や式の画像へ適用するさいに、文字(「j」等)が負の
サイドベアリングを有する場合があるためあまり問題と
ならないものの、楽譜のようなさらに複雑なグラフィッ
ク(図形)画像へこの手法を適用した場合には重大な障
害となる。上述の試みのさらに別の欠点は、認識文法は
通常、モデル化される画像の実例を認識するために利用
することにより実証されるという点である。認識時間が
長くなればこの方法は時間がかかると同時に不便であ
る。
【0008】
【課題を解決するための手段】本発明の目的は、2値画
像を処理または復号するのに時間がかからない、あるい
は認識文法を確認するのに時間がかからない文法型文法
(ベースの)画像モデリング(モデル化)および認識シ
ステムを提供することである。
【0009】本発明の他の目的は、楽譜のような複雑な
グラフィック画像を扱うことが可能な文法型画像モデリ
ングおよび認識システムを提供することである。
【0010】本発明は、有限状態オートマトンをテキス
ト、式、楽譜および印刷されたデジタルデータを含む広
範囲にわたる種類の画像に利用可能にするイメージング
モデルに基づく。
【0011】チョウの文献によって例示される先行技術
においては、再構成方法(プロセス)においてビットマ
ップ画像画素を文字や他の認識可能な形状に変換するコ
ンパイラで利用されるようなプロダクションの形式集合
あるいは生成規則を定義するために「文法」という用語
を使用する。プロダクションの集合として表される文法
は本発明で利用するためにはあまり適さない。「文法」
という用語を用いるかわりに、正規文法に対応する「有
限状態ネットワーク」という表現を用いて、ドキュメン
ト(文書)をビットマップへ変換するか、または前記ビ
ットマップからドキュメントを認識し再構成する装置ま
たは手段を表す。認識装置で使用される有限状態ネット
ワークが画像生成装置(イメージャー)で使用される有
限状態ネットワークと同一であればビットマップ画像を
作成する上で好ましく、この場合、計算時間が最小とな
るとともに精度が最大となる。しかしながら、本発明は
そのように限定されるものではない。本発明の認識装置
は他の方法で作成されたビットマップ画像であっても、
前記認識装置が前記画像に現れる文字の画像テンプレー
トの適当な集合へアクセスしたならば認識することがで
きる。たとえば、ビットマップ内の文字が12ポイント
クーリエであることを認識装置が知っているかまたは指
示された場合、認識装置は認識処理においてそのフォン
トの標準印刷画像テンプレートを利用できる。画像生成
装置が同一有限状態ネットワークを利用せず、さらに文
字や他の形状が標準印刷画像テンプレートと関連してい
ない場合であっても、文字や形状の各々のサンプル(対
であれば好ましい)が本発明の一態様に従ってフォント
距離を推定でき適当なテンプレートが作成されるものか
ら供給されるのであれば、ドキュメントを認識し再構成
することができる。テンプレートが作成される精度によ
って再構成の精度が決まり、この精度は供給されたサン
プルを利用して試験することができ、さらに必要であれ
ば所要のレベルの精度を達成するまで試行錯誤法でテン
プレートを調整することができる。したがって、上述よ
りさらに以下の点が明らかとなる。すなわち、同一有限
状態ネットワークが前記画像生成装置で使用されていた
かまたは標準画像テンプレートを利用するだけで十分な
場合、本発明の認識装置ではフォント距離推定手順が利
用できるものの必要ではない。
【0012】他の態様の画像合成方法は、イメージされ
るべき対象を画像生成器へ入力し、イメージされるべき
物体のクラスに対する有限状態ネットワークを入力し、
記号テンプレートのライブラリを提供し、有限状態ネッ
トワークにより確定された経路に基づきライブラリから
選択された記号テンプレートを組み合わせることにより
画像生成器に前記対象のビットマップ画像を構成させ
る。
【0013】他の態様のデコーダは、画像認識システム
に用いられ、ビットマップ画像を作成するために利用さ
れる対象を再構成するデコーダにおいて、対象に現れる
記号にほぼ対応する記号テンプレートのライブラリと、
有限状態ネットワークにより確定される経路に基づきテ
ンプレートのライブラリから選択された記号テンプレー
トを組み合わせることにより対象を再構成するためにビ
ットマップ画像を構文解析する有限状態ネットワークと
から構成される。
【0014】他の態様の画像認識方法は、デコーダへ再
構成すべきビットマップ画像を入力し、画像により表さ
れる対象のクラスに対する有限状態ネットワークを入力
し、画像の対象記号にほぼ対応する記号テンプレートの
ライブラリを提供し、有限状態ネットワークにより確定
された経路に基づきライブラリから選択された記号テン
プレートを組み合わせることによりデコーダに対象を再
構成させる。
【0015】さらに他の態様の画像認識方法は、複数の
文字から構成されるドキュメントからドキュメントが知
的に再構成できる2値画像を生成する画像生成の有限状
態モデルから構成される画像認識方法において、絵文字
のサイドベアリングモデル属性を確定することでビット
マップにおける絵文字位置決めを確定する第1ステップ
と、第1ステップで確定されたように位置決めされた各
絵文字を表す文字テンプレートを生成する第2ステップ
と、ドキュメントを再構成するため有限状態ネットワー
クの経路にしたがって第2ステップで生成されたテンプ
レートの選択を用いて2値画像を構文解析する第3ステ
ップとを有する。
【0016】さらに他の態様の画像認識方法は、複数の
文字から構成されるドキュメントからドキュメントが知
的に再構成できる2値画像を生成する画像生成の有限状
態モデルから構成される画像認識方法において、最小二
乗法手続きを用いて各文字のフォント距離を推定するこ
とによりドキュメントにおいて用いられる文字サンプル
から文字モデルを確立する第1ステップと、各ドキュメ
ント文字のテンプレートを生成し、画像を構成するため
テンプレートおよびマルコフソースを利用する第2ステ
ップとを有する。
【0017】
【作用】本発明には数多くの重要な特徴があるがこれら
を簡単に要約すると以下のようになる。
【0018】1.広範囲に分類される画像(テキスト、
音楽、式)の構造を画像認識に適した形態で記述する画
像生成の有限状態モデルが利用される。このモデルは手
続き上のもので、思想的にはポストスクリプト(Pos
tscript)を非常に単純化されたものに類似し、
特に、デジタル印刷で広く利用されている文字位置決め
のサイドベアリングモデルに基づく。
【0019】2.上述の型のモデルとして表される生成
プログラム(生成器)からあるクラスの画像のための画
像デコーダまたは画像認識装置を自動的に生成する方法
が提供される。生成プログラムからの認識装置の自動生
成には、再帰的定義済関数の集合を計算するスケジュー
ルの自動生成も含まれる。基本的な概念は、VSLI
(超大規模集積回路)分野の公知文献において展開され
開示されているような正規反復アルゴリズム用の線形ス
ケジューリング理論に基づく。
【0020】3.上述の引用文献で開示されたビットマ
ップ整合関数を修正したものを利用する。この手法によ
り画像構成要素の重複に関する条件集合が緩やかなもの
となる。画像の構成要素は、素なバウンディングボック
スではなく素な支持を有しなければならない。つまり、
2次元画像文法を構文解析する言語では、その黒い画素
が重複しない限りは重複した小区域あるいは重複した矩
形バウンディングボックスを組み合わせればよいという
ことである。本発明の手法ではバウンディングボックス
および矩形は特別な意味をもたない。画像整合採点法に
利用される尤度関数を単に正規化することで条件が緩和
される。これによって画像の副構成要素のための確率処
理で利用されるスコアを、単純な加算によって組合せ可
能とする。
【0021】4.ドキュメント認識に対する従来の手法
に比べ、本発明の方法は文字サイドベアリングや底線深
度等の印刷パラメータについてさらに詳細な情報を必要
とする。文字のサンプルを含む画像から上記画像生成プ
ログラムおよび認識装置が必要とするさらに詳細な文字
モデルを獲得する方法が利用される。この方法により、
最小二乗推定手順を用いて文字のサンプルを含む画像か
らサイドベアリングや底線深度パラメータ等のフォント
距離も推定される。
【0022】以下の説明において、「文字」という用語
が使用されることがある。文脈によって特に指示されな
い限り、用語「文字」は最も広義な解釈が与えられるも
のとし、通常の記号を含み、アルファベット記号のみな
らず「絵文字」、言葉によらずに情報を伝える記号、さ
らに連結された黒の画素領域である「小斑点」を含む。
これらは「文字」と交換可能に用いられることがある。
【0023】
【実施例】本発明を詳細に説明するには数学および数学
解析を多数用いる必要がある。この数学のあるものはす
でに公知である情報に基づき発明者が案出したものでは
なく、またあるものは新規である。このシステムの実現
は数学的展開を理解することで支援されるが、このため
読みにくく理解しにくいものとなっている。したがっ
て、数学的展開のあるものは数学的な興味のある読者の
ために一連の添付書類A乃至Dにまとめてある。数学的
展開のあるものは本発明のいくつかの態様を定義するの
に不可欠となっている。膨大な量の式を請求項に書き込
むのを避けるため、数学的展開のそれぞれの部分をラベ
ル付けし、このように定義されたラベルを請求項内で利
用している。したがって、ラベルが利用されている部分
では対応する数学的記述が本明細書の一部として援用さ
れるものとする。
【0024】本発明に関する上述の要約から明らかであ
るように、正規文法に対応する有限状態オートマトン
は、本技術分野ではすでに公知であるように、音声およ
び文字認識のための隠れマルコフモデルを用いた確率型
文法である。
【0025】たとえば、1988年7月にサン・ディエ
ゴで開催された「神経網に関するIEEE国際会議会
報」におけるブロンゾスおよびクンらによる論文、「音
響、音声および信号処理に関するIEEE国際会議会
報」(1989年5月23−26)で発表されたブロン
ゾスおよびクンらによる論文(1719乃至1722
頁)、特に、後者で引かれた音声および文字認識に対す
る隠れマルコフモデル手法の特徴および実現について詳
細に開示する文献を参照されたい。この構成要件に関し
ては新規性を請求しない。本発明は使用されるイメージ
ングモデル、解釈に有限状態オートマトンの公知の原理
を利用可能とする文字の解析方法に関する。したがっ
て、本明細書の大部分において公知の構成要件が添付書
類中に含まれるか、または本明細書の一部として援用さ
れる。この詳細な説明の本体では本発明のシステムの基
礎となるイメージングモデルおよび文字解析態様につい
て焦点をあてる。
【0026】古典的伝達理論に基づくドキュメント認識
問題の定式化は添付書類Aに詳細に開示され、解決策が
画像ソースの適当なモデルを開発することにあり、さら
にチャネル特性を理解し、計算上十分な探査アルゴリズ
ムを利用することにあるということが示される。
【0027】画像ソースモデルはメッセージソース10
と画像生成装置(イメージャー)11(図1)とを組み
合わせたものである。ソースモデリングに対して本発明
の手法では、文字形状記述および字間あけのサイドベア
リングモデル(R.ルーベンシュタイン著「デジタルテ
クノロジー」リーディング社/アジソン−ウエスレー、
1988年刊)を利用する。このモデルはデジタル印刷
では広く用いられており、PostScript(ポス
トスクリプト:アドビーシステム社、PostScri
pt言語レファレンスマニュアル、第二版、リーディン
グ社/アジソン−ウエスレー、1990年刊)等のペー
ジ記述言語で形式化されている。ここでは非常に簡単に
文字形状および字間あけについて述べ、さらに本発明の
画像ソースモデルを形式的に定義する。
【0028】図5は文字形状を記述し位置決めするため
のサイドベアリングモデルを簡略化したものを図示す
る。文字の形状は一列とされた局所座標系によって決ま
るため、十字(クロス)で示される文字の起点は(0,
0)である。文字の設定幅は、一語の連続した文字をイ
メージ(画像形成)する場合、文字起点から次の文字の
起点が通常配置される地点までのベクトル変位→Δ'=
[Δx,Δy]である。ベクトルは列ベクトルであ
り、'は移行を示す。ローマ字を含むほとんどのインド
ヨーロッパのアルファベットでは、Δx>0かつΔy=
0である。しかしながら、その他の筆記体系では、Δx
は負の場合があり(例、セム語)、またはΔyがゼロで
ない場合がある(例、東洋絵文字)。Δy=0の場合、
テキスト行における文字起点は同一直線上にあると同時
にテキストラインの底線を決める。文字のバウンディン
グボックス(境界付ボックス)は最小の長方形であり、
ちょうど文字を囲む文字座標軸で方向づけられる。文字
幅はバウンディングボックスの対応する寸法wである。
左サイドベアリングは文字の起点からバウンディングボ
ックスの左端部までの水平変位λである。サイドベアリ
ングがベクトル変位であると一般化することができる。
ベクトルサイドベアリングはPostScript等に
より支援されるが使用されることは希である。同様に、
右サイドベアリングはバウンディングボックスの右端部
から次の文字の起点までの水平変位ρである。底線より
下の深度は文字起点から文字バウンディングボックスの
底部までの垂直距離μである。同様に、底線より上の高
さは文字起点から文字バウンディングボックスの頂上ま
での垂直距離である。サイドベアリングモデル設定幅の
水平成分は次のような関係でサイドベアリングおよびバ
ウンディングボックス幅と関連づけられている。
【0029】
【数10】 同様に、サイドベアリングは次の関係により字間あけd
と関連づけられている。
【0030】
【数11】 ただし、下つき文字lおよびrはそれぞれ一対の左、右
の文字を示す。 バウンディングボックス サイドベアリングのひとつあるいは双方が負の場合があ
る。たとえば、図5の「j」の左サイドベアリングは負
であり、この結果、「b」および「j」のバウンディン
グボックスは重複する。しかしながら、図5に示される
ように、タイプフェイスは通常、隣接する文字バウンデ
ィングボックスが重複しても文字自身が重複することの
ないように設計されている。ここではこの観測を次のよ
うに形式化する。Q∈FをあるフォントFから引き出さ
れた文字テンプレートであるとする。Q[→x0]は、
その起点が→x0に配置されるよう移動されたQを示す
ものとする。次に示す、
【0031】
【数12】 がFの右グリーキングであると定義する。(ここでは、
2値画像と画像が非ゼロである場合[画像の支持]画素
の集合とを区別せず、両者を示すためにたとえばQを使
用する。その意味するところは文脈から明らかとなる。
さらに、ここでは集合演算の画像支持への適用に対応す
る明らかな2値画像演算を示すように集合演算子標記を
用いる。)GRは右に一直線となったフォント文字の重
複である。文字の非重複に関する観測は、Q∈Fである
各Qに対して次のような条件として形式化してもよい。
【0032】
【数13】 ただし、φは空集合を示す。これは図6に図示される。
「j」の起点は十字で示される。墨色(グレー)領域で
は、フォントからのすべての文字が重複している。ここ
で、各文字は起点で右にそろえられている。 マルコフ・ソース ソースモデリングに対する本発明の手法も、ネットワー
ク(マルコフ・ソース)として表現され、すでに公知の
確率的有限状態文法の利用に基づく。序論として、図7
はテキストの列に対する単純な文法の非公式な表現を示
し、状態遷移図の集合として表される(利用されている
標記は以下においてさらに完全に定義する)。各ネット
ワークの初期状態および最終状態はそれぞれnI、nFと
してラベル付けされる。テキスト列は縦に、テキストラ
インおよびv字空間領域の交替列から構成される。v字
空間はゼロまたは1以上のブランク画素行から成るホワ
イトスペースの可変長ブロックである。テキストライン
は交替するh字空間およびあるフォントから引き出され
た文字を水平に配置したもので、キャリッジ・リターン
で終わっている。さらに洗練された文法ならば、テキス
トライン中に可能な文字列を制限する言語モデルを実施
できる。たとえば、OCR精度を向上させるため単語辞
典を利用することはこの構想(フレームワーク)に容易
に取り入れることができる。
【0033】画像集合の構造は、図8に示されるような
マルコフ・ソースとしてのモデリング(モデル化)イメ
ージ生成によって形式的に捕らえられる。マルコフ・ソ
ースは状態(ノード、頂部)Nの有限集合および有向遷
移(枝、端部)Tから成る。各遷移tはそれぞれtの先
行状態及び後続状態とよばれる一対の状態LtおよびRt
を接続する。Nの区別された2つのメンバーは初期状態
nIと最終状態nFである。各ノードnに関連するのは負
でない初期確率p0nである。ただし、
【0034】
【数14】 通常、初期状態nIに対してp0n=1であり、他のすべ
てのノードに対してp0n=0である。 属 性各遷移tは4項組の属性(Qt,Mt,at,→Δ
t)に関連し、ただし、Qtはテンプレート、Mtはメッ
セージ列、atは推移確率、→Δtは(文字の設定幅と同
様に)tのベクトル変位である。対ごとに飾りひげをつ
ける等の文脈依存の字間あけ規則を適用するためもあ
り、変位はテンプレートよりも遷移と関連する。マルコ
フ・ソースの経路πは、i=1...P−1の場合、
【0035】
【数15】 に対して遷移t1...tPの列である。完全な経路はL
t1=n1かつRtP=nFである場合の経路である。周期ま
たはループは、Lt1=RtPの場合の経路t1...tPで
ある。
【0036】各経路πと関連するのは次の複合メッセー
ジであり、
【0037】
【数16】 これは経路の遷移のメッセージ列を連鎖させることで形
成される。画像ソースにより生成される可能性のあるメ
ッセージの集合は正規言語であり、ソースモデル自体は
その言語を受け入れる有限状態オートマトンである。マ
ルコフソースは次の式によって経路に関する確率分布を
決定し、
【0038】
【数17】 さらに次の式によってメッセージに関する確率分布を帰
納する。
【0039】
【数18】 ただし、Mπは経路πに関連するメッセージである。
【0040】また、各経路πに関連するのは、
【0041】
【数19】
【0042】
【数20】 によって帰納的に定義される一連の位置→x1...→
xP+1である。ただし、→xP+1は便宜的に導入されたも
ので、複合画像Qは、
【0043】
【数21】 によって定義される。
【0044】経路πに対して、ここでは
【0045】
【数22】 が経路の変位であるものと定義する。数13からの類推
により、ここでのソースは、各経路πに対してi≠jの
場合、
【0046】
【数23】 となるように設計されている必要がある。この必要条件
の重要性はまもなく明らかとなる。別々の経路と関連す
るメッセージおよび画像が別個であれば、マルコフソー
スは単線であるといわれる。その場合、
【0047】
【数24】 である。単線のソースは数5の向きでは1対1である。
説明を簡単にするため、ここでは画像ソースが単線に設
計されたものとする。 記号テンプレート 数21により定義されるイメージングモデルは解釈が単
純である。透明なプラスチックシートのコレクションが
あったとし、Qの起点をシートの中心としながらシート
の各々にあるテンプレートQのコピーが塗られていると
する。経路πの各遷移tiに対して、Qtiを有するシー
トはシートの中心を→xiに一直線としながら重ねた透
明シートの最上部に置かれる。透明シートが積み重ね終
わるとQπが定義される。塗られた個々のシートは極め
て重なりやすいものとする。バウンディングボックスは
このイメージングモデルでは特に役割がないので、重複
してもテンプレートバウンディングボックスにとっては
差し支えない。しかしながら、数23により、シート上
の塗られた領域は互いに素でなければならない。
【0048】画像ソースはメッセージ列と画像との関係
を基礎となる経路および数16および数21により定義
する。ここでの第一の関心事は観測された画像からのメ
ッセージを回復することであるが、ソースモデルを利用
して特定のメッセージの画像を生成してもよい。上述の
ように、画像モデルは前記モデルによって生成されたメ
ッセージの言語に対する有限状態アクセプタを定義す
る。したがって、メッセージ列をMとすると、Mπ=M
の場合、経路を一つ求めるための完全経路πが存在する
かどうかおよびこのような経路が存在するかどうかを確
定するためのすでに公知の手続きが存在する。数21に
より定義された画像QπはMの画像である。合成のため
に画像モデルを利用するのは、あるクラスの画像のソー
スモデルであって復号に利用されるソースモデルを設計
する上で効果的な手法である。 チャネルモデル チャネルモデリングの目的は、数9で利用するL(Z/
QM)に対する式を引き出すことである。これについて
は添付書類BおよびCで説明する。 デコーダ さて、画像ソースおよびある観測された画像Zが与えら
れたとする。数9へ導く添付書類Aの説明により、Zの
MAP復号はソースを介して完全経路πを求めることと
同等である。このソースは、制約→x'P+1=[W H]
を条件として、
【0049】
【数30】 を最大にする。仮にソースが数5を満足する単線マルコ
フソースであるとすれば、数17を利用し、
【0050】
【数31】
【0051】
【数32】
【0052】
【数33】 数33および数29を数30へ代入すれば、
【0053】
【数34】 が得られる。
【0054】数34の右辺を最大にする経路を求めるこ
の手法は、公知のヴィテルビ(Viterbi)アルゴ
リズムが隠れマルコフモデル(HMMs)を用いた音声
認識において利用されたのを真似たものである(X.フ
ァン、Y.アリキ、M.ジャック共著「音声認識用隠れ
マルコフモデル」エジンバラ大学出版、1990年
刊)。音声の場合に対する直接類推により、帰納的に定
義された関数を計算すればZは復号することができる。
この関数は、図10に図示されるように、各(n,→
x)∈N×Ωの場合、
【0055】
【数35】 である。前記帰納のあいだ、適宜、対応する最上の経路
が回復されるようにバックポインタが格納される。 デコーダスケジュール 数35の計算にはN×Ωの要素が現れる順序を特定する
必要がある。このような順序の特定は帰納スケジュール
と呼ばれる。有効スケジュールは、数35の右辺に現れ
る各L(Lt;→x−→Δt)の計算のあとでのみL
(n;→x)が計算できる場合があるという制約を満足
しなければならない。音声隠れマルコフモデルの場合、
インデックス集合Ωは1次元間隔[0,T]であり、→
Δt∈{0,1}は非負スカラである。ここで、→Δ=
0である遷移がゼロ(マル)遷移と呼ばれる。隠れマル
コフモデルがゼロ遷移の閉ループを含まない場合、その
ノードはΩの要素が0,1,...,Tの順序で現れる
時にスケジューリング条件が満足されるように順序づけ
してよい。さらに、ゼロ遷移の閉ループに対して隠れマ
ルコフモデルを試験し、ノードを分類するのは単純な手
続きである。Ωが多次元であるとともに→Δの成分が画
像ソースモデルの場合と同じく符号上制限されていない
場合、数35のスケジューリングは隠れマルコフモデル
のスケジューリングよりも極めて複雑なものとなる。こ
こでは正規反復アルゴリズムのための線形スケジュール
の公知である一般理論に基づきこの問題に対する手法を
展開させる(S.ラオによる博士論文「プロセッサ配列
に関する正規反復アルゴリズムおよびその実現」(スタ
ンフォード大学、1985年10月刊)、およびACM
会報第14号(1967年刊)の563乃至590頁に
掲載されたR.カープ、R.ミラー、S.ウィノグラッ
ド共著「一様漸化式の計算編成」を参照)。
【0056】復号スケジュールは非負であり、各ノード
n∈Nおよび画像地点→x∈Ωに対し数35を用いてL
(n;→x)が計算される「時間」を割り当てる整数値
の関数{Sn(→x)|n∈N}の集合である。数35
のデータ従属性と一致させるため、有効スケジュールは
各遷移t∈Tの場合、
【0057】
【数36】 という条件を満足しなければならない。ただし、各→x
∈Ωである。スケジューリング問題に利用可能な構造を
強制するため、通常、スケジューリング関数がアファイ
ン変換となるよう制約を与える。このため、
【0058】
【数37】 となり、ただし、
【0059】
【数38】 かつγn≧0である。Λnの成分は符号上制約されること
がない。数37のスケジュールは線形スケジュールと呼
ばれる。→Δπ=→0に対してループπが存在しない場
合、また存在しない場合にのみ数36を満足する線形ス
ケジュールを求めるのが可能であるということが、線形
スケジューリング理論の基本的な結果である。このた
め、全体変位がゼロ(ベクトル)であるループをもたな
いグラフが計算可能であるといわれる。頂部から底部ま
で行ごとに画像を復号するため動機づけされたスケジュ
ールの式に対してやや強めの制約を与える。行優先線形
スケジュールは、
【0060】
【数39】 における線形スケジュールである。ただし、λx≧0か
つλy>0かつ、
【0061】
【数40】 である。
【0062】数40の結果は、各ノードnに対して、行
i+1のあらゆる画素に対するL(n;→x)を計算す
る前に画像の行iの各画素に対するL(n;→x)を計
算することを要求する点である。しかしながら、n1お
よびn2が異なるノードであれば、行優先制約条件はL
(n1;→x)とL(n2;→x)の計算順序を強制する
ものではない。したがって、たとえば、行i+1に対す
るL(n2;→x)を計算した後に行iに対するL(n
1;→x)を計算する場合がある。
【0063】添付書類Dでは、Δyπ<0となるような
ループπが存在しなければ計算可能な画像デコーダに対
して行優先線形スケジュールが求められる場合があると
いうことを示す。これを示すため、行優先スケジュール
の特定形式に対する単純な制約条件を与える。強制的な
行優先スケジュールは、Sn(→x)≡Sn(x,y)が
nによって次の二つの式のいずれかを有する行優先スケ
ジュールである。すなわち、
【0064】
【数41】 または、
【0065】
【数42】 のいずれかである。ただし、MはNにおけるノード数で
あり、Kは正の定数であり、
【0066】
【数43】
【0067】
【数44】
【0068】
【数45】 であるが、ただし、Sn1(x,y)およびSn2(x,
y)が同一式である場合のみPn1=Pn2である。
【0069】数43乃至数45により、強制的な行優先
スケジュールはL(n;→x)の値を計算する4レベル
入れ子型反復として単純な解釈を有する。反復のレベル
はそれぞれ数41または数42の右辺の4項に対応す
る。
【0070】図32に示されるとともに以下でさらに詳
述されるように、最も外側のレベルはyを繰り返し、次
の行へ進む前に所与の行の各nおよび→xに対するL
(n;→x)を計算する。前記最も外側のレベルが行ご
とに進むのは、各n1、n2、x1、x2に対して、
【0071】
【数46】 であるという事実を反映している。第2レベル(yは固
定)はpnで索引付された一連のK「パス」を繰り返
す。パスはNのノードの部分集合に対応する。pn1<p
n2であれば、各x1、x2に対して
【0072】
【数47】 であるため、n2に対するパスよりも先にn1を有するパ
スが発生する。第3レベル(例、yおよびpnを固定)
はxを繰り返す。Sn(x,y)が数41となるような
パスにpnが対応する場合、この反復はxが増加する順
に進む(左から右へ)。一方、Sn(x,y)が数42
となる場合、反復は右から左へ進む。最後に、反復の最
も深いレベル(y、pnおよびxを固定)では、γnが増
加する順にパスのノードに対するL(n;→x)の数値
を求める。 フォント距離 マルコフソースの各遷移はテンプレートQおよび変位→
Δでラベルづけされる。さらに、復号およびイメージン
グのあいだに正確にテンプレートを一直線化(整合)す
るには文字サイドベアリングλおよびρ、文字底線μの
知識が必要となる。場合によっては、テンプレートおよ
び距離パラメータを公知のフォントテーブルから利用し
てもよい。しかしながら、フォント距離テーブルが利用
可能であっても、その値は不適当な場合があり、特に、
低解像度装置において小型サイズでイメージされたアウ
トラインフォントでは不適当である。アウトラインフォ
ント距離は通常、標準フォントサイズで与えられ、他の
サイズに対する値は拡大縮小によって得られたものであ
る。文字設定幅は通常、文字サイズに合わせて線的に拡
大縮小され、フォントテーブルから正確に予想できる場
合もある。しかしながら、フォントインタプリタが「ヒ
ント」を利用することによりステム幅等の絵文字の寸法
を調節するため、文字画像のサイドベアリングおよび底
線が、テーブルから推定された値よりずれることがあ
る。 これらの想定される問題を避けるため、図16に
示したような設計されたサンプルテキスト画像から文字
距離を推定する手続きを開発した。この手続では、ある
フォントで印字されたテキストおよびそのテキストの筆
写版が入力される。さらにこの手続きでは、ビットマッ
プテンプレートおよび各文字ごとにフォント距離値(サ
イドベアリング、底線深度および設定幅)が出力され
る。このフォント距離推定手続きにより、図5に定義さ
れるように一つのフォントの各文字ごとに左右のサイド
ベアリングλおよびρ、設定幅Δx、底線より下の深度
μが推定される。この手続きにはサンプルテキストを有
する画像、このテキストの筆写版が入力されるため、こ
の絵文字の恒等式がわかる。テキスト画像を解析するこ
とにより絵文字バウンディングボックスと字間あけdと
の座標を得られるものと仮定する。また、λ、ρ、Δ
x、μは、絵文字起点の位置に関する情報がなければ直
接計測することができないものとする。このような情報
が得られないことが、フォント距離推定問題の原因であ
る。サイドベアリングおよび底線パラメータを推定する
手続きについては別に後述する。
【0073】数11は、サンプル画像において隣接する
絵文字の対ごとの式から成る一組の一次方程式を解くこ
とによりサイドベアリングが確定できることを示す。こ
の問題点は、テキスト画像が所与の文字組のサンプルを
2個以上有する場合、サイドベアリング方程式が重複決
定される場合があるということである。印刷の歪みまた
は走査の歪みの結果として、所与の文字組に対する観測
された絵文字間あけが変動する場合がある。その結果、
同じ左右のサイドベアリング変数が、異なる値dととも
に2個以上の数11にあらわれる場合がある。この型の
重複決定された式を扱う標準的な手法は、最小二乗法パ
ラメータ最適化の一つとして推定問題を再度定式化する
ことである(W.H.プレス、B.P.フラナリ、S.
A.トイコルスキー、W.T.ベターリング共著「Cに
おける数的秘法」ケンブリッジ大学出版、1988年
刊)。これが本発明の推定手続きの基礎となっている。 最小二乗法推定手続き 左右のサイドベアリングがそれぞれλkおよびρkであっ
て、Ck(k=1...K)を文字の集合とする。さら
にPi(i=1...M)がテキストのサンプルが像に
おけるi番目の対の絵文字を示すものとする。ただし、
この対の左右の絵文字はそれぞれ文字CliおよびCriの
画像である。「文字」という用語は通常の意味で使われ
ているものの、絵文字に関連する文字ラベルはあらゆる
型のラベルであってよい。たとえば、画像の絵文字は、
形状の類似性またはその他の性質に基づいてそれぞれの
群に区分されてもよい。さらに、推定手続きにおける
「文字」ラベルと同様に使用されるように固有の識別子
が各群へ割り当てられる。各Piに対して、Criおよび
Cliの左右サイドベアリングは絵文字間あけdiへ関係
づけられる。すなわち、
【0074】
【数86】 ただし、εiは雑音および歪みの影響を引き起こす確率
変数である。全体二乗法サイドベアリング推定誤差は、
【0075】
【数87】 であり、ρkおよびλkの最小二乗法推定は^ρkおよび
^λkで示され、共同的にESを最小とする値である。サ
イドベアリング誤差は、
【0076】
【数88】 であり、かつ
【0077】
【数89】 の時に最小となる。
【0078】条件88は、
【0079】
【数90】 ということを暗示する。ただし、δi,jはクロネッカー
のデルタ関数である。数90の第一項は、
【0080】
【数91】 と書くこともできる。ただし、
【0081】
【数92】 は、その左項がCkの例である絵文字組の数である。同
様に、
【0082】
【数93】 である。ただし、
【0083】
【数94】 は、その左右の項がそれぞれCkおよびCjの例である絵
文字組の数である。最後に、
【0084】
【数95】 である。ただし、di(k,★)は、その左文字がCkである
i番目の対に対する絵文字間あけである。数91、数9
3、数95を数90へ代入し、Mk,★で除すと、k=
1...Kのとき、
【0085】
【数96】 となる。
【0086】数96の右辺は、左の絵文字の文字コード
に対して条件づけされた平均絵文字間スペースを推定す
るものとして解釈してもよい。このため、
【0087】
【数97】 である。ただし、Eは期待値演算子である。同様に、
【0088】
【数98】 であるため、数96は、k=1...Kのとき、
【0089】
【数99】 と書くことができる。数89からはじまる同様の導出に
よって、k=1...Kのとき、
【0090】
【数100】 で表される条件が導かれる。最小二乗法推定の通常の用
語法に一致させて、以下、数99および数100はサイ
ドベアリング標準方程式とよぶ。これらの式は行列形式
に置き換えることができる。すなわち、
【0091】
【数101】 となる。ただし、
【0092】
【数102】
【0093】
【数103】 であるとともに、IkはK×K恒等行列である。
【0094】サイドベアリング標準方程式は本質的に劣
決定されるため、ほとんど問題は生じない。直感的に
は、左右のサイドベアリングの対ごとの合計のみが数8
6により直接、観測可能であるため、観測された絵文字
間あけに影響を与えずに定数を各右サイドベアリングへ
加え、左サイドベアリングから引くことができる。この
曖昧さは、^ρiおよび^λiが数101を満足する場
合、i=1...Kのとき
【0095】
【数104】 であるため、あらゆるγに対して^ρi+γおよび^γi
−γを実施するものとすることによって形式的に論証さ
れる。曖昧さを解決する単純な方法は^ρ1=0を選択
することである。その場合、2K×2K係数行列の第一
行および第一列と、数101の2K×1列ベクトルの第
一行とを削除することで少なくなった一次方程式の集合
を解くことで残りの2K−1個のサイドベアリングが確
定できる場合がある。標準方程式を解いた後、何らかの
定数を加算および減じることにより推定されたサイドベ
アリングを調節することができる。たとえば、通常の印
刷経験を反映させて「O」の左右サイドベアリングを等
しくすることができる。
【0096】推定に利用されたテキストサンプルの統計
によって、サイドベアリング標準方程式の自由度が付加
される場合がある。対応する文字が画像中の絵文字組の
右(左)項として発生しなければ、明らかに、ある左
(右)サイドベアリングを推定することは不可能とな
る。テキスト画像が十分な数の個別の文字組のサンプル
を含まなかった場合、さらに微妙な形の不確定性が生じ
る。数86の等式はサイドベアリング変数ρliおよびλ
riとの間の二項関係を表すものとして見てもよい。この
関係の遷移的な閉包はすべての絵文字組のあいだで、サ
イドベアリングの集合を相互依存変数の同値類へ分割す
る。各同値類は、独立的に解くことが可能なサイドベア
リング方程式の完全集合の部分集合に対応する。各部分
集合は自由度が1であるため、各同値類におけるサイド
ベアリングは上述のように任意に設定できる。上述の観
測は、サイドベアリング変数が相互依存変数の独立した
群および各群のために解かれる標準方程式へ別個に分割
されるということを示す。ただし、分割されるのは文字
ではなくサイドベアリング変数であるものとする。した
がって、文字の左右のサイドベアリングが異なるサイド
ベアリング群に属することが可能となる。これはすなわ
ち、推定されたサイドベアリングを絵文字の位置決めに
利用する場合、何らかの警戒が必要だということであ
る。たとえば、文字の左右のサイドベアリングが同一サ
イドベアリング群に属さない限り、数10を用いて文字
の設定幅を推定するため前記サイドベアリングを加算し
てはならない。同様に、数11を用いて絵文字間あけを
計算するためには同一群からのサイドベアリングだけが
加算できる。図16のようなフォントサンプル画像は、
すべてのサイドベアリング変数を同一群に確実に属させ
ることでこの問題を避けるように設計しなければならな
い。
【0097】文字底線の深度推定は、図5の印刷モデル
に関する一般化である図15に図示される文字垂直位置
合わせのモデルに基づく。テキストのページはテキスト
の平行線の集合から成る。走査中に歪む可能性があるの
を考慮に入れるため、各テキスト行は水平線に対して未
知の角度θで方向づけられているものとする。ただし、
θは行と行のあいだで変動する。したがって、各テキス
ト行の底線は次の一次方程式で記述される。すなわち、
【0098】
【数105】 ただし、
【0099】
【数106】 である。
【0100】各行の絵文字は、文字座標系がθで回転さ
れた場合、図5に与えられたモデルに従って行に沿って
位置づけられる。絵文字バウンディングボックスは最小
の長方形であり、絵文字のみを囲んだ画像座標軸で方向
づけられている。画像がずれていれば、絵文字バウンデ
ィングボックスは図5で定義された文字バウンディング
ボックスと異なることになる。というのは、後者のバウ
ンディングボックスは(回転された)文字座標系で方向
づけられたものだからである。絵文字起点は絵文字バウ
ンディングボックスの下方の左コーナ隅であり、この絵
文字座標は絵文字起点のxy座標である。絵文字座標お
よび行底線は、
【0101】
【数107】 で関連づけられる。ただし、μは(回転された)文字の
底線より下の深度である。ただし、正のy方向が下降し
ている場合、底線より下に延びる文字に対してμ>0で
あるものとする。底線推定の目的は、絵文字座標の集合
が与えられた場合、各行に対してαおよびβを確定し、
サンプルテキスト画像の各文字に対してμを確定するこ
とである。
【0102】サンプル画像が絵文字Gi(i=1...
N)を有するとする。ただし、Giは文字Cciの例であ
る。前記絵文字はまとめられてテキストLi(i=
1...L)の行となる。ただし、Giは行Lliに属す
る。Giの計測可能座標は、
【0103】
【数108】 により、基礎となる文字および行パラメータに関連づけ
られている。ただし、εは雑音項である。全体二乗法底
線推定の誤差は、
【0104】
【数109】 であって、さらに最小二乗法推定^αk、^βkおよび^
μkは、
【0105】
【数110】
【0106】
【数111】 および、
【0107】
【数112】 を共同的に満足する数値である。
【0108】条件110は、
【0109】
【数113】 という関係を、数88から数99を得るために利用した
ものに類似した導出によって示す。同様に、数89から
数100を得るために利用したものに類似した導出を行
った後、数111によって、
【0110】
【数114】 が導かれる。最後に、数112は、
【0111】
【数115】 を示す。
【0112】集合的に底線標準方程式と名付けられた条
件数113、数114、数115は、次の行列式へ置き
換えることができる。すなわち、
【0113】
【数116】 ただし、
【0114】
【数117】
【0115】
【数118】
【0116】
【数119】
【0117】
【数120】
【0118】
【数121】 上述の導出によって各行の勾配を異なるよう設定でき
る。同様の等式によって行が群へ分割された場合、各群
の行は同一勾配を有し、異なる群は異なる勾配を有す
る。これが極端となった場合のサンプルは、所与のペー
ジのすべての行が大域的にずれた場合である。βおよび
μの合計のみが数108により観測可能であるため底線
標準方程式は本質的な特異点を有する。サイドベアリン
グに対してそうであったように、底線変数βiおよびμi
は同値類へ分割することができ、さらに各群の一変数は
任意に設定される。たとえば、考えられる選択として、
「M」の深度をゼロに固定することがある。 例示サンプル サンプルテキスト画像から文字距離を推定する新規な手
続きを含めて、上述のような画像ソースのモデルを利用
すれば、メッセージソースと画像変換器(画像生成器、
イメージャー)を組み合わせた複合マルコフソース(確
率有限状態オートマトン)の形態でドキュメント画像生
成器を直截な方法で作成することができる。メッセージ
ソースは、伝達する情報を含む記号またはテキストの列
を生成する。画像変換器は、メッセージを理想的なビッ
トマップに変換する有限状態変換器としてモデル化され
ている。デコーダは観測された画像が与えられると、ヴ
ィテルビ的な動的計画法アルゴリズムを利用して組合わ
されたソースおよびチャネルモデルによって事後に最も
確からしい経路を求めることによってメッセージを推定
する。デコーダで利用されるものだけでなく、画像変換
器で利用される有限状態ネットワークは、直截なネット
ワークであり、その構造は上述の説明から当業者であれ
ば明らかとなる。図7はそのような単純な有限状態ネッ
トワークの一例である。本発明によるシステムは上述の
ように構成され、4種類の画像についてソースモデルお
よび認識結果を示す。すなわち、1)単純なテキスト
列、2)一貫した手書き風フォントのテキスト、3)辞
書項目(各項目の論理的成分は確認済みである)、4)
高密度印刷デジタルデータ、である。特に断らない限
り、テキスト画像は既知のパラメータとともにビットフ
リップ雑音モデルを、PostScriptインタプリ
タを用いて300dpiの想定解像度で合成画像へ適用
することにより生成されたものである。フォント距離の
推定に用いられたフォントサンプル画像は同様に作成さ
れたもので、テストテキストの公知のフォントおよび文
字サイズを利用している。すべてのテキスト行の底線は
完全に水平であり、所与の文字のすべての例のビットマ
ップはクリーンな画像において同一である。 テキスト筆写 テキスト筆写は図2に図示された種類の単純なテキスト
列を抽出する復号画像に関する。図14(a)はアドー
ビタイムズローマン12ポイントのサンプルテキスト行
を示す。図14(b)の雑音画像は、原画像の黒の画素
10%と、白の画素49%とをランダムに反転させて形
成したものである(例、ビットフリップモデルにおいて
π0=0.51かつπ1=0.9)。図14(b)の雑音
画像は図7のテキスト列有限状態ネットワークを利用し
て復号したもので、フルタイムズローマンフォントの7
0文字部分集合は、アルファベットの大文字小文字、数
字、8個の句読点!;,.:?[]から成る。テキスト
行サブネットワークにおける各文字枝の推移確率は1/
70に設定された。復号されたメッセージが図17に示
される。文法が「−」を含んでいないためエンドユーザ
の「−」が失われているほかは筆写ではエラーがない。
【0119】図18及び19は、一単語における文字が
連結された手書き風フォントであるミストラルの場合の
上記サンプルを繰り返したものである。図18(a)は
12ポイントテキストの原画像であり、図18(b)は
その雑音チャネルをシミュレートする劣化された画像で
ある。図18の筆写には、「r」が「s」として誤って
認識された箇所がいくつかある(例、architecture
s)。クリーンなビットマップを検査すると、ミストラ
ルでは「r」と「s」とが酷似していることがわかる。
したがって、このエラーはさほど重大なものではない。
このようなエラーは図7に示された単純な設定よりさら
に制約の加えられた設定のネットワーク(例、語彙辞
典)を利用することで解消することができる。
【0120】図20は走査された画像を使用した2回の
予備実験の結果である。図14(a)の合成テキスト画
像および図17のタイムズローマンフォントサンプル画
像はプリントされ、300dpiで走査された。走査中
のずれを最小限にするようページは慎重に位置合わせさ
れた。走査画像は上述のような最小二乗法推定手続きを
用いて各テキスト行の底線を推定するとともに、水平な
底線に対して各文字を垂直にずらすことでずれ補正され
た。各文字の単一サンプルは、文字テンプレートとして
作用するようフォントサンプル画像から引き出された。
良好な復号精度が達成されるまでビットフリップ雑音モ
デルのパラメータは相互に調整された。図20に示され
る結果は白黒双方のフリップを10%にした場合であ
る。
【0121】図20(a)は走査されたフォントサンプ
ルを利用した走査画像を復号した結果を示す。「−」が
落ちた以外にはエラーは存在しなかった。図20(b)
は設定幅をテンプレートのバウンディングボックス幅に
等しくするとともに、すべてのサイドベアリングをゼロ
とすることで文字モデルを修正した結果を示す。「j」
が認識されない箇所がいくつか存在するが、これは距離
が修正されても「j」が先行する文字のバウンディング
ボックス内へ伸長することができないという事実を反映
したものである。「1」が「I」と誤認された箇所は予
想しないものである。走査された文字テンプレートを調
べると、「1」および「I」に対する抽出されたテンプ
レートが酷似していることが判明した。しかしながら、
推定された設定幅は著しく異なり、これが図20(a)
において正しい分類を可能とする字間あけの制約を加え
るものと思われる。 論理構造分析 論理構造分析は、図3で図示された種類のメッセージ列
を抽出するための画像の復号に関する。このようなメッ
セージには、ドキュメント構成要素の論理的機能を確認
するものの画像中に絵文字として直接的に示されること
のない注釈やタグがある。図21は、市販の科学技術用
語辞典(「科学技術用語辞典」第二版、マグローヒル
社)をもとに作った単純な辞書風のページのクリーンな
画像および雑音画像が示される。この辞書ページのため
に用いられる有限状態ネットワークは図22に示され
る。縦方向において、辞書ページは項目成分とv字空間
成分とが交替する列となっている。また、項目は0また
はそれ以上の本文行が続く第一行を有する。水平方向に
は、前記第一行はネーム、フィールドおよびキャリッジ
・リターンで終わる本文テキストフィールドから構成さ
れる。第一行のフィールドは、異なるフォントおよびフ
ィールドの周囲の「共通記事」括弧を用いて画像中で区
別される。
【0122】出力復号メッセージに含まれている印刷上
の指示は図22に示されていない。これは、図21
(b)の画像の復号を示す図23に図示されている。個
々の項目構成要素だけでなく各項目はラテックス風の標
記を用いて示される。印刷上の指示注釈(例、\ネーム
{})は辞書ページネットワークのさまざまなゼロ遷移
に対してメッセージ列として付される。 プリントデジタルデータ 最後の例は高密度プリントデジタルデータの復号であ
る。図24(a)は、各ビットごとに7画素平方のセル
において斜めの絵文字を利用して符号化されたデータの
5120ビットのブロックを示す。データは、16ビッ
ト16行から成る256ビットのセグメントにまとめら
れる。セグメント内のビットは行優先順で配列される。
ブロック自身は5セグメントごとの4行から成り、これ
も行優先順である。雑音バージョンは図24(b)に図
示される。
【0123】プリントデータブロックに対する単純な有
限状態ネットワークは図25に示される。このネットワ
ークはデータブロックの全体ビット順序づけを保存して
いるわけではないが、単純な行ごとの復号を生成する。
ビットを正しい順序にもどすためにポストプロセッサを
用いる。図示のように、復号された各行は多数の8ビッ
トを有するように条件づけされている。条件づけのゆる
やかな文法と比較すると、これによってビット挿入・削
除エラーの数を低減させることができ、したがって、全
体の精度が向上される。
【0124】図26は図24(b)の画像を図25のネ
ットワークを用いて復号し、ビットをもとにもどし、結
果のデータ流を8ビットのアスキー(ASCII)文字
として解釈した結果を示す。復号メッセージには誤認さ
れた文字がいくつか含まれ、それぞれデータバイトにお
ける単一ビットエラーに対応する。
【0125】以下、本技術分野および音声処理の関連分
野で十分確立された確率型の有限状態画像生成プログラ
ムに関する概念を利用して本発明のシステムの実現方法
のひとつを詳細に説明するが、これに限定するものでは
ない。
【0126】図27は画像合成のために本発明を用いた
場合を示す。画像合成器110(a.k.a画像生成
器)は、画像ネットワーク120として表現された画像
のクラスに関する記述、図5に図示されるような特定の
文字の印刷モデルのパラメータを各々リストする画像テ
ンプレート130のライブラリ、および画像ネットワー
クにより記述されるクラスから特定の画像を指定するた
めに用いられる文字列100 をそれぞれ入力として受
け取る。画像生成器110の出力はテンプレートライブ
ラリ130から引き出された構成画像の集合を配置する
ことで形成されたビットマップ画像140である。これ
はイメージング処理を説明するために用いた透明シート
の積み重ねに対する類推である。構成画像の恒等式およ
び空間的位置は入力記号列100と画像ネットワーク1
20とにより共同的に確定される。
【0127】図28は、通常有限状態文法を表すために
用いられる種類の有限状態遷移ネットワークに類似した
画像ネットワーク120のサンプル200を示す。画像
ネットワーク200は205、210等のノードの集合
から成り、これらのノードは235、240等の有向枝
により相互接続されている。たとえば、枝235はノー
ド205を出て、ノード210に入るよう指示される。
ノードは状態または頂点と呼ばれることがあり、枝は遷
移または辺と呼ばれることがある。ネットワークの状態
は2つに区別され、開始状態205と最終状態220と
呼ばれ、それぞれnI、nFとラベルづけされる。各遷移
は次の4つの属性でラベルづけされる。文字名(23
6、242等)、画像テンプレート名(237、242
等)、水平dxおよび垂直変位dy(図5参照)から成
る2次元変位ベクトル(238、243等)、そして推
移確率(239、244等)である。枝250の文字2
51または枝245のテンプレート247のように、文
字ラベルまたは画像テンプレートはゼロでもよい。推移
確率は画像復号中に使用されるが、画像合成中には使用
されない。入力記号列および画像ネットワークが与えら
れると、画像生成器は後述するように、画像位置ポイン
タを更新するとともにテンプレートライブラリからテン
プレートを出力画像配列へコピーすると同時に、画像ネ
ットワークの枝を横切ることにより出力画像を合成す
る。
【0128】画像生成器は、画像位置ポインタが出力画
像配列の座標(0,0)に初期化される初期状態205
で始動する。入力記号列の第一文字は、ノード205か
ら出た枝280、235、285の文字ラベル281、
236、286と比較される。枝ラベルのひとつが入力
された文字と一致すれば、画像生成器は対応する枝を選
択し、次の動作を実行する。たとえば、入力記号列の第
一文字が「b」であるとする。この場合、「b」は文字
ラベル236と一致するため、画像生成器は枝235を
選択することになる。枝235が選択されると、画像生
成器は、テンプレートの原型(図5参照)を現在の画像
位置(0,0)に位置合わせしながら、枝235に関連
する画像テンプレート237のコピーを出力配列内へ引
き込む。現在の画像位置は枝235に関連する変位23
8だけ増分され、(1,0)となる。最後に、次に選択
された枝235により画像生成器はノード210へ移動
する。画像生成器はこの過程をノード210で繰り返
し、入力記号列の第二文字を調べ、ノード210から出
た枝のラベル241および246と比較し、一致した枝
を選択する。たとえば、第二文字が「a」であれば、枝
240が選択される。その場合、枝240に対するテン
プレート242のコピーは、現在の画像位置(1,0)
で出力画像配列へ引き込まれる。現在の画像位置は変位
243だけ増分されることにより(2,1)となり、画
像生成器はふたたびノード210へ移動する。
【0129】この過程は入力記号列のすべての文字が処
理されるまで続く。処理が終わった時点で、画像生成器
は最終状態220に到達するか、または文字ラベルがゼ
ロとなった枝を選択することにより最終状態に到達でき
る状態でなければならない。入力記号列がなくなった時
点で画像生成器が最終状態220に到達できなければエ
ラーが発生する。また、過程のどこかの地点で、現在の
入力文字と一致する枝が見つからない場合にもエラーが
発生する。さらに、現在の文字に一致する枝が二つ以上
存在する場合にも問題が生じる。これらの問題およびそ
の他の例外的な状況を扱えるように上記の記述を一般化
する方法は、有限状態言語に関する文献において公知で
ある。 図29および30は、図28で示された画像ネ
ットワーク200および入力記号列「baa$」に対す
る完全な過程を図示したものである。図29は列310
がネットワーク200にしたがって処理されたときに生
成された画像320を示す。合成過程のステップ1乃至
5は図30のテーブルに詳細に示される。ステップ1の
前に、画像生成器は、空白となっている出力配列の位置
(0,0)で初期状態205にある。ステップ1では、
画像生成器は第一入力文字311を、ノード205から
出た3個の枝280、235、285と比較する。入力
文字は枝235のラベル236と一致する。画像生成器
は枝235に関連するテンプレート237のコピー41
1(この場合は「b」の画像)を位置(0,0)の出力
配列へ引き入れ、ノード210および画像位置(1,
0)へ移動する。この例で、各テンプレートの位置合わ
せ地点はテンプレートの左下のコーナであるとする。図
30の画像列では、ステップ1が始動する画像位置は画
像410においてドット「.」412で示される。終了
ステップ1での画像位置は「X」414で示される。ス
テップ2乃至5に対する画像420、430、440、
450は同様に印が付されている。 ステップ2では、
状態210から始動して、画像生成器は第二入力文字3
12をノード210から出た枝240および245の文
字241および246と比較する。入力文字「a」は枝
240のラベル241と一致するため、画像生成器はテ
ンプレート242のコピー421(この場合、「a」の
画像)を現在の位置(1,0)へ入れ、現在の位置を変
位243だけ進めて(2,1)へ移動し、さらに状態2
10へ移る。
【0130】ステップ3では、第三入力文字313に対
して前記過程が繰り返される。画像生成器が枝240を
選択し、テンプレート242のコピー431を位置
(2,1)に入れ、現在の画像位置を(3,2)に更新
し、ノード210へ移動する。
【0131】ステップ4では、第四入力文字314が処
理され、画像生成器は枝245に従ってノード215へ
進む。枝245に関連する変位248が(0,0)であ
るため、画像位置ポインタは変化しない。また、枝24
5に関連するテンプレートラベル247がゼロテンプレ
ートを指定するため、出力配列にはテンプレートがコピ
ーされない。
【0132】ステップ5の最初に、画像生成器は入力記
号列を使いはたしてしまう。しかしながら、枝250の
文字ラベル251がゼロ文字を指定するため、枝250
を選択してもよい。枝250に対するテンプレート25
2のコピー451、つまり画像「m」は現在の画像位置
(3,2)に置かれ、画像生成器は状態220へ移動
し、画像位置は(4,0)に更新される。この時点で、
画像生成器は最終状態220にあり、処理すべき入力文
字は存在しない。したがって、イメージング動作は正常
に終了した。この例は、入力列記号と結果ビットマップ
画像との間が必ずしも1対1の対応である必要がないと
いうことも示す。たとえば、イメージされる列にはコー
ド中のコメントに対応する情報が含まれるが、ビットマ
ップ中に含まれるという意味ではない。同様に、認識装
置はビットマップに関するその出力情報(そのソース
等)をその中に有することはできるが、ビットマップ自
身に表すことはできない。上記の例が図23の論理構造
タグである。また、ビットマップ記号は列記号と異なる
ものにすることができる(記号列では「$」であり、ビ
ットマップでは「m」)。さらに、認識装置が一定の規
定された条件下で文字を自動的に生成する場合には、ビ
ットマップに記号が現れる必要はない。
【0133】図31は、出力記号列590を生成するた
め入力ビットマップ510を復号する画像ネットワーク
を使用した場合を示す。図29に示された例に対して、
同一の画像ネットワーク200が利用できる。テンプレ
ート整合器520はテンプレートライブラリ530(図
27の画像生成器で用いられたテンプレートライブラリ
130と同一のもの)の各項を、数25で定義されたL
(Z|Q)を計算する整合関数を用いて入力画像510
と比較する。テンプレート整合器の出力はライブラリか
らのテンプレートごとのスコアのスコア配列540の集
合である。このスコアには、入力画像の各位置でのテン
プレートに対する数値整合スコアが含まれる。ノードス
コア/バックポインタプロセッサ550は、画像ネット
ワーク560の各ノードに対するスコア配列およびバッ
クポインタ配列570を計算する。ノードに対するスコ
ア配列には、入力画像の各位置で位置合わせされたその
ノードに対して数35で定義された数値整合スコアL
(n;→x)が含まれる。ノードに対するバックポイン
タ配列はそのノードに最も入りやすい枝を確認する。つ
まり、数35を最大にする各画像位置の枝を確認する。
ノードスコア/バックポインタプロセッサ550には、
テンプレート整合器に対するテンプレート整合スコア5
40と、図27の画像生成器において用いられた画像ネ
ットワーク120と同一の画像ネットワーク560から
のデコーダスケジュール555とが入力される。最後
に、バックトレースプロセッサ580はバックポインタ
配列570を利用し、画像ネットワーク560を介して
経路を生成する。この経路から、経路の枝の文字ラベル
を鎖状につなぐことで出力記号列590が形成される。
図29に示される例の場合では、これは記号列「baa
$」を再構成することになる。
【0134】ノードスコア/バックポインタプロセッサ
550によって実行される場合、上記のように配列57
0を生成することになるアルゴリズムの一形態が図32
において詳細に説明される。プロセッサ550が行優先
順にノードスコア/バックポインタ配列570を埋め
る。すべての値が第一行に対して計算され、さらに第二
行に対してすべての値が計算され、すべての行が終わる
まで同様に計算される。各行に対する計算は順に一連の
「パス」としてまとめられる。各パスでは、スコアおよ
びバックポインタ配列の部分集合における各配列ごとに
一行が計算される。スケジュールで指定されるように、
行は左から右へ増加x位置の順で計算されるか、または
右から左へ減少x位置の順で計算される。左−右パスは
「前進」パスと呼ばれ、右−左パスは「逆進」パスとよ
ばれる。パス内の各x位置で、画像ネットワークのノー
ドの部分集合に対するスコアおよびバックポインタが規
定の順序で計算される。
【0135】図32のアルゴリズムは4レベルの入れ子
型反復である。最も外側のレベルはステップ602から
632まで行を繰り返す。ステップ602では行カウン
タyを1に初期設定する。ステップ630では、行カウ
ンタが画像の行Hと比較される。すべての行が計算され
終わるまで、行カウンタはステップ632において増分
され、次の行が処理される。第二レベルであるステップ
604乃至628では、パスを繰り返す。パスカウンタ
はステップ604で初期設定され、ステップ626でパ
スKの全体数と比較され、ステップ628で増分され
る。第三レベルであるステップ605乃至624は、行
カウンタyにより指定された行内の水平な位置を繰り返
す。3個の水平位置ポインタは同時に維持される。ポイ
ンタXFは前進パスに対して水平位置を指定する。XFは
ステップ605で1に初期設定され、ステップ624で
増分され、ステップ622で行内の位置数Wと比較され
る。ポインタXRは後方パスに対する水平位置である。
ステップ605でWに初期設定され、ステップ624で
減少される。ポインタXは、カレントパスが前進か後方
かによってステップ608、610、612でXFまた
はXRへ設定される。反復の第四レベルであるステップ
614乃至620では、パスカウンタにより指定された
パスのノードnごとにyで指定された行およびxで指定
された水平位置でのスコアL(n,x,y)およびバッ
クポインタB(n,x,y)を計算する。スコアL
(n,x,y)およびバックポインタB(n,x,y)
の実際の計算はステップ616で行われ、図33に説明
されている。
【0136】図33は、特定のノードnおよび画像位置
(x,y)に対するスコアL(n,x,y)およびバッ
クポインタB(n,x,y)を計算する例を示す。この
アルゴリズムは、隠れマルコフモデルとともに音声認識
で利用される標準1次元動的計画法ステップを2次元的
に一般化したものである。この計算には指定されたノー
ドnに入るすべての枝の中から、指定された画像位置
(x,y)のノードのスコアを最大にする枝を求めるこ
とも含まれる。最大スコアおよび対応する最良の枝の識
別がステップ770でL(n,x,y)およびB(n,
x,y)として返される。計算の途中で、ステップ71
0で初期設定された変数ベストスコアおよびベストブラ
ンチが、これまで出会った中で最上のスコアおよび対応
する枝を有する。
【0137】ステップ715乃至765はノードnに入
る枝を繰り返す。ステップ715は枝インデックスtを
nへの第一枝に初期設定する。nのすべての枝が考慮さ
れ終わるまでステップ760および765は反復する。
ステップ720、725、730はテンプレートQ、変
位(dx,dy)、枝tと関連する推移確率aを検索す
る。これらは図28に図示される枝または遷移の属性に
対応する。ステップ735は画像位置(x−dx,y−
dy)でテンプレートQに対するテンプレート整合スコ
アを、事前に入力540としてノードスコア/バックポ
インタプロセッサ550へ供給されたテンプレートスコ
ア配列から検索する。ステップ740はノードLの識別
を枝tが発生したものから検索し、ステップ742は画
像位置(x−dx,y−dy)でノードLに対するノー
ドスコア値L(n,x,y)を検索する。この値は図3
3のアルゴリズムの実行のさいに計算された。デコーダ
スケジュール555は、現在の計算の間にL(n,x,
y)を計算するのに必要なあらゆるノードスコア値が前
記計算により確実に得られるようにしなければならな
い。ステップ745は現在の枝に対する候補ノードスコ
アを計算する。最後に、ステップ745で計算した候補
スコアがベストスコアの値よりも大きい場合には、ステ
ップ750および755がベストスコアおよびベストブ
ランチを更新する。
【0138】テンプレート整合器520は添付書類Bの
数25で定義され、各テンプレートQに対して各画像位
置に位置合わせされたL(Z|Q)を計算する。実現方
法は直截なものである。
【0139】スケジューラ565は画像ネットワーク5
60からスケジュール555を生成する。このスケジュ
ールは、ノードスコア/バックポインタ配列570の項
目が計算される順序を指定し、数35に含まれるデータ
依存性が確実に守られなければならない。このようなス
ケジューリングの問題を解決する通常の手法および理論
はVLSI分野では公知である。添付書類Dは、この理
論に基づきデコーダスケジュールを生成するための特定
のアルゴリズムを開示する。
【0140】バックトレースプロセッサ580は出力記
号列590をノードスコア/バックポインタ配列570
から、図34で示される例のようなアルゴリズムを用い
て計算する。バックトレースプロセッサは、書記ノード
nIが達成されるまでバックポインタ配列で識別された
枝に連続的に続くことにより画像位置(W,H)で最終
ノードnFから後ろにトレースする。このバックトレー
スで出会う枝の文字ラベルが鎖状につながれることによ
り出力記号列590を形成する。
【0141】ステップ810は現在の画像位置(x,
y)を(W,H)に初期設定し、現在のノードnを最終
ノードnFに初期設定し、さらに出力記号列mをゼロ記
号列に初期設定する。ステップ820はtを、ノードス
コア/バックポインタプロセッサ550により事前に計
算された枝B(n,x,y)へ設定する。枝tに対する
文字ラベル「c」がステップ830で検索されるととも
に、ステップ840では記号列mの最初へ前進する。ス
テップ850はnを枝tが由来するものからノードへ更
新し、ステップ860は枝tに対する変位(dx,d
y)を検索する。ステップ870は、変位(dx,d
y)を引くことにより現在の画像位置(x,y)を更新
する。ステップ850で確立されたノードnの新しい値
が、ステップ880でnI、すなわち画像ネットワーク
の始動ノードと比較される。nIが到達されると、バッ
クトレースはステップ890で終了し、記号列mを返
す。到達されていなければ、ステップ820から過程が
繰り返される。
【0142】上述の説明は本発明のシステムを実現する
ために利用可能なアルゴリズムの例を示すものであっ
て、これに限定されるものではない。
【0143】なお、→△、→×、^ρ、^λ、^α、^
β、^μはそれぞれ外2、外3、外4、外5、外6、外
7、外8を表す。 添付書類A 古典的な通信理論に基づくドキュメント認識問題の公式
化を示す。確率メッセージソース10が事前確率分布P
r(M)にしたがって候補記号列の集合から有限記号列
Mを選択する。メッセージは生テキスト記号列でも、レ
イアウトや論理構造タグ(例、LATEX[L.ランポ
ート著「LATEX/ドキュメント製版システム」リー
ディング社(アジソン−ウエスレー)、1986年刊]
またはSGML)が埋め込まれたテキスト、または分離
記号の線形数列内への情報のその他の符号化でもよい。
図2乃至4はメッセージ断片のこれらの例を示し、図2
は生テキストを、図3はLATEXコマンドの埋め込ま
れたテキストを、図4はプリント楽譜のテキスト標記を
それぞれ示す。
【0144】結像器11はこのメッセージを、画素がΩ
によって索引づけされる2値画像の母集団から引き出さ
れる理想的な2値画像Q={qi|i∈Ω}へ変換す
る。画像は矩形であると仮定し、したがって、
【0145】
【数1】 ただし、WおよびHはそれぞれ画像幅および画像高さで
ある。ここではxが右方向へ増加し、yが下向きに増加
し、さらに上方左コーナがx=y=0である画像座標系
を利用する。通常、各メッセージMに関連する一意画像
QMが存在するよう画像は決定論的であると仮定する
が、さらに画像は座標量子化等の効果をモデル化する確
率的要素を有してもよいものとする。
【0146】チャネル12は、ずれ、ぼやけ、付加的雑
音等の印字や走査による歪みを導入することにより理想
的な画像を観測された画像Z={zi|i∈Ω}内へマ
ップする。デコーダは画像Zを受け取り、原メッセージ
の推定Mを生成する。デコーダは、帰納的最大(MA
P)判定法にしたがってMを選ぶ場合、エラーの確率を
最小とする。したがって、
【0147】
【数2】 である。
【0148】
【外1】
【0149】
【数3】 である。さらに、画像が決定論的であると仮定すれば、
【0150】
【数4】 である。最後に、画像が1対1マッピングであると仮定
すれば、
【0151】
【数5】 である。集合的に、これらの仮定はMとQの区別を不鮮
明にし、これによって、
【0152】
【数6】 と書くことができる。
【0153】したがって、画像復号問題はMまたはQM
の推定する問題として考えることができる。
【0154】Zを観測する事前確率Pr{Z}はMとは
独立であるため、Mの選択とは無関係であり省略でき
る。通常、MAP(帰納的最大)決定法則は数5の右辺
のいずれかの単調関数をを最大にすることで実現しても
よい。特に、決定関数を
【0155】
【数7】 として定義するのが便利であるとわかる。ただし、Pr
{Z|Q0}は、Qが全白色背景画像Q0である場合にZ
を観測する確率である。最後に、
【0156】
【数8】 であると定義すれば、MAP(帰納的最大)復号が、
【0157】
【数9】 を最大化することに等しいとわかる。
【0158】数9が示すように、ドキュメント画像認識
システムの設計において解決すべき3つの主要問題があ
る。まず、対数Pr{QM}を計算するためには画像ソー
スのモデルを発展させる必要がある。第二に、L(Z|
QM)を計算するためにはチャネルの文字を理解する必
要がある。最後に、計算上効率のよい方法で数9を最大
化するためには探査アルゴリズムが必要となる。 添付書類B イメージングシステムに対する実際の欠陥モデルは極め
て複雑であるので、図9に示すような非常に単純な非対
称ビットフリップ雑音モデルに着目した。このモデルは
理想的な画像Qの各画素が独立的に摂動されるものと仮
定する。理想的な画素Qにおける1(黒)画素が観測さ
れた画像Zにおいて1として残る確率はπ1である。同
様に、0が0として観測される確率はπ0である。雑音
パラメータは全画像において一定であるものとする。
【0159】添付書類Cにおいて、非対称ビットフリッ
プチャネルに対して、
【0160】
【数25】 であり、ただし、
【0161】
【数26】 かつ、
【0162】
【数27】
【0163】
【数28】 は、それぞれバックグラウンド重みおよびフォアグラウ
ンド重みである。BQはZとは独立な級従属の偏った項
である。数25の右辺側の第二項は、画像ZとQとの論
理積(AND)におけるゼロでないビットをカウントす
ることにより計算できる。
【0164】添付書類Cでは、数23により、Qπがマ
ルコフソースによる経路πに関連する複合画像であれ
ば、
【0165】
【数29】 であることも示す。 添付書類C このセクションの目的は、図9で示された非対称ビット
フリップチャネルに対するL(Z|Q)の式を得ること
である。導出の初期ステップはより一般的な画像生成モ
デルに基づく。i∈Ωのとき、
【0166】
【数48】 が、Zが画像Cのあるクラスから引き出された場合、Z
のi番目の画素がオンである確率であるとする。この場
合、チャネル入力Qが与えられると、Cは観測可能な画
像Zの集合である。
【0167】標記を簡単にするため、C(またはQ)に
対する条件づけは明らかにする必要がある場合にのみ明
確に示される。
【0168】画素が独立であると仮定した場合、Zの確
率は、
【0169】
【数49】 であるため、
【0170】
【数50】 である。
【0171】
【数51】 と示すことにより、数50は、
【0172】
【数52】 と書くことができる。
【0173】さらに、
【0174】
【数53】 であるため、数52は、
【0175】
【数54】 と書くことができる。また、
【0176】
【数55】 によって2値画像〜Q={〜qi|i∈Ω}であると定
義すると、数54は、
【0177】
【数56】 と書くことができる。
【0178】最後に、
【0179】
【数57】 と定義すれば、
【0180】
【数58】 かつ、
【0181】
【数59】 である。
【0182】画像〜Qは画像クラスCに対するテンプレ
ートとして見てもよい。数59よりQは最も確率の高い
Cの項であるものとする。非対称ビットフリップモデル
に戻って、π0>0.5かつπ1>0.5であれば、Q=
〜Qであり、区別する必要はない。この場合、
【0183】
【数60】 であるため、piはqiの値によるが、そうでなければi
から独立である。「i∈Q」は「i∈支持[Q]」と読
めるものとする。ここで、
【0184】
【数61】
【0185】
【数62】 がそれぞれバックグラウンドの重みおよびフォアグラウ
ンドの重みであると定義すれば、
【0186】
【数63】 である。
【0187】さらに、数63において
【0188】
【数64】
【0189】
【数65】 という関係式を利用し、項を組み合わせると、
【0190】
【数66】 である。最後に、数66の関係式、
【0191】
【数67】 を利用して、再度、整理すると、
【0192】
【数68】 となる。
【0193】数68の右辺側で括弧で囲まれた項はQと
は独立で、実際には対数Pr{Z|Q0}である。ただ
し、Q0は全白色バックグラウンド画像である。したが
って、数25および数26は非対称ビットフリップ雑音
チャネルに従う。
【0194】対数標準化確率数25は重要な分解特性を
有する。テンプレートQがサブテンプレートQ1...
QPの直和として表現されると、i≠jのとき、
【0195】
【数69】 かつ、
【0196】
【数70】 であるため、
【0197】
【数71】 である。
【0198】この数70は支持に対する条件を表すもの
で、QiおよびQjのバウンディングボックスではない。
したがって、構成するテンプレートのバウンディングボ
ックスが重複しても構成する支持が素である限り、数7
1は複合テンプレートに対する対数標準価格率数25を
計算するために利用できる。
【0199】最後に、数23により、分解数71に対す
る事前条件が、数21を介してマルコフソースにより生
成される画像に対して満足され、数29が続く。 添付書類D ここでは、各ループπに対してΔyπ≧0であるという
特性を有するあらゆる計算可能な画像デコーダに対して
数41および数42の強制的な行優先スケジュールを求
めることができるということを示す。この手法は構造的
であり、正規反復アルゴリズムの理論に基づく。S.ラ
オ著「プロセッサ配列における正規反復アルゴリズムお
よびその実現方法」(博士論文、スタンフォード大学、
1985年10月刊)を参照されたい。説明を簡単にす
るため、上述の4レベル反復アルゴリズムによって構成
を説明する。数41および数42の関係は明らかであ
る。
【0200】マルコフソースデコーダに対する簡化従属
グラフ(RDG)(S.ラオ著「プロセッサ配列におけ
る正規反復アルゴリズムおよびその実現方法」博士論
文、スタンフォード大学、1985年10月刊、参照)
は、図11に示すような各遷移を一対の辺で置換すると
ともに新しいノードを導入することによりデコーダグラ
フから引き出される。通常、RDGのノードは各→x∈
Ωで計算されるべき値の変数を表す。→x−→Δの値が
→xでn2を計算するために必要とされる場合、ノード
n1からノードn2までの辺が変位ラベル→Δで存在す
る。次に来る枝をもたないノードは入力ノードと呼ばれ
る。入力ノードからの枝は入力枝と呼ばれることもあ
る。デコーダRDGの入力ノードはL(Z|Qt[→
x])の値を表す。スケジューリングのために、入力値
は残りのグラフにより表される制約を満足するのに必要
ないかなる順序であっても生成可能であるものと仮定す
る。出て行く枝を持たないノードは出力ノードと呼ばれ
ることがある。デコーダRDGは通常、単一出力ノード
である最終ノードnFを有する。図11が示すように、
デコーダグラフをRDGへ変形させる主要な効果はL
(Rt;→x)のL(Lt;→x−→Δt)に対する従属
が、L(Rt;→x)のL(Z|Qt[→x−→Δt])
に対する従属とは別個に表されるということである。こ
れによって、後述するようにRtへの二つの枝の変位を
別個に修正するグラフ変形を適用することができる。
【0201】いったん計算された変数値はその後、いつ
でも利用可能であるものとする。すなわち、将来アクセ
スするための値を保有するためスケジュールによって必
要とされる全体的な記憶に関しては制約はないものとす
る。Gは、各ループπに対して、Δyπ≧0であるよう
なデコーダRDGであるとする。これより、このような
グラフを、負のy変位を有する枝のみが入力枝または出
力枝であるというより強制的な条件を満たす同等のRD
Gへ変換できることを示す。さらに、入力変数および出
力変数の定義において適当な遅延を導入することによっ
て、入力枝および出力枝から負の変位までも削除するこ
とができる。これらの結果を予想して、Gのすべての枝
が負ではないy変位を有すると仮定する。明らかに、強
制的な行優先スケジュールを構成するためには、すべて
の事前に計算された値は利用可能であると仮定している
ためΔyt>0のあらゆる枝tはまったく制約を与えな
い。GからΔyt>0であるすべての枝tを除くことで
形成され、すべてのノードに入ってくる枝も出て行く枝
も残っていないグラフG'を考えてみる。N+は除かれた
ノードの集合を示すものとする。Δyπ=0であるよう
なすべてのループπが完全にG'内に位置しなければな
らないことは明らかである。Gに対する強制的な行優先
スケジュールは、n∈N+であるL(n;→x)をG'ス
ケジュールのいずれかのパスの間に計算することによ
り、またはN+に対する新しいパスを定義することによ
りG'に対するスケジュールから構成することができ
る。したがって、G'に対するスケジュールの構成に注
意を向けることとする。
【0202】G'を、次のような条件を満足するG'の頂
点排反サブグラフとして定義されるその密結合成分(T
CC:S.ラオ著「プロセッサ配列における正規反復ア
ルゴリズムおよびその実現方法」(博士論文、スタンフ
ォード大学、1985年10月刊))へ分解する。条件
とはすなわち、 ・同一成分内でノードから他のノード
へ有向経路が存在する ・成分が単一ノードを有する場合、そのノードが自身に
関連する自己ループを有する ・ある成分のノードから異なる成分のノードへの有向経
路が存在する場合、復帰経路は存在しないことである。
【0203】グラフの密結合成分は、強力結合成分
(A.V.エイホ、J.E.ホップクロフト、J.D.
ウルマン共著「コンピュータアルゴリズムの設計および
解析」リーディング社/アジソン−ウエスレー、197
4年刊)を求めるなんらかのアルゴリズムの出力をわず
かにフィルタリングすることにより求めることができ
る。Δyπ=0であるGにおけるあらゆるループπは
G'のTCC(密結合成分)のひとつの内に完全に位置
していなければならない。G'の密結合成分がG''
1、...G''Nで示されるとし、N0は密結合成分に属
すG'のノードを示すものとする。図12はGの分解を
要約し、G、N+、G'、N0、G''1...G''Nの中の
関係を図示する。
【0204】G'に対するスケジュールは次のようなや
り方で構成される。〜G'を、各密結合成分G''iのノー
ドを単一「スーパー」G'から引き出されたグラフとす
る。すなわち、〜G'のノードは、
【0205】
【数72】 である。
【0206】〜G'の枝はいずれのG''iにも属さない
G'の枝である。つまり、〜G'は、1)ことなる密結合
成分を結合するか、2)密結合成分をN0の要素へ結合
するか、3)N0の2個の要素を結合するG'のこれらの
枝を有する。〜G'は非循環であるため、n1からn2ま
での枝が存在する場合、n1がn2へ進むようにそのノー
ドを分類するのが直接的である。〜G'の各ノードは、
この分類にしたがって配置されたG'に対するスケジュ
ールにおける1個のパスに対応する。N0の項である〜
G'のノードは、L(n;→x)が単一ノードnに対し
て計算されるパスを定義する。密結合成分G''iに対応
する〜G'のノードは、G''iのノードに対してL(n;
→x)が計算されるパスを定義する。これより、各密結
合成分G''iに対するパスを別個に予定する方法につい
て示す。
【0207】G''iをG'の密結合成分であるとする。た
だし、G''iへ入る(から出て行く)〜G'の枝はG''i
の入力(出力)枝であるものとする。Gは計算可能であ
り、G''iの各枝のy変位はゼロであるので、G''iがΔ
xπ=0のループπを含まないことは明らかである。さ
らに強制的に、G'iは、その中の各ループπに対するΔ
xπが同一記号を有するという特性を持つ。これを示す
ため、逆にG''iがループπ1およびπ2を有すると仮定
する。ただし、Δπ1>0かつΔxπ2<0である。
【0208】n1、n2はそれぞれπ1、π2のノードであ
るとする。密結合成分の定義により、n1、n2を含む
G''iにループπ3が存在する。Δxπ3>0と仮定する
(Δxπ3<0に対する論法は同様である)。π3はπ1
とπ2の双方と交差するため、各πj(j=1、2、3;
指定されたいかなる回数でもkj≧1)を横切るG''iに
ループπ0を構成することができる。π0の全x変位は、
【0209】
【数73】 である。
【0210】数73の右辺側は正および負の項を含むた
め、Gが計算可能であるという過程に反するが、Δxπ
0=0となるようにkjを調節することができる。したが
って、G''i内の各ループは同一の記号x変位を有す
る。
【0211】G''iのループは正のx変位を有するもの
と仮定する。直ちに後述するように、G''iは、すべて
の負の枝変位を入力枝および出力枝へ「プッシュ」する
ことによって、各内部の枝が負でないx変位を有する等
価グラフへ変形することができる。変形されたG''iの
ノードは標準音声隠れマルコフモデルスケジューリング
技術を用いて分類することができる。ループx変位が負
の成分G''iは同様に取り扱われるが、L(n;→x)
が減少xの順序(右から左)で計算される点が別であ
る。これでGに対する強制的な行優先スケジュールの構
成が完了した。
【0212】最後に、Gが、各ループが負でないx(ま
たはy)変位を有するRDGである場合、^Gのすべて
の内部枝のx(またはy)変位が負でない同等のRDG
^Gが存在することを示す。スカラー変位のRDGに対
してこれを証明すれば十分であることは明らかである。
したがって、Gの各ループの変位が負でないように、G
をスカラー枝変位を有するRDGとする。n∈Nを入力
ノードでも出力ノードでもないGのノードであるとし、
さらに、
【0213】
【数74】
【0214】
【数75】 を、それぞれnから起点で終了するGの枝とする。さら
に、ξを整数の定数とする。^GをGに等しいRDGと
定義するが、枝変位〜Δtは、
【0215】
【数76】 で定義される。^Gは、図13に示すようにノードnを
横切る大量の変位ξを「プッシュ」することにより得ら
れるRDGである。この変形によってGの入力−出力の
ふるまいを修正しないということを示すのが直接的であ
る。各→xおよび出力ノードnFに対して、
【0216】
【数77】 である。これによって、変形の集合が求められ、その各
々は数76で定義されるが、集合的に各内部枝に対する
変位は負でない。入力ノードまたは出力ノードで変形数
76が適用される場合(ただし、InまたはOnが空であ
る)、その効果は全体の空間的オフセットを対応する入
力または出力変数の定義へ導入できることである。この
ようなオフセットのトラックを確保することが直接的で
あるため、この変形をあらゆるノードに対して適用可能
とすることで説明を簡単にする。その場合、すべての枝
変位が負でないということを示すことができる。数76
の型の変形集合は、Gのノードを横切ってプッシュされ
た変位集合Ξ={ξn|n∈N}により特徴づけされ
る。Ξに対応する変形を適用した後、各枝tに関する最
終変位は、
【0217】
【数78】 で与えられ、これは次のような行列形式で書くことがで
きる。すなわち、
【0218】
【数79】 である。ただし、Dおよび^Dは(スカラー)枝変位の
ベクトルであり、Ξはノード変形変位のベクトルであ
り、CはグラフGの結合行列である。Cは、
【0219】
【数80】
【図面の簡単な説明】
【図1】ドキュメント認識問題の定式化を示すブロック
図である。
【図2】メッセージ断片の例を示す。
【図3】メッセージ断片の例を示す。
【図4】メッセージ断片の例を示す。
【図5】文字形状を記述するとともに位置づけするサイ
ドベアリングモデルを単純化したものを示す。
【図6】数個の文字の重複を示す。
【図7】有限状態ネットワークとして表現されたテキス
ト列文法の例を示す。
【図8】マルコフソースのモデルである。
【図9】ビットフリップ雑音モデルを図示する。
【図10】デコーダ再帰の概要図である。
【図11】マルコフソースデコーダのRDGの構成を図
示する。
【図12】デコーダRDGの解体を図示する。
【図13】ノードを横切って進む変位を概略的に図示す
る。
【図14】サンプルテキスト列およびその雑音画像をそ
れぞれ示す。
【図15】文字垂直位置合わせの印刷モデルを示す。
【図16】フォントサンプル画像を示す。
【図17】図14の画像から本発明のシステムを利用し
て得られた復号メッセージを示す。
【図18】ミストラルサンプル画像およびその雑音画像
をそれぞれ示す。
【図19】本発明のシステムを利用して得られた復号メ
ッセージを示す。
【図20】異なるフォントモデルを利用して同一の走査
画像の復号されたバージョンを示す。
【図21】辞書のページのクリーンな画像と雑音画像を
それぞれ示す。
【図22】図21の雑音画像を復号するため本発明にし
たがって利用される文法を示す。
【図23】図22の文法による出力結果である。
【図24】データブロックおよびその雑音画像を示す。
【図25】図24の雑音画像を復号するため本発明にし
たがって利用される文法を示す。
【図26】図25の文法により復号された出力結果を示
す。
【図27】本発明による画像合成器の一形態のブロック
図である。
【図28】本発明のシステムで利用される型の有限状態
遷移網のサンプルを示す。
【図29】サンプル記号列において図28のネットワー
クの動作を図示する。
【図30】図30の記号列に対する出力結果画像ビット
マップのステップバイステップ構成を示す。
【図31】記号列が形成されたもととなるものから記号
列を再構成するため画像ビットマップを複合する本発明
による画像認識装置の一形態のブロック図である。
【図32】本発明を実施する場合に図31のノードスコ
ア/バックポインタプロセッサが利用できるアルゴリズ
ムの一形態の一例のフローチャートである。
【図33】図32の処理のステップ616の間に実行さ
れる計算を図示するフローチャートである。
【図34】本発明を実施する場合、図31のバックトレ
ースプロセッサが利用可能なアルゴリズムの一形態のフ
ローチャートである。
【符号の説明】
10 メッセージソース 11 画像生成器(イメージャー) 12 チャネル 100 入力記号列 110 画像合成器 120、560 画像ネットワーク 130、530 テンプレートライブラリ 140、510 ビットマップ画像 520 テンプレート整合器 540 テンプレート整合スコア配列 550 ノードスコア/バックポインタプロセッサ 555 デコーダスケジュール 565 スケジューラ 570 ノードスコア/バックポインタ配列 580 バックトレースプロセッサ 590 出力記号列
【数81】
【数82】
【数83】
【数84】
【数85】
【外2】
【外3】
【外4】
【外5】
【外6】
【外7】
【外8】
───────────────────────────────────────────────────── フロントページの続き (72)発明者 フィリップ アンドリュー チョウ アメリカ合衆国 94025 カリフォルニア 州 メンロー パーク ブラックバーン アヴェニュー 116

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 画像認識システムにおいて用いられ、有
    限状態ネットワークおよびイメージされるべき対象を入
    力する手段とから構成されるイメージングモデルに基づ
    く画像生成器であって、 有限状態ネットワークにより確定された経路に基づきテ
    ンプレートのライブラリから選択された記号テンプレー
    トを組み合わせることにより対象のビットマップ画像を
    構成する手段から構成される画像生成器。
JP35037192A 1991-12-10 1992-12-03 画像生成器及び画像認識システム Expired - Lifetime JP3447762B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/805,700 US5321773A (en) 1991-12-10 1991-12-10 Image recognition method using finite state networks
US805700 1991-12-10

Publications (2)

Publication Number Publication Date
JPH05303618A true JPH05303618A (ja) 1993-11-16
JP3447762B2 JP3447762B2 (ja) 2003-09-16

Family

ID=25192281

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35037192A Expired - Lifetime JP3447762B2 (ja) 1991-12-10 1992-12-03 画像生成器及び画像認識システム

Country Status (4)

Country Link
US (1) US5321773A (ja)
EP (1) EP0546843B1 (ja)
JP (1) JP3447762B2 (ja)
DE (1) DE69226338T2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002007965A (ja) * 2000-05-12 2002-01-11 Xerox Corp テキスト行イメージデコーディングのためのスキップモードによるダイナミックプログラミングオペレーション
JP2002007966A (ja) * 2000-05-12 2002-01-11 Xerox Corp 文書画像復号方法

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5526444A (en) * 1991-12-10 1996-06-11 Xerox Corporation Document image decoding using modified branch-and-bound methods
CA2108536C (en) * 1992-11-24 2000-04-04 Oscar Ernesto Agazzi Text recognition using two-dimensional stochastic models
JP3572632B2 (ja) * 1993-06-29 2004-10-06 ソニー株式会社 異常検出装置
JP2673871B2 (ja) * 1993-08-26 1997-11-05 日本アイ・ビー・エム株式会社 ニューラル・ネットワークによるパターン認識方法及び装置
US5748763A (en) 1993-11-18 1998-05-05 Digimarc Corporation Image steganography system featuring perceptually adaptive and globally scalable signal embedding
US5768426A (en) 1993-11-18 1998-06-16 Digimarc Corporation Graphics processing system employing embedded code signals
US6345104B1 (en) 1994-03-17 2002-02-05 Digimarc Corporation Digital watermarks and methods for security documents
US6449377B1 (en) 1995-05-08 2002-09-10 Digimarc Corporation Methods and systems for watermark processing of line art images
US6064819A (en) * 1993-12-08 2000-05-16 Imec Control flow and memory management optimization
JPH07168913A (ja) * 1993-12-14 1995-07-04 Chugoku Nippon Denki Software Kk 文字認識システム
EP0694862A3 (en) * 1994-07-22 1996-07-24 At & T Corp Detection of degraded, grayscale documents using two-dimensional hidden pseudo-Markov models and N-best hypotheses
WO1996017310A1 (en) * 1994-11-29 1996-06-06 Avalanche Development Company System and process for creating structured documents
DE69600461T2 (de) 1995-01-17 1999-03-11 Eastman Kodak Co System und Verfahren zur Bewertung der Abbildung eines Formulars
US5982926A (en) * 1995-01-17 1999-11-09 At & T Ipm Corp. Real-time image enhancement techniques
DE69629071T2 (de) * 1995-03-29 2004-04-22 Eastman Kodak Co. Vorrichtung zum Drucken, Speichern und Wiederauffinden eines aufgezeichneten Bildes
US5956419A (en) * 1995-04-28 1999-09-21 Xerox Corporation Unsupervised training of character templates using unsegmented samples
US5689620A (en) * 1995-04-28 1997-11-18 Xerox Corporation Automatic training of character templates using a transcription and a two-dimensional image source model
US5706364A (en) * 1995-04-28 1998-01-06 Xerox Corporation Method of producing character templates using unsegmented samples
US5594809A (en) * 1995-04-28 1997-01-14 Xerox Corporation Automatic training of character templates using a text line image, a text line transcription and a line image source model
US5883986A (en) * 1995-06-02 1999-03-16 Xerox Corporation Method and system for automatic transcription correction
US5748860A (en) * 1995-06-06 1998-05-05 R.R. Donnelley & Sons Company Image processing during page description language interpretation
US6571013B1 (en) * 1996-06-11 2003-05-27 Lockhead Martin Mission Systems Automatic method for developing custom ICR engines
JP3895431B2 (ja) * 1996-07-08 2007-03-22 株式会社ハイニックスセミコンダクター 物体境界ブロック合併/分割を利用した映像情報符号化方法
US6003002A (en) * 1997-01-02 1999-12-14 Texas Instruments Incorporated Method and system of adapting speech recognition models to speaker environment
JP3069058B2 (ja) * 1997-04-07 2000-07-24 株式会社エイ・ティ・アール人間情報通信研究所 ニューロセルラオートマトンおよび最適化装置
US6111985A (en) 1997-06-06 2000-08-29 Microsoft Corporation Method and mechanism for providing partial results in full context handwriting recognition
US6687404B1 (en) 1997-06-20 2004-02-03 Xerox Corporation Automatic training of layout parameters in a 2D image model
US6741743B2 (en) * 1998-07-31 2004-05-25 Prc. Inc. Imaged document optical correlation and conversion system
JP3695217B2 (ja) * 1999-04-30 2005-09-14 オムロン株式会社 画像処理装置及び画像入力装置
US6738526B1 (en) * 1999-07-30 2004-05-18 Microsoft Corporation Method and apparatus for filtering and caching data representing images
JP2001291060A (ja) * 2000-04-04 2001-10-19 Toshiba Corp 単語列照合装置および単語列照合方法
US6678415B1 (en) 2000-05-12 2004-01-13 Xerox Corporation Document image decoding using an integrated stochastic language model
US6628837B1 (en) 2000-05-19 2003-09-30 Xerox Corporation Assist channel coding with convolution coding
US7110621B1 (en) 2000-05-19 2006-09-19 Xerox Corporation Assist channel coding using a rewrite model
US6862113B1 (en) 2000-05-19 2005-03-01 Xerox Corporation Assist channel coding with character classifications
US6768560B1 (en) 2000-05-19 2004-07-27 Xerox Corporation Assist channel coding with vertical block error correction
US7046848B1 (en) 2001-08-22 2006-05-16 Olcott Peter L Method and system for recognizing machine generated character glyphs and icons in graphic images
US7065740B2 (en) * 2001-08-24 2006-06-20 Microsoft Corporation System and method to automate the management of computer services and programmable devices
US7689037B2 (en) * 2004-10-22 2010-03-30 Xerox Corporation System and method for identifying and labeling fields of text associated with scanned business documents
US7492366B2 (en) * 2005-05-13 2009-02-17 Microsoft Corporation Method and system of character placement in opentype fonts
DE602005002835T2 (de) * 2005-06-09 2008-02-07 Pdflib Gmbh Verfahren zur Identifizierung von redundantem Text in elektronischen Dokumenten
US8020091B2 (en) * 2005-07-15 2011-09-13 Microsoft Corporation Alignment and breaking of mathematical expressions in documents
US7454063B1 (en) * 2005-09-22 2008-11-18 The United States Of America As Represented By The Director National Security Agency Method of optical character recognition using feature recognition and baseline estimation
US7945101B2 (en) * 2007-07-26 2011-05-17 Palo Alto Research Center Incorporated Innovative OCR systems and methods that combine a template based generative model with a discriminative model
JP5557419B2 (ja) * 2007-10-17 2014-07-23 スパンション エルエルシー 半導体装置
US7991153B1 (en) 2008-08-26 2011-08-02 Nanoglyph, LLC Glyph encryption system and related methods
CN102402693B (zh) * 2010-09-09 2014-07-30 富士通株式会社 处理包含字符的图像的方法和设备
US9684842B2 (en) 2015-10-29 2017-06-20 The Nielsen Company (Us), Llc Methods and apparatus to extract text from imaged documents
CN111783533B (zh) * 2020-05-28 2023-10-24 宁波大学 一种基于粒子群算法的离子淌度重叠信号峰分离方法
CN116452696B (zh) * 2023-06-16 2023-08-29 山东省计算中心(国家超级计算济南中心) 一种基于双域特征采样的图像压缩感知重构方法及系统
CN116503880B (zh) * 2023-06-29 2023-10-31 武汉纺织大学 一种倾斜字体的英文字符识别方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5020112A (en) * 1989-10-31 1991-05-28 At&T Bell Laboratories Image recognition method using two-dimensional stochastic grammars

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002007965A (ja) * 2000-05-12 2002-01-11 Xerox Corp テキスト行イメージデコーディングのためのスキップモードによるダイナミックプログラミングオペレーション
JP2002007966A (ja) * 2000-05-12 2002-01-11 Xerox Corp 文書画像復号方法
JP4624592B2 (ja) * 2000-05-12 2011-02-02 ゼロックス コーポレイション テキスト行イメージデコーディングのためのスキップモードによるダイナミックプログラミングオペレーション

Also Published As

Publication number Publication date
EP0546843A2 (en) 1993-06-16
US5321773A (en) 1994-06-14
EP0546843B1 (en) 1998-07-22
EP0546843A3 (ja) 1994-04-20
DE69226338T2 (de) 1999-01-28
DE69226338D1 (de) 1998-08-27
JP3447762B2 (ja) 2003-09-16

Similar Documents

Publication Publication Date Title
JP3447762B2 (ja) 画像生成器及び画像認識システム
JP3585523B2 (ja) テキスト状画像認識方法
Deng et al. Image-to-markup generation with coarse-to-fine attention
US6687404B1 (en) Automatic training of layout parameters in a 2D image model
EP0740263B1 (en) Method of training character templates for use in a recognition system
Nagy Twenty years of document image analysis in PAMI
Rocha et al. A shape analysis model with applications to a character recognition system
US5956419A (en) Unsupervised training of character templates using unsegmented samples
Wang et al. Document zone content classification and its performance evaluation
CN112232149A (zh) 一种文档多模信息和关系提取方法及系统
Paaß et al. Machine learning for document structure recognition
Rabi et al. Recognition of cursive Arabic handwritten text using embedded training based on hidden Markov models
Shilman et al. Learning nongenerative grammatical models for document analysis
Den Hartog et al. Knowledge-based interpretation of utility maps
Balashova et al. Learning A Stroke‐Based Representation for Fonts
CN110851627B (zh) 一种用于描述全日面图像中太阳黑子群的方法
US20220327286A1 (en) Iterative training for text-image-layout transformer
US8401298B2 (en) Storage medium storing character recognition program, character recognition method, and character recognition apparatus
JP2015069256A (ja) 文字識別システム
Elms The representation and recognition of text using hidden Markov models
Kopec et al. Supervised template estimation for document image decoding
Kopec et al. Markov source model for printed music decoding
US20220058842A1 (en) Generating handwriting via decoupled style descriptors
Assabie et al. Hmm-based handwritten amharic word recognition with feature concatenation
Johnston et al. Sketch recognition of digital logical circuits

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030624

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070704

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080704

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080704

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090704

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090704

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100704

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110704

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110704

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120704

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130704

Year of fee payment: 10

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130704

Year of fee payment: 10