JP3585523B2 - テキスト状画像認識方法 - Google Patents

テキスト状画像認識方法 Download PDF

Info

Publication number
JP3585523B2
JP3585523B2 JP09275294A JP9275294A JP3585523B2 JP 3585523 B2 JP3585523 B2 JP 3585523B2 JP 09275294 A JP09275294 A JP 09275294A JP 9275294 A JP9275294 A JP 9275294A JP 3585523 B2 JP3585523 B2 JP 3585523B2
Authority
JP
Japan
Prior art keywords
image
path
decoding
equation
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP09275294A
Other languages
English (en)
Other versions
JPH06348852A (ja
Inventor
イー.コペック ゲイリー
シー.カム アンソニー
エイ.チョウ フィリップ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH06348852A publication Critical patent/JPH06348852A/ja
Application granted granted Critical
Publication of JP3585523B2 publication Critical patent/JP3585523B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19187Graphical models, e.g. Bayesian networks or Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、画像復号及び認識技術に係り、特に、確率有限状態(マルコフ(Markov))ソースモデルを用いたこの種の技術に関する。
【0002】
【従来の技術】
関連文献リスト
[1]A.V. Aho、J.E. Hopcroft 、及びJ.D. Ullman 著、”The Design and Analysis of Computer Algorithms (コンピュータアルゴリズムの設計及び分析) ”(1974年)、選択文書:Addison−Wesley社(207頁乃至209頁と221頁)。
[2]F.M. Wahle、K.Y. Wong 、及びR.G. Casey著、「コンピュータグラフィックスと画像処理」の第20巻、375頁から390頁の” Block Segmentation and Text Extraction in Mixed Test/Image Documents(混合テスト/画像文書におけるブロックセグメンテーション及びテキスト抽出)(1982年)。
[3]William Kaufman 社(カリフォルニア州、ロスアルトス市)発行のA. Barr とE. Feigenbaum 著の「人工知能ハンドブック」(58頁乃至71頁、263頁乃至267頁、364頁乃至388頁)。
[4]1992年9月、オランダ、ハーグ市で開催された「パターン認識についての第11回国際会議」によってC.B. Bose とS. Kuo著の”Connected and Degraded Text Recognition using a Hidden Markov Model(隠蔽されたマルコフモデルを用いて接続され且つ劣化されたテキスト認識)” 。
[5]1993年4月27日乃至30日にミネソタ州ミネアポリス市において開催された「音響、スピーチ、及び信号処理に関する1993年度IEEE(アイトリプルイー)の国際会議」におけるF. Chen とL. Wilcox 著の”Wordspotting in scanned images using hidden Markov models(隠蔽されたマルコフモデルを用いて走査された画像におけるワードスポッティング)” 。
[6]1989年11月ペンシルバニア州フィラデルフィアに於ける「ビジュアル通信及び画像処理に関するSPIE会議」においてP. Chou によって発表された”Recognition of equations using a two−dimensional stochastic context−free grammar (2次元確率文脈自在文法を用いた方程式の認識)” 。
[7]1992年10月21乃至23日にワシントンD.C.で開催された「文書処理の原理に関する第1回インターナショナルワークショップ」においてP. Chou とG. Kopec著によって発表された”Stochastic attribute grammar model of document production and its use in document recognition(文書再生の確率属性文法モデルと文書認識におけるその使用)” 。
[8]1992年1月、「IEEEトランズ.のパターン分析とマシン知能」に提出されたP. Chou とG. Kopec著の”Document image decoding using Markov source models (マルコフソースモデルを用いた文書画像復号)” 。
[9]1992年6月、カリフォルニア州パロアルト市のゼロックスパロアルト研究センターから発表されたG. Kopec著の”Row−Major Scheduling of Image Decoders (画像デコーダの行中心スケジューリング)” と題されたリポートP92−0006(EDL−92−5)。
[10]1992年7月、「画像処理に関するIEEEトランズ.」へ提出されたG. Kopec著の”Least−Squares Font Metric Estimation from Images (画像からの最小二乗フォントメートル推定値)” 。1992年7月、カリフォルニア州、パロアルト市のゼロックスパロアルト研究センター発行のリポートP92−00086(ISTL−92−1)。
[11]1992年3月23乃至26日、カリフォルニア州サンフランシスコ市で開催された「1992年度IEEE国際会議の音響、スピーチ、及び信号処理」の第3巻、149乃至152頁のE. LevinとR. Pieraccini 著の”Dynamic planar warping for optical character recognition (光学的文字認識に関する動的プレーナワーピング)” 。
[12]1981年、カリフォルニア州ロスアルトスのWilliam Kaufman 社発行の「人工知能ハンドブック」の58乃至71頁、263乃至267頁、364乃至388頁。
【0003】
隠れマルコフモデル(HMM)に基づいた自動スピーチ認識システムと他の確率文法フレームワークが知られている。実施例が米国特許出願番号07/762,290(”Wordspotting For Voice Editinig And Indexing”と題された1991年 9月19日付の同一所有の同時係属出願)と参考文献[5](上記リスト参照)に記述されている。括弧内の数字は、上記リストに挙げられている参照された刊行物を識別している。HMMも文書画像認識問題に用いられてきた。文書画像復号(DID)と呼ばれる最も包括的なこれらの試行は、文書認識の明示的通信理論見解に基づく。米国特許出願番号07/805,700(”Image Recognition Method Using Finite State Networks”と題された1992年12月10日付の同一所有の同時係属出願)と参考文献[6、7、8、9、10]を参照されたい。原出願、米国特許出願番号07/805,700の図1(即ち本明細書中の図26を参照されたい)に示されているように、DIDモデルにおいては、確率メッセージソースは事前確率分布によって一組の候補ストリングから有限ストリングMを選択する。画像シンセサイザ(イメージャ(imager)の別名)はメッセージを理想的な2値画像Qへ変換する。チャネルは、スキュー、ブラー、及び加法性ノイズのような印刷及び走査によって歪みを導入することにより理想的な画像を観察された画像Zへマップする。最終的に、デコーダ(復号器)は画像Zを受け取り、且つ最大事後(MAP)決定基準によってオリジナルメッセージの推定値
【0004】
【外1】
Figure 0003585523
【0005】
を生成する。
【0006】
メッセージソースとイメージャのストラクチュアは、図1に示されているように、マルコフ(Markov)ソースを用いて画像形成をモデリングすることによって形式的に捕捉される。マルコフソースに関する画像の復号は、モデルのノード及び画像平面の座標によってインデックス付けされた3次元(3D)復号トレリス(trellis :棚)を介して最良(MAP)経路を発見することを含む。MAP復号への直接のアプローチは、画像平面の各ポイントで一組の帰納的に定義付けられた尤度関数を計算するため、2次元形式のセグメンタルヴィテルビ(Viterbi )アルゴリズムを使用することにある。ヴィテルビ画像復号の時間の複雑性は、O(‖β‖×H×W)であり、ここで、‖β‖はソースモデルにおけるブランチ数であり、且つH及びWはそれぞれ画素における画像高さと画像幅である。計算は画像サイズと共に線形にのみ成長するが、絶対項においてはそれは禁止され得る。例えば、単一の公知のフォントにおけるテキストの列(コラム)に対する単純な三つの状態モデルは、300dpi(ドット/インチ(2.54cm))の解像度で走査される8.5インチ(21.54cm )×11インチ(27.94cm )の画像上で実行するために約45分かかる。従って、要求された計算量を減少させるための方法は、DIDが文書画像分析への実践的な方法(アプローチ)となるべき場合、不可欠である。
【0007】
テキスト列表記形式の場合において、実際に、画像の各行(ロー)が使用可能なテキストラインとして評価されるので画像復号が複雑化になる。これによって、例えば、ライン復号は11インチ(27.94cm )の画像(300dpiドット/インチ(2.54cm)×11インチ(27.94cm ))に対して3300回発生する。文書認識への従来のアプローチは、一般的に50より下の数字である列の実際のテキストラインにおいてのみテキスト認識を実行することによってこの問題を回避しようと試みる。これらのアプローチは、認識[2]の前にテキストラインを検出し且つ位置付けるため、水平画素射影のような単純なセグメンテーションアルゴリズムを用いることによってこれを行なう。
【0008】
従来のセグメンテーションアルゴリズムが、テキスト認識[4、5]への1DHMMベースのアプローチによるそれらの使用に類似した方法で、画像復号の前に使用され得る。しかしながら、事前復号セグメンテーションは非常に劣化した(ノイジー:雑音のある)画像に対しては特に信頼できない。さらに、従来のセグメンテーションアルゴリズムは、厳格な確率形成に基づいてないので、これらのアルゴリズムの使用はDIDの論理的利点のうちの多くを無効にする。
【0009】
【発明が解決しようとする課題】
本発明の目的は、改善されたDIDシステムである。
【0010】
本発明の目的はまた、削減された演算コストを有するDIDシステムを提供することにある。
【0011】
本発明の目的はさらに、直接(ストレートフォワード)ヴィテルビ手順の最適性を提供する削減された演算コストで行なわれる、DIDシステムを提供することにある。
【0012】
【課題を解決するための手段】
本発明は、直接ヴィテルビ手順の最適性を犠牲にせずに画像の復号の計算コストにおける削減を達成する。本発明の第1の態様によれば、画像復号システムは、ブランチアンドバウンド(分岐限定:branch−and−bound)、Aに類似した反復完了経路(iterated complete path(ICP))アルゴリズムと呼ばれる、通知された最良の第1の検索アルゴリズムと、関係ヒューリステイック探索及び最適化技術[12]を用いる。ICPは、分離可能モデルと呼ばれるマルコフソースモデルのクラスのための復号アルゴリズムである。分離可能ソースは、曖昧(ルーズ)には、水平と垂直ストラクチュアのそれぞれを表示する1Dモデルの積へ因数分解されてもよいソースである。分離可能モデルは、より形式的には、帰納的遷移ネットワーク[3]に類似するネーム付けされたマルコフサブソースの集合である。画像平面のいくつかの領域へのノードに対するエントリ(入力)を制約する位置制約条件が、モデルのノードのうちのいくつかと対応している。トップレベルサブソースは、ノードが全て特定水平位置に密に制約されている垂直モデルである。
【0013】
本発明による分離可能モデルを用いた復号は、トップレベルモデルのノードと画像の垂直次元によって定義される2D(2次元)復号トレリスを介して最良経路を見つけることを含む。垂直モデルのブランチの内のいくつかは水平モデルによってラベル付けされる。このようなブランチに対する整合スコア(採点)は、画像の適切な行に沿って水平モデルを実行することによって計算される。分離可能モデルに対する全体的な復号時間は、水平モデルを実行するのに必要とされる時間によって支配される。ICPは、大部分の水平行の完全復号を、スコア上の単純上限の計算と置換することにより水平方向のモデルが実行される回数を減少する。これらの上限はヒューリスティック(発見的)関数(機能)と呼ばれる。
【0014】
本発明の第2の態様によれば、テキスト状画像の分離可能モデルのために有用である二つのタイプのパラメータ化されたヒューリスティック関数が提供されている。一つのタイプは、テキストラインを位置付ける為に水平画素射影の共通使用に対応している。第2のヒューリスティックは、隣接行のスコアによって所定の行に対するスコアを限定する。これらの両ヒューリスティック(発見的方法)の重要な特徴は、これらのパラメータがソースモデルから自動的に推論され得ることである。
【0015】
分離可能ソースは帰納的に制約されたソースの特別の形式であり、それらはまた、事前に導入された単純ソースのクラスへノード位置制約条件を導入することによって得られる[8]。本発明の第3の態様によれば、いくつかの制約されたソースを分離可能な形式へ変換するための手順が記述される。分離手順の重要な構成要素は、小さなサブセットのノードのために一般的に供給されるユーザ指定位置制約条件をモデルの残りのノードへ伝搬するためのアルゴリズムである。
【0016】
要するに、本発明は、HMMの形式における確率有限状態(マルコフ)分離可能ソースモデルを用いた迅速なヒューリスティック検索アルゴリズムを備えるテキスト状復号システム及び方法を備える。周知のブランチアンドバウンド(分岐限定法)の後にパターン化された新しい検索アルゴリズム(ICP)は、その複雑性を有効に削減し、且つ直接DID手順の最適性を犠牲にせずに、HMM画像復号の速度を高める。「テキスト状画像(”text−like images ” )」は、テキスト状テンプレートを用いてタイプセットされたあらゆるタイプの人工的画像を意味する。これは、限定はされないが、テキスト、方程式、及び音楽を含む。テキスト状画像を組み込む文書の例は、ビジネスレター、テクニカルジャーナル、特許、及び特許出願、シートミュージック(楽譜等の紙上音楽)及び工学的図面である。
【0017】
本発明は、マルコフソースモデルとヴィテルビ復号を用いて復号トレリスを走査することから決定される経路を基本としてテンプレートのライブラリから選択された複数のシンボルテンプレートの組合せにビットマップ画像を特徴付けるためのテキスト状画像認識方法であって、前記復号トレリスは、該復号トレリスを走査するための最良経路を含みそうな第1の複数の領域と、該復号トレリスを走査するための最良経路を含みそうにない第2の複数の領域と、を含み、前記ヴィテルビ復号、画像平面の各ポイントで一組の尤度関数を計算するために用いられる2次元ヴィテルビアルゴリズムを備え、前記画像平面の各ポイントが複数のノードと該ノード間の遷移によって前記復号トレリス内でモデル化されヴィテルビ復号は、前記画像平面の各ポイントにおける各ノードへの最尤経路の尤度を計算することを備え、前記テキスト状画像認識方法は、(a)マルコフソースモデルとして分離可能モデルを使用するステップであって、該分離可能モデルはトップレベル1次元垂直モデル及び該垂直モデルのブランチに対応する水平モデルのセットとして示される2次元モデルであって、該水平モデルの各々の各完了経路は該水平モデルを介して固定された水平位置で始まり固定された水平位置で終わり、該モデルの各完了経路の垂直変位は該経路の垂直開始位置とは独立に一定である、ステップと、(b)完全な復号を行わず、最良経路を含みそうな前記復号トレリスの第1の複数の領域を識別するステップと、(c)前記復号トレリスを介する最良経路を決定するために、ステップ(b)で決定された前記第1の複数の領域内でのみ完全なヴィテルビ復号を実行するステップと、(d)ステップ(c)で決定された前記最良経路から推定されるシンボルテンプレートの組合せに基づいて、画像を示す画像若しくはテキスト文字列を生成するステップと、を備えることにより改良される、テキスト状画像認識方法である。
【0018】
【実施例】
関連ケースである米国特許出願番号07/762,290は、部分的トレースバックを有するヴィテルビ検索を用いたHMMベースのワードスポッティングシステムを記述している。この出願に提供されているHMMモデリング処理とスコアリング技術についての記述は、本明細書中に参照することによって組み込まれている。
【0019】
関連ケースである米国特許出願番号07/805,700は、HMMモデリングを用いて画像復号及び認識アプリケーションのための最適な汎用アプローチを記述しており、その内容が本明細書中に参照されることにより組み込まれている。
【0020】
他のバックグランドとして、読者は、1989年2月発行のPIEEE の257乃至285頁の77巻のNo.2においてL. R. Rabiner (ラビナー)により表されたHMM上の優れた教示内容を参照されたい。
【0021】
”Automatic Generation Of Custom Document Image Decoders (カスタム文書画像デコーダの自動的発生) ”と題された発明者のうちの二人による刊行物の内容が本明細書中に参照することによって組み込まれている。この刊行物は、関連親出願の米国特許出願番号07/805,700において提供された記述内容を要約し、且つ読者が、本発明と、親出願と本発明がいかにして異なるかを理解するために優れた教示内容を提供している。
【0022】
要するに、親出願は、画像ソースモデル、チャネルモデル、及びデコーダを必要とする復号処理を記述している。使用されているソースモデルは、1セットのノードと、各ノードへ指定された遷移のセットとから構成される有限状態ネットワークを有するマルコフソースモデルである。ネットワークは初期状態及び最終状態によって特徴付けされる。各遷移は、テンプレート、ラベル又はメッセージストリング、遷移確率、及び2次元整数ベクトル変位を備える4組型(4−tuple)の属性にそれ自体対応する。復号は、初期から最終状態までのネットワークを介して最尤経路を決定することを含む。それが達成されると、最尤経路の遷移に対応するメッセージストリングが、復号された画像の記述を形成するために連結される。各メッセージストリングも最尤経路の遷移と対応するテンプレートをオーバーラップすることによって入力画像の版を再構築するために使用されることもできる。
【0023】
一般に各ノードへ多くの遷移が生じるので、親出願において説明されるように、最尤経路を決定するために公知のヴィテルビアルゴリズムを基にした探索アルゴリズムが、各画像位置とすべてのノードへの各遷移に対して反復し、且つ遷移を通過した後でノードと画像位置において終了する最良経路の尤度(確度)を計算することによって使用され得る。この計算の一部は、遷移のテンプレートが画像ポイントの近傍において復号されるべき画像領域に対応する尤度を計算することを含む。
【0024】
本発明は、探索アルゴリズムにおける改良に係り、各ノードへの遷移の削減されたセットに対するスコアを計算する方法を特に教示し、且つ当該遷移の削減された数がノードへの全ての可能な遷移の数より実質的に小さくなる。計算が非常に規則的なので、遷移スコア計算の回数を削減することによって、画像を復号するために必要とされる計算時間がほぼ比例して実質的に短縮される。反復数は、遷移のスコアリングを限定するために一つ又はそれより多くのヒューリスティックス(発見的方法)を用いることによって削減される。言い換えれば、最良経路を含みそうもないような特定の遷移が廃棄されるのを可能とし、これによって計算時間を減らされることになる。
【0025】
親出願ケースにおいて引用された教示内容から明確であるように、従来の技術において、全ての遷移の完全な復号は最尤経路を決定するために実行された。これとは反対に、本発明においては、分離可能モデルと呼ばれるマルコフソースモデルのクラスを使用することによって、及び適切なヒューリスティック関数と一緒にICPアルゴリズムを用いて復号を実行することによって、各遷移の完全な復号は遷移スコア上の単純な上限のより短期間の計算と置き換えられ得る。これは、可能遷移の大きな部分の廃棄を動作可能とし、これによってより長い計算時間を用いた完全な復号が一層少ない数の可能遷移に対してのみ実行されることが必要とされる。多くの長時間の遷移のスコア計算のより短時間のヒューリスティックスコア計算による置換は、以下に説明されるように、一つの実施例において11の因子だけ、他の実施例において19の因子だけ、本発明による全体的計算時間の顕著な短縮に対して重要な役割を有する。
【0026】
本発明は、親出願に記述されている最適な技術の上に組み立てられ、且つ読者に役立つため、親出願ケースに記述されているように、合成器(シンセサイザ)と復号処理の記述を含むことが有用である。
【0027】
スピーチ処理の本発明とその関連する技術分野において良好に設定された確率的タイプの有限状態画像ジェネレータに付随する概念を用いて、親出願即ち米国特許出願番号第07/807,700号において記述され且つ請求された発明のシステムを実行するために、それに限定されないが、一つの方法が、詳細に記述されている。
【0028】
図15は、画像合成に適用された方法を示す。画像シンセサイザ110(別名:イメージャ)は、画像ネットワーク120として表現される画像のクラスの記述、親出願の図3に示されているように、各々が特定文字のタイポグラフィモデルのパラメータをリストする画像テンプレートのライブラリ130、及び画像ネットワークによって記述されるクラスからある特定画像を指定するために使用される文字ストリング100を入力として受け取る。イメージャ110の出力は、テンプレートライブラリ130から引き出された一組の連続画像を配列することによって形成されるビットマップ画像140である。これは、画像形成処理を説明するために前もって使用された透明性のスタックに類似している。連続画像のアイデンティティ(同一性)と空間的位置は、入力ストリング100と画像ネットワーク120によって結合的に決定される。
【0029】
図16は、有限状態文法を表すために一般に使用される種類の有限状態遷移ネットワークと類似している画像ネットワーク120の例200である。画像ネットワーク200は、例えば方向付けられたブランチ235と240によって相互接続される例えば一組のノード205と210からなる。例えば、ブランチ235は、ノード205を出で、ノード210に入ると呼ばれる。ノードは状態即ち頂点と呼ばれる。ブランチは遷移即ちエッジと呼ばれる。ネットワークの二つの区別された状態は、それぞれ n I n F とラベル付けされた開始状態205と最終状態220である。各遷移は以下の四つの属性によってラベル付けされる。即ち、メッセージ、この場合、参照番号236と241のような文字のネームと、参照番号237と242のような画像テンプレートのネームと、参照番号238と243のような水平変位dと垂直変位dの各々からなる2次元変位ベクトルと、参照番号239と244のような遷移確率である。文字ラベル又は画像テンプレートは、ブランチ250の文字251において又はブランチ245のテンプレート247のようにヌル(空文字)であってもよい。遷移確率は画像復号の間は使用されるが、画像合成の間は使用されない。入力ストリングと画像ネットワークが提供されると、イメージャは、画像ネットワークのブランチを走査する出力画像を合成するが、画像位置ポインタを更新し、次いで以下のように、テンプレートライブラリから出力画像アレイ(配列)へテンプレートをコピーする。
【0030】
イメージャは、出力画像アレイの座標(0、0)へ初期化された画像位置ポインタで初期状態205において開始される。入力ストリングの最初の文字は、ノード205から出たブランチ280、235、及び285上の文字ラベル281、236、及び286と比較される。ブランチラベルの内の一つが入力文字と整合する場合、イメージャは対応するブランチを選択し、且つ以下の動作を実行する。図示するために、入力ストリングの最初の文字が’b’であると想定されたい。この場合、’b’が文字ラベル236と整合するので、イメージャはブランチ235を選択する。ブランチ235が選択された場合、イメージャは、ブランチ235に対応する画像テンプレート237のコピーを、現在画像位置(0)に位置合わせされたテンプレートの原点を有する出力アレイへ、描写する。現在画像位置は、ブランチ235と対応する変位238によってインクリメント(増分)され、(1、0)になる。最終的に、イメージャは選択されたブランチ235に従うことによりノード210へ移動される。イメージャはノード210においてこの処理を反復する。イメージャは入力ストリングの第2の文字を検査し、それをノード210を出るブランチ上のラベル241と246と比較し、次いで整合ブランチを選択する。例えば、第2の文字が’a’である場合、ブランチ240が選択される。この場合、ブランチ240に対するテンプレート242のコピーが、(1、0)の現在画像位置における出力画像アレイへ描画される。現在画像位置は、変位243によって(2、1)になるようにインクリメントされ、且つイメージャは再びノード210へ移動する。
【0031】
この処理は入力ストリングの全ての文字が処理されるまで続けられる。この時点で、イメージャは最終状態220に達成しているべきか又はヌル文字ラベルを有するブランチを選択することによって最終状態に達成することが可能であるべきである。イメージャが入力ストリングが使い果たされる時点で最終状態220に達成することができない場合、エラーが発生する。処理のある時点で、現在入力文字に整合するブランチがない場合もエラーは発生する。一つより多くのブランチが現在文字に整合した場合にも問題が発生する。これらや他の例外的な状態を処理するために上記の処理の記述を汎用化するための方法は、有限状態言語の文献において周知である。
【0032】
図17及び図18は、図16に示されている画像ネットワーク200に対する完了処理、及び入力ストリング”baa$”310を示す。図17は、ストリング310がネットワーク200によって処理される時に形成される画像320を示す。合成処理のステップ1乃至5は図18のテーブルに詳細に示されている。ステップ1の前に、イメージャはブランクの出力アレイの位置(0、0)で初期状態205にある。ステップ1の間、イメージャは、第1の入力文字311をノード205を出る三つのブランチ280、235、及び285のラベルと比較する。入力文字はブランチ235上のラベル236と整合する。イメージャはブランチ235に対応しているテンプレート237のコピー411、この場合、’b’の画像を、位置(0、0)における出力アレイへ描画し、次いでノード210即ち画像位置(1、0)へ移動する。この実施例において、すべてのテンプレートの位置合わせ(整合)ポイントはテンプレートの下部左隅であると想定される。図18の画像列において、ステップ1の開始時の画像の位置は、点’.’412によって画像410内に表わされる。ステップ1の終了時の画像位置は、 ”X” 414によって表わされる。ステップ2乃至5に対する画像420、430、440、及び450も同様に記される。
【0033】
ステップ2において、状態210で開始されるイメージャは、第2の入力文字312と、ノード210を出るブランチ240及び245上の文字241及び246と比較する。入力文字’a’はブランチ240のラベル241と整合し、これによりイメージャはテンプレート242のコピー421を配し、この場合、現在位置(1、0)における’a’の画像は、変位243によって現在位置を(2、1)へ進め、次いで状態210へ再び移動する。
【0034】
ステップ3の間、処理は第3の入力文字313に対して反復される。イメージャは、ブランチ240を選択し、テンプレート242のコピー431を位置(2、1)へ置き、現在画像位置を(3、2)へ更新し、次いでノード210へ再び移動する。
【0035】
ステップ4の間、第4の入力文字314が処理され、引き続いてイメージャがブランチ245からノード215へ進む。ブランチ245に対応する変位248が(0、0)であるので、画像位置ポインタは変更されないし、またブランチ245に対応するテンプレートラベル247がヌルテンプレートを指定するので、テンプレートは出力アレイへコピーされない。
【0036】
ステップ5の開始において、イメージャは入力ストリングを使い果たした。しかしながら、ブランチ250の文字ラベル251がヌル文字を指定するので、ブランチ250が選択されてもよい。ブランチ250に対するテンプレート252のコピー451即ち画像’m’が現在画像位置(3、2)に配置され、イメージャは状態220へ移動し、次いで画像位置が(4、0)へ更新される。この時点で、イメージャは最終状態220にあり、従って処理すべき入力文字はこれ以上存在しない。これにより、画像形成動作は首尾よく完了されることになる。この実施例は、入力ストリングシンボルと結果的に生じるビットマップ画像の間の1対1の対応である必要はないことも図示している。例えば、画像形成されるべきストリングは、ビットマップ内に組み込まれようと意図されないコード内のコメントに対応する情報をその内部に有することができる。同様に、認識装置は、その出力内に、ビットマップそれ自体内に存在しない(そのソースのような)ビットマップに関する情報を含むことができる。さらに、ビットマップシンボルはストリングシンボルとは区別されることができ(ストリング内の’$’とビットマップ内の’m’に注目せよ)、且つ認識装置がいくつかの規定条件の下で文字を自動的に生成する場合、ビットマップ内にシンボルは全く存在する必要がなくなる。
【0037】
図19は、出力ストリング590を発生するために入力ビットマップ510を復号するための画像ネットワークの使用即ち逆処理を示す。これは、本発明によって改善されるシステムの一部である。図17に提供される実施例に関しては、同様な画像ネットワーク200が使用される。テンプレート整合器520は、(図15のイメージャにおいて使用されるテンプレートライブラリ130と同じである)テンプレートライブラリ530の各要素を、親出願ケースに定義されているようなL(Z|Q)を計算する整合関数を用いて入力画像510と比較する。テンプレート整合器(matcher )の出力は、入力画像の各位置におけるテンプレートに対する数値整合スコアを含むライブラリからの各テンプレート毎に一つの一組のスコアアレイ540である。ノードスコア及びバックポインタプロセッサ550は、画像ネットワーク560のノード毎にスコアアレイとバックポインタアレイ570を計算する。ノードに対するスコアは、入力画像の各位置において位置合わせされるノードに対して親出願において定義された数値整合スコアL(n;ベクトルx)を含む。ノードに対するバックポインタアレイは、ノードへの最尤ブランチ、即ちスコアを最大とする各画像位置におけるブランチ、を識別する。ノードスコア及びバックポインタプロセッサ550への入力は、テンプレート整合器に対するテンプレート整合スコア540と、図15のイメージャ内で使用された同一画像ネットワーク120である画像ネットワーク560からのデコーダスケジュール555である。最終的に、バックトレースプロセッサ580は、画像ネットワーク560を介して経路を発生するためにバックポインタアレイ570を使用し、次いでこの経路から、出力ストリング590が経路のブランチの文字ラベルを連結することによって形成される。例えば、図17に示されている実施例では、これがストリング”baa$”を再構築する。
【0038】
ノードスコアとバックポインタプロセッサ550によって実行されると、上記のようにアレイ570を生成するアルゴリズムの一つの形式が図20に詳細に示されている。プロセッサ550は行優先順にノードスコアとバックポインタアレイ570を埋め込む。要するに、全ての行が完了するまで、次に第1の行に対する全ての値が計算され、次に第2の行に対する全ての値が計算され、同様に、順に計算されていく。各行に対する計算はまた一連の「引渡し(パス)」として編成される。各パスの間、一つの行がスコアとバックポインタアレイのいくつかのサブセットに対する各アレイに対して計算される。スケジュールによって指定されるように、x位置の増加する順番に左から右へ、又はx位置の減少する順番に右から左へ、のいずれかへ計算される。左から右へのパスは「順方向」パスと呼ばれ、右から左へのパスは「逆方向」パスと呼ばれる。パス内の各x位置において、スコア及びバックポインタは規定の順序において画像ネットワークのノードのうちのあるサブセットに対して計算される。
【0039】
図20におけるアルゴリズムは4レベルを有する入れ子形反復である。ステップ602乃至ステップ632の最も外側のレベルは行を反復する。ステップ602は行カウンタyを1に初期化する。ステップ630においては、行カウンタが画像Hにおける行の数と比較される。すべての行が計算されたのではなかった場合、行カウンタはステップ632で増分され且つ次の行が処理される。ステップ604乃至ステップ628における第2のレベルはパスを反復する。パスカウンタはステップ604において初期化され、ステップ626におけるパスの総数Kと比較され、次いでステップ628において増分される。ステップ605乃至ステップ624における第3のレベルは行カウンタyによって指定された行内の水平な位置上で反復する。三つの水平位置ポインタは同時に保持される。ポインタXは順方向パスに対して水平な位置を指定する。Xはステップ605において1に初期化され、ステップ624においてインクリメントされ、且つステップ622において行、W内の位置の数と比較される。ポインタXは後方向パスに対する水平位置である。Xはステップ605でWへ初期化され、且つステップ624でデクリメントされる。ポインタXは、ステップ608、610、及び612において、現在パスが順方向か又は逆方向かによってX又はXのいずれかへセットされる。ステップ614乃至ステップ620における反復の第4のレベルは、yによって指定された行とxによて指定された水平位置においてパスカウンタによって指定さらえたパスのノードnごとにスコアL(n、x、y)及びバックポインタB(n、x、y)を計算する。スコアL(n、x、y)とバックポインタB(n、x、y)の実際の計算は、図21に示されているステップ616において行なわれる。
【0040】
図12は、特定ノードnと画像位置(x、y)に対するノードスコアL(n、x、y)とバックポインタB(n、x、y)の計算の実施例を示している。このアルゴリズムは、隠れマルコフモデルでスピーチ認識において使用される標準的1次元動的プログラミングステップの2次元汎用化である。この計算は、全てのブランチの中から、指定された画像位置(x、y)においてノードのスコアを最大限とする指定されたノードnに入るようなブランチを見つけることを含む。対応するベスト(最良)ブランチの最大スコアと識別は、ステップ770において、スコアL(n、x、y)とバックポインタB(n、x、y)としてリターンされる。計算の行程の間、ステップ710で初期化された変数のベストスコアとベストブランチは、ベストスコアと、これまでに遭遇した対応するブランチを含む。
【0041】
ステップ715乃至ステップ765は、ノードnに入るブランチを反復する。ステップ715はブランチインデックスtをnへの第1のブランチへ初期化する。ステップ760とステップ765はnのすべてのブランチが考慮されるまで反復を繰り返す。ステップ720、725、及び730は、テンプレートQ、変位(d、d)、及びブランチtと対応する遷移確率、を検索する。これらは図16に示されている遷移又はブランチの属性に対応している。ステップ735は、ノードスコアとバックポインタプロセッサ550へ入力540として事前に供給されたテンプレートスコアアレイからの画像位置(x−dx、y−dy)におけるテンプレートQに対するテンプレート整合スコアを検索する。ステップ740はブランチtが始まるノードRの識別を検索し、次いでステップ742は画像位置(x−dx、y−dy)においてノードRに対するノードスコア値L(n、x、y)を検索する。この値は、図21においてアルゴリズムの事前の実行の間、計算された。要するに、デコーダスケジュール555は、現在計算の間、L(n、x、y)を計算するために必要とされるいかなるノードスコアも事前計算を通して利用可能であることを確実としなければならない。ステップ745は、現在ブランチに対する候補ノードスコアを計算する。最終的に、ステップ750とステップ755は、ステップ745において計算された候補スコアがベストスコアの事前の値よりも大きい場合、ベストスコアとベストブランチを更新する。
【0042】
テンプレート整合器520は、各画像位置において位置合わせされたテンプレートQ毎にL(Z|Q)を計算する。実行は直接的である。
【0043】
スケジューラ565は画像ネットワーク560からスケジュール555を生成する。スケジュールはノードスコア及びバックポインタアレイ570におけるエントリが計算される順序を指定し、且つデータの依存関係が守られることを確実とすべきである。
【0044】
バックトレースプロセッサ580は、図22に記述されている実施例のように、アルゴリズムを用いてノードスコアとバックポインタアレイ570から出力ストリング590を計算する。バックトレースプロセッサは、スタートノードnに達するまで、バックポインタアレイ内で識別されたブランチに連続的に従うことによって画像位置(W、H)における最終ノードnFからトレースバックする。このバックトレース(逆方向トレース)の間に遭遇されたブランチにおける文字ラベルは出力ストリング590を形成するために連結される。
【0045】
ステップ810は現在画像位置(x、y)を(W、H)へ初期化し、現在ノードnを最終ノードnへ初期化し、次いで出力ストリングmをヌルストリングへ初期化する。ステップ820は、tをノードスコアとバックポインタプロセッサ555によって事前に計算されたブランチB(n、x、y)へセットする。ブランチtに対する文字ラベル’c’は、ステップ830において検索され且つステップ840においてストリングmの始まりへプッシュされる。ステップ850は、nを、ブランチtが開始されるノードへ更新し、且つステップ860はブランチtに対する変位(dx、dy)を検索する。ステップ870は、変位(dx、dy)を減算することによって現在画像位置(x、y)を更新する。ステップ850において設定されたノードnの新しい値は、ステップ880において、画像ネットワークのスタートノードnと比較される。nが達成されると、ステップ890においてバックトレースが終了し、ストリングmを戻す。そうでなければ、処理はステップ820から反復される。
【0046】
本発明は本発明を再現する方法を理解し且つ学ぶために相当の数学を必要とする。読者を援助するために、引き続くセクションは以下のように編成される。
【0047】
セクション1は、分離可能なマルコフソースのクラスと、制約されたソース及び帰納的ソースの関連クラスを定義付ける。セクション2は、本発明の反復された完了パスアルゴリズム(ICP)を記述する。セクション3は、本発明のパラメータ化された水平射影及び隣接行のヒューリスティック関数を定義付ける。セクション4は、分離可能性のために制約されたソースを検査し、且つ本発明によって可能な場合は変換を実行するためのアルゴリズムを提供する。このセクションは分離の前にユーザ指定の制約条件の伝搬についても説明している。最終的に、セクション5は、ICPとヒューリスティックスを用いて使用可能な昇速(スピードアップ)を図示する実験結果を提供する。
【0048】
1.分離可能マルコフソース
このセクションはICPがベースとされる分離可能ソースの概念を発展させる。われわれは、単純マルコフソースと呼ばれる[8]に導入された画像モデルの復習を始める。単純ソースは、ノード位置制約条件を導入することによって制約されたソースへ汎用化され、及び一つのソースが他のソースを帰納的に「呼び出す(invoke)」のを可能とすることによって帰納的ソースへ汎用化される。分離可能モデルは特別なクラスの帰納的ソースとして定義付けられる。このセクションは、ソースモデルと単一フォント内の単純列のテキストに対する制約条件の実施例から結論付けされる。
【0049】
1.1 単純マルコフソース
図1に示されている単純マルコフソースGは、有限セットのN個の状態(ノード、頂点)、
【0050】
【数1】
Figure 0003585523
【0051】
と、Bに指向された遷移(ブランチ、エッヂ)のセット、
【0052】
【数2】
Figure 0003585523
【0053】
からなる指向されたグラフである。各遷移tは、それぞれtの先行値(左)状態と後続値(右)状態と呼ばれる状態対、LとRを結ぶ。二つの区分された状態は初期状態nと最終状態nである。各遷移は4組型の属性、(Q、m、a、及びベクトルΔ)と対応しており、ここで、Qはテンプレート、mはメッセージストリング、aは遷移確率、及びベクトルΔ=(Δx、Δy)は2次元整数ベクトル変位である。単純マルコフソースにおいて発見された遷移のタイプは単純遷移と呼ばれる。
【0054】
マルコフソースにおける経路πは、i=1、...、P−1である
【0055】
【数3】
Figure 0003585523
【0056】
に対する遷移t...tのシーケンスである。完了経路はLt1=nであり、且つRtp=nの経路である。サイクル又はループは、Lt1=Rtpである遷移t...tのシーケンスである。
【0057】
各経路πに対応しているのは、経路の遷移のメッセージストリングを連結することによって形成される合成メッセージ
【0058】
【数4】
Figure 0003585523
【0059】
である。単純マルコフソースは、
【0060】
【数5】
Figure 0003585523
【0061】
によって完了経路の確率分布を定義し、且つ
【0062】
【数6】
Figure 0003585523
【0063】
によってメッセージ上で確率分布を導入し、ここで、その和が完了経路に取って代わられる。さらに各経路πと対応しているのは、ベクトルξが初期位置、通常はベクトル0である
【0064】
【数7】
Figure 0003585523
【0065】
によって帰納的に定義される位置ベクトルξ...ベクトルξのシーケンスである。非形式的には、ベクトルξは、経路のithの遷移の後のグラフィックスカーソルの位置である。
【0066】
経路は、
【0067】
【数8】
Figure 0003585523
【0068】
によって合成画像Qを定義する。ここで、Q[ベクトルx]は、その局所的座標系の原点が、ベクトルxに位置付けられるようにシフトされたQを表記する。経路πに対して、我々は、
【0069】
【数9】
Figure 0003585523
【0070】
が経路の変位になるように定義し、且つ
【0071】
【外2】
Figure 0003585523
【0072】
pとtがπの関数であり、且つベクトルξ
【0073】
【外3】
Figure 0003585523
【0074】
がベクトルξにも従属することに注目されたい。この依存関係は、この場合、例えば、ベクトルξ(n;ベクトルξ)と書き込むアンビギュイテイ(誤解)を避けるために必要な時だけ明示的に表示される。
【0075】
MAP復号は、
【0076】
【数10】
Figure 0003585523
【0077】
によって定義される経路尤度関数を最大とする
【0078】
【外4】
Figure 0003585523
【0079】
を見つけることを含む。ここで、L(Z|Q[ベクトルx])は位置、ベクトルxにおいて位置合わせされたQに対するテンプレート整合スコアであり、且つチャネルモデルに依存する。MAP復号は、Ωが整数束[O、W]×[O、H]である各(n、ベクトルx)∈N×Ω6において尤度関数、
【0080】
【数11】
Figure 0003585523
【0081】
を計算することによって実行されてもよい。この記述は、xが右方向へ大きくなり、yが下方へ大きくなり、且つ上部左コーナがx=y=0である画像座標システムを使用する。その表示法
【0082】
【数12】
Figure 0003585523
【0083】
は、πが、画像位置、ベクトルξにおいてノードnからベクトルxにおけるノードn迄の経路であるという制約条件を表す。尤度関数、L(n;ベクトルx)は、セグメンタルヴィテルビ(動的プログラミング)アルゴリズムを用いて、
【0084】
【数13】
Figure 0003585523
【0085】
によって帰納的に計算されてもよい。
【0086】
式(10)における先の確率項log Pr{π}は、非常に劣化した画像を除く、観測項
【0087】
【外5】
Figure 0003585523
【0088】
によって通常は支配される。従って、これは好適な近似としてドロップされ得る。尤度関数L(n;ベクトルx)は、スタートノードn、初期経路位置ベクトルξ、及びソースモデルGに暗示的に依存する。これらを明示的に表示する必要がある時、我々は、L(n、ベクトルx|n;ベクトルξ;G)と書き込む。
【0089】
1.2 制約されたマルコフソース
列境界、ページ数、及び脚注の位置のような文書レイアウトの多くの態様が、画像の特徴の絶対的位置における制約条件の項において当然表現されることができる。制約されたマルコフソースは、文書復号パラダイム内のこのような制約条件を表現し且つ検査するためのフレームワークを提供する。制約されたマルコフソースは、ノードのうちの幾つか又はすべてが、図2において示されているように、x及び/又はyの位置制約条件によってラベル付けされる単純ソースである。非形式的には、位置制約条件は、経路がノードを通過する時、x又はyの値の上の上限及び下限を指定する。形式的には、制約ソース内の経路のある遷移tに対してRtj=nである場合、
【0090】
【数14】
Figure 0003585523
【0091】
となる。
【0092】
【外6】
Figure 0003585523
【0093】
である場合、我々は、ノードnがxにおいて密に制約されているという。同様に、
【0094】
【外7】
Figure 0003585523
【0095】
の場合、我々は、ノードがyにおいて密に制約されているという。ソースの開始及び終了ノードは、
【0096】
【外8】
Figure 0003585523
【0097】
の場合、xとyの両方において一般的に密に制約されている。
【0098】
制約されたソースは、
【0099】
【数15】
Figure 0003585523
【0100】
によって、許容された完了経路上で確率分布を定義する。ここで、γは、確率が1の和をとるように導入された正規化因子である。γが経路独立定数であるので、それは復号計算へ入らない。制約されたソースに対して、式(11)は制約条件を満たす経路へ最大化を制御することによって変更され、さもなければ、式(13)は、
【0101】
【数16】
Figure 0003585523
【0102】
となり、これは復号アルゴリズムへの単純変更を表す。便宜上、われわれは、xについての制約条件を通常は省略し、且つ式(16)を単純に式(13)として書き込む。
【0103】
式(16)が示すように、位置制約条件の計算効果は、ノードに対する復号束を、画像平面のサブセットへ、制限することである。これによって、位置制約条件は、標準ヴィテルビ復号と共に使用される時、有効な計算の節約を提供することになる。
【0104】
1.3 帰納マルコフソース
ほぼ6500ブランチと1800ノードを含む、[8]において記述されているイェローページ列モデルのような大型のソースモデルの展開は、モデルを階層的に記述することによって円滑化される。階層の記述に対する形式的基本は、図3に示されている帰納マルコフソースである。帰納的ソースは、各々が、遷移の追加のタイプを含み得ることを除いて、制約されたマルコフソースに類似しているネーム付けされたサブソースG、G...Gの集合である。帰納的ブランチは、遷移確率aとサブソースの内の一つのネームSによってラベル付けされる。帰納的ブランチの解釈は、ネーム付けされたサブソースのコピーを表示することである。サブソースの内の一つは帰納的ソースのトップレベルのサブソースとして指定され、且つGとラベル付けされる。帰納的ソースの開始と最終ノードはGのそれらであるように定義付けられる。
【0105】
帰納的ソースのサブソースは、第1のサブソースが第2のサブソースのネームによってラベル付けされた帰納的ブランチを含む場合、一つのサブソースから他のサブソースへのブランチを有する方向付けされた依存関係グラフ内のノードとして観察されてもよい。帰納的ソースの依存関係グラフが非周期グラフである場合、ソースは、帰納的ブランチが全く残らなくなるまで、G内の各帰納的ブランチtを、Sのコピーと、繰り返し置換することによって導かれる制約されたマルコフソースと等しい。図4は、拡張の一つのステップを示している。
【0106】
拡張処理は依存関係グラフが非周期である場合は終了する。
【0107】
【外9】
Figure 0003585523
【0108】
と表記された結果的に生じる「平坦化」されたソースは、基本的な遷移のみを含む。依存関係グラフが周期を有する場合、帰納的ソースは、制約されたソースに等しくはないが、コンテクストフリーな文法[3]の帰納的遷移ネットワークに対応する。我々は、本明細書中においては依存関係グラフが非周期であると仮定する。
【0109】
帰納的ソースに相対する画像の復号は、等しく制約されたソース
【0110】
【外10】
Figure 0003585523
【0111】
に関してそれを復号することを意味するように定義され、これによって、例えば、n∈Gに対して
【0112】
【数17】
Figure 0003585523
【0113】
が得られる。我々は、最終ノード尤度L(n;W、H)のみに最終的に興味があるので、トップレベルサブソースG内のノードに対してのみ、L(n;ベクトルx)を明示的に計算するので充分である。図4即ち最大経路スコアとしての
【0114】
【外11】
Figure 0003585523
【0115】
の定義を考慮してみると、式(16)が
【0116】
【数18】
Figure 0003585523
【0117】
として、G内の遷移によって書き込まれてもよいことを観察することは難しくない。ここで、原始的遷移に対して、我々は、
【0118】
【数19】
Figure 0003585523
【0119】
と定義する。帰納的ブランチが可変サイズの画像領域をスパンすることもあるので、ベクトルxに対して入れ子形の最大化が導入される。
【0120】
1.4 分離可能マルコフソース
【0121】
【外12】
Figure 0003585523
【0122】
が、
【0123】
【外13】
Figure 0003585523
【0124】
における全ての完了経路πに対して同一である場合、帰納的ソースGは定数yの変位を有するといわれる。帰納的遷移に対応するサブソースが定数yの変位、
【0125】
【外14】
Figure 0003585523
【0126】
を有する場合、我々は、原始的ブランチの変位から類推して、遷移のyの変位が、
【0127】
【外15】
Figure 0003585523
【0128】
であると定義する。Gの各ノードがxにおいて密に制約される場合、及びSがG内のすべての帰納的ブランチtに対して定数yの変位を有する場合、帰納的ソースは分離可能であると言われる。
【0129】
Gが分離可能である場合、式(18)におけるベクトルxの最大化は、Lがxにおいて密に制約され、且つ
【0130】
【外16】
Figure 0003585523
【0131】
が定数yの変位を有するので、
【0132】
【外17】
Figure 0003585523
【0133】
における値へ減少する。さらに、各n∈Gがxにおいて密に制約されるので、式(18)は、
【0134】
【数20】
Figure 0003585523
【0135】
へさらに減少され、ここで、xとyの座標が明示的に示されている。式(20)における固定パラメータが関数引数としてドロップされ且つ我々が、
【0136】
【数21】
Figure 0003585523
【0137】
と定義すれば、式(20)は、
【0138】
【数22】
Figure 0003585523
【0139】
へさらに簡素化され、この式は、F(t;y)によって提供されたセグメントスコアを有するyにおける1次元セグメンタルヴィテルビ帰納として解釈されてもよい。
【0140】
tが単純遷移である場合、F(t;y)は、入力画像と画像位置(χRt、y)におけるテンプレートQの間の整合スコアである。tが帰納的遷移である場合、F(t;y)は、画像位置(χnI(St)、y−Δy)におけるノードn(S)から画像位置(χnF(St)、y)におけるノードn(S)へのS内の最良経路を見つけることによって計算される。
【0141】
【外18】
Figure 0003585523
【0142】
の全ての完了経路が同じyの変位を有するので、従って、ノードn(S)からあらゆる他のノードn迄の
【0143】
【外19】
Figure 0003585523
【0144】
内の経路の変位はnのみに依存することになる。それゆえ、任意のyに対してF(t;y)を計算する際、
【0145】
【外20】
Figure 0003585523
【0146】
のノードはyにおいて密に制約されているように観察されてもよい。これによって計算はxにおいて1次元帰納へ減少される。結果的に、分離可能なソースに対する全体的な復号計算は、F(t;y)の値を計算する一組の独立水平帰納からなり、この後に式(22)を計算する単一垂直帰納が続いて行なわれる。
【0147】
1.5 テキスト列の実施例
図5は、[8]に記述されている単純ソースモデルに類似する12ptアドーベタイムズローマン(Adobe Times Roman )におけるテキストの列に対する単純ソースモデルを示している。我々は、概念とアルゴリズムを図示すため、この出願によってこの例を使用する。テキスト列ソースの動作は、ソースモデルの制御下での画像平面に対して移動するイメージャオートマトンによって説明されることができる。状態nにおいて、イメージャは垂直のホワイトスペースを生成する。自己遷移の各走査はイメージャを一行下へ移動させる。ある点において、イメージャはテキストラインの頂部へ到達し、次いで水平テキストラインの作成を表す状態nへ入る。nへの遷移の変位(0、34)はテキストのベースラインへイメージャを下げるが、34はベースライン上のフォント高さである。nにおける自己遷移はフォントと水平ホワイトスペースの個々の文字に対応する。テキストラインの最後において、イメージャはベースラインの下のフォント深さ(デプス)、13だけ下へ移動し、次いでnに入る。この時点で、イメージャは最終状態へ出るか、又は次のテキストラインを準備するために左マージンへ戻るために「キャリッジリターン」状態nに入る。
【0148】
表1は、図5のテキスト列ソースに対するノード位置制約条件のセットを示す。Cとラベル付けされた列はユーザ指定制約条件を含み、且つ残りの列は、以下に説明されるように、制約条件の伝搬に関する。この実施例が図示するように、初期及び最終状態は、画像平面の上部左及び下部右コーナーのそれぞれへ通常は密に制約される。nとn上のxの制約条件は、(テキストそれ自体の前び後のホワイトスペースを含む)各テキストラインを列の幅全体を強制的にスパンさせる。一様性のために、全てのノードは制約によってラベル付けされる。且つ明示的制約条件が供給されないところには[−∞、+∞]が仮定される。
【0149】
【表1】
Figure 0003585523
【0150】
表1:図5のテキスト列ソースに対する初期(ユーザ指定)及び伝搬された制約条件。例えば、(a)xにおける制約条件。(b)yにおける制約条件。
【0151】
図6は、図5と表1によって定義された制約されたソースに等しい帰納テキスト列ソースモデルを示す。このモデルは、この出願において後で記述される分離手順を用いて自動的に構築された。サブソースGは、ラインのトップからベースラインまで及びベースラインからラインボトムまでの垂直変位を含む水平テキストの単一ラインの発生をモデリングする。サブソースGは右から左へのキャリッジリターン(復帰)である。
【0152】
トップレベルソースGの各ノードは、表1(a)から検証されてもよいように、xにおいて密に制約される。さらに、Gを介する各完了経路はyの変位47を有し、且つGを介する各完了経路はyの変位0を有する。このように、テキスト列ソースは分離可能である。
【0153】
2. 反復された完了経路(ICP)アルゴリズム
分離可能ソースを用いた復号への直接アプローチは、全てのt∈G及びy∈[O、H]に対するF(t;y)を最初に計算し、次いで式(22)を使用することである。このような手順はヴィテルビ復号に効果的に対応し、これにより計算上の節約を全く呈示しない。
【0154】
本発明による反復された完了経路(ICP)アルゴリズムは、最良経路
【0155】
【外21】
Figure 0003585523
【0156】
上の(t;y)に対するF(t;y)の値だけが、
【0157】
【外22】
Figure 0003585523
【0158】
のリカバリング(復元)に事実上関連しているという観察に基づく。要するに、残りの値は、
【0159】
【外23】
Figure 0003585523
【0160】
が本当に最良経路であることを検証するために必然的に計算される。ICPは、
【0161】
【外24】
Figure 0003585523
【0162】
上にない(t;y)に対してできるだけ少ない回数でF(t;y)を評価することによって全体的な復号計算を削減しようと試みる。
【0163】
ICPは以下の補題に基づき、その証明は直接である。Uは上限Fが各tとyに対して、
【0164】
【数23】
Figure 0003585523
【0165】
となるような関数であると仮定されたい。各経路πに対しては、U(π)を、
【0166】
【数24】
Figure 0003585523
【0167】
によって定義させ、且つF(π)を同様に定義させる。F(π)が、式(10)によって提供される経路尤度L(π)であることに注目されたい。
【0168】
【外25】
Figure 0003585523
【0169】
が、すべてのπに対して
【0170】
【外26】
Figure 0003585523
【0171】
となるようにUを最大とする完了経路であると想定されたい。従って、
【0172】
【数25】
Figure 0003585523
【0173】
とすると、
【0174】
【外27】
Figure 0003585523
【0175】
もFを最大とし、従ってLも最大となることを示すことは簡単である。
【0176】
ICPはU関数のシーケンスを最大とする完了経路のシーケンスを見つける。最初に、Uは、計算的に評価するのに多かれ少なかれFよりも高価であると想定されるヒューリスティック(heuristic )と呼ばれる上限関数Hによって提供される。ICPが進行すると、Uは、Hの値の内のいくつかを、実際に画像の行を復号することによって計算されるFの値と、置換することによって詳細化(リファィン)される。ICPは、
【0177】
【外28】
Figure 0003585523
【0178】
における各遷移に対して
【0179】
【外29】
Figure 0003585523
【0180】
である時に終了する。
【0181】
基本的なICP手順が図7に示されている。ICPへの入力は、分離可能なマルコフソースのトップレベルのサブソースG、任意のt及びyに対してF(t;y)を計算するために呼び出され得る手順、及びH(t;y)を計算する手順である。ICP手順は、(t;y)によってインデックス付けされる二つの内部データアレイを保持する。アレイUのエレメントは反復が開始される前にHの値によって初期化される。上記のように、Uのエレメントのうちのいくつかが反復の行程の間にFの実際の値によって更新される。アレイAの各エレメントは、Uの対応するエレメントが上限(H)スコアか実際の(F)スコアかを示すブールフラグ(Boolen Flag )である。U(t;y)=F(t;y)の場合、;A(t;y)=真である。
【0182】
反復の各パス(引き渡し)の間、式(22)はFの代わりにUを用いて動的プログラミングによって計算され、且つ最良経路
【0183】
【外30】
Figure 0003585523
【0184】
が決定される。各遷移
【0185】
【外31】
Figure 0003585523
【0186】
ごとに、アレイエレメント
【0187】
【外32】
Figure 0003585523
【0188】
が上限スコアである場合、それは、
【0189】
【外33】
Figure 0003585523
【0190】
と置き換られ、且つ
【0191】
【外34】
Figure 0003585523
【0192】
が更新される。反復は、
【0193】
【外35】
Figure 0003585523
【0194】
が、
【0195】
【外36】
Figure 0003585523
【0196】
ごとに実際のスコアになるまで継続される。先の補題は、最終の
【0197】
【外37】
Figure 0003585523
【0198】
が完全ヴィテルビ復号の結果に等しいことを保証する。
【0199】
基本的なICPアルゴリズムは、
【0200】
【外38】
Figure 0003585523
【0201】
の更新された値が詳細化された上限を近傍のアレイエレメントへ伝搬するのを可能とすることによって拡張されてもよい。その実施例は次のセクションにおいて提供される。
【0202】
3.ICPヒューリスティック関数
ICPにおけるヒューリスティック関数は、各帰納的遷移tに対する実際のスコア、
【0203】
【数26】
Figure 0003585523
【0204】
に対する上限H(t;y)であり、ここでnとnがSの初期及び最終ノードである。このセクションは、二つのタイプのヒューリスティック関数を展開する。重み付けされた射影ヒューリスティックは、水平射影プロファイルベクトルzに関してF(t;y)上の上限であり、ここでzは、観察された画像Zの行i内の1の数である。隣接行ヒューリスティックは、F(t;y−1)又はF(t;y+1)に関してF(t;y)上の上限である。それは、
【0205】
【外39】
Figure 0003585523
【0206】
の新しく計算された値に隣接するUへのエントリを更新するためにICP内の各パスの最後に使用されることができる。
【0207】
一般に、ヒューリスティック関数の形式はチャネルモデルに依存する。このセクションは非対称なビットフリップチャネルを想定し、このチャネルにおいて、理想的な画像Qの各画素が、観察された画像Zの形成の間、独立して摂動される。Z内の1個の1として残存するQ内の前景(黒、1)の確率はαである。同様に、1個の0として観察される1個の0の確率はαである。ノイズパラメータは画像に対して一定していると仮定される。これらの仮定によって、我々は、以下の式、
【0208】
【数27】
Figure 0003585523
【0209】
を示すことができ、ここで、
‖Q‖はQ内の1の数を表記し、且つQ∧ZはQとZのビット形式の論理和(AND)である[8]。通常、本明細書中において我々が仮定するように、αは0.5より大きいか又は等しく、且つαも0.5より大きいか又は等しい。
【0210】
Qの各画素はチャネルによって独立して摂動されるので、引き続いて、固定されたQに対する‖Q∧Z‖は、平均α‖Q‖と分散α(1−α)‖Q‖を有する二項式分布確率変数となる。このセクションにおけるヒューリスティックス(発見方法)は、この分布を正規分布と近似させることに基づく。
【0211】
3.1 重み付けされた射影ヒューリスティック
重み付けされた射影ヒューリスティックは、テキストラインを検出ための共通のアドホック(その場限りの)アプローチの厳密な確率の定式化である。Pr{π}は1より小さいか又は等しい、そして‖Q∧Z‖は‖Q‖より小さいか又は等しいので、この式は、式(10)と(27)から、引き続いて、
【0212】
【数28】
Figure 0003585523
【0213】
となり、ここで、
【0214】
【外40】
Figure 0003585523
【0215】
簡素化のためにQと書き込まれる。重み付けされた射影ヒューリスティックは、観察された画像の水平射影プロファイルから計算された‖Q‖の最尤(ML)推定値を有するH(t;y)として式(28)の右手側を使用する。
【0216】
ベクトルqが基本的(下にある)テンプレートQの水平射影プロファイルを表記する場合、
【0217】
【数29】
Figure 0003585523
【0218】
となり、且つW−qはQの行i内の0の数である。重み付けされた射影ヒューリスティックは、ベクトルqが所定のソースから全てのQに対して同じ形状を有するという仮定に基づく。これによって、
【0219】
【数30】
Figure 0003585523
【0220】
となり、ここでベクトルhは1の和を取る非負定数のソース依存ベクトルである。単純テキストラインソースに対して、プロファイルベクトルhは、関連文字頻度によって重み付けされた個々の文字テンプレートのプロファイルの線形の組み合わせとして計算されてもよい。
【0221】
各テンプレート画素はチャネルによって独立して摂動されるので、これによって、Qを加算したベクトルzの構成要素は独立し、且つ平均値、
【0222】
【数31】
Figure 0003585523
【0223】
と、分散、
【0224】
【数32】
Figure 0003585523
【0225】
によって二項式に分布されることになる。
【0226】
二項分布が正規分布として近似された場合、
【0227】
【数33】
Figure 0003585523
【0228】
となる。
【0229】
【0230】
【外41】
Figure 0003585523
【0231】
を示す‖Q‖の最尤(ML)推定値は、式(33)の対数をとり、‖Q‖に対して微分し、且つゼロへ等価することによって見付けられる。チャネルがほぼ対称であると想定すると、「αはαにほぼ等しい」となり、結果的に生じた推定値は、
【0232】
【数34】
Figure 0003585523
【0233】
へ簡素化される。
【0234】
分子の第2項は一定した正のバイアス項である。さらに、仮定により、αとαは共に0.5を超えるので、分母は正となる。我々は上限に関心があるので、従って、式(34)は分子の第二項を省略することによってさらに簡素化されてもよく、これによって行射影zの線形の組み合わせである推定値を生じることになる。引き続いて、重み付けされた射影ヒューリスティックは、この線形推定値を減算し、式(28)を得て、これによって、
【0235】
【数35】
Figure 0003585523
【0236】
を提供する。ここで、
【0237】
【数36】
Figure 0003585523
【0238】
は定数である。
【0239】
図23は重み付けされた射影ヒューリスティックがどのように計算され得るかを示す擬似コードである。
【0240】
式(36)がチャネルパラメータの関数としてkwpを定義するが、手動最適化、又はサンプルデータからのトレーニングのような好適な値を決定するために他の手順が使用されることもできる。
【0241】
3.2 隣接行ヒューリスティック
隣接行ヒューリスティックはF(t;y)が通常は一つの行から次の行へ大きく変化しないという観察を形式化する。それゆえ、ICPパスの間に計算されたFの値はUにおける初期境界より密であってもよい隣接値上の上限を推論するために使用されることができる。
【0242】
隣接行ヒューリスティックは、y−1において終了する、
【0243】
【外42】
Figure 0003585523
【0244】
を介する最良経路が、y、即ち、
【0245】
【数37】
Figure 0003585523
【0246】
において終了する最良経路と同じである。従って、
【0247】
【数38】
Figure 0003585523
【0248】
となり、式(38)は、合成テンプレート
【0249】
【外43】
Figure 0003585523
【0250】
の単純な垂直シフトと対応する。もし、我々が、
【0251】
【数39】
Figure 0003585523
【0252】
であると定義すれば、我々は、
【0253】
【数40】
Figure 0003585523
【0254】
を得て、且つこの式(40)は式(27)と組み合わせられることができ、且つ、
【0255】
【数41】
Figure 0003585523
【0256】
を導出するために簡素化され得る。ここで、
【0257】
【数42】
Figure 0003585523
【0258】
であり、且つ
【0259】
【数43】
Figure 0003585523
【0260】
はQの下限上の前景画素のセットであり、且つ
【0261】
【数44】
Figure 0003585523
【0262】
はQの上限上の背景画素のセットである。
【0263】
01の各エレメントがyを増加する方向の0→1の遷移に対応しており、且つQ10の各エレメントは1→0の遷移に対応しているので、これにより‖Q01‖=‖Q10‖となる。我々は、画像ソースがエルゴード的(ergodic )であると仮定し、これによって、
【0264】
【数45】
Figure 0003585523
【0265】
となり、ここで、
【0266】
【数46】
Figure 0003585523
【0267】
【数47】
Figure 0003585523
【0268】
はQから独立したソースの特性である。
【0269】
ここで、‖Q10∧Z‖と‖Q01∧Z‖は、統計的に独立しており、且つ、平均、α10‖Q‖と(1−α)p10‖Q‖、及び分散α(1−α)p10‖Q‖とα(1−α)p10‖Q‖によって二項式に分布される。これによって、ΔFの平均値は、
【0270】
【数48】
Figure 0003585523
【0271】
であり、且つ分散は、
【0272】
【数49】
Figure 0003585523
【0273】
である。正規近似を用いると、δは、高い確率を有する
【0274】
【数50】
Figure 0003585523
【0275】
を保証するために選択されてもよい。例えば、δ=3である場合、式(50)の確率は0.9987である。式(48)と(49)を結合し且つ再調整した後で、式(50)は、
【0276】
【数51】
Figure 0003585523
【0277】
となり、ここで、
【0278】
【数52】
Figure 0003585523
【0279】
となる。充分に大きな‖Q‖に対しては、∈は定上限によって置換されるか、又は全体的にドロップされてもよい。
【0280】
我々は、次に、式(27)を用いてF(t;y)に関して‖Q‖に対する上限を見つける。‖Q∧Z‖は平均値α‖Q‖と分散α(1−α)‖Q‖を有するので、正規近似は、
【0281】
【数53】
Figure 0003585523
【0282】
によって下限L(Z|Q)へ使用されることができ且つδが適切に選択される。以前のように、∈は大きな‖Q‖に対する定上限によって置換されてもよい。F(t;y)に対する
【0283】
【外44】
Figure 0003585523
【0284】
の寄与が無視された場合、我々は、
【0285】
【数54】
Figure 0003585523
【0286】
を得る。最終的に、式(51)と(56)が結合され、次いで以下の数式を提供するために再調整される。
【0287】
【数55】
Figure 0003585523
【0288】
と∈がドロップされた場合、これはさらに、
【0289】
【数56】
Figure 0003585523
【0290】
へ簡素化され、且つ隣接行ヒューリスティックは、
【0291】
【数57】
Figure 0003585523
【0292】
となる。
【0293】
図24は隣接行ヒューリスティックがどのようにして計算され得るかを示す擬似コードである。
【0294】
式(61)がF(t;y−1)に関してF(t;y)を限定するので、同様の境界が、iの他の値に対して、F(t;y±i)に関して導出され得る。さらに、以前のように、データからの手動最適化及びトレーニングのような手順がκarをセットする時に式(59)の代わりとして使用され得る。
【0295】
3.3 テキスト列の例
図8は、図6に示されている水平テキストラインサブソースGに対する射影重み付け関数を示す。関数は、大文字と小文字、ディジット(数字)、並びに8句読記号からなる12pt(ピッチ)のアドーベタイムズローマンフォントのサブセットに対して個別の文字射影関数を重畳することによって計算された。重畳された射影は、ランダムテキストの体内にそれらの相対する発生頻度によって重み付けされた。
【0296】
図9は、ランダムタイムズローマンテキストの10ライン(行)を含む画像を示す。サブソースGに対する実際のスコアFと重み付けされた射影ヒューリスティックHwpの対応する値は、画像行yの座標の関数として図10に示されている。
【0297】
4. 帰納的ソースを分離可能形式へ変換すること
ICPは画像ソースモデルが分離可能であることを必要とする。いくつかの状態において、ユーザによって作成されたモデルは分離可能であり、且つICPが直接適用され得る。しかしながら、1クラスの画像の自然なストラクチュア(構造)が帰納的であるが、分離可能でないモデルへ導かれるれることも良くあることである。分離可能性はモデルの形式の属性であるが、画像ソースに固有の特性ではないことに留意されたい。従って、所定の非分離可能な帰納的ソースがある分離可能ソースに等しくてもよいことも起こり得るし、且つさらに分離可能な形式への変換がアルゴリズム的に実行されることも起こり得る。このセクションは、帰納的ソースを分離可能な形式へ変換するための本発明による簡単な手順を記述している。アルゴリズムによって作成されたあらゆる分離可能な形式も元のモデルと等価であることが保証される。
【0298】
手順の第1のステップは直接的であり、且つ上記のように、入力された帰納的ソースGを等価な制約されたソース
【0299】
【外45】
Figure 0003585523
【0300】
へ平坦化することからなる。次いで、アルゴリズムは、
【0301】
【外46】
Figure 0003585523
【0302】
に等しい分離可能ソースを構築しようと試みる。制約されたソースの分離可能性を決定する主要ファクタはx内で密に制約されたノードの数である。一般的に、位置の制約条件はノードの小さなサブセットに対してのみユーザによって供給される。任意ではあるが、変換手順の第2のステップは、ユーザ指定の制約条件をモデルの他のノードへ伝搬する。手順の最終ステップは、制約されたソースの実際の分離である。
【0303】
我々は分離を最初に記述し、次いで制約条件の伝搬について説明する。
【0304】
4.1 制約されたソースを分離可能形式への変換
図11は、アルゴリズムによって生成された分離可能ソースのストラクチュアを要約する。
【0305】
【外47】
Figure 0003585523
【0306】
を制約されたマルコフソースとし、且つNTCをxにおいて密に制約されたノードのセットとする。NTCにおけるノードはトップレベルのサブソースGのノードとなる。Gの開始及び最終ノードは、
【0307】
【外48】
Figure 0003585523
【0308】
の開始及び最終ノードであるように取られる。これらのノードは上記のように一般にNTC内にある。NTCにおけるノードを接続する
【0309】
【外49】
Figure 0003585523
【0310】
の遷移はGにおける原始的遷移となる。
【0311】
ノード(n、n)∈NTC×NTCの各対(ペア)に対して、
【0312】
【外50】
Figure 0003585523
【0313】
をして、nとnを除くNTCの全てのノードと、削除されたノードに接続される全てのブランチと、nに入る全てのブランチと、nを出る全てのブランチと、nからnまでの全てのブランチと、を取り去ることによって形成される
【0314】
【外51】
Figure 0003585523
【0315】
のサブグラフを表記させる。nからnまでの
【0316】
【外52】
Figure 0003585523
【0317】
内に経路があるならば、Gはnからnまでの帰納的遷移を含み、ここで、その遷移に対応するサブソースG(ni;nf) はnとnの両方に接続された
【0318】
【外53】
Figure 0003585523
【0319】
のサブグラフである。G(ni;nf) の開始及び終了ノードは、nとnのコピーである。G(ni;nf) は、非形式的に、nにおいて終了する前に、密に制約されたノードに入らないnからnまでの
【0320】
【外54】
Figure 0003585523
【0321】
における経路を表示する。
【0322】
各G(ni;nf) が定数yの変位を有する場合、GとG(ni;nf) のサブソースのセットは分離可能なソースを形成する。そうでない場合、その結果は分離不可能な帰納的ソースである。
【0323】
上記の構成は、Gだけが帰納的遷移を含み且つ各サブソースが単一帰納的遷移によって呼び出される分離可能ソースを発生する。このモデルは、G(ni;nf) を等しいサブソースのセットへ分割し、且つ各等価クラスから一つの要素だけを保持することによって簡素化されてもよい。我々は、この簡素化された分離可能ソースを用いたヴィテルビ復号が、元の制約ソースを用いたよりもはるかに迅速であることを発見した。このように、分離が後に続く平坦化は、たとえICPが使用されない時でも、有利であるかもしれない。
【0324】
4.2 ノード位置制約条件の伝搬
制約条件の伝搬の原始的な目的は、ユーザ供給制約条件からこのモデルの残りのノードに対して含意された制約条件のセットを導出することにある。示されているように、第2の帰結は、ユーザ供給制約条件のうちのいくつかが他のノードからの制約条件の伝搬の結果として密にされることである。それゆえ、一様性の為、我々は、すべてのノードがユーザ指定制約条件を有し、且つその目的が単にそれらを密にすることにすぎないと仮定してもよい。制約条件が全く明示的に提供されない場合、C=[−∞、+∞]が想定される。xとyに対する位置制約は別々に伝搬される。簡素化のために、ベクトル量に対して事前に導入された記数法が、スカラ座標及び制約条件に言及するためにこのセクションにおいて使用される。例えば、Cは(矩形よりも)制約条件のインターバル(区間)を表記し、ξは(ベクトルよりも)スカラ経路位置を表記し、ブランチ変位はスカラである等である。
【0325】
図12は、制約条件の伝搬の基本的な原理を示す単純な例を示す。ノードn、n、及びnがユーザ供給制約条件C、C、及びCをそれぞれ有していると想定し、且つノードnにおける経路位置ξの可能な値に対してこれらの制約条件の含意を考慮されたい。まず最初に、nにおける明示的制約条件は、
【0326】
【数58】
Figure 0003585523
【0327】
が、すべての許容された経路に対して保持しなればならないことを意味する。しかしながら、nに入る経路がnを出たばかりなので、ξは、nにおける制約条件の結果として、条件
【0328】
【数59】
Figure 0003585523
【0329】
も満たす。同様に、nを残す全ての経路がnに入るので、
【0330】
【数60】
Figure 0003585523
【0331】
も保持される。従って、
【0332】
【数61】
Figure 0003585523
【0333】
即ちセット表記では、
【0334】
【数62】
Figure 0003585523
【0335】
において定義される区間
【0336】
【外55】
Figure 0003585523
【0337】
におけるξの値のみを許容するには充分である。セット表記の数式において、
【0338】
【数63】
Figure 0003585523
【0339】
は順方向伝搬制約条件と呼ばれ、
【0340】
【数64】
Figure 0003585523
【0341】
は逆方向制約条件と呼ばれ、且つ
【0342】
【外56】
Figure 0003585523
【0343】
は指定されたスカラ変位によって区間を変換する演算子である。制約条件、
【0344】
【外57】
Figure 0003585523
【0345】
は式(68)と(69)におけるCとCが、
【0346】
【外58】
Figure 0003585523
【0347】
によって置換されてもよいことを表記することによってさらに密にされる。最終的に、複数の入力又は出力ブランチを有するノードに対して式(68)と(69)は、
【0348】
【数65】
Figure 0003585523
【0349】
のそれぞれへ汎用化する。
【0350】
位置制約条件の伝搬は、開始及び最終ノードに対する解法が指定された区間を含む境界の条件を受けることになっている
【0351】
【外59】
Figure 0003585523
【0352】
ごとに、式(67)、(70)、及び(71)のセットを解くことを含む。一般的に、境界条件は、
【0353】
【外60】
Figure 0003585523
【0354】
であり、ここでWは画像の幅を示す。
【0355】
制約条件方程式を解くことは、順方向及び逆方向の制約条件が式(67)によって結合され且つソースにおけるサイクルが帰納的依存関係に導かれるので、複雑化される。難しさを軽減するための一つのアプローチは、計算された制約ができるだけ密であるという要求を緩めることにある。ユーザ指定制約条件が満たされている限り、唯一の結論は、復号トレリスが必要以上に大きくなり且つ/又は充分に密に制約されてないノードがソースを分離するために識別されることである。従って、我々は、その影響が解法区間を拡大しようとする制約条件の方程式に対する変更を探索する。特に、我々は、式(70)と(71)の右側において、
【0356】
【外61】
Figure 0003585523
【0357】
に対して代入を行なう。式(67)から我々は、以下の関係式を得る。
【0358】
【数66】
Figure 0003585523
【0359】
我々は、
【0360】
【数67】
Figure 0003585523
【0361】
を提供するため、
【0362】
【外62】
Figure 0003585523
【0363】

【0364】
【数68】
Figure 0003585523
【0365】
によって定義された
【0366】
【外63】
Figure 0003585523
【0367】
と置換することによって式(70)を変更する。同様に、式(71)は、
【0368】
【数69】
Figure 0003585523
【0369】
となる、ここで
【0370】
【外64】
Figure 0003585523
【0371】
は類似的に定義される。これらの代入の基本的な効果は順方向及び逆方向の制約条件が非干渉化され且つ独立して伝搬されることができることである。我々は順方向の制約条件の伝搬について説明する。逆方向制約条件の伝搬は類似しており、且つ各遷移の方向を逆にし、且つ各ブランチの変位をその負と置き換えることによって構築されるGの入れ換え(置換)における順方向の制約条件の伝搬へ還元する。
【0372】
【外65】
Figure 0003585523
【0373】
が有限(即ち、ユーザがノードnに対する制約条件を実際に指定した)である場合、
【0374】
【外66】
Figure 0003585523
【0375】
は式(76)の右手側に発生しない。これによって、Gにおける順方向の制約条件の伝搬は、各々の有限に制約されたノードnを二つのノードn及びnへ分割することによって導出された変更されたソースG´における伝搬に等しく、ここで、nはnの入力ブランチを継承し、且つnは制約条件
【0376】
【外67】
Figure 0003585523
【0377】
だけでなく出力ブランチも継承する。例えば、図12におけるノードnの分割は図13に示されている。
【0378】
制約されたノードを分割することの利点は、G´における順方向の制約条件の伝搬が、G´の単純な導関数(derivatives )であるグラフにおける最大及び最小の変位の経路を見つけることに等しいことである。
【0379】
【外68】
Figure 0003585523
【0380】
の上限及び下限は別々に見つけられる。下限
【0381】
【外69】
Figure 0003585523
【0382】
はユーザ指定下限
【0383】
【外70】
Figure 0003585523
【0384】
がnを残すブランチ上の変位となる図14におけるグラフを用いて計算される。下限は、nからG´の各ノードへの最小の経路変位を見つけることによって伝搬される。ノードnが分割された場合、
【0385】
【外71】
Figure 0003585523
【0386】
はnへの最小変位であり、そうでない場合、
【0387】
【外72】
Figure 0003585523
【0388】
がnへの最小変位である。上限
【0389】
【外73】
Figure 0003585523
【0390】
も、nを残すブランチの変位が上限
【0391】
【外74】
Figure 0003585523
【0392】
である時、最大経路変位を見つけることによって同様に発見される。
【0393】
単一グラフノードからの最小又は最大変位の経路を見つけることは標準的グラフ問題である[1]。G´が非ゼロの全体変位の周期を含んでもよいので、現在の状態においてはより少数の問題が発生し、これによって伝搬された制約条件の限界のうちの一つ又は両方がいくつかのノードに対して無限であってもよい。このような周期(サイクル)を検出する経路発見アルゴリズムも周知である[1]。
【0394】
図25は、制約されたソース分離手続きの動作を示す擬似コードチャートである。
【0395】
4.3 テキスト列の例
表1は、制約条件の伝搬のアルゴリズムを用いて計算された図5のテキスト列ソースの各ノードに対する
【0396】
【外75】
Figure 0003585523
【0397】
の値を示す。
【0398】
上記のように、図6は、制約されたテキスト列ソースへ分離アルゴリズムを用いた時の結果を示す。
【0399】
5. 実験結果
表2は、ヴィテルビアルゴリズムとICPの二つの変形(バリエーション)を用いてテキストページを復号するための時間を比較した単純な実験結果をまとめたものである。サンプルページは約7インチ×10.5インチ(17.78cm×26.67cm)であって、且つ各々70文字の45行で編成された図9に類似したランダムテキストを有していた。ページは300dpi(ドット/インチ)において走査され且つ2値画像の面積はW(幅)=2134且つH(高さ)=3176であった。ページ画像は、図5(ヴィテルビ復号)及び図6(ICP)からのタイムズローマンテキスト列モデルを用いて復号された。重み付けされた射影ヒューリスティックHwp、及びHwpと隣接行ヒューリスティックHarの組み合わせを有するICPに対する結果が示されている。(ヴィテルビに対して)観察されたICPスピードアップはHwpに対しては約11であり、組み合わせに対しては約19であった。
【0400】
【表2】
Figure 0003585523
【0401】
表2:ヴィテルビアルゴリズムとICPの二つの変形を用いたサンプルテキストページを復号するための時間。
【0402】
一つのヒューリスティックを有するICPが復号時間において大きなスピードアップを提供することは表2から明白である。一方、両方のヒューリスティックを有するICPはより大きなスピードアップを提供することができる。
【0403】
本発明のデコーダ(復号器)がヴィテルビアルゴリズムのみと比較してどのように動作するかを正確に示すことは読者に役立つでろう。この比較は、図6の分離可能ソースと類似している分離可能ソースが、図9の画像における第1行のようなテキストの単一ラインを有する少さなノイズフリー(ノイズなし)画像を復号するために使用される単純な実施例を使用する。画像が単一なテキストラインを含むので、図6のソースを介した最良経路が正確に一回だけGとラベル付けされた帰納的ブランチを走査することは明らかである。これによって、画像を復号することは、この走査が発生する画像の行を識別することに還元される。これはまた、Gの遷移に対してF(t;y)を最大とするyの値を見つけることを含む。表3は、重み付けされた射影ヒューリスティックHwp(t;y)と実際のスコアF(t;y)の仮説(Hypothesis)の値を行のインデッックスyの関数としてリストする。画像は高さH=10を有すると仮定される。F(t;y)の最大値が1000であり、且つy=5で発生することは表から明確である。直接ヴィテルビデコーダは、F(t;y)の10個全ての値を単純計算し且つ最大値を取ることによってこの値を見つける。ヒューリスティック探索の目的は、最大値が求められた時に実際に計算されるF(t;y)の値の数を最小とすることにある。
【0404】
【表3】
Figure 0003585523
【0405】
表3: 重み付けされた列射影ヒューリスティックHwpと実際のスコアF
【0406】
重み付けされた射影ヒューリスティックを用いたICPの動作が表4にまとめられている。「反復」の下での表の各列(コラム)は表示された反復の開始時におけるスコアアレイU(t;y)の状態を表している。Uのエレメントは最初にヒューリスティックスコアHwp(t;y)の値にセットされる。アルゴリズムが進行するにつれて、エントリの内のいくつかは実際のスコアF(t;y)によって置換される。これらのエントリは表において’’によってマークされる。
【0407】
【表4】
Figure 0003585523
【0408】
表4: 重み付けされた行の射影ヒューリスティックによるICPの間のU(t;y)の展開。アスタリスクは実際のスコアを表記する。
【0409】
ICP反復0の間、U(t;y)の最大値は1500であり、且つy=7で発生する。これによって、テキストは行7において発生するように最初に仮説が与えられる。1500の値が実際のスコアでなくヒューリスティックスコアなので、y=7における画像の行の完全な復号はソースモデルGを用いることによって実行される。F(t;7)の結果的に生じる値、700は、実際のスコアとしてタグが付けられ、且つU(t;y)アレイへ格納される。
【0410】
反復1の間、U(t;y)の最大値は1300であり、且つy=6において発生する。この値もヒューリスティックスコアなので、F(t;6)が計算され、且つその結果、900は表に配置される。この処理は、表における最大エントリがヒューリスティックスコアではなく、実際のスコアに対応するまで続けられる。反復2乃至5の間の最大値がy=8、3、5、2においてそれぞれ発生し、且つ全てがヒューリスティックスコアであることを段階を踏んで検証することは簡単である。(等しい場合、yの下位値を有する行が任意に選択される。)最後に、反復6の間、最大値1000はy=5で発生し且つ実際のスコアである。アルゴリズムはこのように終了する。最終列内のアスタリスクを数えることによって、F(t;y)の6個の値がICPアルゴリズムによって計算されたことが示されてもよい。これはヴィテルビデコーダによって計算された10個の値よりも少ない。
【0411】
表5は、重み付けされた射影ヒューリスティックに加えて、隣接行のスコアヒューリスティックが使用された時のICPの進行をまとめたものである。以前のように、U(t;y)の初期内容は重み付けされた射影スコアであり、反復の間の最大値は1500であり且つy=7で発生する。しかしながら、F(t;7)を計算し、次いでU(t;7)を700ヘ更新した後で、ICPは、次に、隣接行ヒューリスティックをy=6とy=8において適用する。この実施例において、我々はヒューリスティック係数がκar=1.25であると仮定する。従って、隣接行ヒューリスティックスコアは875(1.25×700)である。この値はU(t;6)の現在値1300よりも少ないので、及びU(t;6)はヒューリスティックスコアなので、U(t;6)の値は875へ減少される。同様に、U(t;8)も1200から875へ減少される。これらの値がやはりヒューリスティックスコアであり、従ってこれらのアスタリスクによってフラグを立てられないことに注目されたい。
【0412】
【表5】
Figure 0003585523
【0413】
表5: 重み付けされた行の射影と隣接行のスコアヒューリスティック(κar=1.25)によるICPの間のU(t;y)の展開。アスタリスクは実際のスコアを表記する。
【0414】
反復1の間、U(t;y)の最大値は1100であり、且つy=3で発生する。前のように、実際のスコアF(t;3)が計算され、且つU(t;3)は600に更新される。隣接行ヒューリスティックスコアは750である。これらが750(1000と900のそれぞれ)よりも大きいヒューリスティックスコアなので、この値は、U(t;2)とU(t;4)の両方を置換する。
【0415】
反復2の間、U(t;y)の最大値は1100であり、且つy=5で発生する。F(t;5)の値が計算され、且つU(t;5)は1000に更新される。この場合、隣接行ヒューリスティックスコアは1250であり、この値は、U(t;4)とU(t;6)の現在値よりも大きい。結果として、これらの隣接スコアは変更されない。
【0416】
最終的に、反復3の間、U(t;y)の最大値は1000であり、且つy=5で発生する。これは実際のスコアなので、アルゴリズムは終了する。ヴィテルビアルゴリズムと重み付けされたばかりの射影ヒューリスティックによるICPの両方よりも少ない、F(t;y)の3個の値のみが計算されることに注目されたい。
【0417】
【発明の効果】
本発明、改善されたDIDシステムを提供する。
【図面の簡単な説明】
【図1】画像生成のための単純マルコフソースモデルを示す図である。
【図2】制約されたマルコフソースを示す図である。
【図3】トップレベルサブソースGにおいて帰納的ブランチを示す帰納マルコフソースを示す図である。サブソースはシンプルブランチと位置制約条件も含んでよい。
【図4】帰納的遷移の拡大を示す図である。(a)元の遷移及び(b)tをサブリソースSのコピーと置換した結果を示す図である。
【図5】単純テキスト列ソースを示す図である。遷移確率、テンプレート、及びメッセージが単純化のために省略されている。
【図6】図5のソースから導出された分離可能テキスト列ソースを示す図である。
【図7】本発明の基本的反復完了パス(ICP)アルゴリズムの一つの形式を示す図である。
【図8】12ptタイムズローマンに対する射影重み付け関数hを示す図である。
【図9】12ptアドーベタイムズローマンにおけるテキストページ画像の実施例を示す図である。
【図10】本発明による重み付けされた射影ヒューリスティックHwp(点線)と図9の画像に対する実際のスコアF(実線)の一つの形式を示す図である。
【図11】制約されたソースの本発明による分離可能な形式への変換の一つの形式を示す図である。
【図12】単純な制約条件の伝搬実施例を示す図である。
【図13】順方向制約条件の伝搬に対する図12の分割ノードnの結果を示す図である。
【図14】順方向制約条件の伝搬の下限に対するグラフを示す図である。制約条件はnからの最小変位のパスを見つけることによって伝搬される。
【図15】画像シンセサイザの一つの形式を示すブロック図である。
【図16】図15のシンセサイザにおいて使用されるタイプの有限状態遷移ネットワークの実施例を示す図である。
【図17】サンプルストリング上での図16のネットワークの動作を示す図である。
【図18】図17のストリングに対して結果的に生じる出力画像ビットマップのステップバイステップの構築を示す図である。
【図19】画像ビットマップが形成されるストリングを再構築するために画像ビットマップを復号するために本発明によって使用され得る画像認識器の一つの形式を示すブロック図である。
【図20】図19のノードスコア及びバックポインタプロセッサが使用できる一つの形式のアルゴリズムの例を示すフローチャートである。
【図21】図20の処理のステップ616の間に実行される計算を示すフローチャートである。
【図22】図19のバックトレースプロセッサが使用できるアルゴリズムの一つの形式を示すフローチャートである。
【図23】重み付けされた射影ヒューリスティックの一つの形式を示す図である。
【図24】隣接行ヒューリスティックの一つの形式を示す図である。
【図25】制約されたソース分離手順の一つの形式を示す図である。
【図26】従来の技術の文書認識の通信理論を示す図である。
【符号の説明】
100 入力ストリング
110 画像シンセサイザ
120 画像ネットワーク
130 テンプレートライブラリ
140 ビットマップ画像

Claims (1)

  1. マルコフソースモデルとヴィテルビ復号を用いて復号トレリスを走査することから決定される経路を基本としてテンプレートのライブラリから選択されたシンボルテンプレートの組合せに基づいて画像を示す画像若しくはテキスト文字列を生成するために、複数のシンボルテンプレートの組合せにビットマップ画像を特徴付けるためのテキスト状画像認識方法であって、
    前記復号トレリスは、該復号トレリスを走査するための最良経路を含みそうな第1の複数の領域と、該復号トレリスを走査するための最良経路を含みそうにない第2の複数の領域と、を含み、
    前記ヴィテルビ復号は、画像平面の水平方向及び垂直方向における文字単位により表現される各ポイントで一組の尤度関数を計算するために用いられる2次元ヴィテルビアルゴリズムを備え、
    前記画像平面の各ポイントが複数のノードと該ノード間の遷移によって前記復号トレリス内でマルコフソースモデルを用いてモデル化され、
    ヴィテルビ復号は、前記画像平面の各ポイントにおける各ノードへの最尤経路の尤度を計算することを備え、
    前記テキスト状画像認識方法は、
    (a)分離可能マルコフソースモデル使用するステップであって、該分離可能マルコフソースモデルはトップレベル垂直モデルを示す1次元モデル及び該垂直モデルのブランチに対応する水平モデルを示す1次元モデルのセットとして示される2次元モデルであって、該水平モデルの各々の各完了経路は該水平モデルを介して固定された水平位置で始まり固定された水平位置で終わり、該モデルの各完了経路の垂直変位は該経路の垂直開始位置とは独立に一定である、ステップと、
    (b)完全な復号を行わず、最良経路を含みそうな前記復号トレリスの第1の複数の領域を識別するステップと、
    (c)前記復号トレリスを介する最良経路を決定するために、ステップ(b)で決定された前記第1の複数の領域内でのみ完全なヴィテルビ復号を実行するステップと、
    (d)ステップ(c)で決定された前記最良経路から推定されるシンボルテンプレートの組合せに基づいて、画像を示す前記画像若しくはテキスト文字列を生成するステップと、
    を備えることにより改良される、テキスト状画像認識方法。
JP09275294A 1993-05-07 1994-04-28 テキスト状画像認識方法 Expired - Lifetime JP3585523B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/060,196 US5526444A (en) 1991-12-10 1993-05-07 Document image decoding using modified branch-and-bound methods
US060196 1993-05-07

Publications (2)

Publication Number Publication Date
JPH06348852A JPH06348852A (ja) 1994-12-22
JP3585523B2 true JP3585523B2 (ja) 2004-11-04

Family

ID=22027967

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09275294A Expired - Lifetime JP3585523B2 (ja) 1993-05-07 1994-04-28 テキスト状画像認識方法

Country Status (4)

Country Link
US (1) US5526444A (ja)
EP (1) EP0623915B1 (ja)
JP (1) JP3585523B2 (ja)
DE (1) DE69419809T2 (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5802205A (en) * 1994-09-09 1998-09-01 Motorola, Inc. Method and system for lexical processing
US5689585A (en) * 1995-04-28 1997-11-18 Xerox Corporation Method for aligning a text image to a transcription of the image
US5689620A (en) * 1995-04-28 1997-11-18 Xerox Corporation Automatic training of character templates using a transcription and a two-dimensional image source model
US5706364A (en) * 1995-04-28 1998-01-06 Xerox Corporation Method of producing character templates using unsegmented samples
US5956419A (en) * 1995-04-28 1999-09-21 Xerox Corporation Unsupervised training of character templates using unsegmented samples
US5594809A (en) * 1995-04-28 1997-01-14 Xerox Corporation Automatic training of character templates using a text line image, a text line transcription and a line image source model
US5883986A (en) * 1995-06-02 1999-03-16 Xerox Corporation Method and system for automatic transcription correction
US5808219A (en) * 1995-11-02 1998-09-15 Yamaha Corporation Motion discrimination method and device using a hidden markov model
US6571013B1 (en) * 1996-06-11 2003-05-27 Lockhead Martin Mission Systems Automatic method for developing custom ICR engines
US6611630B1 (en) * 1996-07-10 2003-08-26 Washington University Method and apparatus for automatic shape characterization
US5956468A (en) * 1996-07-12 1999-09-21 Seiko Epson Corporation Document segmentation system
US6111985A (en) * 1997-06-06 2000-08-29 Microsoft Corporation Method and mechanism for providing partial results in full context handwriting recognition
US7263484B1 (en) 2000-03-04 2007-08-28 Georgia Tech Research Corporation Phonetic searching
JP2001291060A (ja) * 2000-04-04 2001-10-19 Toshiba Corp 単語列照合装置および単語列照合方法
US6594393B1 (en) 2000-05-12 2003-07-15 Thomas P. Minka Dynamic programming operation with skip mode for text line image decoding
US6678415B1 (en) 2000-05-12 2004-01-13 Xerox Corporation Document image decoding using an integrated stochastic language model
US6738518B1 (en) * 2000-05-12 2004-05-18 Xerox Corporation Document image decoding using text line column-based heuristic scoring
US6628837B1 (en) 2000-05-19 2003-09-30 Xerox Corporation Assist channel coding with convolution coding
US7110621B1 (en) 2000-05-19 2006-09-19 Xerox Corporation Assist channel coding using a rewrite model
US6768560B1 (en) 2000-05-19 2004-07-27 Xerox Corporation Assist channel coding with vertical block error correction
US6862113B1 (en) 2000-05-19 2005-03-01 Xerox Corporation Assist channel coding with character classifications
US20040075851A1 (en) * 2002-10-16 2004-04-22 Hecht David L. Method and apparatus for implementing spatial pointers and labeling via self-clocking glyph codes with absolute addressing for determination and calibration of spatial distortion and image properties
US7142718B2 (en) * 2002-10-28 2006-11-28 Lee Shih-Jong J Fast pattern searching
US7224836B2 (en) * 2002-12-20 2007-05-29 Palo Alto Research Center Incorporated Systems and methods for style conscious field classification
US7475061B2 (en) * 2004-01-15 2009-01-06 Microsoft Corporation Image-based document indexing and retrieval
US7729538B2 (en) * 2004-08-26 2010-06-01 Microsoft Corporation Spatial recognition and grouping of text and graphics
US7574048B2 (en) * 2004-09-03 2009-08-11 Microsoft Corporation Freeform digital ink annotation recognition
US7689037B2 (en) 2004-10-22 2010-03-30 Xerox Corporation System and method for identifying and labeling fields of text associated with scanned business documents
US7570816B2 (en) * 2005-03-31 2009-08-04 Microsoft Corporation Systems and methods for detecting text
US7526129B2 (en) * 2005-06-23 2009-04-28 Microsoft Corporation Lifting ink annotations from paper
JP5557419B2 (ja) * 2007-10-17 2014-07-23 スパンション エルエルシー 半導体装置
US7991153B1 (en) 2008-08-26 2011-08-02 Nanoglyph, LLC Glyph encryption system and related methods
US8953885B1 (en) * 2011-09-16 2015-02-10 Google Inc. Optical character recognition
US9817881B2 (en) * 2013-10-16 2017-11-14 Cypress Semiconductor Corporation Hidden markov model processing engine
CN113240324A (zh) * 2021-06-02 2021-08-10 中国电子科技集团公司第五十四研究所 一种顾及通信机制的空天资源协同规划方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4599692A (en) * 1984-01-16 1986-07-08 Itt Corporation Probabilistic learning element employing context drive searching
US4593367A (en) * 1984-01-16 1986-06-03 Itt Corporation Probabilistic learning element
US5228076A (en) * 1989-06-12 1993-07-13 Emil Hopner High fidelity speech encoding for telecommunications systems
EP0515709A1 (en) * 1991-05-27 1992-12-02 International Business Machines Corporation Method and apparatus for segmental unit representation in text-to-speech synthesis
US5233629A (en) * 1991-07-26 1993-08-03 General Instrument Corporation Method and apparatus for communicating digital data using trellis coded qam
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
US5321773A (en) * 1991-12-10 1994-06-14 Xerox Corporation Image recognition method using finite state networks

Also Published As

Publication number Publication date
US5526444A (en) 1996-06-11
EP0623915B1 (en) 1999-08-04
DE69419809D1 (de) 1999-09-09
EP0623915A1 (en) 1994-11-09
DE69419809T2 (de) 1999-11-25
JPH06348852A (ja) 1994-12-22

Similar Documents

Publication Publication Date Title
JP3585523B2 (ja) テキスト状画像認識方法
EP0546843B1 (en) Image recognition method using finite state networks
US6678415B1 (en) Document image decoding using an integrated stochastic language model
Kopec et al. Document image decoding using Markov source models
CA2171773C (en) Automatic training of character templates using a transcription and a two-dimensional image source model
US6594393B1 (en) Dynamic programming operation with skip mode for text line image decoding
KR102305230B1 (ko) 객체 경계정보의 정확도 개선방법 및 장치
CN115908908A (zh) 基于图注意力网络的遥感图像聚集型目标识别方法及装置
JP2009211432A (ja) 文書認識プログラム、文書認識装置、および文書認識方法
Amengual et al. Efficient error-correcting viterbi parsing
Blostein et al. Treatment of diagrams in document image analysis
JP2012043437A (ja) 画像処理方法及び画像処理装置
CN115359496A (zh) 手写汉字的识别方法、装置、计算设备及存储介质
JP2008299618A (ja) 画像高品質化装置、方法およびプログラム
Kam et al. Separable source models for document image decoding
Alhazov et al. Contextual array grammars with matrix control, regular control languages, and tissue P systems control
Saha Faster language edit distance, connection to all-pairs shortest paths and related problems
JP2003108187A (ja) 類似性評価方法及び類似性評価プログラム
Bartels et al. Creating non-minimal triangulations for use in inference in mixed stochastic/deterministic graphical models
US11769278B2 (en) Polygonal building extraction from satellite images
Kopec et al. Automatic generation of custom document image decoders
Martinovic et al. Earley parsing for 2D stochastic context free grammars
US20240303462A1 (en) Multi-platform neural network deployment
Ivanov et al. Probabilistic parsing in action recognition
JP2003099775A (ja) 画像処理装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040413

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040803

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040804

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080813

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080813

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090813

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090813

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100813

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110813

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110813

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120813

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130813

Year of fee payment: 9

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term