JPH07271915A - 予測合成形状によるテキスト認識 - Google Patents
予測合成形状によるテキスト認識Info
- Publication number
- JPH07271915A JPH07271915A JP7063073A JP6307395A JPH07271915A JP H07271915 A JPH07271915 A JP H07271915A JP 7063073 A JP7063073 A JP 7063073A JP 6307395 A JP6307395 A JP 6307395A JP H07271915 A JPH07271915 A JP H07271915A
- Authority
- JP
- Japan
- Prior art keywords
- image
- text
- word
- list
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 65
- 238000004458 analytical method Methods 0.000 abstract description 20
- 238000013459 approach Methods 0.000 abstract description 12
- 238000000605 extraction Methods 0.000 abstract description 11
- 238000012545 processing Methods 0.000 abstract description 4
- 230000015572 biosynthetic process Effects 0.000 abstract 1
- 230000007704 transition Effects 0.000 description 44
- 230000001174 ascending effect Effects 0.000 description 14
- 238000010191 image analysis Methods 0.000 description 13
- 238000005259 measurement Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000000135 prohibitive effect Effects 0.000 description 2
- 241000255969 Pieris brassicae Species 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000013515 script Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/268—Lexical context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
(57)【要約】 (修正有)
【目的】 既知の部分的アプローチによるメモリ増大を
回避する一方、起りうる画像形状偏向にも十分堪えう
る、より完全な下降形アプローチ。 【構成】 画像の文字テキスト認識に対する下降形技術
は、各画像ラインの左から右解析を含む。テキスト語頭
の上部及び下部テキスト輪郭が現行画像部分のビットマ
ップと比較される。距離値が生成され、比較の質を示
す。語頭が語頭のアジェンダに加えられる。距離値に基
づいて、画像部分のビットマップに対する可能語頭の上
部形状及び下部形状の類似に対応して、最良距離値を生
成しているテキスト語頭のリストがアジェンダから選択
される。選択されたリストから、拡張テキスト語頭の新
しいリストが辞書から得られてアジェンダに加えられ
る。処理は、現行画像部分が終了するまで繰り返され
る。この点で、最良総距離値を有する可能テキスト語頭
が、画像部分に対応するテキスト文字のリストとして選
択される。
回避する一方、起りうる画像形状偏向にも十分堪えう
る、より完全な下降形アプローチ。 【構成】 画像の文字テキスト認識に対する下降形技術
は、各画像ラインの左から右解析を含む。テキスト語頭
の上部及び下部テキスト輪郭が現行画像部分のビットマ
ップと比較される。距離値が生成され、比較の質を示
す。語頭が語頭のアジェンダに加えられる。距離値に基
づいて、画像部分のビットマップに対する可能語頭の上
部形状及び下部形状の類似に対応して、最良距離値を生
成しているテキスト語頭のリストがアジェンダから選択
される。選択されたリストから、拡張テキスト語頭の新
しいリストが辞書から得られてアジェンダに加えられ
る。処理は、現行画像部分が終了するまで繰り返され
る。この点で、最良総距離値を有する可能テキスト語頭
が、画像部分に対応するテキスト文字のリストとして選
択される。
Description
【0001】
【産業上の利用分野】本発明は、画像及び可能な対応テ
キスト語の下降形解析を用いるテキスト画像のテキスト
認識に関する。特に、本発明は、ライン毎に基づく画像
並びに可能な対応テキスト語頭及び語の区分的左から右
解析(piece-wise left-to-right analysis) に関する。
解析は、個別画像セグメント並びに選択されたテキスト
語頭及び/又はテキスト語の対応する上部及び下部輪郭
の左から右区分的連結(left-to-right piece-wise conc
atenation)を用いる。可能な対応テキスト語頭及び語
は、テキスト画像と先行の可能なテキスト語頭の上部及
び下部画像輪郭の間の先行比較に基づいて選択される。
キスト語の下降形解析を用いるテキスト画像のテキスト
認識に関する。特に、本発明は、ライン毎に基づく画像
並びに可能な対応テキスト語頭及び語の区分的左から右
解析(piece-wise left-to-right analysis) に関する。
解析は、個別画像セグメント並びに選択されたテキスト
語頭及び/又はテキスト語の対応する上部及び下部輪郭
の左から右区分的連結(left-to-right piece-wise conc
atenation)を用いる。可能な対応テキスト語頭及び語
は、テキスト画像と先行の可能なテキスト語頭の上部及
び下部画像輪郭の間の先行比較に基づいて選択される。
【0002】
【従来の技術】伝統的に、光学式文字認識に用いられる
ような、テキスト認識技術は、上昇形オリエンテーショ
ンに起因する。即ち、伝統的技術は、まず個別画素を識
別し、次にこれらの画素を連結構成要素またはストロー
クスに接合する。連結構成要素またはストロークスは、
文字にマップされる。語のようなより高いレベルのユニ
ットは、単に、先に認識された文字のシーケンスとして
表れるにすぎない。しかしながら、これらの伝統的技術
は、ストロークスまたは連結構成要素を分離しかつ識別
することの困難及び曖昧に決定されたストロークスまた
は連結構成要素が文字シーケンスにマップする曖昧な方
法による既知の不正確さ及び非効率さをつねに経験す
る。これらの伝統的技術は、既知の語の辞書に対抗して
認識処理の中間結果をフィルタリングすることによって
改善されるうるが、この改善された正確さは、時間及び
必要な処理パワーに関して、認識処理の非効率における
更なる増大でのみ達成される。伝統的な上昇形テキスト
認識技術と相違する、一部下降形技術が最近提案され
た。この一部下降形技術では、認識処理は、個別語の全
体的アウトラインの解析に起因する。このアプローチで
は、個別語の間をまず識別するために語間間隔(interwo
rd spacing) が用いられる。その相対長さ、そのアセン
ダー及びディセンダーの分布及びその角張った輪郭対丸
まった輪郭の分布によって規定される、語の形状分類
は、語を形成する特定のレターストロークスまたは連結
構成要素の細部よりもむしろ、解析されかつ決定され
る。この方法において、テキスト認識処理は、正しく分
離することがしばしば非常にノイジー(noisy) でかつ困
難である、ストロークスまたは連結構成要素の細部を解
析しなければならないことを回避する。
ような、テキスト認識技術は、上昇形オリエンテーショ
ンに起因する。即ち、伝統的技術は、まず個別画素を識
別し、次にこれらの画素を連結構成要素またはストロー
クスに接合する。連結構成要素またはストロークスは、
文字にマップされる。語のようなより高いレベルのユニ
ットは、単に、先に認識された文字のシーケンスとして
表れるにすぎない。しかしながら、これらの伝統的技術
は、ストロークスまたは連結構成要素を分離しかつ識別
することの困難及び曖昧に決定されたストロークスまた
は連結構成要素が文字シーケンスにマップする曖昧な方
法による既知の不正確さ及び非効率さをつねに経験す
る。これらの伝統的技術は、既知の語の辞書に対抗して
認識処理の中間結果をフィルタリングすることによって
改善されるうるが、この改善された正確さは、時間及び
必要な処理パワーに関して、認識処理の非効率における
更なる増大でのみ達成される。伝統的な上昇形テキスト
認識技術と相違する、一部下降形技術が最近提案され
た。この一部下降形技術では、認識処理は、個別語の全
体的アウトラインの解析に起因する。このアプローチで
は、個別語の間をまず識別するために語間間隔(interwo
rd spacing) が用いられる。その相対長さ、そのアセン
ダー及びディセンダーの分布及びその角張った輪郭対丸
まった輪郭の分布によって規定される、語の形状分類
は、語を形成する特定のレターストロークスまたは連結
構成要素の細部よりもむしろ、解析されかつ決定され
る。この方法において、テキスト認識処理は、正しく分
離することがしばしば非常にノイジー(noisy) でかつ困
難である、ストロークスまたは連結構成要素の細部を解
析しなければならないことを回避する。
【0003】
【発明が解決しようとする課題】この既知の技術は、語
間空間(interword spaces)を位置決めするような標準上
昇形処理を用いることを継続するので、一部下降形技術
である。そのような上昇形処理を含むことによって、こ
の既知の技術は、そのような語間空間を識別することに
含まれる上昇形技術における非効率さを保持する。即
ち、構成要素またはストロークスを識別することに対応
付けられたノイズは、大きさが変化しうる、語間空間を
識別する処理にも影響を及ぼしうる。加えて、小さい語
間空間は、語内空間(intraword space) として認識され
うるし、大きな語内空間は、語間空間として認識されう
る。それゆえに、従来の方法の、上昇形で語間空間を決
定することを試みることによって、上昇形技術における
既知の非効率さ及び不正確さが、この既知の、一部下降
形技術に再び導入される。この一部下降形技術におい
て、語の辞書のそれぞれの形状輪郭は、認識されるべき
テキスト語のビットマップ画像から生成した形状輪郭に
対抗して整合される。この既知のアプローチでは、認識
処理は、辞書に包含された各テキスト語に対するテキス
ト語形状に対抗して生成画像語形状(generated image w
ord shape)を別々に整合する。不幸にも、これ自体は、
多数の典型的な非効率さを認識処理に導入する。
間空間(interword spaces)を位置決めするような標準上
昇形処理を用いることを継続するので、一部下降形技術
である。そのような上昇形処理を含むことによって、こ
の既知の技術は、そのような語間空間を識別することに
含まれる上昇形技術における非効率さを保持する。即
ち、構成要素またはストロークスを識別することに対応
付けられたノイズは、大きさが変化しうる、語間空間を
識別する処理にも影響を及ぼしうる。加えて、小さい語
間空間は、語内空間(intraword space) として認識され
うるし、大きな語内空間は、語間空間として認識されう
る。それゆえに、従来の方法の、上昇形で語間空間を決
定することを試みることによって、上昇形技術における
既知の非効率さ及び不正確さが、この既知の、一部下降
形技術に再び導入される。この一部下降形技術におい
て、語の辞書のそれぞれの形状輪郭は、認識されるべき
テキスト語のビットマップ画像から生成した形状輪郭に
対抗して整合される。この既知のアプローチでは、認識
処理は、辞書に包含された各テキスト語に対するテキス
ト語形状に対抗して生成画像語形状(generated image w
ord shape)を別々に整合する。不幸にも、これ自体は、
多数の典型的な非効率さを認識処理に導入する。
【0004】第1に、計算の量は、辞書の大きさに関し
て、線形である。それゆえに、計算費用は、あらゆる適
当な大きさの辞書(例えば100,000語)に対して
ひどく高い。第2に、適当な大きさの辞書に対してさえ
も辞書の語のそれぞれに対応する語輪郭を記憶するため
に必要なメモリ記憶の量は、それ自体非常に大きい。最
後に、全体として各テキスト語の形状は、全体として各
画像語の形状に対抗して比較されるので、伸張、収縮ま
たは傾斜のような、辞書のテキスト語のモデル形状から
系統的に偏向する形状を有している画像語は、整合処理
の信頼性を非常にそこなう。従って、この一部下降形ア
プローチは、ノイジーでかつストロークスまたは連結構
成要素を分離することが困難な既知の問題に関してより
ロバスト(robust)なテキスト認識処理を供給するが、下
降形アプローチ自体は、ロバスト性に欠ける領域を有す
る。更に、一部下降形アプローチは、ストロークスまた
は連結構成要素を解析することから生起される非効率さ
を回避することが可能であるが、それは、既知の語の辞
書の使用から起きる非効率さを拡大する。結局、この既
知の一部下降形アプローチのメモリ要求は、下降形シス
テムの費用を禁止レベルに上昇させる。
て、線形である。それゆえに、計算費用は、あらゆる適
当な大きさの辞書(例えば100,000語)に対して
ひどく高い。第2に、適当な大きさの辞書に対してさえ
も辞書の語のそれぞれに対応する語輪郭を記憶するため
に必要なメモリ記憶の量は、それ自体非常に大きい。最
後に、全体として各テキスト語の形状は、全体として各
画像語の形状に対抗して比較されるので、伸張、収縮ま
たは傾斜のような、辞書のテキスト語のモデル形状から
系統的に偏向する形状を有している画像語は、整合処理
の信頼性を非常にそこなう。従って、この一部下降形ア
プローチは、ノイジーでかつストロークスまたは連結構
成要素を分離することが困難な既知の問題に関してより
ロバスト(robust)なテキスト認識処理を供給するが、下
降形アプローチ自体は、ロバスト性に欠ける領域を有す
る。更に、一部下降形アプローチは、ストロークスまた
は連結構成要素を解析することから生起される非効率さ
を回避することが可能であるが、それは、既知の語の辞
書の使用から起きる非効率さを拡大する。結局、この既
知の一部下降形アプローチのメモリ要求は、下降形シス
テムの費用を禁止レベルに上昇させる。
【0005】従って、本発明は、既知の部分的アプロー
チのメモリ要求を回避しかつ画像形状偏向に鑑みて増大
したロバストネスを供給するより完全な下降形アプロー
チを用いるテキスト認識システム及び方法を提供する。
特に、本発明は、個々に画像のラインの記号または各文
字の形状輪郭を別々に解析するテキスト認識システム及
び方法を提供する。本発明は、画像ラインの上部輪郭形
状と下部輪郭形状を別々に解析するテキスト認識システ
ム及び方法を更に提供する。
チのメモリ要求を回避しかつ画像形状偏向に鑑みて増大
したロバストネスを供給するより完全な下降形アプロー
チを用いるテキスト認識システム及び方法を提供する。
特に、本発明は、個々に画像のラインの記号または各文
字の形状輪郭を別々に解析するテキスト認識システム及
び方法を提供する。本発明は、画像ラインの上部輪郭形
状と下部輪郭形状を別々に解析するテキスト認識システ
ム及び方法を更に提供する。
【0006】
【課題を解決するための手段】上述した本発明の目的
は、画像の現行部分のビットマップを生成し、可能テキ
スト語の辞書から現行可能テキスト語頭のリストと、可
能テキスト語頭のリストとを生成し、現行可能テキスト
語頭のリストの各現行可能語頭に対する上部語頭輪郭及
び下部語頭輪郭を取得し、現行画像部分のビットマップ
と上部及び下部語頭輪郭の間の比較に基づいて画像部分
と少なくとも一つの可能現行テキスト語頭の間の比較値
を決定し、各現行可能テキスト語頭に対する比較値に基
づいてテキスト語頭のリストを更新し、テキスト語頭の
リストから可能テキスト語頭のリストを選択し、現行画
像部分の終わりに到達するまでステップbからfを繰り
返し、そして現行画像部分に対応するテキスト語として
可能テキスト語頭の最良のものを識別するステップを具
備する画像部分をテキスト語に変換する方法によって達
成される。
は、画像の現行部分のビットマップを生成し、可能テキ
スト語の辞書から現行可能テキスト語頭のリストと、可
能テキスト語頭のリストとを生成し、現行可能テキスト
語頭のリストの各現行可能語頭に対する上部語頭輪郭及
び下部語頭輪郭を取得し、現行画像部分のビットマップ
と上部及び下部語頭輪郭の間の比較に基づいて画像部分
と少なくとも一つの可能現行テキスト語頭の間の比較値
を決定し、各現行可能テキスト語頭に対する比較値に基
づいてテキスト語頭のリストを更新し、テキスト語頭の
リストから可能テキスト語頭のリストを選択し、現行画
像部分の終わりに到達するまでステップbからfを繰り
返し、そして現行画像部分に対応するテキスト語として
可能テキスト語頭の最良のものを識別するステップを具
備する画像部分をテキスト語に変換する方法によって達
成される。
【0007】
【作用】本発明は、可能なテキスト語頭または語のリス
トに対応する上部及び下部形状輪郭に対抗して現行画像
ラインの現行画像部分の要素的左から右比較(element-w
ise left-to-right comparison) を実行することによっ
てこれらの特徴を供給する。可能なテキスト語頭または
語のリストは、先に識別したかまたは選択したテキスト
語頭に対応する比較の質に基づいて辞書から選択され
る。解析は、可能なテキスト語頭または語のリストのそ
れぞれの上部及び下部形状輪郭に対抗して現行画像部分
のビットマップを比較することによって実行される。二
つ以上の記号とそれらに対応する上部及び下部形状の連
結が全体として取った記号のシーケンス並びに全シーケ
ンスの上部及び下部形状と同等なので、テキスト語頭と
画像部分の比較は、画像の現行ラインの次の画像部分を
現行画像ラインの現行画像部分に連結することによって
部分的に進行する。同様に、新しいテキスト語頭並びに
それらに対応する上部及び下部輪郭のリストは、種々の
新しいテキスト文字並びにそれらに対応する上部及び下
部輪郭を各先行テキスト語頭並びにその対応する上部及
び下部輪郭に連結することによって生成されうる。それ
ゆえに、解析は、部分的に進行でき、各新しいテキスト
語頭に対する上部及び下部輪郭を完全に再発する必要を
回避する。
トに対応する上部及び下部形状輪郭に対抗して現行画像
ラインの現行画像部分の要素的左から右比較(element-w
ise left-to-right comparison) を実行することによっ
てこれらの特徴を供給する。可能なテキスト語頭または
語のリストは、先に識別したかまたは選択したテキスト
語頭に対応する比較の質に基づいて辞書から選択され
る。解析は、可能なテキスト語頭または語のリストのそ
れぞれの上部及び下部形状輪郭に対抗して現行画像部分
のビットマップを比較することによって実行される。二
つ以上の記号とそれらに対応する上部及び下部形状の連
結が全体として取った記号のシーケンス並びに全シーケ
ンスの上部及び下部形状と同等なので、テキスト語頭と
画像部分の比較は、画像の現行ラインの次の画像部分を
現行画像ラインの現行画像部分に連結することによって
部分的に進行する。同様に、新しいテキスト語頭並びに
それらに対応する上部及び下部輪郭のリストは、種々の
新しいテキスト文字並びにそれらに対応する上部及び下
部輪郭を各先行テキスト語頭並びにその対応する上部及
び下部輪郭に連結することによって生成されうる。それ
ゆえに、解析は、部分的に進行でき、各新しいテキスト
語頭に対する上部及び下部輪郭を完全に再発する必要を
回避する。
【0008】距離値は、現行画像部分と可能なテキスト
語頭のリストのそれぞれとの間の整合の程度を示すため
に比較から生成される。所定数の可能なテキスト語頭ま
たは所定の距離値のしきい値以下に該当する全ての可能
なテキスト語のいずれかを含んでいる選択した語頭のリ
ストは、テキスト語頭の距離値に基づき、全ての可能な
テキスト語頭のアジェンダから選択される。一度左から
右の要素的比較が現行語または現行ラインの終わりを検
出すると、単一テキスト記号列またはテキスト語は、現
行画像ラインまたは画像部分に対応するテキスト記号列
またはテキスト語として、生成した全距離値に基づい
て、可能なテキスト語頭のリストから選択される。
語頭のリストのそれぞれとの間の整合の程度を示すため
に比較から生成される。所定数の可能なテキスト語頭ま
たは所定の距離値のしきい値以下に該当する全ての可能
なテキスト語のいずれかを含んでいる選択した語頭のリ
ストは、テキスト語頭の距離値に基づき、全ての可能な
テキスト語頭のアジェンダから選択される。一度左から
右の要素的比較が現行語または現行ラインの終わりを検
出すると、単一テキスト記号列またはテキスト語は、現
行画像ラインまたは画像部分に対応するテキスト記号列
またはテキスト語として、生成した全距離値に基づい
て、可能なテキスト語頭のリストから選択される。
【0009】
【実施例】3テープ有限状態機械(three-tape finite-s
tate-machine) は、以下の観察に基づいて語の辞書から
の情報を辞書記憶ユニットに符号化する妥当な根拠(val
idbasis) を供給する。文字の輪郭形状表現に対する既
知の方法は、連結にわたり類似である。即ち、もしx及
びyがレターの二つの記号列であり、そしてxyがそれ
らの連結であるならば、次式が成り立つ:
tate-machine) は、以下の観察に基づいて語の辞書から
の情報を辞書記憶ユニットに符号化する妥当な根拠(val
idbasis) を供給する。文字の輪郭形状表現に対する既
知の方法は、連結にわたり類似である。即ち、もしx及
びyがレターの二つの記号列であり、そしてxyがそれ
らの連結であるならば、次式が成り立つ:
【0010】
【数1】Shape(xy)= Shape(x).S
hape(y) ここで、周期(期間:period)は、二つの形状表現を組
み合わせる簡単な動作を示す。上述したように、各レタ
ーまたはレター記号列の形状は、上部形状(US)と下
部形状(LS)の、二つの構成要素に分解されうる。従
って、連結類似は、これら両方の構成要素に対して保持
する。それゆえに、一般に各トリプルがレター記号列、
その上部形状及びその下部形状を包含する、トリプルの
セット(sets of triples) を取って、次式が成り立つ:
hape(y) ここで、周期(期間:period)は、二つの形状表現を組
み合わせる簡単な動作を示す。上述したように、各レタ
ーまたはレター記号列の形状は、上部形状(US)と下
部形状(LS)の、二つの構成要素に分解されうる。従
って、連結類似は、これら両方の構成要素に対して保持
する。それゆえに、一般に各トリプルがレター記号列、
その上部形状及びその下部形状を包含する、トリプルの
セット(sets of triples) を取って、次式が成り立つ:
【0011】
【数2】<xy,US(xy),LS(xy)>= <
xy,US(x).US(y),LS(x).LS
(y)>= <x,US(x),LS(x)>.<y,
US(y),LS(y)> ここで、第2ラインの周期(期間)は、そのオペランド
トリプレット(operandtriplets)の構成要素の要素的連
結オペレータ(element-wise concatenation)として規定
される。もし言語の記号列とそれらの形状構成要素US
及びLSとの間の関係が特定の数学的分類、“正則3関
係(regular 3-relations) ”であるならば、この関係
は、特に簡単な計算装置である、3テープ有限状態機械
によって生成または受容されうる、ということは、従来
の技術においてよく知られている。従来の技術において
よく知られているように、3テープ有限状態機械は、左
から右への状態遷移グラフとして符号化されうる。状態
遷移グラフのエッジは、個別のレター、それに対応する
上部及び下部形状、US及びLSのトリプルでラベル付
けされる。従って、辞書のあらゆる有効語は、そのよう
な状態遷移グラフの種々のノード間で、パスまたはエッ
ジのシーケンスとして、符号化されうる。あらゆるその
ようなパスで、パスによって符号化された語は、パスを
形成しているエッジのラベルの最初の構成要素を連結す
ることによって簡単に読み取られうる。
xy,US(x).US(y),LS(x).LS
(y)>= <x,US(x),LS(x)>.<y,
US(y),LS(y)> ここで、第2ラインの周期(期間)は、そのオペランド
トリプレット(operandtriplets)の構成要素の要素的連
結オペレータ(element-wise concatenation)として規定
される。もし言語の記号列とそれらの形状構成要素US
及びLSとの間の関係が特定の数学的分類、“正則3関
係(regular 3-relations) ”であるならば、この関係
は、特に簡単な計算装置である、3テープ有限状態機械
によって生成または受容されうる、ということは、従来
の技術においてよく知られている。従来の技術において
よく知られているように、3テープ有限状態機械は、左
から右への状態遷移グラフとして符号化されうる。状態
遷移グラフのエッジは、個別のレター、それに対応する
上部及び下部形状、US及びLSのトリプルでラベル付
けされる。従って、辞書のあらゆる有効語は、そのよう
な状態遷移グラフの種々のノード間で、パスまたはエッ
ジのシーケンスとして、符号化されうる。あらゆるその
ようなパスで、パスによって符号化された語は、パスを
形成しているエッジのラベルの最初の構成要素を連結す
ることによって簡単に読み取られうる。
【0012】加えて、語の辞書及び個々のレターの形状
輪郭を特定する表からそのような状態遷移グラフを構成
する既知の技術が存在する。勿論、形状輪郭の表は、使
用されうる特定のフォント(font)にかなり依存するとい
うことは、理解されるべきであるが、しかし上部と下部
の文字形状の比較は、伸張(stretching)、スケーリング
(scaling) または傾斜(tilting) に対して一般にインセ
ンシティブである。結局、そのような状態遷移グラフの
大きさを縮小しかつ左から右の整合性能を最適化する種
々の既知の技術がこの分野で存在する。一つのそのよう
な最適化技術は、一つ以上の座標(coordinates) でグラ
フを決定することを含んでいる。結局、本発明者の一人
が、相対的に小さなメモリ空間の量でそのような状態遷
移グラフを符号化するかなり効果的な技術を開発した。
これらの技術は、ここに組み込まれた、出願継続中のカ
プラン等(Kaplan et al)による米国特許出願第07/855,1
29号に記載されている。それゆえに、上述したように、
全ての可能な語形状対応は、このコンパクト(小型)復
号化を供給すべく最適化された3テープ有限状態機械で
表されている。この3テープ有限状態機械は、下降形、
またはこの場合には、本発明の左から右の語予測、テキ
スト認識システム、に対する整合候補(matching candid
ates) を直接的に支配すべく用いられる。
輪郭を特定する表からそのような状態遷移グラフを構成
する既知の技術が存在する。勿論、形状輪郭の表は、使
用されうる特定のフォント(font)にかなり依存するとい
うことは、理解されるべきであるが、しかし上部と下部
の文字形状の比較は、伸張(stretching)、スケーリング
(scaling) または傾斜(tilting) に対して一般にインセ
ンシティブである。結局、そのような状態遷移グラフの
大きさを縮小しかつ左から右の整合性能を最適化する種
々の既知の技術がこの分野で存在する。一つのそのよう
な最適化技術は、一つ以上の座標(coordinates) でグラ
フを決定することを含んでいる。結局、本発明者の一人
が、相対的に小さなメモリ空間の量でそのような状態遷
移グラフを符号化するかなり効果的な技術を開発した。
これらの技術は、ここに組み込まれた、出願継続中のカ
プラン等(Kaplan et al)による米国特許出願第07/855,1
29号に記載されている。それゆえに、上述したように、
全ての可能な語形状対応は、このコンパクト(小型)復
号化を供給すべく最適化された3テープ有限状態機械で
表されている。この3テープ有限状態機械は、下降形、
またはこの場合には、本発明の左から右の語予測、テキ
スト認識システム、に対する整合候補(matching candid
ates) を直接的に支配すべく用いられる。
【0013】図1は、本発明による方法の第1の実施例
を示す。各現行画像ラインに対して、認識は、画像ビッ
トマップを、ステップS1010で、入力することによ
って始まる。次に、ステップS1020で、画像の個別
ラインが識別される。ステップS1030で、画像の第
1のラインが現行ラインとして選択される。次に、ステ
ップS1040で、現行ラインのビットマップの最左画
素(left-most pixel)が位置決めされる。次に、ステッ
プS1050で、システムは、辞書を表している3テー
プ有限状態機械の開始状態をアクセスする。開始状態か
らの遷移は、語を始めうる可能なレターまたは他の記号
に対応する。ここで示されかた記述される例において、
辞書は、標準の、英語辞書であると想定される。しかし
ながら、文書の形式により、辞書は、別の言語でありう
るし、または特定の言語や技術分野の専門用語に限定さ
れうる。限定された辞書では、語を表わすべく用いられ
るアルファベットの全ての可能な文字が辞書の語または
句を始めない。従って、全ての文字が開始状態からの遷
移によって表されえない。レターは、最初の、一記号語
頭を形成する。語頭は、辞書の一つ以上の語を、他の文
字と組合せたときに、形成できる語頭の記号列及び/又
は語フラグメント(word fragment) である。語頭の文字
の数が多くなると、語頭は、有限状態機械を通して取っ
た、エッジ、または遷移のパスに対応する文字によって
規定される。それゆえに、語頭は、そのパスと相互交換
可能である。同様に、単語または多重語句でありうる、
辞書のエントリは、有限状態機械の遷移のユニークセッ
ト(即ち、ユニーク遷移パス)としてそれぞれ表され
る。語または句エントリを規定している各遷移のセット
は、開始状態から始まり開始状態に終わる。即ち、辞書
エントリの第1のレターを規定している、第1の遷移パ
スは、開始状態から拡張し、現行辞書エントリと次の辞
書エントリの間の空間を規定している最後の遷移パス
は、開始状態に拡張する。全ての“空間”遷移が開始状
態に戻らないということに注目すべきである。これは、
ある辞書のエントリは、二つ以上の独立語を含むからで
ある。
を示す。各現行画像ラインに対して、認識は、画像ビッ
トマップを、ステップS1010で、入力することによ
って始まる。次に、ステップS1020で、画像の個別
ラインが識別される。ステップS1030で、画像の第
1のラインが現行ラインとして選択される。次に、ステ
ップS1040で、現行ラインのビットマップの最左画
素(left-most pixel)が位置決めされる。次に、ステッ
プS1050で、システムは、辞書を表している3テー
プ有限状態機械の開始状態をアクセスする。開始状態か
らの遷移は、語を始めうる可能なレターまたは他の記号
に対応する。ここで示されかた記述される例において、
辞書は、標準の、英語辞書であると想定される。しかし
ながら、文書の形式により、辞書は、別の言語でありう
るし、または特定の言語や技術分野の専門用語に限定さ
れうる。限定された辞書では、語を表わすべく用いられ
るアルファベットの全ての可能な文字が辞書の語または
句を始めない。従って、全ての文字が開始状態からの遷
移によって表されえない。レターは、最初の、一記号語
頭を形成する。語頭は、辞書の一つ以上の語を、他の文
字と組合せたときに、形成できる語頭の記号列及び/又
は語フラグメント(word fragment) である。語頭の文字
の数が多くなると、語頭は、有限状態機械を通して取っ
た、エッジ、または遷移のパスに対応する文字によって
規定される。それゆえに、語頭は、そのパスと相互交換
可能である。同様に、単語または多重語句でありうる、
辞書のエントリは、有限状態機械の遷移のユニークセッ
ト(即ち、ユニーク遷移パス)としてそれぞれ表され
る。語または句エントリを規定している各遷移のセット
は、開始状態から始まり開始状態に終わる。即ち、辞書
エントリの第1のレターを規定している、第1の遷移パ
スは、開始状態から拡張し、現行辞書エントリと次の辞
書エントリの間の空間を規定している最後の遷移パス
は、開始状態に拡張する。全ての“空間”遷移が開始状
態に戻らないということに注目すべきである。これは、
ある辞書のエントリは、二つ以上の独立語を含むからで
ある。
【0014】開始状態は、アジェンダへの初期エントリ
を常に生成する。アジェンダの各エントリは、4つの部
分を有する。第1の部分は、現行状態である。第2の部
分は、語頭を形成している文字のリストである。これ
は、開始状態から3テープ有限状態機械を介して現行状
態への状態遷移のリストに対応する。第3の部分は、現
行画像ラインまたは部分に対する語頭の輪郭の比較の質
を示す、距離計測(distance measure)である。第4の部
分は、‘最良’の距離計測を生成する解析されているテ
キスト画像のビットマップのx及びy位置である。次
に、ステップS1060で、最良の現行アジェンダエン
トリが選択される。最初のパス・スルー(pass-through)
で、各ラインに対するアジェンダは、一つだけのエント
リを有するので、そのエントリは、勿論選択されかつア
ジェンダから取り除かれる。ステップS1070で、ス
テップS1060で選択された語頭の一つは、現行選択
語頭として辞書に出力される。ステップS1080で、
現行状態から拡張している拡張語頭または遷移が辞書か
ら得られる。次に、ステップS1090で、辞書に出力
された語頭の現行状態から拡張している遷移の一つが現
行遷移として選択される。開始状態から拡張している最
初の語頭に対して、これらの拡張した語頭の全ては、同
じ距離計測を有する。これは、アジェンダが最初に生成
されたときに、割り当てられた初期距離計測であり、完
全整合を表わす。
を常に生成する。アジェンダの各エントリは、4つの部
分を有する。第1の部分は、現行状態である。第2の部
分は、語頭を形成している文字のリストである。これ
は、開始状態から3テープ有限状態機械を介して現行状
態への状態遷移のリストに対応する。第3の部分は、現
行画像ラインまたは部分に対する語頭の輪郭の比較の質
を示す、距離計測(distance measure)である。第4の部
分は、‘最良’の距離計測を生成する解析されているテ
キスト画像のビットマップのx及びy位置である。次
に、ステップS1060で、最良の現行アジェンダエン
トリが選択される。最初のパス・スルー(pass-through)
で、各ラインに対するアジェンダは、一つだけのエント
リを有するので、そのエントリは、勿論選択されかつア
ジェンダから取り除かれる。ステップS1070で、ス
テップS1060で選択された語頭の一つは、現行選択
語頭として辞書に出力される。ステップS1080で、
現行状態から拡張している拡張語頭または遷移が辞書か
ら得られる。次に、ステップS1090で、辞書に出力
された語頭の現行状態から拡張している遷移の一つが現
行遷移として選択される。開始状態から拡張している最
初の語頭に対して、これらの拡張した語頭の全ては、同
じ距離計測を有する。これは、アジェンダが最初に生成
されたときに、割り当てられた初期距離計測であり、完
全整合を表わす。
【0015】ステップS1100で、選択した遷移の上
部及び下部輪郭の対は、選択したアジェンダエントリの
第4の部分に記憶されたx及びy位置で始まっている現
行ラインのビットマップに対抗して整合される。開始状
態から拡張している一文字語頭の全ては、現行画像ライ
ンのビットマップの最左画素に対応している、開始x及
びy位置で整合される。“最左”画素は、ラインのその
垂直位置に独立な、実際の最左画素でありうる。しかし
ながら、好ましい実施例では、“最左”画素は、テキス
トのラインの基線(baseline)上である。選択した遷移の
上部及び下部輪郭の対が、記憶されたx及びy位置から
開始している(即ち、開始x及びy位置)、ビットマッ
プに整合されると、ビットマップに沿ったx及びy位置
の新しいセット(即ち、終了x及びy位置)が位置決め
される。終了x及びy位置の新しいセットは、選択した
遷移の上部及び下部輪郭の対とビットマップの間の適合
(fit) を最大にするビットマップに沿った点を表わす。
同時に、距離計測、ビットマップと選択した遷移の輪郭
の間の適合の質(良好または不良のいずれかに関し)を
表している値、が決定される。ステップS1110で、
距離計測は、ビットマップと選択した遷移の輪郭の間の
適合から生成される。ステップS1120で、拡張した
語頭は、新しい状態、距離計測、並びにx及びy位置と
一緒に、アジェンダに記憶される。次にステップS11
30で、システムは、現行選択語頭に対する遷移の全て
がビットマップと比較されたかどうかを決定する。もし
そうであるならば、制御は、ステップS1140に続
く。もし現行語頭の遷移の全てが比較されないならば、
制御は、ステップS1090に戻る。ステップS114
0で、システムは、全ての選択語頭またはアジェンダエ
ントリが辞書に出力されたかどうかを決定する。もしそ
うであるならば、システムは、ステップS1150に続
く。さもなくば、システムは、別の選択語頭が選択され
かつ辞書に出力されるステップS1070に戻る。
部及び下部輪郭の対は、選択したアジェンダエントリの
第4の部分に記憶されたx及びy位置で始まっている現
行ラインのビットマップに対抗して整合される。開始状
態から拡張している一文字語頭の全ては、現行画像ライ
ンのビットマップの最左画素に対応している、開始x及
びy位置で整合される。“最左”画素は、ラインのその
垂直位置に独立な、実際の最左画素でありうる。しかし
ながら、好ましい実施例では、“最左”画素は、テキス
トのラインの基線(baseline)上である。選択した遷移の
上部及び下部輪郭の対が、記憶されたx及びy位置から
開始している(即ち、開始x及びy位置)、ビットマッ
プに整合されると、ビットマップに沿ったx及びy位置
の新しいセット(即ち、終了x及びy位置)が位置決め
される。終了x及びy位置の新しいセットは、選択した
遷移の上部及び下部輪郭の対とビットマップの間の適合
(fit) を最大にするビットマップに沿った点を表わす。
同時に、距離計測、ビットマップと選択した遷移の輪郭
の間の適合の質(良好または不良のいずれかに関し)を
表している値、が決定される。ステップS1110で、
距離計測は、ビットマップと選択した遷移の輪郭の間の
適合から生成される。ステップS1120で、拡張した
語頭は、新しい状態、距離計測、並びにx及びy位置と
一緒に、アジェンダに記憶される。次にステップS11
30で、システムは、現行選択語頭に対する遷移の全て
がビットマップと比較されたかどうかを決定する。もし
そうであるならば、制御は、ステップS1140に続
く。もし現行語頭の遷移の全てが比較されないならば、
制御は、ステップS1090に戻る。ステップS114
0で、システムは、全ての選択語頭またはアジェンダエ
ントリが辞書に出力されたかどうかを決定する。もしそ
うであるならば、システムは、ステップS1150に続
く。さもなくば、システムは、別の選択語頭が選択され
かつ辞書に出力されるステップS1070に戻る。
【0016】本発明の第1の実施例(そして以下の実施
例の全てに使用可能な)の変形では、上部輪郭及び下部
輪郭は、ビットマップに独立に整合されかつ別々のx及
びy位置を生成する。即ち、整合処理は、上部輪郭距離
計測並びに上部輪郭最良適合(または終了)x及びy位
置を生成すべく上部輪郭に対してまず実行される。この
処理は、有効現行文字のセットの現行文字の下部輪郭に
対して繰り返される。次に、この変形において、ビット
マップと上部及び下部輪郭の間の適合の質を独立に表し
ている、二つの値は、各可能なパスに対する単一質計測
または距離計測を得るべく、ステップS1110で組み
合わせられる。別の変形では、オフセットεは、ビット
マップの上部と下部の輪郭の間で決定される。このオフ
セットεは、印刷されたイタリック文字のような、文字
のあらゆるワーピングを表わす。このオフセットは、適
当な輪郭とビットマップの間のアラインメント(位置合
わせ)を改善すべく、適するように、上部または下部の
輪郭に対して、適するように、x及びy位置に加えられ
る。例えば、真っ直ぐな、テキストのイタリック体のラ
インで、オフセットεは、先行適合オペレーションで決
定された最良適合x位置から各上部輪郭に加えられう
る。この方法で、最良適合位置がそれ自体変わらず、も
しワーピングがのラインの間で停止または開始するなら
ば、オフセットは、最良適合位置に永久的に組み込まれ
ない。
例の全てに使用可能な)の変形では、上部輪郭及び下部
輪郭は、ビットマップに独立に整合されかつ別々のx及
びy位置を生成する。即ち、整合処理は、上部輪郭距離
計測並びに上部輪郭最良適合(または終了)x及びy位
置を生成すべく上部輪郭に対してまず実行される。この
処理は、有効現行文字のセットの現行文字の下部輪郭に
対して繰り返される。次に、この変形において、ビット
マップと上部及び下部輪郭の間の適合の質を独立に表し
ている、二つの値は、各可能なパスに対する単一質計測
または距離計測を得るべく、ステップS1110で組み
合わせられる。別の変形では、オフセットεは、ビット
マップの上部と下部の輪郭の間で決定される。このオフ
セットεは、印刷されたイタリック文字のような、文字
のあらゆるワーピングを表わす。このオフセットは、適
当な輪郭とビットマップの間のアラインメント(位置合
わせ)を改善すべく、適するように、上部または下部の
輪郭に対して、適するように、x及びy位置に加えられ
る。例えば、真っ直ぐな、テキストのイタリック体のラ
インで、オフセットεは、先行適合オペレーションで決
定された最良適合x位置から各上部輪郭に加えられう
る。この方法で、最良適合位置がそれ自体変わらず、も
しワーピングがのラインの間で停止または開始するなら
ば、オフセットは、最良適合位置に永久的に組み込まれ
ない。
【0017】上述したように、各アジェンダエントリ、
または語頭は、一つ以上の語を規定する状態遷移のリス
トとして記憶される。即ち、語頭の長さは、単語に限定
されない。ステップS1150で、システムは、アジェ
ンダエントリのいずれかが現行ラインの終わりに到達し
たかどうかを決定する。もしそうでないならば、制御
は、ステップS1060に戻る。さもなくば、制御は、
ステップS1160に続く。次にステップS1060
で、アジェンダ、または現行画像ラインに対する可能パ
スの完全リストが、更に追跡されるべき、限定された数
の可能パス、または語頭を得るために検索される。即
ち、距離計測及び距離計測しきい値または選択されるべ
き所定数のパスのいずれかに基づいて、語頭の最確のも
のだけが更なる解析に対するアジェンダから選択され
る。ステップS1070では、選択されたパスが、新し
い拡張語頭を得るべく一回につき一つ辞書に出力され
る。各選択された語頭から得られた新しい拡張語頭は、
選択された語頭の最後の遷移の終わりの状態から拡張し
ている新しい遷移によって規定される。即ち、各選択さ
れた語頭は、辞書から、現行文字または遷移の新しいセ
ットを常に得る。遷移の新しいセットは、親語頭の終了
状態から拡張する。それゆえに、遷移の新しいセット
は、有効拡張語頭の新しいセットを規定する。有効拡張
語頭の新しいセットは、選択されたパスまたは語頭に連
結されるときに、有効語頭をも形成する、それらの文字
を含む。
または語頭は、一つ以上の語を規定する状態遷移のリス
トとして記憶される。即ち、語頭の長さは、単語に限定
されない。ステップS1150で、システムは、アジェ
ンダエントリのいずれかが現行ラインの終わりに到達し
たかどうかを決定する。もしそうでないならば、制御
は、ステップS1060に戻る。さもなくば、制御は、
ステップS1160に続く。次にステップS1060
で、アジェンダ、または現行画像ラインに対する可能パ
スの完全リストが、更に追跡されるべき、限定された数
の可能パス、または語頭を得るために検索される。即
ち、距離計測及び距離計測しきい値または選択されるべ
き所定数のパスのいずれかに基づいて、語頭の最確のも
のだけが更なる解析に対するアジェンダから選択され
る。ステップS1070では、選択されたパスが、新し
い拡張語頭を得るべく一回につき一つ辞書に出力され
る。各選択された語頭から得られた新しい拡張語頭は、
選択された語頭の最後の遷移の終わりの状態から拡張し
ている新しい遷移によって規定される。即ち、各選択さ
れた語頭は、辞書から、現行文字または遷移の新しいセ
ットを常に得る。遷移の新しいセットは、親語頭の終了
状態から拡張する。それゆえに、遷移の新しいセット
は、有効拡張語頭の新しいセットを規定する。有効拡張
語頭の新しいセットは、選択されたパスまたは語頭に連
結されるときに、有効語頭をも形成する、それらの文字
を含む。
【0018】ステップS1090では、各選択された語
頭の現行文字をステップS1080におけるその選択さ
れた語頭と連結することによって形成された、拡張語頭
がビットマップに対抗する比較に対して一度に一つ選択
される。拡張語頭が形成されるときには、それらは、そ
れらの親語頭から語頭を形成している文字のリスト、開
始距離計測、終了距離計測からの開始x及びy位置、親
語頭の終了x及びy位置を受け継ぐ。次にステップS1
100で、選択拡張語頭は、最良適合終了x及びy位置
並びに現行距離計測を決定すべく開始x及びy位置から
のビットマップと比較される。各選択語頭がx及びy位
置のそれ自体の特定のセットを有しているので、同じ現
行文字を包含している各選択語頭は、その現行文字の輪
郭をx及びy位置の異なるセットから開始するビットマ
ップに整合しうる。それゆえに、その現行文字を包含し
ている各新しい有効語頭に対するx及びy位置の新しい
セットは、各そのような語頭に対して異なりうる。ステ
ップS1120で、選択語頭に対する新しい距離計測
は、ステップS1110で生成した現行距離計測を選択
語頭に対する開始距離計測に加えることによって決定さ
れる。ステップS1120で、現行拡張語頭は、アジェ
ンダに記憶される。次にステップS1130で、システ
ムは、拡張語頭の全てが選択されたかどうかを再び決定
する。もしそうでなければ、システムは、別の拡張語頭
が選択されるステップS1090に戻る。もし拡張語頭
の全てが選択されたならば、システムは、ステップS1
140に続く。ステップS1140では、システムは、
もし選択された語頭の全てが出力されたかどうかを再び
決定する。もしそうでなければ、システムは、別の選択
語頭が辞書に出力されるステップS1070に戻る。ス
テップS1150でもし選択された語頭の全てが出力さ
れたならば、システムは、あらゆる語頭が現行ラインの
終わりに到達したかどうかを再び決定する。
頭の現行文字をステップS1080におけるその選択さ
れた語頭と連結することによって形成された、拡張語頭
がビットマップに対抗する比較に対して一度に一つ選択
される。拡張語頭が形成されるときには、それらは、そ
れらの親語頭から語頭を形成している文字のリスト、開
始距離計測、終了距離計測からの開始x及びy位置、親
語頭の終了x及びy位置を受け継ぐ。次にステップS1
100で、選択拡張語頭は、最良適合終了x及びy位置
並びに現行距離計測を決定すべく開始x及びy位置から
のビットマップと比較される。各選択語頭がx及びy位
置のそれ自体の特定のセットを有しているので、同じ現
行文字を包含している各選択語頭は、その現行文字の輪
郭をx及びy位置の異なるセットから開始するビットマ
ップに整合しうる。それゆえに、その現行文字を包含し
ている各新しい有効語頭に対するx及びy位置の新しい
セットは、各そのような語頭に対して異なりうる。ステ
ップS1120で、選択語頭に対する新しい距離計測
は、ステップS1110で生成した現行距離計測を選択
語頭に対する開始距離計測に加えることによって決定さ
れる。ステップS1120で、現行拡張語頭は、アジェ
ンダに記憶される。次にステップS1130で、システ
ムは、拡張語頭の全てが選択されたかどうかを再び決定
する。もしそうでなければ、システムは、別の拡張語頭
が選択されるステップS1090に戻る。もし拡張語頭
の全てが選択されたならば、システムは、ステップS1
140に続く。ステップS1140では、システムは、
もし選択された語頭の全てが出力されたかどうかを再び
決定する。もしそうでなければ、システムは、別の選択
語頭が辞書に出力されるステップS1070に戻る。ス
テップS1150でもし選択された語頭の全てが出力さ
れたならば、システムは、あらゆる語頭が現行ラインの
終わりに到達したかどうかを再び決定する。
【0019】上昇形技術を用いることを避ける、この第
1の実施例では、語間間隔がちょうど別の文字として扱
われる、ということに注目すべきである。それゆえに、
アジェンダのパスまたは語頭は、解析処理中、語セグメ
ントに分割されない。それよりも、語頭は、ラインの文
字の全てを含む。もしシステムが、ステップS1150
で、現行ラインの終わりに到達したことを決定するなら
ば、システムは、最良距離計測を有しているアジェンダ
の語頭が現行画像ラインに対応するテキスト記号列とし
て出力される、ステップS1160に続く。次にステッ
プS1170では、システムは、次の画像ラインが存在
するかどうかを決定する。もしそうであるならば、シス
テムは、次の画像ラインが選択されるステップS118
0に続き、そしてステップS1040に戻る。もし更な
る画像ラインが存在しないならば、システムは、それに
代わり、処理が終了される、ステップS1190に分岐
する。もしステップS1150が現行画像ラインの終わ
りに到達していないことを決定するならば、システムは
ステップS1060に戻る。ステップS1060−S1
150のステップをそれぞれが通った後にアジェンダが
最良適合語頭に対して検索されると、“最良”語頭の新
たに選択されたリストは、最良語頭の先に選択されたリ
ストに含まれなかった語頭を含みうる。しかしながら、
アジェンダの各語頭が、上部及び下部輪郭に対する最良
適合x及びy位置をそれと一緒に支持するので、語頭の
選択されたリストから落ちたアジェンダの語頭として、
情報がなにも失われずかつシステムは、現行画像ライン
の解析中いつでもこれらの最良適合x及びy位置から解
析を容易に最開始できる。
1の実施例では、語間間隔がちょうど別の文字として扱
われる、ということに注目すべきである。それゆえに、
アジェンダのパスまたは語頭は、解析処理中、語セグメ
ントに分割されない。それよりも、語頭は、ラインの文
字の全てを含む。もしシステムが、ステップS1150
で、現行ラインの終わりに到達したことを決定するなら
ば、システムは、最良距離計測を有しているアジェンダ
の語頭が現行画像ラインに対応するテキスト記号列とし
て出力される、ステップS1160に続く。次にステッ
プS1170では、システムは、次の画像ラインが存在
するかどうかを決定する。もしそうであるならば、シス
テムは、次の画像ラインが選択されるステップS118
0に続き、そしてステップS1040に戻る。もし更な
る画像ラインが存在しないならば、システムは、それに
代わり、処理が終了される、ステップS1190に分岐
する。もしステップS1150が現行画像ラインの終わ
りに到達していないことを決定するならば、システムは
ステップS1060に戻る。ステップS1060−S1
150のステップをそれぞれが通った後にアジェンダが
最良適合語頭に対して検索されると、“最良”語頭の新
たに選択されたリストは、最良語頭の先に選択されたリ
ストに含まれなかった語頭を含みうる。しかしながら、
アジェンダの各語頭が、上部及び下部輪郭に対する最良
適合x及びy位置をそれと一緒に支持するので、語頭の
選択されたリストから落ちたアジェンダの語頭として、
情報がなにも失われずかつシステムは、現行画像ライン
の解析中いつでもこれらの最良適合x及びy位置から解
析を容易に最開始できる。
【0020】第2の実施例では、システムは、代わりに
語間間隔に対してすぐに反応する。それゆえに、図4か
ら図6に示すように、第2の実施例では;ステップS2
000〜S2140は、第1の実施例と同じである。次
に、ステップS2150では、最良適合語頭が語間空間
で終わるかどうかを決定することによって、システムが
現行画像語の終わりに到達したかどうかを決定する。も
しそうでなければ、システムはステップS2060に戻
る。他方、もし最良適合語頭が語間空間で終わるなら
ば、システムは、現行ラインのテキストの部分として語
頭を出力しかつステップS2160でアジェンダをクリ
アし、そしてステップS2170で語間空間の後でビッ
トマップの最左画素を見出す。ステップS2180で、
システムは、現行画像ラインの終わりに到達したかどう
かを決定する。もしそうでなければ、システムは、初期
x及びy位置としてステップS2170で見出された最
左画素のx及びy位置を用いて、ステップS2040に
戻る。もしシステムがステップS2180で現行画素ラ
インは終わったと決定したならば、システムは、次の画
像ラインが存在するかどうかを決定する、ステップS2
190に続く。もしそうであるならば、システムは、次
の画像ラインが選択されるステップS2200に続き、
そしてステップS2040に戻る。もしそうでないなら
ば、システムは、処理が終了する、ステップS2210
に続く。
語間間隔に対してすぐに反応する。それゆえに、図4か
ら図6に示すように、第2の実施例では;ステップS2
000〜S2140は、第1の実施例と同じである。次
に、ステップS2150では、最良適合語頭が語間空間
で終わるかどうかを決定することによって、システムが
現行画像語の終わりに到達したかどうかを決定する。も
しそうでなければ、システムはステップS2060に戻
る。他方、もし最良適合語頭が語間空間で終わるなら
ば、システムは、現行ラインのテキストの部分として語
頭を出力しかつステップS2160でアジェンダをクリ
アし、そしてステップS2170で語間空間の後でビッ
トマップの最左画素を見出す。ステップS2180で、
システムは、現行画像ラインの終わりに到達したかどう
かを決定する。もしそうでなければ、システムは、初期
x及びy位置としてステップS2170で見出された最
左画素のx及びy位置を用いて、ステップS2040に
戻る。もしシステムがステップS2180で現行画素ラ
インは終わったと決定したならば、システムは、次の画
像ラインが存在するかどうかを決定する、ステップS2
190に続く。もしそうであるならば、システムは、次
の画像ラインが選択されるステップS2200に続き、
そしてステップS2040に戻る。もしそうでないなら
ば、システムは、処理が終了する、ステップS2210
に続く。
【0021】この第2の実施例は、語間空間を位置決め
しかつそれらを語間空間として扱う上昇形技術を組み込
むべく第1の実施例の純下降形システムを変更する。種
々の他の上昇形技術が本発明の第1の実施例の下降形シ
ステムまたは第2の実施例の一部下降形システムに組み
込まれうるということにも注目すべきである。例えば、
第3の実施例では、ビットマップの輪郭が生成されえ、
かつこれらの輪郭は、拡張語頭をビットマップと比較す
ることに先駆けてステップS1110及びS2110で
辞書から出力された拡張語頭のリストを“事前遮断(pre
screen) ”すべく用いられた。それゆえに、例えば、も
し画像ラインの輪郭が、現行画像ラインのある一定のx
及びy位置でアセンダーまたはディセンダーの存在を示
しならば、有効辞書語頭のリスト(または代替的に有効
語頭のリスト)が、正しい位置の近くにアセンダーまた
はディセンダーを有している文字を包含しない点を除け
ば有効語頭(または語頭)であるものを除去すべくビッ
トマップ整合ステップに先駆けて事前遮蔽されうる。第
3の実施例の上昇形技術を組み込むこともできる、第4
の実施例では、本発明の下降形方法を開始するに先駆け
て、現行画像ラインの分離セグメントに対して語間空間
及び語内空間を事前位置決定するような、他の上昇形技
術を用いることができる。しかしながら、これらの上昇
形技術を組み込むことは、本発明の下降形技術のロバス
トネス(robustness)を結局縮小する。
しかつそれらを語間空間として扱う上昇形技術を組み込
むべく第1の実施例の純下降形システムを変更する。種
々の他の上昇形技術が本発明の第1の実施例の下降形シ
ステムまたは第2の実施例の一部下降形システムに組み
込まれうるということにも注目すべきである。例えば、
第3の実施例では、ビットマップの輪郭が生成されえ、
かつこれらの輪郭は、拡張語頭をビットマップと比較す
ることに先駆けてステップS1110及びS2110で
辞書から出力された拡張語頭のリストを“事前遮断(pre
screen) ”すべく用いられた。それゆえに、例えば、も
し画像ラインの輪郭が、現行画像ラインのある一定のx
及びy位置でアセンダーまたはディセンダーの存在を示
しならば、有効辞書語頭のリスト(または代替的に有効
語頭のリスト)が、正しい位置の近くにアセンダーまた
はディセンダーを有している文字を包含しない点を除け
ば有効語頭(または語頭)であるものを除去すべくビッ
トマップ整合ステップに先駆けて事前遮蔽されうる。第
3の実施例の上昇形技術を組み込むこともできる、第4
の実施例では、本発明の下降形方法を開始するに先駆け
て、現行画像ラインの分離セグメントに対して語間空間
及び語内空間を事前位置決定するような、他の上昇形技
術を用いることができる。しかしながら、これらの上昇
形技術を組み込むことは、本発明の下降形技術のロバス
トネス(robustness)を結局縮小する。
【0022】図7は、図1〜図3に示す本発明の第1の
実施例の方法により動作する画像解析システムの概略図
を示す。図7に示すように、一枚の用紙、写真等のよう
な、画像担持部材(image bearing member)は、画像22
を支持する。画像22は、一つ以上の垂直方向に位置合
わせされかつ水平方向に拡張しているテキストのライン
からなる。テキストの各ラインは、ライン間空間として
知られる、ブランク空間(blank space) によってテキス
トの隣接(immediately adjacent)の上部及び下部ライン
から分離される。各ラインは、一つ以上の語からなる。
最左語は、対応するラインの最左位置に位置合わせされ
る。各後続の語は、語間空間によって左及び右に隣接す
る語から分離される。各語は、一つ以上の文字または記
号からなる。各文字は、語内空間によって対応する語の
左及び右の文字から分離されうる。一般に、あらゆる一
つの画像に対するライン間空間は、別の画像に対するラ
イン間空間に独立である。同様に、画像のテキストの各
ラインに対して、一つのラインに対する語間空間は、他
のラインに対する語間空間に独立であり、かつしばしば
現行ライン内で他の語間空間に独立である。また、ライ
ンの各語に対して、一つの語内の語内間隔(空間)は、
ラインの他の語に対する語内間隔に一般に独立であり、
かつそれ自体非常に可変である。これらの理由で、第1
の実施例では、これらの上昇形特徴は信頼されない(あ
てにされない)。
実施例の方法により動作する画像解析システムの概略図
を示す。図7に示すように、一枚の用紙、写真等のよう
な、画像担持部材(image bearing member)は、画像22
を支持する。画像22は、一つ以上の垂直方向に位置合
わせされかつ水平方向に拡張しているテキストのライン
からなる。テキストの各ラインは、ライン間空間として
知られる、ブランク空間(blank space) によってテキス
トの隣接(immediately adjacent)の上部及び下部ライン
から分離される。各ラインは、一つ以上の語からなる。
最左語は、対応するラインの最左位置に位置合わせされ
る。各後続の語は、語間空間によって左及び右に隣接す
る語から分離される。各語は、一つ以上の文字または記
号からなる。各文字は、語内空間によって対応する語の
左及び右の文字から分離されうる。一般に、あらゆる一
つの画像に対するライン間空間は、別の画像に対するラ
イン間空間に独立である。同様に、画像のテキストの各
ラインに対して、一つのラインに対する語間空間は、他
のラインに対する語間空間に独立であり、かつしばしば
現行ライン内で他の語間空間に独立である。また、ライ
ンの各語に対して、一つの語内の語内間隔(空間)は、
ラインの他の語に対する語内間隔に一般に独立であり、
かつそれ自体非常に可変である。これらの理由で、第1
の実施例では、これらの上昇形特徴は信頼されない(あ
てにされない)。
【0023】ページ20の画像22は、スキャナ30に
よって走査される。スキャナ30は、テキスト画像22
を走査画像22’に変換すべく電荷結合素子等のよう
な、既知の技術及び装置を用いる。走査画像22’は、
スキャナ30によって感知されたテキスト画像22の暗
及び明部分(dark and light portions) に対応する多数
の暗また明画素(dark or light pixels)からなる。スキ
ャナ30は、無限の解像度を持たずかつテキスト画像2
2の明及び暗部分の間を完全には識別できないので、走
査画像22’は、ノイジーである。即ち、白であるべき
画像が黒く色付けられ、そして黒であるべき画像が白く
色付けられる。走査画像22’は、スキャナ30によっ
てテキスト認識システム40へ出力される。特に、走査
画像22’は、画像構成要素抽出装置50の画像記憶ユ
ニット52へ出力される。画像構成要素抽出装置50
は、画像記憶ユニット52に記憶された走査画像22’
の個別ラインを位置決めする、画像ライン抽出装置54
を含む。第3及び/又は第4の実施例では、画像特徴抽
出装置は、以下に説明しかつ図4に示すように、追加の
構成要素を含みうる。画像ライン抽出装置54は、走査
画像22’を構成している画像ラインの第1の画像ライ
ンを抽出する。第1の画像ラインが完全に解析された
後、画像ライン抽出装置54は、全体の走査画像22’
が解析されるまで、走査画像22’から、もし存在する
ならば、第2のライン等を抽出する。
よって走査される。スキャナ30は、テキスト画像22
を走査画像22’に変換すべく電荷結合素子等のよう
な、既知の技術及び装置を用いる。走査画像22’は、
スキャナ30によって感知されたテキスト画像22の暗
及び明部分(dark and light portions) に対応する多数
の暗また明画素(dark or light pixels)からなる。スキ
ャナ30は、無限の解像度を持たずかつテキスト画像2
2の明及び暗部分の間を完全には識別できないので、走
査画像22’は、ノイジーである。即ち、白であるべき
画像が黒く色付けられ、そして黒であるべき画像が白く
色付けられる。走査画像22’は、スキャナ30によっ
てテキスト認識システム40へ出力される。特に、走査
画像22’は、画像構成要素抽出装置50の画像記憶ユ
ニット52へ出力される。画像構成要素抽出装置50
は、画像記憶ユニット52に記憶された走査画像22’
の個別ラインを位置決めする、画像ライン抽出装置54
を含む。第3及び/又は第4の実施例では、画像特徴抽
出装置は、以下に説明しかつ図4に示すように、追加の
構成要素を含みうる。画像ライン抽出装置54は、走査
画像22’を構成している画像ラインの第1の画像ライ
ンを抽出する。第1の画像ラインが完全に解析された
後、画像ライン抽出装置54は、全体の走査画像22’
が解析されるまで、走査画像22’から、もし存在する
ならば、第2のライン等を抽出する。
【0024】同時に、3テープ有限状態機械を含んでい
る辞書手段60は、現行拡張テキスト語頭並びにそれら
に対応する上部及び下部輪郭のリストを有する輪郭解析
手段70を供給する。辞書手段60は、言語または語彙
(言語の限定されたサブセット)の可能な語の全てを記
憶する辞書記憶ユニット62を含む。辞書手段60は、
辞書遷移パス抽出装置64も含む。遷移パス抽出装置6
4は、辞書記憶ユニット62から、選択語頭の終了状態
から拡張している、新しい遷移を抽出する。上述したよ
うに、テキスト語頭は、一つ以上の文字からなる語フレ
グメントまたは語である。用語“語頭”は、現行ライン
の解析画像部分に対応すべく決定された、テキスト文字
が、単語または完全な語に必ずしも対応しないことを示
すべく用いられる。例えば、もしテキスト文字“b”及
び“a”及び“r”が 現行ラインの現行画像部分に対
応すべく先に決定されていたならば、“bar”から拡
張している次の語頭は、語頭“bar”及び次の記号:
“ ”(語間空間);“d”、“e”、“f”、
“g”、“i”、“k”、“l”、“m”、“n”、
“o”、“q”、“r”、“t”、及び“y”の一つを
含む。遷移パス抽出装置64は、輪郭解析手段70へ一
度に一つ、新しい語頭トリプルを含んでいる、拡張語頭
を出力する。各トリプルは、その親語頭と連結されたと
きに、別の有効語頭、並びに対応する上部輪郭及び対応
する下部輪郭を形成する、現行文字に対応する遷移パス
を含む。
る辞書手段60は、現行拡張テキスト語頭並びにそれら
に対応する上部及び下部輪郭のリストを有する輪郭解析
手段70を供給する。辞書手段60は、言語または語彙
(言語の限定されたサブセット)の可能な語の全てを記
憶する辞書記憶ユニット62を含む。辞書手段60は、
辞書遷移パス抽出装置64も含む。遷移パス抽出装置6
4は、辞書記憶ユニット62から、選択語頭の終了状態
から拡張している、新しい遷移を抽出する。上述したよ
うに、テキスト語頭は、一つ以上の文字からなる語フレ
グメントまたは語である。用語“語頭”は、現行ライン
の解析画像部分に対応すべく決定された、テキスト文字
が、単語または完全な語に必ずしも対応しないことを示
すべく用いられる。例えば、もしテキスト文字“b”及
び“a”及び“r”が 現行ラインの現行画像部分に対
応すべく先に決定されていたならば、“bar”から拡
張している次の語頭は、語頭“bar”及び次の記号:
“ ”(語間空間);“d”、“e”、“f”、
“g”、“i”、“k”、“l”、“m”、“n”、
“o”、“q”、“r”、“t”、及び“y”の一つを
含む。遷移パス抽出装置64は、輪郭解析手段70へ一
度に一つ、新しい語頭トリプルを含んでいる、拡張語頭
を出力する。各トリプルは、その親語頭と連結されたと
きに、別の有効語頭、並びに対応する上部輪郭及び対応
する下部輪郭を形成する、現行文字に対応する遷移パス
を含む。
【0025】各拡張語頭が輪郭解析手段70に出力され
ると、それは、比較器72に入力される。輪郭解析手段
70の比較器72は、ビットマップの部分を各拡張語頭
の上部及び下部輪郭に、一度に一つ、比較する。各比較
に対して、ビットマップの部分は、親語頭から受け継が
れた、拡張語頭の開始x及びy位置によって規定され
る。各親語頭は、多数の拡張語頭を通常生成するので、
ビットマップの同じ部分が上部及び下部輪郭の多数のセ
ットと比較される。同様に、多数の親語頭が同じ新しい
終了文字を伴う語頭を有するので、上部及び下部輪郭の
同じセットがビットマップの多数の異なる部分と比較さ
れる。比較器72は、距離値を生成するために各可能拡
張語頭に対する全上部及び下部輪郭を画像部分のビット
マップと比較しなくてもよい。それよりも、比較器72
は、開始x及びy位置のセットによって示されたよう
に、その親語頭の先行解析が終了した点からの拡張語頭
の現行文字の上部及び下部輪郭を単に比較する。一度に
一つの画素を移動して、比較器72は、距離値を生成す
るために、現行x及びy位置から開始して、現行文字の
上部及び下部輪郭をビットマップと比較する。各現行文
字に対して、比較器72は、上部及び下部輪郭とビット
マップの間の最良比較を生成するビットマップの終了x
及びy位置を記録する。代替的に、比較器72は、輪郭
から終了x及びy位置を予測しかつその点までビットマ
ップを解析することを開始しうる。比較器72は、最良
x及びy位置を見出すべく予測点を動き廻る。比較器7
2に対する他の実施例は、当業者にとって自明である。
ると、それは、比較器72に入力される。輪郭解析手段
70の比較器72は、ビットマップの部分を各拡張語頭
の上部及び下部輪郭に、一度に一つ、比較する。各比較
に対して、ビットマップの部分は、親語頭から受け継が
れた、拡張語頭の開始x及びy位置によって規定され
る。各親語頭は、多数の拡張語頭を通常生成するので、
ビットマップの同じ部分が上部及び下部輪郭の多数のセ
ットと比較される。同様に、多数の親語頭が同じ新しい
終了文字を伴う語頭を有するので、上部及び下部輪郭の
同じセットがビットマップの多数の異なる部分と比較さ
れる。比較器72は、距離値を生成するために各可能拡
張語頭に対する全上部及び下部輪郭を画像部分のビット
マップと比較しなくてもよい。それよりも、比較器72
は、開始x及びy位置のセットによって示されたよう
に、その親語頭の先行解析が終了した点からの拡張語頭
の現行文字の上部及び下部輪郭を単に比較する。一度に
一つの画素を移動して、比較器72は、距離値を生成す
るために、現行x及びy位置から開始して、現行文字の
上部及び下部輪郭をビットマップと比較する。各現行文
字に対して、比較器72は、上部及び下部輪郭とビット
マップの間の最良比較を生成するビットマップの終了x
及びy位置を記録する。代替的に、比較器72は、輪郭
から終了x及びy位置を予測しかつその点までビットマ
ップを解析することを開始しうる。比較器72は、最良
x及びy位置を見出すべく予測点を動き廻る。比較器7
2に対する他の実施例は、当業者にとって自明である。
【0026】画像ラインがページを横切って真っ直ぐに
拡張することがしばしばである場合に、時々、画像ライ
ンは、上向き、下向きに、または曲線或いは螺旋に進行
(移動)する。更に、画像の文字の実寸(absolute siz
e) が変化しうる。これらの効果のいかなるものも相対
的x及びy位置を変化しうる。辞書ユニットから出力さ
れた、拡張語頭、またはアジェンダエントリは、開始x
及びy位置と、現行距離計測によって更新されるその親
語頭から受け継がれた開始距離計測と、比較器72によ
って決定される新しい終了x及びy位置とを有する。新
しい終了x及びy位置は、開始x及びy位置を置換し、
そして終了距離計測を得るために現行距離計測は、開始
距離計測に加えられる。この更新された拡張語頭は、ア
ジェンダ記憶ユニット74に記憶されたアジェンダのリ
ストに加えられる。輪郭解析手段70は、語頭セレクタ
76も含む。語頭セレクタ76は、アジェンダ記憶ユニ
ット74に記憶された更新アジェンダから選択語頭の新
しいリストを選択する。選択語頭のリストは、アジェン
ダ記憶ユニット74に記憶された距離値に基づいた、限
定数の高品質テキスト語頭を含む。選択語頭は、辞書記
憶ユニット62から拡張語頭の新しいリストを得るため
に用いられる。これらの新しい現行文字は、一つの文字
でアジェンダの選択語頭から拡張する。
拡張することがしばしばである場合に、時々、画像ライ
ンは、上向き、下向きに、または曲線或いは螺旋に進行
(移動)する。更に、画像の文字の実寸(absolute siz
e) が変化しうる。これらの効果のいかなるものも相対
的x及びy位置を変化しうる。辞書ユニットから出力さ
れた、拡張語頭、またはアジェンダエントリは、開始x
及びy位置と、現行距離計測によって更新されるその親
語頭から受け継がれた開始距離計測と、比較器72によ
って決定される新しい終了x及びy位置とを有する。新
しい終了x及びy位置は、開始x及びy位置を置換し、
そして終了距離計測を得るために現行距離計測は、開始
距離計測に加えられる。この更新された拡張語頭は、ア
ジェンダ記憶ユニット74に記憶されたアジェンダのリ
ストに加えられる。輪郭解析手段70は、語頭セレクタ
76も含む。語頭セレクタ76は、アジェンダ記憶ユニ
ット74に記憶された更新アジェンダから選択語頭の新
しいリストを選択する。選択語頭のリストは、アジェン
ダ記憶ユニット74に記憶された距離値に基づいた、限
定数の高品質テキスト語頭を含む。選択語頭は、辞書記
憶ユニット62から拡張語頭の新しいリストを得るため
に用いられる。これらの新しい現行文字は、一つの文字
でアジェンダの選択語頭から拡張する。
【0027】語頭セレクタ76によって選択された限定
数の語頭は、二つの方法の一つで決定される。第1の方
法では、各語頭に対する距離値は、しきい値に比較され
る。語頭セレクタ76は、その総距離値がしきい値より
も少ない全てのテキスト語頭を次に選択する。第2の方
法では、語頭セレクタ76は、Nがある所定の整数であ
るような、最良距離値を有しているアジェンダのNテキ
スト語頭を選択する。一度語頭セレクタ76が可能テキ
スト語頭の新しいリストを識別したならば、このリスト
は、遷移パス抽出装置64に供給される。輪郭解析手段
70は、ライン終端(end-of-line) 決定手段78も含
む。ライン終端決定手段78は、ライン終端条件がいず
れかの語頭によって適合したかどうかを決定する。ライ
ン終端条件は、少なくとも3列幅(three columns wide)
の大きな白い空間であるのが好ましい。ライン終端決定
手段78は、ある語頭がライン終端条件に適合するとき
にはいつでも停止信号を出力する。停止信号は、ライン
終端条件に適合している語頭の最良距離計測を有してい
る語頭を出力する、アジェンダ記憶ユニット74に入力
される。勿論、ライン終端決定手段78に対する他の実
施例は、当業者に自明である。
数の語頭は、二つの方法の一つで決定される。第1の方
法では、各語頭に対する距離値は、しきい値に比較され
る。語頭セレクタ76は、その総距離値がしきい値より
も少ない全てのテキスト語頭を次に選択する。第2の方
法では、語頭セレクタ76は、Nがある所定の整数であ
るような、最良距離値を有しているアジェンダのNテキ
スト語頭を選択する。一度語頭セレクタ76が可能テキ
スト語頭の新しいリストを識別したならば、このリスト
は、遷移パス抽出装置64に供給される。輪郭解析手段
70は、ライン終端(end-of-line) 決定手段78も含
む。ライン終端決定手段78は、ライン終端条件がいず
れかの語頭によって適合したかどうかを決定する。ライ
ン終端条件は、少なくとも3列幅(three columns wide)
の大きな白い空間であるのが好ましい。ライン終端決定
手段78は、ある語頭がライン終端条件に適合するとき
にはいつでも停止信号を出力する。停止信号は、ライン
終端条件に適合している語頭の最良距離計測を有してい
る語頭を出力する、アジェンダ記憶ユニット74に入力
される。勿論、ライン終端決定手段78に対する他の実
施例は、当業者に自明である。
【0028】一般に、輪郭解析手段70は、テキスト語
頭のリスト及びこのリストに基づいて可能現行文字のセ
ットを選択するためにビーム探索法(beam search metho
d)を用いる。即ち、リストは、解析されている現行画像
部分に対する最良比較を提供するアジェンダの可能語頭
を包含すべく再編成される。それゆえに、一つの点での
テキスト語頭は、それが他のテキスト語頭と同じような
よい距離値を生成しないので、選択リストから落されう
る。しかしながら、画像解析が続くと、前回はよかった
語頭が落されたテキスト語頭よりも悪くなりうる。この
場合には、前回捨てられた語頭が再び選択される。距離
値は、比較の質だけでなく語頭が拡張する画像輪郭のx
及びy位置も含むので、輪郭比較手段72は、画像ライ
ンのビットマップの一つの点で一つの選択語頭を解析す
ることを開始し、その間にそれが画像ラインのビットマ
ップの別の点で別のテキスト語頭を解析することを開始
する。即ち、一つの選択語頭は、一つ、二つ、または別
の選択語頭におけるよりもそれ以上の文字を包含しう
る。ある点で、画像ラインのビットマップは、白い空間
または語間空間になりうる。第1の実施例では、これ
は、他の文字のように扱われている。これは、語間空間
としてみられるものは、語の終わりを実際には示さない
かもしれないので、そのように扱われる。それよりも、
それは、単語の文字間の不適当な間隔でありうる。加え
て、語間空間は、単一の画像ラインでされ、非常にしば
しばかなり可変である。それゆえに、語間空間は、第2
の実施例におけるように、もしそれが活性的に用いられ
るならば、任意に予め決定されなければならない。この
任意性は、ある実際の語間空間が見落されることを確実
にし、かつ語間空間が実際には存在しないところに“見
出される”。それゆえに、第1の実施例では、語間間隔
の時変性に対抗するロバストネスは、語間空間を単に別
の文字として扱うことによって得られた。しかしなが
ら、ある上昇形技術を組み込むことによって、第2の実
施例のように、語間間隔は、現行画像語の終わりを示す
べく用いられうる。語間セレクタ76は、アジェンダ記
憶ユニット74に記憶された一つの語頭を最後に選択す
る。この最後に選択された語頭は、その上部及び下部輪
郭が画像輪郭と比較されるときに最低総距離値を生成す
る完全辞書語(complete dictionary word)である。この
最後に選択されたテキスト語頭は、現行画像ラインの現
行部分に対応しているテキスト語として出力される。
頭のリスト及びこのリストに基づいて可能現行文字のセ
ットを選択するためにビーム探索法(beam search metho
d)を用いる。即ち、リストは、解析されている現行画像
部分に対する最良比較を提供するアジェンダの可能語頭
を包含すべく再編成される。それゆえに、一つの点での
テキスト語頭は、それが他のテキスト語頭と同じような
よい距離値を生成しないので、選択リストから落されう
る。しかしながら、画像解析が続くと、前回はよかった
語頭が落されたテキスト語頭よりも悪くなりうる。この
場合には、前回捨てられた語頭が再び選択される。距離
値は、比較の質だけでなく語頭が拡張する画像輪郭のx
及びy位置も含むので、輪郭比較手段72は、画像ライ
ンのビットマップの一つの点で一つの選択語頭を解析す
ることを開始し、その間にそれが画像ラインのビットマ
ップの別の点で別のテキスト語頭を解析することを開始
する。即ち、一つの選択語頭は、一つ、二つ、または別
の選択語頭におけるよりもそれ以上の文字を包含しう
る。ある点で、画像ラインのビットマップは、白い空間
または語間空間になりうる。第1の実施例では、これ
は、他の文字のように扱われている。これは、語間空間
としてみられるものは、語の終わりを実際には示さない
かもしれないので、そのように扱われる。それよりも、
それは、単語の文字間の不適当な間隔でありうる。加え
て、語間空間は、単一の画像ラインでされ、非常にしば
しばかなり可変である。それゆえに、語間空間は、第2
の実施例におけるように、もしそれが活性的に用いられ
るならば、任意に予め決定されなければならない。この
任意性は、ある実際の語間空間が見落されることを確実
にし、かつ語間空間が実際には存在しないところに“見
出される”。それゆえに、第1の実施例では、語間間隔
の時変性に対抗するロバストネスは、語間空間を単に別
の文字として扱うことによって得られた。しかしなが
ら、ある上昇形技術を組み込むことによって、第2の実
施例のように、語間間隔は、現行画像語の終わりを示す
べく用いられうる。語間セレクタ76は、アジェンダ記
憶ユニット74に記憶された一つの語頭を最後に選択す
る。この最後に選択された語頭は、その上部及び下部輪
郭が画像輪郭と比較されるときに最低総距離値を生成す
る完全辞書語(complete dictionary word)である。この
最後に選択されたテキスト語頭は、現行画像ラインの現
行部分に対応しているテキスト語として出力される。
【0029】一般に、テキスト認識システム40は、汎
用マイクロコンピュータ上で実施される。特に、辞書記
憶ユニット62は、汎用マイクロコンピュータ上で3テ
ープ有限状態機械として実施される。3テープは、可能
テキスト文字を包含している第1のテープ、対応してい
る上部形状輪郭を包含している第2のテープ及び対応し
ている下部形状輪郭を包含している第3のテープを含
む。一般に、3テープ有限状態機械に対する全状態図
は、辞書記憶ユニット62に記憶された全辞書を含んで
いるパスを包含することに注目すべきである。テキスト
認識システム40の第3の実施例では、画像ライン抽出
装置54は、図11に示すように、画像から現行ライン
を抽出した後、現行ラインを画像輪郭生成装置58に出
力する。画像輪郭生成装置58は、全現行ラインの上部
輪郭及び下部輪郭を生成する。上部及び下部輪郭のそれ
ぞれを生成するために、画像輪郭生成装置58は、現行
ラインの最左画素を識別し、かつスキャナから出力され
た、クリーン・アップ・ザ・ライン(clean-up the lin
e) のビットマップを見ながら、上部及び下部輪郭を生
成する。画像輪郭生成装置58と同様に辞書記憶ユニッ
ト62が単一の輪郭方式を用いる間に、あらゆる数の異
なる輪郭方式が、同じビットマップから有効輪郭を生成
することに注目すべきである。一般に、全てのそのよう
な輪郭方式は、同等に有効である。画像輪郭生成装置5
8が現行ラインに対する上部及び下部画像輪郭を生成し
た後、それらは、輪郭解析手段70に出力される。
用マイクロコンピュータ上で実施される。特に、辞書記
憶ユニット62は、汎用マイクロコンピュータ上で3テ
ープ有限状態機械として実施される。3テープは、可能
テキスト文字を包含している第1のテープ、対応してい
る上部形状輪郭を包含している第2のテープ及び対応し
ている下部形状輪郭を包含している第3のテープを含
む。一般に、3テープ有限状態機械に対する全状態図
は、辞書記憶ユニット62に記憶された全辞書を含んで
いるパスを包含することに注目すべきである。テキスト
認識システム40の第3の実施例では、画像ライン抽出
装置54は、図11に示すように、画像から現行ライン
を抽出した後、現行ラインを画像輪郭生成装置58に出
力する。画像輪郭生成装置58は、全現行ラインの上部
輪郭及び下部輪郭を生成する。上部及び下部輪郭のそれ
ぞれを生成するために、画像輪郭生成装置58は、現行
ラインの最左画素を識別し、かつスキャナから出力され
た、クリーン・アップ・ザ・ライン(clean-up the lin
e) のビットマップを見ながら、上部及び下部輪郭を生
成する。画像輪郭生成装置58と同様に辞書記憶ユニッ
ト62が単一の輪郭方式を用いる間に、あらゆる数の異
なる輪郭方式が、同じビットマップから有効輪郭を生成
することに注目すべきである。一般に、全てのそのよう
な輪郭方式は、同等に有効である。画像輪郭生成装置5
8が現行ラインに対する上部及び下部画像輪郭を生成し
た後、それらは、輪郭解析手段70に出力される。
【0030】テキスト認識システム40の第3の実施例
では、画像輪郭生成装置58が現行画像ラインの上部及
び下部輪郭を生成した後、文字及び輪郭抽出装置59
は、語間空間に横たわっている現行画像部分に対する輪
郭の広い特徴(broad features)を決定する。これらの主
要な画像特徴は、アセンダー及びディセンダー、並びに
輪郭の凹面上方(concave-up)及び凹面下方(concave-dow
n)部分を含む。広い文字分類のこれらの計測を距離計測
決定に組み込むことによって、追加的に効率は、不十分
な整合をより速く取り除くことによって生成されうる。
しかしながら、そのような文字特徴は、全語(entire wo
rd) に関して特徴を解析することを含むので、これは、
上述した既知の一部下降システムの全語解析に含まれる
追加の非効率も導入する。しかしながら、第1及び第2
の実施例のように、実際の解析は、左から右へ、区分的
に実行されるべく継続する。図11にも示すように、テ
キスト認識システム40の第4の実施例では、画像語抽
出装置56は、画像ライン抽出装置54と画像輪郭生成
装置58の間に挿入されうる。テキスト認識システム4
0のこの第4の実施例の動作は、図8〜図10に示され
る。一般に、テキスト認識システム40の第1、第3及
び第4の実施例の間の重要な違いは、現行画像ラインの
輪郭を決定する、画像輪郭生成装置58と、現行画像ラ
インの語間空間を先に決定する、画像語抽出装置56に
ある。それゆえに、テキスト認識システム40の第3及
び第4の実施例と図8〜図10に示されるフローチャー
トは、既知の一部下降形技術により密に対応する。しか
しながら、図8〜図10に示されるフローチャートから
明らかなように、語間空間がステップS4035で先に
決定され、テキスト認識システム40は、左から右へ部
分的に語間空間の間にある画像部分を解析すべく継続す
る。それゆえに、非効率が語間空間を先に決定すること
によって導入され、全語輪郭比較を行うことによって導
入される非効率は、まったく存在しない。画像語抽出装
置56は、画像輪郭生成装置58なしで、単独で用いら
れ、そして比較器72に直接接続されうることにも注目
すべきである。
では、画像輪郭生成装置58が現行画像ラインの上部及
び下部輪郭を生成した後、文字及び輪郭抽出装置59
は、語間空間に横たわっている現行画像部分に対する輪
郭の広い特徴(broad features)を決定する。これらの主
要な画像特徴は、アセンダー及びディセンダー、並びに
輪郭の凹面上方(concave-up)及び凹面下方(concave-dow
n)部分を含む。広い文字分類のこれらの計測を距離計測
決定に組み込むことによって、追加的に効率は、不十分
な整合をより速く取り除くことによって生成されうる。
しかしながら、そのような文字特徴は、全語(entire wo
rd) に関して特徴を解析することを含むので、これは、
上述した既知の一部下降システムの全語解析に含まれる
追加の非効率も導入する。しかしながら、第1及び第2
の実施例のように、実際の解析は、左から右へ、区分的
に実行されるべく継続する。図11にも示すように、テ
キスト認識システム40の第4の実施例では、画像語抽
出装置56は、画像ライン抽出装置54と画像輪郭生成
装置58の間に挿入されうる。テキスト認識システム4
0のこの第4の実施例の動作は、図8〜図10に示され
る。一般に、テキスト認識システム40の第1、第3及
び第4の実施例の間の重要な違いは、現行画像ラインの
輪郭を決定する、画像輪郭生成装置58と、現行画像ラ
インの語間空間を先に決定する、画像語抽出装置56に
ある。それゆえに、テキスト認識システム40の第3及
び第4の実施例と図8〜図10に示されるフローチャー
トは、既知の一部下降形技術により密に対応する。しか
しながら、図8〜図10に示されるフローチャートから
明らかなように、語間空間がステップS4035で先に
決定され、テキスト認識システム40は、左から右へ部
分的に語間空間の間にある画像部分を解析すべく継続す
る。それゆえに、非効率が語間空間を先に決定すること
によって導入され、全語輪郭比較を行うことによって導
入される非効率は、まったく存在しない。画像語抽出装
置56は、画像輪郭生成装置58なしで、単独で用いら
れ、そして比較器72に直接接続されうることにも注目
すべきである。
【0031】図11に示す、第5の実施例では、辞書記
憶ユニット62は、3テープ有限状態機械であるよりも
むしろ1テープ有限状態機械である。本実施例では、辞
書記憶ユニット62は、拡張語頭を形成する親語頭から
遷移だけを出力する。拡張語頭は、拡張語頭の終了遷移
を取りかつ対応している上部及び下部輪郭に対する文字
輪郭形状表68を探索する、文字輪郭生成装置66に出
力される。文字輪郭生成装置66は、トリプルを形成す
べく対応する輪郭を拡張語頭の遷移に付け、かつ完全拡
張語頭を比較器72に出力する。それゆえに、この技術
は、既知の技術を用いて辞書がコンパクトに符号化され
かつ状態遷移パスに沿った更なる整合が辞書における語
の存在及びテキストと画像語の間の整合の総括的な質に
よって確認されるならば、語整合処理が部分的にのみ実
行されるので、上記の空間及び時間問題を解決する。そ
れゆえに、処理は、検索の時間が辞書の大きさよりもむ
しろ入力ビットマップの長さに比例するので、非常に大
きな、無限に多くの語を有する無限の辞書でさえもスケ
ールアップする。加えて、有限状態辞書が、スクリプト
またはフォントコンベンションを捕らえるべく、ある言
語に対する形態パラダイム(morphological paradigms)
、他に対する無限合成パターン、句読点のコンベンシ
ョン及び他におけるライン破壊(line breaking) 、及び
アルファベットに対するリガチャーエクステンション(l
igature extensions) を表しうるので、この処理は、他
の辞書フィルタリングアプローチ(dictionary-filterin
g approaches) で本質的に収束する。
憶ユニット62は、3テープ有限状態機械であるよりも
むしろ1テープ有限状態機械である。本実施例では、辞
書記憶ユニット62は、拡張語頭を形成する親語頭から
遷移だけを出力する。拡張語頭は、拡張語頭の終了遷移
を取りかつ対応している上部及び下部輪郭に対する文字
輪郭形状表68を探索する、文字輪郭生成装置66に出
力される。文字輪郭生成装置66は、トリプルを形成す
べく対応する輪郭を拡張語頭の遷移に付け、かつ完全拡
張語頭を比較器72に出力する。それゆえに、この技術
は、既知の技術を用いて辞書がコンパクトに符号化され
かつ状態遷移パスに沿った更なる整合が辞書における語
の存在及びテキストと画像語の間の整合の総括的な質に
よって確認されるならば、語整合処理が部分的にのみ実
行されるので、上記の空間及び時間問題を解決する。そ
れゆえに、処理は、検索の時間が辞書の大きさよりもむ
しろ入力ビットマップの長さに比例するので、非常に大
きな、無限に多くの語を有する無限の辞書でさえもスケ
ールアップする。加えて、有限状態辞書が、スクリプト
またはフォントコンベンションを捕らえるべく、ある言
語に対する形態パラダイム(morphological paradigms)
、他に対する無限合成パターン、句読点のコンベンシ
ョン及び他におけるライン破壊(line breaking) 、及び
アルファベットに対するリガチャーエクステンション(l
igature extensions) を表しうるので、この処理は、他
の辞書フィルタリングアプローチ(dictionary-filterin
g approaches) で本質的に収束する。
【0032】更に、この処理は、伸張(stretching)、ス
ケーリング(scaling) 及び傾斜(tilting) の問題も解決
する。一般に、従来技術の整合方法において補償するた
めに用いられた標準ワーピング技術に伴う問題は、それ
が 全ての可能候補語形状(all possible candidate
word shapes)に対して実行されなければならない高価な
オペレーションであるということである。現在の技術で
は、文字形状変形の4つの問題、文字間間隔、傾斜、及
び語間隔を取り扱うべく、4つの特定局所機構(four sp
ecific local mechanisms)の時間ワーピングは、3テー
プ有限状態機械の操作の簡単な問題(simple matter) に
なる。例えば、語内間隔は、語間間隔のある割合いでバ
ウンドされた(bounded) 異なる長さのエプシロン(epsil
on) (空セット)遷移の別々のセットを挿入することに
よって3テープ有限状態機械にモデル化されうる。代替
的に、イタリック体のような、傾斜は、上部形状及び下
部形状輪郭に対する異なる大きさの初期エプシロン遷移
を許容することによって取り扱われる。そして、文字変
形は、異なるスタイルまたは大きさのフォントから、代
替レター形状を供給すること、またはレター毎に局所時
間ワーピングを行うことによって補償されうる。
ケーリング(scaling) 及び傾斜(tilting) の問題も解決
する。一般に、従来技術の整合方法において補償するた
めに用いられた標準ワーピング技術に伴う問題は、それ
が 全ての可能候補語形状(all possible candidate
word shapes)に対して実行されなければならない高価な
オペレーションであるということである。現在の技術で
は、文字形状変形の4つの問題、文字間間隔、傾斜、及
び語間隔を取り扱うべく、4つの特定局所機構(four sp
ecific local mechanisms)の時間ワーピングは、3テー
プ有限状態機械の操作の簡単な問題(simple matter) に
なる。例えば、語内間隔は、語間間隔のある割合いでバ
ウンドされた(bounded) 異なる長さのエプシロン(epsil
on) (空セット)遷移の別々のセットを挿入することに
よって3テープ有限状態機械にモデル化されうる。代替
的に、イタリック体のような、傾斜は、上部形状及び下
部形状輪郭に対する異なる大きさの初期エプシロン遷移
を許容することによって取り扱われる。そして、文字変
形は、異なるスタイルまたは大きさのフォントから、代
替レター形状を供給すること、またはレター毎に局所時
間ワーピングを行うことによって補償されうる。
【0033】更に、もし文字形状ワーピングがラインに
わたりまたは全文書にわたってさえも均一であるという
こと仮定がなされうるならば、そのような一定のワープ
ファクター(constant warp factor)は、文書の小さなサ
ンプルから計算されて整合ステップのパラメータとして
適用されうる。そして、ビーム探索フィルタリングは、
残っているレター整合に対する距離値がかなり悪く早急
になるので、整合が文字形状変形、文字間間隔、傾斜ま
たは語間隔において大きな変形を必要とするパスを素早
く排除する。最後に、探索は、辞書手段60における言
語に対してそれが適宜な方向であるときに、右から左(r
ight-to-left) 及び上から下(top-to-bottom) 方向に実
行されうるということに注目すべきである。例えば、ヘ
ブライ語テキスト画像または縦方向に設定された日本語
テキスト画像を解析するときに、これが必要になるであ
ろう。
わたりまたは全文書にわたってさえも均一であるという
こと仮定がなされうるならば、そのような一定のワープ
ファクター(constant warp factor)は、文書の小さなサ
ンプルから計算されて整合ステップのパラメータとして
適用されうる。そして、ビーム探索フィルタリングは、
残っているレター整合に対する距離値がかなり悪く早急
になるので、整合が文字形状変形、文字間間隔、傾斜ま
たは語間隔において大きな変形を必要とするパスを素早
く排除する。最後に、探索は、辞書手段60における言
語に対してそれが適宜な方向であるときに、右から左(r
ight-to-left) 及び上から下(top-to-bottom) 方向に実
行されうるということに注目すべきである。例えば、ヘ
ブライ語テキスト画像または縦方向に設定された日本語
テキスト画像を解析するときに、これが必要になるであ
ろう。
【0034】
【発明の効果】本発明の画像部分をテキスト語に変換す
る方法は、画像の現行部分のビットマップを生成し、可
能テキスト語の辞書から現行可能テキスト語頭のリスト
と、可能テキスト語頭のリストとを生成し、現行可能テ
キスト語頭のリストの各現行可能語頭に対する上部語頭
輪郭及び下部語頭輪郭を取得し、現行画像部分のビット
マップと上部及び下部語頭輪郭の間の比較に基づいて画
像部分と少なくとも一つの可能現行テキスト語頭の間の
比較値を決定し、各現行可能テキスト語頭に対する比較
値に基づいてテキスト語頭のリストを更新し、テキスト
語頭のリストから可能テキスト語頭のリストを選択し、
現行画像部分の終わりに到達するまでステップbからf
を繰り返し、そして現行画像部分に対応するテキスト語
として可能テキスト語頭の最良のものを識別するステッ
プを具備するので、既知の部分的アプローチのメモリ要
求を回避しかつ画像形状偏向に鑑みて増大したロバスト
ネスを供給し、また、個々に画像のラインの記号または
各文字の形状輪郭を別々に解析しかつ画像ラインの上部
輪郭形状と下部輪郭形状を別々に解析することが可能で
ある。
る方法は、画像の現行部分のビットマップを生成し、可
能テキスト語の辞書から現行可能テキスト語頭のリスト
と、可能テキスト語頭のリストとを生成し、現行可能テ
キスト語頭のリストの各現行可能語頭に対する上部語頭
輪郭及び下部語頭輪郭を取得し、現行画像部分のビット
マップと上部及び下部語頭輪郭の間の比較に基づいて画
像部分と少なくとも一つの可能現行テキスト語頭の間の
比較値を決定し、各現行可能テキスト語頭に対する比較
値に基づいてテキスト語頭のリストを更新し、テキスト
語頭のリストから可能テキスト語頭のリストを選択し、
現行画像部分の終わりに到達するまでステップbからf
を繰り返し、そして現行画像部分に対応するテキスト語
として可能テキスト語頭の最良のものを識別するステッ
プを具備するので、既知の部分的アプローチのメモリ要
求を回避しかつ画像形状偏向に鑑みて増大したロバスト
ネスを供給し、また、個々に画像のラインの記号または
各文字の形状輪郭を別々に解析しかつ画像ラインの上部
輪郭形状と下部輪郭形状を別々に解析することが可能で
ある。
【図1】画像解析システムの第1の実施例の動作を説明
するためのフローチャートである。
するためのフローチャートである。
【図2】画像解析システムの第1の実施例の動作を説明
するための他のフローチャートである。
するための他のフローチャートである。
【図3】画像解析システムの第1の実施例の動作を説明
するための他のフローチャートである。
するための他のフローチャートである。
【図4】画像解析システムの第2の実施例の動作を説明
するためのフローチャートである。
するためのフローチャートである。
【図5】画像解析システムの第2の実施例の動作を説明
するための他のフローチャートである。
するための他のフローチャートである。
【図6】画像解析システムの第2の実施例の動作を説明
するための他のフローチャートである。
するための他のフローチャートである。
【図7】画像解析システムの第1及び第2の実施例のブ
ロック図である。
ロック図である。
【図8】画像解析システムの第3及び第4の実施例の動
作を説明するためのフローチャートである。
作を説明するためのフローチャートである。
【図9】画像解析システムの第3及び第4の実施例の動
作を説明するための他のフローチャートである。
作を説明するための他のフローチャートである。
【図10】画像解析システムの第3及び第4の実施例の
動作を説明するための他のフローチャートである。
動作を説明するための他のフローチャートである。
【図11】画像解析システムの第3及び第4の実施例の
ブロック図である。
ブロック図である。
S1010 テキスト画像ビットマップを入力する段階 S1020 テキスト画像を個別ラインに分割する段階 S1030 現行ラインとして画像の第1ラインを選択
する段階 S1040 現行画像ラインビットマップの最左画素を
位置決めする段階 S1050 唯一のエントリとして開始状態語頭を有す
る初期アジェンダを設定する段階 S1060 距離計測に基づいてアジェンダから最良語
頭を選択する段階 S1070 選択語頭の1つを辞書に出力する段階 S1080 出力された選択語頭に基づいて辞書から拡
張語頭のリストを取得する段階 S1090 ビットマップに対する比較のために拡張語
頭の1つを選択する段階 S1100 拡張語頭を親選択語頭のX及びY位置から
始まるビットマップと比較する段階
する段階 S1040 現行画像ラインビットマップの最左画素を
位置決めする段階 S1050 唯一のエントリとして開始状態語頭を有す
る初期アジェンダを設定する段階 S1060 距離計測に基づいてアジェンダから最良語
頭を選択する段階 S1070 選択語頭の1つを辞書に出力する段階 S1080 出力された選択語頭に基づいて辞書から拡
張語頭のリストを取得する段階 S1090 ビットマップに対する比較のために拡張語
頭の1つを選択する段階 S1100 拡張語頭を親選択語頭のX及びY位置から
始まるビットマップと比較する段階
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ダニエル ジー ボブロウ アメリカ合衆国 カリフォルニア州 94301 パロ アルト アディソン アベ ニュー 376
Claims (1)
- 【請求項1】 a)画像の現行部分のビットマップを生
成し、b)可能テキスト語の辞書から現行可能テキスト
語頭のリストと、可能テキスト語頭のリストとを生成
し、c)現行可能テキスト語頭のリストの各現行可能語
頭に対する上部語頭輪郭及び下部語頭輪郭を取得し、
d)前記現行画像部分のビットマップと前記上部及び下
部語頭輪郭の間の比較に基づいて前記画像部分と少なく
とも一つの前記可能現行テキスト語頭の間の比較値を決
定し、e)各現行可能テキスト語頭に対する前記比較値
に基づいてテキスト語頭のリストを更新し、f)前記テ
キスト語頭のリストから前記可能テキスト語頭のリスト
を選択し、g)前記現行画像部分の終わりに到達するま
で前記ステップbからfを繰り返し、そしてh)前記現
行画像部分に対応する前記テキスト語として前記可能テ
キスト語頭の最良のものを識別するステップを具備する
ことを特徴とする画像部分をテキスト語に変換する方
法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/220,861 US5524066A (en) | 1994-03-31 | 1994-03-31 | Text recognition by predictive composed shapes |
US08/220861 | 1994-03-31 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH07271915A true JPH07271915A (ja) | 1995-10-20 |
Family
ID=22825297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7063073A Pending JPH07271915A (ja) | 1994-03-31 | 1995-03-22 | 予測合成形状によるテキスト認識 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5524066A (ja) |
JP (1) | JPH07271915A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021072885A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 识别文本的方法、装置、设备及存储介质 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH087033A (ja) * | 1994-06-16 | 1996-01-12 | Canon Inc | 情報処理方法及び装置 |
US5802205A (en) * | 1994-09-09 | 1998-09-01 | Motorola, Inc. | Method and system for lexical processing |
JP2741575B2 (ja) * | 1994-09-22 | 1998-04-22 | 日本アイ・ビー・エム株式会社 | 文字認識文字補完方法及びコンピュータ・システム |
US5689585A (en) * | 1995-04-28 | 1997-11-18 | Xerox Corporation | Method for aligning a text image to a transcription of the image |
JP3427692B2 (ja) * | 1996-11-20 | 2003-07-22 | 松下電器産業株式会社 | 文字認識方法および文字認識装置 |
US5999664A (en) * | 1997-11-14 | 1999-12-07 | Xerox Corporation | System for searching a corpus of document images by user specified document layout components |
US6665841B1 (en) | 1997-11-14 | 2003-12-16 | Xerox Corporation | Transmission of subsets of layout objects at different resolutions |
US6562077B2 (en) | 1997-11-14 | 2003-05-13 | Xerox Corporation | Sorting image segments into clusters based on a distance measurement |
WO2001054054A1 (en) * | 2000-01-19 | 2001-07-26 | California Institute Of Technology | Word recognition using silhouette bar codes |
US7046851B2 (en) | 2000-11-08 | 2006-05-16 | California Institute Of Technology | Image and video indexing scheme for content analysis |
US20030182279A1 (en) * | 2002-03-19 | 2003-09-25 | Willows Kevin John | Progressive prefix input method for data entry |
US7106905B2 (en) * | 2002-08-23 | 2006-09-12 | Hewlett-Packard Development Company, L.P. | Systems and methods for processing text-based electronic documents |
US8607151B2 (en) * | 2006-08-01 | 2013-12-10 | Nvidia Corporation | Method and system for debugging a graphics pipeline subunit |
US7724164B2 (en) * | 2007-01-24 | 2010-05-25 | Samsung Electronics Co., Ltd. | Apparatus and method of dynamically caching symbols to manage a dictionary in a text image coding and decoding system |
US8438010B2 (en) * | 2007-12-06 | 2013-05-07 | International Business Machines Corporation | Efficient stemming of semitic languages |
US9245181B2 (en) | 2013-07-22 | 2016-01-26 | Xerox Corporation | Method and system for resolution conversion of textual content or magnetic ink character recognition (MICR) content |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4654875A (en) * | 1983-05-23 | 1987-03-31 | The Research Foundation Of State University Of New York | System to achieve automatic recognition of linguistic strings |
US5133023A (en) * | 1985-10-15 | 1992-07-21 | The Palantir Corporation | Means for resolving ambiguities in text based upon character context |
US5067165A (en) * | 1989-04-19 | 1991-11-19 | Ricoh Company, Ltd. | Character recognition method |
US5029223A (en) * | 1990-02-02 | 1991-07-02 | International Business Machines Corporation | Constraint driven-on line recognition of handwritten characters and symbols |
US5151950A (en) * | 1990-10-31 | 1992-09-29 | Go Corporation | Method for recognizing handwritten characters using shape and context analysis |
US5377281A (en) * | 1992-03-18 | 1994-12-27 | At&T Corp. | Knowledge-based character recognition |
US5329598A (en) * | 1992-07-10 | 1994-07-12 | The United States Of America As Represented By The Secretary Of Commerce | Method and apparatus for analyzing character strings |
US5392212A (en) * | 1993-07-07 | 1995-02-21 | The United States Of America As Represented By The Secretary Of Commerce | Apparatus for identifying unknown words by comparison to known words |
-
1994
- 1994-03-31 US US08/220,861 patent/US5524066A/en not_active Expired - Lifetime
-
1995
- 1995-03-22 JP JP7063073A patent/JPH07271915A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021072885A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 识别文本的方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US5524066A (en) | 1996-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11922318B2 (en) | System and method of character recognition using fully convolutional neural networks with attention | |
JPH07271915A (ja) | 予測合成形状によるテキスト認識 | |
JP3822277B2 (ja) | 文字テンプレートセット学習マシン動作方法 | |
JP2940496B2 (ja) | パタンマッチング符号化装置及び方法 | |
EP0844583B1 (en) | Method and apparatus for character recognition | |
US6944344B2 (en) | Document search and retrieval apparatus, recording medium and program | |
US6661417B1 (en) | System and method for converting an outline font into a glyph-based font | |
CN111401099B (zh) | 文本识别方法、装置以及存储介质 | |
WO2018090013A1 (en) | System and method of character recognition using fully convolutional neural networks with attention | |
JP2001203897A (ja) | パタンマッチング符号化装置及び方法 | |
JP2000315247A (ja) | 文字認識装置 | |
JPH0634256B2 (ja) | 接触文字切出し方法 | |
EP1093078B1 (en) | Reducing apprearance differences between coded and noncoded units of text | |
US20210256294A1 (en) | System and method for whole word conversion of text in image | |
JPH07271921A (ja) | 文字認識装置および文字認識方法 | |
JPH07319880A (ja) | キーワード抽出・検索装置 | |
JP3236732B2 (ja) | 文字認識装置 | |
JP6523988B2 (ja) | 文字認識装置、文字認識方法、およびプログラム | |
Leishman | Shape-free statistical information in optical character recognition | |
JP3595081B2 (ja) | 文字認識方法 | |
JP2976990B2 (ja) | 文字認識装置 | |
JPH01277989A (ja) | 文字列パターン読み取り装置 | |
JPH06195521A (ja) | 文字認識方法 | |
JPS62169285A (ja) | 文書処理装置 | |
JPS62288989A (ja) | 文字認識方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20031117 |