JPH07271915A

JPH07271915A - 予測合成形状によるテキスト認識

Info

Publication number: JPH07271915A
Application number: JP7063073A
Authority: JP
Inventors: M Kaplan Ronald; エムカプランロナルド; Daniel G Bobrow; ジーボブロウダニエル
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1994-03-31
Filing date: 1995-03-22
Publication date: 1995-10-20
Also published as: US5524066A

Abstract

(57)【要約】（修正有）【目的】既知の部分的アプローチによるメモリ増大を
回避する一方、起りうる画像形状偏向にも十分堪えう
る、より完全な下降形アプローチ。【構成】画像の文字テキスト認識に対する下降形技術
は、各画像ラインの左から右解析を含む。テキスト語頭
の上部及び下部テキスト輪郭が現行画像部分のビットマ
ップと比較される。距離値が生成され、比較の質を示
す。語頭が語頭のアジェンダに加えられる。距離値に基
づいて、画像部分のビットマップに対する可能語頭の上
部形状及び下部形状の類似に対応して、最良距離値を生
成しているテキスト語頭のリストがアジェンダから選択
される。選択されたリストから、拡張テキスト語頭の新
しいリストが辞書から得られてアジェンダに加えられ
る。処理は、現行画像部分が終了するまで繰り返され
る。この点で、最良総距離値を有する可能テキスト語頭
が、画像部分に対応するテキスト文字のリストとして選
択される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、画像及び可能な対応テ
キスト語の下降形解析を用いるテキスト画像のテキスト
認識に関する。特に、本発明は、ライン毎に基づく画像
並びに可能な対応テキスト語頭及び語の区分的左から右
解析(piece-wise left-to-right analysis) に関する。
解析は、個別画像セグメント並びに選択されたテキスト
語頭及び／又はテキスト語の対応する上部及び下部輪郭
の左から右区分的連結(left-to-right piece-wise conc
atenation)を用いる。可能な対応テキスト語頭及び語
は、テキスト画像と先行の可能なテキスト語頭の上部及
び下部画像輪郭の間の先行比較に基づいて選択される。

【０００２】

【従来の技術】伝統的に、光学式文字認識に用いられる
ような、テキスト認識技術は、上昇形オリエンテーショ
ンに起因する。即ち、伝統的技術は、まず個別画素を識
別し、次にこれらの画素を連結構成要素またはストロー
クスに接合する。連結構成要素またはストロークスは、
文字にマップされる。語のようなより高いレベルのユニ
ットは、単に、先に認識された文字のシーケンスとして
表れるにすぎない。しかしながら、これらの伝統的技術
は、ストロークスまたは連結構成要素を分離しかつ識別
することの困難及び曖昧に決定されたストロークスまた
は連結構成要素が文字シーケンスにマップする曖昧な方
法による既知の不正確さ及び非効率さをつねに経験す
る。これらの伝統的技術は、既知の語の辞書に対抗して
認識処理の中間結果をフィルタリングすることによって
改善されるうるが、この改善された正確さは、時間及び
必要な処理パワーに関して、認識処理の非効率における
更なる増大でのみ達成される。伝統的な上昇形テキスト
認識技術と相違する、一部下降形技術が最近提案され
た。この一部下降形技術では、認識処理は、個別語の全
体的アウトラインの解析に起因する。このアプローチで
は、個別語の間をまず識別するために語間間隔(interwo
rd spacing) が用いられる。その相対長さ、そのアセン
ダー及びディセンダーの分布及びその角張った輪郭対丸
まった輪郭の分布によって規定される、語の形状分類
は、語を形成する特定のレターストロークスまたは連結
構成要素の細部よりもむしろ、解析されかつ決定され
る。この方法において、テキスト認識処理は、正しく分
離することがしばしば非常にノイジー(noisy) でかつ困
難である、ストロークスまたは連結構成要素の細部を解
析しなければならないことを回避する。

【０００３】

【発明が解決しようとする課題】この既知の技術は、語
間空間(interword spaces)を位置決めするような標準上
昇形処理を用いることを継続するので、一部下降形技術
である。そのような上昇形処理を含むことによって、こ
の既知の技術は、そのような語間空間を識別することに
含まれる上昇形技術における非効率さを保持する。即
ち、構成要素またはストロークスを識別することに対応
付けられたノイズは、大きさが変化しうる、語間空間を
識別する処理にも影響を及ぼしうる。加えて、小さい語
間空間は、語内空間(intraword space) として認識され
うるし、大きな語内空間は、語間空間として認識されう
る。それゆえに、従来の方法の、上昇形で語間空間を決
定することを試みることによって、上昇形技術における
既知の非効率さ及び不正確さが、この既知の、一部下降
形技術に再び導入される。この一部下降形技術におい
て、語の辞書のそれぞれの形状輪郭は、認識されるべき
テキスト語のビットマップ画像から生成した形状輪郭に
対抗して整合される。この既知のアプローチでは、認識
処理は、辞書に包含された各テキスト語に対するテキス
ト語形状に対抗して生成画像語形状(generated image w
ord shape)を別々に整合する。不幸にも、これ自体は、
多数の典型的な非効率さを認識処理に導入する。

【０００４】第１に、計算の量は、辞書の大きさに関し
て、線形である。それゆえに、計算費用は、あらゆる適
当な大きさの辞書（例えば１００，０００語）に対して
ひどく高い。第２に、適当な大きさの辞書に対してさえ
も辞書の語のそれぞれに対応する語輪郭を記憶するため
に必要なメモリ記憶の量は、それ自体非常に大きい。最
後に、全体として各テキスト語の形状は、全体として各
画像語の形状に対抗して比較されるので、伸張、収縮ま
たは傾斜のような、辞書のテキスト語のモデル形状から
系統的に偏向する形状を有している画像語は、整合処理
の信頼性を非常にそこなう。従って、この一部下降形ア
プローチは、ノイジーでかつストロークスまたは連結構
成要素を分離することが困難な既知の問題に関してより
ロバスト(robust)なテキスト認識処理を供給するが、下
降形アプローチ自体は、ロバスト性に欠ける領域を有す
る。更に、一部下降形アプローチは、ストロークスまた
は連結構成要素を解析することから生起される非効率さ
を回避することが可能であるが、それは、既知の語の辞
書の使用から起きる非効率さを拡大する。結局、この既
知の一部下降形アプローチのメモリ要求は、下降形シス
テムの費用を禁止レベルに上昇させる。

【０００５】従って、本発明は、既知の部分的アプロー
チのメモリ要求を回避しかつ画像形状偏向に鑑みて増大
したロバストネスを供給するより完全な下降形アプロー
チを用いるテキスト認識システム及び方法を提供する。
特に、本発明は、個々に画像のラインの記号または各文
字の形状輪郭を別々に解析するテキスト認識システム及
び方法を提供する。本発明は、画像ラインの上部輪郭形
状と下部輪郭形状を別々に解析するテキスト認識システ
ム及び方法を更に提供する。

【０００６】

【課題を解決するための手段】上述した本発明の目的
は、画像の現行部分のビットマップを生成し、可能テキ
スト語の辞書から現行可能テキスト語頭のリストと、可
能テキスト語頭のリストとを生成し、現行可能テキスト
語頭のリストの各現行可能語頭に対する上部語頭輪郭及
び下部語頭輪郭を取得し、現行画像部分のビットマップ
と上部及び下部語頭輪郭の間の比較に基づいて画像部分
と少なくとも一つの可能現行テキスト語頭の間の比較値
を決定し、各現行可能テキスト語頭に対する比較値に基
づいてテキスト語頭のリストを更新し、テキスト語頭の
リストから可能テキスト語頭のリストを選択し、現行画
像部分の終わりに到達するまでステップｂからｆを繰り
返し、そして現行画像部分に対応するテキスト語として
可能テキスト語頭の最良のものを識別するステップを具
備する画像部分をテキスト語に変換する方法によって達
成される。

【０００７】

【作用】本発明は、可能なテキスト語頭または語のリス
トに対応する上部及び下部形状輪郭に対抗して現行画像
ラインの現行画像部分の要素的左から右比較(element-w
ise left-to-right comparison) を実行することによっ
てこれらの特徴を供給する。可能なテキスト語頭または
語のリストは、先に識別したかまたは選択したテキスト
語頭に対応する比較の質に基づいて辞書から選択され
る。解析は、可能なテキスト語頭または語のリストのそ
れぞれの上部及び下部形状輪郭に対抗して現行画像部分
のビットマップを比較することによって実行される。二
つ以上の記号とそれらに対応する上部及び下部形状の連
結が全体として取った記号のシーケンス並びに全シーケ
ンスの上部及び下部形状と同等なので、テキスト語頭と
画像部分の比較は、画像の現行ラインの次の画像部分を
現行画像ラインの現行画像部分に連結することによって
部分的に進行する。同様に、新しいテキスト語頭並びに
それらに対応する上部及び下部輪郭のリストは、種々の
新しいテキスト文字並びにそれらに対応する上部及び下
部輪郭を各先行テキスト語頭並びにその対応する上部及
び下部輪郭に連結することによって生成されうる。それ
ゆえに、解析は、部分的に進行でき、各新しいテキスト
語頭に対する上部及び下部輪郭を完全に再発する必要を
回避する。

【０００８】距離値は、現行画像部分と可能なテキスト
語頭のリストのそれぞれとの間の整合の程度を示すため
に比較から生成される。所定数の可能なテキスト語頭ま
たは所定の距離値のしきい値以下に該当する全ての可能
なテキスト語のいずれかを含んでいる選択した語頭のリ
ストは、テキスト語頭の距離値に基づき、全ての可能な
テキスト語頭のアジェンダから選択される。一度左から
右の要素的比較が現行語または現行ラインの終わりを検
出すると、単一テキスト記号列またはテキスト語は、現
行画像ラインまたは画像部分に対応するテキスト記号列
またはテキスト語として、生成した全距離値に基づい
て、可能なテキスト語頭のリストから選択される。

【０００９】

【実施例】３テープ有限状態機械(three-tape finite-s
tate-machine) は、以下の観察に基づいて語の辞書から
の情報を辞書記憶ユニットに符号化する妥当な根拠(val
idbasis) を供給する。文字の輪郭形状表現に対する既
知の方法は、連結にわたり類似である。即ち、もしｘ及
びｙがレターの二つの記号列であり、そしてｘｙがそれ
らの連結であるならば、次式が成り立つ：

【００１０】

【数１】Ｓｈａｐｅ（ｘｙ）＝Ｓｈａｐｅ（ｘ）．Ｓ
ｈａｐｅ（ｙ）ここで、周期（期間：period）は、二つの形状表現を組
み合わせる簡単な動作を示す。上述したように、各レタ
ーまたはレター記号列の形状は、上部形状（ＵＳ）と下
部形状（ＬＳ）の、二つの構成要素に分解されうる。従
って、連結類似は、これら両方の構成要素に対して保持
する。それゆえに、一般に各トリプルがレター記号列、
その上部形状及びその下部形状を包含する、トリプルの
セット(sets of triples) を取って、次式が成り立つ：

【００１１】

【数２】＜ｘｙ，ＵＳ（ｘｙ），ＬＳ（ｘｙ）＞＝＜
ｘｙ，ＵＳ（ｘ）．ＵＳ（ｙ），ＬＳ（ｘ）．ＬＳ
（ｙ）＞＝＜ｘ，ＵＳ（ｘ），ＬＳ（ｘ）＞．＜ｙ，
ＵＳ（ｙ），ＬＳ（ｙ）＞ここで、第２ラインの周期（期間）は、そのオペランド
トリプレット(operandtriplets)の構成要素の要素的連
結オペレータ(element-wise concatenation)として規定
される。もし言語の記号列とそれらの形状構成要素ＵＳ
及びＬＳとの間の関係が特定の数学的分類、“正則３関
係(regular 3-relations) ”であるならば、この関係
は、特に簡単な計算装置である、３テープ有限状態機械
によって生成または受容されうる、ということは、従来
の技術においてよく知られている。従来の技術において
よく知られているように、３テープ有限状態機械は、左
から右への状態遷移グラフとして符号化されうる。状態
遷移グラフのエッジは、個別のレター、それに対応する
上部及び下部形状、ＵＳ及びＬＳのトリプルでラベル付
けされる。従って、辞書のあらゆる有効語は、そのよう
な状態遷移グラフの種々のノード間で、パスまたはエッ
ジのシーケンスとして、符号化されうる。あらゆるその
ようなパスで、パスによって符号化された語は、パスを
形成しているエッジのラベルの最初の構成要素を連結す
ることによって簡単に読み取られうる。

【００１２】加えて、語の辞書及び個々のレターの形状
輪郭を特定する表からそのような状態遷移グラフを構成
する既知の技術が存在する。勿論、形状輪郭の表は、使
用されうる特定のフォント(font)にかなり依存するとい
うことは、理解されるべきであるが、しかし上部と下部
の文字形状の比較は、伸張(stretching)、スケーリング
(scaling) または傾斜(tilting) に対して一般にインセ
ンシティブである。結局、そのような状態遷移グラフの
大きさを縮小しかつ左から右の整合性能を最適化する種
々の既知の技術がこの分野で存在する。一つのそのよう
な最適化技術は、一つ以上の座標(coordinates) でグラ
フを決定することを含んでいる。結局、本発明者の一人
が、相対的に小さなメモリ空間の量でそのような状態遷
移グラフを符号化するかなり効果的な技術を開発した。
これらの技術は、ここに組み込まれた、出願継続中のカ
プラン等(Kaplan et al)による米国特許出願第07/855,1
29号に記載されている。それゆえに、上述したように、
全ての可能な語形状対応は、このコンパクト（小型）復
号化を供給すべく最適化された３テープ有限状態機械で
表されている。この３テープ有限状態機械は、下降形、
またはこの場合には、本発明の左から右の語予測、テキ
スト認識システム、に対する整合候補(matching candid
ates) を直接的に支配すべく用いられる。

【００１３】図１は、本発明による方法の第１の実施例
を示す。各現行画像ラインに対して、認識は、画像ビッ
トマップを、ステップＳ１０１０で、入力することによ
って始まる。次に、ステップＳ１０２０で、画像の個別
ラインが識別される。ステップＳ１０３０で、画像の第
１のラインが現行ラインとして選択される。次に、ステ
ップＳ１０４０で、現行ラインのビットマップの最左画
素(left-most pixel)が位置決めされる。次に、ステッ
プＳ１０５０で、システムは、辞書を表している３テー
プ有限状態機械の開始状態をアクセスする。開始状態か
らの遷移は、語を始めうる可能なレターまたは他の記号
に対応する。ここで示されかた記述される例において、
辞書は、標準の、英語辞書であると想定される。しかし
ながら、文書の形式により、辞書は、別の言語でありう
るし、または特定の言語や技術分野の専門用語に限定さ
れうる。限定された辞書では、語を表わすべく用いられ
るアルファベットの全ての可能な文字が辞書の語または
句を始めない。従って、全ての文字が開始状態からの遷
移によって表されえない。レターは、最初の、一記号語
頭を形成する。語頭は、辞書の一つ以上の語を、他の文
字と組合せたときに、形成できる語頭の記号列及び／又
は語フラグメント(word fragment) である。語頭の文字
の数が多くなると、語頭は、有限状態機械を通して取っ
た、エッジ、または遷移のパスに対応する文字によって
規定される。それゆえに、語頭は、そのパスと相互交換
可能である。同様に、単語または多重語句でありうる、
辞書のエントリは、有限状態機械の遷移のユニークセッ
ト（即ち、ユニーク遷移パス）としてそれぞれ表され
る。語または句エントリを規定している各遷移のセット
は、開始状態から始まり開始状態に終わる。即ち、辞書
エントリの第１のレターを規定している、第１の遷移パ
スは、開始状態から拡張し、現行辞書エントリと次の辞
書エントリの間の空間を規定している最後の遷移パス
は、開始状態に拡張する。全ての“空間”遷移が開始状
態に戻らないということに注目すべきである。これは、
ある辞書のエントリは、二つ以上の独立語を含むからで
ある。

【００１４】開始状態は、アジェンダへの初期エントリ
を常に生成する。アジェンダの各エントリは、４つの部
分を有する。第１の部分は、現行状態である。第２の部
分は、語頭を形成している文字のリストである。これ
は、開始状態から３テープ有限状態機械を介して現行状
態への状態遷移のリストに対応する。第３の部分は、現
行画像ラインまたは部分に対する語頭の輪郭の比較の質
を示す、距離計測(distance measure)である。第４の部
分は、‘最良’の距離計測を生成する解析されているテ
キスト画像のビットマップのｘ及びｙ位置である。次
に、ステップＳ１０６０で、最良の現行アジェンダエン
トリが選択される。最初のパス・スルー(pass-through)
で、各ラインに対するアジェンダは、一つだけのエント
リを有するので、そのエントリは、勿論選択されかつア
ジェンダから取り除かれる。ステップＳ１０７０で、ス
テップＳ１０６０で選択された語頭の一つは、現行選択
語頭として辞書に出力される。ステップＳ１０８０で、
現行状態から拡張している拡張語頭または遷移が辞書か
ら得られる。次に、ステップＳ１０９０で、辞書に出力
された語頭の現行状態から拡張している遷移の一つが現
行遷移として選択される。開始状態から拡張している最
初の語頭に対して、これらの拡張した語頭の全ては、同
じ距離計測を有する。これは、アジェンダが最初に生成
されたときに、割り当てられた初期距離計測であり、完
全整合を表わす。

【００１５】ステップＳ１１００で、選択した遷移の上
部及び下部輪郭の対は、選択したアジェンダエントリの
第４の部分に記憶されたｘ及びｙ位置で始まっている現
行ラインのビットマップに対抗して整合される。開始状
態から拡張している一文字語頭の全ては、現行画像ライ
ンのビットマップの最左画素に対応している、開始ｘ及
びｙ位置で整合される。“最左”画素は、ラインのその
垂直位置に独立な、実際の最左画素でありうる。しかし
ながら、好ましい実施例では、“最左”画素は、テキス
トのラインの基線(baseline)上である。選択した遷移の
上部及び下部輪郭の対が、記憶されたｘ及びｙ位置から
開始している（即ち、開始ｘ及びｙ位置）、ビットマッ
プに整合されると、ビットマップに沿ったｘ及びｙ位置
の新しいセット（即ち、終了ｘ及びｙ位置）が位置決め
される。終了ｘ及びｙ位置の新しいセットは、選択した
遷移の上部及び下部輪郭の対とビットマップの間の適合
(fit) を最大にするビットマップに沿った点を表わす。
同時に、距離計測、ビットマップと選択した遷移の輪郭
の間の適合の質（良好または不良のいずれかに関し）を
表している値、が決定される。ステップＳ１１１０で、
距離計測は、ビットマップと選択した遷移の輪郭の間の
適合から生成される。ステップＳ１１２０で、拡張した
語頭は、新しい状態、距離計測、並びにｘ及びｙ位置と
一緒に、アジェンダに記憶される。次にステップＳ１１
３０で、システムは、現行選択語頭に対する遷移の全て
がビットマップと比較されたかどうかを決定する。もし
そうであるならば、制御は、ステップＳ１１４０に続
く。もし現行語頭の遷移の全てが比較されないならば、
制御は、ステップＳ１０９０に戻る。ステップＳ１１４
０で、システムは、全ての選択語頭またはアジェンダエ
ントリが辞書に出力されたかどうかを決定する。もしそ
うであるならば、システムは、ステップＳ１１５０に続
く。さもなくば、システムは、別の選択語頭が選択され
かつ辞書に出力されるステップＳ１０７０に戻る。

【００１６】本発明の第１の実施例（そして以下の実施
例の全てに使用可能な）の変形では、上部輪郭及び下部
輪郭は、ビットマップに独立に整合されかつ別々のｘ及
びｙ位置を生成する。即ち、整合処理は、上部輪郭距離
計測並びに上部輪郭最良適合（または終了）ｘ及びｙ位
置を生成すべく上部輪郭に対してまず実行される。この
処理は、有効現行文字のセットの現行文字の下部輪郭に
対して繰り返される。次に、この変形において、ビット
マップと上部及び下部輪郭の間の適合の質を独立に表し
ている、二つの値は、各可能なパスに対する単一質計測
または距離計測を得るべく、ステップＳ１１１０で組み
合わせられる。別の変形では、オフセットεは、ビット
マップの上部と下部の輪郭の間で決定される。このオフ
セットεは、印刷されたイタリック文字のような、文字
のあらゆるワーピングを表わす。このオフセットは、適
当な輪郭とビットマップの間のアラインメント（位置合
わせ）を改善すべく、適するように、上部または下部の
輪郭に対して、適するように、ｘ及びｙ位置に加えられ
る。例えば、真っ直ぐな、テキストのイタリック体のラ
インで、オフセットεは、先行適合オペレーションで決
定された最良適合ｘ位置から各上部輪郭に加えられう
る。この方法で、最良適合位置がそれ自体変わらず、も
しワーピングがのラインの間で停止または開始するなら
ば、オフセットは、最良適合位置に永久的に組み込まれ
ない。

【００１７】上述したように、各アジェンダエントリ、
または語頭は、一つ以上の語を規定する状態遷移のリス
トとして記憶される。即ち、語頭の長さは、単語に限定
されない。ステップＳ１１５０で、システムは、アジェ
ンダエントリのいずれかが現行ラインの終わりに到達し
たかどうかを決定する。もしそうでないならば、制御
は、ステップＳ１０６０に戻る。さもなくば、制御は、
ステップＳ１１６０に続く。次にステップＳ１０６０
で、アジェンダ、または現行画像ラインに対する可能パ
スの完全リストが、更に追跡されるべき、限定された数
の可能パス、または語頭を得るために検索される。即
ち、距離計測及び距離計測しきい値または選択されるべ
き所定数のパスのいずれかに基づいて、語頭の最確のも
のだけが更なる解析に対するアジェンダから選択され
る。ステップＳ１０７０では、選択されたパスが、新し
い拡張語頭を得るべく一回につき一つ辞書に出力され
る。各選択された語頭から得られた新しい拡張語頭は、
選択された語頭の最後の遷移の終わりの状態から拡張し
ている新しい遷移によって規定される。即ち、各選択さ
れた語頭は、辞書から、現行文字または遷移の新しいセ
ットを常に得る。遷移の新しいセットは、親語頭の終了
状態から拡張する。それゆえに、遷移の新しいセット
は、有効拡張語頭の新しいセットを規定する。有効拡張
語頭の新しいセットは、選択されたパスまたは語頭に連
結されるときに、有効語頭をも形成する、それらの文字
を含む。

【００１８】ステップＳ１０９０では、各選択された語
頭の現行文字をステップＳ１０８０におけるその選択さ
れた語頭と連結することによって形成された、拡張語頭
がビットマップに対抗する比較に対して一度に一つ選択
される。拡張語頭が形成されるときには、それらは、そ
れらの親語頭から語頭を形成している文字のリスト、開
始距離計測、終了距離計測からの開始ｘ及びｙ位置、親
語頭の終了ｘ及びｙ位置を受け継ぐ。次にステップＳ１
１００で、選択拡張語頭は、最良適合終了ｘ及びｙ位置
並びに現行距離計測を決定すべく開始ｘ及びｙ位置から
のビットマップと比較される。各選択語頭がｘ及びｙ位
置のそれ自体の特定のセットを有しているので、同じ現
行文字を包含している各選択語頭は、その現行文字の輪
郭をｘ及びｙ位置の異なるセットから開始するビットマ
ップに整合しうる。それゆえに、その現行文字を包含し
ている各新しい有効語頭に対するｘ及びｙ位置の新しい
セットは、各そのような語頭に対して異なりうる。ステ
ップＳ１１２０で、選択語頭に対する新しい距離計測
は、ステップＳ１１１０で生成した現行距離計測を選択
語頭に対する開始距離計測に加えることによって決定さ
れる。ステップＳ１１２０で、現行拡張語頭は、アジェ
ンダに記憶される。次にステップＳ１１３０で、システ
ムは、拡張語頭の全てが選択されたかどうかを再び決定
する。もしそうでなければ、システムは、別の拡張語頭
が選択されるステップＳ１０９０に戻る。もし拡張語頭
の全てが選択されたならば、システムは、ステップＳ１
１４０に続く。ステップＳ１１４０では、システムは、
もし選択された語頭の全てが出力されたかどうかを再び
決定する。もしそうでなければ、システムは、別の選択
語頭が辞書に出力されるステップＳ１０７０に戻る。ス
テップＳ１１５０でもし選択された語頭の全てが出力さ
れたならば、システムは、あらゆる語頭が現行ラインの
終わりに到達したかどうかを再び決定する。

【００１９】上昇形技術を用いることを避ける、この第
１の実施例では、語間間隔がちょうど別の文字として扱
われる、ということに注目すべきである。それゆえに、
アジェンダのパスまたは語頭は、解析処理中、語セグメ
ントに分割されない。それよりも、語頭は、ラインの文
字の全てを含む。もしシステムが、ステップＳ１１５０
で、現行ラインの終わりに到達したことを決定するなら
ば、システムは、最良距離計測を有しているアジェンダ
の語頭が現行画像ラインに対応するテキスト記号列とし
て出力される、ステップＳ１１６０に続く。次にステッ
プＳ１１７０では、システムは、次の画像ラインが存在
するかどうかを決定する。もしそうであるならば、シス
テムは、次の画像ラインが選択されるステップＳ１１８
０に続き、そしてステップＳ１０４０に戻る。もし更な
る画像ラインが存在しないならば、システムは、それに
代わり、処理が終了される、ステップＳ１１９０に分岐
する。もしステップＳ１１５０が現行画像ラインの終わ
りに到達していないことを決定するならば、システムは
ステップＳ１０６０に戻る。ステップＳ１０６０−Ｓ１
１５０のステップをそれぞれが通った後にアジェンダが
最良適合語頭に対して検索されると、“最良”語頭の新
たに選択されたリストは、最良語頭の先に選択されたリ
ストに含まれなかった語頭を含みうる。しかしながら、
アジェンダの各語頭が、上部及び下部輪郭に対する最良
適合ｘ及びｙ位置をそれと一緒に支持するので、語頭の
選択されたリストから落ちたアジェンダの語頭として、
情報がなにも失われずかつシステムは、現行画像ライン
の解析中いつでもこれらの最良適合ｘ及びｙ位置から解
析を容易に最開始できる。

【００２０】第２の実施例では、システムは、代わりに
語間間隔に対してすぐに反応する。それゆえに、図４か
ら図６に示すように、第２の実施例では；ステップＳ２
０００〜Ｓ２１４０は、第１の実施例と同じである。次
に、ステップＳ２１５０では、最良適合語頭が語間空間
で終わるかどうかを決定することによって、システムが
現行画像語の終わりに到達したかどうかを決定する。も
しそうでなければ、システムはステップＳ２０６０に戻
る。他方、もし最良適合語頭が語間空間で終わるなら
ば、システムは、現行ラインのテキストの部分として語
頭を出力しかつステップＳ２１６０でアジェンダをクリ
アし、そしてステップＳ２１７０で語間空間の後でビッ
トマップの最左画素を見出す。ステップＳ２１８０で、
システムは、現行画像ラインの終わりに到達したかどう
かを決定する。もしそうでなければ、システムは、初期
ｘ及びｙ位置としてステップＳ２１７０で見出された最
左画素のｘ及びｙ位置を用いて、ステップＳ２０４０に
戻る。もしシステムがステップＳ２１８０で現行画素ラ
インは終わったと決定したならば、システムは、次の画
像ラインが存在するかどうかを決定する、ステップＳ２
１９０に続く。もしそうであるならば、システムは、次
の画像ラインが選択されるステップＳ２２００に続き、
そしてステップＳ２０４０に戻る。もしそうでないなら
ば、システムは、処理が終了する、ステップＳ２２１０
に続く。

【００２１】この第２の実施例は、語間空間を位置決め
しかつそれらを語間空間として扱う上昇形技術を組み込
むべく第１の実施例の純下降形システムを変更する。種
々の他の上昇形技術が本発明の第１の実施例の下降形シ
ステムまたは第２の実施例の一部下降形システムに組み
込まれうるということにも注目すべきである。例えば、
第３の実施例では、ビットマップの輪郭が生成されえ、
かつこれらの輪郭は、拡張語頭をビットマップと比較す
ることに先駆けてステップＳ１１１０及びＳ２１１０で
辞書から出力された拡張語頭のリストを“事前遮断(pre
screen) ”すべく用いられた。それゆえに、例えば、も
し画像ラインの輪郭が、現行画像ラインのある一定のｘ
及びｙ位置でアセンダーまたはディセンダーの存在を示
しならば、有効辞書語頭のリスト（または代替的に有効
語頭のリスト）が、正しい位置の近くにアセンダーまた
はディセンダーを有している文字を包含しない点を除け
ば有効語頭（または語頭）であるものを除去すべくビッ
トマップ整合ステップに先駆けて事前遮蔽されうる。第
３の実施例の上昇形技術を組み込むこともできる、第４
の実施例では、本発明の下降形方法を開始するに先駆け
て、現行画像ラインの分離セグメントに対して語間空間
及び語内空間を事前位置決定するような、他の上昇形技
術を用いることができる。しかしながら、これらの上昇
形技術を組み込むことは、本発明の下降形技術のロバス
トネス(robustness)を結局縮小する。

【００２２】図７は、図１〜図３に示す本発明の第１の
実施例の方法により動作する画像解析システムの概略図
を示す。図７に示すように、一枚の用紙、写真等のよう
な、画像担持部材(image bearing member)は、画像２２
を支持する。画像２２は、一つ以上の垂直方向に位置合
わせされかつ水平方向に拡張しているテキストのライン
からなる。テキストの各ラインは、ライン間空間として
知られる、ブランク空間(blank space) によってテキス
トの隣接(immediately adjacent)の上部及び下部ライン
から分離される。各ラインは、一つ以上の語からなる。
最左語は、対応するラインの最左位置に位置合わせされ
る。各後続の語は、語間空間によって左及び右に隣接す
る語から分離される。各語は、一つ以上の文字または記
号からなる。各文字は、語内空間によって対応する語の
左及び右の文字から分離されうる。一般に、あらゆる一
つの画像に対するライン間空間は、別の画像に対するラ
イン間空間に独立である。同様に、画像のテキストの各
ラインに対して、一つのラインに対する語間空間は、他
のラインに対する語間空間に独立であり、かつしばしば
現行ライン内で他の語間空間に独立である。また、ライ
ンの各語に対して、一つの語内の語内間隔（空間）は、
ラインの他の語に対する語内間隔に一般に独立であり、
かつそれ自体非常に可変である。これらの理由で、第１
の実施例では、これらの上昇形特徴は信頼されない（あ
てにされない）。

【００２３】ページ２０の画像２２は、スキャナ３０に
よって走査される。スキャナ３０は、テキスト画像２２
を走査画像２２’に変換すべく電荷結合素子等のよう
な、既知の技術及び装置を用いる。走査画像２２’は、
スキャナ３０によって感知されたテキスト画像２２の暗
及び明部分(dark and light portions) に対応する多数
の暗また明画素(dark or light pixels)からなる。スキ
ャナ３０は、無限の解像度を持たずかつテキスト画像２
２の明及び暗部分の間を完全には識別できないので、走
査画像２２’は、ノイジーである。即ち、白であるべき
画像が黒く色付けられ、そして黒であるべき画像が白く
色付けられる。走査画像２２’は、スキャナ３０によっ
てテキスト認識システム４０へ出力される。特に、走査
画像２２’は、画像構成要素抽出装置５０の画像記憶ユ
ニット５２へ出力される。画像構成要素抽出装置５０
は、画像記憶ユニット５２に記憶された走査画像２２’
の個別ラインを位置決めする、画像ライン抽出装置５４
を含む。第３及び／又は第４の実施例では、画像特徴抽
出装置は、以下に説明しかつ図４に示すように、追加の
構成要素を含みうる。画像ライン抽出装置５４は、走査
画像２２’を構成している画像ラインの第１の画像ライ
ンを抽出する。第１の画像ラインが完全に解析された
後、画像ライン抽出装置５４は、全体の走査画像２２’
が解析されるまで、走査画像２２’から、もし存在する
ならば、第２のライン等を抽出する。

【００２４】同時に、３テープ有限状態機械を含んでい
る辞書手段６０は、現行拡張テキスト語頭並びにそれら
に対応する上部及び下部輪郭のリストを有する輪郭解析
手段７０を供給する。辞書手段６０は、言語または語彙
（言語の限定されたサブセット）の可能な語の全てを記
憶する辞書記憶ユニット６２を含む。辞書手段６０は、
辞書遷移パス抽出装置６４も含む。遷移パス抽出装置６
４は、辞書記憶ユニット６２から、選択語頭の終了状態
から拡張している、新しい遷移を抽出する。上述したよ
うに、テキスト語頭は、一つ以上の文字からなる語フレ
グメントまたは語である。用語“語頭”は、現行ライン
の解析画像部分に対応すべく決定された、テキスト文字
が、単語または完全な語に必ずしも対応しないことを示
すべく用いられる。例えば、もしテキスト文字“ｂ”及
び“ａ”及び“ｒ”が現行ラインの現行画像部分に対
応すべく先に決定されていたならば、“ｂａｒ”から拡
張している次の語頭は、語頭“ｂａｒ”及び次の記号：
“ ”（語間空間）；“ｄ”、“ｅ”、“ｆ”、
“ｇ”、“ｉ”、“ｋ”、“ｌ”、“ｍ”、“ｎ”、
“ｏ”、“ｑ”、“ｒ”、“ｔ”、及び“ｙ”の一つを
含む。遷移パス抽出装置６４は、輪郭解析手段７０へ一
度に一つ、新しい語頭トリプルを含んでいる、拡張語頭
を出力する。各トリプルは、その親語頭と連結されたと
きに、別の有効語頭、並びに対応する上部輪郭及び対応
する下部輪郭を形成する、現行文字に対応する遷移パス
を含む。

【００２５】各拡張語頭が輪郭解析手段７０に出力され
ると、それは、比較器７２に入力される。輪郭解析手段
７０の比較器７２は、ビットマップの部分を各拡張語頭
の上部及び下部輪郭に、一度に一つ、比較する。各比較
に対して、ビットマップの部分は、親語頭から受け継が
れた、拡張語頭の開始ｘ及びｙ位置によって規定され
る。各親語頭は、多数の拡張語頭を通常生成するので、
ビットマップの同じ部分が上部及び下部輪郭の多数のセ
ットと比較される。同様に、多数の親語頭が同じ新しい
終了文字を伴う語頭を有するので、上部及び下部輪郭の
同じセットがビットマップの多数の異なる部分と比較さ
れる。比較器７２は、距離値を生成するために各可能拡
張語頭に対する全上部及び下部輪郭を画像部分のビット
マップと比較しなくてもよい。それよりも、比較器７２
は、開始ｘ及びｙ位置のセットによって示されたよう
に、その親語頭の先行解析が終了した点からの拡張語頭
の現行文字の上部及び下部輪郭を単に比較する。一度に
一つの画素を移動して、比較器７２は、距離値を生成す
るために、現行ｘ及びｙ位置から開始して、現行文字の
上部及び下部輪郭をビットマップと比較する。各現行文
字に対して、比較器７２は、上部及び下部輪郭とビット
マップの間の最良比較を生成するビットマップの終了ｘ
及びｙ位置を記録する。代替的に、比較器７２は、輪郭
から終了ｘ及びｙ位置を予測しかつその点までビットマ
ップを解析することを開始しうる。比較器７２は、最良
ｘ及びｙ位置を見出すべく予測点を動き廻る。比較器７
２に対する他の実施例は、当業者にとって自明である。

【００２６】画像ラインがページを横切って真っ直ぐに
拡張することがしばしばである場合に、時々、画像ライ
ンは、上向き、下向きに、または曲線或いは螺旋に進行
（移動）する。更に、画像の文字の実寸(absolute siz
e) が変化しうる。これらの効果のいかなるものも相対
的ｘ及びｙ位置を変化しうる。辞書ユニットから出力さ
れた、拡張語頭、またはアジェンダエントリは、開始ｘ
及びｙ位置と、現行距離計測によって更新されるその親
語頭から受け継がれた開始距離計測と、比較器７２によ
って決定される新しい終了ｘ及びｙ位置とを有する。新
しい終了ｘ及びｙ位置は、開始ｘ及びｙ位置を置換し、
そして終了距離計測を得るために現行距離計測は、開始
距離計測に加えられる。この更新された拡張語頭は、ア
ジェンダ記憶ユニット７４に記憶されたアジェンダのリ
ストに加えられる。輪郭解析手段７０は、語頭セレクタ
７６も含む。語頭セレクタ７６は、アジェンダ記憶ユニ
ット７４に記憶された更新アジェンダから選択語頭の新
しいリストを選択する。選択語頭のリストは、アジェン
ダ記憶ユニット７４に記憶された距離値に基づいた、限
定数の高品質テキスト語頭を含む。選択語頭は、辞書記
憶ユニット６２から拡張語頭の新しいリストを得るため
に用いられる。これらの新しい現行文字は、一つの文字
でアジェンダの選択語頭から拡張する。

【００２７】語頭セレクタ７６によって選択された限定
数の語頭は、二つの方法の一つで決定される。第１の方
法では、各語頭に対する距離値は、しきい値に比較され
る。語頭セレクタ７６は、その総距離値がしきい値より
も少ない全てのテキスト語頭を次に選択する。第２の方
法では、語頭セレクタ７６は、Ｎがある所定の整数であ
るような、最良距離値を有しているアジェンダのＮテキ
スト語頭を選択する。一度語頭セレクタ７６が可能テキ
スト語頭の新しいリストを識別したならば、このリスト
は、遷移パス抽出装置６４に供給される。輪郭解析手段
７０は、ライン終端(end-of-line) 決定手段７８も含
む。ライン終端決定手段７８は、ライン終端条件がいず
れかの語頭によって適合したかどうかを決定する。ライ
ン終端条件は、少なくとも３列幅(three columns wide)
の大きな白い空間であるのが好ましい。ライン終端決定
手段７８は、ある語頭がライン終端条件に適合するとき
にはいつでも停止信号を出力する。停止信号は、ライン
終端条件に適合している語頭の最良距離計測を有してい
る語頭を出力する、アジェンダ記憶ユニット７４に入力
される。勿論、ライン終端決定手段７８に対する他の実
施例は、当業者に自明である。

【００２８】一般に、輪郭解析手段７０は、テキスト語
頭のリスト及びこのリストに基づいて可能現行文字のセ
ットを選択するためにビーム探索法(beam search metho
d)を用いる。即ち、リストは、解析されている現行画像
部分に対する最良比較を提供するアジェンダの可能語頭
を包含すべく再編成される。それゆえに、一つの点での
テキスト語頭は、それが他のテキスト語頭と同じような
よい距離値を生成しないので、選択リストから落されう
る。しかしながら、画像解析が続くと、前回はよかった
語頭が落されたテキスト語頭よりも悪くなりうる。この
場合には、前回捨てられた語頭が再び選択される。距離
値は、比較の質だけでなく語頭が拡張する画像輪郭のｘ
及びｙ位置も含むので、輪郭比較手段７２は、画像ライ
ンのビットマップの一つの点で一つの選択語頭を解析す
ることを開始し、その間にそれが画像ラインのビットマ
ップの別の点で別のテキスト語頭を解析することを開始
する。即ち、一つの選択語頭は、一つ、二つ、または別
の選択語頭におけるよりもそれ以上の文字を包含しう
る。ある点で、画像ラインのビットマップは、白い空間
または語間空間になりうる。第１の実施例では、これ
は、他の文字のように扱われている。これは、語間空間
としてみられるものは、語の終わりを実際には示さない
かもしれないので、そのように扱われる。それよりも、
それは、単語の文字間の不適当な間隔でありうる。加え
て、語間空間は、単一の画像ラインでされ、非常にしば
しばかなり可変である。それゆえに、語間空間は、第２
の実施例におけるように、もしそれが活性的に用いられ
るならば、任意に予め決定されなければならない。この
任意性は、ある実際の語間空間が見落されることを確実
にし、かつ語間空間が実際には存在しないところに“見
出される”。それゆえに、第１の実施例では、語間間隔
の時変性に対抗するロバストネスは、語間空間を単に別
の文字として扱うことによって得られた。しかしなが
ら、ある上昇形技術を組み込むことによって、第２の実
施例のように、語間間隔は、現行画像語の終わりを示す
べく用いられうる。語間セレクタ７６は、アジェンダ記
憶ユニット７４に記憶された一つの語頭を最後に選択す
る。この最後に選択された語頭は、その上部及び下部輪
郭が画像輪郭と比較されるときに最低総距離値を生成す
る完全辞書語(complete dictionary word)である。この
最後に選択されたテキスト語頭は、現行画像ラインの現
行部分に対応しているテキスト語として出力される。

【００２９】一般に、テキスト認識システム４０は、汎
用マイクロコンピュータ上で実施される。特に、辞書記
憶ユニット６２は、汎用マイクロコンピュータ上で３テ
ープ有限状態機械として実施される。３テープは、可能
テキスト文字を包含している第１のテープ、対応してい
る上部形状輪郭を包含している第２のテープ及び対応し
ている下部形状輪郭を包含している第３のテープを含
む。一般に、３テープ有限状態機械に対する全状態図
は、辞書記憶ユニット６２に記憶された全辞書を含んで
いるパスを包含することに注目すべきである。テキスト
認識システム４０の第３の実施例では、画像ライン抽出
装置５４は、図１１に示すように、画像から現行ライン
を抽出した後、現行ラインを画像輪郭生成装置５８に出
力する。画像輪郭生成装置５８は、全現行ラインの上部
輪郭及び下部輪郭を生成する。上部及び下部輪郭のそれ
ぞれを生成するために、画像輪郭生成装置５８は、現行
ラインの最左画素を識別し、かつスキャナから出力され
た、クリーン・アップ・ザ・ライン(clean-up the lin
e) のビットマップを見ながら、上部及び下部輪郭を生
成する。画像輪郭生成装置５８と同様に辞書記憶ユニッ
ト６２が単一の輪郭方式を用いる間に、あらゆる数の異
なる輪郭方式が、同じビットマップから有効輪郭を生成
することに注目すべきである。一般に、全てのそのよう
な輪郭方式は、同等に有効である。画像輪郭生成装置５
８が現行ラインに対する上部及び下部画像輪郭を生成し
た後、それらは、輪郭解析手段７０に出力される。

【００３０】テキスト認識システム４０の第３の実施例
では、画像輪郭生成装置５８が現行画像ラインの上部及
び下部輪郭を生成した後、文字及び輪郭抽出装置５９
は、語間空間に横たわっている現行画像部分に対する輪
郭の広い特徴(broad features)を決定する。これらの主
要な画像特徴は、アセンダー及びディセンダー、並びに
輪郭の凹面上方(concave-up)及び凹面下方(concave-dow
n)部分を含む。広い文字分類のこれらの計測を距離計測
決定に組み込むことによって、追加的に効率は、不十分
な整合をより速く取り除くことによって生成されうる。
しかしながら、そのような文字特徴は、全語(entire wo
rd) に関して特徴を解析することを含むので、これは、
上述した既知の一部下降システムの全語解析に含まれる
追加の非効率も導入する。しかしながら、第１及び第２
の実施例のように、実際の解析は、左から右へ、区分的
に実行されるべく継続する。図１１にも示すように、テ
キスト認識システム４０の第４の実施例では、画像語抽
出装置５６は、画像ライン抽出装置５４と画像輪郭生成
装置５８の間に挿入されうる。テキスト認識システム４
０のこの第４の実施例の動作は、図８〜図１０に示され
る。一般に、テキスト認識システム４０の第１、第３及
び第４の実施例の間の重要な違いは、現行画像ラインの
輪郭を決定する、画像輪郭生成装置５８と、現行画像ラ
インの語間空間を先に決定する、画像語抽出装置５６に
ある。それゆえに、テキスト認識システム４０の第３及
び第４の実施例と図８〜図１０に示されるフローチャー
トは、既知の一部下降形技術により密に対応する。しか
しながら、図８〜図１０に示されるフローチャートから
明らかなように、語間空間がステップＳ４０３５で先に
決定され、テキスト認識システム４０は、左から右へ部
分的に語間空間の間にある画像部分を解析すべく継続す
る。それゆえに、非効率が語間空間を先に決定すること
によって導入され、全語輪郭比較を行うことによって導
入される非効率は、まったく存在しない。画像語抽出装
置５６は、画像輪郭生成装置５８なしで、単独で用いら
れ、そして比較器７２に直接接続されうることにも注目
すべきである。

【００３１】図１１に示す、第５の実施例では、辞書記
憶ユニット６２は、３テープ有限状態機械であるよりも
むしろ１テープ有限状態機械である。本実施例では、辞
書記憶ユニット６２は、拡張語頭を形成する親語頭から
遷移だけを出力する。拡張語頭は、拡張語頭の終了遷移
を取りかつ対応している上部及び下部輪郭に対する文字
輪郭形状表６８を探索する、文字輪郭生成装置６６に出
力される。文字輪郭生成装置６６は、トリプルを形成す
べく対応する輪郭を拡張語頭の遷移に付け、かつ完全拡
張語頭を比較器７２に出力する。それゆえに、この技術
は、既知の技術を用いて辞書がコンパクトに符号化され
かつ状態遷移パスに沿った更なる整合が辞書における語
の存在及びテキストと画像語の間の整合の総括的な質に
よって確認されるならば、語整合処理が部分的にのみ実
行されるので、上記の空間及び時間問題を解決する。そ
れゆえに、処理は、検索の時間が辞書の大きさよりもむ
しろ入力ビットマップの長さに比例するので、非常に大
きな、無限に多くの語を有する無限の辞書でさえもスケ
ールアップする。加えて、有限状態辞書が、スクリプト
またはフォントコンベンションを捕らえるべく、ある言
語に対する形態パラダイム(morphological paradigms)
、他に対する無限合成パターン、句読点のコンベンシ
ョン及び他におけるライン破壊(line breaking) 、及び
アルファベットに対するリガチャーエクステンション(l
igature extensions) を表しうるので、この処理は、他
の辞書フィルタリングアプローチ(dictionary-filterin
g approaches) で本質的に収束する。

【００３２】更に、この処理は、伸張(stretching)、ス
ケーリング(scaling) 及び傾斜(tilting) の問題も解決
する。一般に、従来技術の整合方法において補償するた
めに用いられた標準ワーピング技術に伴う問題は、それ
が全ての可能候補語形状(all possible candidate
word shapes)に対して実行されなければならない高価な
オペレーションであるということである。現在の技術で
は、文字形状変形の４つの問題、文字間間隔、傾斜、及
び語間隔を取り扱うべく、４つの特定局所機構(four sp
ecific local mechanisms)の時間ワーピングは、３テー
プ有限状態機械の操作の簡単な問題(simple matter) に
なる。例えば、語内間隔は、語間間隔のある割合いでバ
ウンドされた(bounded) 異なる長さのエプシロン(epsil
on) （空セット）遷移の別々のセットを挿入することに
よって３テープ有限状態機械にモデル化されうる。代替
的に、イタリック体のような、傾斜は、上部形状及び下
部形状輪郭に対する異なる大きさの初期エプシロン遷移
を許容することによって取り扱われる。そして、文字変
形は、異なるスタイルまたは大きさのフォントから、代
替レター形状を供給すること、またはレター毎に局所時
間ワーピングを行うことによって補償されうる。

【００３３】更に、もし文字形状ワーピングがラインに
わたりまたは全文書にわたってさえも均一であるという
こと仮定がなされうるならば、そのような一定のワープ
ファクター(constant warp factor)は、文書の小さなサ
ンプルから計算されて整合ステップのパラメータとして
適用されうる。そして、ビーム探索フィルタリングは、
残っているレター整合に対する距離値がかなり悪く早急
になるので、整合が文字形状変形、文字間間隔、傾斜ま
たは語間隔において大きな変形を必要とするパスを素早
く排除する。最後に、探索は、辞書手段６０における言
語に対してそれが適宜な方向であるときに、右から左(r
ight-to-left) 及び上から下(top-to-bottom) 方向に実
行されうるということに注目すべきである。例えば、ヘ
ブライ語テキスト画像または縦方向に設定された日本語
テキスト画像を解析するときに、これが必要になるであ
ろう。

【００３４】

【発明の効果】本発明の画像部分をテキスト語に変換す
る方法は、画像の現行部分のビットマップを生成し、可
能テキスト語の辞書から現行可能テキスト語頭のリスト
と、可能テキスト語頭のリストとを生成し、現行可能テ
キスト語頭のリストの各現行可能語頭に対する上部語頭
輪郭及び下部語頭輪郭を取得し、現行画像部分のビット
マップと上部及び下部語頭輪郭の間の比較に基づいて画
像部分と少なくとも一つの可能現行テキスト語頭の間の
比較値を決定し、各現行可能テキスト語頭に対する比較
値に基づいてテキスト語頭のリストを更新し、テキスト
語頭のリストから可能テキスト語頭のリストを選択し、
現行画像部分の終わりに到達するまでステップｂからｆ
を繰り返し、そして現行画像部分に対応するテキスト語
として可能テキスト語頭の最良のものを識別するステッ
プを具備するので、既知の部分的アプローチのメモリ要
求を回避しかつ画像形状偏向に鑑みて増大したロバスト
ネスを供給し、また、個々に画像のラインの記号または
各文字の形状輪郭を別々に解析しかつ画像ラインの上部
輪郭形状と下部輪郭形状を別々に解析することが可能で
ある。

【図面の簡単な説明】

【図１】画像解析システムの第１の実施例の動作を説明
するためのフローチャートである。

【図２】画像解析システムの第１の実施例の動作を説明
するための他のフローチャートである。

【図３】画像解析システムの第１の実施例の動作を説明
するための他のフローチャートである。

【図４】画像解析システムの第２の実施例の動作を説明
するためのフローチャートである。

【図５】画像解析システムの第２の実施例の動作を説明
するための他のフローチャートである。

【図６】画像解析システムの第２の実施例の動作を説明
するための他のフローチャートである。

【図７】画像解析システムの第１及び第２の実施例のブ
ロック図である。

【図８】画像解析システムの第３及び第４の実施例の動
作を説明するためのフローチャートである。

【図９】画像解析システムの第３及び第４の実施例の動
作を説明するための他のフローチャートである。

【図１０】画像解析システムの第３及び第４の実施例の
動作を説明するための他のフローチャートである。

【図１１】画像解析システムの第３及び第４の実施例の
ブロック図である。

【符号の説明】

Ｓ１０１０テキスト画像ビットマップを入力する段階Ｓ１０２０テキスト画像を個別ラインに分割する段階Ｓ１０３０現行ラインとして画像の第１ラインを選択
する段階Ｓ１０４０現行画像ラインビットマップの最左画素を
位置決めする段階Ｓ１０５０唯一のエントリとして開始状態語頭を有す
る初期アジェンダを設定する段階Ｓ１０６０距離計測に基づいてアジェンダから最良語
頭を選択する段階Ｓ１０７０選択語頭の１つを辞書に出力する段階Ｓ１０８０出力された選択語頭に基づいて辞書から拡
張語頭のリストを取得する段階Ｓ１０９０ビットマップに対する比較のために拡張語
頭の１つを選択する段階Ｓ１１００拡張語頭を親選択語頭のＸ及びＹ位置から
始まるビットマップと比較する段階

───────────────────────────────────────────────────── フロントページの続き (72)発明者ダニエルジーボブロウアメリカ合衆国カリフォルニア州 94301 パロアルトアディソンアベニュー 376

Claims

【特許請求の範囲】

【請求項１】ａ）画像の現行部分のビットマップを生
成し、ｂ）可能テキスト語の辞書から現行可能テキスト
語頭のリストと、可能テキスト語頭のリストとを生成
し、ｃ）現行可能テキスト語頭のリストの各現行可能語
頭に対する上部語頭輪郭及び下部語頭輪郭を取得し、
ｄ）前記現行画像部分のビットマップと前記上部及び下
部語頭輪郭の間の比較に基づいて前記画像部分と少なく
とも一つの前記可能現行テキスト語頭の間の比較値を決
定し、ｅ）各現行可能テキスト語頭に対する前記比較値
に基づいてテキスト語頭のリストを更新し、ｆ）前記テ
キスト語頭のリストから前記可能テキスト語頭のリスト
を選択し、ｇ）前記現行画像部分の終わりに到達するま
で前記ステップｂからｆを繰り返し、そしてｈ）前記現
行画像部分に対応する前記テキスト語として前記可能テ
キスト語頭の最良のものを識別するステップを具備する
ことを特徴とする画像部分をテキスト語に変換する方
法。