JP2003157409A

JP2003157409A - 複数の記号ストリングの等価性を判定する方法

Info

Publication number: JP2003157409A
Application number: JP2002289491A
Authority: JP
Inventors: Daniel P Huttenlocher; ピー．ハッテンロッカーダニエル; Michael J Hopcroft; ジェイ．ホプクロフトマイケル
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1991-11-19
Filing date: 2002-10-02
Publication date: 2003-05-30
Anticipated expiration: 2018-10-06
Also published as: DE69230631T2; JP3576570B2; JPH05282495A; EP0543590B1; US5687253A; EP0543590A3; JP3453134B2; DE69230631D1; EP0543590A2

Abstract

(57)【要約】【課題】単語およびテキスト列の基本特性を利用する
と同時に、ＯＣＲ方法に固有の問題を解消する。【解決手段】画像データの配列における２またはそれ
以上の文字列の間の相対的同値または一致を確定する方
法であって、ページ方向を決め、隣接する文字列から文
字列を分離させ、文字列を中心とした一組の境界線また
は基準線を設ける。さらに、境界線は文字列を表すた
め、境界線内の画像データから生成される単語形状輪郭
または信号として用いられる。単語形状輪郭は前記比較
法の一つを用いて比較され、輪郭の相対的同値または相
似を確定する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、画像データの配列にお
いて形状で表されたテキストまたは文字列を、前記列を
構成する文字または複数の文字を個々に検出及び／また
は確認する必要なしに認識する方法に関する。

【０００２】

【従来の技術および発明が解決しようとする課題】電子
的に符号化されたドキュメント（電子ドキュメント）の
テキストは、互いに異なる２つのフォーマットのいずれ
かであることが多い。第一のフォーマットでは、テキス
トはビットマップフォーマットであり、この場合、テキ
ストは画像データまたは画素の配列によってのみ定義さ
れ、本質的に同様に表された隣接する画像との区別はで
きない。このフォーマットでは、通常、本文の内容にの
み基づくコンピュータ処理にかけることはできない。以
下、文字コードフォーマットと呼ばれる第二のフォーマ
ットでは、テキストが文字コード列（例、アスキーコー
ド）として表される。文字コードフォーマットでは、テ
キストの画像またはビットマップは利用できない。

【０００３】光学文字認識（ＯＣＲ）処理を利用したビ
ットマップから文字コードフォーマットへの変換では、
膨大な時間および処理労力が必要となる。文字の各ビッ
トマップはその近隣のものや解析されたその外観から区
別しなければならず、さらに決定工程において、所定の
集合の文字における個別の文字として識別される必要が
ある。これに関する関連技術として、例えば、文字画像
を一周するデータを読み取る方法（例えば、特許文献１
参照）、英数文字を読み取る文字特徴検出システム（例
えば、特許文献２参照）、これと同様の処理を用いた文
字認識装置（例えば、特許文献３参照）、さらに、これ
と同様のシステムなどがある（例えば、特許文献４参
照）。

【０００４】また、デジタル化された画像内の文字を識
別する方法や装置もある（例えば、特許文献５〜８参
照）。さらに、複数の線からなる画像内の形状の輪郭座
標を用意するためのさらに効率のよい輪郭のトレース方
法もある（例えば、特許文献９）。

【０００５】原稿を走査することによって電子ドキュメ
ントが作成された場合でも、その再生画像の画質および
雑音はビットマップの実際の外観の不確定性によるもの
である。さらに、質の悪いオリジナルドキュメント（原
稿）、走査ミス、または画像のデジタル化表現に影響を
与える同様の要素によって劣化したビットマップ外観が
生じる場合もある。したがって、文字識別で用いられる
決定工程は本質的に文字識別に関する不確定性を有す
る。ここで特に問題となるのはテキスト中の文字が不鮮
明になったり（ぼやけたり）または重なってしまう点で
ある。ほとんどの文字識別工程では、文字が連結された
画素の独立集合であるという仮定から出発する。入力画
像の質のためにこの仮定が誤っていた場合、文字識別も
失敗する。これに関する関連技術として、歪んだドキュ
メントの文字が認識された場合のドキュメントの文字認
識方法及びその装置（例えば、特許文献１０参照）、ド
キュメントの垂直パッチを解析することで歪んだテキス
トを調節するテキスト行限定システム（例えば、特許文
献１１参照）、文字認識装置における文字正規化のため
の走査制御装置（例えば、特許文献１２参照）、光学文
字認識システムで利用するための処理手段（例えば、特
許文献１３）、文字認識に必要なデータを得るための文
字認識の事前処理（例えば、特許文献１４）などがあ
る。

【０００６】また、ＯＣＲ法の信頼性を向上させるため
にこれまで用いられてきた辞書単語確認法（例えば、特
許文献１５）、ブロック抽出段階、歪み調節、ブロック
分割、隣接文字セグメント化、行抽出、辞書検査を併用
するパターン整合および比較による文字認識を利用した
文字読み取り機（例えば、非特許文献１）がある。テキ
スト列に対して、その読み取り方位に平行なテキストを
走査する３個で一組のスキャンが用いられ、各スキャン
が黒から白への推移に関する情報を引き出すことによ
り、単語または文字列それ自身を形成する文字集合を識
別することは好ましく（例えば、特許文献１６）、文字
の前エッジおよび後エッジを表示する値の集合を生成す
るために動作可能なこれと同様の装置がある（例えば、
特許文献１７）。

【０００７】プリントまたはタイプされた本文画像を処
理するＯＣＲシステムのほかに、多数の引例で電子表示
に変換された手書きテキストの認識を扱っている。

【０００８】例えば、すでに考慮された認識の基本単位
として単語全体を選択する署名認識がある（例えば、特
許文献１８）。これは今までのとおり文字画像の特性を
識別する連続特徴識別方法に基づく。

【０００９】単語のビットマップ表現をビットマップ表
現辞書と比較する画像圧縮方法がある（例えば、特許文
献１９）。ビットマップをコンピュータで情報として処
理可能な文字へ符号化するＯＣＲ法も、画像走査用のビ
ットマップ法も、テキスト操作またはテキスト処理のあ
らゆる目的に対して完全に満足できる方法というわけで
はなかった。また、画像物体を生成および再生する多項
式の利用法がある（例えば、特許文献２０）。ただし、
前記物体は輪郭座標中に基準輪郭の形状であらかじめ定
められている。

【００１０】単語が比較的単純な方法で表現可能であれ
ば、既知信号と未知信号とを比較するある種の信号処理
技術が利用できる。これに関する関連技術として、例え
ば、入力された単語が基準単語の集合から認識される音
声単語認識装置（例えば、特許文献２１参照）がある。
正規化および線形タイムワープ装置が開示される。入力
単語および基準単語の集合は電気的に一致を確定するた
めに処理される。また、多重相似法を用いたパターン認
識装置（例えば、特許文献２２）がある。さらに形状マ
ッチングが計量可能であることも示されている（例え
ば、非特許文献２）。

【００１１】

【特許文献１】米国特許第４,８６４,６２８号明細書

【特許文献２】米国特許第４,３２６,１９０号明細書

【特許文献３】米国特許第４,８１３,０７８号明細書

【特許文献４】米国特許第４,８３３,７２１号明細書

【特許文献５】米国特許第３,７５５,７８０号明細書

【特許文献６】米国特許第３,８９９,７７１号明細書

【特許文献７】米国特許第４,８１７,１６６号明細書

【特許文献８】米国特許第４,５６６,１２８号明細書

【特許文献９】米国特許第４,９５６,８６９号明細書

【特許文献１０】米国特許第４,９２６,４９０号明細書

【特許文献１１】米国特許第４,５５８,４６１号明細書

【特許文献１２】米国特許第３,２９５,１０５号明細書

【特許文献１３】米国特許第４,９１８,７４０号明細書

【特許文献１４】米国特許第４,８０９,３４４号明細書

【特許文献１５】米国特許第４,０１０,４４５号明細書

【特許文献１６】米国特許第２,９０５,９２７号明細書

【特許文献１７】米国特許第４,１５５,０７２号明細書

【特許文献１８】米国特許第３,１３３,２６６号明細書

【特許文献１９】米国特許第４,４９９,４９９号明細書

【特許文献２０】米国特許第４,９４９,２８１号明細書

【特許文献２１】米国特許第４,４００,８２８号明細書

【特許文献２２】米国特許第４,９７７,６０３号明細書

【非特許文献１】「Ｆ６３６５日本製ドキュメント読み
取り機」、富士通科学技術ジャーナル、１９９０年１０
月、２６号、３巻、２２４頁乃至２３３頁

【非特許文献２】アーキン、チュウ、フッテンロシェ
ル、ケデム、ミッシェル共著、「多角形状の比較のため
の効率的計算可能計量」、離散数学に関する第１回年次
ＡＣＭ−ＳＩＡＭ［アメリカ計算機学会／工業・応用数
学界］シンポジウム議事録、１９９０年１月、１２９頁
乃至１３７頁

【００１２】

【課題を解決するための手段】本発明の一態様によれ
ば、画像データ内に単語対象物を形成する複数の記号ス
トリングの同値を確定する方法が提供される。この方法
は離散した記号ストリングを検出し、これによってスト
リングで表現される単語対象物を分離し、記号ストリン
グの形状を表す輪郭信号を導出する。検出および導出を
繰り返すことで第二単語対象物の形状が分離され、第二
輪郭信号で表現される。続いて、この方法は、２つの輪
郭信号の差を表す差信号を両信号が定義される範囲にわ
たって確定するステップと、最終的に記号ストリングま
たは単語対象物同士の相似を示す差計測（寸法）となる
差信号の数値を求める。

【００１３】本発明は、単語およびテキストストリング
の基本特性を利用すると同時にＯＣＲ方法に固有の問題
を解消することを目的とする。特に、画像導出またはイ
メージング工程に固有の信号対雑音比は文字に対して比
較的小さいが、より大きな文字列と比較すれば比較的大
きい。さらに、逐語間隔は逐字間隔よりも大きくなる傾
向があり、このため、個々の文字の識別と比較した場
合、文字列（ストリング）の分離および識別が向上され
る。ＯＣＲ方法も、アセンダー、デセンダー、カーブ等
の間違いやすい文字の部分の識別を含む正しい識別の準
備として、文字の態様に関するいくつかの正しい決定を
必要とする傾向がある。単語の境界を識別するためには
まず画像内のテキスト行の特性を確定しなければならな
い。さらに、本発明によれば単語形状を表す１次信号を
導出し、導出された信号と他の単語形状信号とを比較す
ることができる。このため、比較がなされるまで単語に
関する仮定はなされず、これによって連続的な誤った比
較および決定を生じさせる可能性のある無効文字による
仮定の影響を解消する。

【００１４】コンピュータ処理されたテキストの潜在的
利用法について調べると、少なくともいくつかのケース
では単語の各文字を引き出すことが必ずしも処理上の必
要条件でないことが明らかとなった。ＯＣＲ方法で文字
を誤って確定する確率は比較的小さいかもしれないが、
全単語にわたるとこの確率は増加的に累加される。この
ため、単語を探査したりあるいは認識する前に単語を文
字コード列へ変換するためにＯＣＲを用いると、相当な
エラーが生じる場合がある。本発明では、人間がテキス
ト句を読んだりざっと目を通す場合に用いるのと似たや
り方で連続単語認識することを可能とするため画像デー
タの単語レベルセグメント化を利用する。ＯＣＲ方法は
ビットマップから表示文字コードへ変換するが、これに
よってビットマップの情報内容を失うことになる。通
常、文字コードから原ビットマップを得るために工程を
逆にすることはできない。しかしながら、本発明によっ
て開示されるように形状に基づく単語の識別では、さら
に多くのビットマップ情報をさらに認識工程に保存させ
ることとなり、これによって１次元信号からビットマッ
プの適当な再構成が可能となる。したがって、ビットマ
ップ情報の重要な部分は、選択されたテキストまたは文
字列の形状を表すために利用される１次元信号によって
保存される。

【００１５】本発明の一態様である複数の記号ストリン
グの等価性を判定する方法は、この記号シンボルは記号
シンボル間の相似性の相対計測を判断するために、画像
を定義するデータ内で、隣接する行中の隣接する単語同
士から鮮明に分離されたブロビファイされた単語である
単語対象物を形成し、画像を定義するデータの第１の離
散記号ストリングを検出し、第１の記号ストリングによ
って表される単語対象物を分離するステップと、第１の
記号ストリングのバウンディングボックスと黒画素との
距離である、該第１の記号ストリングの形状の第１の輪
郭信号を示す値を推定するステップと、第１の記号スト
リングのエックス・ハイト、アセンダー、及び、デセン
ダーの何れかの大きさである特徴的大きさを測定するス
テップと、画像を定義するデータの第２の離散記号スト
リングを検出し、第２の記号ストリングによって表され
る単語対象物を分離するステップと、第２の記号ストリ
ングのバウンディングボックスと黒画素との距離であ
る、該第２の記号ストリングの形状の第２の輪郭信号を
示す値を推定するステップと、第２の記号ストリングの
エックス・ハイト、アセンダー、及び、デセンダーの何
れかの大きさである特徴的な大きさを測定するステップ
と、第２の記号ストリングの特徴的な大きさで、第１の
記号ストリングの特徴的な大きさを割ることにより、縮
小拡大率を計算するステップと、第１の輪郭信号に対す
る次の比較のため、新しい第２の輪郭信号を作るために
前記縮小拡大率に従って、二次元において第２の輪郭信
号を縮小又は拡大するステップと、前記単語対象物の単
語の上部、及び、下部である信号が定義される範囲にわ
たって、第１及び第２の輪郭信号間の差である差信号を
示す値を求めるステップと、第１及び第２ストリングの
間の相対相似の差計測表示に到達するために、前記定義
された範囲の部分にわたって、前記差信号を評価するス
テップと、を含む。

【００１６】

【実施例】これより図面を参照するが、これらは本発明
の好ましい実施例を示すためのものであり、これに限定
されるものではない。図１は、本発明が有利に利用でき
るさまざまな状況を対象とする一般化された画像処理シ
ステムを示す。通常、ソース画像は、スキャナ、ファク
シミリ装置、または記憶システムでもよいソース画像導
出システム２から導出することができる。ソース画像は
コンピュータ処理装置４へ進む。コンピュータ処理装置
４はここで開示される新規の装置だけでなくすでに公知
のいかなる装置であってもよい。ユーザインタフェース
６で入力されたコマンドに対して、処理装置４は出力装
置８で出力を生成する。出力装置８はプリンタ、ディス
プレイ、ファクシミリ装置またはその他の記憶装置であ
ってもよい。本質的には、図１の上側で図示されるよう
に、入力ドキュメント（文書）はシステム内へ方向づけ
られ、出力ドキュメントはシステムより引き出される。

【００１７】図２は、単語の形状によって単語を導出
し、定義し、比較するため本発明を具体化したシステム
を示す。当然のことながら、このシステムの各要素は多
数の装置であってもよいし、または単一装置内で作動す
るプログラムであってもよい。まず、入力ビットマップ
１０のソースは不確定であり、本発明の範囲ではない
が、ビットマップは最初にセグメント化システム１２へ
方向づけられる。セグメント化システム１２において単
語、文字列（ストリング）、または理解に関するその他
の複合文字単位が導出される。まず、画像ビットマップ
は画像中のテキストの方向の角度を確定する歪み（スキ
ュー）検出器１４を通過する。画像の方向に関する情報
および画像自身を用いて、テキスト底線プロセッサ１６
では、テキストの頂上線および底線が確定され、これに
よって画像中のテキストの行の上方境界および下方境界
が識別される。中央フィルタ１８では「ブロビファイ
（ぼかし、塊化）」とよばれる機能が実行され、これは
画像上で作動し、行中の各単語群を単一単位として扱う
ことができる。ここで用いられるような「単語」、「記
号列」、「文字列」という言葉は、ともに意味理解の単
一単位を形成する連結された英数文字または句読点要素
の集合、さらに広義には、印または記号の集合を示す。
このような理解の単一単位は、前記単位を構成する要
素、印、記号を分離するものより広い字間あけにより分
離される場合に画像中で特徴づけられる。ブロビファイ
をかけた画像に対して、空白行（白線）の集合がブロッ
ク２０で加えられ、テキストの隣接する行を鮮明に分離
する。空白行はプロセッサ１６によって提供される底線
確定に基づく。この情報、すなわち、隣接する行中の隣
接する単語同士から鮮明に分離されたブロビファイされ
た単語を用いて、ブロック２２で単語についてのバウン
ディングボックス（境界付けボックス）が定義され、こ
れにより単語を識別するとともに囲む。

【００１８】その後、単語形状信号コンピュータ２４
が、原（元の）画像および前記バウンディングボックス
確定に基づき画像中の個々の単語を表す単語形状信号を
導出する。単語形状辞書２８から既知の単語を表現する
単語形状信号とまだ未確認の単語形状信号とを比較する
場合、この情報が単語形状コンパレータ２６で利用可能
である。他の実施例では単語形状コンパレータ２６は画
像１０から確定された２個またはそれ以上の単語形状を
比較するために利用することができる。さらに重要なこ
とは、単語形状コンパレータ２６が認識されていない文
字列から既知の単語形状への単語形状比較に限定されて
いない点である。単純化された状況では、コンパレータ
２６は単なる一単語形状をもう一つの単語形状と比較す
る装置にすぎず、これによって２つの形状の間の相似度
を相対的に表示することができる。

【００１９】一般的に単語形状認識工程の段階について
説明したが、このようなシステムの数学的根拠について
考えてみる。例えば、画像データｉ（ｘ，ｙ）を考えて
みると、これは通常のケースではビットマップの形状の
一列の画像データである。文字集合はおそらく上述のよ
うに多数の方法の中の一つで識別され、画像データ配列
の部分集合内に選択された文字列を囲む境界を定義す
る。ｉ（ｘ，ｙ）から、囲まれた境界内で検出されたｉ
（ｘ，ｙ）のエッジを表すエッジ信号ｅ（ｘ，ｙ）が導
出される。ｉ（ｘ，ｙ）へ追加データを加えることによ
り前記エッジ信号が拡張され、その結果、ｅ（ｘ，ｙ）
は囲まれた境界内の独立変数に対してその全領域にわた
って定義された連続信号ｅ'（ｘ，ｙ）となる。各１次
元信号ｇ'（ｔ）であるｅ'（ｘ，ｙ）からは１個、２個
またはそれ以上の信号を導出することができる。ただ
し、ｇは基準フレーム従属パラメータである独立変数ｔ
の関数である。

【００２０】単語形状導出工程に関するこの数学的説明
から、他にも単語形状信号導出方法が存在することがわ
かる。可能性のある他の実施例は、極座標等の他の座標
図表を用いた１次元信号の確立する手法である。もう一
つの可能性は信号ｇ（ｔ）の生成である。ただし、ｇ
（ｔ）は各輪郭点からそれに続く輪郭点への方向を示
し、ｔは点番号を表す。

【００２１】次に単語形状計算の計算方法について説明
する。画像の方向、行間、単語群の字間あけがいったん
決まると、各単語はバウンディングボックスによって囲
むことができる。さらに文字列画像を通過して伸長する
基準線が作成される。この基準線はエックスハイト（Ｘ
−ｈｉｇｈｔ）の３分の２からエックスハイトの３分の
１までの限定的な厚さを有するブロックでもよく、実際
には幅がゼロであってもよい。画像の分析において、基
準線からテキスト輪郭またはバウンディングボックスの
上縁部までの距離が基準線に垂直な方向に計測される。
同様に、基準線から下方バウンディングボックス縁部ま
たはテキスト輪郭までの距離が単語の下方部分に沿って
計測される。導出された値の集合は計算上、長手方向に
対する水平軸に沿った位置によって表せるため、この信
号は１次元信号と考えることができる。これらの値のい
ずれか、または両方を用いて単語形状を記述することが
できる。さらに、あまり望ましいことではないかもしれ
ないが、本発明の範囲内では、バウンディングボックス
の頂上またはバウンディングボックスの底部から引か
れ、単語または基準線に最初に接する垂直線の距離を必
要に応じて計測することができる。

【００２２】ここで重要なのは、１次元信号の導出に用
いられる数学的工程が本質的に可逆的であるということ
である。基準線が限定的な厚さであるために画像から取
り出された場合、その画像部分は識別不能であるもの
の、基準線の幅がゼロであれば、この情報はそのまま残
るものとする。

【００２３】認識辞書または単語形状の参照テーブル
を、上述の工程を用いることで鮮明に作成することがで
きる。走査された単語を情報のソース（源）として利用
するか、またはより「完璧な」辞書を目指してコンピュ
ータ生成単語を実際に用いることで、前記工程が影響さ
れる。

【００２４】単語形状比較のための一般的な方法および
装置について定義し、この方法の基礎となる数学的根拠
も説明してきたが、これより各段階についてさらに詳細
に説明する。本発明の工程をさらに詳述するため、図３
では公有ソースからとられた数行のテキストのサンプル
画像が示される。図３はテキストページの画像がどのよ
うに表示されるかを示し、図４はこのページを走査した
画像を示すが、これは公知のＯＣＲ方法で問題を引き起
こすビットマップ画像を拡大して示すものである。例え
ば、テキスト画像の１行目の単語５０「practitioner」
を見ると、数個の文字が互いに連続している（くっつい
ている）ように見える。また、画像の囲み５２で囲まれ
た右下の部分では雑音がある。囲み５４で囲まれた単語
「practitioner's」を見ると、句読点と文字の連続（く
っつき）がさらにはっきりとしている。

【００２５】画像のテキスト行の方向を確定する一般的
な方法では、任意に選択された少数のエッジ画素（少な
くとも白色画素一つと隣接する黒画素として定義され
る）を調べ、各エッジ画素に対して行数を考慮する。サ
ンプルとしては５６ａ、５６ｂ、５６ｃがあり、前記画
素からそれぞれ指定された範囲の角度で離間された角度
増分で伸びている。エッジ画素は全画像画素の集合から
関数ＲａｎｄａｍＥｄｇｅＰｉｘｅｌ（ランダムエッジ
ピクセル）によって任意に選ばれる。図５（線５６ａ、
５６ｂ、５６ｃ参照）、図６（線５８ａ、５８ｂ、５８
ｃ参照）、図７（線６０ａ、６０ｂ、６０ｃ参照）は、
画像内のテキストの角度方向を正確に確定するため上述
の技術が表示エッジ画素に対して適用されるますます狭
められていく一連の角度範囲を表す。エッジ画素を見つ
け、線を定義した後、歪み（スキュー）検出器１４は各
行の経路をトレースし、線とぶつかる連続する黒画素の
列（ストリング）の長さを画素内に確定する画像境界に
到達すると、個々の列（ストリング）の長さを合計する
とともにその合計を求められた個別の列の総数で除すこ
とによって黒画素列の平均的な長さが計算される。この
演算はすべての線に対して実行され、これによって選択
されたエッジ画素から伸びる各線に対する黒画素列の平
均的長さを求める。これらの長さは図８に曲線Ａとして
描かれ、約０ラジアンおよび３．１４ラジアンで最小と
なることを示す。曲線Ａは、一連の角度を設けられエッ
ジ画素から伸びる線の各々に関する合計／平均化関数を
グラフに表したものであり、その範囲は０から２πラジ
アンまでである。いったん第一の最小値が決まると、第
二の最小値が第一の最小値からほぼπラジアンで存在す
るかどうかを確定することで最小値の確認（サンプルで
は、ほぼ０ラジアン）が行われる。第二最小値の存在が
確認されると（サンプルでは、ほぼ３．１４またはπラ
ジアン）、大まかな歪み（スキュー）角度が識別され
る。続いて、テキストの歪み角度をさらに密着的に確定
する必要がある。これは、任意に選ばれたエッジ画素か
ら伸びる多くの線を用いて達成できる。ただし、これら
の線は最小角度増分だけ異なっており、さらに角度範囲
は前記の大まかな歪み角度が中心とされる。しかしなが
ら、所定の長さの線に沿って含まれる黒画素の総数を解
析することで微細な歪み角度を確定することができる。
さらに詳細にいえば、単位距離に関する画素数は図８の
曲線Ｂとして描かれ、前記の微細な歪み角度は曲線の最
大値を識別することで確定される。いいかえれば、単位
線長あたり最も高濃度の黒画素が存在する曲線の点は、
画像中のテキスト行の角度をより正確に表す。曲線Ｂで
示されるように、これによってほぼ０ラジアンの微細な
歪み角度となる。ただし、線はその長手方向に沿って最
多数の黒画素と交差するため、確定に必要な方向づけの
もっとも近接した角度を表す。

【００２６】または、微細な角度確定について記述され
る手続きを多重反復することで歪み角度を確定すること
ができる。図５乃至７に示されるように、所望の歪み角
度精度が達成されるまで各反復もますます狭められる角
度範囲をカバーする線を利用することとなる。図５乃至
７により図示される実現方法では、それぞれ選ばれたエ
ッジ画素を中心として１８０個の個別の角度を用い、一
連の３回反復により所望の精度が達成される。

【００２７】次の工程段階では、図９および図１０に示
されるように、テキスト底線プロセッサ１６がテキスト
の各行の特徴線、すなわち上方頂上線および下方底線を
識別する。テキスト底線プロセッサ１６により実行され
る工程段階は、図１１および図１２に詳細に図示され
る。画像に沿って左手に示される図９のヒストグラムは
画像分析で線を調べることで導出され、すでに確定され
た歪み角度によって定義される場合、画像の歪み方向に
平行に方向づけられる。画像を走るこれらの平行線は、
各線と交差する黒画素数を確定するために用いられる。
テキストを通過する線に沿って切り取られる黒画素は多
数存在するが、テキスト行間の間隔を貫通する線に沿っ
て切り取られる黒画素は存在しない。

【００２８】さらに詳細には、関数ベースラインズがま
ず「主」線の座標を求める（ブロック１４２）。この主
線は画像の中心を通って構成され、前記関数へ送られた
歪み角度により確定されるようなテキスト行に垂直であ
る（ブロック１４０）。次に、ラインエンジン手続き１
４４が実行される。ただし、主線に沿って一端から他端
へ進むことにより、主線の一連の点では固定された距離
だけ主線から外方へ向けて伸びる垂直支線が構成される
（ブロック１４６）。前記支線に沿って黒の垂直エッジ
画素の数がカウントされ（ブロック１４８）、線が交差
する黒画素の数がカウントされるとともに（ブロック１
５０）、さらに対向する対になった線に対して合計され
る（ブロック１５２）。ブロック１４８でカウントされ
たように黒の垂直エッジ画素は、上方または下方の近隣
画素位置で白色画素と隣接した黒画素として定義され
る。ラインエンジンＬｉｎｅＥｎｇｉｎｅ（）手続き１
４４は、決定ブロック１５４により確定されるように主
線に沿ったすべての点および関連する支線が処理され終
わるまで繰り返される。

【００２９】続いて、すべての支線のカウントが解析さ
れることで、黒垂直エッジ画素対黒画素の最も高い比率
を有する支線の対を確定することができる。通常、最も
高いパーセンテージを有するこれらの線は、テキスト行
を形成する文字の上方および下方エッジに沿って通過す
る線に対応する。図１０の拡大図に示されるように、高
い垂直エッジ画素比を有するこれらの支線（位置８２）
と、比率の低い支線（位置８４）との間には明確な区別
が存在する。フィルタマスクを適用し、マスク内の最大
ピークを比較することで、線８２等のテキスト頂上線お
よび底線を表すこれらの線の識別が可能となる。ステッ
プ１５０のヒストグラム動作に対して追加試験を行うこ
ともできる。この追加試験、すなわちブール試験（ｂｏ
ｏｌｅａｎｔｅｓｔ）は、線の解析中に検出された黒
画素は最小であったと保証するために用いられる。この
試験は、垂直エッジ画素比が高いため小さな雑音または
画像人工物が底線として認識されることはないというこ
とを保証する。

【００３０】他の方法としては、支線に沿って並ぶ黒画
素の総数を利用することで底線の位置を確定することが
できる。支線に沿ってカウントされた黒画素の数を表す
ヒストグラム曲線ＢＬを用いると、どの支線が最多数の
黒画素との交点を有するかを確定することができる。最
大値の閾を適用することによって、各テキスト行に対し
て上方および下方の特性線の対を確定することができ
る。このため、ヒストグラム曲線ＢＬの起伏部分はテキ
ストの特性線を構成し、さらに前記閾は、介在される最
小値を囲む局所化された最大値を明確に識別するために
用いられることとなり、これによって、さらに処理する
ために用いられる底線位置を識別することができる。さ
らに重要なことは、ブロック１６２で図示されるこの手
法を用いることで、ＢＬヒストグラム曲線の勾配に基づ
き底線対の上方および下方の底線を識別することができ
る点である。重要なのは、ヒストグラム情報がステップ
１５０ですでに収集されている場合、識別段階に関連す
る追加処理はほとんど存在しないことである。いったん
予備特性線または底線対が識別されると（ブロック１６
２）、確認段階（ブロック１６４）が実行されることで
前記底線対が最小距離よりもさらに離間されていること
を確認する。前記最小距離は画像中のすべての線対に対
して平均的な線対分離を計算することで得られたもので
ある。確認の後、有効な底線情報は出力ブロック１６６
により格納され、後で空白行追加ブロック２０とセグメ
ント化ブロック２２において利用される。

【００３１】これらの底線確定方法の重要な利点は、こ
れらの方法が行間の雑音または無関係なマークに対して
ほとんど反応しないという点である。図１３はサンプル
テキストの例文画像上で底線を確定した結果を示す。底
線対、すなわち底線Ｂｎおよび頂上線Ｂ'ｎがそれぞれ
画像上に配置され、テキストの際立つ部分が生じる画像
におけるそれらの部分を示す。文字アセンダーストロー
クのいくつかの部分は底線より外側であるものの、残り
の工程に支障はきたさない。もちろん、閾値が小さいほ
ど、システムはアセンディングストロークをより多く捕
らえることができる。

【００３２】図１４および図１５とともに図２を参照す
れば、次の工程段階は単語群分離段階である。フィルタ
１８は画像のコピーに適用され、その結果のフィルタ画
像は単語を互いに区別できるしみとする傾向がある。各
領域に対して小さな窓を有するフィルタが適用され、部
分的に黒いこれらの領域を黒として表現する。図１４に
示されるように、ブロビファイ（ブロブ化）関数はま
ず、マスクサイズおよび角度、を決めるマスク変数を初
期設定し（ブロック１８０）、さらに上方走査線を処理
することでデータ配列を初期設定する（ブロック１８
２）。画像の中でマスク窓を順に移動させることで中央
フィルタリングが達成される。さらに、窓に現れる黒画
素の数が閾値を越える場合はいつでも、窓が配置される
中心となる目標画素が黒に設定される。図１５はフィル
タ工程のいくつかのサンプルを示し、画像の一部に対し
てマスク窓（ウインドウ）２００が配置されている。例
えば、ほぼ２０％の閾であるとともに２１個の画素を有
する通常の矩形のマスクがテキストに対してすでに確定
された歪み角度にほぼ等しい角度で配置された場合、窓
２００内のフィルタリングの結果、画素２０４は黒へ設
定される。同様にして、最初に文字表示「r」と「o」の
間の文字間内に存在する窓２０６は画素２０８を黒へ設
定させる。他方、単語群の間の領域に存在する窓２１０
内には、画素２１２を黒へ設定させるだけの十分な数の
黒画素が現れていない。マスク窓２００のサイズ、形状
および方向は最適化され、単一単語に共通な文字間の充
填物を最大化する一方でテキスト行間の充填物を減ら
す。

【００３３】図１６に示されるように、中央フィルタリ
ングの結果では、単語の文字間の比較的小さな間隔あけ
は通常、取るに足らず、さらに黒画素で充填される。単
語は画素の単一連続集合となる。すなわち、単一単語に
おいて完全に文字を分離させる空白間隔が存在しない。
しかしながら、記号列間または単語間の比較的大きな間
隔あけは、黒となるにはフィルタの能力を超えるほど大
きな空間であり、したがって、隣接する記号列を区別す
るよう作用する。図１３および図１６によれば、サンプ
ルテキストの最初の２単語「A」と「practitioner」は
この工程の呼び名でいえば「ブロビファイ（ブロブ
化）」され、このため、例えば「practitioner」の
「p」はもはやその単語の「r」から分離されない（図４
と比較されたい）。つまり、文字のブロビファイングま
たは不鮮明さにもかかわらず、「A」および「practitio
ner」は連結された記号または単語の別個のしみのまま
である。

【００３４】図２によれば、この工程の付属物として空
白行追加２０は図１６のブロビファイされた画像に対し
て一連の白色画素行を重ね、確実にテキストの行が隣接
するテキスト行から分離されたままとなる（すなわち、
フィルタをかけたテキスト行はまったく重複しない）。
図１６および図１７によれば、囲み領域２５８および２
５８'はアセンダーとデセンダーが組合わさり２つの単
語の行間がマージされたことを示す。図１６の領域２５
８に図示されたテキスト行の重複は、ブロビファイされ
たまたはフィルタをかけた画像に空白行を重ねることで
確実に解消できる。その結果が図１７に図示される空
白行（白線）を重ねる演算は、関数ＤｒａｗＭｉｄｄｌ
ｅＬｉｎｅｓ（ドローミドルライン）で実行される場
合、図１８に図示される工程によって実行される。通
常、空白行ＷＬは隣接する底線と頂上線対の間のほぼ中
央の画像に追加され、これによって確実にブロビファイ
するクロステキスト行がなくなる。図１７は空白行を図
１６のブロビファイされた画像に追加した結果を示す。

【００３５】図１８によれば、空白行追加ブロック２０
はステップ２８０で変数を初期設定することで開始し、
続いて第一テキスト行の底線情報から頂上線の位置を読
み込む。頂上線情報は破棄され（ブロック２８２）、次
の底線および頂上線の位置が記憶スタックまたはリスト
からポップされる（ブロック２８４および２８６）。画
像に関しては、この底線−頂上線の対がそれぞれ隣接す
るテキスト行の底部および頂上部を表す。次に、ステッ
プ２８８では前記対の中心に存在する点が配置され、画
像の中心から外方向に引かれる空白行の支点を提供す
る。図２の歪み検出器１４により確定される歪み角度を
用いて空白行の終点がステップ２９０で計算される。空
白行はステップ２９２でブロビファイされた画像の上に
引かれるかまたは重ねられ、さらに試験ブロック２９４
で制御されるようにすべてのテキスト行が効果的に分離
され終わるまでこの工程は続く。

【００３６】図２によれば、ブロビファイまたは中央フ
ィルタリングの結果として、ブロビファイ工程で形成さ
れたそれぞれ連結された画素の集合を中心とするバウン
ディングボックスの位置を確定することができる。バウ
ンディングボックスは重ねられた空白行の間のテキスト
行内に存在するこれらの接続された構成要素または単語
を中心としてのみ配置される。テキスト行の方向および
画像座標系に対向するようにテキスト行に直交する方向
に接続された画素の各群の先端点を識別することでバウ
ンディングボックスはテキスト行の方向に配置される。
この演算は関数ＦｉｎｄＢｏｒｄｅｒｓ（ファインドボ
ーダー）によって実行される。通常、関数ファインドボ
ーダーは画像内のすべての画素を進み、接続された文字
のバウンディングボックスを求め（ペイント構成要
素）、ボックスの長さおよび幅だけでなく各ボックスの
上方の左隅の座標を確定する。

【００３７】ファインドボーダー手続きを詳細に示す図
１９および２０によれば、セグメント化工程２２は、ス
テップ３００でフィルタをかけた画像の周囲に完全に空
白ボーダーを配置することにより開始される。これによ
って画像画素の配列の境界線を越えて流れることを避け
る。次に、画素ｘおよび行カウンタｙはそれぞれ、ボー
ダー内の第一画素位置へ初期設定される。手続きＲｅａ
ｄｐｉｘｅｌ（リードピクセル）を呼び出し（ブロック
３０４）、ブロック３０６で画素カラー（黒または白）
が返されテストされる。画素が白であれば、もはや処理
の必要はなく処理はブロック３２２へ続く。白でなけれ
ば、手続きＰａｉｎｔＣｏｍｐｏｎｅｎｔ（ペイントコ
ンポーネント）が呼び出され、まず待ち行列に黒画素の
位置を格納する（ブロック３０８）。続いて、ブロック
３１０および３１２ではそれぞれ、画像のコピーにおい
て画素が白へ設定され、連結された画素または構成要素
を囲むボックスの境界線が更新される。次に、隣接する
黒画素を白へ設定し（ブロック３１４）、黒画素の位置
が待ち行列の最後へ追加される（ブロック３１６）。ブ
ロック３１８では、待ち行列ポインタがテストされ待ち
行列が空かどうかを確定する。空でなければ、待ち行列
の次の画素が取り出され（ブロック３２０）、処理はブ
ロック３１２へ続く。逆に待ち行列が空であれば、連結
された黒画素すべてが白へ設定され、ボックス境界線は
連結された構成要素を包囲するボックスを表すこととな
る。さらに、単語セグメントを包囲するボックスの境界
線が確認されるとともに、テキスト行の歪みに対して方
向づけられた直交座標系に調節することができる（ブロ
ック３２２）。

【００３８】ループ処理はブロック３２４へ続き、画素
カウンタｘを検査することで走査線の最後へ達したかど
うかを確定する。達していなければ、ブロック３０４で
処理を続ける前にブロック３２６でカウンタを増分す
る。走査線の終わりまで達していれば、画素カウンタｘ
がリセットされるとともに走査線カウンタｙはブロック
３２８で増分される。さらに、ブロック３３０は走査線
カウンタｙの値を検査し、画像全体が処理されたかどう
かを確定する。処理されていれば、処理は終了である。
そうでなければ処理は新たな走査線の第一画素を処理す
るためブロック３０４へ続く。

【００３９】したがって図２１に示されるように、単語
「practitioner」に対しては連結された文字画像の先端
部分がバウンディングボックスを決める。いったんバウ
ンディングボックスが決まると、この段階でこれからの
考察の中から雑音マークを除去することができる。雑音
マークが確定されるのは、１）バウンディングボックス
コーナが画像画素の配列の外部にある場合、２）ボック
スがこの配列における複数のテキスト行にわたる、また
はボックスがテキスト行から完全にはみ出す場合、３）
ボックスが縦横寸法のいずれかまたは両方において標準
値εより小さく、したがって破棄される場合、である。
雑音マーク７０および７２等は考察される単語には含ま
れない。

【００４０】図２によれば、単語形状コンピュータ２４
で、単語の画像または少なくともその一部分を表す信号
は隣接する信号からは孤立し、その信号が導出される。
導かれたこの信号は単語形状輪郭と呼ばれる。図２２
（Ａ）に図示されるように、この関数はまず各バウンデ
ィングボックスの頂上に沿って移動し、各画素位置から
はじめてボックスの頂上に沿って、黒画素またはボック
スの底部のいずれかに到達するまでページ方向に対して
下向きに走査する。ボックスの頂上と黒画素またはボッ
クス底部との間の距離ｄの集合の記録が維持される。距
離ｄの集合はボックスの長手方向にわたって蓄積され、
単語形状の頂上の生輪郭を構成する。続いて、図２２
（Ｂ）に図示されるように、順にボックスの底部を走査
して移動し、上方向に最初の黒画素またはバウンディン
グボックスの頂上を探査することにより、図２２（Ａ）
に示される同一単語に対して底部の生輪郭が同様に生成
される。図２３は図３のテキストサンプルに対して作成
された輪郭位置の画像である。重要なのは、ほとんどの
部分でその輪郭のみで句の単語を認識することが比較的
易しい図２３の情報内容である。

【００４１】図２４によれば、この工程でも利用可能な
フィルタをかけた画像に対して実際の画像上で作動する
のが好ましいブロック１００では、１またはそれ以上の
基準線が各単語により作成される。一実施例では限定さ
れた厚さまたは厚さゼロであってもよい削除バーが単語
によって構成され、これはエックスハイトのほぼ３分の
２で上限または基準線を有し、さらにエックスハイトの
ほぼ３分の１で下限を有するのが好ましい。計算１０２
では、上方または下方バウンディングボックスの間の距
離ｄに対して、単語または基準線のより近い方へ一組の
計測が引き出される。この計算は画像の分析で行われ
る。図２５（Ａ）によればこの計算が図式的に示され、
この基準線によってこの段階から最終的に引き出される
こととなる信号が単語の長手方向にわたる各サンプリン
グ位置で定義可能となることが理解できる。好ましい実
施例では、この計算は実際にはすでに収集されたデータ
から生成され、さらに調節されることにより距離ｄを図
示されるような上方または下方削除バーのいずれかで限
定する。図示される実施例では、必要条件はないもの
の、バウンディングボックスの上方線から上方基準線に
対して計測がなされている。したがって、例えば基準線
から上方または下方バウンディングラインまたは文字に
向けて計測してもよい。図２５（Ｂ）は、計測の集合が
ブロック１０４から出力された信号を形成するためにど
のように用いられるかさらに詳細に示す。輪郭は基準線
に対して距離ｄ'として表される。基準線に対して距離
を計算することで、単語形状輪郭を通常のエックスハイ
トに対してスケーリングすることができ、これによって
形状に関するあらゆる比較が容易となる。図２５（Ｃ）
および２５（Ｄ）は、ｄ'値の集合がグラフ状に示さ
れ、１次元信号を形成するということを示す。

【００４２】英単語の外見によって引き出された情報の
研究では、ほとんどの場合、単語の画像のほぼ頂上３分
の１のみを見ることで単語が識別されているということ
が判明している。いいかえれば、単語の上部がその識別
に必要な情報を大量にもっている。残りのケースの重要
な部分では、単語の画像の上部３分の１のみでは識別不
能な単語は、識別労力が単語画像の下方３分の１により
運ばれる情報を含む場合、識別不能となる。比較的小さ
なクラスの単語は識別を行う前に単語の中央３分の１に
関する情報を必要とする。したがって、必要に応じて、
単語形状の順序づけされた検査において、まず上方単語
形状信号または輪郭を引き出し、第２に下方単語形状ま
たは輪郭を引き出し、第３に単語形状信号中央輪郭を
（基準線から単語またはバウンディングボックスへ向け
て）引き出すという段階的工程が利用できることが理解
できる。図２５（Ａ）、（Ｂ）、（Ｃ）、（Ｄ）のサン
プルでは、単語「from」が上部のみから完全に識別可能
である。図２６（Ａ）、（Ｂ）、（Ｃ）、（Ｄ）の例に
おいて、単語「red」は上部からでは完全に識別するこ
とはできない。というのは、「red」は単語「rod」や
「rad」と混乱しやすいためである。文字「a」の下部が
あれば「red」と「rad」を区別することはできるが、文
字「o」の下部が「rod」と「red」を区別できるかどう
か疑わしい。しかしながら、「red」「rad」「rod」の
中央部は完全に別個のものである。

【００４３】図２によれば、次に実行される段階は単語
形状コンパレータ２６での比較である。一実施例では、
この比較は実際にはいくつかの小さな段階であり、その
それぞれについて説明する。図２７によれば、通常、既
知の単語ともう一つの未知の文字列との２個の単語形状
信号が比較され、それらが類似しているかどうか調べ
る。この場合、信号Ｒは単語「red」の上方輪郭であ
り、信号Ｆは単語「from」の上方輪郭である。実際に
は、文字フォントの通常の区別や再生方法、走査された
画質が与えられても完全に同一であると期待できる信号
は相対的に極めて少ない。しかしながら、比較される単
語形状信号は互いにスケールすることができるため、同
一のエックスハイトを有することができる。これは比較
される単語形状輪郭の対のエックスハイトを確定するこ
とにより達成される。いったんエックスハイトが決まる
と、エックスハイトの比率は、輪郭の一方に適用される
倍率を確定するために利用される。エックスハイトはフ
ォントに対する特性計測であるので、水平方向および垂
直方向の両方における倍率を確定するために利用でき
る。または、異なる長さのため異なって計測された部分
に正規化および重量係数を強制せずに形状信号を比較す
ることができる。さらに、信号の振幅または高さが正規
化されることにより、単語形状比較に与えるフォントサ
イズの影響をさらに低減することができる。

【００４４】アセンダー／デセンダーの正規化演算を詳
細に図示する図２８（Ａ）、（Ｂ）、（Ｃ）によれば、
形状信号はそれぞれアセンダーハイトとデセンダーハイ
トとテキスト文字のエクスハイトとの共通関係に基づき
正規化される。図示されるように、一見類似したフォン
トサイズまたは適当にスケールされたフォントサイズで
プリントされた文字の実際のアセンダーハイトはわずか
に異なる場合がある。これは小型字体または大型字体の
結果として生じるもので、同一文字であっても２４ポイ
ントフォント等の同一サイズのフォントのハイト（高
さ）には多様性があることを示す。図示されるように、
図２８（Ａ）の距離ｄ1は２個の文字「h」におけるアセ
ンダーハイトの差を示す。同様に、距離ｄ2は図２８
（Ｂ）の文字「f」の高さの差を示す。図２８（Ｃ）に
図示されるように、通常の文字はアセンダー部３９０、
エクスハイト部３９２、デセンダー部３９４の３つのセ
クションに分けることができる。さらに、これらのセク
ションの相対的な高さをそれぞれａ、ｂ、ｃで示す。こ
のエクスハイト上に存在する輪郭の領域は以下のように
スケールされる。

【００４５】

【数１】

【００４６】同様に、デセンダーは次の式によってスケ
ールされる。

【００４７】

【数２】

【００４８】ただし、両者の場合、分子で用いられた値
（１．５）はアセンダーまたはデセンダーハイトとエク
スハイトとの関係を計測することにより求められたもの
である。これにはテキスト列の部分を表さない輪郭部分
を削除する演算も含まれる。これらの領域は図２１で図
示されたバウディングボックスの端部に存在する。例え
ば、図２１で単語「practitioner」を囲むボックスは実
際の単語画像を超えて伸びていることがわかる。図２５
（Ａ）、（Ｂ）、（Ｃ）、（Ｄ）で単語「from」の端部
でさらに図示されるように、輪郭は有用な情報をもって
いるわけではない。これらの領域を輪郭形状から除去す
ることで、比較演算に生じるエラーを抑える。

【００４９】正規化演算に続いて、標準信号処理段階を
用いることで比較されている２つの信号の類似性または
非類似性を確定することができる。または、次の式を用
いることができる。

【００５０】

【数３】

【００５１】ただし、Δstring（ストリング）は２つの
信号の差であり、ｆ（ｘ）は既知信号であり、ｇ'
（ｘ）は未知の信号である。

【００５２】単純に確定する場合、差を調べ、もし差が
ゼロに近ければ２つの信号にはほとんど相違がないこと
を示すことになる。しかしながら、差が大きければ大き
いほど、その単語が比較されている単語と別個のもので
あるという可能性が高くなる。

【００５３】重要なのは、上述の実施例が各単語に対す
る上方および下方輪郭を用いて単語形状輪郭を互いに比
較するという点である。これは特定の決定方法を実現し
たものであって、本発明を頂上輪郭と底部輪郭のみを用
いた比較に限定するものではない。実際、上方輪郭内だ
けでも下方輪郭を比較する必要性を相当減少させ、これ
によって処理労力が相当軽減できるだけの十分な情報が
含まれている場合がある。

【００５４】この単純化された比較方法の段階は、最初
に述べたように図２９に図示される。まずステップ４１
０では第一単語形状に対する輪郭がメモリから取り出さ
れ、さらに第二単語形状がステップ４１２で取り出され
る。次に、ステップ４１４で上方および下方輪郭により
定義される単語形状の重心が確定され位置合わせされ
る。この段階の目的は単語輪郭の中心を位置合わせする
ことにより、比較中の２組の輪郭のあらゆる相対的変位
に対して原因となりうる輪郭の差を低減することにあ
る。前記重心を確定するには円弧の重心を確定する他の
標準的な方法による。両組の輪郭対に対していったん確
定すると、前記対の間の相対的な変位が決まり（ステッ
プ４１６）、輪郭は輪郭同士の差を計算する前に変位す
る。輪郭の変位は、単語形状境界線の確立と図２のブロ
ック２４の単語形状の計算とに関連するあらゆるエラー
を低減するために必要である。ステップ４１８は変位し
た輪郭対の重複範囲の外部に存在する領域を処理し、非
重複領域におけるゼロ振幅信号に対する差を確定する。
これは、輪郭の非重複端部での上方輪郭および下方輪郭
の平方値を合計することで達成される。続いて、輪郭の
重複領域が比較される（ステップ４２０）。この領域の
差は、上方曲線と下方曲線との差の二乗の合計として確
定される。さらにステップ４１８および４２０から返さ
れた値を加算することで、変位した輪郭により定義され
る全範囲にわたる差の合計を確定する。この値は比較中
の２個の単語形状に対する輪郭対の間の相似の相対表示
として用いることができる。

【００５５】重心比較法（ｃｅｎｔｅｒ−ｏｆ−ｇｒａ
ｖｉｔｙｃｏｍｐａｒｉｓｏｎｍｅｔｈｏｄ）に対す
る別の方法は、タイムワーピングとして公知の信号処理
方法を利用する。これについては論文「分離された単語
認識のための動的タイムワープアルゴリズムにおける性
能分担」（メーヤーズ、ラビナー、ローゼンバーグ共
著、「音響・音声・信号処理に関する電気電子学会会
報」、ＡＳＳＰ−２８巻、６号、１９８０年１２月
刊）、および文献「タイムワープ、記号列編集および高
分子：列比較の理論と実際」（サンコフ、クラスカル共
著、マサチューセッツ州リーディング、アジソン−ウエ
スレー出版社、１９８３年刊）の第１章から第４章まで
に開示されており、この文献では最良の照合ができるま
で輪郭に沿って点を圧縮および拡大させるために利用す
ることができる。さらに比較中の輪郭同士の差の量と輪
郭を一致させるために必要な伸縮とに基づきスコアが引
き出される。このスコアは比較中の２個の信号同士の照
合の相対表示を提供する。

【００５６】動的ワーピング法の一般的な段階を示す図
３０によれば、この方法は、第一輪郭の各点とそれが比
較されている輪郭の点との距離を記録するため、差の配
列または行列の利用に依存している。図示されるよう
に、この工程は比較法にも適用できるすべての計測に類
似している。まず、さまざまな比較関数の演算を動的
に制御するためにデータ構造が利用できるようにコード
が編成される。構造ＤｉｆｆＤｅｓｃｒｉｐｔｏｒ（デ
ィフディスクリプタ）は、比較を制御するために用いら
れる他の因数だけでなく、輪郭に対して適用される寸法
を定義する変数を有する。これらの因数には比較前の輪
郭長の正規化、上方輪郭および下方輪郭のための分離さ
れた比較、ワーピング経路を方向づけるｃｅｎｔｅｒＷ
ｉｅｇｈｔ（センターウェイト）因数、ワープ経路を制
限する帯域幅、底部輪郭比較に対して重みづけを重くま
たは軽くした頂上輪郭比較を可能にするｔｏｐＴｏＢｏ
ｔｔｏｍ（トップ−ボトム）比、未知の輪郭が既知のま
たはモデル単語形状輪郭と比較されている場合、輪郭差
の重みづけを選択的に制御するｈｉｌｌＴｏＶａｌｌｅ
ｙ（ヒル−バレー）比がある。

【００５７】通常、各計測によって比較技術が実現され
るが、それぞれの計測は特定の型の動的比較に対して最
適化される。例えば、勾配限定動的ワープ法では一方よ
り大きな非単位的な中心重みおよびトップ−ボトム重み
を有する。選択の第一レベルにより、比較、無条件ワー
プ、単純なワープされない比較に対して勾配条件付きワ
ーピング関数を利用することが可能となる。それぞれの
ワープ比較法には、頂上輪郭および底部輪郭が独立的に
ワープされる分離比較関数と、頂上輪郭および底部輪郭
の両者に対してワープが同時に適用される平行比較関数
とがある。

【００５８】通常の実施例では、動的ワーピング工程は
まず、比較中に生成された距離値を保持するとともに一
方の単語形状輪郭を他方に対してワーピングさせること
を保持する経路／距離配列に対して空間を割り当てる
（ステップ４５０）。通常、この配列は比較中の輪郭に
対して可能性のある差計測をすべて識別するために用い
られる。配列要素に差を充填した後に、すべての要素に
対する差を走査経路内に蓄積する一方、前記配列は一コ
ーナから斜めに対向するコーナへ向けて走査する。これ
まで説明した実施例は、差が確定した場合、蓄積された
差を反復的に充填することによりこの工程を多少最適化
する。本質的に、これによっていったん輪郭の間の相対
差がすべて計算されてしまうと前記配列を走査する冗長
な段階をなくすことができる。さらに変更すると最終的
に大きな配列が除去され、配列の「走査」中に距離値を
格納し、取り出し、更新するために操作される一対の線
形配列で置換される。

【００５９】空間を割り当てた後、すべてのワーピング
計測により用いられる工程が、輪郭の累加的な差を確定
するため事前に配列内に格納されたデータを利用する反
復工程である場合、配列のボーダー領域は初期設定され
なければならない。ステップ４５２では、配列ボーダー
が初期設定される。配列の第一行を初期設定するには、
第一輪郭上の第一点と第二輪郭上の各点との差の二乗を
確定する必要がある。ボーダーの初期設定に続き、列イ
ンデックス値ｌ１および行インデックス値ｌ２はそれぞ
れ１にリセットされ、輪郭に沿って個々のボーダーでな
い点を処理し始める。

【００６０】ステップ４５８乃至４６４まで、輪郭の処
理が進む。第二輪郭に沿った各点と第一輪郭の点との間
の距離における差が計算される。さらにこの差または距
離が計算されると、すでに確定された差と合計する。さ
らに、すでに確定された差のいくつかはそれぞれ異なっ
て重みづけすることができる。例えば、一実施例では配
列斜線に沿った差の重みはセンターウェイト重みづけ因
数により修正することができる。図のように、まず、上
方輪郭および下方輪郭にわたって第一輪郭上の点と第二
輪郭上の点との差の二乗の合計として距離が計算され
る。ただし、頂上輪郭差はトップ−ボトム変数によって
重みづけされる。この距離は連続反復で水平差、垂直
差、斜め差を確定するために用いられる。これらの値を
それぞれ確定するため、現在の距離値が下配列位置、左
配列位置および左下配列位置における以前の値に加算さ
れる。この左下配列位置は既に説明したようなセンター
ウェイト因数により重みづけされる斜め位置である。配
列位置５０２ですでに確定された値ｘと次の配列位置と
の位置関係を図示する図３１（Ａ）によれば、全体差を
蓄積するためその後の位置の差に値ｘを加算することが
できる。配列位置５０４に対する差を計算する場合、位
置５０２の値は下値として利用されることになる。同様
に、位置５０６の値を計算する場合、位置５０２の値は
センターに重みづけされた左下または斜め値として利用
される。３個の異なる値をステップ４５８、４６０、４
６２で計算した後、ステップ４６４で３個の値のうち最
小のものを選択し、ステップ４６６で現在の配列位置内
へ挿入する。

【００６１】続いて、図３０に図示される工程ではｌ１
で表される第一輪郭上の点とｌ２で表される第二輪郭上
の点との差を確定する。決定ステップ４６８は輪郭の端
部または幅を調べることにより第二輪郭に沿った点の反
復処理を制御する。限定幅または帯域幅の場合、比較中
の輪郭領域のひとつまたは両方の領域が、輪郭が定義さ
れる領域の部分集合に制限される。限定が達成されてい
なければ、ｌ２の値がステップ４７０で増分された後に
次の点の処理がステップ４５８で行われる。同様に、決
定ステップ４７２が第一輪郭に沿った各点の処理を制御
するとともにステップ４７４で増分する。すべての点が
互いに処理され終わると、配列が走査され終わったこと
を示すステップ４７２の肯定応答により明らかなよう
に、最も斜めの位置である配列（ｌ１，ｌ２）において
相対差のスコアが最上のスコアとなる。続いて、ステッ
プ４７６で確定された値は比較中の輪郭同士の動的にワ
ープされた差を示すものとして返される。

【００６２】コード化の実現により、大きな２次元配列
を必要に応じて更新される一対の線形配列に減少させる
ことで上述のワーピング工程の実行を最適化することが
できた。この修正により、ワープ比較値に対する最小差
または最良のスコアが１次元配列の最終位置で求められ
る。さらに、最終差を正規化することにより、比較中の
２組の輪郭の間に長さの差を生じさせることができる。
最後に、このような値を閾または同様にして得られた差
の集合と比較し、単語が一致したといえるほど輪郭同士
が近接しているかどうか確定することができるか、また
は一連の単語形状比較から最良の一致を確定することが
できる。

【００６３】他の実施例では、上述の動的タイムワーピ
ング工程を変形し、差配列に含まれる差を周期基底上の
閾値と比較することができる。比較において、比較中の
輪郭が互いに一致しないと確定できるだけの十分な差が
存在した場合にはこの工程を中断することができ、これ
によって貴重な処理時間が節約できる。さらに、単語形
状コンパレータ２６の連続的な演算は単語形状コンピュ
ータ２４からの連続的な出力とともに実行され、これに
よってキーワードを探している場合、テキスト画像の平
行処理が可能となる。

【００６４】これまで動的ワーピング比較計測に関する
基本的な実現方法について説明してきたが、本発明の数
多くの可能な実施例を示すため、他の動的ワープ比較法
と上述の制御因数の適用との違いを簡単に説明する。ま
ず、すでに述べた動的ワーピング法も、配列を走査する
場合、条件づけされているワープ経路の勾配で実現する
ことができる。この計測法は図３１（Ｂ）でさらに詳細
に図示される。ただし、配列位置５１２の値Ｘは図示さ
れる３個の連続する配列位置にのみ加算することができ
る。例えば、位置５１４に対してｄ２ｌ１として考えら
れる場合、Ｘは配列位置５１４へ加算できる。図中の変
数に対する命名法は次の通りである。ｄ２ｌ１は下に２
行、左に１列の配列位置を示す。ｄ１ｌ１は左斜め下方
の配列位置を、ｄ１ｌ２は現在の配列位置から１列下の
左へ２行進んだ配列位置を示す。同様にして、配列位置
５１６の累加的な差を計算するためにＸをｄ１ｌ２値と
して加算することができる。

【００６５】図３１（Ａ）および３１（Ｂ）の比較から
明らかなように、勾配条件付きワーピング計測は、累加
的な差の生成中に利用できるワーピング経路を局所的に
限定する。このような条件づけを行うのは、ワーピング
工程が比較中の２つの輪郭の一方の大きな領域を除去ま
たは圧縮することを、このような圧縮に対してあまり
「コスト」をかけずに避けるためである。

【００６６】平行ワーピング処理に対してすでに説明し
たこの方法も、一度に一対のみ２個の単語形状の上方輪
郭等の輪郭について実現することができる。この関数
は、上述の非勾配条件付きの方法および勾配条件付きの
方法の両方で分離照合計測を実現する。通常、これらの
計測では一対の単語形状の頂上輪郭または底部輪郭同士
の差を別個に計算する。この計測に対して示される通常
の実現から、これらの計測が通常は順に利用され、まず
頂上輪郭に対してワープされた差を確定し、それに底部
輪郭比較からワープされた差を加算し、その結果、単語
形状の総計差が得られることがわかる。

【００６７】「それぞれの部分に関して」段階化された
やり方で記述されたこの比較方法を実行することによ
り、さらに処理上の利点が引き出される。詳細にいえ
ば、段階化された比較にはまず単語を識別するかまたは
少なくとも可能性のある他の集合を狭めるために比較中
の単語の上方輪郭を利用する必要があり、第二に完全な
識別を提供するため下方輪郭比較を用いる必要がある。
単語形状比較演算２６に対するこのような手法が、図２
に図示されるような既知の単語形状の辞書２８と比較す
ることによって未知の単語形状を識別するために要する
処理時間を相当に低減することとなる。段階化された比
較法の重要な点は、輪郭に作用する頂上ワープおよび底
部ワープが相対的に同値でなければならないという条件
である。この必要条件は、上方曲線および下方曲線が共
通の単語に対して関係をもっており、この関係がワープ
解析中に維持されなければ、比較の精度が落ちるという
事実から生じる。

【００６８】または、最良の一致を達成する上方曲線お
よび下方曲線に作用する相対的ワープを蓄積するのに適
した関数を加えて動的ワーピング技術を上記のように適
用することができる。例えば、既知の強調されていない
単語形状を未知の単語形状と比較した場合、下方曲線に
対して上方曲線へ作用するワープにおける変位は強調単
語を示すことができる。しかしながら、ワープされた領
域の長さは頂上ワープおよび底部ワープに対する長さと
同じままである。このような技術は、大き目の字体のテ
キスト内の重要な単語が時折強調されている場合の識別
に有用である。

【００６９】ｂａｎｄＷｉｄｔｈ（帯域幅）因数はすで
に説明した制御因数の一つである。実現された場合、こ
の帯域幅因数は、ワーピング信号がその内部で条件づけ
されている信号帯域の相対幅を制御する。詳細に説明す
れば、配列を走査するワープ経路が条件づけされた配列
対角線を中心とする領域を定義することにより帯域幅の
限定が実現できる。大きな値を帯域幅の外部であるこれ
らの領域へ割り当て、前記経路が条件を超えることがほ
とんどないようにすることによってこの条件が実現され
る。

【００７０】トップ−ボトム比は、すでに簡単に説明し
た他の因数である。これが適用されると、この変数は頂
上輪郭ワーピング工程のために確定された差を重みづけ
するために用いられる。したがって、２以上の数字を用
いると、上方輪郭差を下方輪郭差よりも重く重みづけす
ることになる。非常に大きな数字を用いれば下方輪郭差
を効果的かつ完全に除去することとなる。さらに、値が
ゼロであれば上方輪郭差を完全に除去することとなる。
上方輪郭はたいてい下方輪郭よりも単語に関する情報を
多くもっており、この因数は通常、上方輪郭をその情報
内容に比例して重みづけできることから重要であると考
えられている。

【００７１】ヒル−バレ−比は、単語形状輪郭の既知の
またはモデル集合が未知の画像から単語形状輪郭の集合
と比較中である状況で通常適用される変数である。この
オプションを利用する場合、輪郭のモデル集合は比較計
測関数として通用する。輪郭上の点の差を確定する場
合、比較関数は通常、関数スクエアディフレンスを呼び
出し、二乗された差の合計を確定する。スクエアディフ
レンスは、モデル輪郭の値が比較中の輪郭よりも小さい
と確定したときは必ず、ヒル−バレ−比を二乗された差
に適用する。１を上回るヒル−バレ−値を適用した結
果、モデル輪郭が目的輪郭よりも小さい場合の差の相対
的な「コスト」は、モデル輪郭が目的輪郭より大きい場
合の同一差よりも小さくなる。この型の重みづけの基本
は、モデル輪郭と比較する場合、モデル輪郭未満の輪郭
位置により明らかであるように、この比較が、走査中ま
たは同様のデジタル化演算の間に充填されそうにない領
域よりも軽い重みで「充填」される必要がある目的輪郭
の領域を扱うということである。例えば、アセンダーが
文字体とぶつかる領域は走査中に充填されやすく、これ
によって目的輪郭がこれらの領域の段階的な輪郭とな
る。しかし、モデル輪郭はこれらの領域で定義されたピ
ークまたは谷を有する確率が最も高い。このため、たと
え文字が同一であったとしてもモデルの輪郭値は目的の
輪郭値よりも小さくなる。したがって、ヒル−バレー変
数はこれらの領域にわたって計算された差に対する影響
を最小化しようとする。

【００７２】重要なのは、上述の計測および制御因数に
より前記比較計測が多数の順列で行うことができる点で
ある。しかしながら、これらの計測がもつ柔軟性は比較
工程の適応性を向上させようとするため、コンピュータ
生成文字フォント列から生成されたモデル輪郭のように
情報が特定の単語形状輪郭について既知であった場合、
前記計測において比較をより強固にするその情報に依存
することができる。

【００７３】好ましい実施例にしたがって本発明を説明
してきたが、ソフトウェア構成はコンピュータシステム
で実現可能となるように設計され、デジタル信号データ
の処理に関して上述の演算を達成するため、コンピュー
タシステムにはあらかじめ定義された命令を実行する一
またはそれ以上のマイクロプロセッサまたは演算処理装
置が用いられている。さらに本発明は、ここで開示され
た演算を実現するよう設計された特定のハードウェアを
利用することで達成される。さらに本発明は、テキスト
画像に関して説明した。しかしながら、本発明は非テキ
スト画像部分を有する画像であっても適用可能である。
また、図面とともに本明細書を読み理解する中で修正点
が生じることは明らかである。この実施例は一例であっ
て、請求項で請求される内容から当業者によりさまざま
な代替案、修正、変更、改良がなされうるものとする。

【図面の簡単な説明】

【図１】本発明で使用される画像処理システムの概要シ
ステム図を示す。

【図２】新規な単語形状認識システムの一実施例を構成
するシステム構成要素の配列のブロックシステム図を示
す。

【図３】新規の工程が実行される例文テキストの画像サ
ンプルを示す。

【図４】例文テキストの走査画像のコピーである。

【図５】処理を進める前に画像サンプルにおいて例文テ
キストを方向づける角度を確定するために用いられる工
程を画像で図示したものである。

【図６】処理を進める前に画像サンプルにおいて例文テ
キストを方向づける角度を確定するために用いられる工
程を画像で図示したものである。

【図７】処理を進める前に画像サンプルにおいて例文テ
キストを方向づける角度を確定するために用いられる工
程を画像で図示したものである。

【図８】処理を進める前に画像サンプルにおいて例文テ
キストを方向づける角度を確定するために用いられる、
例文テキストから得られたレスポンスのグラフを示す。

【図９】画像内のテキストの底線を確定するため例文テ
キストのサンプル画像を調べるグラフの導出および利用
法を示す。

【図１０】画像内のテキストの底線を確定するため例文
テキストのサンプル画像を調べるグラフの導出および利
用法を示すものであって、図９の部分的拡大グラフのみ
を示す。

【図１１】図９に示される底線を確定するために実行さ
れる手順を示すフローチャートである。

【図１２】図９に示される底線を確定するために実行さ
れる手順を示すフローチャートである。

【図１３】図９乃至１０に図示されるデータから導出し
た後、画像上に底線が示された例文テキストの走査画像
を示す。

【図１４】図３の画像に対して中央フィルタを適用した
場合に用いられる各段階を示すフローチャートである。

【図１５】前記中央フィルタの適用を示す図３の画像の
部分的な拡大画像表示である。

【図１６】ここではブロビファイングとしてよばれる工
程で文字列を連結画素の単一集合として表示する傾向の
ある例文テキストの走査画像に対して中央フィルタを適
用した後の結果画像を示す。

【図１７】白色画素の行が不鮮明な画像へ加えられるこ
とにより文字列の隣接する行から文字列の行を鮮明に描
写することができる前記工程における連続段階を示す。

【図１８】図１７の白線を加えるために必要な段階を示
すフローチャートである。

【図１９】図１６の不鮮明画像による画像データをセグ
メント化するために行われる手順を示すフローチャート
である。

【図２０】図１６の不鮮明画像による画像データをセグ
メント化するために行われる手順を示すフローチャート
である。

【図２１】バウディングボックスが各文字列を含む画像
画素の部分集合をただ一つ識別するように各単語群の周
囲に配置された例文テキストを示す。

【図２２】（Ａ）及び（Ｂ）は例文テキストのサンプル
画像中に現れる例文単語「ｆｒｏｍ」を用いて単一独立
変数信号の導出を図示する。

【図２３】図２２に図示された導出工程により形成され
る輪郭の結果を図示する。

【図２４】単語形状信号の導出に関連する各段階を示
す。

【図２５】例文単語「ｆｒｏｍ」を用いて単一独立変数
信号の導出を示す。

【図２６】例文テキストのサンプル画像中に現れない例
文単語「ｒｅｄ」を用いて単一独立変数信号の導出を示
す。

【図２７】信号正規化法を用いて単語「ｒｅｄ」および
「ｆｒｏｍ」に対して導出された信号の単純な比較を示
す。

【図２８】フォント高さにおける矛盾を詳細に図示し、
さらにこのような矛盾の正規化方法を図示したものであ
る。

【図２９】単語形状輪郭の間の相対差を確定する一方法
に対して用いられる段階を詳細に示すフローチャートで
ある。

【図３０】単語形状輪郭の間の相対差を確定する第二方
法の段階を詳細に示すフローチャートである。

【図３１】非勾配条件付き比較および勾配条件付き比較
の両方に対して計算されるとともに一配列に格納される
相対差値間の関係図である。

【符号の説明】

２ソース画像導出システム４コンピュータ処理装置６ユーザインタフェース８出力装置１０入力画像１４スキュー検出器１６テキスト底線プロセッサ１８中央フィルタ２４単語形状信号コンピュータ２６単語形状コンパレータ

フロントページの続きＦターム(参考） 5B029 CC28 EE04 EE13 5B064 DC11 DC16

Claims

【特許請求の範囲】

【請求項１】複数の記号ストリングの等価性を判定す
る方法であり、この記号シンボルは記号シンボル間の相
似性の相対計測を判断するために、画像を定義するデー
タ内で、隣接する行中の隣接する単語同士から鮮明に分
離されたブロビファイされた単語である単語対象物を形
成し、画像を定義するデータの第１の離散記号ストリングを検
出し、第１の記号ストリングによって表される単語対象
物を分離するステップと、第１の記号ストリングのバウンディングボックスと黒画
素との距離である、該第１の記号ストリングの形状の第
１の輪郭信号を示す値を推定するステップと、第１の記号ストリングのエックス・ハイト、アセンダ
ー、及び、デセンダーの何れかの大きさである特徴的大
きさを測定するステップと、画像を定義するデータの第２の離散記号ストリングを検
出し、第２の記号ストリングによって表される単語対象
物を分離するステップと、第２の記号ストリングのバウンディングボックスと黒画
素との距離である、該第２の記号ストリングの形状の第
２の輪郭信号を示す値を推定するステップと、第２の記号ストリングのエックス・ハイト、アセンダ
ー、及び、デセンダーの何れかの大きさである特徴的な
大きさを測定するステップと、第２の記号ストリングの特徴的な大きさで、第１の記号
ストリングの特徴的な大きさを割ることにより、縮小拡
大率を計算するステップと、第１の輪郭信号に対する次の比較のため、新しい第２の
輪郭信号を作るために前記縮小拡大率に従って、二次元
において第２の輪郭信号を縮小又は拡大するステップ
と、前記単語対象物の単語の上部、及び、下部である信号が
定義される範囲にわたって、第１及び第２の輪郭信号間
の差である差信号を示す値を求めるステップと、第１及び第２ストリングの間の相対相似の差計測表示に
到達するために、前記定義された範囲の部分にわたっ
て、前記差信号を評価するステップと、を含む、複数の記号ストリングの等価性を判定する方
法。
【請求項２】差計測に対して、第１と第２の記号スト
リングが等しいかどうか判断するステップを含む、請求
項１に記載の複数の記号ストリングの等価性を判定する
方法。
【請求項３】第１と第２の記号シンボルが等しいかど
うか判断するステップにおいて、所定の閾値と差計測を比較するステップと、差計測が閾値よりも小さいならば、第１及び第２の輪郭
信号が、同一の記号シンボルを表す語形から生成された
と判定するステップと、を含む、請求項２に記載の複数の記号ストリングの等価
性を判定する方法。