JPH0772905B2

JPH0772905B2 - 記号列の認識方法

Info

Publication number: JPH0772905B2
Application number: JP4325994A
Authority: JP
Inventors: ピー．ハッテンロッカーダニエル; ジェイ．ホプクロフトマイケル
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1991-11-19
Filing date: 1992-11-11
Publication date: 1995-08-02
Anticipated expiration: 2010-08-02
Also published as: JPH05242298A; DE69230632D1; CA2077970C; US5557689A; DE69230632T2; EP0543592A2; EP0543592B1; CA2077970A1; EP0543592A3

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文字列を構成する１個
又は複数個の文字の個別の切出し（検出）および／また
は識別を必要とすることなく、画像データの配列で表現
されたテキストまたは文字列を形状によって認識する方
法に関する。

【０００２】

【従来の技術】電子的に符号化された文書（電子文書）
のテキストは、相互に全く異なる２種類の形式（フォー
マット）のどちらかで存在する傾向にある。第１の形式
として、テキストはビットマップ形式とすることができ
る。この場合、テキストは画像データつまり画素の配列
でのみ定義され、この形式で同じように表現される隣接
画像とは本質的に区別することができない。この形式で
は、テキストは一般に、テキストの内容だけに基づくコ
ンピュータによる処理を受けさせることができない。以
下で文字符号形式と呼ぶ第２の形式では、テキストは文
字符号（例：ＡＳＣＩＩ符号）の列として表わされる。
文字符号形式では、テキストの画像またはビットマップ
は得られない。

【０００３】光学的文字認識（ＯＣＲ）処理を利用して
ビットマップ形式から文字符号形式へ変換するには、時
間および処理作業にかなりの負担がかかる。１つの文字
の各ビットマップを隣接ビットマップから区別し、その
外形を分析し、決定プロセスで所定の文字集合内の明確
な１つの文字として識別しなければならない。

【０００４】

【発明が解決しようとする課題】しかし、原始文書（原
稿）を走査することによって電子文書を導出した場合、
その再生時の画像品質および雑音がビットマップの実際
の外形の不確実性の原因となる。ビットマップの外形の
劣化は、低品質の原文書、走査誤り、または画像のディ
ジタル化表現に影響を及ぼす同様の要因によって生じ
る。したがって、文字の識別に使用される決定プロセス
は、それに関する固有の不確実性を有する。これに関し
て特に問題になるのは、テキストの文字がぼやけたり併
合される傾向である。大半の文字認識処理は、文字が独
立した連続画素の集合であることを前提としている。こ
の前提が入力画像の品質のためにくずれると、文字識別
もできなくなる。文字切出しを改善するために、さまざ
まな試みが行われてきた。

【０００５】ＯＣＲ法は、辞書単語確認法を使用するこ
とによって信頼性を向上しようとしてきた。

【０００６】また、単語または文字列を形成する文字の
集合をそのまま丸ごと識別する方法が望ましいかもしれ
ない。

【０００７】文字を個別のアイデンティティを持つもの
として維持しようとしない署名認識では、語全体を認識
の基本単位として選択することも検討されてきた。

【０００８】単語を比較的単純に表現できれば、既知の
信号を未知の信号と比較する特定の信号処理技法も利用
可能である。

【０００９】

【課題を解決するための手段】本発明では、文字又は文
字列を構成する文字の切出し（検出）および／または識
別を必要とすることなく、画像データで表現された語、
文字列、または記号列を形状によって認識する方法を提
供する。

【００１０】画像を定義するデータ内の記号列を形成す
る記号の列を認識する１つの方法は、ａ）画像内の離散
記号列を符号化する画像データを検出する段階と、ｂ）
そうした１つの記号列の画像データを少なくとも１つの
１次元信号として表現する段階と、ｃ）記号列の前記表
現信号を第２記号列の表現信号と比較する段階とを含
む。

【００１１】本発明の１つの態様では、記号列の画像デ
ータを少なくとも１つの１次元信号として表現する段階
は、その画像を１つ以上の１次元信号に還元するプロセ
スを含む。文字列をこの形式で表現することができれ
ば、特定の処理技術を利用して、導出された信号を他の
記号文字列を表わす信号と比較することができるように
なる。これらの他の信号は、認識プロセスでは既知の信
号を、語の等価性を決定するプロセスでは未知の信号を
表わすことができる。

【００１２】本発明の別の態様では、ビットマップ形式
の画像を１つ以上の１次元信号に還元するプロセスは、
記号列に関する測定に使用する基準を設定する段階と、
基準に対する多数または１組の測定値を１次元信号とし
て導出する段階とから成る。

【００１３】本発明のさらに別の態様では、文字列の形
状の少なくとも一部分を表わす信号を導出する段階は、
その文字列の形状信号または関数を導出するための基準
を識別する段階と、文字列の形状信号または関数を曲線
として表現する段階と、曲線の選択された一部分につい
て、その部分をその信号に関して導出された１次元信号
ｆ（ｔ）として表現する段階とを含む。

【００１４】本発明のさらに別の態様では、文字の形状
を表わす信号の導出を表現する別の方法は、画像信号ｉ
（ｘ，ｙ）で表現される選択された文字列に関し、画像
信号に含まれるその文字列を囲う境界を定義する段階
と、画像信号ｉ（ｘ，ｙ）から閉じた境界内で検出され
る文字列のエッジを表わすエッジ信号ｅ（ｘ，ｙ）を導
出する段階と、画像信号ｉ（ｘ，ｙ）に追加信号を増補
することによって、エッジ信号ｅ（ｘ，ｙ）が閉じた境
界内の独立変数に関してそのドメイン（領域）全体に対
して定義されるようにし、新しいエッジ信号をｅ´
（ｘ，ｙ）で表現する段階と、ｆ（ｔ）を選択文字列の
形状の少なくとも一部分の１次元表現として、ｅ´
（ｘ，ｙ）の一部分を信号ｆ（ｔ）として表現する段階
とを含む。

【００１５】本発明は、ＯＣＲ法に特有の問題を回避す
ることを目的とする。特に、画像導出つまりイメージン
グ（画像形成）プロセスに特有の信号対雑音比は、１つ
の文字では比較的小さいが、より大きい文字列に対して
は比較的大きい。さらに、語間の間隔は文字間の間隔よ
り大きい傾向があるので分離を改善しやすく、したがっ
て、文字列の識別は文字の識別に比べて改善しやすい。
ＯＣＲ法はまた、正しく識別するための準備として、ア
センダ、ディセンダ、カーブなど誤りやすい文字の部分
の識別をはじめ、文字に関して幾つかの正しい識別を行
う必要がある。本発明に基づく語形状による識別は、最
初に語形状の信号表現を導出し、導出された信号を既知
の語形状信号と比較する必要がある。比較が行われるま
で語に関する仮説は立てられず、それによって、その後
の比較および識別に誤った影響を及ぼす無効な仮説の影
響が排除される。さらに、本発明では、導出された信号
が一般に情報の内容の実質的な損失を伴うことなく、反
転可能であるという利点が追加される。

【００１６】コンピュータ処理したテキストの潜在的使
用の調査において、少なくとも特定のケースでは、語の
各文字を導出することが処理要件として要求されないこ
とが分かった。したがって、例えば、テキスト画像のキ
ーワード探索の場合、ＯＣＲ法により各語の各文字を変
換し、その後で誤りの可能性のある文字符号化から１つ
以上のキーワードが存在しているか否かを決定するので
はなく、コンピュータが語の形状を生成し、それをキー
ワードの語形状と比較し、キーワードが存在するか否か
を語形状によって評価すればよい。さらに、この方法は
処理速度の点でもＯＣＲ法より優れていると考えられ
る。

【００１７】ＯＣＲ法による文字の不正確な識別の確率
は比較的低いが、確率は語全体にわたり乗法累積され
る。したがって、語の探索または認識の前に、ＯＣＲを
用いて語を文字符号列に変換すると、かなりの誤りが生
じる可能性がある。本発明は、人間がテキストの文章を
読みながら、あるいは目を通しながら用いるのと同様の
方法による語認識を実現することを課題とする。さら
に、ＯＣＲを用いると、文字のビットマップ画像は文字
符号に変換され、ビットマップは利用者が検討のために
検索することができなくなる。しかし、上述の語形状処
理は、幾つかの点でＯＣＲ法より優れている。第１に、
ビットマップが検索不能になるまで失われず、ビットマ
ップの適当な表現が残るので、必要ならば、利用者は再
構築されたビットマップを検討して語識別を行うことが
できる。第２に、完全な語を利用することにより、各文
字が語の文脈を持ち、語を他の語の形状と比較する上で
役立つ。語内にきちんととした形を成さない文字が存在
しても、比較される２つ信号間の相違値を少し高くする
ことによって、語形状信号の全体的識別可能性への影響
はごくわずかである。第３に、誤って認識される確率が
最も高い小さい語の場合、そうした語の持つ情報の内容
は比較的少ないことが認められる。これが、キーワード
探索など幾つかの指標構造（indexing scheme ）が、テ
キストの文章の意味に関して、言語で最も一般的な語を
雑音として無視する理由である。したがって、誤りが最
もよく発生しそうな語は、情報の内容という意味では最
も重要性の低い語である。それとは対照的に、ＯＣＲで
は、誤りが語の長さに対して累積するので、誤り検出の
確率が最も高いのは長い語、つまり最も多くの情報内容
を含む語である。

【００１８】ＯＣＲ法はビットマップを表現文字符号へ
変換し、それによってビットマップの情報内容を喪失す
る。一般に、このプロセスは非可逆的であり、文字符号
から元のビットマップを得ることはできない。しかし、
本発明に従って説明する形状に基づく語の識別は、ビッ
トマップ情報を維持するのに役立ち、それにより１次元
信号からビットマップを妥当な範囲で再構築することが
できる。したがって、ビットマップ情報のかなりの部分
が、選択されたテキストまたは文字列の形状を表わすの
に使用される１次元信号によって保持される。

【００１９】

【実施例】次に、図面に基づいて本発明を説明する。図
面は、本発明の好適実施例を説明するために示すのであ
って、本発明を限定するものではない。図１は、本発明
を有利に使用することのできる多くの状況をカバーする
一般画像処理システムを示す。原始（原稿）画像は通
常、スキャナ、ファクシミリ装置、または記憶装置など
の原始画像導出システム２から導出される。原始画像は
コンピュータ処理装置４へ転送される。この処理装置
は、ここで記述する新規装置をはじめ、幾つかの既知の
装置のどれかを使用することができる。処理装置４は、
ユーザインタフェース６に入力されるコマンドに応答し
て、プリンタ、ディスプレイ、ファクシミリ装置、また
はその他の記憶装置などの出力装置８への出力を生成す
る。基本的に、図１の上部に示すように、入力文書はシ
ステムへ送られ、出力文書はシステムから検索される。

【００２０】以下の説明では、画像を一般に画像ビット
マップとして説明し、画像を多数の画像信号として表現
する。これらの信号を一般に画素と呼び、信号が生成さ
れる元となった文書の対応するマークまたは活動位置を
表わす場合は、一般に黒で表示する。しかし、このよう
な構成体は、本発明の説明を可能にするために使用した
ものであって、そうしたドメインを白黒またはバイナリ
画像だけに限定する意図は全くない。

【００２１】図２は、本発明を実施し、語を形状によっ
て導出し、定義し、比較するシステムを示す。いうまで
もないが、システムの各要素は多くの装置でもよく、ま
た単独の装置内で作動するプログラムとしてもよい。シ
ステムは入力ビットマップ１０で始まるが、そのソース
は明確にされておらず、本発明の一部でもない。画像の
ビットマップは最初、セグメンテーションシステム１２
へ送られ、ここで語、文字列、またはその他の複数文字
の理解単位が導出される。最初に画像ビットマップはス
キュー検出器１４を通過し、ここで画像におけるテキス
トの配向角度が決定される。テキストベースラインプロ
セッサ１６では、画像の配向に関する情報および画像そ
れ自体を用いて、テキストのトップ（頂）ラインとベー
ス（底）ラインが決定され、画像内のテキストの行の上
限と下限が識別される。メジアンフィルタでは、「ブロ
ブ化（blobify ）（塊化、ぼかし）」と呼ばれる機能が
実行され、これが画像に作用して、１行の各語群が単独
の単位として取り扱えるようになる。ここでいう
「語」、「記号列」、または「文字列」とは、１組の連
続した英数字または句読点要素のことであり、あるいは
もっと広義的には、ひとまとめにして単独の構文理解単
位を構成する符号または記号のことである。このような
単独の理解単位は、単位を構成する要素、符号または記
号を分離する空間より大きい空間で分離された１つの画
像として特徴付けられる。次に、テキストの隣接する行
を相互に明確に分離するために、ブロブ化した画像にブ
ロック２０で１組の白線を付加する。白線は、プロセッ
サ１６によって行われるベースライン決定に基づくもの
である。この情報、つまり隣接する語および隣接する行
の語から明確に分離されたブロブ化された語を用いて、
ブロック２２で語の周囲に境界ボックスが定義され、こ
れによって語が識別され、周囲を囲われる。

【００２２】その後、語形状信号コンピュータ２４が、
元の画像および境界ボックスの決定に基づいて、画像内
の個々の語を表わす語形状信号を導出する。次に、この
情報は語形状比較器２６において、まだ識別されていな
い語形状信号と語形状辞書２８の中にある既知の語を表
わす語形状信号を比較するために使用される。別の実施
例では、画像１０から得られた２つ以上の語の形状を比
較するために、語形状比較器２６を使用することができ
る。さらに重要なことは、語形状比較器２６が、既知の
語形状と未認識文字列の語形状との比較だけに限定され
ないことである。単純化した文脈では、比較器２６は１
つの語形状を別の語形状と比較して、２つの語形状の間
の類似性の程度の相対的表示を提供する装置にすぎな
い。

【００２３】一般に本発明を達成する方法は、以下の段
階を含む。画像の配向を設定し、行間隔および語群間隔
を設定した後、各語を境界ボックスで取り囲むことがで
きる。次に、文字列画像を貫通して伸長する基準線を作
成する。基準線は、ｘの高さの３分の２からｘの高さの
３分の１までの範囲の有限厚さを有するブロックとする
ことができ、また実際には幅がゼロでもよい。次に、画
像の分解能で、基準線からテキストの輪郭線または境界
ボックスの上縁までの距離を、基準線の直交方向に測定
する。同様に、基準線から境界ボックスの下縁まで、ま
たは語の下部に沿ったテキストの輪郭線までのどちらか
小さい方を測定する。計算によって導出した値の組は、
水平軸に沿った位置対長さとして表現することができる
ので、信号は単独の独立変数信号とみなすことができ
る。これらの値の組のどちらか一方または両方を使用し
て、語形状を記述することができる。また、おそらくそ
れほど望ましくないかもしれないが、必要に応じて、境
界ボックスの頂部または底部から語または基準線との最
初の接触位置まで引いた垂直線の距離を測定すること
も、本発明の範囲内に含まれる。

【００２４】語形状誘導のシステムおよびプロセスを用
いて、信号を数学的に考慮することもできる。一般的な
ケースとしてビットマップの形の画像データの配列とす
ることのできる画像データｉ（ｘ，ｙ）を考慮すると、
文字集合は、画像データの配列の部分集合内の選択記号
列を取り囲む境界を定義する、おそらく上述のような多
くの方法の１つにより識別される。ｉ（ｘ，ｙ）から、
閉境界内で検出されたｉ（ｘ，ｙ）のエッジを表わすエ
ッジ信号ｅ（ｘ，ｙ）を導出する。ｉ（ｘ，ｙ）に追加
データを付加することによってエッジ信号を増補し、ｅ
（ｘ，ｙ）が閉境界内の独立変数に関してそのドメイン
全体に対して定義される信号ｅ´（ｘ，ｙ）となるよう
にする。ｅ´（ｘ，ｙ）から各々が単独の独立変数信号
ｇ´（ｔ）である１つ、２つ、またはそれ以上の信号を
導出することができる。ここで、ｇは基準フレーム従属
パラメータである独立変数ｔの信号である。

【００２５】重要なことは、１次元信号の導出に使用さ
れる数学的プロセスが基本的に可逆的であることを認識
することである。基準が有限厚さを持ち、したがって画
像から取り除かれる場合には、画像のその部分は識別不
能になるが、幅がゼロならば情報は維持されることが分
かる。

【００２６】上述のプロセスを利用して、語形状の認識
辞書または参照用テーブルを明瞭に作成することができ
る。このプロセスは、情報源としてスキャナ入力した
語、または実際に、より「完全」な辞書のためにコンピ
ュータで生成された語に対して、実行することができ
る。

【００２７】本発明のプロセスを実証するために、図３
に、公知のソースから取った、数行のテキストを含む試
料画像を示す。図３は、テキストの頁の画像がどのよう
に見えるかを大まかに示している。一方、図４はスキャ
ナ入力した頁の画像を示しており、既知のＯＣＲ法で問
題になるビットマップの画像の拡大状態を実証する。例
えば、テキスト画像の１行目の語５０“practitioner”
の画像を見ると、文字の幾つかが一つにつながっている
ことが分かる。また、画像の左下の符号５２の円で囲ん
だ部分にはノイズが存在する。符号５４の円で囲んだ語
“practitioner's”を見ると、さらに句読点と文字がひ
とつにつながっている状態に気付く。

【００２８】再び図２を参照すると、本発明の１つの可
能な実施例では、スキュー検出器１４を実現することが
できる。画像のテキスト行の配向を決定する一般的な方
法は、無作為に選択した少数のエッジ画素（少なくとも
１つの白画素に隣接する１つの黒信号画素と定義され
る）に注目し、各エッジ画素に対し、図５で、特定の角
範囲にわたり均等の増分角間隔で引いた多数の線（例え
ば５６ａ、５６ｂ、５６ｃ）を検討する方法である。図
５（線５６ａ，５６ｂ，５６ｃ参照）、図６（線５８
ａ、５８ｂ、５８ｃ参照）、および図７（線６０ａ、６
０ｂ、６０ｃ参照）は、画像内のテキストの配向角度を
正確に決定するために、前記の方法を例示のエッジ画素
に適用する角範囲をどんどん狭めていく一連の説明図で
ある。エッジ画素を見つけ、線を定義した後、スキュー
検出器１４は各線の経路を追跡し、線と交差する連続黒
画素列の長さを画素単位で決定する。画像の境界に到達
した後、個々の画素列の長さの総和を計算し、見つけた
明確な画素列の総数で総和を割算することによって、黒
画素列の平均長さを計算する。この演算を全ての線に対
して実行し、それによって、選択エッジ画素から引いた
各線に対する黒画素列の平均長さを求める。これらの長
さを図８に曲線Ａとして表示する。約０ラジアンおよび
３．１４ラジアンが最小である。曲線Ａは、エッジ画素
から引いた一連の斜線のそれぞれに対する総和／平均関
数のグラフ表現である。第１最小位置を突き止めた後、
第１最小位置から約πラジアンの位置に第２最小位置が
存在するか否かを決定することによって、最小位置（例
では、約０つまり０ラジアン）の確認を達成する。第２
最小位置（例では、約３．１４つまりπラジアン）の存
在を確認すると、大まかな粗スキュー角度が識別され
る。その後、テキストのスキュー角度をさらに綿密に決
定する必要がある。これは、無作為に選択されたエッジ
画素から引いた線の本数を利用することによって達成さ
れ、線数は増分角の減少によって変化し、角範囲は粗ス
キュー角度を中心とする。しかし、精密スキュー角度
は、所定の長さの線に沿って含まれる黒画素の総数を分
析することによって決定することができる。さらに詳し
く述べると、単位距離における画素数は図４Ｄに曲線Ｂ
として表示されており、細密スキュー角度は、曲線の最
大位置を識別することによって決定される。つまり、単
位線長当りの黒画素の密度が最大である曲線位置が、画
像のテキスト行の角度をより正確に表わす。その結果、
曲線Ｂで示すように、０ラジアンが精密スキュー角度と
いうことになり、この位置の線がその長さに沿って最も
多数の黒画素と交差し、したがって決定しなければなら
ない最も厳密な配向角度を表わす。

【００２９】別の方法として、スキュー角度はNewFin
e() 関数によって示される通り、細密角度の決定に関し
て述べた手順を何回も反復することによって決定するこ
とができる。図５、図６、および図７に示すように、反
復の場合も、所望の精度のスキュー角度に到達するまで
角度範囲をだんだん小さくしながら、その角範囲をカバ
ーする線を使用する。図５、図６、および図７によって
示される実現例では、毎回、選択したエッジ画素を中心
として一連の１８０個の角度を使用し、３回の反復によ
って所望の精度を達成した。

【００３０】次のプロセス段階では、図９および図１０
のグラフで示すように、テキストベースラインプロセッ
サ１６で、テキストの各行の特性線つまり上部のトップ
ラインと下部のベースラインを識別する。テキストベー
スプロセッサ１６によって実行されるこのプロセスの各
段階を、図１１および図１２に詳しく示す。図９の左側
に画像に沿って示すヒストグラムは、画像の分解能で行
を検査することによって導出され、先に決定したスキュ
ー角度で定義される画像のスキュー方位に平行に配向さ
れる。画像全体に及ぶこれらの平行な行は、各行ごとに
交差する黒画素の数を決定するために用いられる。テキ
ストの行間の空間を走る線に沿っては、黒画素は傍受さ
れないはずであり、テキストを貫通する行に沿っては、
多数の黒画素が傍受されるはずである。

【００３１】さらに詳しく述べると、BaseLine()関数は
まず、ブロック１４０で示す関数に渡されるスキュー角
度によって決定されるテキスト行に直交し、かつ画像の
中心を通る「主」線の座標を決定する（ブロック１４
２）。次に、ラインエンジンプロシージャ１４４を実行
し、主線に沿って一端から他端まで一連の位置で処理を
進めていくことによって、主線から外側へ一定の距離だ
け伸長する直交支線を構築する（ブロック１４６）。支
線に沿って黒の垂直エッジ画素の個数を計数し（ブロッ
ク１４８）、線と交差する黒画素数を計数し（ブロック
１５０）、両側の対の線に対する総和を取る（ブロック
１５２）。ブロック１４８で計数した黒の垂直エッジ画
素は、上隣または下隣の画素位置のどちらかに白の隣接
画素を持つ黒画素と定義される。Line Engine()procedu
re１４４は、主線に沿って全ての位置およびその対応支
線が処理されるまで、判定ブロック１５４の決定によっ
て反復される。

【００３２】その後、全ての支線の計数を分析し、黒垂
直エッジ画素対黒画素比が最も高い支線対を決定する。
一般に、最高百分率を持つこれらの線は、テキスト行を
形成する文字の上縁および下縁に沿って走る線に対応す
る。図１０の拡大図に示すように、垂直エッジ画素比の
高い支線（位置８２）と低い支線（位置８４）の間に
は、明確な違いが存在する。フィルタマスクを適用し、
マスク内の最大ピークを比較すると、テキストのトップ
ラインとベースライン（例えば線８２）を表わすこれら
の線の識別が可能になる。段階１５０のヒストグラム演
算には、別の試験を追加することもできる。この追加試
験つまりブール試験（boolean test）は、線の分析中に
黒画素の最小数が検出されたことを確認するために使用
することができる。例えば、連続して５個の黒画素が線
に沿って検出された場合はフラグをセットし、セットさ
れたフラグは各支線分析の開始時に解除する。この試験
は、垂直エッジ画素比が高いので、小さいノイズや画像
のアーチファクトがベースラインとして認識されないこ
とを保証する。

【００３３】別の方法として、支線に沿って存在する黒
画素の総数を利用して、ベースラインの位置を決定する
ことができる。支線に沿って計数される黒画素の数を表
わすヒストグラム曲線ＢＬを用いて、黒画素の交差が最
も多い支線を決定することができる。最大しきい値を適
用することにより、各テキスト行の上下の特徴的対を決
定することができる。したがって、ヒストグラム曲線Ｂ
Ｌの立上り部および立下り部はテキストの特性線を構成
し、またしきい値は特に中間に挟まれた最小値の周囲の
局所的最大値を識別するために使用され、これによっ
て、その後の処理で使用するベースライン位置の識別が
可能になる。さらに重要なことは、段階１６２で示され
るこの代替的方法を使用して、ＢＬヒストグラム曲線の
勾配に基づき、ベースライン対の上下のベースライン対
を識別することができる点である。ヒストグラム情報は
段階１５０ですでに収集されているので、識別の段階に
対応付けられる追加処理はほとんど無いことに注目する
ことが重要である。予備的特性線あるいはベースライン
対が識別された後（ブロック１６２）、確認段階（ブロ
ック１６４）を実行して、ベースライン対が、画像の全
ての線対に対する平均線対距離の計算によって設定され
る最小距離以上に離れていることを確認する。確認の
後、後で白線の追加やセグメンテーションのブロック
（２０および２２）等に使用するために、出力ブロック
１５５で有効なベースライン情報を格納する。

【００３４】これらのベースライン決定法の重要な利点
は、行間の空白位置におけるノイズや異質のマークの影
響を極めて受けにくいことである。図１３は、試料テキ
ストの画像例におけるベースライン決定の結果を示し、
ベースライン対つまりベースラインおよびトップライン
ＢｎおよびＢｎ´がそれぞれ画像上に配置され、テキス
トの主要部分が表われる画像部分を示す。文字のアセン
ダストロークの一部分はベースラインから外にはみ出し
ているが、プロセスの他の部分に対する損失は無い。い
うまでもなく、しきい値がより小さければ、システムは
アセンダストロークをもっと多く捕獲できるであろう。

【００３５】次に、図１５および図１６に関連して、図
２を再度参照しながら説明する。次のプロセスの段階
は、語群の分離段階である。フィルタ１８を画像のコピ
ーに適用すると、語を相互に区別可能なブロブ状態にし
た画像が得られる。フィルタは小ウィンドウを用いて各
領域に適用され、部分的に黒い領域が黒とみなされるよ
うになる。図１４に示すように、ブロブ化関数はまず、
マスクの大きさと角度を設定するマスク変数を初期化し
（ブロック１８０）、次に上部走査線を処理してデータ
配列を初期化する（ブロック１８２）。メジアン（中
間）フィルタリングは、画像上でマスクウィンドウを順
次移動することによって達成され（ブロック１８４およ
び１８６）、ウィンドウに表われる黒画素数がしきい値
を越える場合には、ウィンドウの配置の中心位置に当た
るターゲット画素を黒にセットする。フィルタプロセス
の例を幾つか示す図１５は、マスクウィンドウ２００を
画像の一部分の上に置いている。例えば、しきい値が２
０％で２１の画素を持つほぼ矩形のマスクを、テキスト
に対し決定されたスキューにほぼ等しい角度に配置した
場合、ウィンドウ２０６におけるフィルタリングの結果
は、画素２０４が黒にセットされる。同様に、主として
文字“ｒ”と“ｏ”の画素表現の間の文字間空間内にあ
るウィンドウ２０６は、画素２０８を黒にセットする。
一方、語群の間の領域にあるウィンドウ２１０の場合
は、画素２１２を黒にセットするのに充分な個数の黒画
素がウィンドウ内に存在していない。マスクウィンドウ
２００の大きさ、形状、および配向は、単独の語に共通
の文字間の充填（fill）を最大にしながら、テキスト行
間の充填を削減するように最適化されている。

【００３６】図１６に示すように、メジアンフィルタリ
ングの結果は、語の文字間の比較的小さい空間が一般に
重要でなくなり、黒画素で充填される。語は、単独の結
合された画素集合となる。つまり、単独の語中の文字を
完全に分離する白空間は無くなる。しかし、記号列間ま
たは語間の比較的大きい空間は、黒に変化するフィルタ
の能力の範囲外でより大きい空間となり、したがって、
隣接する記号列を相互に区分するのに役立つ。ここで、
図１３および図１６を参照すると、試料テキストの最初
の２つの語“Ａ”および“practitioner”が「ブロブ化
（このプロセスのことをこのように呼ぶ）」され、従っ
て“practitioner”の“ｐ”はもはやこの語の“ｒ”か
ら分離されていないことが分かる（図４と比較のこ
と）。また繰り返しになるが、文字のブロブ化または曖
昧化にもかかわらず、“Ａ”と“practitioner”は、そ
れぞれが結合された記号または語として相互に区別でき
る状態が維持される。

【００３７】この段階（白線追加２０）に関連して、再
び図２を参照すると、図１６のブロブ化された画像に一
連の白画素線を重ねることによって、テキストの行が隣
接する行から分離した状態で維持されることが保証され
る（つまり、フィルタ後のテキスト行が重なり合わな
い）。図１６および図１７を参照し、円で囲んだ領域２
５８および２５８´に注目すると、アセンダとディセン
ダの組み合わせが、２つの語の行間併合を生じている。
図１６の領域２５８に示すテキスト行の重なり合いこ
そ、まさしくブロブ化あるいはフィルタリング後の画像
に白線を重ねることによって除去されるものである。

【００３８】図１７に示すような結果が得られるこの白
線を重ねる作業は、図１８に示すプロセスによって実行
される。一般に、白線ＷＬは、テキスト行と重なってブ
ロブ化を生じないように、画像の隣接するベースライン
とトップラインの対の間の空間の約半分に付加される。
再び繰り返すが、図１７は、図１６のブロブ化した画像
に白線を追加した結果を示している。

【００３９】次に、図１８について説明する。白線追加
ブロック２０は、段階２８０の変数を初期化することに
よって始まり、その後、第１テキスト行のベースライン
情報からトップラインの位置を読み出す。トップライン
情報は廃棄され（ブロック２８２）、次のベースライン
とトップラインの位置が記憶装置またはリストから引き
出される（ブロック２８４および２８６）。画像ではこ
のベースライン−トップライン対はそれぞれ、隣接する
テキスト行の底部と頂部を表わす。次に段階２８８でこ
の対の中心にある位置を突き止め、画像の中心から外側
の方向へ引く白線の始点とする。白線の終点は段階２９
０で、図２のスキュー検出器１４によって決定されたス
キュー角度を用いて計算する。段階２９２で、ブロブ化
した画像に白線を重ねて引く。テストブロック２９４の
制御により全てのテキスト行が効果的に分離するまで、
このプロセスが続けられる。

【００４０】再び図２を参照すると、ブロブ化またはメ
ジアンフィルタリングの結果、ブルブ化の段階で各結合
画素集合の周囲に形成された境界ボックスの位置を決定
することができる。境界ボックスは、テキスト行にある
語の追加白線の間に位置する結合された構成部分の周囲
にのみ配置される。境界ボックスは、画像の座標系では
なく、テキスト行の方向およびテキスト行の直交方向の
各結合画素群の端点を識別することによって、テキスト
行の方向に配置される。一般にFindBorders 関数は、画
像内の全ての画素を対象として連続的に実行され、結合
文字の境界ボックス（Paint Component ）を見つけ、各
ボックスの左上角の座標およびボックスの幅を決定す
る。

【００４１】次に、FindBorders() 手続きを詳細に示し
た図１９および図２０について説明する。セグメンテー
ション段階２２は、フィルタリング後の画像の周囲に完
全に白境界を配置する（段階３００）ことによって始ま
る。これは、画像の画素の配列がエッジより外にはみ出
るのを回避するために行われる。次に、画素と線の計数
ｘおよびｙはそれぞれ、境界内の最初の画素位置に初期
化される。ReadPixel手続きが呼ばれ（ブロック３０
６）、画素の色（黒または白）を返し、ブロック３０６
で試験する。画素が白ならば、それ以上の処理は不要で
あり、ブロック３２２から処理が続く。そうでなけれ
ば、PaintComponent()手続きが呼ばれ、待ち行列の黒画
素の位置を格納することから処理が始まる（ブロック３
０８）。次に、画像のコピーで、画素が白にセットさ
れ、結合した画素または構成要素の周囲を囲むボックス
の境界が更新される（ブロック３１０および３１２）。
次に、隣接する黒画素が白にセットされ（ブロック３１
４）、黒画素の位置が待ち行列の最後に付加される（ブ
ロック３１６）。ブロック３１８で、待ち行列のポイン
タをテストして、待ち行列が空か否かを決定する。空で
なければ、待ち行列の次の画素が検索され（ブロック３
２０）、ブロック３１２から処理が続く。待ち行列が空
ならば、結合された黒画素は全て白にセットされ、ボッ
クスの境界は、結合された構成要素の周囲を囲むボック
スを反映する。次に、語セグメントを取り囲むボックス
の境界が確認され、テキスト行のスキューに関連して配
向された直交座標系に調整される（ブロック３２２）。

【００４２】ループ化プロセスはブロック３２４から続
き、ここで画素計数ｘを検査して、走査線の終りに達し
たか否かを決定し、ブロック３２６で計数を増分した
後、ブロック３０４のプロセスに続く。走査線の終りに
達すると、画素計数ｘはリセットされ、走査線計数ｙは
ブロック３２８で増分される。次にブロック３３０で走
査線計数ｙの値を検査し、画像全体が処理されたか否か
を決定する。全部処理されたならば、処理は完了する。
そうでなければ、処理はブロック３０４で次の走査線の
最初の画素に続く。

【００４３】こうして、語“practitioner”について、
図２１に示すように、連続した文字画像の端が境界ボッ
クスを定義する。境界ボックスが設定されると、この段
階でその後の処理からノイズマークを除去することがで
きる。ノイズマークが識別されるのは、次のような場合
である。１）境界ボックスの角部が画像画素の配列より
外にある場合。２）ボックスが配列内の複数のテキスト
行をまたぐ場合、または完全にテキスト行の外に出てい
る場合。３）ボックスが基準εに比べて、横または縦の
方向に小さすぎるために、廃棄された場合。ノイズマー
ク７０および７２等は、語とはみなされない。

【００４４】再び図２を参照する。今や隣接する語から
分離された語の画像または少なくともその一部分を表わ
す信号が、語形状コンピュータ２４から導出される。導
出された信号を語形状輪郭と呼ぶ。各語の形状輪郭は、
MakeShell() 関数を用いて決定される。図２２（Ａ）に
示すように、この関数は最初、ボックスの頂部に沿った
各画素位置から頁の方位に対して下向きに、黒画素また
はボックスの底部に達するまで走査しながら、各境界ボ
ックスの頂部に沿って移動する。ボックスの頂部と黒画
素またはボックス底部との間の距離ｄの集合の記録が維
持される。ボックスの長さ全体に対し累積される距離ｄ
の集合は、語形の頂部の生輪郭で構成される。その後、
図２２（Ａ）と同じ語に対し、図２２（Ｂ）に示すよう
に同様の方法で、ボックスの底部に沿って順次移動し、
最初の黒画素または境界ボックスの頂部に達するまで上
向きに走査することによって、底部の生輪郭が生成され
る。ほとんどの部分がその輪郭だけで文章内の語を比較
的容易に認識できる、図２３の情報の内容に留意するこ
とが重要である。

【００４５】次に、図２４について説明する。ブロック
１００では、フィルタリング後の画像を使用できないわ
けではないが、これではなく、実際の画像に実行するこ
とが望ましく、この段階で各語を貫通する１つ以上の基
準線が設定される。１つの実施例では、語を貫通して走
る有限の厚さまたは厚さがゼロのブラックアウトバーを
構築し、できればエックスハイトの約３分の２の位置に
上限または基準線を持ち、エックスハイトの約３分の１
の位置に下限を持つことが望ましい。輪郭線の計算１０
２では、上部または下部の境界ボックスから語まで、ま
たは近い方の基準線までの距離ｄに対し、１組の測定値
が導出される。計算は画像の分解能で実施される。この
計算を図で説明する図２５（Ａ）を参照すると、基準線
を使用することによって、最終的にこの段階から導出さ
れる信号が、語の長さ全体における全てのサンプリング
位置で定義できるようになることが分かる。好適実施例
では、計算値は実際に先に収集した輪郭データから生成
し、図に示すように上限または下限のブラックアウトバ
ーにより距離ｄを制限するように調整する。図示した実
施例では、必ずしも必要なわけではないが、境界ボック
スの上部線から上部基準線までの測定を行う。こうし
て、例えば、基準線から上部境界線または下部境界線ま
たは文字までの測定を交互に行うことができる。図２５
（Ｂ）は測定値の集合を用いてブロック１０４から信号
出力を形成する方法をよく示している。輪郭線は、基準
線に対する距離ｄとして表現される。基準線に対する距
離を計算することにより、共通のエックスハイトに対す
る語形状の輪郭線のスケーリングが可能になり、これに
よって、その後の形状の比較が容易になる。図２５
（Ｃ）および図２５（Ｄ）は、ｄ´値の集合をグラフに
描画して、１次元の信号を形成できることを示す。

【００４６】英語の語の外形によって伝達される情報の
研究では、大半の場合に、語はそのイメージの上部のほ
ぼ３分の１を見るだけで識別できることが分かってい
る。つまり、語の識別に必要な情報の多くは、語の上部
に含まれる。それ以外の場合でも、語のイメージの上部
３分の１だけでは識別できない語のほとんどは、語の下
部３分の１の情報を識別作業に含めることによって、識
別可能となる。比較的小さい分類の語を識別できるよう
にするには、語の真中の３分の１に関する情報が必要で
ある。このように段階的なプロセスを使用し、必要に応
じて優先順位付きの語形検査において、最初に上部の語
形信号または輪郭線を導出し、次に下部の語形信号また
は輪郭線を導出し、３番目に語形状信号中心輪郭線（基
準線から語または境界ボックスまで）を導出する。図２
５（Ａ）、図２５（Ｂ）、および図２５（Ｃ）の例で
は、語“from”をその上部だけでかなり一意に識別可能
である。図２６（Ａ）、図２６（Ｂ）、図２６（Ｃ）、
および図２６（Ｄ）の場合、語“red ”は語“rod ”や
語“rad ”などと混同しやすいので、その上部だけで一
意に識別することは少し難しい。文字“ａ”の下部で
“red ”と“rad ”を区別できるが、文字“ｏ”で語
“red ”と“rod ”を区別できるかどうかは疑わしい。
しかし、“red ”、“rad ”、および“rod ”の中心部
分は相互に全く異なる。

【００４７】再び図２を参照する。次に実行する段階
は、語形状比較器２６における比較である。１つの実施
例における比較は実際には幾つかの小段階から成り、以
下にそれぞれの小段階について説明する。図２７に関連
して、一般に、１つは既知の語、もう１つは未知の文字
列という２つの語形状信号を比較し、両者が相似してい
るか否かを調べる。しかし、この場合、信号Ｒは語“re
d ”の上部輪郭線であり、信号Ｆは語“from”の下部輪
郭線である。実際には、文字フォント、再生法、および
スキャナ入力画像の品質の間に違いがあるが一般的であ
るので、全く同一となることが期待される信号は比較的
少ない。しかし、比較される語形状信号はスケーリング
によって、エックスハイトが同一となるように調整する
ことができる。これは、比較される１対の語形状の輪郭
線のエックスハイトを決定することによって達成され
る。これが決定された後、エックスハイトの比を用い
て、一方の輪郭線に適用すべき倍率が決定される。エッ
クスハイトはフォントの特性的測定値であるので、水平
方向および垂直方向の両方の倍率を決定するのに用いら
れる。また、別の方法として、正規化を行うことなく形
状信号を比較し、長さの不均等による差が測定された部
分に、重み付けを課す。また、信号の振幅または高さを
正規化して、語の形状の比較に対するフォントサイズの
影響をさらに減少する。

【００４８】次に、図２８（Ａ）ないし図２８（Ｃ）に
ついて説明する。これらはアセンダ／ディセンダの正規
化演算を詳細に示しており、それぞれの形状信号は、テ
キスト文字のアセンダおよびディセンダの高さとエック
スハイトの間の一般的関係に基づいて正規化される。図
に示すように、相似したフォントサイズのつもりで印刷
した文字でも、あるいは現在適切にスケーリングしたフ
ォントサイズであっても、実際のアセンダの高さはわず
かに異なることがある。これは、タイプフェースやフォ
ントのボディの大きさに差があるために生じるのであ
り、フォントのサイズが同一の、例えば２４ポイントの
相似した文字でも、フォントの高さが異なることを暗に
示す。図２８（Ａ）の距離ｄ１は、２種類の文字“ｈ”
のアセンダの高さの差を示す。同様に、図２８（Ｂ）の
距離ｄ2 は、文字“ｆ”の高さにおける同様の差を示
す。図２８（Ｃ）に示すように、一般的な文字はアセン
ダ部３９０、エックスハイト部３９２、およびディセン
ダ部３９４の３つの部分に分割することができる。ま
た、これらの部分の相対的高さをそれぞれａ、ｃ、およ
びｂで示す。前記の演算を適用し、エックスハイトより
上に来る輪郭線の部分を次のようにスケーリングする。

【数１】

【００４９】同様に、ディセンダは次式によってスケー
リングする。

【数２】ただし、どちらの場合も、分子の値（１．５）は、アセ
ンダまたはディセンダの高さとエックスハイトの関係の
観察結果に基づいて到達した値である。また、StoreOut
linePair()関数には、テキスト文字列の部分を表わして
いない輪郭線の部分を除去する演算も含まれている。こ
のような部分は、図２１に示す境界ボックスの端部にあ
る。例えば、図２１で語“practioner”を取り囲むボッ
クスは、実際の語の画像を越える部分に伸長しているこ
とが分かる。さらに、図２５（Ａ）ないし図２５（Ｄ）
で語“from”の端部に示すように、この部分の輪郭線は
有用な情報を含んでいない。これらの部分を輪郭形状か
ら除去することによって、比較演算に導入される誤りが
少なくなる。

【００５０】正規化演算の後は、標準信号処理段階によ
り、比較される２つの信号の相似性または非相似性を決
定することができる。または別の方法として、次の方程
式を使用することもできる。

【数３】ここで、Δstringは、２つの信号間の差分値、ｆ（ｘ）は既知の信号、ｇ´（ｘ）は未知の信号である。簡単な計算により差分を検討することができ、
それがゼロに近ければ、２つの信号の間にほとんど差が
ないということになる。しかし、差分の量が大きいほ
ど、その語と比較対照の語とが同一でない可能性が高く
なる。

【００５１】ここに記述する実施例は、各語の上下の輪
郭線を相互に連結して利用して、語の形状輪郭を比較す
るという点に注目することが重要である。これは実現を
特徴付ける決定であり、本発明を上下の輪郭線を相互に
連結して使用することにのみ限定する意図はない。実
際、上部輪郭線だけの中に充分な情報が含まれることも
あるので、下部輪郭線の比較の必要性がかなり軽減さ
れ、それによってかなりの処理作業が削減される。

【００５２】この単純化された比較方法の段階の第１考
案例を、図２９に示す。まず段階４１０で、第１語形状
の輪郭を記憶装置から検索し、その後、第２語形状の輪
郭を段階４１２で検索する。次に、上下の輪郭によって
定義される語形状の重心を決定し、その位置を合わせる
（段階４１４）。この段階の目的は、語の輪郭の中心を
整列することによって、比較される２組の輪郭相互間の
相対的ずれの原因となるだけである輪郭の差分を減少す
ることである。重心は、曲線より下の面積（質量）と輪
郭間の距離（モーメント）を合計し、次にこれを割算し
て上下の輪郭対の重心の標識を求める。両組の輪郭対の
重心を計算した後に、輪郭対の間の相対的ずれを計算し
（段階４１６）、輪郭相互の差分を計算する前に輪郭線
の位置をずらす。輪郭線の位置ずらしは、図２のブロッ
ク２４における語形状境界の設定および語形状の計算に
伴う誤差を軽減するために必要である。段階４１８は、
位置をずらした輪郭対の重複範囲からはみ出る部分を取
り扱い、非重複部分のゼロ振幅信号に対する差を計算す
る。これは、輪郭線の非重複端における上下輪郭の平方
値を合計することによって達成される。次に、輪郭の重
複部分を比較する（段階４２０）。この部分の差を、上
部曲線と下部曲線の間の差の二乗の和として計算する。
次に、段階４１８と段階４２０から返された値を合計し
て、位置をずらした輪郭によって定義される範囲全体に
おける差の総和を求める。その後、この値は、比較され
る２つの語形の輪郭対相互間の相似性の相対的標識とし
て使用することができる。

【００５３】重心比較法とは別の方法として、タイムワ
ーピングとして知られる信号処理関数を利用する方法が
ある。これについては、「音響、スピーチ、および信号
処理に関するＩＥＥ会報」（１９８０年１２月、第ＡＳ
ＳＰ−２８巻６号）に掲載されたマイヤーズ、ラビナ
ー、およびローゼンバーグによる論文「単離語認識のた
めの動的タイムワーピングアルゴリズムにおける性能の
妥協」（"Performance Tradeoffs in Dynamic Time War
ping Algorithms for isolated Word Recognition" by
Myers, Rabiner, and Rosenberg, IEEE Transactions o
n Acoustics, Speech, and Signal Processing, Vol. A
SSP-28, No. 6, December 1980）、ならびにサンコフお
よびクルスカルの著書「タイムワープと文字列編集と高
分子：順序比較の理論と実際」の１章と４章（"Time Wa
rps, String Edits, and Macromolecules: The theory
and Practice of Sequence Comparison" by Sankoff an
d Kruskal, ADDISON-Wesley Publishing Company, In
c., Reading, Massachusetts,1983, Chapters 1 and
4）に説明されている。この方法を用いて、最良の整合
が得られるまで輪郭に沿って点の伸縮を行うことができ
る。次に、比較される輪郭間の差の量および輪郭の整合
を行うために必要な伸縮に基づいて、スコアを導出す
る。ここでもまた、このスコアが、比較される２つの信
号間の整合の相対的標識となる。

【００５４】次に、図３０について説明する。これは、
ダイナミックワーピング法の一般的段階を示している。
この方法は、差分配列またはマトリックスを使用して、
第１輪郭の各点と比較対照の輪郭の点との距離を記録す
る。図で分かるように、このプロセスは、比較に適用す
ることのできる全ての手段に類似している。

【００５５】第１に、データ構造を利用して様々な比較
関数の演算を動的に制御するように、符号の編成を行な
う。データ構造は、輪郭に適用される方法を定義する変
数、および比較を制御するために使用されるその他の要
素を含む。これらの要素として、比較前の輪郭線長の正
規化、上部輪郭および下部輪郭の分離比較、ワープパス
を指示するcenterWeight係数、ワープパスを抑制する帯
域幅、下部輪郭の比較に関連して上部輪郭の比較への多
少の重み付けを可能にするtopToBottom 比、および既知
またはモデル語形状に対して未知の輪郭を比較する場合
に輪郭の差分への重み付けを選択的に制御するhillToVa
lley比などがある。

【００５６】一般に、各方法は比較技術を実現するが、
例えば１以外のcenterweightおよび１より高いtopToBot
tom 重みを持つ勾配有限動的ワープなど、それぞれが特
定の種類の動的比較に最適化されている。第１レベルの
選択により、勾配制限付きワープ関数を比較、非制約ワ
ープ比較、または単純な非ワープ比較に使用することが
可能になる。両方のワープ比較法に、分離比較関数と並
列比較関数の両方が含まれる。前者では上部輪郭と下部
輪郭がそれぞれ個別にワープされ、後者の場合、ワープ
が上部輪郭と下部輪郭に同時に適用される。

【００５７】一般的な実施例では、動的ワーピングプロ
セスは、パス／距離配列の空間を割り当てることから始
まる（段階４５０）。この配列は、１つの語形状輪郭に
対する別の語形状輪郭の比較およびワープ動作中に生成
される距離値を保持する。全てのワープ法で使用される
プロセスは、輪郭間の累積差を計算するために、以前に
配列に格納されたデータを使用する反復プロセスである
ので、空間の割当後に、配列の境界部を初期化しなけれ
ばならない。段階４５２で、配列境界を初期化する。配
列の第１列の初期化は、第１輪郭の第１点と第２輪郭の
各点の間の差の二乗を計算を必然的に伴う。境界初期化
の後、行および列の指標値Ｌ１およびＬ２がそれぞれ１
にリセットされ、輪郭に沿って個々の非境界点の処理が
開始される。

【００５８】輪郭の処理は段階４５８から段階４６４ま
で続き、ここで第１輪郭の１点に対する第２輪郭に沿っ
た各点間の距離の差分が計算される。さらに、この差分
または距離が計算された後、以前に計算された差分値と
合計される。さらに、以前に計算された差分値の幾つか
に対する重み付けを変更することができる。例えば１つ
の実施例で、配列の対角線に沿った差分値の重みを、ce
nterWeight重み係数によって変更することができる。説
明として、距離（残余）は、上部輪郭と部下輪郭におけ
る第１輪郭の１点と第２輪郭の１点の間の差分の二乗値
の総和として計算され、最高輪郭差分値はtopToBottom
変数によって重み付けされる。この距離（残余）はその
後、１０３頁の線１３７から始まるループで反復法によ
り垂直、水平、および対角差分値を決定するために使用
することができる。これらの各値を計算するために、残
余で表現される現在の距離値を、下、左、および左下の
配列位置の前の値に加算する。左下位置値は、先に述べ
たように、centerWeight係数によって重み付けられる対
角位置である。次に、図３１（Ａ）について説明する。
これは、位置５０２の以前の計算値Ｘとその後の配列位
置との位置関係を示している。配列位置５０４の差分値
を計算するときは、下の値として位置５０２の値を使用
する。同様に、位置５０６の値を計算するときは、中心
重みを付けた左下または対角の値として位置５０２の値
を使用する。３つの差分値を計算した後（段階４５８、
４６０、および４６２）、３つの値の最小値を選択し
（段階４６４）、現在の配列位置に挿入する（段階４６
６）ことによって、プロセスが続行する。

【００５９】その後、Ｌ１で表現される第１輪郭上の点
から、Ｌ２で表現される第２輪郭上の点までの差分を計
算することによって、図３０に示すプロセスが続行す
る。判定段階４６８は、輪郭の端かどうか、つまり刈り
幅（swath ）を検査することによって、第２輪郭に沿っ
た点の反復処理を制御する。指標変数ｉおよびｊは、差
分計算ループを制御するために、Ｌ１およびＬ２の代わ
りに使用される。刈り幅は帯域幅と呼ばれ、輪郭線長に
よって定義される勾配が得られるように調整される所望
の帯域幅によって決定される。限界に達していなけれ
ば、段階４７０でＬ２の値が増分された後、段階４５８
で次の点の処理が続行される。同様に、判定段階４７２
は増分段階４７４と共に、第１輪郭に沿った各点の処理
を制御する。全ての点の相互に対する処理が終了したこ
とが、段階４７２の肯定応答によって確認されると、相
対的差分の最良のスコアが、配列（Ｌ１，Ｌ２）の最も
遠い対角位置に含まれる。その後、段階４７６で決定さ
れた値が、比較された輪郭間の動的ワープ差分の指標と
して返される。

【００６０】さらに別の実施例では、前記の動的タイム
ワーピングプロセスを変化することによって、差分配列
に含まれる差分値を定期的にしきい値と比較することが
できる。比較後、比較される輪郭が他の輪郭と整合しな
いと判断するのに充分な差分が存在すると判定されたと
きに、プロセスは中断し、貴重な処理時間を節約するこ
とができる。さらに、語形状比較器２６の順序作動は、
語形状コンピュータ２４の順序出力と協働して実行する
ことができ、これによって、キーワードのサーチを実行
しながら、テキスト画像の並列処理を行うことが可能に
なる。

【００６１】動的ワーピング比較方法の基本的実現につ
いて説明してきたが、ここで、本発明の多くの可能な実
施例を説明するために、前記の制御要素の適用に含まれ
るその他の動的ワープ比較法の特徴を簡単に説明する。
まず、前記の方法は、ワープパスが配列を横切って移動
するときに、ワープパスの勾配を抑制した状態で実現す
ることもできる。この方法を、図３１（Ａ）で図によっ
てさらに詳しく説明する。ここで配列位置５１２の値Ｘ
は、図に示すその後の３つの配列位置にしか加算するこ
とができない。例えば、Ｘは配列位置５１４に加算する
ことができ、位置５１４の値はｄ２ｌ１とみなされる。
変数名に使用され、図で適用されている命名法は次の通
りである。ｄ２ｌ１とは、現在の配列位置を起点にし
て、２列下で１行左の配列位置を指し、ｄ１ｌ１とは左
斜め下の配列位置を指し、ｄ１ｌ２とは１行下で２列左
の配列位置を指す。同様の方法で、Ｘは配列位置５１６
の累積差分値の計算のために、ｄ１ｌ２値として加算す
ることができる。

【００６２】図３１（Ａ）と図３１（Ｂ）の比較から明
白であるように、勾配抑制ワープ法は、累積差分値の生
成時に追跡できるワープパスが制限される。このような
制約を実現する理由は、ワーピングプロセスで比較され
る２つの輪郭の一方の大部分が除去されたり圧縮される
のを、そうした圧縮にかなりの「負担」を掛けることな
く、防止するためである。

【００６３】次に、並列ワーピングプロセスに関連して
先に説明した方法もまた、１対だけの輪郭、例えば２つ
の語形状の上部輪郭に同時に実現することができる。一
般に、これらの方法は１対の語形状の上下輪郭の間の差
分を別個に計算する。コードに示されるこの方法の一般
的な実現は、これらの方法が一般的に、最初は上部輪郭
のワープ差分を計算し、次にそれを下部輪郭の比較から
得たワープ差分に加算し、その結果語形の差分合計が得
られるというやり方で、順次使用されることを示してい
る。

【００６４】前記の比較法を「それぞれの部分ごと」の
カスケード方式で実行することによって、さらに別の処
理上の利点を得ることもできる。さらに詳しく説明する
と、カスケード方式による比較は、まず、比較される語
の上部輪郭を利用して語を識別するか、少なくとも考え
られる別の語の集合を狭めておき、次に、下部輪郭の比
較により完全な識別を行なうことが必要がある。このよ
うな方法による語形状比較演算２６は、図２に示すよう
に、既知の語形状の辞書２８との対比によって未知の語
形を識別するのに要する処理時間がかなり節約される。
カスケード方式の比較で重要なことは、輪郭に適用され
る上部および下部のワープを比較的等価的にしなければ
ならないという制限である。この要求事項は、上部と下
部の曲線が共通の語に対して関係を持つということに起
因しており、この関係がワープ分析中に維持されなけれ
ば、比較の精度が低下する。

【００６５】また別の実施例として、前記の動的ワープ
技術は、最良の整合を達成するために上下曲線に適用さ
れる相対的ワープを累積するのに適した関数を付加して
使用することができる。例えば、既知の非イタリック体
の語形状を未知の語形状と比較する場合、下部曲線に相
対して上部曲線に適用されるワープのずれは、語がイタ
リック体であることを示す可能性がある、ワープ部分の
長さは上部と下部のワープで同一のままである。重要語
は強調のためにしばしばイタリック体で表記されるの
で、このような技術は、比較的長いテキスト本文におけ
る重要語の識別に有用であることを証明するかもしれな
い。

【００６６】これまでに述べなかった制御要素の１つ
に、bandWidth （バンド幅）係数がある。bandWidth 係
数を実現すると、これはワープ信号が制約を受ける信号
帯域の相対幅を制御する。さらに詳しく説明すると、帯
域幅の制限は、配列を横切るワープパスが制約されてい
る配列の対角線周辺部を定義することによって実現され
る。制限は、パスが制限を越えることがほとんど起こら
ないように、帯域幅外の領域に大きい値を割り当てるこ
とによって実現される。

【００６７】先に簡単に述べた別の要素は、topToBotto
m 係数である。これが適用された場合、この変数の値
は、上部輪郭ワーピングプロセスに対し計算された差分
値に重みを課すために使用される。したがって、１より
大きい値を使用すると、上部輪郭の差分が下部輪郭の差
分より大きく重み付けられる。非常に大きい数字を使用
すると、下部輪郭の差分は完全に有効に除去され、同様
に、値がゼロの場合は、上部輪郭の差分が完全に除去さ
れる。上部輪郭は一般に語に関する情報を下部輪郭より
多く含んでいるので、この係数は一般に、上部輪郭にそ
の情報内容に比例する重みを付けることができるため
に、重要と考えられる。

【００６８】hillToValley比は通常、既知またはモデル
の語形状輪郭の組を未知の画像からの取った語形状輪郭
の組に対して比較する状況で適用される。このオプショ
ンの実行時に、モデル組の輪郭は比較手段関数として渡
される。輪郭線上の点間の差分を決定するときに、この
比較関数は差分の二乗の総和を計算する。SquareDiffer
ence()比較関数は、モデル輪郭の値が比較対照の輪郭よ
り小さいと決定されたときに必ず、hillToValley比を差
分の二乗に適用させる。hillToValleyを１より大きくす
ると、モデル輪郭が目標輪郭より小さい場合の差分の相
対的「負担」が、モデル輪郭が目標輪郭より大きい場合
の差より小さくなる。このタイプの重み付けの基礎は、
モデル輪郭を比較対照とする場合に、スキャンニングま
たは同様のディジタル化作業中に「充填」される目標輪
郭の部分の重みを、モデル輪郭より低い輪郭位置で明示
される、充填されそうにない部分の重みより小さくし
て、比較処理を行わなければならないということであ
る。例えば、アセンダとディセンダが文字のボディと結
合する部分は、スキャンニング中に充填される傾向が高
く、これによって、目標輪郭がこれらの部分でなだらか
な輪郭となる。一方モデル輪郭はこれらの部分にはっき
りした凹凸を持つ傾向が強いようである。したがって、
モデルの輪郭値は、たとえ文字が同じであっても、目標
の輪郭値より低くなる。したがって、hillToValley変数
は、これらの部分に対する差分計算値への影響を最小に
する。

【００６９】前記の方法および制御要素により、比較方
法を様々なやり方で実行することが可能になる点に注目
することが重要である。しかし、これらの方法で得られ
る柔軟性は、比較プロセスの適用可能性を向上するの
で、特定の語形状輪郭、例えばコンピュータ生成された
文字フォントによって得たモデル輪郭に関する情報が分
かっている場合、その情報を利用することによって、比
較はさらに確実なものになる。

【００７０】語形状の導出プロセスの数学的説明は、語
形状信号を導出する別の方法が存在することを示唆して
いる。幾つかの可能な代替方法として、代替座標系、例
えば極座標を用いて１次元信号を設定することが考えら
れる。別の可能性として、信号ｇ（ｔ）の生成がある。
ここで、ｇ（ｔ）は各輪郭点からその次の輪郭点の方向
を表わし、ｔは点番号を表わす。

【００７１】本発明を好適実施例つまりソフトウェア実
現に関連して説明してきたが、本発明は、専用ハードウ
ェアを利用して実現することもできる。さらに、本発明
をテキスト画像に関連して説明してきたが、本発明は、
非テキスト画像部分をも含む画像にも適用することがで
きる。図面を参照しながら本書を読み、理解すれば、他
の者が実施例を変化させることが容易であることは明ら
かである。実施例は１つの例であるが、当業者は請求の
範囲に含まれる開示内容から様々な別の態様や変化例や
改良を実現することができる。

【図面の簡単な説明】

【図１】本発明を利用する画像処理システムの一般的系
統図である。

【図２】本発明の語形状認識システムの実施例を構成す
るシステムコンポーネントの配列のブロック系統図であ
る。

【図３】本発明のプロセスを実証するテキスト例の画像
試料である。

【図４】図３のテキスト例の走査画像のコピーである。

【図５】後の処理を進める前に、テキスト例の画像試料
における配向角度を決定するために用いるプロセスを図
形的に示す。

【図６】後の処理を進める前に、テキスト例の画像試料
における配向角度を決定するために用いるプロセスを図
形的に示す。

【図７】後の処理を進める前に、テキスト例の画像試料
における配向角度を決定するために用いるプロセスを図
形的に示す。

【図８】テキスト例から得た応答のグラフである。これ
は、その後の処理を進める前に、テキスト例の画像処理
における配向角度を決定するために使用する。

【図９】テキスト例の試料画像を検討して、画像におけ
るテキストのベースラインを決定するためのグラフの導
出を示す。

【図１０】テキスト例の試料画像を検討して、画像にお
けるテキストのベースラインを決定するためのグラフの
利用を示す。

【図１１】図９に示すベースラインを決定するために実
行される手続きを示す流れ図である。

【図１２】図９に示すベースラインを決定するために実
行される手続きを示す流れ図である。

【図１３】図９および図１０で示すデータからベースラ
インを導出した後、ベースラインを表示したテキスト例
の走査画像を示す。

【図１４】メジアンフィルタを図３の画像に適用すると
きに用いられる段階を示す流れ図である。

【図１５】メジアンフィルタの適用を説明する、図３の
画像の一部分の拡大画像表現である。

【図１６】ここでblobifyingとして知られるプロセスで
あるメジアンフィルタをテキスト例の走査画像に適用し
た結果得られる画像を示し、文字列が単独の接続した画
素の集合として提示される。

【図１７】プロセスにおける次の段階で、ぼやけた画像
に白画素の線が追加され、文字列の行が隣接文字列行か
ら明確に分離された状態を示す。

【図１８】図１７の白線を追加するために必要な段階を
示す流れ図である。

【図１９】図１６の不鮮明画像による画像データをセグ
メント化するために行なわれる手順を示すフローチャー
トである。

【図２０】図１６の不鮮明画像による画像データをセグ
メント化するために行なわれる手順を示すフローチャー
トである。

【図２１】バウンディングボックスが各文字列を含む画
像画素の部分集合をただ一つ識別するように各単語群の
周囲に配置された例文テキストを示す。

【図２２】（Ａ）及び（Ｂ）は例文テキストのサンプル
画像中に現れる例文単語「ｆｒｏｍ」を用いて単独独立
数信号の導出を図示する。

【図２３】図２２に図示された導出工程により形成され
る輪郭の結果を図示する。

【図２４】語形状信号の導出に関連する各段階を示す。

【図２５】（Ａ）、（Ｂ）、（Ｃ）及び（Ｄ）は、例文
単語「ｆｒｏｍ」を用いて単一独立数信号の導出を示
す。

【図２６】（Ａ）、（Ｂ）、（Ｃ）及び（Ｄ）は、例文
テキストのサンプル画像中に現れない例文単語「ｒｅ
ｄ」を用いて単一独立変数信号の導出を示す。

【図２７】信号正規化法を用いて単語「ｒｅｄ」および
「ｆｒｏｍ」に対して導出された信号の単純な比較を示
す。

【図２８】（Ａ）、（Ｂ）及び（Ｃ）は、フォント高さ
における矛盾を詳細に図示し、さらにこのような矛盾の
正規化方法を図示したものである。

【図２９】単語形状輪郭の間の相対差を確定する一方法
に対して用いられる段階を詳細に示すフローチャートで
ある。

【図３０】単語形状輪郭の間の相対差を確定する第二方
法の段階を詳細に示すフローチャートである。

【図３１】（Ａ）及び（Ｂ）は非勾配条件付き比較およ
び勾配条件付き比較の両方に対して計算されるとともに
一配列に格納される相対差値間の関係図である。

【符号の説明】

２ソース画像導出システム４コンピュータ処理装置６ユーザインターフェース８出力装置１０入力画像１４スキュー検出器１６テキスト底線プロセッサ１８中央フィルタ２４語形状信号コンピュータ２６語形状コンパレータ

Claims

【特許請求の範囲】

【請求項１】画像を定義するデータ内の記号列を認識
する方法であって、ａ）画像信号の集合としてのテキストまたは文字列画像
集合から離散記号列としての単語をひとかたまりの図形
パターンとして切り出すステップと、ｂ）切り出した単語単位の図形パターンの輪郭を１次信
号として特徴抽出するステップと、ｃ）第２の記号列の表現信号としての辞書パターンと照
合することにより単語単位の認識が行なわれるステップ
と、を含む、記号列の認識方法。