JP2003157409A - 複数の記号ストリングの等価性を判定する方法 - Google Patents

複数の記号ストリングの等価性を判定する方法

Info

Publication number
JP2003157409A
JP2003157409A JP2002289491A JP2002289491A JP2003157409A JP 2003157409 A JP2003157409 A JP 2003157409A JP 2002289491 A JP2002289491 A JP 2002289491A JP 2002289491 A JP2002289491 A JP 2002289491A JP 2003157409 A JP2003157409 A JP 2003157409A
Authority
JP
Japan
Prior art keywords
word
image
contour
symbol
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002289491A
Other languages
English (en)
Other versions
JP3453134B2 (ja
Inventor
Daniel P Huttenlocher
ピー.ハッテンロッカー ダニエル
Michael J Hopcroft
ジェイ.ホプクロフト マイケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2003157409A publication Critical patent/JP2003157409A/ja
Application granted granted Critical
Publication of JP3453134B2 publication Critical patent/JP3453134B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/754Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries involving a deformation of the sample pattern or of the reference pattern; Elastic matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 単語およびテキスト列の基本特性を利用する
と同時に、OCR方法に固有の問題を解消する。 【解決手段】 画像データの配列における2またはそれ
以上の文字列の間の相対的同値または一致を確定する方
法であって、ページ方向を決め、隣接する文字列から文
字列を分離させ、文字列を中心とした一組の境界線また
は基準線を設ける。さらに、境界線は文字列を表すた
め、境界線内の画像データから生成される単語形状輪郭
または信号として用いられる。単語形状輪郭は前記比較
法の一つを用いて比較され、輪郭の相対的同値または相
似を確定する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、画像データの配列にお
いて形状で表されたテキストまたは文字列を、前記列を
構成する文字または複数の文字を個々に検出及び/また
は確認する必要なしに認識する方法に関する。
【0002】
【従来の技術および発明が解決しようとする課題】電子
的に符号化されたドキュメント(電子ドキュメント)の
テキストは、互いに異なる2つのフォーマットのいずれ
かであることが多い。第一のフォーマットでは、テキス
トはビットマップフォーマットであり、この場合、テキ
ストは画像データまたは画素の配列によってのみ定義さ
れ、本質的に同様に表された隣接する画像との区別はで
きない。このフォーマットでは、通常、本文の内容にの
み基づくコンピュータ処理にかけることはできない。以
下、文字コードフォーマットと呼ばれる第二のフォーマ
ットでは、テキストが文字コード列(例、アスキーコー
ド)として表される。文字コードフォーマットでは、テ
キストの画像またはビットマップは利用できない。
【0003】光学文字認識(OCR)処理を利用したビ
ットマップから文字コードフォーマットへの変換では、
膨大な時間および処理労力が必要となる。文字の各ビッ
トマップはその近隣のものや解析されたその外観から区
別しなければならず、さらに決定工程において、所定の
集合の文字における個別の文字として識別される必要が
ある。これに関する関連技術として、例えば、文字画像
を一周するデータを読み取る方法(例えば、特許文献1
参照)、英数文字を読み取る文字特徴検出システム(例
えば、特許文献2参照)、これと同様の処理を用いた文
字認識装置(例えば、特許文献3参照)、さらに、これ
と同様のシステムなどがある(例えば、特許文献4参
照)。
【0004】また、デジタル化された画像内の文字を識
別する方法や装置もある(例えば、特許文献5〜8参
照)。さらに、複数の線からなる画像内の形状の輪郭座
標を用意するためのさらに効率のよい輪郭のトレース方
法もある(例えば、特許文献9)。
【0005】原稿を走査することによって電子ドキュメ
ントが作成された場合でも、その再生画像の画質および
雑音はビットマップの実際の外観の不確定性によるもの
である。さらに、質の悪いオリジナルドキュメント(原
稿)、走査ミス、または画像のデジタル化表現に影響を
与える同様の要素によって劣化したビットマップ外観が
生じる場合もある。したがって、文字識別で用いられる
決定工程は本質的に文字識別に関する不確定性を有す
る。ここで特に問題となるのはテキスト中の文字が不鮮
明になったり(ぼやけたり)または重なってしまう点で
ある。ほとんどの文字識別工程では、文字が連結された
画素の独立集合であるという仮定から出発する。入力画
像の質のためにこの仮定が誤っていた場合、文字識別も
失敗する。これに関する関連技術として、歪んだドキュ
メントの文字が認識された場合のドキュメントの文字認
識方法及びその装置(例えば、特許文献10参照)、ド
キュメントの垂直パッチを解析することで歪んだテキス
トを調節するテキスト行限定システム(例えば、特許文
献11参照)、文字認識装置における文字正規化のため
の走査制御装置(例えば、特許文献12参照)、光学文
字認識システムで利用するための処理手段(例えば、特
許文献13)、文字認識に必要なデータを得るための文
字認識の事前処理(例えば、特許文献14)などがあ
る。
【0006】また、OCR法の信頼性を向上させるため
にこれまで用いられてきた辞書単語確認法(例えば、特
許文献15)、ブロック抽出段階、歪み調節、ブロック
分割、隣接文字セグメント化、行抽出、辞書検査を併用
するパターン整合および比較による文字認識を利用した
文字読み取り機(例えば、非特許文献1)がある。テキ
スト列に対して、その読み取り方位に平行なテキストを
走査する3個で一組のスキャンが用いられ、各スキャン
が黒から白への推移に関する情報を引き出すことによ
り、単語または文字列それ自身を形成する文字集合を識
別することは好ましく(例えば、特許文献16)、文字
の前エッジおよび後エッジを表示する値の集合を生成す
るために動作可能なこれと同様の装置がある(例えば、
特許文献17)。
【0007】プリントまたはタイプされた本文画像を処
理するOCRシステムのほかに、多数の引例で電子表示
に変換された手書きテキストの認識を扱っている。
【0008】例えば、すでに考慮された認識の基本単位
として単語全体を選択する署名認識がある(例えば、特
許文献18)。これは今までのとおり文字画像の特性を
識別する連続特徴識別方法に基づく。
【0009】単語のビットマップ表現をビットマップ表
現辞書と比較する画像圧縮方法がある(例えば、特許文
献19)。ビットマップをコンピュータで情報として処
理可能な文字へ符号化するOCR法も、画像走査用のビ
ットマップ法も、テキスト操作またはテキスト処理のあ
らゆる目的に対して完全に満足できる方法というわけで
はなかった。また、画像物体を生成および再生する多項
式の利用法がある(例えば、特許文献20)。ただし、
前記物体は輪郭座標中に基準輪郭の形状であらかじめ定
められている。
【0010】単語が比較的単純な方法で表現可能であれ
ば、既知信号と未知信号とを比較するある種の信号処理
技術が利用できる。これに関する関連技術として、例え
ば、入力された単語が基準単語の集合から認識される音
声単語認識装置(例えば、特許文献21参照)がある。
正規化および線形タイムワープ装置が開示される。入力
単語および基準単語の集合は電気的に一致を確定するた
めに処理される。また、多重相似法を用いたパターン認
識装置(例えば、特許文献22)がある。さらに形状マ
ッチングが計量可能であることも示されている(例え
ば、非特許文献2)。
【0011】
【特許文献1】米国特許第4,864,628号明細書
【特許文献2】米国特許第4,326,190号明細書
【特許文献3】米国特許第4,813,078号明細書
【特許文献4】米国特許第4,833,721号明細書
【特許文献5】米国特許第3,755,780号明細書
【特許文献6】米国特許第3,899,771号明細書
【特許文献7】米国特許第4,817,166号明細書
【特許文献8】米国特許第4,566,128号明細書
【特許文献9】米国特許第4,956,869号明細書
【特許文献10】米国特許第4,926,490号明細書
【特許文献11】米国特許第4,558,461号明細書
【特許文献12】米国特許第3,295,105号明細書
【特許文献13】米国特許第4,918,740号明細書
【特許文献14】米国特許第4,809,344号明細書
【特許文献15】米国特許第4,010,445号明細書
【特許文献16】米国特許第2,905,927号明細書
【特許文献17】米国特許第4,155,072号明細書
【特許文献18】米国特許第3,133,266号明細書
【特許文献19】米国特許第4,499,499号明細書
【特許文献20】米国特許第4,949,281号明細書
【特許文献21】米国特許第4,400,828号明細書
【特許文献22】米国特許第4,977,603号明細書
【非特許文献1】「F6365日本製ドキュメント読み
取り機」、富士通科学技術ジャーナル、1990年10
月、26号、3巻、224頁乃至233頁
【非特許文献2】アーキン、チュウ、フッテンロシェ
ル、ケデム、ミッシェル共著、「多角形状の比較のため
の効率的計算可能計量」、離散数学に関する第1回年次
ACM−SIAM[アメリカ計算機学会/工業・応用数
学界]シンポジウム議事録、1990年1月、129頁
乃至137頁
【0012】
【課題を解決するための手段】本発明の一態様によれ
ば、画像データ内に単語対象物を形成する複数の記号ス
トリングの同値を確定する方法が提供される。この方法
は離散した記号ストリングを検出し、これによってスト
リングで表現される単語対象物を分離し、記号ストリン
グの形状を表す輪郭信号を導出する。検出および導出を
繰り返すことで第二単語対象物の形状が分離され、第二
輪郭信号で表現される。続いて、この方法は、2つの輪
郭信号の差を表す差信号を両信号が定義される範囲にわ
たって確定するステップと、最終的に記号ストリングま
たは単語対象物同士の相似を示す差計測(寸法)となる
差信号の数値を求める。
【0013】本発明は、単語およびテキストストリング
の基本特性を利用すると同時にOCR方法に固有の問題
を解消することを目的とする。特に、画像導出またはイ
メージング工程に固有の信号対雑音比は文字に対して比
較的小さいが、より大きな文字列と比較すれば比較的大
きい。さらに、逐語間隔は逐字間隔よりも大きくなる傾
向があり、このため、個々の文字の識別と比較した場
合、文字列(ストリング)の分離および識別が向上され
る。OCR方法も、アセンダー、デセンダー、カーブ等
の間違いやすい文字の部分の識別を含む正しい識別の準
備として、文字の態様に関するいくつかの正しい決定を
必要とする傾向がある。単語の境界を識別するためには
まず画像内のテキスト行の特性を確定しなければならな
い。さらに、本発明によれば単語形状を表す1次信号を
導出し、導出された信号と他の単語形状信号とを比較す
ることができる。このため、比較がなされるまで単語に
関する仮定はなされず、これによって連続的な誤った比
較および決定を生じさせる可能性のある無効文字による
仮定の影響を解消する。
【0014】コンピュータ処理されたテキストの潜在的
利用法について調べると、少なくともいくつかのケース
では単語の各文字を引き出すことが必ずしも処理上の必
要条件でないことが明らかとなった。OCR方法で文字
を誤って確定する確率は比較的小さいかもしれないが、
全単語にわたるとこの確率は増加的に累加される。この
ため、単語を探査したりあるいは認識する前に単語を文
字コード列へ変換するためにOCRを用いると、相当な
エラーが生じる場合がある。本発明では、人間がテキス
ト句を読んだりざっと目を通す場合に用いるのと似たや
り方で連続単語認識することを可能とするため画像デー
タの単語レベルセグメント化を利用する。OCR方法は
ビットマップから表示文字コードへ変換するが、これに
よってビットマップの情報内容を失うことになる。通
常、文字コードから原ビットマップを得るために工程を
逆にすることはできない。しかしながら、本発明によっ
て開示されるように形状に基づく単語の識別では、さら
に多くのビットマップ情報をさらに認識工程に保存させ
ることとなり、これによって1次元信号からビットマッ
プの適当な再構成が可能となる。したがって、ビットマ
ップ情報の重要な部分は、選択されたテキストまたは文
字列の形状を表すために利用される1次元信号によって
保存される。
【0015】本発明の一態様である複数の記号ストリン
グの等価性を判定する方法は、この記号シンボルは記号
シンボル間の相似性の相対計測を判断するために、画像
を定義するデータ内で、隣接する行中の隣接する単語同
士から鮮明に分離されたブロビファイされた単語である
単語対象物を形成し、画像を定義するデータの第1の離
散記号ストリングを検出し、第1の記号ストリングによ
って表される単語対象物を分離するステップと、第1の
記号ストリングのバウンディングボックスと黒画素との
距離である、該第1の記号ストリングの形状の第1の輪
郭信号を示す値を推定するステップと、第1の記号スト
リングのエックス・ハイト、アセンダー、及び、デセン
ダーの何れかの大きさである特徴的大きさを測定するス
テップと、画像を定義するデータの第2の離散記号スト
リングを検出し、第2の記号ストリングによって表され
る単語対象物を分離するステップと、第2の記号ストリ
ングのバウンディングボックスと黒画素との距離であ
る、該第2の記号ストリングの形状の第2の輪郭信号を
示す値を推定するステップと、第2の記号ストリングの
エックス・ハイト、アセンダー、及び、デセンダーの何
れかの大きさである特徴的な大きさを測定するステップ
と、第2の記号ストリングの特徴的な大きさで、第1の
記号ストリングの特徴的な大きさを割ることにより、縮
小拡大率を計算するステップと、第1の輪郭信号に対す
る次の比較のため、新しい第2の輪郭信号を作るために
前記縮小拡大率に従って、二次元において第2の輪郭信
号を縮小又は拡大するステップと、前記単語対象物の単
語の上部、及び、下部である信号が定義される範囲にわ
たって、第1及び第2の輪郭信号間の差である差信号を
示す値を求めるステップと、第1及び第2ストリングの
間の相対相似の差計測表示に到達するために、前記定義
された範囲の部分にわたって、前記差信号を評価するス
テップと、を含む。
【0016】
【実施例】これより図面を参照するが、これらは本発明
の好ましい実施例を示すためのものであり、これに限定
されるものではない。図1は、本発明が有利に利用でき
るさまざまな状況を対象とする一般化された画像処理シ
ステムを示す。通常、ソース画像は、スキャナ、ファク
シミリ装置、または記憶システムでもよいソース画像導
出システム2から導出することができる。ソース画像は
コンピュータ処理装置4へ進む。コンピュータ処理装置
4はここで開示される新規の装置だけでなくすでに公知
のいかなる装置であってもよい。ユーザインタフェース
6で入力されたコマンドに対して、処理装置4は出力装
置8で出力を生成する。出力装置8はプリンタ、ディス
プレイ、ファクシミリ装置またはその他の記憶装置であ
ってもよい。本質的には、図1の上側で図示されるよう
に、入力ドキュメント(文書)はシステム内へ方向づけ
られ、出力ドキュメントはシステムより引き出される。
【0017】図2は、単語の形状によって単語を導出
し、定義し、比較するため本発明を具体化したシステム
を示す。当然のことながら、このシステムの各要素は多
数の装置であってもよいし、または単一装置内で作動す
るプログラムであってもよい。まず、入力ビットマップ
10のソースは不確定であり、本発明の範囲ではない
が、ビットマップは最初にセグメント化システム12へ
方向づけられる。セグメント化システム12において単
語、文字列(ストリング)、または理解に関するその他
の複合文字単位が導出される。まず、画像ビットマップ
は画像中のテキストの方向の角度を確定する歪み(スキ
ュー)検出器14を通過する。画像の方向に関する情報
および画像自身を用いて、テキスト底線プロセッサ16
では、テキストの頂上線および底線が確定され、これに
よって画像中のテキストの行の上方境界および下方境界
が識別される。中央フィルタ18では「ブロビファイ
(ぼかし、塊化)」とよばれる機能が実行され、これは
画像上で作動し、行中の各単語群を単一単位として扱う
ことができる。ここで用いられるような「単語」、「記
号列」、「文字列」という言葉は、ともに意味理解の単
一単位を形成する連結された英数文字または句読点要素
の集合、さらに広義には、印または記号の集合を示す。
このような理解の単一単位は、前記単位を構成する要
素、印、記号を分離するものより広い字間あけにより分
離される場合に画像中で特徴づけられる。ブロビファイ
をかけた画像に対して、空白行(白線)の集合がブロッ
ク20で加えられ、テキストの隣接する行を鮮明に分離
する。空白行はプロセッサ16によって提供される底線
確定に基づく。この情報、すなわち、隣接する行中の隣
接する単語同士から鮮明に分離されたブロビファイされ
た単語を用いて、ブロック22で単語についてのバウン
ディングボックス(境界付けボックス)が定義され、こ
れにより単語を識別するとともに囲む。
【0018】その後、単語形状信号コンピュータ24
が、原(元の)画像および前記バウンディングボックス
確定に基づき画像中の個々の単語を表す単語形状信号を
導出する。単語形状辞書28から既知の単語を表現する
単語形状信号とまだ未確認の単語形状信号とを比較する
場合、この情報が単語形状コンパレータ26で利用可能
である。他の実施例では単語形状コンパレータ26は画
像10から確定された2個またはそれ以上の単語形状を
比較するために利用することができる。さらに重要なこ
とは、単語形状コンパレータ26が認識されていない文
字列から既知の単語形状への単語形状比較に限定されて
いない点である。単純化された状況では、コンパレータ
26は単なる一単語形状をもう一つの単語形状と比較す
る装置にすぎず、これによって2つの形状の間の相似度
を相対的に表示することができる。
【0019】一般的に単語形状認識工程の段階について
説明したが、このようなシステムの数学的根拠について
考えてみる。例えば、画像データi(x,y)を考えて
みると、これは通常のケースではビットマップの形状の
一列の画像データである。文字集合はおそらく上述のよ
うに多数の方法の中の一つで識別され、画像データ配列
の部分集合内に選択された文字列を囲む境界を定義す
る。i(x,y)から、囲まれた境界内で検出されたi
(x,y)のエッジを表すエッジ信号e(x,y)が導
出される。i(x,y)へ追加データを加えることによ
り前記エッジ信号が拡張され、その結果、e(x,y)
は囲まれた境界内の独立変数に対してその全領域にわた
って定義された連続信号e'(x,y)となる。各1次
元信号g'(t)であるe'(x,y)からは1個、2個
またはそれ以上の信号を導出することができる。ただ
し、gは基準フレーム従属パラメータである独立変数t
の関数である。
【0020】単語形状導出工程に関するこの数学的説明
から、他にも単語形状信号導出方法が存在することがわ
かる。可能性のある他の実施例は、極座標等の他の座標
図表を用いた1次元信号の確立する手法である。もう一
つの可能性は信号g(t)の生成である。ただし、g
(t)は各輪郭点からそれに続く輪郭点への方向を示
し、tは点番号を表す。
【0021】次に単語形状計算の計算方法について説明
する。画像の方向、行間、単語群の字間あけがいったん
決まると、各単語はバウンディングボックスによって囲
むことができる。さらに文字列画像を通過して伸長する
基準線が作成される。この基準線はエックスハイト(X
−hight)の3分の2からエックスハイトの3分の
1までの限定的な厚さを有するブロックでもよく、実際
には幅がゼロであってもよい。画像の分析において、基
準線からテキスト輪郭またはバウンディングボックスの
上縁部までの距離が基準線に垂直な方向に計測される。
同様に、基準線から下方バウンディングボックス縁部ま
たはテキスト輪郭までの距離が単語の下方部分に沿って
計測される。導出された値の集合は計算上、長手方向に
対する水平軸に沿った位置によって表せるため、この信
号は1次元信号と考えることができる。これらの値のい
ずれか、または両方を用いて単語形状を記述することが
できる。さらに、あまり望ましいことではないかもしれ
ないが、本発明の範囲内では、バウンディングボックス
の頂上またはバウンディングボックスの底部から引か
れ、単語または基準線に最初に接する垂直線の距離を必
要に応じて計測することができる。
【0022】ここで重要なのは、1次元信号の導出に用
いられる数学的工程が本質的に可逆的であるということ
である。基準線が限定的な厚さであるために画像から取
り出された場合、その画像部分は識別不能であるもの
の、基準線の幅がゼロであれば、この情報はそのまま残
るものとする。
【0023】認識辞書または単語形状の参照テーブル
を、上述の工程を用いることで鮮明に作成することがで
きる。走査された単語を情報のソース(源)として利用
するか、またはより「完璧な」辞書を目指してコンピュ
ータ生成単語を実際に用いることで、前記工程が影響さ
れる。
【0024】単語形状比較のための一般的な方法および
装置について定義し、この方法の基礎となる数学的根拠
も説明してきたが、これより各段階についてさらに詳細
に説明する。本発明の工程をさらに詳述するため、図3
では公有ソースからとられた数行のテキストのサンプル
画像が示される。図3はテキストページの画像がどのよ
うに表示されるかを示し、図4はこのページを走査した
画像を示すが、これは公知のOCR方法で問題を引き起
こすビットマップ画像を拡大して示すものである。例え
ば、テキスト画像の1行目の単語50「practitioner」
を見ると、数個の文字が互いに連続している(くっつい
ている)ように見える。また、画像の囲み52で囲まれ
た右下の部分では雑音がある。囲み54で囲まれた単語
「practitioner's」を見ると、句読点と文字の連続(く
っつき)がさらにはっきりとしている。
【0025】画像のテキスト行の方向を確定する一般的
な方法では、任意に選択された少数のエッジ画素(少な
くとも白色画素一つと隣接する黒画素として定義され
る)を調べ、各エッジ画素に対して行数を考慮する。サ
ンプルとしては56a、56b、56cがあり、前記画
素からそれぞれ指定された範囲の角度で離間された角度
増分で伸びている。エッジ画素は全画像画素の集合から
関数RandamEdgePixel(ランダムエッジ
ピクセル)によって任意に選ばれる。図5(線56a、
56b、56c参照)、図6(線58a、58b、58
c参照)、図7(線60a、60b、60c参照)は、
画像内のテキストの角度方向を正確に確定するため上述
の技術が表示エッジ画素に対して適用されるますます狭
められていく一連の角度範囲を表す。エッジ画素を見つ
け、線を定義した後、歪み(スキュー)検出器14は各
行の経路をトレースし、線とぶつかる連続する黒画素の
列(ストリング)の長さを画素内に確定する画像境界に
到達すると、個々の列(ストリング)の長さを合計する
とともにその合計を求められた個別の列の総数で除すこ
とによって黒画素列の平均的な長さが計算される。この
演算はすべての線に対して実行され、これによって選択
されたエッジ画素から伸びる各線に対する黒画素列の平
均的長さを求める。これらの長さは図8に曲線Aとして
描かれ、約0ラジアンおよび3.14ラジアンで最小と
なることを示す。曲線Aは、一連の角度を設けられエッ
ジ画素から伸びる線の各々に関する合計/平均化関数を
グラフに表したものであり、その範囲は0から2πラジ
アンまでである。いったん第一の最小値が決まると、第
二の最小値が第一の最小値からほぼπラジアンで存在す
るかどうかを確定することで最小値の確認(サンプルで
は、ほぼ0ラジアン)が行われる。第二最小値の存在が
確認されると(サンプルでは、ほぼ3.14またはπラ
ジアン)、大まかな歪み(スキュー)角度が識別され
る。続いて、テキストの歪み角度をさらに密着的に確定
する必要がある。これは、任意に選ばれたエッジ画素か
ら伸びる多くの線を用いて達成できる。ただし、これら
の線は最小角度増分だけ異なっており、さらに角度範囲
は前記の大まかな歪み角度が中心とされる。しかしなが
ら、所定の長さの線に沿って含まれる黒画素の総数を解
析することで微細な歪み角度を確定することができる。
さらに詳細にいえば、単位距離に関する画素数は図8の
曲線Bとして描かれ、前記の微細な歪み角度は曲線の最
大値を識別することで確定される。いいかえれば、単位
線長あたり最も高濃度の黒画素が存在する曲線の点は、
画像中のテキスト行の角度をより正確に表す。曲線Bで
示されるように、これによってほぼ0ラジアンの微細な
歪み角度となる。ただし、線はその長手方向に沿って最
多数の黒画素と交差するため、確定に必要な方向づけの
もっとも近接した角度を表す。
【0026】または、微細な角度確定について記述され
る手続きを多重反復することで歪み角度を確定すること
ができる。図5乃至7に示されるように、所望の歪み角
度精度が達成されるまで各反復もますます狭められる角
度範囲をカバーする線を利用することとなる。図5乃至
7により図示される実現方法では、それぞれ選ばれたエ
ッジ画素を中心として180個の個別の角度を用い、一
連の3回反復により所望の精度が達成される。
【0027】次の工程段階では、図9および図10に示
されるように、テキスト底線プロセッサ16がテキスト
の各行の特徴線、すなわち上方頂上線および下方底線を
識別する。テキスト底線プロセッサ16により実行され
る工程段階は、図11および図12に詳細に図示され
る。画像に沿って左手に示される図9のヒストグラムは
画像分析で線を調べることで導出され、すでに確定され
た歪み角度によって定義される場合、画像の歪み方向に
平行に方向づけられる。画像を走るこれらの平行線は、
各線と交差する黒画素数を確定するために用いられる。
テキストを通過する線に沿って切り取られる黒画素は多
数存在するが、テキスト行間の間隔を貫通する線に沿っ
て切り取られる黒画素は存在しない。
【0028】さらに詳細には、関数ベースラインズがま
ず「主」線の座標を求める(ブロック142)。この主
線は画像の中心を通って構成され、前記関数へ送られた
歪み角度により確定されるようなテキスト行に垂直であ
る(ブロック140)。次に、ラインエンジン手続き1
44が実行される。ただし、主線に沿って一端から他端
へ進むことにより、主線の一連の点では固定された距離
だけ主線から外方へ向けて伸びる垂直支線が構成される
(ブロック146)。前記支線に沿って黒の垂直エッジ
画素の数がカウントされ(ブロック148)、線が交差
する黒画素の数がカウントされるとともに(ブロック1
50)、さらに対向する対になった線に対して合計され
る(ブロック152)。ブロック148でカウントされ
たように黒の垂直エッジ画素は、上方または下方の近隣
画素位置で白色画素と隣接した黒画素として定義され
る。ラインエンジンLineEngine()手続き1
44は、決定ブロック154により確定されるように主
線に沿ったすべての点および関連する支線が処理され終
わるまで繰り返される。
【0029】続いて、すべての支線のカウントが解析さ
れることで、黒垂直エッジ画素対黒画素の最も高い比率
を有する支線の対を確定することができる。通常、最も
高いパーセンテージを有するこれらの線は、テキスト行
を形成する文字の上方および下方エッジに沿って通過す
る線に対応する。図10の拡大図に示されるように、高
い垂直エッジ画素比を有するこれらの支線(位置82)
と、比率の低い支線(位置84)との間には明確な区別
が存在する。フィルタマスクを適用し、マスク内の最大
ピークを比較することで、線82等のテキスト頂上線お
よび底線を表すこれらの線の識別が可能となる。ステッ
プ150のヒストグラム動作に対して追加試験を行うこ
ともできる。この追加試験、すなわちブール試験(bo
olean test)は、線の解析中に検出された黒
画素は最小であったと保証するために用いられる。この
試験は、垂直エッジ画素比が高いため小さな雑音または
画像人工物が底線として認識されることはないというこ
とを保証する。
【0030】他の方法としては、支線に沿って並ぶ黒画
素の総数を利用することで底線の位置を確定することが
できる。支線に沿ってカウントされた黒画素の数を表す
ヒストグラム曲線BLを用いると、どの支線が最多数の
黒画素との交点を有するかを確定することができる。最
大値の閾を適用することによって、各テキスト行に対し
て上方および下方の特性線の対を確定することができ
る。このため、ヒストグラム曲線BLの起伏部分はテキ
ストの特性線を構成し、さらに前記閾は、介在される最
小値を囲む局所化された最大値を明確に識別するために
用いられることとなり、これによって、さらに処理する
ために用いられる底線位置を識別することができる。さ
らに重要なことは、ブロック162で図示されるこの手
法を用いることで、BLヒストグラム曲線の勾配に基づ
き底線対の上方および下方の底線を識別することができ
る点である。重要なのは、ヒストグラム情報がステップ
150ですでに収集されている場合、識別段階に関連す
る追加処理はほとんど存在しないことである。いったん
予備特性線または底線対が識別されると(ブロック16
2)、確認段階(ブロック164)が実行されることで
前記底線対が最小距離よりもさらに離間されていること
を確認する。前記最小距離は画像中のすべての線対に対
して平均的な線対分離を計算することで得られたもので
ある。確認の後、有効な底線情報は出力ブロック166
により格納され、後で空白行追加ブロック20とセグメ
ント化ブロック22において利用される。
【0031】これらの底線確定方法の重要な利点は、こ
れらの方法が行間の雑音または無関係なマークに対して
ほとんど反応しないという点である。図13はサンプル
テキストの例文画像上で底線を確定した結果を示す。底
線対、すなわち底線Bnおよび頂上線B'nがそれぞれ
画像上に配置され、テキストの際立つ部分が生じる画像
におけるそれらの部分を示す。文字アセンダーストロー
クのいくつかの部分は底線より外側であるものの、残り
の工程に支障はきたさない。もちろん、閾値が小さいほ
ど、システムはアセンディングストロークをより多く捕
らえることができる。
【0032】図14および図15とともに図2を参照す
れば、次の工程段階は単語群分離段階である。フィルタ
18は画像のコピーに適用され、その結果のフィルタ画
像は単語を互いに区別できるしみとする傾向がある。各
領域に対して小さな窓を有するフィルタが適用され、部
分的に黒いこれらの領域を黒として表現する。図14に
示されるように、ブロビファイ(ブロブ化)関数はま
ず、マスクサイズおよび角度、を決めるマスク変数を初
期設定し(ブロック180)、さらに上方走査線を処理
することでデータ配列を初期設定する(ブロック18
2)。画像の中でマスク窓を順に移動させることで中央
フィルタリングが達成される。さらに、窓に現れる黒画
素の数が閾値を越える場合はいつでも、窓が配置される
中心となる目標画素が黒に設定される。図15はフィル
タ工程のいくつかのサンプルを示し、画像の一部に対し
てマスク窓(ウインドウ)200が配置されている。例
えば、ほぼ20%の閾であるとともに21個の画素を有
する通常の矩形のマスクがテキストに対してすでに確定
された歪み角度にほぼ等しい角度で配置された場合、窓
200内のフィルタリングの結果、画素204は黒へ設
定される。同様にして、最初に文字表示「r」と「o」の
間の文字間内に存在する窓206は画素208を黒へ設
定させる。他方、単語群の間の領域に存在する窓210
内には、画素212を黒へ設定させるだけの十分な数の
黒画素が現れていない。マスク窓200のサイズ、形状
および方向は最適化され、単一単語に共通な文字間の充
填物を最大化する一方でテキスト行間の充填物を減ら
す。
【0033】図16に示されるように、中央フィルタリ
ングの結果では、単語の文字間の比較的小さな間隔あけ
は通常、取るに足らず、さらに黒画素で充填される。単
語は画素の単一連続集合となる。すなわち、単一単語に
おいて完全に文字を分離させる空白間隔が存在しない。
しかしながら、記号列間または単語間の比較的大きな間
隔あけは、黒となるにはフィルタの能力を超えるほど大
きな空間であり、したがって、隣接する記号列を区別す
るよう作用する。図13および図16によれば、サンプ
ルテキストの最初の2単語「A」と「practitioner」は
この工程の呼び名でいえば「ブロビファイ(ブロブ
化)」され、このため、例えば「practitioner」の
「p」はもはやその単語の「r」から分離されない(図4
と比較されたい)。つまり、文字のブロビファイングま
たは不鮮明さにもかかわらず、「A」および「practitio
ner」は連結された記号または単語の別個のしみのまま
である。
【0034】図2によれば、この工程の付属物として空
白行追加20は図16のブロビファイされた画像に対し
て一連の白色画素行を重ね、確実にテキストの行が隣接
するテキスト行から分離されたままとなる(すなわち、
フィルタをかけたテキスト行はまったく重複しない)。
図16および図17によれば、囲み領域258および2
58'はアセンダーとデセンダーが組合わさり2つの単
語の行間がマージされたことを示す。図16の領域25
8に図示されたテキスト行の重複は、ブロビファイされ
たまたはフィルタをかけた画像に空白行を重ねることで
確実に解消できる。 その結果が図17に図示される空
白行(白線)を重ねる演算は、関数DrawMiddl
eLines(ドローミドルライン)で実行される場
合、図18に図示される工程によって実行される。通
常、空白行WLは隣接する底線と頂上線対の間のほぼ中
央の画像に追加され、これによって確実にブロビファイ
するクロステキスト行がなくなる。図17は空白行を図
16のブロビファイされた画像に追加した結果を示す。
【0035】図18によれば、空白行追加ブロック20
はステップ280で変数を初期設定することで開始し、
続いて第一テキスト行の底線情報から頂上線の位置を読
み込む。頂上線情報は破棄され(ブロック282)、次
の底線および頂上線の位置が記憶スタックまたはリスト
からポップされる(ブロック284および286)。画
像に関しては、この底線−頂上線の対がそれぞれ隣接す
るテキスト行の底部および頂上部を表す。次に、ステッ
プ288では前記対の中心に存在する点が配置され、画
像の中心から外方向に引かれる空白行の支点を提供す
る。図2の歪み検出器14により確定される歪み角度を
用いて空白行の終点がステップ290で計算される。空
白行はステップ292でブロビファイされた画像の上に
引かれるかまたは重ねられ、さらに試験ブロック294
で制御されるようにすべてのテキスト行が効果的に分離
され終わるまでこの工程は続く。
【0036】図2によれば、ブロビファイまたは中央フ
ィルタリングの結果として、ブロビファイ工程で形成さ
れたそれぞれ連結された画素の集合を中心とするバウン
ディングボックスの位置を確定することができる。バウ
ンディングボックスは重ねられた空白行の間のテキスト
行内に存在するこれらの接続された構成要素または単語
を中心としてのみ配置される。テキスト行の方向および
画像座標系に対向するようにテキスト行に直交する方向
に接続された画素の各群の先端点を識別することでバウ
ンディングボックスはテキスト行の方向に配置される。
この演算は関数FindBorders(ファインドボ
ーダー)によって実行される。通常、関数ファインドボ
ーダーは画像内のすべての画素を進み、接続された文字
のバウンディングボックスを求め(ペイント構成要
素)、ボックスの長さおよび幅だけでなく各ボックスの
上方の左隅の座標を確定する。
【0037】ファインドボーダー手続きを詳細に示す図
19および20によれば、セグメント化工程22は、ス
テップ300でフィルタをかけた画像の周囲に完全に空
白ボーダーを配置することにより開始される。これによ
って画像画素の配列の境界線を越えて流れることを避け
る。次に、画素xおよび行カウンタyはそれぞれ、ボー
ダー内の第一画素位置へ初期設定される。手続きRea
dpixel(リードピクセル)を呼び出し(ブロック
304)、ブロック306で画素カラー(黒または白)
が返されテストされる。画素が白であれば、もはや処理
の必要はなく処理はブロック322へ続く。白でなけれ
ば、手続きPaintComponent(ペイントコ
ンポーネント)が呼び出され、まず待ち行列に黒画素の
位置を格納する(ブロック308)。続いて、ブロック
310および312ではそれぞれ、画像のコピーにおい
て画素が白へ設定され、連結された画素または構成要素
を囲むボックスの境界線が更新される。次に、隣接する
黒画素を白へ設定し(ブロック314)、黒画素の位置
が待ち行列の最後へ追加される(ブロック316)。ブ
ロック318では、待ち行列ポインタがテストされ待ち
行列が空かどうかを確定する。空でなければ、待ち行列
の次の画素が取り出され(ブロック320)、処理はブ
ロック312へ続く。逆に待ち行列が空であれば、連結
された黒画素すべてが白へ設定され、ボックス境界線は
連結された構成要素を包囲するボックスを表すこととな
る。さらに、単語セグメントを包囲するボックスの境界
線が確認されるとともに、テキスト行の歪みに対して方
向づけられた直交座標系に調節することができる(ブロ
ック322)。
【0038】ループ処理はブロック324へ続き、画素
カウンタxを検査することで走査線の最後へ達したかど
うかを確定する。達していなければ、ブロック304で
処理を続ける前にブロック326でカウンタを増分す
る。走査線の終わりまで達していれば、画素カウンタx
がリセットされるとともに走査線カウンタyはブロック
328で増分される。さらに、ブロック330は走査線
カウンタyの値を検査し、画像全体が処理されたかどう
かを確定する。処理されていれば、処理は終了である。
そうでなければ処理は新たな走査線の第一画素を処理す
るためブロック304へ続く。
【0039】したがって図21に示されるように、単語
「practitioner」に対しては連結された文字画像の先端
部分がバウンディングボックスを決める。いったんバウ
ンディングボックスが決まると、この段階でこれからの
考察の中から雑音マークを除去することができる。雑音
マークが確定されるのは、1)バウンディングボックス
コーナが画像画素の配列の外部にある場合、2)ボック
スがこの配列における複数のテキスト行にわたる、また
はボックスがテキスト行から完全にはみ出す場合、3)
ボックスが縦横寸法のいずれかまたは両方において標準
値εより小さく、したがって破棄される場合、である。
雑音マーク70および72等は考察される単語には含ま
れない。
【0040】図2によれば、単語形状コンピュータ24
で、単語の画像または少なくともその一部分を表す信号
は隣接する信号からは孤立し、その信号が導出される。
導かれたこの信号は単語形状輪郭と呼ばれる。図22
(A)に図示されるように、この関数はまず各バウンデ
ィングボックスの頂上に沿って移動し、各画素位置から
はじめてボックスの頂上に沿って、黒画素またはボック
スの底部のいずれかに到達するまでページ方向に対して
下向きに走査する。ボックスの頂上と黒画素またはボッ
クス底部との間の距離dの集合の記録が維持される。距
離dの集合はボックスの長手方向にわたって蓄積され、
単語形状の頂上の生輪郭を構成する。続いて、図22
(B)に図示されるように、順にボックスの底部を走査
して移動し、上方向に最初の黒画素またはバウンディン
グボックスの頂上を探査することにより、図22(A)
に示される同一単語に対して底部の生輪郭が同様に生成
される。図23は図3のテキストサンプルに対して作成
された輪郭位置の画像である。重要なのは、ほとんどの
部分でその輪郭のみで句の単語を認識することが比較的
易しい図23の情報内容である。
【0041】図24によれば、この工程でも利用可能な
フィルタをかけた画像に対して実際の画像上で作動する
のが好ましいブロック100では、1またはそれ以上の
基準線が各単語により作成される。一実施例では限定さ
れた厚さまたは厚さゼロであってもよい削除バーが単語
によって構成され、これはエックスハイトのほぼ3分の
2で上限または基準線を有し、さらにエックスハイトの
ほぼ3分の1で下限を有するのが好ましい。計算102
では、上方または下方バウンディングボックスの間の距
離dに対して、単語または基準線のより近い方へ一組の
計測が引き出される。この計算は画像の分析で行われ
る。図25(A)によればこの計算が図式的に示され、
この基準線によってこの段階から最終的に引き出される
こととなる信号が単語の長手方向にわたる各サンプリン
グ位置で定義可能となることが理解できる。好ましい実
施例では、この計算は実際にはすでに収集されたデータ
から生成され、さらに調節されることにより距離dを図
示されるような上方または下方削除バーのいずれかで限
定する。図示される実施例では、必要条件はないもの
の、バウンディングボックスの上方線から上方基準線に
対して計測がなされている。したがって、例えば基準線
から上方または下方バウンディングラインまたは文字に
向けて計測してもよい。図25(B)は、計測の集合が
ブロック104から出力された信号を形成するためにど
のように用いられるかさらに詳細に示す。輪郭は基準線
に対して距離d'として表される。基準線に対して距離
を計算することで、単語形状輪郭を通常のエックスハイ
トに対してスケーリングすることができ、これによって
形状に関するあらゆる比較が容易となる。図25(C)
および25(D)は、d'値の集合がグラフ状に示さ
れ、1次元信号を形成するということを示す。
【0042】英単語の外見によって引き出された情報の
研究では、ほとんどの場合、単語の画像のほぼ頂上3分
の1のみを見ることで単語が識別されているということ
が判明している。いいかえれば、単語の上部がその識別
に必要な情報を大量にもっている。残りのケースの重要
な部分では、単語の画像の上部3分の1のみでは識別不
能な単語は、識別労力が単語画像の下方3分の1により
運ばれる情報を含む場合、識別不能となる。比較的小さ
なクラスの単語は識別を行う前に単語の中央3分の1に
関する情報を必要とする。したがって、必要に応じて、
単語形状の順序づけされた検査において、まず上方単語
形状信号または輪郭を引き出し、第2に下方単語形状ま
たは輪郭を引き出し、第3に単語形状信号中央輪郭を
(基準線から単語またはバウンディングボックスへ向け
て)引き出すという段階的工程が利用できることが理解
できる。図25(A)、(B)、(C)、(D)のサン
プルでは、単語「from」が上部のみから完全に識別可能
である。図26(A)、(B)、(C)、(D)の例に
おいて、単語「red」は上部からでは完全に識別するこ
とはできない。というのは、「red」は単語「rod」や
「rad」と混乱しやすいためである。文字「a」の下部が
あれば「red」と「rad」を区別することはできるが、文
字「o」の下部が「rod」と「red」を区別できるかどう
か疑わしい。しかしながら、「red」「rad」「rod」の
中央部は完全に別個のものである。
【0043】図2によれば、次に実行される段階は単語
形状コンパレータ26での比較である。一実施例では、
この比較は実際にはいくつかの小さな段階であり、その
それぞれについて説明する。図27によれば、通常、既
知の単語ともう一つの未知の文字列との2個の単語形状
信号が比較され、それらが類似しているかどうか調べ
る。この場合、信号Rは単語「red」の上方輪郭であ
り、信号Fは単語「from」の上方輪郭である。実際に
は、文字フォントの通常の区別や再生方法、走査された
画質が与えられても完全に同一であると期待できる信号
は相対的に極めて少ない。しかしながら、比較される単
語形状信号は互いにスケールすることができるため、同
一のエックスハイトを有することができる。これは比較
される単語形状輪郭の対のエックスハイトを確定するこ
とにより達成される。いったんエックスハイトが決まる
と、エックスハイトの比率は、輪郭の一方に適用される
倍率を確定するために利用される。エックスハイトはフ
ォントに対する特性計測であるので、水平方向および垂
直方向の両方における倍率を確定するために利用でき
る。または、異なる長さのため異なって計測された部分
に正規化および重量係数を強制せずに形状信号を比較す
ることができる。さらに、信号の振幅または高さが正規
化されることにより、単語形状比較に与えるフォントサ
イズの影響をさらに低減することができる。
【0044】アセンダー/デセンダーの正規化演算を詳
細に図示する図28(A)、(B)、(C)によれば、
形状信号はそれぞれアセンダーハイトとデセンダーハイ
トとテキスト文字のエクスハイトとの共通関係に基づき
正規化される。図示されるように、一見類似したフォン
トサイズまたは適当にスケールされたフォントサイズで
プリントされた文字の実際のアセンダーハイトはわずか
に異なる場合がある。これは小型字体または大型字体の
結果として生じるもので、同一文字であっても24ポイ
ントフォント等の同一サイズのフォントのハイト(高
さ)には多様性があることを示す。図示されるように、
図28(A)の距離d1は2個の文字「h」におけるアセ
ンダーハイトの差を示す。同様に、距離d2は図28
(B)の文字「f」の高さの差を示す。図28(C)に
図示されるように、通常の文字はアセンダー部390、
エクスハイト部392、デセンダー部394の3つのセ
クションに分けることができる。さらに、これらのセク
ションの相対的な高さをそれぞれa、b、cで示す。こ
のエクスハイト上に存在する輪郭の領域は以下のように
スケールされる。
【0045】
【数1】
【0046】同様に、デセンダーは次の式によってスケ
ールされる。
【0047】
【数2】
【0048】ただし、両者の場合、分子で用いられた値
(1.5)はアセンダーまたはデセンダーハイトとエク
スハイトとの関係を計測することにより求められたもの
である。これにはテキスト列の部分を表さない輪郭部分
を削除する演算も含まれる。これらの領域は図21で図
示されたバウディングボックスの端部に存在する。例え
ば、図21で単語「practitioner」を囲むボックスは実
際の単語画像を超えて伸びていることがわかる。図25
(A)、(B)、(C)、(D)で単語「from」の端部
でさらに図示されるように、輪郭は有用な情報をもって
いるわけではない。これらの領域を輪郭形状から除去す
ることで、比較演算に生じるエラーを抑える。
【0049】正規化演算に続いて、標準信号処理段階を
用いることで比較されている2つの信号の類似性または
非類似性を確定することができる。または、次の式を用
いることができる。
【0050】
【数3】
【0051】ただし、Δstring(ストリング)は2つの
信号の差であり、f(x)は既知信号であり、g'
(x)は未知の信号である。
【0052】単純に確定する場合、差を調べ、もし差が
ゼロに近ければ2つの信号にはほとんど相違がないこと
を示すことになる。しかしながら、差が大きければ大き
いほど、その単語が比較されている単語と別個のもので
あるという可能性が高くなる。
【0053】重要なのは、上述の実施例が各単語に対す
る上方および下方輪郭を用いて単語形状輪郭を互いに比
較するという点である。これは特定の決定方法を実現し
たものであって、本発明を頂上輪郭と底部輪郭のみを用
いた比較に限定するものではない。実際、上方輪郭内だ
けでも下方輪郭を比較する必要性を相当減少させ、これ
によって処理労力が相当軽減できるだけの十分な情報が
含まれている場合がある。
【0054】この単純化された比較方法の段階は、最初
に述べたように図29に図示される。まずステップ41
0では第一単語形状に対する輪郭がメモリから取り出さ
れ、さらに第二単語形状がステップ412で取り出され
る。次に、ステップ414で上方および下方輪郭により
定義される単語形状の重心が確定され位置合わせされ
る。この段階の目的は単語輪郭の中心を位置合わせする
ことにより、比較中の2組の輪郭のあらゆる相対的変位
に対して原因となりうる輪郭の差を低減することにあ
る。前記重心を確定するには円弧の重心を確定する他の
標準的な方法による。両組の輪郭対に対していったん確
定すると、前記対の間の相対的な変位が決まり(ステッ
プ416)、輪郭は輪郭同士の差を計算する前に変位す
る。輪郭の変位は、単語形状境界線の確立と図2のブロ
ック24の単語形状の計算とに関連するあらゆるエラー
を低減するために必要である。ステップ418は変位し
た輪郭対の重複範囲の外部に存在する領域を処理し、非
重複領域におけるゼロ振幅信号に対する差を確定する。
これは、輪郭の非重複端部での上方輪郭および下方輪郭
の平方値を合計することで達成される。続いて、輪郭の
重複領域が比較される(ステップ420)。この領域の
差は、上方曲線と下方曲線との差の二乗の合計として確
定される。さらにステップ418および420から返さ
れた値を加算することで、変位した輪郭により定義され
る全範囲にわたる差の合計を確定する。この値は比較中
の2個の単語形状に対する輪郭対の間の相似の相対表示
として用いることができる。
【0055】重心比較法(center−of−gra
vity comparisonmethod)に対す
る別の方法は、タイムワーピングとして公知の信号処理
方法を利用する。これについては論文「分離された単語
認識のための動的タイムワープアルゴリズムにおける性
能分担」(メーヤーズ、ラビナー、ローゼンバーグ共
著、「音響・音声・信号処理に関する電気電子学会会
報」、ASSP−28巻、6号、1980年12月
刊)、および文献「タイムワープ、記号列編集および高
分子:列比較の理論と実際」(サンコフ、クラスカル共
著、マサチューセッツ州リーディング、アジソン−ウエ
スレー出版社、1983年刊)の第1章から第4章まで
に開示されており、この文献では最良の照合ができるま
で輪郭に沿って点を圧縮および拡大させるために利用す
ることができる。さらに比較中の輪郭同士の差の量と輪
郭を一致させるために必要な伸縮とに基づきスコアが引
き出される。このスコアは比較中の2個の信号同士の照
合の相対表示を提供する。
【0056】動的ワーピング法の一般的な段階を示す図
30によれば、この方法は、第一輪郭の各点とそれが比
較されている輪郭の点との距離を記録するため、差の配
列または行列の利用に依存している。図示されるよう
に、この工程は比較法にも適用できるすべての計測に類
似している。 まず、さまざまな比較関数の演算を動的
に制御するためにデータ構造が利用できるようにコード
が編成される。構造DiffDescriptor(デ
ィフディスクリプタ)は、比較を制御するために用いら
れる他の因数だけでなく、輪郭に対して適用される寸法
を定義する変数を有する。これらの因数には比較前の輪
郭長の正規化、上方輪郭および下方輪郭のための分離さ
れた比較、ワーピング経路を方向づけるcenterW
ieght(センターウェイト)因数、ワープ経路を制
限する帯域幅、底部輪郭比較に対して重みづけを重くま
たは軽くした頂上輪郭比較を可能にするtopToBo
ttom(トップ−ボトム)比、未知の輪郭が既知のま
たはモデル単語形状輪郭と比較されている場合、輪郭差
の重みづけを選択的に制御するhillToValle
y(ヒル−バレー)比がある。
【0057】通常、各計測によって比較技術が実現され
るが、それぞれの計測は特定の型の動的比較に対して最
適化される。例えば、勾配限定動的ワープ法では一方よ
り大きな非単位的な中心重みおよびトップ−ボトム重み
を有する。選択の第一レベルにより、比較、無条件ワー
プ、単純なワープされない比較に対して勾配条件付きワ
ーピング関数を利用することが可能となる。それぞれの
ワープ比較法には、頂上輪郭および底部輪郭が独立的に
ワープされる分離比較関数と、頂上輪郭および底部輪郭
の両者に対してワープが同時に適用される平行比較関数
とがある。
【0058】通常の実施例では、動的ワーピング工程は
まず、比較中に生成された距離値を保持するとともに一
方の単語形状輪郭を他方に対してワーピングさせること
を保持する経路/距離配列に対して空間を割り当てる
(ステップ450)。通常、この配列は比較中の輪郭に
対して可能性のある差計測をすべて識別するために用い
られる。配列要素に差を充填した後に、すべての要素に
対する差を走査経路内に蓄積する一方、前記配列は一コ
ーナから斜めに対向するコーナへ向けて走査する。これ
まで説明した実施例は、差が確定した場合、蓄積された
差を反復的に充填することによりこの工程を多少最適化
する。本質的に、これによっていったん輪郭の間の相対
差がすべて計算されてしまうと前記配列を走査する冗長
な段階をなくすことができる。さらに変更すると最終的
に大きな配列が除去され、配列の「走査」中に距離値を
格納し、取り出し、更新するために操作される一対の線
形配列で置換される。
【0059】空間を割り当てた後、すべてのワーピング
計測により用いられる工程が、輪郭の累加的な差を確定
するため事前に配列内に格納されたデータを利用する反
復工程である場合、配列のボーダー領域は初期設定され
なければならない。ステップ452では、配列ボーダー
が初期設定される。配列の第一行を初期設定するには、
第一輪郭上の第一点と第二輪郭上の各点との差の二乗を
確定する必要がある。ボーダーの初期設定に続き、列イ
ンデックス値l1および行インデックス値l2はそれぞ
れ1にリセットされ、輪郭に沿って個々のボーダーでな
い点を処理し始める。
【0060】ステップ458乃至464まで、輪郭の処
理が進む。第二輪郭に沿った各点と第一輪郭の点との間
の距離における差が計算される。さらにこの差または距
離が計算されると、すでに確定された差と合計する。さ
らに、すでに確定された差のいくつかはそれぞれ異なっ
て重みづけすることができる。例えば、一実施例では配
列斜線に沿った差の重みはセンターウェイト重みづけ因
数により修正することができる。図のように、まず、上
方輪郭および下方輪郭にわたって第一輪郭上の点と第二
輪郭上の点との差の二乗の合計として距離が計算され
る。ただし、頂上輪郭差はトップ−ボトム変数によって
重みづけされる。この距離は連続反復で水平差、垂直
差、斜め差を確定するために用いられる。これらの値を
それぞれ確定するため、現在の距離値が下配列位置、左
配列位置および左下配列位置における以前の値に加算さ
れる。この左下配列位置は既に説明したようなセンター
ウェイト因数により重みづけされる斜め位置である。配
列位置502ですでに確定された値xと次の配列位置と
の位置関係を図示する図31(A)によれば、全体差を
蓄積するためその後の位置の差に値xを加算することが
できる。配列位置504に対する差を計算する場合、位
置502の値は下値として利用されることになる。同様
に、位置506の値を計算する場合、位置502の値は
センターに重みづけされた左下または斜め値として利用
される。3個の異なる値をステップ458、460、4
62で計算した後、ステップ464で3個の値のうち最
小のものを選択し、ステップ466で現在の配列位置内
へ挿入する。
【0061】続いて、図30に図示される工程ではl1
で表される第一輪郭上の点とl2で表される第二輪郭上
の点との差を確定する。決定ステップ468は輪郭の端
部または幅を調べることにより第二輪郭に沿った点の反
復処理を制御する。限定幅または帯域幅の場合、比較中
の輪郭領域のひとつまたは両方の領域が、輪郭が定義さ
れる領域の部分集合に制限される。限定が達成されてい
なければ、l2の値がステップ470で増分された後に
次の点の処理がステップ458で行われる。同様に、決
定ステップ472が第一輪郭に沿った各点の処理を制御
するとともにステップ474で増分する。すべての点が
互いに処理され終わると、配列が走査され終わったこと
を示すステップ472の肯定応答により明らかなよう
に、最も斜めの位置である配列(l1,l2)において
相対差のスコアが最上のスコアとなる。続いて、ステッ
プ476で確定された値は比較中の輪郭同士の動的にワ
ープされた差を示すものとして返される。
【0062】コード化の実現により、大きな2次元配列
を必要に応じて更新される一対の線形配列に減少させる
ことで上述のワーピング工程の実行を最適化することが
できた。この修正により、ワープ比較値に対する最小差
または最良のスコアが1次元配列の最終位置で求められ
る。さらに、最終差を正規化することにより、比較中の
2組の輪郭の間に長さの差を生じさせることができる。
最後に、このような値を閾または同様にして得られた差
の集合と比較し、単語が一致したといえるほど輪郭同士
が近接しているかどうか確定することができるか、また
は一連の単語形状比較から最良の一致を確定することが
できる。
【0063】他の実施例では、上述の動的タイムワーピ
ング工程を変形し、差配列に含まれる差を周期基底上の
閾値と比較することができる。比較において、比較中の
輪郭が互いに一致しないと確定できるだけの十分な差が
存在した場合にはこの工程を中断することができ、これ
によって貴重な処理時間が節約できる。さらに、単語形
状コンパレータ26の連続的な演算は単語形状コンピュ
ータ24からの連続的な出力とともに実行され、これに
よってキーワードを探している場合、テキスト画像の平
行処理が可能となる。
【0064】これまで動的ワーピング比較計測に関する
基本的な実現方法について説明してきたが、本発明の数
多くの可能な実施例を示すため、他の動的ワープ比較法
と上述の制御因数の適用との違いを簡単に説明する。ま
ず、すでに述べた動的ワーピング法も、配列を走査する
場合、条件づけされているワープ経路の勾配で実現する
ことができる。この計測法は図31(B)でさらに詳細
に図示される。ただし、配列位置512の値Xは図示さ
れる3個の連続する配列位置にのみ加算することができ
る。例えば、位置514に対してd2l1として考えら
れる場合、Xは配列位置514へ加算できる。図中の変
数に対する命名法は次の通りである。d2l1は下に2
行、左に1列の配列位置を示す。d1l1は左斜め下方
の配列位置を、d1l2は現在の配列位置から1列下の
左へ2行進んだ配列位置を示す。同様にして、配列位置
516の累加的な差を計算するためにXをd1l2値と
して加算することができる。
【0065】図31(A)および31(B)の比較から
明らかなように、勾配条件付きワーピング計測は、累加
的な差の生成中に利用できるワーピング経路を局所的に
限定する。このような条件づけを行うのは、ワーピング
工程が比較中の2つの輪郭の一方の大きな領域を除去ま
たは圧縮することを、このような圧縮に対してあまり
「コスト」をかけずに避けるためである。
【0066】平行ワーピング処理に対してすでに説明し
たこの方法も、一度に一対のみ2個の単語形状の上方輪
郭等の輪郭について実現することができる。この関数
は、上述の非勾配条件付きの方法および勾配条件付きの
方法の両方で分離照合計測を実現する。通常、これらの
計測では一対の単語形状の頂上輪郭または底部輪郭同士
の差を別個に計算する。この計測に対して示される通常
の実現から、これらの計測が通常は順に利用され、まず
頂上輪郭に対してワープされた差を確定し、それに底部
輪郭比較からワープされた差を加算し、その結果、単語
形状の総計差が得られることがわかる。
【0067】「それぞれの部分に関して」段階化された
やり方で記述されたこの比較方法を実行することによ
り、さらに処理上の利点が引き出される。詳細にいえ
ば、段階化された比較にはまず単語を識別するかまたは
少なくとも可能性のある他の集合を狭めるために比較中
の単語の上方輪郭を利用する必要があり、第二に完全な
識別を提供するため下方輪郭比較を用いる必要がある。
単語形状比較演算26に対するこのような手法が、図2
に図示されるような既知の単語形状の辞書28と比較す
ることによって未知の単語形状を識別するために要する
処理時間を相当に低減することとなる。段階化された比
較法の重要な点は、輪郭に作用する頂上ワープおよび底
部ワープが相対的に同値でなければならないという条件
である。この必要条件は、上方曲線および下方曲線が共
通の単語に対して関係をもっており、この関係がワープ
解析中に維持されなければ、比較の精度が落ちるという
事実から生じる。
【0068】または、最良の一致を達成する上方曲線お
よび下方曲線に作用する相対的ワープを蓄積するのに適
した関数を加えて動的ワーピング技術を上記のように適
用することができる。例えば、既知の強調されていない
単語形状を未知の単語形状と比較した場合、下方曲線に
対して上方曲線へ作用するワープにおける変位は強調単
語を示すことができる。しかしながら、ワープされた領
域の長さは頂上ワープおよび底部ワープに対する長さと
同じままである。このような技術は、大き目の字体のテ
キスト内の重要な単語が時折強調されている場合の識別
に有用である。
【0069】bandWidth(帯域幅)因数はすで
に説明した制御因数の一つである。実現された場合、こ
の帯域幅因数は、ワーピング信号がその内部で条件づけ
されている信号帯域の相対幅を制御する。詳細に説明す
れば、配列を走査するワープ経路が条件づけされた配列
対角線を中心とする領域を定義することにより帯域幅の
限定が実現できる。大きな値を帯域幅の外部であるこれ
らの領域へ割り当て、前記経路が条件を超えることがほ
とんどないようにすることによってこの条件が実現され
る。
【0070】トップ−ボトム比は、すでに簡単に説明し
た他の因数である。これが適用されると、この変数は頂
上輪郭ワーピング工程のために確定された差を重みづけ
するために用いられる。したがって、2以上の数字を用
いると、上方輪郭差を下方輪郭差よりも重く重みづけす
ることになる。非常に大きな数字を用いれば下方輪郭差
を効果的かつ完全に除去することとなる。さらに、値が
ゼロであれば上方輪郭差を完全に除去することとなる。
上方輪郭はたいてい下方輪郭よりも単語に関する情報を
多くもっており、この因数は通常、上方輪郭をその情報
内容に比例して重みづけできることから重要であると考
えられている。
【0071】ヒル−バレ−比は、単語形状輪郭の既知の
またはモデル集合が未知の画像から単語形状輪郭の集合
と比較中である状況で通常適用される変数である。この
オプションを利用する場合、輪郭のモデル集合は比較計
測関数として通用する。輪郭上の点の差を確定する場
合、比較関数は通常、関数スクエアディフレンスを呼び
出し、二乗された差の合計を確定する。スクエアディフ
レンスは、モデル輪郭の値が比較中の輪郭よりも小さい
と確定したときは必ず、ヒル−バレ−比を二乗された差
に適用する。1を上回るヒル−バレ−値を適用した結
果、モデル輪郭が目的輪郭よりも小さい場合の差の相対
的な「コスト」は、モデル輪郭が目的輪郭より大きい場
合の同一差よりも小さくなる。この型の重みづけの基本
は、モデル輪郭と比較する場合、モデル輪郭未満の輪郭
位置により明らかであるように、この比較が、走査中ま
たは同様のデジタル化演算の間に充填されそうにない領
域よりも軽い重みで「充填」される必要がある目的輪郭
の領域を扱うということである。例えば、アセンダーが
文字体とぶつかる領域は走査中に充填されやすく、これ
によって目的輪郭がこれらの領域の段階的な輪郭とな
る。しかし、モデル輪郭はこれらの領域で定義されたピ
ークまたは谷を有する確率が最も高い。このため、たと
え文字が同一であったとしてもモデルの輪郭値は目的の
輪郭値よりも小さくなる。したがって、ヒル−バレー変
数はこれらの領域にわたって計算された差に対する影響
を最小化しようとする。
【0072】重要なのは、上述の計測および制御因数に
より前記比較計測が多数の順列で行うことができる点で
ある。しかしながら、これらの計測がもつ柔軟性は比較
工程の適応性を向上させようとするため、コンピュータ
生成文字フォント列から生成されたモデル輪郭のように
情報が特定の単語形状輪郭について既知であった場合、
前記計測において比較をより強固にするその情報に依存
することができる。
【0073】好ましい実施例にしたがって本発明を説明
してきたが、ソフトウェア構成はコンピュータシステム
で実現可能となるように設計され、デジタル信号データ
の処理に関して上述の演算を達成するため、コンピュー
タシステムにはあらかじめ定義された命令を実行する一
またはそれ以上のマイクロプロセッサまたは演算処理装
置が用いられている。さらに本発明は、ここで開示され
た演算を実現するよう設計された特定のハードウェアを
利用することで達成される。さらに本発明は、テキスト
画像に関して説明した。しかしながら、本発明は非テキ
スト画像部分を有する画像であっても適用可能である。
また、図面とともに本明細書を読み理解する中で修正点
が生じることは明らかである。この実施例は一例であっ
て、請求項で請求される内容から当業者によりさまざま
な代替案、修正、変更、改良がなされうるものとする。
【図面の簡単な説明】
【図1】本発明で使用される画像処理システムの概要シ
ステム図を示す。
【図2】新規な単語形状認識システムの一実施例を構成
するシステム構成要素の配列のブロックシステム図を示
す。
【図3】新規の工程が実行される例文テキストの画像サ
ンプルを示す。
【図4】例文テキストの走査画像のコピーである。
【図5】処理を進める前に画像サンプルにおいて例文テ
キストを方向づける角度を確定するために用いられる工
程を画像で図示したものである。
【図6】処理を進める前に画像サンプルにおいて例文テ
キストを方向づける角度を確定するために用いられる工
程を画像で図示したものである。
【図7】処理を進める前に画像サンプルにおいて例文テ
キストを方向づける角度を確定するために用いられる工
程を画像で図示したものである。
【図8】処理を進める前に画像サンプルにおいて例文テ
キストを方向づける角度を確定するために用いられる、
例文テキストから得られたレスポンスのグラフを示す。
【図9】画像内のテキストの底線を確定するため例文テ
キストのサンプル画像を調べるグラフの導出および利用
法を示す。
【図10】画像内のテキストの底線を確定するため例文
テキストのサンプル画像を調べるグラフの導出および利
用法を示すものであって、図9の部分的拡大グラフのみ
を示す。
【図11】図9に示される底線を確定するために実行さ
れる手順を示すフローチャートである。
【図12】図9に示される底線を確定するために実行さ
れる手順を示すフローチャートである。
【図13】図9乃至10に図示されるデータから導出し
た後、画像上に底線が示された例文テキストの走査画像
を示す。
【図14】図3の画像に対して中央フィルタを適用した
場合に用いられる各段階を示すフローチャートである。
【図15】前記中央フィルタの適用を示す図3の画像の
部分的な拡大画像表示である。
【図16】ここではブロビファイングとしてよばれる工
程で文字列を連結画素の単一集合として表示する傾向の
ある例文テキストの走査画像に対して中央フィルタを適
用した後の結果画像を示す。
【図17】白色画素の行が不鮮明な画像へ加えられるこ
とにより文字列の隣接する行から文字列の行を鮮明に描
写することができる前記工程における連続段階を示す。
【図18】図17の白線を加えるために必要な段階を示
すフローチャートである。
【図19】図16の不鮮明画像による画像データをセグ
メント化するために行われる手順を示すフローチャート
である。
【図20】図16の不鮮明画像による画像データをセグ
メント化するために行われる手順を示すフローチャート
である。
【図21】バウディングボックスが各文字列を含む画像
画素の部分集合をただ一つ識別するように各単語群の周
囲に配置された例文テキストを示す。
【図22】(A)及び(B)は例文テキストのサンプル
画像中に現れる例文単語「from」を用いて単一独立
変数信号の導出を図示する。
【図23】図22に図示された導出工程により形成され
る輪郭の結果を図示する。
【図24】単語形状信号の導出に関連する各段階を示
す。
【図25】例文単語「from」を用いて単一独立変数
信号の導出を示す。
【図26】例文テキストのサンプル画像中に現れない例
文単語「red」を用いて単一独立変数信号の導出を示
す。
【図27】信号正規化法を用いて単語「red」および
「from」に対して導出された信号の単純な比較を示
す。
【図28】フォント高さにおける矛盾を詳細に図示し、
さらにこのような矛盾の正規化方法を図示したものであ
る。
【図29】単語形状輪郭の間の相対差を確定する一方法
に対して用いられる段階を詳細に示すフローチャートで
ある。
【図30】単語形状輪郭の間の相対差を確定する第二方
法の段階を詳細に示すフローチャートである。
【図31】非勾配条件付き比較および勾配条件付き比較
の両方に対して計算されるとともに一配列に格納される
相対差値間の関係図である。
【符号の説明】
2 ソース画像導出システム 4 コンピュータ処理装置 6 ユーザインタフェース 8 出力装置 10 入力画像 14 スキュー検出器 16 テキスト底線プロセッサ 18 中央フィルタ 24 単語形状信号コンピュータ 26 単語形状コンパレータ
フロントページの続き Fターム(参考) 5B029 CC28 EE04 EE13 5B064 DC11 DC16

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 複数の記号ストリングの等価性を判定す
    る方法であり、この記号シンボルは記号シンボル間の相
    似性の相対計測を判断するために、画像を定義するデー
    タ内で、隣接する行中の隣接する単語同士から鮮明に分
    離されたブロビファイされた単語である単語対象物を形
    成し、 画像を定義するデータの第1の離散記号ストリングを検
    出し、第1の記号ストリングによって表される単語対象
    物を分離するステップと、 第1の記号ストリングのバウンディングボックスと黒画
    素との距離である、該第1の記号ストリングの形状の第
    1の輪郭信号を示す値を推定するステップと、 第1の記号ストリングのエックス・ハイト、アセンダ
    ー、及び、デセンダーの何れかの大きさである特徴的大
    きさを測定するステップと、 画像を定義するデータの第2の離散記号ストリングを検
    出し、第2の記号ストリングによって表される単語対象
    物を分離するステップと、 第2の記号ストリングのバウンディングボックスと黒画
    素との距離である、該第2の記号ストリングの形状の第
    2の輪郭信号を示す値を推定するステップと、 第2の記号ストリングのエックス・ハイト、アセンダ
    ー、及び、デセンダーの何れかの大きさである特徴的な
    大きさを測定するステップと、 第2の記号ストリングの特徴的な大きさで、第1の記号
    ストリングの特徴的な大きさを割ることにより、縮小拡
    大率を計算するステップと、 第1の輪郭信号に対する次の比較のため、新しい第2の
    輪郭信号を作るために前記縮小拡大率に従って、二次元
    において第2の輪郭信号を縮小又は拡大するステップ
    と、 前記単語対象物の単語の上部、及び、下部である信号が
    定義される範囲にわたって、第1及び第2の輪郭信号間
    の差である差信号を示す値を求めるステップと、 第1及び第2ストリングの間の相対相似の差計測表示に
    到達するために、前記定義された範囲の部分にわたっ
    て、前記差信号を評価するステップと、 を含む、複数の記号ストリングの等価性を判定する方
    法。
  2. 【請求項2】 差計測に対して、第1と第2の記号スト
    リングが等しいかどうか判断するステップを含む、請求
    項1に記載の複数の記号ストリングの等価性を判定する
    方法。
  3. 【請求項3】 第1と第2の記号シンボルが等しいかど
    うか判断するステップにおいて、 所定の閾値と差計測を比較するステップと、 差計測が閾値よりも小さいならば、第1及び第2の輪郭
    信号が、同一の記号シンボルを表す語形から生成された
    と判定するステップと、 を含む、請求項2に記載の複数の記号ストリングの等価
    性を判定する方法。
JP2002289491A 1991-11-19 2002-10-02 複数の記号ストリングの等価性を判定する方法 Expired - Fee Related JP3453134B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US79516991A 1991-11-19 1991-11-19
US795169 1997-02-10

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP32599392A Division JP3576570B2 (ja) 1991-11-19 1992-11-11 比較方法

Publications (2)

Publication Number Publication Date
JP2003157409A true JP2003157409A (ja) 2003-05-30
JP3453134B2 JP3453134B2 (ja) 2003-10-06

Family

ID=25164883

Family Applications (2)

Application Number Title Priority Date Filing Date
JP32599392A Expired - Fee Related JP3576570B2 (ja) 1991-11-19 1992-11-11 比較方法
JP2002289491A Expired - Fee Related JP3453134B2 (ja) 1991-11-19 2002-10-02 複数の記号ストリングの等価性を判定する方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP32599392A Expired - Fee Related JP3576570B2 (ja) 1991-11-19 1992-11-11 比較方法

Country Status (4)

Country Link
US (1) US5687253A (ja)
EP (1) EP0543590B1 (ja)
JP (2) JP3576570B2 (ja)
DE (1) DE69230631T2 (ja)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5313527A (en) * 1991-06-07 1994-05-17 Paragraph International Method and apparatus for recognizing cursive writing from sequential input information
JPH0756956A (ja) * 1993-07-22 1995-03-03 Xerox Corp 人間の作成したイメージに基づくデータアクセス方法
US5891282A (en) * 1994-08-26 1999-04-06 E-Z Taping System, Inc. Method for taping a wall board joint
US5999647A (en) * 1995-04-21 1999-12-07 Matsushita Electric Industrial Co., Ltd. Character extraction apparatus for extracting character data from a text image
JPH0991380A (ja) * 1995-09-21 1997-04-04 Canon Inc 情報処理装置及び方法及び記憶媒体
US6202068B1 (en) * 1998-07-02 2001-03-13 Thomas A. Kraay Database display and search method
US6529643B1 (en) 1998-12-21 2003-03-04 Xerox Corporation System for electronic compensation of beam scan trajectory distortion
US6393395B1 (en) 1999-01-07 2002-05-21 Microsoft Corporation Handwriting and speech recognizer using neural network with separate start and continuation output scores
US6542635B1 (en) * 1999-09-08 2003-04-01 Lucent Technologies Inc. Method for document comparison and classification using document image layout
US6640010B2 (en) * 1999-11-12 2003-10-28 Xerox Corporation Word-to-word selection on images
US6735337B2 (en) * 2001-02-02 2004-05-11 Shih-Jong J. Lee Robust method for automatic reading of skewed, rotated or partially obscured characters
US6876778B2 (en) * 2002-03-11 2005-04-05 Sunplus Technology Co., Ltd. Edge enhancement method and apparatus in digital image scalar-up circuit
JP2004038321A (ja) * 2002-06-28 2004-02-05 Fujitsu Ltd 文書レイアウト解析プログラム、文書レイアウト解析装置および文書レイアウト解析方法
RU2234126C2 (ru) * 2002-09-09 2004-08-10 Аби Софтвер Лтд. Способ распознавания текста с применением настраиваемого классификатора
US20040146200A1 (en) * 2003-01-29 2004-07-29 Lockheed Martin Corporation Segmenting touching characters in an optical character recognition system to provide multiple segmentations
US7283669B2 (en) * 2003-01-29 2007-10-16 Lockheed Martin Corporation Fine segmentation refinement for an optical character recognition system
JP2006279308A (ja) * 2005-03-28 2006-10-12 Toshiba Corp 情報処理装置および画像処理方法
JP4958497B2 (ja) * 2006-08-07 2012-06-20 キヤノン株式会社 位置姿勢測定装置及び位置姿勢測定方法、複合現実感提示システム、コンピュータプログラム及び記憶媒体
US8098939B2 (en) * 2006-12-04 2012-01-17 Trend Micro Incorporated Adversarial approach for identifying inappropriate text content in images
US8254692B2 (en) * 2007-07-23 2012-08-28 Hewlett-Packard Development Company, L.P. Document comparison method and apparatus
US8244062B2 (en) * 2007-10-22 2012-08-14 Hewlett-Packard Development Company, L.P. Correction of distortion in captured images
JP4902568B2 (ja) * 2008-02-19 2012-03-21 キヤノン株式会社 電子文書生成装置、電子文書生成方法、コンピュータプログラム、および記憶媒体
US9160885B2 (en) 2009-07-02 2015-10-13 Hewlett-Packard Development Company, L.P. Skew detection
US8463041B2 (en) * 2010-01-26 2013-06-11 Hewlett-Packard Development Company, L.P. Word-based document image compression
US8665329B2 (en) * 2010-06-11 2014-03-04 Gianni Arcaini Apparatus for automatically ignoring cast self shadows to increase the effectiveness of video analytics based surveillance systems
US9158983B2 (en) 2010-07-08 2015-10-13 E-Image Data Corporation Microform word search method and apparatus
US8208726B2 (en) 2010-07-22 2012-06-26 Hewlett-Packard Development Company, L.P. Method and system for optical character recognition using image clustering
JP5636807B2 (ja) * 2010-08-12 2014-12-10 富士ゼロックス株式会社 画像処理装置及びプログラム
JP5948866B2 (ja) * 2011-12-27 2016-07-06 富士ゼロックス株式会社 画像処理装置及びプログラム
US20130298068A1 (en) * 2012-01-31 2013-11-07 Samsung Electronics Co., Ltd. Contents display method and mobile terminal implementing the same
JP5884560B2 (ja) * 2012-03-05 2016-03-15 オムロン株式会社 文字認識のための画像処理方法、およびこの方法を用いた文字認識装置およびプログラム
US9245205B1 (en) 2013-10-16 2016-01-26 Xerox Corporation Supervised mid-level features for word image representation
KR102240279B1 (ko) * 2014-04-21 2021-04-14 삼성전자주식회사 컨텐트 처리 방법 및 그 전자 장치
JP6208094B2 (ja) * 2014-08-26 2017-10-04 株式会社東芝 情報処理装置、情報処理システム、情報処理方法及びそのプログラム
US9454695B2 (en) * 2014-10-22 2016-09-27 Xerox Corporation System and method for multi-view pattern matching
JP6548920B2 (ja) 2015-03-09 2019-07-24 株式会社東芝 情報処理装置、情報処理方法及びプログラム
JP2017021695A (ja) 2015-07-14 2017-01-26 株式会社東芝 情報処理装置および情報処理方法
US10402673B1 (en) 2018-10-04 2019-09-03 Capital One Services, Llc Systems and methods for digitized document image data spillage recovery
CN109614971B (zh) * 2018-12-05 2023-04-18 山东政法学院 一种比对式文件检验仪
JP7242331B2 (ja) * 2019-02-18 2023-03-20 株式会社東芝 情報処理装置及びプログラム
TWI702547B (zh) * 2019-07-03 2020-08-21 利凌企業股份有限公司 車牌辨識方法及其系統
US11074473B1 (en) 2020-01-21 2021-07-27 Capital One Services, Llc Systems and methods for digitized document image text contouring
US11769323B2 (en) * 2021-02-02 2023-09-26 Google Llc Generating assistive indications based on detected characters
CN113642127B (zh) * 2021-08-13 2024-03-01 合肥工业大学 一种轴向移动绳索设备振动和能量的多周期计算方法

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2905927A (en) * 1956-11-14 1959-09-22 Stanley F Reed Method and apparatus for recognizing words
US3127588A (en) * 1959-04-24 1964-03-31 Bell Telephone Labor Inc Automatic reading of cursive script
US3133266A (en) * 1960-06-14 1964-05-12 Bell Telephone Labor Inc Automatic recognition of handwriting
US3295105A (en) * 1964-08-27 1966-12-27 Sylvania Electric Prod Scan control and normalization for a character recognition system
US3755780A (en) * 1971-06-28 1973-08-28 Pattern Analysis & Recognition Method for recognizing characters
GB1401008A (en) * 1971-08-17 1975-07-16 Mullared Ltd Character recognition apparatus
JPS5729745B2 (ja) * 1974-09-25 1982-06-24
US4105998A (en) * 1976-03-30 1978-08-08 Fujitsu Limited Pattern recognition processing system
US4155072A (en) * 1976-12-17 1979-05-15 Ricoh Company, Ltd. Character recognition apparatus
US4326190A (en) * 1978-08-30 1982-04-20 Borland David L Boundary trace slope feature detection system
US4377803A (en) * 1980-07-02 1983-03-22 International Business Machines Corporation Algorithm for the segmentation of printed fixed pitch documents
US4400828A (en) * 1981-03-27 1983-08-23 Bell Telephone Laboratories, Incorporated Word recognizer
US4495644A (en) * 1981-04-27 1985-01-22 Quest Automation Public Limited Company Apparatus for signature verification
JPS5947666A (ja) * 1982-09-13 1984-03-17 Dainippon Screen Mfg Co Ltd 2値画像のデ−タ圧縮方法
US4499499A (en) * 1982-12-29 1985-02-12 International Business Machines Corporation Method for identification and compression of facsimile symbols in text processing systems
US4558461A (en) * 1983-06-17 1985-12-10 Litton Systems, Inc. Text line bounding system
US4864628A (en) * 1983-08-26 1989-09-05 Texas Instruments Incorporated Method of optical character recognition
US4741045A (en) * 1983-09-23 1988-04-26 Dest Corporation Optical character isolation system, apparatus and method
US4701960A (en) * 1983-10-28 1987-10-20 Texas Instruments Incorporated Signature verification
DE3515159A1 (de) * 1984-04-27 1985-10-31 Canon K.K., Tokio/Tokyo Bildverarbeitungseinrichtung
DE3523042A1 (de) * 1984-06-28 1986-01-02 Canon K.K., Tokio/Tokyo Bildverarbeitungssystem
US4731857A (en) * 1984-06-29 1988-03-15 International Business Machines Corporation Recognition system for run-on handwritten characters
JPS61188681A (ja) * 1985-02-15 1986-08-22 Matsushita Electric Ind Co Ltd 文字認識装置
EP0194331B1 (en) * 1985-03-14 1990-07-18 Toppan Printing Co., Ltd. Inspecting device for print
US4764972A (en) * 1985-05-23 1988-08-16 Nec Corporation Continuous characters recognition system
US4918740A (en) * 1985-10-01 1990-04-17 Palantir Corporation Processing means for use in an optical character recognition system
US4817166A (en) * 1986-05-05 1989-03-28 Perceptics Corporation Apparatus for reading a license plate
GB2190778B (en) * 1986-05-19 1990-04-25 Ricoh Kk Character recognition with variable subdivisions of a character region
JP3014097B2 (ja) * 1987-02-20 2000-02-28 株式会社日立製作所 輪郭追跡方法及びシステム
JPS63268081A (ja) * 1987-04-17 1988-11-04 インタ−ナショナル・ビジネス・マシ−ンズ・コ−ポレ−ション 文書の文字を認識する方法及び装置
US4949281A (en) * 1987-04-23 1990-08-14 H. Berthold Ag Method and apparatus for generating and producing two-dimensional graphic object by polynominal parametric curves
JP2667435B2 (ja) * 1987-05-01 1997-10-27 株式会社リコー 領域抽出方法
US4809344A (en) * 1987-05-11 1989-02-28 Nippon Sheet Glass Co., Ltd. Apparatus for preprocessing of character recognition
JP2619429B2 (ja) * 1987-11-05 1997-06-11 グローリー工業株式会社 接触文字の分離方法
US5031225A (en) * 1987-12-09 1991-07-09 Ricoh Company, Ltd. Character recognition method for recognizing character in an arbitrary rotation position
JPH01183793A (ja) * 1988-01-18 1989-07-21 Toshiba Corp 文字認識装置
US4998285A (en) * 1988-03-11 1991-03-05 Kabushiki Kaisha Toshiba Character recognition apparatus
JPH06101049B2 (ja) * 1988-03-25 1994-12-12 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 文字列検出方法
JP2597006B2 (ja) * 1989-04-18 1997-04-02 シャープ株式会社 矩形座標抽出方法
JP2930612B2 (ja) * 1989-10-05 1999-08-03 株式会社リコー 画像形成装置
US5187753A (en) * 1989-12-08 1993-02-16 Xerox Corporation Method and apparatus for identification and correction of document skew
US5048109A (en) * 1989-12-08 1991-09-10 Xerox Corporation Detection of highlighted regions
US5129014A (en) * 1989-12-08 1992-07-07 Xerox Corporation Image registration
US5212739A (en) * 1990-10-17 1993-05-18 Hewlett-Packard Company Noise tolerant optical character recognition system
US5216725A (en) * 1990-10-31 1993-06-01 Environmental Research Institute Of Michigan Apparatus and method for separating handwritten characters by line and word

Also Published As

Publication number Publication date
US5687253A (en) 1997-11-11
EP0543590B1 (en) 2000-02-02
EP0543590A3 (en) 1994-05-18
JP3576570B2 (ja) 2004-10-13
DE69230631T2 (de) 2000-07-20
JPH05282495A (ja) 1993-10-29
DE69230631D1 (de) 2000-03-09
JP3453134B2 (ja) 2003-10-06
EP0543590A2 (en) 1993-05-26

Similar Documents

Publication Publication Date Title
JP3453134B2 (ja) 複数の記号ストリングの等価性を判定する方法
JP3259993B2 (ja) 語形測定方法及び画像信号処理方法
EP0543593B1 (en) Method for determining boundaries of words in text
CA2077970C (en) Optical word recognition by examination of word shape
US5390259A (en) Methods and apparatus for selecting semantically significant images in a document image without decoding image content
US5410611A (en) Method for identifying word bounding boxes in text
US5539841A (en) Method for comparing image sections to determine similarity therebetween
US5369714A (en) Method and apparatus for determining the frequency of phrases in a document without document image decoding
JP2933801B2 (ja) 文字の切り出し方法及びその装置
US20040136591A1 (en) Method and device for recognition of a handwritten pattern
JPH0660169A (ja) パターン認識と妥当性検査の方法及び装置
JPH01253077A (ja) 文字列検出方法
JP3428494B2 (ja) 文字認識装置及びその文字認識方法並びにその制御プログラムを記録した記録媒体
JPH08255223A (ja) 文字認識装置における類似文字判別方法
JPH10162102A (ja) 文字認識装置
JP2788506B2 (ja) 文字認識装置
JP2576350B2 (ja) 文字列抽出装置
JP2902097B2 (ja) 情報処理装置及び文字認識装置
JP2734387B2 (ja) 文字認識装置
JP3285837B2 (ja) 文字列の切り出し装置および方法
JP2963474B2 (ja) 類似文字識別方法
JP2832035B2 (ja) 文字認識装置
JP2918363B2 (ja) 文字分類方法及び文字認識装置
JPH0798747A (ja) 文字切出し装置
JPH0415776A (ja) 文字のサイズ情報抽出方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030708

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070718

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080718

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080718

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090718

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees