JPH07234918A - 文書のテキスト及び/または非テキストブロックの選択方法及び装置 - Google Patents
文書のテキスト及び/または非テキストブロックの選択方法及び装置Info
- Publication number
- JPH07234918A JPH07234918A JP6320955A JP32095594A JPH07234918A JP H07234918 A JPH07234918 A JP H07234918A JP 6320955 A JP6320955 A JP 6320955A JP 32095594 A JP32095594 A JP 32095594A JP H07234918 A JPH07234918 A JP H07234918A
- Authority
- JP
- Japan
- Prior art keywords
- text
- block
- components
- component
- forming
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1463—Orientation detection or correction, e.g. rotation of multiples of 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
させることを不要とし、テキスト及び非テキストブロッ
クを効果的に且つ効率的に選択する。 【構成】文書内の連続画素成分を識別し、識別された画
素成分をテキスト及び非テキスト成分に分離し、文書に
対して非テキスト成分のエッジに沿った可視及び不可視
線のサーチを行ない、識別されたテキスト成分と、可視
及び不可視線を用いて不規則形状のテキスト及び非テキ
ストブロックを形成し、各形成されたテキストブロック
からテキスト方向を検出し、検出された方向に基づいて
テキストブロックからテキストラインを抽出し、文書の
歪み角度を検出し、検出された歪み角度に基づいて形成
されたテキスト及び非テキストブロックを修正する機能
及び構成を有している。こうして形成されたテキストブ
ロックは例えば文字認識ルーチンに適用される。
Description
って行なわれる文字ブロックの処理のための方法及び装
置に関する。さらに詳しくは、認識に先立ち、画像デー
タのブロックが画像データの文字に基づいて分類され選
択される、文字ブロック処理方法及び装置に関するもの
である。例えば、画像データがテキスト画像データ(水
平及び/または垂直)か、それとも中間調(またはグレ
イスケール)画像、線画、表、垂直または水平線、フレ
ーム等の非テキスト画像データのいずれであるかに基づ
いて、画像データブロックが選択されて分類される。
て、テキストデータ内の個々の文字を認識したり、認識
した文字に対応する、コンピュータが読み取れる文字コ
ードファイルを作成することが可能になった。そうした
ファイルは、ワードプロセッシングや、データ圧縮、あ
るいはデータ処理プログラムで操作することができる。
そうしたシステムは、以下「文字認識システム」と称さ
れるが、リタイプもしくはテキストデータの再入力の必
要がなくなるため有益である。例えば、ファクシミリ送
信されたり複写機やマイクロフィルムで再現された文書
に対して文字認識を行なって、その文書の文字や数字の
文字コード(例えばASCIIコード)を含むコンピュ
ータファイルを作成し、リタイプや文書の再入力を必要
とせずに、更なるワードプロセッシングまたはデータ処
理を文書に対して行なうことが可能である。
なるタイプの画像データを含んでおり、それらの全てが
認識できるわけではない。例えば、現在、テキスト画像
データの認識が可能だとすると、一方で、非テキスト画
像データの認識は非常に困難である。通常、文字認識対
象の文書はテキスト画像データブロックと、中間調画
像、線画、線等の非テキスト画像データブロックとを含
んでいる。さらに、文書は表や、枠組があったり、また
は枠組みは無いがテーブル状に配置されたデータも含ん
でいる場合もある。従って、文字認識処理の前に、文書
内の個々のブロックをブロックの画像データのタイプに
基づいて分類し、テキストタイプのブロックを画像デー
タから選択することが必要である。
る。図1において、文書ページ101は2欄形式に構成
されている。ページには、タイトルに適切な大きいサイ
ズのフォントのテキスト情報を含むタイトルブロック1
02と、テキストデータのラインを含むテキストブロッ
ク104と、非テキストのグラフィック画像を含むグラ
フィックブロック105と、表のテキストまたは数字情
報を含む表ブロック106と、グラフィックまたは表情
報のブロックの説明文(caption)である小サイズのテ
キストデータを含むキャプションブロック107とが含
まれている。各情報のブロックはそこに含まれる情報の
タイプに基づいて分類され、その分類に応じて分割され
る。
キストタイプのブロックを検出するために、画像データ
における黒画素を水平及び垂直に展開して、水平及び垂
直に隣接する単数または複数の白画素に展開することで
画素画像データをにじませる(スミアー技術)ことが考
えられた。こうしたスミアー技術は、スミアーパラメー
タを適切に選択することができる様に、テキストタイプ
画像データの文字の予備知識(例えばフォントサイズ)
に依存しているため、不十分である。さらに、スミアー
パラメータの小さな変化で選択結果に大きな変化が生じ
る。スミアー技術はまた、必ず原稿文書の内部構造を保
持できるわけではない。例えば、スミアーにより2欄形
式の原稿が1欄に変わってしまうことがある。このよう
な状況は、テキストデータが格納されている順序を狂わ
せ、原稿テキストの正確な再構成を不可能にしてしまう
ことから、不都合である。さらに、スミアー技術では、
時折テキストタイプデータを非テキストタイプデータ中
ににじませ、全体の領域がテキストタイプデータとして
誤認識されることが知られている。
願の米国特許出願第07/873、012号では、格納
された文書内の文字ブロックを選択するための他の方法
が提案されている。そこでは、格納された文書に対し、
最初に所謂「結合成分(connected components)」のサ
ーチが行なわれる。これは、各画素の周囲の8方向のい
ずれかに存在する、2つ以上の画素が結合されたもので
ある。次に、テキスト結合成分は非テキスト結合成分か
ら分離されて、非テキスト結合成分は、例えば、表、中
間調画像、線画等として分類される。次に、文書の何ら
かの歪みの方向が検出され、もし歪みが垂直ならば画像
は90度回転され、結合成分のサーチが再び行なわれ
る。歪みの補正の後、テキストの適切なブロック、例え
ば欄が識別される様に、非テキスト成分のエッジに添っ
た目に見えない白ラインがサーチされる。その後、水平
テキスト列とタイトル列が形成され、水平テキスト列は
グループ化されて四角形に配置されたテキストブロック
になる。そして、後処理が行なわれて、更なる文字認識
処理のために、識別されたテキストブロックが準備され
る。07/873、012号は参照により本願に併合さ
れている。
ば英語文書)に適切であるが、1ページが水平及び垂直
テキストブロック(2方向)を含んでいる場合にも適用
可能である。例えば、日本語の文書は垂直な漢字文字と
表や数字記号などの水平な文字との組み合わせを含んで
いる。また、ある種の英語文書は特定の情報を強調した
り、所望の効果を提供するために、垂直に配置された文
字を含んでいる。
しば歪んでおり、上記のブロック選択技術では、最初に
歪みを識別して、テキストブロックを形成する前に画像
を回転させることでこの問題に対処している。この技術
を実用化する際には、処理速度と正確さにおいて2つの
実質的な問題となる。さらに詳しくは、上記のブロック
選択技術では、ブロック領域は四角形で表され、非テキ
ストブロックの境界もまた記録される。しかし、歪んだ
文書の場合、四角形はテキストブロック間の分離を不明
瞭にして、実際重なることもある。これにより、ブロッ
ク内のデータの誤分類が起こり、文字認識のエラーとな
ることもある。
認識され、テキストブロック形成の前に歪んだ文書を回
転させる必要の無い、格納文書におけるテキスト及び非
テキストブロックを効果的に且つ効率的に選択するため
の方法及び装置が求められている。これにより、処理時
間を節約し、認識精度を向上させる、より柔軟なブロッ
ク選択技術が提供される。
のであり、垂直及び水平テキストブロックを認識し、テ
キストブロック形成の前に歪んだ文書を回転させること
を不要とし、テキスト及び非テキストブロックを効果的
に且つ効率的に選択することを可能とするブロック選択
方法及び装置を提供することを目的とする。
不規則な形状の曲線で囲むことを可能とし、各ブロック
をより簡潔かつ明瞭に囲むブロック選択方法及び装置を
提供することを目的とする。
れば、格納された文書のテキスト領域と非テキスト領域
のブロックを分離する方法及び装置は、結合画素成分を
識別し、識別された画素成分をテキスト及び非テキスト
成分に分離する構成及び工程を備えている。好ましくは
非テキスト成分は、少なくとも所定の複数の非テキスト
分類の1つに分類される。そして、格納された文書に対
し、非テキスト成分のエッジに沿った可視線と不可視線
のサーチが行なわれる。そして、識別されたテキスト成
分と、可視線とを用いて、テキスト及び非テキストブロ
ックが形成される。続いて、各形成されたテキストブロ
ックに関する方向が検出され、検出されたテキスト方向
に基づいて、各検出されたテキストブロックからテキス
ト列が抽出される。テキストブロック形成後、抽出され
たテキスト列に基づいて、格納された文書に対する歪ん
だ角度が検出される。そして、形成されたテキスト及び
非テキストブロックは、検出された歪み角度に基づいて
修正される。
なテキストを有する、格納された文書におけるテキスト
ブロックを形成する方法及び装置は、結合画素成分を識
別して結合成分を水平及び垂直にグループ化する構成及
び工程を備えている。グループ化された成分に基づき、
歪み検出を行なわずに、不規則な形状の水平及び垂直テ
キストブロックが形成される。その後、各形成されたテ
キストブロックの歪み角度が検出され、文字認識などの
更なる文字処理のために、識別されたテキストブロック
が提供される。
スト情報と水平及び垂直テキスト情報を有する、格納さ
れた文書においてテキスト及び非テキストブロックを形
成する方法及び装置は、結合画素成分を識別して、識別
された画素成分をテキスト及び非テキスト成分に分離す
る構成及び工程を備えている。結合テキスト成分は水平
及び垂直にグループ化され、文書に対して、非テキスト
成分のエッジに沿った可視線及び不可視線のサーチが行
なわれる。そして、グループ化されたテキスト成分と可
視線及び不可視線に基づき、歪み検出を行なうこと無
く、不規則な形状の非テキストブロック及び不規則な形
状の水平及び垂直テキストブロックが形成される。そし
て、各形成されたテキストブロックの方向が検出され、
検出されたテキスト方向に基づいて、各検出されたテキ
ストブロックからテキスト列が抽出される。その後、形
成されたテキスト及び非テキストブロックの歪み角度が
検出され、検出された歪み角度に基づいて、形成された
水平及び垂直テキストブロック及び非テキストブロック
が修正される。
態様によれば、画素画像データから画素のブロックを選
択する選択方法が提供される。この選択方法は、画素デ
ータにおける連続成分の輪郭を描写する輪郭描写工程
と、連続成分を、サイズ及び他の連続成分との近接度に
基づいて、選択的に幅方向に結合してラインを形成す
る、第1の結合工程と、幅方向に結合されたラインを、
サイズ及び他のラインとの近接度に基づいて、選択的に
垂直に結合してブロックを形成する、第2の結合工程
と、前記第2の結合工程で形成されたブロックの周りに
不規則な曲線を形成する形成工程とを備える。
データにおける文字のテキストファイルを形成する方法
が提供される。この方法によれば、2値の画素画像デー
タを入力して格納し、格納された画素画像データのブロ
ックを選択し、格納された画素画像データにおける連続
成分の輪郭を描写し、輪郭描写された連続成分がテキス
トユニットまたは非テキストユニットを含んでいるかど
うか判定し、テキストユニットを、隣接するテキストユ
ニットの近接度に基づいて、選択的に幅方向に結合して
テキストラインを形成し、テキストラインを、隣接する
テキストラインの近接度と、テキストライン間の非テキ
ストユニットの位置とに基づいて、選択的に垂直に結合
してテキストブロックを形成し、テキストブロックを不
規則形状の曲線で囲み、前記輪郭描写工程で輪郭描写さ
れた連続成分に基づいて、テキストブロックの階層的な
ツリーを形成し、テキストブロックを少なくとも1つの
欄に適応的に分けることにより、ツリー化されたテキス
トブロックを画素データのラインに分割する。
有利な点は、以下の添付の図面に従う好適な実施例の詳
細な説明を参照することにより、さらに容易に理解され
るであろう。
実施例を説明する。
デオまたはスチルビデオカメラ、レーザビームプリンタ
等の、文字認識処理が望まれる画像処理または画像再生
装置などの様々な装置において実現される。そうした装
置では、文字画像を含む画像は、文字画像が文字認識処
理される様に処理または再生される。必要であれば、認
識された文字画像を標準化された文字セットまたはフォ
ントに換えて、原稿の文字画像ではなく標準化された文
字を再送信したり再生したりすることもできる。本発明
はまた、汎用コンピュータや、パーソナルコンピュー
タ、ワードプロセッシングまたはデータ処理機器等のオ
フィス機器、複数のビジネス機器ツールを1つの統合パ
ッケージにおいて結合した統合オフィスオートメーショ
ン機器等においても実現され得るものである。
す図である。図2において、IBM−PC(商標)また
はPC互換性を持つコンピュータ等のコンピュータ10
が示されており、コンピュータ10は、マイクロソフト
ウインドウズ・オペレーティングシステム(商標)等の
グラフィカル・ユーザインタフェース・オペレーティン
グシステムを備えている。コンピュータ10にはカラー
モニタ等の表示画面11が設けられている。コンピュー
タ10は、さらに、白黒、中間調、カラービットマップ
画像等のデータファイルを格納したり、コンピュータ1
0がデータファイルを操作したり、表示画面11を通じ
てデータをオペレータにファイルの形で提示するための
プログラム・インストラクション・シーケンスを含むア
プリケーションプログラムファイルを格納するための、
コンピュータディスクドライブ14等のマスク格納装置
を備えている。例えば、ディスクドライブ14上のアプ
リケーションプログラムは、光ディスク上のデータにア
クセスするアプリケーションプログラムや、他の情報処
理プログラムを含むものである。
画面11に表示されたデータの選択や操作を行なうため
のキーボード15がコンピュータ10に接続されてい
る。さらに、表示画面11上で処理対象物の選択や操作
を行なうための、マウス等のポインティングデバイス1
6が設けられている。スキャナ18は文書または他の画
像を走査して、例えば、それらの文書のビットマップ画
像をコンピュータ10に提供する。それらの画像はコン
ピュータ10により直ちに使用されるか、あるいはコン
ピュータ10はこれらの画像をディスクドライブ14へ
格納したり、または光ディスクドライブ20を介してデ
ィスク19等の光ディスクに格納する。引き続くコンピ
ュータ10による処理のために、ビットマップ画像デー
タはディスク19またはコンピュータディスクドライブ
14から検索される。電話リンク21またはネットワー
ク22を介して、コンピュータ10内の不図示のモデム
を通じて、ビットマップ画像データ及び他のデータを供
給するための他の手段も設けることができる。さらに、
取り外し可能なフロッピーディスクドライブを設けるこ
とも可能であり、または、不図示のビデオインタフェー
スを介して、デジタルまたはアナログのビデオ情報をコ
ンピュータ10に入力してもよい。
出力するために、プリンタ24が設けられている。
してオペレーティングシステムの制御下で、格納された
アプリケーションプログラムが選択的に作動され、入力
されたデータの処理や操作を行なう。例えば、以下に詳
細に説明する様に、文字認識プログラムは、オペレータ
がスキャナ18を介して文書画像をスキャン入力し、ス
キャンされた画像を光ディスク19へ格納するために動
作する。オペレータはオペレーティングシステム及びア
プリケーションプログラムに従って、スキャン入力した
文書を光ディスク19から検索することができる。
図であり、スキャニング、ファクシミリ、情報送信及び
受信、そして情報処理能力を有し、情報処理能力として
は選択的にワードプロセッシング及びデータ処理能力を
有する統合オフィスオートメーション機器に関するもの
である。
送信や、原稿のスキャン入力や、モデムを介した遠隔受
信等によって入力される。本実施例によれば、画像中の
文字を認識して、認識された文字のコンピュータテキス
トファイルを作成し、装置のワードプロセッシング、ス
プレッドシートプロセッシングまたは他の情報処理能力
を使用してテキストファイルを修正することができる。
修正されたテキストファイル(または修正を行なってい
ないテキストファイル)は再送信されたり、あるいは、
例えばテキストファイルをスピーカまたは通常の音声電
話機により音声再生するスピーチ合成技術を用いて出力
することができる。
セッサ等の中央処理装置(CPU)30がバス31と接
続されている。さらにバスには、画像を画素単位で画像
メモリ(例えば下記のRAM32)へスキャン入力する
スキャナ18、デジタルデータをアナログ形式で電話線
21aを介して送受信するモデム33、及び画像を電話
線21bを介して送受信するファクシミリ装置34(所
望により不図示の電話を含む)が接続されている。電話
線21a、21bは同じ線でもよいし、不図示のネット
ワーク制御部を通じて統合されていてもよい。バス31
には、さらに、CPU30に実行される単数または複数
のコンピュータプログラムを格納する読み取り専用メモ
リ(ROM)35、認識処理の間に入力された文字が参
照される文字の辞書を格納する文字ディクショナリ3
6、入力された画像データ、処理された画像データ、画
像構造に関する情報等を格納するランダムアクセスメモ
リ(RAM)32、文字認識処理の間に認識された文字
の識別が出力される出力装置37(ディスクメモリまた
はスピーカ/音声電話線インタフェースを有するスピー
チ合成装置)、本装置によって処理された画像を表示す
るプリンタ/表示装置24、及びオペレータが装置を制
御するためのキーボード15が接続されている。
フィスオートメーションツールに収納されているが、こ
れらの装置の幾つかあるいは全てが選択的にスタンドア
ロン形式で提供され得ることも明らかである。
34は、画像データを装置へ入力する選択的な形の入力
手段を構成している。スキャナ18を使用した場合、原
稿はライン単位、画素単位でスキャンされて、そしてC
PU30の制御下で、画像データの画素がRAM32の
画像メモリにビットマップメモリ形式で格納される。モ
デム33を使用した場合、画像データは電話線21aよ
りアナログ形式で受信され、モデム33によりデジタル
画素形式に変換され、RAM32の画像メモリに格納さ
れる。ファクシミリ34を使用した場合、画像データは
修正ハフマンランレングス符号化方式等で圧縮または符
号化された形で、電話線21bより受信される。圧縮画
像データは、ファクシミリ34によって公知の技術によ
りデジタル画像画素データに伸張(uncompressed)さ
れ、CPU30は画像データの画素をビットマップ形式
でRAM32の画像メモリに格納する。他の入力手段も
勿論使用可能である。例えば、画像データは、ディスク
メモリ等の大型記憶装置から簡単に検索して獲得するこ
とができ、また、ビデオまたはスチルビデオカメラから
得ることもできる。
認識された画像データを装置から出力するための選択的
な出力手段を構成している。ファクシミリ34を使用し
た場合、本実施例に従って認識処理された文字画像は標
準文字セットまたはフォントに変換され、装置から送信
することができる。これにより、例えば、文字画像を含
む画像の受信、文字画像の文字認識、再送信前に行なう
認識された文字の標準文字フォントへの変換が可能とな
り、劣化した画像品質を向上させる。
タの認識された文字の識別を、例えばASCIIコード
で出力したり格納するための選択的な手段である。文字
の識別は装置内に(ディスクメモリ内等に)格納され、
または送信のためにモデム33を介して遠隔ロケーショ
ンへ出力される。ASCIIコード等の文字の識別をフ
ァクシミリ互換性のある形式へと形式再変換するための
手段を設けることも可能で、ファクシミリ34を起動す
ることなく、モデム33を通じて離れて位置するファク
シミリ装置へ送信することができる。
ずれかのステップのための恒久的な記録を出力及び形成
するだけではなく、文字認識処理の過程を監視するため
の手段である。キーボード15は、オペレータが図3の
装置の操作を制御するためのものである。
有益に使用される1方法を理解するのに役立つ、全体的
な文字認識処理を示すフローチャートである。図4の処
理ステップは、プログラムROM35に格納されたコン
ピュータプログラムに従ってCPU30により実行され
る。
装置へ入力されRAM32へ格納される。画像データは
画像を画素単位で表現している。好ましくは、画素デー
タは2値画素データ、つまり白黒画像データである。し
かし、画像データは、各画素が複数のグレイスケールレ
ベルの内の1つで表現される中間調画像データであって
もよいし、各画素が、その色を符号化するマルチビット
ワードで表現されるカラー画像データであってもよい。
それらの場合または画素データが2値画素データではな
い他のいずれの場合でも、RAM32へ格納する前に、
非2値画素データを2値画素データへ変換するための閾
値処理が行なわれる。
た画素画像データはポートレートタイプの画像、つまり
左上隅から右下隅まで読んだ画像である。もし画像がそ
の様に構成されてない場合、例えば、ランドスケープタ
イプの画像である場合、画素画像データは、ポートレー
トタイプの画像を表現する様に翻訳される。翻訳は、画
像データを翻訳することを命じる、キーボード15を介
したオペレータ入力の命令に従って行なわれる。
理される。通常、劣化した文字や画像を向上させること
等により画像データを補強する様に前処理フィルタが使
用される。適切な画像補強技術は、同出願人による、1
991年10月4日出願の審査中の米国特許出願第07
/771、220号で説明されている。
処理の速度を上げるために、可能な程度に精度とコスト
を落として、画素画像データの画素数を減らすか、圧縮
を行なってもよい。例えば、m×nブロックの画素(m
とnは異なる)の画素値を平均して、そのm×nブロッ
クの平均値の単一の画素に変換することを行ってもよ
い。
トにおける画像データのタイプを特徴付け、テキスト情
報、グラフィックス情報、ライン画像情報、写真情報等
の情報のブロックを指定して識別するために、ブロック
選択が行なわれる。さらに、ステップS403のブロッ
ク選択では、画像の各部分が、後述のステップS412
で説明される様な適切な順序に再構成される様に、階層
的ツリー構造への画像の配置も行なわれる。例えば、階
層的ツリー構造には、2つの欄の画像データが、欄1よ
りのテキストが欄2よりのテキストへ読み込まれるのを
防止する様に、欄1のテキストを欄2のテキストに先行
して再構成する情報が含まれている。ステップS403
によるブロック選択を以下に詳細に説明する。
された画像から選択され、ステップS404では、それ
がステップS403で決定されたブロック識別に基づい
てテキストブロックか否かが決定される。その最初のブ
ロックがテキストブロックではない場合、ステップS4
05へ進み、次のブロックが選択されて、ステップS4
04へ戻る。
ブロックである場合はステップS406へ進み、テキス
トブロックに対しライン分割が行なわれる。ライン分割
では、テキストブロックにおけるテキストの個々のライ
ンがテキストブロックのテキストの他のラインから分割
されて、分割されたラインは、次に詳細に説明される様
に順次処理される。
字が、そのラインの他の文字から切り離しあるいは分割
され、個々の文字が次に詳細に説明される認識処理ルー
ティンに提供される。
て認識処理が文字単位で行なわれ、各文字は、文字ディ
クショナリ36に格納された標準文字と公知の技術で比
較される。文字ディクショナリ36のエントリは、通常
単一の文字に対するものであるが、ある文字の連続は切
り分けるのが困難であり(例えば「fi」)、また単一
の文字も時折不用意に切れるので(例えば「j」)、文
字ディクショナリは一文字以外の他のエントリも有して
いる。得に、ディクショナリは切り離しが困難な接触文
字の組のためのエントリを有している。さらに、ティク
ショナリはしばしば不用意に切れる文字の部分のための
エントリも有している。
別が選択されて、RAM32へ格納されるか、または出
力装置37へ出力される。また、所望により、識別され
た文字をプリンタ/表示装置24上で表示してもよい。
に対する処理が完了したかどうかを判定する。処理が完
了していない場合は、ステップS406(または、ステ
ップS407が適切ならばステップS407)へ戻り、
更なるライン分割または文字分割処理を行なう。ブロッ
ク処理が完了すると、ステップS410へ進んで、ペー
ジに対する処理が完了したかどうかを判定する。ページ
の処理が完了していない場合は、ステップS405へ戻
り、そこで同じページの次のブロックが処理のために選
択される。
10からS411へ進み、後処理が行なわれる。後処理
にはコンテクストチェッキングやスペルチェッキング等
の技術が含まれ、ステップS408において実行された
処理の様に個々の文字に基づくよりはむしろ、それらの
文字の識別が生じるコンテクスト(全体的観点)に基づ
いて、ステップS408の認識処理で認識された文字の
識別結果が修正される。
ック選択ステップS403で規定されたツリー構造に基
づいて再構成される。ページ再構成により、画像データ
は、適切な順序に変換される。例えば、脚注は本文テキ
ストから切り離され、欄は他の欄と混合されるというよ
りは、むしろその欄の後へと続き、グラフィックまたは
線画データはページの認識された文字テキストにおける
適切な位置へ挿入される。
連する説明文(caption)はそれらの画像に隣接して挿
入される。他のルールも適用可能である。例えば、ペー
ジの物理的再構成は必要ではない場合に、ページからテ
キストを抽出するために再構成を行なう、ということも
可能である。
ジは例えば出力装置37に格納される。そして、ROM
35に格納された他のアプリケーションプログラムに従
い、CPU30により実行される形で、スプレッドシー
トやワードプロセッシング等の情報処理が行なわれる。
続いて、処理された情報(または必要であれば処理を行
なっていない情報)は、様々な手段により、例えばファ
クシミリ34、モデム35、またはコンピュータテキス
トファイルを音声再生するスピーチ合成装置による通常
の音声電話機により、再送信される。
ロック選択処理を説明するための全体的なフローチャー
トである。ただし、ブロック選択処理は文字認識システ
ムとは別に使用される。例えば、画像再生機器におい
て、あるタイプのブロックに用いられる第1の画像再生
方法を生じ、次のタイプのブロックに用いられる第2の
画像再生方法を生じるため、またはデータ圧縮方式にお
けるブロック選択を使用するために、ブロック選択処理
を用いることが可能である。
度を上げることが必要であれば、画像補強及び/または
データ縮小を行なうことができる。データ縮小が行なわ
れると、ブロック選択は縮小された画像に対して行なわ
れる。しかし、図4の文字認識処理(つまりステップS
404〜S413)に影響を与えない様に、ブロック選
択処理の終了時点で、選択されたブロックは縮小されて
いない画素画像データに対して適用される。
黒画素の連続性を評価することにより進められる。例え
ば、3×3画素のブロックにおいて2つの連続する黒画
素が存在すれば、その3×3画素ブロックは単一の黒画
素に縮小される。逆に、3×3画素ブロックに2つの連
続する黒画素が存在しなければ、その3×3画素ブロッ
クは単一の白画素に縮小される。好ましくは、4×4画
素ブロックの黒画素の評価が行なわれる。この原理は原
画像の連続性を保持するためのものである。
た、連続成分が検出され、その大きさ及び他の連続成分
との相対的位置に基づいて、検出された連続成分が分類
される。連続成分は白画素によって完全に囲まれた黒画
素のグループである。従って、連続成分は、少なくとも
1つの白画素によって他の黒画素のグループから分離さ
れた黒画素のグループである。図6を参照して詳細に後
述するが、ステップS51では連続成分(各画素を囲む
8方向の内いずれかで連続した成分)の検出が行なわれ
る。ステップS52では、連続成分から得られたサイズ
情報及びある統計上の値(下記に詳説する)に基づい
て、各連続成分に分類が割り当てられる。詳細は後述す
るが、各連続成分はテキストユニットまたは非テキスト
ユニットとして分類される。ステップS53において、
非テキストユニットは更なる分類に掛けられ、フレーム
データか、中間調画像か、線画か、表かまたは他のテー
ブル状の構造のテキストデータか、垂直線か、水平線
か、垂直または水平な斜線であるか、または未知の分類
に相当するかどうかが、その厚さや黒画素の割合に基づ
いて判定される。連続成分の組織的データを提供し、ス
テップS412で前述した様にデジタルデータの再構成
を助成するために、各連続成分に対して階層ツリー構造
が展開される。
のエッジに沿って不可視線(白線)がサーチされる。こ
のような不可視線を使用する理由は、テキスト欄の間の
距離が、同じページの大抵の欄の隙間よりも例外的に狭
いものがあるためである。こうした不可視線の検出は、
後で隣接するテキスト連続成分が実際は同じブロック内
にグループ分けされるべきかどうかを判定するのに役立
つ。
類することができなかった非テキストユニットが分析さ
れて、大きいフォントサイズのタイトルであるかどうか
が判定される。タイトルである場合は、ユニットは適切
に再指定されて、ツリー構造が更新される。タイトルは
ステップS412におけるページ再構成に役立つもので
ある。未知の非テキスト及びステップS52、S53で
識別されたテキスト成分をグループ化することにより、
水平または垂直方向にタイトルラインが形成される。こ
のグループ化の前に、グループ化されると想定される成
分の間の距離と、タイトルが水平または垂直である場合
に可能なタイトルの長さとに基づいて、グループ化の方
向が決定される。
トブロックがテキスト連続成分から形成される。ステッ
プS57では、形成されたテキストブロックを可視線ま
たは不可視線が横切っていた場合、テキストブロックは
分割される。これらの線を使用する理由は、極端に狭い
欄間の隙間のためだけではなく、異なるブロックのテキ
スト連続成分の間の距離が、斜めの場合に、特に不可視
または可視線がそれらを分けている場合に、それらの成
分が1グループにするのに十分に短くできるためであ
る。
の方向が検出される。この様に、本実施例によれば、テ
キストブロックが形成される前には歪み検出も画像回転
も行なわれることはない。こうして、一般のブロック選
択アルゴリズムとは異なり、本実施例は予め歪み検出や
画像回転を行なうことなく、ページ画像に直接テキスト
ブロックを形成する。これにより、画像回転に費やされ
る時間が節約され、歪み検出による不正確さを避けるこ
とができる。さらに、ある特殊な視覚効果を達成するた
めに、同じページのテキスト領域の幾つかを、特別に斜
めに編集することも可能である。こうした場合、歪み検
出及び画像回転は、ページ画像を直立スタイルに修正す
るのに役立つことになる。こうして、本実施例によれ
ば、テキスト及び非テキストブロックは、スキャンされ
たページの歪みに係わり無くサーチされる。テキストブ
ロックが形成された後、各テキストブロックの歪み方向
が個別に識別される。
方向に基づいて、各テキストブロックのテキストライン
が形成される。ステップS60では、テキスト及び非テ
キストブロック表現をより簡潔で明瞭にするために後処
理が行なわれる。例えば、以前のブロック選択アルゴリ
ズムは四角形で表現されたテキストブロックを形成する
ものであった。しかし、歪んだ文書の場合、そうした四
角形ではテキストブロックの分離が不明瞭になる。テキ
ストブロックの四角形領域が重なる場合にテキストブロ
ック間の分離を明白にするために、本実施例では各テキ
ストブロックをより簡潔に囲む不規則な形状の曲線を提
供するものである。この曲線による囲みは表示効果を補
強するだけではなく、ブロック画像の抽出にも有効であ
る。テキストブロックを囲む不規則形状の曲線は、テキ
ストブロック形成ステップS56でテキストブロックが
新たに形成または更新される度に形成することができ
る。
のステップS51〜S53の処理を詳細に示すフローチ
ャートである。このフローチャートには、画素画像デー
タの連続成分がどの様にして検出されるか、またそれら
の連続成分がどの様にして分類されるかが示されてい
る。図6A〜図6Dの各処理ステップは、プログラムR
OM35に格納されたプログラムステップに従ってCP
U30により実行されるものである。
により画素画像データの連続成分が検出される。輪郭ト
レーシングは図7Aに示す様な画像データをスキャンす
ることにより行なわれる。スキャニングは矢印Aで示さ
れる様に画像の右下部から左へと進み、画像の右の境界
に到達するまで続く。スキャニングは、例えば左上から
右下へ向けたり、他の方向へも行なうことができる。黒
画素があると、隣接する画素が符号71で示される様な
放射状のパターンになった順序で調べられ、黒画素の隣
接画素も黒画素であるかどうかが判定される。放射状パ
ターン71は共通の中心から延びる8つの番号の付いた
ベクトルを持つので、以下この輪郭トレーシングは「8
方向」トレーシングと称される。隣接する黒画素が見つ
かると、処理は上述の様に画像の外郭のトレースが終わ
るまで進められる。こうして、図7Bに示す様に、矢印
Aの方向のスキャニングは文字「Q」の尾の部分に対応
する点72を突き止める。隣接画素の捜査は、文字
「Q」の外郭がトレースされてしまう様に、放射状パタ
ーン71に従って進められる。閉じた輪郭の内側の部分
はトレースが行なわれない。
方向トレーシングによりトレースされた後、スキャニン
グは次の黒画素が見つかるまで進められる。こうして、
例えば、完全に黒く塗りつぶされた領域を表すオブジェ
クト74が8方向トレースされる。同様に、単語「non-
text」を示す手書き文字の非テキストオブジェクト75
が、単語「text」を形成する個々の文字からなるテキス
トオブジェクト76における個々の単語と同様にトレー
スされる。図7Aに示すスキャニングは画素データの全
ての連続成分が検出されてその輪郭が8方向トレースさ
れるまで続けられる。
成分が四角形化される。詳しくは、各連続成分の周りに
最小の可能な四角形が描かれる。こうして、図7Bに示
す様に、四角形77がオブジェクト72の周りに、四角
形79がオブジェクト74の周りに、四角形80がオブ
ジェクト75の周りに、そして四角形81a、81b、
81c、81dがテキストオブジェクト76a、76
b、76c、76dの周りに夫々描かれる。
四角形に割り当てられる。殆どの部分について、ステッ
プS603で得られたツリー構造は画素画像における各
オブジェクトに対し直接ツリーの根から進んでいる。こ
れは、連続成分の外郭のみがトレースされ、閉じた輪郭
の内側の部分はトレースされないためである。この様
に、図7Cに示す様に、連続成分72に相当する四角形
77はページの根から直接進んでいる。しかし、非テキ
ストオブジェクト75に相当する四角形80や、テキス
トオブジェクト76a、76bに相当する四角形81
a、81bの様な、その四角形が他の連続成分の四角形
の中にすっかり収まっている連続成分については、そう
した連続成分を囲んでいる成分(この場合成分74)か
らの末裔として指定されている。さらに、少なくとも1
つの枝分れ成分を持つ各連続成分については、その成分
自身からの「主末裔成分」として指定されている。この
様に、成分79は他の末裔成分80、81a、81bの
中に自身79からの主末裔成分として指定されている。
ベルにある連続成分が、テキストユニットまたは非テキ
ストユニットに分類される。分類は2つのステップで進
む。最初のステップでは、連続成分の四角形が所定の大
きさの閾値と比較される。連続成分を囲む四角形の高さ
及び幅が最大フォントサイズに相当する第1の所定閾値
より大きい場合、連続成分は非テキストユニットと分類
されて「非テキスト」属性がユニットに与えられる。
まりまだ非テキストとして分類されていないユニット
が、残りの全ての連続成分の集合的なサイズに基づいて
適応的に決定された閾値と比較される。詳しくは、非テ
キストの指定がされていない全ての四角形のうちで通常
のテキストサイズの大きい方(12pt)及び中間のサ
イズ(中間の高さと中間の幅のうち小さい方の四角形が
選択される。選択された値はスカラーで乗算され(説明
の都合で、1.5として選択されている)、高さ及び幅
について適応的に決定された閾値とされる。決定された
閾値より大きい全てのユニットは非テキストであると推
定され、その様に分類される。一方、適応的に決定され
た閾値のいずれかより小さく所定のテキスト特性に合う
ユニットはテキストと推定される。ユニットはこの様に
分類され適切な属性が与えられる。これらの分類は図6
A〜図6Dの残りで述べられる様な精密な分類であり、
下記により詳細に説明する。
ストまたは非テキストとして分類された後、テキストユ
ニットの主末裔成分を含む全ての末裔成分がテキストユ
ニットとして分類される。非テキストユニットの主末裔
成分は非テキストとして分類されるが、非テキストユニ
ットの他の末裔成分はテキストユニットとして分類され
る。
選択される。ステップS606で、そのユニットがテキ
ストユニットである場合は、ステップS607へ進んで
次のユニットが選択される。非テキストユニットが選択
されるまでステップS606〜S607が繰り返され、
非テキストユニットが選択された時点でステップS60
8へ進む。
トが調べられ、そこからの末裔が存在するかどうかが判
定される。例えば、図7Cに示す様に、非テキストユニ
ット79は非テキスト主末裔79とテキスト末裔80、
81a、81bを含んでいる。
存在する場合、ステップS609へ進み、そのユニット
がフィルタ処理され、そのユニットが中間調(またはグ
レイスケール)ユニットであるかどうか決定する。中間
調フィルタリングでは、ユニットの末裔が調べられ、
「ノイズサイズ」ユニットより小さいサイズの末裔の数
が決定される。「ノイズサイズ」ユニットは、画像デー
タについて予測された最小フォントサイズよりも小さい
高さ及び幅を持つユニットである。ノイズサイズより小
さいサイズの末裔の数が末裔の総数の過半数である時、
ユニットは中間調画像であると判定される。従って、ス
テップS610よりS611へ進んで、「中間調」の属
性が当該ユニットに与えられる。そしてステップS60
7へ戻り、処理のために次のユニットが選択される。
でユニットが中間調画像ではないと判定されると、ステ
ップS610からS613へ進んで、ユニットからの主
末裔が更なる処理のために選択される。そしてステップ
S614へ戻る。
末裔が存在しないと判定されると、あるいはステップS
613で主末裔が更なる処理のために選択されると、ス
テップS614でその主末裔にフレームフィルタリング
が行なわれる。フレームフィルタリングは、問題のユニ
ットがフレームであって、ユニットを囲む四角形の幅及
び/または高さと夫々ほぼ等しい平行な水平線及び平行
な垂直線を含んでいるかどうかを判定する様に設計され
る。特に、連続成分が調べられて、画素の各列につい
て、ユニット内の連続成分の内側の部分をつなぐ最長の
距離が決定される。こうして、図8Aに示す様に、非テ
キストユニット82は連続成分83を含み、その輪郭は
84で示される様に8方向トレースされている。列
「i」については、連続成分の内部をつなぐ最長距離は
輪郭の左の境界85aから右の境界85bまでの距離X
iである。一方、列「j」については、連続成分の内部
をつなぐ2つの距離が存在する。つまり連続成分の境界
上の点86a、86b間の距離と、点87a、87b間
の距離である。点86a、86b間の距離の方が点87
a、87b間の距離よりも長いため、距離Xiは列jに
関する連続成分の内部をつなぐ最長距離である。
の各々について、「x」距離が求められ、非テキストユ
ニットがフレームであるかどうかを判定するために次の
不等式がテストされる。
内部をつなぐ最長の距離であり(上記の通りである)、
Wは四角形ユニット82の幅であり、Nは列数であり、
そしてたとえ画像においてフレームが歪んでいたり斜に
なっていてもフレームの検出ができる様に、閾値が予め
算出されている。1°の歪みまたは傾斜角度を許容する
ためには、「sin(1°)×L+ステップS604で
計算された平均テキスト高さに等しいオフセット」で満
足な結果が得られることがわかる。
はフレームデータと判定され、ステップS615からS
616へと進み、「フレーム」属性が当該ユニットに与
えられる。
表またはテーブル状に組織されたデータを含んでいる可
能性を検討する。こうして、ステップS617(図6
B)で、連続成分の内部が調べられて白輪郭が得られ
る。
郭と同様であるが、黒画素よりも白画素が調べられる。
こうして、図9Aに示す様に、非テキストユニットの内
部が、矢印Bの方向に右下部から左上に向けてスキャン
される。最初の白画素が見つかると、その隣接画素が放
射状パターン91に示される順序で調べられる。ただ
し、放射状パターン91は1から4まで番号が付けられ
たベクトルを有している。従って、このステップに従っ
た白輪郭トレーシングは以下「4方向」白輪郭トレーシ
ングと称される。白輪郭トレーシングは、黒画素に囲ま
れた全ての白輪郭がトレースされるまで4方向に行なわ
れる。例えば、白輪郭トレーシングは、96で示され
る、一般に指定された黒画素の様な、内部の他の黒画素
に加えて黒画素セグメント92、93、94、95の内
部輪郭を形成している画素に続くものである。白輪郭が
見つかる度に、非テキストオブジェクトに囲まれた全て
の白輪郭がトレースされるまで、スキャニングが上述の
様に矢印Bの方向に進められる。
トの密度が計算される。密度は、連続成分の黒画素数を
数えて、その黒画素数を四角形に囲まれた画素の総数で
除算することにより求められる。
ト内で見つかった白輪郭の数が調べられる。白輪郭数が
4以上の場合は、非テキストユニットは実際は、表また
はテーブル状に配置されたテキストブロックの連続であ
る可能性がある。従って、ステップS620(図6D)
で、白輪郭フィリング率が決定される。白輪郭フィリン
グ率は、白輪郭が非テキスト画像で囲まれた領域を埋め
る度合いである。図9Aに示す様に、白輪郭フィリング
率は、黒画素が見つかる白空間である100や101の
様な領域に加えて、完全に空白の空間である97や99
の様な斜線領域を含んでいる。フィリング率が高いと、
非テキスト画像が表またはテーブル状に配されたテキス
トデータのシーケンスである可能性がある。従って、ス
テップS621でフィリング率が調べられる。フィリン
グ率が高いと、非テキスト画像が表またはテーブル状に
配されたテキストデータのシーケンスである可能性があ
る。この判定の信頼度を増すためには、白輪郭が調べら
れて、それらが水平及び垂直に拡がるグリッド状の構造
を形成しているかどうかが判定される。詳しくは、ステ
ップS622では、非グリッド配列の白輪郭は、その境
界が少なくとも2つの輪郭を横切って水平及び垂直に延
びていない場合は再結合される。例えば、図9Aに示す
様に、白輪郭99の左の境界102と右の境界103
は、白輪郭100の左の境界104と右の境界105に
一致する様に垂直に拡がっている。従って、これらの白
輪郭はグリッド構造に配置されているので、これらの白
輪郭は再結合されない。同様に、白輪郭103の上部の
境界106と下部の境界107は、白輪郭110の上部
の境界108と下部の境界109に一致する様に水平に
拡がっている。従って、これらの白輪郭はグリッド状構
造に配置されているので、これらの白輪郭は再結合され
ない。
態を説明するための図である。図9Bは、例えば、ステ
ップS401において前述した様に中間調画像を2値画
像に変換する閾値計算を通じて形成される、非テキスト
ユニット111を示している。非テキスト画像111
は、白領域114、115、116、117、118、
119に加えて黒領域112を含んでいる。推定上、こ
れらの白領域のフィリング率は、ステップS621から
再結合ステップS622へ進める様に、十分に高くなっ
ている。最初に、図9Bに示す様に、白輪郭115の上
下境界が白輪郭117の上下境界と比較される。これら
の上下境界は一致しないので、図9Cに示す様に白輪郭
115は白輪郭116と再結合されて、結合された白輪
郭116’を生成する。図9Cにおいて、白輪郭117
の左右境界が白輪郭118の左右境界と比較される。こ
れらの境界は同じではないため、図9Dに示す様に、白
輪郭117と119は単一の白輪郭117’に再結合さ
れる。
平及び垂直に反復される。
郭は再結合される可能性が低く、非テーブルの白輪郭、
例えば中間調画像または線画は再結合される可能性がよ
り高い。従って、ステップS623で、再結合率が調べ
られる。再結合率が高い場合、またはステップS621
でフィリング率が低い場合、非テキストフレームユニッ
トは斜線、未知の画像(an unknown)、中間調画像また
は線画である可能性があり、ステップS628へ進んで
非テキストユニットは表ではないとの指定がされて、後
述のステップS642A(図6B)へ進む。
合は、ステップS624へ進み、非テキスト画像は「表
類」として指定される。ステップS625では、8方向
に連続成分を検出して分類する様に、新たに指定された
表の内部が調べられる。ステップS626では、新しい
内部の連続成分に基づいて、階層構造が更新される。ス
テップ627では、内部の連続成分はテキストまたは非
テキストとして再分類され、ステップS602〜S60
4で前述した様に、適切な属性が与えられる。ステップ
S627の後、表内部のテキスト連続成分が線描画、中
間調画、または未知の画であるかがサイズ、密度等に基
づいて更に分類される。フレーム内部の非テキスト連続
成分及び線描画内部の非テキスト連続成分も、ステップ
S608以降に説明した様に、更に分類される。
テップS621でフィリング率が高くない場合、または
ステップS623で再結合率が高い場合は、非テキスト
フレームユニットは斜線、未知の画像、中間調画像また
は線画、つまり表ではない可能性がある。
4より少なければ、フレームユニットは表ではないと考
えられる。従って、ステップS642Aへ進んで、フレ
ーム及び密度が約0.5に等しい閾値より小さいかどう
かが判定される。閾値は、フレーム内部のテキストユニ
ットまたは線画が画素の半分より少ないとの推測に基づ
いて選択されたものである。フレーム及び密度が閾値よ
り小さい場合、上述のステップS625〜S627へ戻
り、その後、ステップS607へ進んで、次のユニット
の選択が行なわれる。
び密度が所定の閾値より小さい場合、ステップS642
へ進み、フレームユニットが線画または中間調画像に分
類できるかどうか、あるいはフレームは分類できないか
(つまり、フレームは「未知の画像」である)どうか
が、より詳細に後述される様に決定される。
テップS614におけるフレームフィルタリングで非テ
キストユニット内のフレームが検出されなかった場合、
ステップS635(図6B)へ進み、非テキストユニッ
トがラインを含んでいるかどうかが判定される。ライン
はテキスト境界を表す有用な非テキストユニットであ
る。しかし、そうしたラインにより境界が引かれている
テキストは、しばしばラインと近接しているため、その
テキストをラインに結びつけることが可能である。従っ
て、テキストが近接した、またはテキストが近接してい
ないラインを検出する様に、ライン検出が指定される。
トの長さ方向で非テキストユニットのヒストグラムが計
算される。図8Bに示す様に、あるラインのヒストグラ
ム88は、ライン幅にほぼ等しい高さの、明らかに均一
な分配を示している。ラインの幅は非テキストユニット
の幅(W)にほぼ等しい。いずれの差異も、画素画像が
形成される時に原稿文書が歪んでいた場合に結果として
生じる傾斜角度θsによるものである。従って、非テキ
ストユニットがラインを含んでいるかどうかを判定する
ためには、ヒストグラムにおける各cellkが、非テ
キストユニットの幅Wと比較される。次に示す様に、こ
れらの値の二乗平均の平方根の差が、閾値と比較され
る。
歪みまたは傾斜角度θsを許容するために算出されるも
のである。1°の歪みまたは傾斜角度に対しては、
る。
つからない場合、そのユニットがテキスト近接ラインを
含んでいるかどうかが判定される。テキスト近接ライン
が非テキストユニットに含まれているかどうかを判定す
るにために、テキストユニットが調べられて、あるライ
ンがユニット境界に沿って縦に延びているかどうかが判
定される。詳しくは、もしあるラインがユニットの縦方
向に延びていれば、図8Cに示す様に、ユニットを囲む
四角形の境界がそのラインの非常に近くにあるというこ
とになる。従って、四角形の境界内にある最初の複数の
黒画素における均一性が、境界からの距離の二乗の数の
合計を計算することによって調べられる。このように、
図8Cを参照すると、次の不等式がテストされる。
テキストが接着したラインが見つかったことになる。接
着物の無いラインに対して得られた閾値と同じ閾値で、
満足する結果を得ることができる。
と、ステップS636からS637Aへ進んで、「ライ
ン」の属性が非テキストユニットに与えられる。そして
ステップS607(図6A)へ戻り、次のユニットが選
択される。
れない場合、ステップS636からS637へ進んで、
非テキストユニットの大きさが調べられる。サイズが所
定の閾値より大きくなければ、非テキストユニットの分
類は決定できない。閾値は最大フォントサイズ及び文書
タイプ(水平、垂直、または両者混合)によって設定さ
れる。最大フォントサイズの半分だと満足な結果が得ら
れる。従って、ステップS638へ進んで「未知」の属
性が非テキストユニットに与えられ、ステップS607
(図6A)へ戻って、次のユニットが選択される。
大きければ、ステップS617、S618、S619へ
進み、前述の様に、非テキストユニットの内部の白輪郭
がトレースされ、非テキストユニットの密度が計算さ
れ、白輪郭数が調べられる。
くなければ、上述の様にステップS642A、S642
へ進む。ステップS642ではユニットのサイズが計算
されて、線画または中間調画像を構成できる程大きいか
どうかが判定される。このサイズ判定は、黒画素の最大
ランレングスに加えて、非テキストユニットの高さ及び
幅と文書タイプ、に基づいて行なわれる。例えば、非テ
キストユニットの高さ及び幅が最大フォントサイズより
大きくない場合は、その非テキストユニットは中間調画
像または線画になる程大きくはないため、ステップS6
43へ進み、「未知」の属性が与えられる。さらに、非
テキストユニットの幅は最大フォントサイズより大きい
が黒画素の最大ランレングスは最大フォントサイズより
大きくない場合も、ステップS643へ進み、「未知」
の属性が与えられる。そしてステップS607(図6
A)へ戻り、新たなユニットが選択される。
が線画または中間調画像になる程大きい場合、ステップ
S643Aへ進み、非テキストユニットが水平または垂
直の傾斜したラインであるかどうかが判定される。その
後、ステップS644へ進み、非テキストユニットが線
画か中間調画像であるかが判定される。ユニットが線画
として、または中間調画像として分類されるかどうか
は、ユニット内の黒画素の平均水平ランレングス、ユニ
ット内の白画素の平均水平ランレングス、白画素対黒画
素の比、及び密度に基づいて判定される。一般に、非常
に暗い画像は中間調画像と考えられ、明るい画像は線画
と考えられる。
ロにほぼ等しく(つまり、暗い部分が優勢または点描画
の様な場合)、ステップS618で算出される様な密度
が、ユニットが白より黒の方が強く(つまり、約1/2
に等しい第1の閾値より密度が高い)、そして殆どの列
が長い黒ランレングスを含んでいることを示す場合は、
フレームユニットは中間調画像であると判定される。密
度が第1の閾値よりも高くない場合は、ユニットは線画
であると判定される。
しくはなく、白画素の平均ランレングスが黒画素の平均
ランレングスより大きく、そして殆どの列に長い黒ラン
レングスが含まれていない場合は、フレームユニットは
線画であると判定される。しかし、白画素の平均ランレ
ングスが黒画素の平均ランレングスより大きくない(つ
まり、再び、暗い部分が優勢な画像である)場合、更な
るテストが必要である。
少ない場合(つまり、白画素数で割った黒画素数が、2
に等しい第2の閾値より大きい場合)、フレームユニッ
トは中間調のユニットであると判定される。一方、白画
素数で割った黒画素数は第2の閾値より大きくないが、
ステップS618で求めた密度が第1の閾値より大きい
場合は、ユニットは中間調画像であると判定される。そ
うでなければ、ユニットは線画であると判定される。
画であると判定されると、ステップS645へ進み、
「線画」の属性が与えられ、ステップS646で全ての
末裔成分が現在の親成分から移動されて、2代前の親の
直接の末裔とされる。詳しくは、一度ユニットが線画で
あると判定されると、文字認識のためにいずれのブロッ
クも線画から選択されることはない。その後、ステップ
S625、S626、S627へ戻り、それからステッ
プS607で次のユニットが選択される。一方、ステッ
プS644でユニットが線画ではないと判定されると、
ステップS647へ進み、「中間調」の属性が与えら
れ、ステップS648で全ての末裔成分が現在の親成分
から移動されて、2代前の親の直接の末裔とされる。そ
して、ステップS607へ戻り、次のユニットが選択さ
れる。
キストユニットに加えて、傾斜した垂直ライン及び水平
ラインを、その厚さや完全性に基づいて識別する。
入れることも可能である。詳しくは、テキスト文字が下
線より分離されるような、ライン近接物分離機能の実行
が可能である。2番目の機能としては、点線、破線、ま
たは装飾された線(直線でも斜線でも)の検出が実行可
能である。
いは他のテキストのサイズの近接物)が、何らかの非テ
キスト成分(直線、水平線、フレーム等)に付随してい
るように見える所に取り入れることができる。例えば、
テキスト文字が下に引かれた水平線に近接しているよう
に見える場所では、テキスト文字がテキスト連続成分と
して特徴付けられ、ライン画素が非テキスト連続成分と
して検出される様に、テキスト文字をラインから切り離
す必要がある。
法は、まずそうした近接物の存在を検出することで実行
される。ラインの場合、ラインの片側のエッジはスムー
ズであると判定され、しかし反対側のエッジはスムーズ
ではないと判定された場合、そのスムーズでない方のエ
ッジに何らかの付着物が存在している。フレームの場
合、外郭のエッジのいずれかがスムーズでない場合、そ
うしたフレームエッジに何らかの付着物が存在している
ことになる。
のエッジ)の2つの端点が算出されるが、これらの2つ
の端点の位置は非スムーズ側の画像アウトラインに基づ
いている。そして、「分離線」が算出された2つの端点
の間を通って形成され、付着物は分離線に沿った線から
切り離される。付着物はラインから「分離線」に沿って
切り離され、付着物とラインはそれぞれ処理されて、付
着物がテキスト連続成分か非テキスト連続成分かが判定
されるが、好ましい形では、分離された付着物はテキス
ト連続成分として分類される。
出する方法は、垂直線、水平線、水平斜線、垂直斜線の
いずれかの属性を各検出された線に与えることで実行さ
れる。そうした非連続線を検出するために、水平及び/
または垂直な小さいサイズの(ピリオドの大きさと同様
である)テキスト連続成分が収集される。次に、収集さ
れた成分は、それらの相対的な距離に基づいて異なるグ
ループに分配される。各グループについては、そのサイ
ズが水平、垂直、または斜線として十分かどうかが判定
される。十分でなければ、そのグループが点線であり得
るかどうかがチェックされる。対象のグループがライン
として可能であれば、グループはサイズとグループ間の
間隙の明瞭度とに基づいて再編成される。その後、グル
ープは再びチェックされて点線であるかどうか判定され
る。
象のラインの周辺に垂直なラインが存在し、グループと
ラインの間の間隙が明瞭であれば、グループは垂直線と
考えられる。そうでない場合は、グループの長さが水平
線と同じであるか、周辺に水平なラインが存在し、グル
ープとこのラインの間の間隙が明瞭であるかどうかが判
定される。そうである場合には、検出された非連続ライ
ンは水平線であると決定される。
れ、図6(図5のステップS53)で説明した様に分類
されると、図10に示されるような修正されたツリーが
得られる。図示の様に、ツリーの根は画素画像データの
ページに相当する。根から出ているのはテキストブロッ
ク、内容の不明な非テキストブロック、フレーム、写
真、及び線の分類である。フレームから出ているのはテ
キストブロック、未知の非テキストデータ、写真や線の
テキストブロックを含む表である。
キスト連続成分が分類されると、ステップS54では非
テキスト連続成分のエッジに沿った不可視線(白線)が
サーチされる。そうした不可視線は(ステップS52で
求められた不可視線も合わせて)、ステップS57で、
可視または不可視線がテキストブロックを横切っている
場合に、テキストブロックを分離するのに使用される。
この手順は後で詳細に説明する。
された未知の非テキスト連続成分を用いて、水平及び垂
直タイトルラインが形成される。これらの未知の非テキ
スト連続成分は、グループと想定される成分間の距離
と、タイトルが水平または垂直である場合に可能なタイ
トルな長さとに基づいて、名目上垂直、水平、または傾
斜のタイトルの方向を検出するのに使用される。この方
法を用いて、各タイトル連続成分が水平及び垂直方向の
非常に近接したブロックと比較され、より近いブロック
に水平または垂直タイトルが添付される。
テキストブロックを形成するのに用いられる。簡潔に述
べると、各テキスト連続成分に対し、周辺にある近い水
平及び垂直の成分がサーチされて、集成プロセスで、テ
キストブロックとしてグループ化される。プロセスを図
11に従って詳細に説明する。
れたテキスト連続成分を用いて、ステップS561でH
−GAP及びV−GAPが計算される。これらはそれぞ
れ、隣接するテキスト連続成分間の水平及び垂直中央間
隙部である。ステップS562では、全てのテキスト連
続成分が、その垂直な位置によりソートされる。ステッ
プS563では、現在のテキストブロックの形成が開始
される。ステップS564では、ソート順に連続成分が
抽出され、値V−DIST及びH−DISTとが計算さ
れる。これらの値はそれぞれ、抽出された連続成分と現
在のテキストブロックの間の垂直及び水平距離である。
利用可能な連続成分が存在しなければ、ステップS56
3へ戻り、次のテキストブロックが形成される。
分について、V−DISTがV−GAPより大きいかど
うか、またはH−DISTがH−GAPより大きいかど
うかが判定される。ステップS565でいずれかに該当
すれば、抽出された連続成分は現在のテキストブロック
内には存在しないことになるので、ステップS564へ
戻り、ソート順に次の連続成分が抽出される。一方、ス
テップS565でいずれにも該当しない場合は、抽出さ
れた連続成分は現在のテキストブロック内に存在するこ
とになるので、ステップS566へ進む。
分と、現在のテキストブロックに既に含まれている連続
成分とが、所定の条件を満たすかどうかが判定される。
好適な実施例では、所定条件は図12に示される通りで
ある。
は、抽出された連続成分が現在のテキストブロックに既
に含まれている連続成分と比較される。ステップS56
62では、値h−dist及びv−distが計算され
る。これらの値はそれぞれ、抽出された連続成分とステ
ップS5661で識別された1つの連続成分(テキスト
ブロックに含まれている連続成分)との間の水平及び垂
直距離を表している。
V−GAPより小さいかどうか、そしてh−distが
H−GAPより小さいかどうかが判定される。ステップ
S5663の条件に該当しない場合は、テキストブロッ
クに含まれている連続成分は抽出された連続成分に十分
に近似していないことになるため、ステップS5661
へ戻って、現在のテキストブロック内の次のテキスト連
続成分が抽出された連続成分と比較される。
ステップS5664へ進み、抽出された連続成分がテキ
ストブロックに含まれている連続成分とどのような垂直
関係にあるのかが判定される。3つの関係が可能であ
る。つまり、(1)抽出された連続成分が垂直にテキス
トブロックに含まれている連続成分の上にある、(2)
抽出された連続成分は垂直にテキストブロックに既に含
まれている連続成分の上ではなく、水平方向にある、
(3)抽出された連続成分は垂直にテキストブロックに
既に含まれている連続成分の上ではなく、斜め下方向に
ある、という関係である。条件(1)が満たされる場
合、ステップS5665へ進むが、条件(2)または
(3)が満たされる場合は、ステップS5667へ進
む。
ブロック内に、抽出された連続成分に近い他の連続成分
が存在するかどうかが判定される。これは、h−dis
tがW−GAPより小さいかどうか(W−GAPはH−
GAPより僅かに広い)を判定することにより確認され
る。該当しない場合は、ステップS5661へ戻って、
現在のテキストブロック内の次の連続成分を用いて比較
を行なう。しかし、ステップS5665において該当す
る場合は、ステップS5667へ進み、何らかの線描オ
ブジェクト(例えば、ライン、線描画等)が抽出された
連続成分とテキストブロックに含まれている連続成分の
間に存在するかどうかが判定される。そのような線描オ
ブジェクトが存在する場合は、ステップS564へ戻
り、次の連続成分がパート順に抽出される。しかし、ス
テップS5667でそうしたオブジェクトが存在しない
と判定された場合は、図11のステップS567へ戻
る。
ょうど処理されたばかりの、抽出された連続成分が、ス
テップS52で識別された最後のテキスト連続成分であ
るかどうかが判定される。抽出された連続成分が最後の
成分でない場合は、ステップS568で、その連続成分
は現在のテキストブロックに挿入され、ステップS56
4へ戻って、ソート順に次の連続成分が抽出される。一
方、ステップS567で最後の連続成分と判定された場
合は、その成分は現在のテキストブロックに既に挿入さ
れているので、図5のステップS57へ戻る。
ップS56で形成されたテキストブロックが単一のテキ
ストブロックであるかどうか、または形成されたテキス
トブロックを横切る可視線または不可視線により、複数
のテキストブロックに分割されるべきであるかどうかが
判定される。例えば、図13Aはテキストブロック13
1を示し、テキストブロック131内には複数の連続成
分132が配されている。テキストブロックに隣接する
のは非テキストブロック133、134である。非テキ
ストブロックの間にはステップS54で述べた不可視
(白)線が存在している。例えば、非テキストブロック
133、134が各々写真を含み、ブロックの間に不可
視線が引かれている場合は、非テキストブロック133
に隣接するテキスト連続成分は非テキストブロック13
3にのみ関係し、非テキストブロック134に隣接する
テキスト連続成分は非テキストブロック134にのみ関
係している。ステップS57で形成されたテキストブロ
ック131が単一のテキストブロックである場合は、後
に行なわれる文字認識処理で、非テキストブロック13
3、134を文字として誤認識する可能性がある。
(または可視線)が先に形成されたテキストブロック1
31を横切っている場合において、テキストブロックは
2つのテキストブロック136、137に分割される。
そして、非テキストブロック133、134のそれぞれ
のテキスト連続成分が適切に処理される。ステップS5
7の後、ステップS58へ進み、各テキストブロックの
方向が検出される。テキストブロックの方向の検出は、
テキストブロック内のテキスト連続成分の長さ及び幅、
連続成分間の水平及び垂直の間隙、及びそれらの位置に
依存して行なわれる。図14A、及び、図14Bは、こ
の処理を詳細に説明したフローチャートである。
1で、ステップS56で形成されたテキストブロック内
の全てのテキスト成分について、様々な値が計算され
る。ただし、幅は水平寸法に相当し、長さは垂直寸法に
相当するものである。値MAX−LEN及びMAX−W
IDが計算されるが、これらはそれぞれ、テキストブロ
ック内のテキスト連続成分間の最長の長さ及び最大の幅
を表している。また値AVG−LEN及びAVG−WI
Dが計算されるが、これらはそれぞれ、テキストブロッ
ク内の全ての連続成分の平均の長さと幅を表している。
最後に、値STD−LEN及びSTD−WIDが計算さ
れるが、これらはそれぞれ、テキストブロック内の全て
の連続成分の長さ及び幅の標準的な偏差を表している。
テキストブロックが水平テキストブロックか垂直テキス
トブロックかが判定される。ステップS5802では、
STD−LENがSTD−WID以下かどうか、MAX
−WIDがMAX−LENより大きいかどうか、そして
MAX−WIDが12ptのプリントサイズ、もしくは
1.5×MAX−LENよりも大きいかどうかが判定さ
れる(ここで、12pt値は通常のテキストサイズに基
づいている。勿論、これより大きいまたは小さいテキス
トサイズの場合は、好ましくはダイナミックに調整でき
る異なる値が必要とされる)。これらの関係に該当する
と、テキストブロックは水平テキストブロックであると
決定される。これらの関係に該当しない場合は、ステッ
プS5803へ進む。
がSTD−LEN以下であるかどうか、MAX−LEN
がMAX−WIDより大きいかどうか、そしてMAX−
LENが12pt、または1.5×MAX−WIDより
大きいかどうかが判定される。これらの関係に該当する
と、テキストブロックは垂直テキストブロックであると
決定される。これらの関係に該当しない場合は、ステッ
プS5804へ進む。
いて、値H−SHORT及びV−SHORTが決定され
る。これらの値はそれぞれ、各連続成分及びその周辺の
連続成分からの最短の水平及び垂直の間隙を表してい
る。
進み、テキストブロック内の大抵の連続成分について、
H−SHORTがV−SHORTより小さいかどうかが
判定される。この関係に該当すると、テキストブロック
は水平テキストブロックであると決定される。この関係
に該当しない場合は、ステップS5806へ進んで、テ
キストブロック内の大抵の連続成分について、V−SH
ORTがH−SHORTより小さいかどうかが判定され
る。この関係に該当すると、テキストブロックは垂直テ
キストブロックであると決定され、該当しない場合は、
ステップS5807へ進む。
ク内の連続成分間の水平及び垂直の間隙の数が計算され
る。その後、ステップS5808では、水平間隙の数が
垂直間隙の数より多いかどうか、またテキストブロック
の幅が12pt×2より大きいかどうかが判定される。
この関係に該当すると、テキストブロックは水平テキス
トブロックであると決定され、該当しない場合は、ステ
ップS5809へ進む。ステップS5809では垂直間
隙数が水平間隙数より多いかどうか、またテキストブロ
ックの長さが12pt×2より大きいかどうかが判定さ
れる。この関係に該当すると、テキストブロックは垂直
テキストブロックであると決定され、該当しない場合
は、ステップS5810へ進む。
クの長さが12pt×2より小さく、全ての連続成分が
同一の水平ライン上にあるかどうかが判定される。これ
に該当する判定であれば、テキストブロックは水平テキ
ストブロックであり、該当しない判定の場合は、ステッ
プS5811へ進む。ステップS5811では、テキス
トブロックの幅が12pt×2より小さく、全ての連続
成分が同一の垂直線上にあるかどうかが判定される。こ
の関係に該当すると、テキストブロックは垂直テキスト
ブロックであると決定され、該当しない場合は、ステッ
プS5812へ進む。
ク内の全ての連続成分が垂直にソートされて、最初の連
続成分と最後の連続成分が、重なる垂直領域を有してい
るかどうか検出される。それらが重なっていれば、テキ
ストブロックは水平テキストブロックであると決定さ
れ、重なっていない場合は、ステップS5813へ進
む。ステップS5813では、テキストブロック内の全
ての連続成分が水平にソートされて、最初の連続成分と
最後の連続成分が、重なる水平領域を有しているかどう
か検出される。それらが重なっていれば、テキストブロ
ックは垂直テキストブロックであると決定され、重なっ
ていない場合は、テキストブロックは未知のブロックで
ある。
が一度決定されると、ステップS59へ進み、ステップ
S58で識別された方向に基づいて、各テキストブロッ
クに関するテキストラインが形成される。図15はこの
処理を詳細に示すフローチャートである。
ト連続成分の処理を示している。垂直テキストブロック
内の連続成分の処理も同様であるので、詳細な説明は省
略する。ステップS591では、水平テキストブロック
内のテキスト成分が、その水平位置に従ってソートされ
る。その後、ステップS592では、ソーティングリス
トの次の連続成分が抽出され、その連続成分が既に存在
しているいずれかのテキストラインに嵌入するかどうか
検出される。この判定の詳細な処理は、図16A〜図1
6Eで示されるフローチャートを参照して説明する。
テップS592で抽出した連続成分を用いて、値C−L
INE1及びC−BLOCK1が計算される。C−LI
NE1は、抽出された連続成分と現在のテキストライン
との間のパーセントの垂直領域重畳部分を表し、C−B
LOCK1は、抽出された連続成分と現在のテキストラ
インの末尾連続成分との間のパーセントの垂直領域重畳
部分を表している。図16AのステップS5921は現
在のテキストライン、その末尾の連続成分、抽出された
連続成分、及びそれらの垂直領域重畳部分の関係を示し
ている。
がゼロより大きいかどうかが判定される。ゼロより大き
くなければ、図16Eに従ってより詳細に説明されるス
テップS5936へ進む。一方、ステップS5922
で、C−LINE1がゼロより大きいと判定されると、
3つの値h−dist1、 v−dist1、NEXT
−CLOSEST−LINEが決定される。h−dis
t1は、抽出された連続成分と現在のテキストラインの
末尾連続成分との間の水平距離である。v−dist1
は、抽出された連続成分と現在のテキストラインの末尾
連続成分との間の垂直距離である。NEXT−CLOS
EST−LINEは、(i)現在のラインの下にあり、
(ii)その末尾連続成分が抽出された連続成分に最も
近接しており、末尾連続成分と抽出された連続成分の間
の距離は所定の距離内である、テキストラインである。
そして、図16BのステップS5924へ進む。
2、C−BLOCK2、h−dist2、及びv−di
st2が決定される。C−LINE2は、抽出された連
続成分とNEXT−CLOSEST−LINEとの間の
パーセントの垂直領域重畳部分である。C−BLOCK
2は、抽出された連続成分とNEXT−CLOSEST
−LINEの末尾連続成分との間のパーセントの垂直領
域重畳部分である。h−dist2は、抽出された連続
成分とNEXT−CLOSEST−LINEの末尾連続
成分との間の水平距離である。v−dist2は、抽出
された連続成分とNEXT−CLOSEST−LINE
の末尾連続成分との間の垂直距離である。
LINE1が50%未満でC−LINE2が50%以上
であり、そして現在のラインが上方向に傾き、NEXT
−CLOSEST−LINEが上方向に傾いているかど
うかが判定される。この関係に該当すると、ステップS
5926へ進み、次の水平テキストラインが選択され
て、図15のステップS592へ戻る。一方、この関係
に該当しない場合は、図16CのステップS5927へ
進む。
は、8つの関係が存在するかどうかが判定される。それ
らの関係は次の通りである。即ち、 (1) C-LINE2=0% (2) C-LINE1≧50%、C-LINE2≦50%、 C-BLOCK1≧0%、C-BLOCK1>C-BLOCK2 (3) h-dist1>0、h-dist2>0、 (h-dist1<12pt、又はh-dist1<h-dist2)、 C-BLOCK1>0%、C-BLOCK1>C-BLOCK2 (4) h-dist1>0、h-dist2>0、 (h-dist1<12pt、又はh-dist1<h-dist2)、 C-BLOCK1>0%、現在のラインは下方向に傾き、 NEXT-CLOSEST-LINEも下方向に傾いている (5) h-dist1>0、h-dist2>0 (h-dist1<12pt、又はh-dist1<h-dist2)、 C-BLOCK1=0%、C-BLOCK2=0%、 v-dist1<h-dist2 (6) h-dist1≧0、h-dist1<12pt、 C-BLOCK1>0%、h-dist2<0 (7) h-dist1<0、h-dist2<0、 v-dist1>v-dist2 (8) C-BLOCK1>C-BLOCK2 である。
〜(8)の関係のいずれかに該当するかどうかが判定さ
れる。該当するものが無いと、ステップS5929へ進
んで、次の水平テキストラインが選択され、図15のス
テップS592へ戻る。ステップS5928で(1)〜
(8)の関係のいずれかに該当すると、ステップS59
30へ進んで、抽出された連続成分の水平位置が、現在
のテキストラインの末尾連続成分と重畳するかどうかが
判定される。重畳部分が存在すれば、ステップS593
1へ進み、重畳部分が存在しなければ、ステップS59
32へ進む。
は、抽出された連続成分と現在のテキストラインの末尾
連続成分を合計した長さが、1文字の長さと同じである
かどうかが判定される。合計の長さが1文字の長さと同
じである場合は、ステップS5935へ進み、抽出され
た連続成分は現在のテキストラインに嵌入される。一
方、合計の長さが1文字の長さと同じでない場合には、
ステップS5931’へ進んで、C−BLOCK1が5
0%より大きいかどうか、またはv−dist1が1ド
ットサイズより小さいかどうかが判定される。いずれか
の関係に該当すると、ステップS5935へ進んで、抽
出された連続成分は現在の水平テキストラインへ嵌入さ
れる。しかし、ステップS5931’のいずれの関係に
も該当しない場合は、ステップS5933へ進み、次の
水平テキストラインが選択されて、その後、図15のス
テップS592へ戻る。
が12pt×2より小さく、(C−LINE1が0%よ
り大きいか、またはC−BLOCK1が0%より大き
い)かどうか、あるいは、NEXT−CLOSEST−
LINEが存在しないかどうか、またはv−dist1
がv−dist2より小さいかどうかが判定される。こ
れらの条件が満たされると、抽出された連続成分は現在
のテキストライン内に当て嵌まると決定され、ステップ
S5935を介して図15のステップS592へ進む。
ステップS5932の関係に該当しない場合は、ステッ
プS5934で次のテキストラインが選択され、再び図
15のステップS592へ戻る。
C−LINE1が0%より大きくないと判定されると、
図16EのステップS5936へ進む。ステップS59
36では、ステップS5923、S5924で概略を述
べたように、NEXT−CLOSEST−LINE、h
−dist1、h−dist2、v−dist1、及び
v−dist2が決定される。
OSEST−LINEが存在し、v−dist1がv−
dist2より大きいかどうかが判定される。該当する
場合、ステップS5939へ進み、次のテキストライン
が選択され、そして図15のステップS592へ戻る。
しかし、ステップS5937の関係が存在しなければ、
ステップS5938へ進み、h−dist1がゼロ未満
でv−dist1が1ドットサイズ以下であり、抽出さ
れた連続成分と末尾連続成分の合計の長さが1文字の長
さと同じであるかどうかが判定される。これらの関係に
該当すると、ステップS5941で、抽出された連続成
分は現在の水平テキストライン内に当て嵌まると決定さ
れ、図15のステップS592へ戻る。ステップS59
38の関係に該当しない場合は、ステップS5940へ
進み、h−dist1がゼロ以上で、抽出された連続成
分が末尾連続成分の上にあり、抽出された連続成分の垂
直位置が末尾連続成分の垂直位置に近いかどうかが判定
される。これらの関係に該当すると、ステップS594
1へ進み、抽出された連続成分は現在の水平テキストラ
イン内に当て嵌まると判定され、図15のステップS5
92へ戻る。これらの関係に該当しない場合は、ステッ
プS5942へ進み、次の水平テキストラインが選択さ
れ、図15のステップS592へ戻る。
ブロックについて全てのテキストラインが形成される
と、ステップS60へ進み、ブロックの後処理が行なわ
れる。後処理は、文字認識、データ圧縮等の、特定の後
続する手順を適用するようにしてもよい。この応用の目
的で、後続する文字認識をブロックに対する後処理とし
て行なう場合を説明する。こうした後処理の目的は、テ
キスト及び非テキストブロック表現をより簡潔にするこ
とである。後処理において、必要であれば、テキストブ
ロックは他のテキストブロックと結合され、非テキスト
ブロックは他の非テキストブロックと結合されて、文字
認識等の更なる処理を容易にする。まず、例えば、最小
二乗法を用いて、形成されたテキストライン(ステップ
S59で決定された)に含まれる連続成分に基づいて、
そのテキストラインの歪み角度を概算し、全体のページ
の歪みが計算される。ページの歪みは、ページのテキス
トラインの歪み角度の平均値となる。
(例えば、図17に示すように、各テキストを囲む四角
形または不規則な曲線の間の間隙が明確である)判定さ
れた場合は、様々な処理ステップが実行できる。始め
に、テキスト(またはタイトル)ブロックと、タイトル
ブロックが、重畳する四角形または不規則な曲線の囲み
が存在するかどうか、それらの方向(orientation)等
に基づいて結合できる。次に、ある小さいテキストブロ
ックが実際にテキストブロックであるか、それとも写真
等の非テキストブロックの一部であるかを判断するため
に、ある中間調(またはグレイスケール)画像が四角い
領域を占めているかどうかが判定できる。3番目に、欄
の分析を行い、欄情報に基づいて、テキストブロックが
結合できる。こうした結合は、基本的に、ブロックが同
一の欄内にあるかどうか、お互いに近接しているかどう
か、その結合が他のブロックに重なるかどうか、及びそ
れらのブロックが同一の傾斜を持っているかどうかに基
づいて行なわれる。
みページのケースにおいて上記の3つの処理ステップは
抜かされる。そして、小さいテキストブロックがその近
接ブロックと結合されるステップが実行される。この結
合は、近接ブロックの属性、近接ブロックの近接度、及
びテキストブロック自身の特性に基づいて行なわれる。
こうした結合の後、結合されたテキストブロックの属性
は、結合された近接テキストブロックと一致するように
変えられる。
タイトルブロックまたは未知の連続成分を1つ含んだ複
数ブロックと結合することができる。この結合は、その
相対的な位置、ブロックの方向、ブロックの相対的なサ
イズ等に元づいて行なわれる。
の非テキストブロックの結合を行なうこともできる。こ
うした結合は、非テキストブロックの相対的位置、ブロ
ックの属性等に基づいて行なわれる。例えば、幾つかの
写真ブロックは、それらが同一の写真に属しているとい
うことが検出されれば結合される。こうした後処理を、
後続の文字認識処理を容易にするために実行することが
可能である。
的及び効率的にテキスト及び非テキストブロックを選択
する方法及び装置であって、垂直及び水平テキストブロ
ックが認識され、テキストブロックの形成の前に文書の
回転を必要としない、方法及び装置を説明した。
定された個々の成分は、文字認識の分野では公知のもの
であり、その特定の構成及び動作は、本実施例の操作ま
たは実行の最良の形態において重要なものではない。
が、本発明は開示された実施例に限定されるものではな
いことが理解されるべきである。反対に、発明の精神と
範囲内に含まれる、様々な修正や同等の変形が可能であ
るよう意図されている。特許請求の範囲の記載は、そう
した修正及や同等の構成及び機能の全てに渡るように最
大の解釈が与えられるものである。
システムに適用しても1つの機器からなる装置に適用し
ても良い。また、本発明はシステム或いは装置に本発明
により規定される処理を実行させるプログラムを供給す
ることによって達成される場合にも適用できることはい
うまでもない。
垂直及び水平テキストブロックを認識し、テキストブロ
ック形成の前に歪んだ文書を回転させることを不要と
し、テキスト及び非テキストブロックを効果的に且つ効
率的に選択することが可能となる。また、本発明によれ
ば、各ブロックを不規則な形状の曲線で囲むことが可能
となり、各ブロックをより簡潔かつ明瞭に囲むブロック
選択方法が提供される。
図である。
る。
ある。
認識のプロセスに組み込まれているかを示す、一般化さ
れたフローチャートである。
なフローチャートである。
フローチャートである。
フローチャートである。
フローチャートである。
フローチャートである。
するための図である。
するための図である。
するための図である。
文字を決定するためのルートまたはツリー階層構造を概
略的に示す図である。
である。
ートである。
ある。
ある。
トである。
トである。
である。
ャートである。
ャートである。
ャートである。
ャートである。
ャートである。
示す図である。
Claims (81)
- 【請求項1】 画素画像データから画素のブロックを選
択する選択方法であって、 画素データにおける連続成分の輪郭を描写する輪郭描写
工程と、 連続成分を、サイズ及び他の連続成分との近接度に基づ
いて、選択的に幅方向に結合してラインを形成する、第
1の結合工程と、 幅方向に結合されたラインを、サイズ及び他のラインと
の近接度に基づいて、選択的に垂直に結合してブロック
を形成する、第2の結合工程と、 前記第2の結合工程で形成されたブロックの周りに不規
則な曲線を形成する形成工程とを備えることを特徴とす
るブロック選択方法。 - 【請求項2】 画素画像データを入力する入力工程を更
に備え、該入力工程は、画素画像データが2値画素画像
データではない場合に、画素画像データを2値画素画像
データに変換する工程を含むことを特徴とする請求項1
に記載のブロック選択方法。 - 【請求項3】 前記形成工程において、各テキストブロ
ックの周りに、最小の不規則形状の曲線が形成されるこ
とを特徴とする請求項1に記載のブロック選択方法。 - 【請求項4】 前記輪郭描写工程で輪郭が描写された連
続成分の階層ツリーを、前記形成工程で形成された対応
する不規則形状の曲線の位置に基づいて形成する工程を
更に備えることを特徴とする請求項1に記載のブロック
選択方法。 - 【請求項5】 前記形成工程で形成された不規則形状の
曲線を、テキストブロック及び非テキストブロックに分
類する工程を更に備えることを特徴とする請求項4に記
載のブロック選択方法。 - 【請求項6】 前記テキストブロックにおける文字画像
を認識する工程を更に備えることを特徴とする請求項5
に記載のブロック選択方法。 - 【請求項7】 前記第1の結合工程と第2の結合工程
は、非テキスト連続成分に対しては行なわれないことを
特徴とする請求項6に記載のブロック選択方法。 - 【請求項8】 前記非テキストの輪郭描写された連続成
分に対して白輪郭を生じる工程を更に備えることを特徴
とする請求項6に記載のブロック選択方法。 - 【請求項9】 前記非テキストブロックは、白輪郭数に
従って、表ユニットとして指定されることを特徴とする
請求項8に記載のブロック選択方法。 - 【請求項10】 白輪郭フィリング率を計算する工程を
更に備えることを特徴とする請求項9に記載のブロック
選択方法。 - 【請求項11】 前記非テキストブロックは、フィリン
グ率が高い場合は画像として指定されないことを特徴と
する請求項10に記載のブロック選択方法。 - 【請求項12】 非グリッド配列の白輪郭を再結合する
工程を更に備えることを特徴とする請求項10に記載の
ブロック選択方法。 - 【請求項13】 非テキストブロックは、再結合率が高
くない場合に、表として指定されることを特徴とする請
求項12に記載のブロック選択方法。 - 【請求項14】 白輪郭は4方向に計算されることを特
徴とする請求項8に記載のブロック選択方法。 - 【請求項15】 連続成分の輪郭は少なくとも8方向で
描写されることを特徴とする請求項1に記載のブロック
選択方法。 - 【請求項16】 前記輪郭描写工程において、連続成分
の輪郭は、連続成分の外側の部分でのみ描写されること
を特徴とする請求項1に記載のブロック選択方法。 - 【請求項17】 画素画像データにおける間隙を検出す
る工程を更に備え、 前記第1の結合工程において、連続成分は、間隙がそれ
らの連続成分を分離している場合は、幅方向に結合され
ないことを特徴とする請求項1に記載のブロック選択方
法。 - 【請求項18】 連続成分の間の垂直に延びる間隙に従
って欄が検出されることを特徴とする請求項17に記載
のブロック選択方法。 - 【請求項19】 前記第2の結合工程は、前記第1の結
合工程で結合されたテキストデータのラインの間の非テ
キスト境界を判定する工程を含み、 前記第2の結合工程は、介在する非テキスト境界が存在
する場合は、ラインを垂直にブロックに結合しないこと
を特徴とする請求項1に記載のブロック選択方法。 - 【請求項20】 前記輪郭描写工程の前に、画素画像デ
ータを圧縮する工程を更に備えることを特徴とする請求
項1に記載のブロック選択方法。 - 【請求項21】 画素画像データから画素のブロックを
選択する選択装置であって、 画素画像データを格納する格納手段と、 (1)格納された画素画像データにおける連続成分の輪
郭を描写し、(2)連続成分を、サイズと、他の不規則
な形状の曲線との近接度に基づいて、選択的に幅方向に
結合してラインを形成し、(3)幅方向に結合されたラ
インを、サイズと、他のラインとの近接度に基づいて、
選択的に垂直に結合してブロックを形成し、(4)各輪
郭描写された連続成分の周りに不規則な形状の曲線を形
成する、処理手段とを備えることを特徴とするブロック
選択装置。 - 【請求項22】 画素画像データを入力する入力手段を
更に備え、該入力手段は、前記画素画像データが2値画
素画像データではない場合に、該画素画像データを2値
画素画像データに変換する変換手段を含むことを特徴と
する請求項21に記載のブロック選択装置。 - 【請求項23】 前記処理手段は、各テキストブロック
の周りに、最小の不規則形状の曲線が形成することを特
徴とする請求項21に記載のブロック選択装置。 - 【請求項24】 前記処理手段は、前記輪郭が描写され
た連続成分の階層ツリーを、前記形成された対応する不
規則形状の曲線の位置に基づいて形成することを特徴と
する請求項21に記載のブロック選択装置。 - 【請求項25】 前記処理手段は、形成された不規則形
状の曲線を、テキストブロック及び非テキストブロック
に分類することを特徴とする請求項24に記載のブロッ
ク選択装置。 - 【請求項26】 前記処理手段は、テキストブロックに
おける文字画像を認識することを特徴とする請求項25
に記載のブロック選択装置。 - 【請求項27】 前記処理手段は、非テキスト連続成分
に対しては結合機能を実行しないことを特徴とする請求
項25に記載のブロック選択装置。 - 【請求項28】 前記処理手段は、非テキストの輪郭描
写された連続成分に対して白輪郭を生じることを特徴と
する請求項25に記載のブロック選択装置。 - 【請求項29】 前記処理手段は、非テキストブロック
を、白輪郭数に従って、表ユニットとして指定すること
を特徴とする請求項28に記載のブロック選択装置。 - 【請求項30】 前記処理手段は、白輪郭フィリング率
を計算することを特徴とする請求項28に記載のブロッ
ク選択装置。 - 【請求項31】 前記処理手段は、非テキストブロック
を、フィリング率が高い場合は画像として指定しないこ
とを特徴とする請求項30に記載のブロック選択装置。 - 【請求項32】 前記処理手段は、非グリッド配列の白
輪郭を再結合することを特徴とする請求項30に記載の
ブロック選択装置。 - 【請求項33】 前記処理手段は、非テキストブロック
を、前記再結合の率が高くない場合に、表として指定す
ることを特徴とする請求項32に記載のブロック選択装
置。 - 【請求項34】 前記処理手段は、白輪郭を4方向に計
算することを特徴とする請求項28に記載のブロック選
択装置。 - 【請求項35】 前記処理手段は、連続成分の輪郭を少
なくとも8方向で描写することを特徴とする請求項21
に記載のブロック選択装置。 - 【請求項36】 前記処理手段は、連続成分の輪郭を、
連続成分の外側の部分で描写されることを特徴とする請
求項21に記載のブロック選択装置。 - 【請求項37】 前記処理手段は、画素画像データにお
ける間隙を検出し、該間隙が連続成分を分離している場
合はそれらの連続成分を幅方向に結合しないことを特徴
とする請求項21に記載のブロック選択装置。 - 【請求項38】 前記処理手段は、連続成分の間の垂直
に延びる間隙に従って、欄を検出することを特徴とする
請求項37に記載のブロック選択装置。 - 【請求項39】 前記処理手段は、結合されたテキスト
データのラインの間の非テキスト境界を判定し、介在す
る非テキスト境界が存在する場合は、ラインを垂直にブ
ロックに結合しないことを特徴とする請求項21に記載
のブロック選択装置。 - 【請求項40】 前記処理手段は輪郭描写の前に画素画
像データを圧縮することを特徴とする請求項21に記載
のブロック選択装置。 - 【請求項41】 画素画像データにおける文字のテキス
トファイルを形成する方法であって、 2値の画素画像データを入力して格納し、 格納された画素画像データのブロックを選択し、 格納された画素画像データにおける連続成分の輪郭を描
写し、 輪郭描写された連続成分がテキストユニットまたは非テ
キストユニットを含んでいるかどうか判定し、 テキストユニットを、隣接するテキストユニットの近接
度に基づいて、選択的に幅方向に結合してテキストライ
ンを形成し、 テキストラインを、隣接するテキストラインの近接度
と、テキストライン間の非テキストユニットの位置とに
基づいて、選択的に垂直に結合してテキストブロックを
形成し、 テキストブロックを不規則形状の曲線で囲み、 前記輪郭描写工程で輪郭描写された連続成分に基づい
て、テキストブロックの階層的なツリーを形成し、 テキストブロックを少なくとも1つの欄に適応的に分け
ることにより、ツリー化されたテキストブロックを画素
データのラインに分割することを特徴とする方法。 - 【請求項42】 画素画像データが前処理される前処理
工程を更に備えることを特徴とする請求項41に記載の
方法。 - 【請求項43】 前記前処理工程は画像圧縮工程を含む
ことを特徴とする請求項42に記載の方法。 - 【請求項44】 前記前処理工程は画素画像データを補
強する工程を含むことを特徴とする請求項43に記載の
方法。 - 【請求項45】 非テキストユニットの内部を白輪郭ト
レースする工程を更に備えることを特徴とする請求項4
1に記載の方法。 - 【請求項46】 非テキストユニットに指定子を付加す
る工程を更に備えることを特徴とする請求項45に記載
の方法。 - 【請求項47】 非テキストユニット内に含まれる白輪
郭の数に基づいて、表であることを指定する指定子が非
テキストユニットに付加されることを特徴とする請求項
45に記載の方法。 - 【請求項48】 画素画像データにおける文字のテキス
トファイルを形成する装置であって、 画素画像データをデータを入力する入力手段と、 入力された画素画像データを格納する格納手段と、 (1)格納された画素画像データにおける連続成分の輪
郭を描写し、(2)輪郭描写された連続成分がテキスト
ユニットまたは非テキストユニットを含んでいるかどう
か判定し、(3)テキストユニットを、隣接するテキス
トユニットの近接度に基づいて、選択的に幅方向に結合
してテキストラインを形成し、(4)テキストライン
を、隣接するテキストラインの近接度と、テキストライ
ン間の非テキストユニットの位置とに基づいて、選択的
に垂直に結合してテキストブロックを形成し、(5)テ
キストブロックを不規則形状の曲線で囲み、(6)前記
輪郭描写工程で輪郭描写された連続成分に基づいて、テ
キストブロックの階層的なツリーを形成し、(7)テキ
ストブロックを少なくとも1つの欄に適応的に分けるこ
とにより、ツリー化されたテキストブロックを画素デー
タのラインに分割する処理手段とを備えることを特徴と
する装置。 - 【請求項49】 前記処理手段は、画素画像データを前
処理することを特徴とする請求項48に記載の装置。 - 【請求項50】 格納された文書のテキスト領域と非テ
キスト領域のブロックを分離する方法であって、 格納された文書における連続画素成分を識別する識別工
程と、 識別された画素成分をテキスト及び非テキスト成分に分
離する分離工程と、 前記文書に対し、非テキスト成分に沿った可視線及び不
可視線のサーチを行なうサーチ工程と、 識別されたテキスト成分と、可視及び不可視線を用い
て、テキスト及び非テキストブロックを形成する形成工
程と、 各形成されたテキストブロックについて、テキスト方向
を検出する方向検出工程と、 検出されたテキスト傾斜に基づいて、テキストブロック
からテキストラインを抽出する抽出工程と、 格納された文書について、抽出されたテキストラインに
基づいて、歪み角度を検出する歪み検出工程と、 検出された歪み角度に基づいて、形成されたテキストブ
ロックを修正する修正工程とを備えることを特徴とする
ブロック分離方法。 - 【請求項51】 前記サーチ工程の後で、水平及び垂直
タイトルラインを形成する工程を更に備えることを特徴
とする請求項50に記載のブロック分離方法。 - 【請求項52】 前記形成工程の後で、形成されたテキ
ストブロックを、可視または不可視線が横切っている場
合は分割する工程を更に備えることを特徴とする請求項
50に記載のブロック分離方法。 - 【請求項53】 前記形成工程は、識別されたテキスト
成分が、形成中のテキストブロックに含まれている1つ
のテキスト成分の垂直上にあるか否かを判定する工程を
含むことを特徴とする請求項50に記載のブロック分離
方法。 - 【請求項54】 前記形成工程は、識別されたテキスト
成分と形成中のテキストブロックに含まれている他の1
つのテキスト成分との間に、いずれかの線描オブジェク
トが存在するかどうか検出する工程を含むことを特徴と
する請求項50に記載のブロック分離方法。 - 【請求項55】 前記形成工程は歪み角度を検出する工
程の前に位置することを特徴とする請求項50に記載の
ブロック分離方法。 - 【請求項56】 修正され、形成されたテキストブロッ
クを文字認識する工程を更に備えることを特徴とする請
求項50に記載のブロック分離方法。 - 【請求項57】 前記分離工程の後に、非テキスト成分
を、所定の複数の非テキスト分類のうちの少なくとも1
つに分類する工程を更に備えることを特徴とする請求項
50に記載のブロック分離方法。 - 【請求項58】 格納された文書のテキスト領域及び非
テキスト領域のブロックを分離する装置であって、 画素成分を含む文書を格納する格納手段と、 (1)格納された文書における連続画素成分を識別し、
(2)識別された画素成分をテキスト及び非テキスト成
分に分離し、(3)前記文書に対し、非テキスト成分に
沿った可視線及び不可視線のサーチを行ない、(4)識
別されたテキスト成分と、可視及び不可視線を用いて、
テキスト及び非テキストブロックを形成し、(5)各形
成されたテキストブロックについて、テキスト傾斜を検
出し、(6)検出されたテキスト傾斜に基づいて、テキ
ストブロックからテキストラインを抽出し、(7)格納
された文書について、抽出されたテキストラインに基づ
いて、歪み角度を検出し、(8)検出された歪み角度に
基づいて、形成されたテキストブロックを修正する処理
手段とを備えることを特徴とするブロック分離装置。 - 【請求項59】 前記処理手段は、前記(3)における
サーチの後で、水平及び垂直タイトルラインを形成する
ことを特徴とする請求項58に記載のブロック分離装
置。 - 【請求項60】 前記処理手段は、前記(4)におこえ
る形成処理の後で、形成されたテキストブロックを、可
視または不可視線が横切っている場合はこれを分割する
ことを特徴とする請求項50に記載のブロック分離装
置。 - 【請求項61】 前記処理手段は、識別されたテキスト
成分が、形成中のテキストブロックに含まれている1つ
のテキスト成分の垂直に上にあるかどうか判定すること
により、テキストブロックを形成することを特徴とする
請求項58に記載のブロック分離装置。 - 【請求項62】 前記処理手段は、識別されたテキスト
成分と形成中のテキストブロックに含まれている他の1
つのテキスト成分との間にいずれかの線描オブジェクト
が存在するか否かを検出することでテキストブロックを
形成することを特徴とする請求項50に記載のブロック
分離装置。 - 【請求項63】 前記処理手段は、格納された文書の歪
み角度が検出される前に、テキスト及び非テキストブロ
ックを形成することを特徴とする請求項58に記載のブ
ロック分離装置。 - 【請求項64】 前記処理手段は、修正され、形成され
たテキストブロックについて文字認識することを特徴と
する請求項58に記載のブロック分離装置。 - 【請求項65】 前記処理手段は、非テキスト成分を、
所定の複数の非テキスト分類のうちの少なくとも1つに
分類することを特徴とする請求項58に記載のブロック
分離装置。 - 【請求項66】 水平及び垂直テキストを有する、格納
された文書において、テキストブロックを形成する方法
であって、 連続画素成分を識別する識別工程と、 識別された画素連続成分を水平及び垂直にグループ化す
るグループ化工程と、 グループ化された成分に基づき、歪み検出を行なうこと
なく、不規則形状の水平及び垂直テキストブロックを形
成する形成工程と、 その後、各形成されたテキストブロックについて歪み角
度を検出する検出工程とを備えることを特徴とするテキ
ストブロック形成方法。 - 【請求項67】 前記グループ化工程は、テキスト及び
非テキスト連続成分を分離する工程を含むことを特徴と
する請求項66に記載のテキストブロック形成方法。 - 【請求項68】 非テキスト成分を、所定の複数の非テ
キスト分類の少なくとも1つに分類する工程を更に備え
ることを特徴とする請求項67に記載のテキストブロッ
ク形成方法。 - 【請求項69】 格納された文書に対して、非テキスト
連続成分のエッジに沿った不可視線のサーチを行なう工
程を更に備えることを特徴とする請求項67に記載のテ
キストブロック形成方法。 - 【請求項70】 形成されたテキストブロックを、可視
線または不可視線がそのブロックを横切っている場合、
該テキストブロックを分割することを特徴とする請求項
66に記載のテキストブロック形成方法。 - 【請求項71】 各テキストブロックについて、検出さ
れた歪み角度に基づいて、テキストラインを形成する工
程を更に備えることを特徴とする請求項66に記載のテ
キストブロック形成方法。 - 【請求項72】 形成されたテキストブロック内の画素
連続成分を文字認識する工程をさらに備えることを特徴
とする請求項66に記載のテキストブロック形成方法。 - 【請求項73】水平及び垂直テキストを有する、格納さ
れた文書において、テキストブロックを形成する装置で
あって、 格納された文書を格納する手段と、 (1)連続画素成分を識別し、(2)識別された画素連
続成分を水平及び垂直にグループ化し、(3)グループ
化された成分に基づき、歪み検出を行なうことなく、不
規則形状の水平及び垂直テキストブロックを形成し、
(4)その後、各形成されたテキストブロックについ
て、歪み角度を検出する処理手段とを備えることを特徴
とするテキストブロック形成装置。 - 【請求項74】前記処理手段はテキスト及び非テキスト
連続成分を分離することを特徴とする請求項73に記載
のテキストブロック形成措置。 - 【請求項75】 前記処理手段は、非テキスト成分を、
所定の複数の非テキスト分類の少なくとも1つに分類す
ることを特徴とする請求項74に記載のテキストブロッ
ク形成装置。 - 【請求項76】 前記処理手段は、格納された文書に対
して、非テキスト連続成分のエッジに沿った不可視線の
サーチを行なうことを特徴とする請求項74に記載のテ
キストブロック形成装置。 - 【請求項77】 前記処理手段は、形成されたテキスト
ブロックを、可視線または不可視線がそのブロックを横
切っている場合、分割することを特徴とする請求項73
に記載のテキストブロック形成装置。 - 【請求項78】 前記処理手段は、各テキストブロック
について、検出された歪み角度に基づいて、テキストラ
インを形成することを特徴とする請求項73に記載のテ
キストブロック形成装置。 - 【請求項79】 前記処理手段は、形成されたテキスト
ブロック内の連続画素成分を文字認識することを特徴と
する請求項73に記載のテキストブロック形成装置。 - 【請求項80】 非テキスト情報と、水平及び垂直テキ
スト情報とを有する、格納された文書において、テキス
ト及び非テキストブロックを形成する方法であって、 連続画素成分を識別し、 識別された画素成分をテキスト及び非テキスト成分に分
離し、 連続テキスト成分を水平及び垂直にグループ化し、 前記文書に対して、非テキスト成分のエッジに沿った可
視線及び不可視線のサーチを行ない、 グループ化されたテキスト成分と、可視及び不可視線に
基づき、歪み検出を行なうことなく、不規則形状の非テ
キストブロックと、不規則形状の水平及び垂直テキスト
ブロックとを形成し、 各形成されたテキストブロックについて、テキスト傾斜
を検出し、 検出されたテキスト傾斜に基づいて、テキストブロック
からテキストラインを抽出し、 その後、各形成されたテキスト及び非テキストブロック
について、歪み角度を検出し、 検出された歪み角度に基づいて、形成された水平及び垂
直テキストブロックを修正することを特徴とするテキス
トブロック形成方法。 - 【請求項81】 非テキスト情報と、水平及び垂直テキ
スト情報とを有する、格納された文書において、テキス
ト及び非テキストブロックを形成する装置であって、 格納された文書を格納する格納手段と、 (1)連続画素成分を識別し、(2)識別された画素成
分をテキスト及び非テキスト成分に分離し、(3)連続
テキスト成分を水平及び垂直にグループ化し、(4)前
記文書に対して、非テキスト成分のエッジに沿った可視
線及び不可視線のサーチを行ない、(5)グループ化さ
れたテキスト成分と、可視及び不可視線に基づき、歪み
検出を行なうことなく、不規則形状の非テキストブロッ
クと、不規則形状の水平及び垂直テキストブロックとを
形成し、(6)各形成されたテキストブロックについ
て、テキスト傾斜を検出し、(7)検出されたテキスト
傾斜に基づいて、テキストブロックからテキストライン
を抽出し、(8)その後、各形成されたテキスト及び非
テキストブロックについて、歪み角度を検出し、(9)
検出された歪み角度に基づいて、形成された水平及び垂
直テキストブロックを修正する処理手段とを備えること
を特徴とするテキストブロック形成装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/171720 | 1993-12-22 | ||
US08/171,720 US5588072A (en) | 1993-12-22 | 1993-12-22 | Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07234918A true JPH07234918A (ja) | 1995-09-05 |
JP3754716B2 JP3754716B2 (ja) | 2006-03-15 |
Family
ID=22624869
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP32095594A Expired - Fee Related JP3754716B2 (ja) | 1993-12-22 | 1994-12-22 | 文書のテキスト及び/または非テキストブロックの選択方法及び装置 |
Country Status (6)
Country | Link |
---|---|
US (2) | US5588072A (ja) |
EP (2) | EP1061469B1 (ja) |
JP (1) | JP3754716B2 (ja) |
DE (2) | DE69432585T2 (ja) |
SG (1) | SG98357A1 (ja) |
TW (1) | TW258803B (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7805003B1 (en) | 2003-11-18 | 2010-09-28 | Adobe Systems Incorporated | Identifying one or more objects within an image |
US11977533B2 (en) | 2021-04-02 | 2024-05-07 | Kofax, Inc. | Automated document processing for detecting, extracting, and analyzing tables and tabular data |
Families Citing this family (131)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6219157B1 (en) * | 1992-06-18 | 2001-04-17 | Canon Kabushiki Kaisha | Image coding apparatus |
JP3373008B2 (ja) * | 1993-10-20 | 2003-02-04 | オリンパス光学工業株式会社 | 画像像域分離装置 |
US5588072A (en) * | 1993-12-22 | 1996-12-24 | Canon Kabushiki Kaisha | Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks |
US5987171A (en) * | 1994-11-10 | 1999-11-16 | Canon Kabushiki Kaisha | Page analysis system |
US5689342A (en) * | 1994-11-17 | 1997-11-18 | Canon Kabushiki Kaisha | Image processing method and apparatus which orders text areas which have been extracted from an image |
US6005680A (en) * | 1995-04-04 | 1999-12-21 | Canon Information Systems, Inc. | Method for capturing a document image, a scanner using the method and a document image management system using the scanner |
JP3026751B2 (ja) * | 1995-06-15 | 2000-03-27 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 画像切出方法及び装置 |
US5848186A (en) * | 1995-08-11 | 1998-12-08 | Canon Kabushiki Kaisha | Feature extraction system for identifying text within a table image |
US5774579A (en) * | 1995-08-11 | 1998-06-30 | Canon Kabushiki Kaisha | Block selection system in which overlapping blocks are decomposed |
US5889886A (en) * | 1995-11-28 | 1999-03-30 | Xerox Corporation | Method and apparatus for detecting running text in an image |
AU728856B2 (en) * | 1995-12-21 | 2001-01-18 | Canon Kabushiki Kaisha | Zone segmentation for image display |
US5719386A (en) * | 1996-02-07 | 1998-02-17 | Umax Data Systems, Inc. | High efficiency multi-image scan method |
US6496600B1 (en) * | 1996-06-17 | 2002-12-17 | Canon Kabushiki Kaisha | Font type identification |
US6157738A (en) * | 1996-06-17 | 2000-12-05 | Canon Kabushiki Kaisha | System for extracting attached text |
US6192163B1 (en) * | 1996-10-29 | 2001-02-20 | Seiko Epson Corporation | Image processing method and image processing apparatus |
US6512848B2 (en) | 1996-11-18 | 2003-01-28 | Canon Kabushiki Kaisha | Page analysis system |
US5893127A (en) * | 1996-11-18 | 1999-04-06 | Canon Information Systems, Inc. | Generator for document with HTML tagged table having data elements which preserve layout relationships of information in bitmap image of original document |
US5892843A (en) * | 1997-01-21 | 1999-04-06 | Matsushita Electric Industrial Co., Ltd. | Title, caption and photo extraction from scanned document images |
JP3563911B2 (ja) * | 1997-03-04 | 2004-09-08 | シャープ株式会社 | 文字認識装置 |
JPH10257488A (ja) * | 1997-03-12 | 1998-09-25 | Oki Data:Kk | 画像符号化装置および画像復号化装置 |
KR100212318B1 (ko) * | 1997-05-29 | 1999-08-02 | 윤종용 | 수직 얼라인먼트(Alignment)보정 장치 및 방법 |
US6137906A (en) * | 1997-06-27 | 2000-10-24 | Kurzweil Educational Systems, Inc. | Closest word algorithm |
KR19990016070A (ko) * | 1997-08-13 | 1999-03-05 | 윤종용 | 셔틀 스캐너의 수직 얼라인먼트 오차 보정 방법 |
US6108444A (en) * | 1997-09-29 | 2000-08-22 | Xerox Corporation | Method of grouping handwritten word segments in handwritten document images |
US6298173B1 (en) | 1997-10-03 | 2001-10-02 | Matsushita Electric Corporation Of America | Storage management system for document image database |
JPH11143986A (ja) * | 1997-10-17 | 1999-05-28 | Internatl Business Mach Corp <Ibm> | ビットマップイメージの処理方法及び処理装置、ビットマップイメージの処理を行うイメージ処理プログラムを格納した記憶媒体 |
US6173073B1 (en) | 1998-01-05 | 2001-01-09 | Canon Kabushiki Kaisha | System for analyzing table images |
JP4077919B2 (ja) * | 1998-01-30 | 2008-04-23 | キヤノン株式会社 | 画像処理方法及び装置及びその記憶媒体 |
JPH11220298A (ja) * | 1998-02-02 | 1999-08-10 | Matsushita Electric Ind Co Ltd | 電子部品実装方法 |
US6298157B1 (en) * | 1998-02-27 | 2001-10-02 | Adobe Systems Incorporated | Locating and aligning embedded images |
JPH11306197A (ja) * | 1998-04-24 | 1999-11-05 | Canon Inc | 画像処理装置及びその方法、コンピュータ可読メモリ |
US6804414B1 (en) * | 1998-05-01 | 2004-10-12 | Fujitsu Limited | Image status detecting apparatus and document image correcting apparatus |
EP0967792B1 (en) * | 1998-06-26 | 2011-08-03 | Sony Corporation | Printer having image correcting capability |
US6360006B1 (en) | 1998-09-29 | 2002-03-19 | Canon Kabushiki Kaisha | Color block selection |
JP2000217000A (ja) * | 1998-11-19 | 2000-08-04 | Murata Mach Ltd | 画像処理装置、画像処理方法及び記録媒体 |
US6711292B2 (en) * | 1998-12-30 | 2004-03-23 | Canon Kabushiki Kaisha | Block selection of table features |
IL132719A (en) * | 1999-01-07 | 2010-04-29 | Topscan Ltd | Optical scanner and software therefor |
JP3150130B2 (ja) * | 1999-03-26 | 2001-03-26 | 新潟日本電気株式会社 | 画像形成装置及びプログラムを記憶した記憶媒体 |
JP3913985B2 (ja) * | 1999-04-14 | 2007-05-09 | 富士通株式会社 | 文書画像中の基本成分に基づく文字列抽出装置および方法 |
US6496198B1 (en) | 1999-05-04 | 2002-12-17 | Canon Kabushiki Kaisha | Color editing system |
US7266761B2 (en) * | 1999-06-15 | 2007-09-04 | Microsoft Corporation | Special API interface for interfacing an application with a TWAIN module, negotiating and presenting a user interface for inserting an image into a document |
US6535633B1 (en) * | 1999-09-24 | 2003-03-18 | Bank One | Method and apparatus for re-classifying color image pixels classified by single channel segmentation |
US6839466B2 (en) * | 1999-10-04 | 2005-01-04 | Xerox Corporation | Detecting overlapping images in an automatic image segmentation device with the presence of severe bleeding |
US7016536B1 (en) | 1999-11-24 | 2006-03-21 | Gtx Corporation | Method and apparatus for automatic cleaning and enhancing of scanned documents |
EP1117072A1 (en) * | 2000-01-17 | 2001-07-18 | Koninklijke Philips Electronics N.V. | Text improvement |
JP2001218011A (ja) * | 2000-01-31 | 2001-08-10 | Canon Inc | 画像処理装置、画像処理方法及び記憶媒体 |
US6687421B1 (en) * | 2000-03-17 | 2004-02-03 | International Business Machines Corporation | Skew detection of text in a noisy digitized image |
US6757870B1 (en) * | 2000-03-22 | 2004-06-29 | Hewlett-Packard Development Company, L.P. | Automatic table detection method and system |
US8682077B1 (en) | 2000-11-28 | 2014-03-25 | Hand Held Products, Inc. | Method for omnidirectional processing of 2D images including recognizable characters |
KR100411894B1 (ko) * | 2000-12-28 | 2003-12-24 | 한국전자통신연구원 | 문서영상 영역해석 방법 |
US20020178183A1 (en) * | 2001-04-10 | 2002-11-28 | Uwe Meding | Data extraction method and apparatus |
US6898313B2 (en) * | 2002-03-06 | 2005-05-24 | Sharp Laboratories Of America, Inc. | Scalable layered coding in a multi-layer, compound-image data transmission system |
US7079686B2 (en) * | 2002-08-20 | 2006-07-18 | Lexmark International, Inc. | Systems and methods for content-based document image enhancement |
JP2004088585A (ja) * | 2002-08-28 | 2004-03-18 | Fuji Xerox Co Ltd | 画像処理システムおよびその方法 |
JP3950777B2 (ja) * | 2002-09-30 | 2007-08-01 | キヤノン株式会社 | 画像処理方法、画像処理装置および画像処理プログラム |
US20040066538A1 (en) * | 2002-10-04 | 2004-04-08 | Rozzi William A. | Conversion of halftone bitmaps to continuous tone representations |
JP4194462B2 (ja) * | 2002-11-12 | 2008-12-10 | キヤノン株式会社 | 電子透かし埋め込み方法、電子透かし埋め込み装置、及びそれらを実現するプログラム並びにコンピュータ可読記憶媒体 |
JP4538214B2 (ja) * | 2002-11-22 | 2010-09-08 | オセ−テクノロジーズ・ベー・ヴエー | グラフによる画像分割 |
EP1634135B1 (en) * | 2003-02-28 | 2011-09-14 | Gannon Technologies Group | Systems and methods for source language word pattern matching |
US7305612B2 (en) * | 2003-03-31 | 2007-12-04 | Siemens Corporate Research, Inc. | Systems and methods for automatic form segmentation for raster-based passive electronic documents |
JP4189654B2 (ja) * | 2003-04-18 | 2008-12-03 | セイコーエプソン株式会社 | 画像処理装置 |
US7298920B2 (en) * | 2003-06-11 | 2007-11-20 | Hewlett-Packard Development Company, L.P. | Method and device for determining orientation of text |
EP1661059B1 (en) * | 2003-07-21 | 2010-10-06 | Gannon Technologies Group | Systems and methods for assessing disorders affecting fine motor skills using handwriting recognition |
AU2004271639B2 (en) * | 2003-09-05 | 2010-09-23 | Gannon Technologies Group | Systems and methods for biometric identification using handwriting recognition |
US7356200B2 (en) * | 2003-11-03 | 2008-04-08 | Hewlett-Packard Development Company, L.P. | Method and device for determining skew angle of an image |
JP4012140B2 (ja) * | 2003-11-20 | 2007-11-21 | キヤノン株式会社 | 画像処理装置、情報処理装置及びそれらの制御方法、プログラム |
US7286718B2 (en) * | 2004-01-26 | 2007-10-23 | Sri International | Method and apparatus for determination of text orientation |
US20050281463A1 (en) * | 2004-04-22 | 2005-12-22 | Samsung Electronics Co., Ltd. | Method and apparatus for processing binary image |
CN100377171C (zh) * | 2004-08-13 | 2008-03-26 | 富士通株式会社 | 生成劣化字符图像的方法和装置 |
CN100373399C (zh) * | 2004-08-18 | 2008-03-05 | 富士通株式会社 | 建立劣化字典的方法和装置 |
US7724958B2 (en) * | 2004-09-07 | 2010-05-25 | Gannon Technologies Group Llc | Systems and methods for biometric identification using handwriting recognition |
JP4477468B2 (ja) * | 2004-10-15 | 2010-06-09 | 富士通株式会社 | 組み立て図面の装置部品イメージ検索装置 |
JP2006130221A (ja) * | 2004-11-09 | 2006-05-25 | Konica Minolta Medical & Graphic Inc | 医用画像転送装置、プログラム及び記憶媒体 |
JP4443443B2 (ja) * | 2005-03-04 | 2010-03-31 | 富士通株式会社 | 文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法 |
JP2006268372A (ja) * | 2005-03-23 | 2006-10-05 | Fuji Xerox Co Ltd | 翻訳装置、画像処理装置、画像形成装置、翻訳方法及びプログラム |
US7584424B2 (en) | 2005-08-19 | 2009-09-01 | Vista Print Technologies Limited | Automated product layout |
US7676744B2 (en) * | 2005-08-19 | 2010-03-09 | Vistaprint Technologies Limited | Automated markup language layout |
US20080311551A1 (en) * | 2005-08-23 | 2008-12-18 | Mazer Corporation, The | Testing Scoring System and Method |
US7596270B2 (en) * | 2005-09-23 | 2009-09-29 | Dynacomware Taiwan Inc. | Method of shuffling text in an Asian document image |
CA2637005A1 (en) * | 2006-01-11 | 2007-07-19 | Gannon Technologies Group, Llc | Pictographic recognition technology applied to distinctive characteristics of handwritten arabic text |
US7702154B2 (en) * | 2006-01-13 | 2010-04-20 | Adobe Systems, Incorporated | Method and apparatus indentifying halftone regions within a digital image |
US8630498B2 (en) | 2006-03-02 | 2014-01-14 | Sharp Laboratories Of America, Inc. | Methods and systems for detecting pictorial regions in digital images |
US7889932B2 (en) | 2006-03-02 | 2011-02-15 | Sharp Laboratories Of America, Inc. | Methods and systems for detecting regions in digital images |
US7792359B2 (en) * | 2006-03-02 | 2010-09-07 | Sharp Laboratories Of America, Inc. | Methods and systems for detecting regions in digital images |
JP4807618B2 (ja) * | 2006-03-06 | 2011-11-02 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
US8437054B2 (en) | 2006-06-15 | 2013-05-07 | Sharp Laboratories Of America, Inc. | Methods and systems for identifying regions of substantially uniform color in a digital image |
US7864365B2 (en) * | 2006-06-15 | 2011-01-04 | Sharp Laboratories Of America, Inc. | Methods and systems for segmenting a digital image into regions |
US7876959B2 (en) * | 2006-09-06 | 2011-01-25 | Sharp Laboratories Of America, Inc. | Methods and systems for identifying text in digital images |
US20080168402A1 (en) | 2007-01-07 | 2008-07-10 | Christopher Blumenberg | Application Programming Interfaces for Gesture Operations |
US20080168478A1 (en) | 2007-01-07 | 2008-07-10 | Andrew Platzer | Application Programming Interfaces for Scrolling |
US20080225340A1 (en) * | 2007-03-14 | 2008-09-18 | Ricoh Company, Limited | Image processing apparatus, image processing method, and computer program product |
US8014596B2 (en) * | 2007-10-30 | 2011-09-06 | Sharp Laboratories Of America, Inc. | Methods and systems for background color extrapolation |
US20090153912A1 (en) * | 2007-12-18 | 2009-06-18 | Mohamed Nooman Ahmed | Scanner Calibration Strip, Scanner, and Method for Segmenting a Scanned Document Image |
WO2009081791A1 (ja) * | 2007-12-21 | 2009-07-02 | Nec Corporation | 情報処理システム、その方法及びプログラム |
US8717305B2 (en) | 2008-03-04 | 2014-05-06 | Apple Inc. | Touch event model for web pages |
US8645827B2 (en) | 2008-03-04 | 2014-02-04 | Apple Inc. | Touch event model |
CN101551859B (zh) * | 2008-03-31 | 2012-01-04 | 夏普株式会社 | 图像辨别装置及图像检索装置 |
JP5132416B2 (ja) * | 2008-05-08 | 2013-01-30 | キヤノン株式会社 | 画像処理装置およびその制御方法 |
US8023741B2 (en) * | 2008-05-23 | 2011-09-20 | Sharp Laboratories Of America, Inc. | Methods and systems for detecting numerals in a digital image |
US8023770B2 (en) * | 2008-05-23 | 2011-09-20 | Sharp Laboratories Of America, Inc. | Methods and systems for identifying the orientation of a digital image |
US8452108B2 (en) * | 2008-06-25 | 2013-05-28 | Gannon Technologies Group Llc | Systems and methods for image recognition using graph-based pattern matching |
US8620080B2 (en) * | 2008-09-26 | 2013-12-31 | Sharp Laboratories Of America, Inc. | Methods and systems for locating text in a digital image |
WO2010087886A1 (en) * | 2009-01-27 | 2010-08-05 | Gannon Technologies Group Llc | Systems and methods for graph-based pattern recognition technology applied to the automated identification of fingerprints |
US8285499B2 (en) | 2009-03-16 | 2012-10-09 | Apple Inc. | Event recognition |
US8566045B2 (en) | 2009-03-16 | 2013-10-22 | Apple Inc. | Event recognition |
US9684521B2 (en) | 2010-01-26 | 2017-06-20 | Apple Inc. | Systems having discrete and continuous gesture recognizers |
US9092668B2 (en) * | 2009-07-18 | 2015-07-28 | ABBYY Development | Identifying picture areas based on gradient image analysis |
US20110052094A1 (en) * | 2009-08-28 | 2011-03-03 | Chunyu Gao | Skew Correction for Scanned Japanese/English Document Images |
US9223590B2 (en) * | 2010-01-06 | 2015-12-29 | Apple Inc. | System and method for issuing commands to applications based on contextual information |
US8922582B2 (en) * | 2009-11-16 | 2014-12-30 | Martin J. Murrett | Text rendering and display using composite bitmap images |
CN101853297A (zh) * | 2010-05-28 | 2010-10-06 | 英华达(南昌)科技有限公司 | 一种在电子设备中快速获得期望图像的方法 |
US10216408B2 (en) | 2010-06-14 | 2019-02-26 | Apple Inc. | Devices and methods for identifying user interface objects based on view hierarchy |
AU2010257298B2 (en) | 2010-12-17 | 2014-01-23 | Canon Kabushiki Kaisha | Finding text regions from coloured image independent of colours |
JP2012203783A (ja) * | 2011-03-28 | 2012-10-22 | Fuji Xerox Co Ltd | 画像処理装置およびプログラム |
US9110926B1 (en) * | 2012-11-07 | 2015-08-18 | Amazon Technologies, Inc. | Skew detection for vertical text |
US9076058B2 (en) * | 2013-01-29 | 2015-07-07 | Sharp Laboratories Of America, Inc. | Methods, systems and apparatus for determining orientation in a document image |
US9785240B2 (en) * | 2013-03-18 | 2017-10-10 | Fuji Xerox Co., Ltd. | Systems and methods for content-aware selection |
US9733716B2 (en) | 2013-06-09 | 2017-08-15 | Apple Inc. | Proxy gesture recognizer |
KR102107395B1 (ko) | 2013-08-28 | 2020-05-07 | 삼성전자주식회사 | 모바일 단말기 및 그의 코드 인식 방법 |
JP5915628B2 (ja) * | 2013-11-26 | 2016-05-11 | コニカミノルタ株式会社 | 画像形成装置、テキストデータの埋め込み方法及び埋め込みプログラム |
AU2013273778A1 (en) * | 2013-12-20 | 2015-07-09 | Canon Kabushiki Kaisha | Text line fragments for text line analysis |
US9373048B1 (en) * | 2014-12-24 | 2016-06-21 | Wipro Limited | Method and system for recognizing characters |
CN105472392B (zh) * | 2015-12-11 | 2018-11-20 | 西安万像电子科技有限公司 | 基于渐进式文字块压缩的屏幕视频编解码方法及编解码器 |
CN106250831A (zh) * | 2016-07-22 | 2016-12-21 | 北京小米移动软件有限公司 | 图像检测方法、装置和用于图像检测的装置 |
CN107172430B (zh) * | 2017-06-06 | 2019-06-18 | 西安万像电子科技有限公司 | 文字块的编码方法和装置 |
US10318803B1 (en) * | 2017-11-30 | 2019-06-11 | Konica Minolta Laboratory U.S.A., Inc. | Text line segmentation method |
JP7406884B2 (ja) * | 2019-06-27 | 2023-12-28 | キヤノン株式会社 | 情報処理装置、プログラム及び制御方法 |
US11256913B2 (en) * | 2019-10-10 | 2022-02-22 | Adobe Inc. | Asides detection in documents |
CN111310579B (zh) * | 2020-01-19 | 2023-06-23 | 徐庆 | 一种图像骨架节点特征描述符获取方法及装置 |
US11675970B2 (en) * | 2020-02-14 | 2023-06-13 | Open Text Corporation | Machine learning systems and methods for automatically tagging documents to enable accessibility to impaired individuals |
US20210286991A1 (en) * | 2020-03-12 | 2021-09-16 | Canon Kabushiki Kaisha | Image processing apparatus, image processing method, and storage medium |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4379282A (en) * | 1979-06-01 | 1983-04-05 | Dest Corporation | Apparatus and method for separation of optical character recognition data |
US4741045A (en) * | 1983-09-23 | 1988-04-26 | Dest Corporation | Optical character isolation system, apparatus and method |
JPH07107694B2 (ja) * | 1984-08-31 | 1995-11-15 | 株式会社日立製作所 | 文書処理装置 |
JPS63268081A (ja) * | 1987-04-17 | 1988-11-04 | インタ−ナショナル・ビジネス・マシ−ンズ・コ−ポレ−ション | 文書の文字を認識する方法及び装置 |
US5001766A (en) * | 1988-05-16 | 1991-03-19 | At&T Bell Laboratories | Apparatus and method for skew control of document images |
US5062141A (en) * | 1988-06-02 | 1991-10-29 | Ricoh Company, Ltd. | Method of segmenting characters in lines which may be skewed, for allowing improved optical character recognition |
US4916838A (en) * | 1988-06-17 | 1990-04-17 | The Holson Company | Photo holder for photo albums |
US4988852A (en) * | 1988-07-05 | 1991-01-29 | Teknekron Transportation Systems, Inc. | Bar code reader |
US5101448A (en) * | 1988-08-24 | 1992-03-31 | Hitachi, Ltd. | Method and apparatus for processing a document by utilizing an image |
US5129012A (en) * | 1989-03-25 | 1992-07-07 | Sony Corporation | Detecting line segments and predetermined patterns in an optically scanned document |
JP2812982B2 (ja) * | 1989-04-05 | 1998-10-22 | 株式会社リコー | 表認識方法 |
JPH0816918B2 (ja) * | 1989-04-18 | 1996-02-21 | シャープ株式会社 | 行抽出方法 |
JP2644041B2 (ja) * | 1989-05-08 | 1997-08-25 | キヤノン株式会社 | 文字認識装置 |
US5159667A (en) * | 1989-05-31 | 1992-10-27 | Borrey Roland G | Document identification by characteristics matching |
JP2940936B2 (ja) * | 1989-06-06 | 1999-08-25 | 株式会社リコー | 表領域識別方法 |
US5120977A (en) * | 1989-10-10 | 1992-06-09 | Unisys Corporation (Formerly Burroughs Corp.) | Document transport control including document velocity profiles |
US5021676A (en) * | 1989-10-10 | 1991-06-04 | Unisys Corp. | Document-skew detection with photosensors |
US5052044A (en) * | 1990-02-02 | 1991-09-24 | Eastman Kodak Company | Correlated masking process for deskewing, filtering and recognition of vertically segmented characters |
JPH03290774A (ja) * | 1990-04-06 | 1991-12-20 | Fuji Facom Corp | 文書画像の文章領域抽出装置 |
US5054094A (en) * | 1990-05-07 | 1991-10-01 | Eastman Kodak Company | Rotationally impervious feature extraction for optical character recognition |
EP0472313B1 (en) * | 1990-08-03 | 1998-11-11 | Canon Kabushiki Kaisha | Image processing method and apparatus therefor |
JPH0490083A (ja) * | 1990-08-03 | 1992-03-24 | Canon Inc | 文字認識装置 |
US5101439A (en) * | 1990-08-31 | 1992-03-31 | At&T Bell Laboratories | Segmentation process for machine reading of handwritten information |
CA2092529A1 (en) * | 1990-09-27 | 1992-03-28 | Wolfgang Lellmann | Process for extracting individual characters from raster images of a read-in handwritten or typed series of characters in free distribution |
KR930002349B1 (ko) * | 1990-12-29 | 1993-03-29 | 주식회사 금성사 | 압축영상의 문자열 분리방법 |
JPH04248687A (ja) * | 1991-01-23 | 1992-09-04 | Internatl Business Mach Corp <Ibm> | 文書画像のレイアウト解析方法及びシステム |
US5172422A (en) * | 1991-05-13 | 1992-12-15 | Eastman Kodak Company | Fast character segmentation of skewed text lines for optical character recognition |
US5317652A (en) * | 1991-06-05 | 1994-05-31 | Phoenix Imaging | Rotation and position invariant optical character recognition |
US5307422A (en) * | 1991-06-25 | 1994-04-26 | Industrial Technology Research Institute | Method and system for identifying lines of text in a document |
US5351314A (en) * | 1991-10-04 | 1994-09-27 | Canon Information Systems, Inc. | Method and apparatus for image enhancement using intensity dependent spread filtering |
US5335290A (en) * | 1992-04-06 | 1994-08-02 | Ricoh Corporation | Segmentation of text, picture and lines of a document image |
US5680479A (en) * | 1992-04-24 | 1997-10-21 | Canon Kabushiki Kaisha | Method and apparatus for character recognition |
US5588072A (en) * | 1993-12-22 | 1996-12-24 | Canon Kabushiki Kaisha | Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks |
-
1993
- 1993-12-22 US US08/171,720 patent/US5588072A/en not_active Expired - Lifetime
-
1994
- 1994-11-22 TW TW083110864A patent/TW258803B/zh not_active IP Right Cessation
- 1994-12-22 DE DE69432585T patent/DE69432585T2/de not_active Expired - Lifetime
- 1994-12-22 JP JP32095594A patent/JP3754716B2/ja not_active Expired - Fee Related
- 1994-12-22 EP EP00202651A patent/EP1061469B1/en not_active Expired - Lifetime
- 1994-12-22 EP EP94309673A patent/EP0660256B1/en not_active Expired - Lifetime
- 1994-12-22 SG SG9609742A patent/SG98357A1/en unknown
- 1994-12-22 DE DE69432942T patent/DE69432942D1/de not_active Expired - Lifetime
-
1996
- 1996-02-05 US US08/596,716 patent/US5854853A/en not_active Expired - Lifetime
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7805003B1 (en) | 2003-11-18 | 2010-09-28 | Adobe Systems Incorporated | Identifying one or more objects within an image |
US11977533B2 (en) | 2021-04-02 | 2024-05-07 | Kofax, Inc. | Automated document processing for detecting, extracting, and analyzing tables and tabular data |
US11977534B2 (en) | 2021-04-02 | 2024-05-07 | Kofax, Inc. | Automated document processing for detecting, extracting, and analyzing tables and tabular data |
Also Published As
Publication number | Publication date |
---|---|
DE69432585D1 (de) | 2003-06-05 |
DE69432585T2 (de) | 2004-04-08 |
EP0660256B1 (en) | 2003-05-02 |
TW258803B (ja) | 1995-10-01 |
JP3754716B2 (ja) | 2006-03-15 |
EP0660256A3 (en) | 1996-03-20 |
DE69432942D1 (de) | 2003-08-14 |
EP0660256A2 (en) | 1995-06-28 |
EP1061469A1 (en) | 2000-12-20 |
US5854853A (en) | 1998-12-29 |
SG98357A1 (en) | 2003-09-19 |
EP1061469B1 (en) | 2003-07-09 |
US5588072A (en) | 1996-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3754716B2 (ja) | 文書のテキスト及び/または非テキストブロックの選択方法及び装置 | |
US5987171A (en) | Page analysis system | |
US5809167A (en) | Page segmentation and character recognition system | |
EP0567344B1 (en) | Method and apparatus for character recognition | |
JP4065460B2 (ja) | 画像処理方法及び装置 | |
US6738154B1 (en) | Locating the position and orientation of multiple objects with a smart platen | |
JP3259993B2 (ja) | 語形測定方法及び画像信号処理方法 | |
US6173073B1 (en) | System for analyzing table images | |
US5619594A (en) | Image processing system with on-the-fly JPEG compression | |
US6711292B2 (en) | Block selection of table features | |
US20010012400A1 (en) | Page analysis system | |
JPH05282495A (ja) | 比較方法 | |
WO2003069554A2 (en) | Method and system for interactive ground-truthing of document images | |
US6532302B2 (en) | Multiple size reductions for image segmentation | |
JP4408495B2 (ja) | 画像処理方法及び画像処理装置 | |
JP3285686B2 (ja) | 領域分割方法 | |
US6356657B1 (en) | Image processing method and apparatus for discriminating an input image area or an attribute of image information in the discriminated area | |
EP0975146B1 (en) | Locating the position and orientation of multiple objects with a smart platen | |
EP0767941B1 (en) | Automatic determination of landscape scan in binary images | |
EP0974931A1 (en) | Method and apparatus for identifying a plurality of sub-images in an input image | |
JPH08272987A (ja) | 画像処理方法及びその装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050218 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050419 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050805 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051005 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20051104 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051219 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081222 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091222 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091222 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101222 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111222 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121222 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131222 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |