JPH07234918A - 文書のテキスト及び/または非テキストブロックの選択方法及び装置 - Google Patents

文書のテキスト及び/または非テキストブロックの選択方法及び装置

Info

Publication number
JPH07234918A
JPH07234918A JP6320955A JP32095594A JPH07234918A JP H07234918 A JPH07234918 A JP H07234918A JP 6320955 A JP6320955 A JP 6320955A JP 32095594 A JP32095594 A JP 32095594A JP H07234918 A JPH07234918 A JP H07234918A
Authority
JP
Japan
Prior art keywords
text
block
components
component
forming
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6320955A
Other languages
English (en)
Other versions
JP3754716B2 (ja
Inventor
Yan Wangu Shin
ワング シン・ヤン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JPH07234918A publication Critical patent/JPH07234918A/ja
Application granted granted Critical
Publication of JP3754716B2 publication Critical patent/JP3754716B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1463Orientation detection or correction, e.g. rotation of multiples of 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】テキストブロック形成の前に歪んだ文書を回転
させることを不要とし、テキスト及び非テキストブロッ
クを効果的に且つ効率的に選択する。 【構成】文書内の連続画素成分を識別し、識別された画
素成分をテキスト及び非テキスト成分に分離し、文書に
対して非テキスト成分のエッジに沿った可視及び不可視
線のサーチを行ない、識別されたテキスト成分と、可視
及び不可視線を用いて不規則形状のテキスト及び非テキ
ストブロックを形成し、各形成されたテキストブロック
からテキスト方向を検出し、検出された方向に基づいて
テキストブロックからテキストラインを抽出し、文書の
歪み角度を検出し、検出された歪み角度に基づいて形成
されたテキスト及び非テキストブロックを修正する機能
及び構成を有している。こうして形成されたテキストブ
ロックは例えば文字認識ルーチンに適用される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、例えば文字認識に先立
って行なわれる文字ブロックの処理のための方法及び装
置に関する。さらに詳しくは、認識に先立ち、画像デー
タのブロックが画像データの文字に基づいて分類され選
択される、文字ブロック処理方法及び装置に関するもの
である。例えば、画像データがテキスト画像データ(水
平及び/または垂直)か、それとも中間調(またはグレ
イスケール)画像、線画、表、垂直または水平線、フレ
ーム等の非テキスト画像データのいずれであるかに基づ
いて、画像データブロックが選択されて分類される。
【0002】
【従来の技術】近年、テキストデータの画像を分析し
て、テキストデータ内の個々の文字を認識したり、認識
した文字に対応する、コンピュータが読み取れる文字コ
ードファイルを作成することが可能になった。そうした
ファイルは、ワードプロセッシングや、データ圧縮、あ
るいはデータ処理プログラムで操作することができる。
そうしたシステムは、以下「文字認識システム」と称さ
れるが、リタイプもしくはテキストデータの再入力の必
要がなくなるため有益である。例えば、ファクシミリ送
信されたり複写機やマイクロフィルムで再現された文書
に対して文字認識を行なって、その文書の文字や数字の
文字コード(例えばASCIIコード)を含むコンピュ
ータファイルを作成し、リタイプや文書の再入力を必要
とせずに、更なるワードプロセッシングまたはデータ処
理を文書に対して行なうことが可能である。
【0003】文字認識される文書は、しばしば多くの異
なるタイプの画像データを含んでおり、それらの全てが
認識できるわけではない。例えば、現在、テキスト画像
データの認識が可能だとすると、一方で、非テキスト画
像データの認識は非常に困難である。通常、文字認識対
象の文書はテキスト画像データブロックと、中間調画
像、線画、線等の非テキスト画像データブロックとを含
んでいる。さらに、文書は表や、枠組があったり、また
は枠組みは無いがテーブル状に配置されたデータも含ん
でいる場合もある。従って、文字認識処理の前に、文書
内の個々のブロックをブロックの画像データのタイプに
基づいて分類し、テキストタイプのブロックを画像デー
タから選択することが必要である。
【0004】図1は代表的な文書の1ページを示してい
る。図1において、文書ページ101は2欄形式に構成
されている。ページには、タイトルに適切な大きいサイ
ズのフォントのテキスト情報を含むタイトルブロック1
02と、テキストデータのラインを含むテキストブロッ
ク104と、非テキストのグラフィック画像を含むグラ
フィックブロック105と、表のテキストまたは数字情
報を含む表ブロック106と、グラフィックまたは表情
報のブロックの説明文(caption)である小サイズのテ
キストデータを含むキャプションブロック107とが含
まれている。各情報のブロックはそこに含まれる情報の
タイプに基づいて分類され、その分類に応じて分割され
る。
【0005】
【発明が解決しようとする課題】予め、画像データのテ
キストタイプのブロックを検出するために、画像データ
における黒画素を水平及び垂直に展開して、水平及び垂
直に隣接する単数または複数の白画素に展開することで
画素画像データをにじませる(スミアー技術)ことが考
えられた。こうしたスミアー技術は、スミアーパラメー
タを適切に選択することができる様に、テキストタイプ
画像データの文字の予備知識(例えばフォントサイズ)
に依存しているため、不十分である。さらに、スミアー
パラメータの小さな変化で選択結果に大きな変化が生じ
る。スミアー技術はまた、必ず原稿文書の内部構造を保
持できるわけではない。例えば、スミアーにより2欄形
式の原稿が1欄に変わってしまうことがある。このよう
な状況は、テキストデータが格納されている順序を狂わ
せ、原稿テキストの正確な再構成を不可能にしてしまう
ことから、不都合である。さらに、スミアー技術では、
時折テキストタイプデータを非テキストタイプデータ中
ににじませ、全体の領域がテキストタイプデータとして
誤認識されることが知られている。
【0006】同出願人による、1992年4月24日出
願の米国特許出願第07/873、012号では、格納
された文書内の文字ブロックを選択するための他の方法
が提案されている。そこでは、格納された文書に対し、
最初に所謂「結合成分(connected components)」のサ
ーチが行なわれる。これは、各画素の周囲の8方向のい
ずれかに存在する、2つ以上の画素が結合されたもので
ある。次に、テキスト結合成分は非テキスト結合成分か
ら分離されて、非テキスト結合成分は、例えば、表、中
間調画像、線画等として分類される。次に、文書の何ら
かの歪みの方向が検出され、もし歪みが垂直ならば画像
は90度回転され、結合成分のサーチが再び行なわれ
る。歪みの補正の後、テキストの適切なブロック、例え
ば欄が識別される様に、非テキスト成分のエッジに添っ
た目に見えない白ラインがサーチされる。その後、水平
テキスト列とタイトル列が形成され、水平テキスト列は
グループ化されて四角形に配置されたテキストブロック
になる。そして、後処理が行なわれて、更なる文字認識
処理のために、識別されたテキストブロックが準備され
る。07/873、012号は参照により本願に併合さ
れている。
【0007】上記のブロック選択技術は水平文書(例え
ば英語文書)に適切であるが、1ページが水平及び垂直
テキストブロック(2方向)を含んでいる場合にも適用
可能である。例えば、日本語の文書は垂直な漢字文字と
表や数字記号などの水平な文字との組み合わせを含んで
いる。また、ある種の英語文書は特定の情報を強調した
り、所望の効果を提供するために、垂直に配置された文
字を含んでいる。
【0008】さらに、スキャンされたページ自体はしば
しば歪んでおり、上記のブロック選択技術では、最初に
歪みを識別して、テキストブロックを形成する前に画像
を回転させることでこの問題に対処している。この技術
を実用化する際には、処理速度と正確さにおいて2つの
実質的な問題となる。さらに詳しくは、上記のブロック
選択技術では、ブロック領域は四角形で表され、非テキ
ストブロックの境界もまた記録される。しかし、歪んだ
文書の場合、四角形はテキストブロック間の分離を不明
瞭にして、実際重なることもある。これにより、ブロッ
ク内のデータの誤分類が起こり、文字認識のエラーとな
ることもある。
【0009】従って、垂直及び水平テキストブロックが
認識され、テキストブロック形成の前に歪んだ文書を回
転させる必要の無い、格納文書におけるテキスト及び非
テキストブロックを効果的に且つ効率的に選択するため
の方法及び装置が求められている。これにより、処理時
間を節約し、認識精度を向上させる、より柔軟なブロッ
ク選択技術が提供される。
【0010】本発明は、上記の問題に鑑みてなされたも
のであり、垂直及び水平テキストブロックを認識し、テ
キストブロック形成の前に歪んだ文書を回転させること
を不要とし、テキスト及び非テキストブロックを効果的
に且つ効率的に選択することを可能とするブロック選択
方法及び装置を提供することを目的とする。
【0011】また、本発明の他の目的は、各ブロックを
不規則な形状の曲線で囲むことを可能とし、各ブロック
をより簡潔かつ明瞭に囲むブロック選択方法及び装置を
提供することを目的とする。
【0012】
【課題を解決するための手段】及び
【作用】上記の目的を達成する本発明の一つの態様によ
れば、格納された文書のテキスト領域と非テキスト領域
のブロックを分離する方法及び装置は、結合画素成分を
識別し、識別された画素成分をテキスト及び非テキスト
成分に分離する構成及び工程を備えている。好ましくは
非テキスト成分は、少なくとも所定の複数の非テキスト
分類の1つに分類される。そして、格納された文書に対
し、非テキスト成分のエッジに沿った可視線と不可視線
のサーチが行なわれる。そして、識別されたテキスト成
分と、可視線とを用いて、テキスト及び非テキストブロ
ックが形成される。続いて、各形成されたテキストブロ
ックに関する方向が検出され、検出されたテキスト方向
に基づいて、各検出されたテキストブロックからテキス
ト列が抽出される。テキストブロック形成後、抽出され
たテキスト列に基づいて、格納された文書に対する歪ん
だ角度が検出される。そして、形成されたテキスト及び
非テキストブロックは、検出された歪み角度に基づいて
修正される。
【0013】本発明の他の態様によれば、水平及び垂直
なテキストを有する、格納された文書におけるテキスト
ブロックを形成する方法及び装置は、結合画素成分を識
別して結合成分を水平及び垂直にグループ化する構成及
び工程を備えている。グループ化された成分に基づき、
歪み検出を行なわずに、不規則な形状の水平及び垂直テ
キストブロックが形成される。その後、各形成されたテ
キストブロックの歪み角度が検出され、文字認識などの
更なる文字処理のために、識別されたテキストブロック
が提供される。
【0014】本発明のさらに他の態様によれば、非テキ
スト情報と水平及び垂直テキスト情報を有する、格納さ
れた文書においてテキスト及び非テキストブロックを形
成する方法及び装置は、結合画素成分を識別して、識別
された画素成分をテキスト及び非テキスト成分に分離す
る構成及び工程を備えている。結合テキスト成分は水平
及び垂直にグループ化され、文書に対して、非テキスト
成分のエッジに沿った可視線及び不可視線のサーチが行
なわれる。そして、グループ化されたテキスト成分と可
視線及び不可視線に基づき、歪み検出を行なうこと無
く、不規則な形状の非テキストブロック及び不規則な形
状の水平及び垂直テキストブロックが形成される。そし
て、各形成されたテキストブロックの方向が検出され、
検出されたテキスト方向に基づいて、各検出されたテキ
ストブロックからテキスト列が抽出される。その後、形
成されたテキスト及び非テキストブロックの歪み角度が
検出され、検出された歪み角度に基づいて、形成された
水平及び垂直テキストブロック及び非テキストブロック
が修正される。
【0015】上記の他の目的を達成するための本発明の
態様によれば、画素画像データから画素のブロックを選
択する選択方法が提供される。この選択方法は、画素デ
ータにおける連続成分の輪郭を描写する輪郭描写工程
と、連続成分を、サイズ及び他の連続成分との近接度に
基づいて、選択的に幅方向に結合してラインを形成す
る、第1の結合工程と、幅方向に結合されたラインを、
サイズ及び他のラインとの近接度に基づいて、選択的に
垂直に結合してブロックを形成する、第2の結合工程
と、前記第2の結合工程で形成されたブロックの周りに
不規則な曲線を形成する形成工程とを備える。
【0016】更に本発明の他の態様によれば、画素画像
データにおける文字のテキストファイルを形成する方法
が提供される。この方法によれば、2値の画素画像デー
タを入力して格納し、格納された画素画像データのブロ
ックを選択し、格納された画素画像データにおける連続
成分の輪郭を描写し、輪郭描写された連続成分がテキス
トユニットまたは非テキストユニットを含んでいるかど
うか判定し、テキストユニットを、隣接するテキストユ
ニットの近接度に基づいて、選択的に幅方向に結合して
テキストラインを形成し、テキストラインを、隣接する
テキストラインの近接度と、テキストライン間の非テキ
ストユニットの位置とに基づいて、選択的に垂直に結合
してテキストブロックを形成し、テキストブロックを不
規則形状の曲線で囲み、前記輪郭描写工程で輪郭描写さ
れた連続成分に基づいて、テキストブロックの階層的な
ツリーを形成し、テキストブロックを少なくとも1つの
欄に適応的に分けることにより、ツリー化されたテキス
トブロックを画素データのラインに分割する。
【0017】なお、これらの及び他の本発明の特徴及び
有利な点は、以下の添付の図面に従う好適な実施例の詳
細な説明を参照することにより、さらに容易に理解され
るであろう。
【0018】
【実施例】以下に添付の図面を参照して本発明の好適な
実施例を説明する。
【0019】本発明は、複写機、ファクシミリ装置、ビ
デオまたはスチルビデオカメラ、レーザビームプリンタ
等の、文字認識処理が望まれる画像処理または画像再生
装置などの様々な装置において実現される。そうした装
置では、文字画像を含む画像は、文字画像が文字認識処
理される様に処理または再生される。必要であれば、認
識された文字画像を標準化された文字セットまたはフォ
ントに換えて、原稿の文字画像ではなく標準化された文
字を再送信したり再生したりすることもできる。本発明
はまた、汎用コンピュータや、パーソナルコンピュー
タ、ワードプロセッシングまたはデータ処理機器等のオ
フィス機器、複数のビジネス機器ツールを1つの統合パ
ッケージにおいて結合した統合オフィスオートメーショ
ン機器等においても実現され得るものである。
【0020】図2は本発明の代表的な実施例の外観を示
す図である。図2において、IBM−PC(商標)また
はPC互換性を持つコンピュータ等のコンピュータ10
が示されており、コンピュータ10は、マイクロソフト
ウインドウズ・オペレーティングシステム(商標)等の
グラフィカル・ユーザインタフェース・オペレーティン
グシステムを備えている。コンピュータ10にはカラー
モニタ等の表示画面11が設けられている。コンピュー
タ10は、さらに、白黒、中間調、カラービットマップ
画像等のデータファイルを格納したり、コンピュータ1
0がデータファイルを操作したり、表示画面11を通じ
てデータをオペレータにファイルの形で提示するための
プログラム・インストラクション・シーケンスを含むア
プリケーションプログラムファイルを格納するための、
コンピュータディスクドライブ14等のマスク格納装置
を備えている。例えば、ディスクドライブ14上のアプ
リケーションプログラムは、光ディスク上のデータにア
クセスするアプリケーションプログラムや、他の情報処
理プログラムを含むものである。
【0021】テキストデータ入力や、オペレータが表示
画面11に表示されたデータの選択や操作を行なうため
のキーボード15がコンピュータ10に接続されてい
る。さらに、表示画面11上で処理対象物の選択や操作
を行なうための、マウス等のポインティングデバイス1
6が設けられている。スキャナ18は文書または他の画
像を走査して、例えば、それらの文書のビットマップ画
像をコンピュータ10に提供する。それらの画像はコン
ピュータ10により直ちに使用されるか、あるいはコン
ピュータ10はこれらの画像をディスクドライブ14へ
格納したり、または光ディスクドライブ20を介してデ
ィスク19等の光ディスクに格納する。引き続くコンピ
ュータ10による処理のために、ビットマップ画像デー
タはディスク19またはコンピュータディスクドライブ
14から検索される。電話リンク21またはネットワー
ク22を介して、コンピュータ10内の不図示のモデム
を通じて、ビットマップ画像データ及び他のデータを供
給するための他の手段も設けることができる。さらに、
取り外し可能なフロッピーディスクドライブを設けるこ
とも可能であり、または、不図示のビデオインタフェー
スを介して、デジタルまたはアナログのビデオ情報をコ
ンピュータ10に入力してもよい。
【0022】コンピュータ10により処理された情報を
出力するために、プリンタ24が設けられている。
【0023】コンピュータオペレータ命令に従って、そ
してオペレーティングシステムの制御下で、格納された
アプリケーションプログラムが選択的に作動され、入力
されたデータの処理や操作を行なう。例えば、以下に詳
細に説明する様に、文字認識プログラムは、オペレータ
がスキャナ18を介して文書画像をスキャン入力し、ス
キャンされた画像を光ディスク19へ格納するために動
作する。オペレータはオペレーティングシステム及びア
プリケーションプログラムに従って、スキャン入力した
文書を光ディスク19から検索することができる。
【0024】図3は本発明の1実施例の詳細なブロック
図であり、スキャニング、ファクシミリ、情報送信及び
受信、そして情報処理能力を有し、情報処理能力として
は選択的にワードプロセッシング及びデータ処理能力を
有する統合オフィスオートメーション機器に関するもの
である。
【0025】図3の装置において、画像はファクシミリ
送信や、原稿のスキャン入力や、モデムを介した遠隔受
信等によって入力される。本実施例によれば、画像中の
文字を認識して、認識された文字のコンピュータテキス
トファイルを作成し、装置のワードプロセッシング、ス
プレッドシートプロセッシングまたは他の情報処理能力
を使用してテキストファイルを修正することができる。
修正されたテキストファイル(または修正を行なってい
ないテキストファイル)は再送信されたり、あるいは、
例えばテキストファイルをスピーカまたは通常の音声電
話機により音声再生するスピーチ合成技術を用いて出力
することができる。
【0026】図3では、プログラム可能なマイクロプロ
セッサ等の中央処理装置(CPU)30がバス31と接
続されている。さらにバスには、画像を画素単位で画像
メモリ(例えば下記のRAM32)へスキャン入力する
スキャナ18、デジタルデータをアナログ形式で電話線
21aを介して送受信するモデム33、及び画像を電話
線21bを介して送受信するファクシミリ装置34(所
望により不図示の電話を含む)が接続されている。電話
線21a、21bは同じ線でもよいし、不図示のネット
ワーク制御部を通じて統合されていてもよい。バス31
には、さらに、CPU30に実行される単数または複数
のコンピュータプログラムを格納する読み取り専用メモ
リ(ROM)35、認識処理の間に入力された文字が参
照される文字の辞書を格納する文字ディクショナリ3
6、入力された画像データ、処理された画像データ、画
像構造に関する情報等を格納するランダムアクセスメモ
リ(RAM)32、文字認識処理の間に認識された文字
の識別が出力される出力装置37(ディスクメモリまた
はスピーカ/音声電話線インタフェースを有するスピー
チ合成装置)、本装置によって処理された画像を表示す
るプリンタ/表示装置24、及びオペレータが装置を制
御するためのキーボード15が接続されている。
【0027】バス31に接続された装置は1つの統合オ
フィスオートメーションツールに収納されているが、こ
れらの装置の幾つかあるいは全てが選択的にスタンドア
ロン形式で提供され得ることも明らかである。
【0028】スキャナ18、モデム33、ファクシミリ
34は、画像データを装置へ入力する選択的な形の入力
手段を構成している。スキャナ18を使用した場合、原
稿はライン単位、画素単位でスキャンされて、そしてC
PU30の制御下で、画像データの画素がRAM32の
画像メモリにビットマップメモリ形式で格納される。モ
デム33を使用した場合、画像データは電話線21aよ
りアナログ形式で受信され、モデム33によりデジタル
画素形式に変換され、RAM32の画像メモリに格納さ
れる。ファクシミリ34を使用した場合、画像データは
修正ハフマンランレングス符号化方式等で圧縮または符
号化された形で、電話線21bより受信される。圧縮画
像データは、ファクシミリ34によって公知の技術によ
りデジタル画像画素データに伸張(uncompressed)さ
れ、CPU30は画像データの画素をビットマップ形式
でRAM32の画像メモリに格納する。他の入力手段も
勿論使用可能である。例えば、画像データは、ディスク
メモリ等の大型記憶装置から簡単に検索して獲得するこ
とができ、また、ビデオまたはスチルビデオカメラから
得ることもできる。
【0029】ファクシミリ34と出力装置37は、文字
認識された画像データを装置から出力するための選択的
な出力手段を構成している。ファクシミリ34を使用し
た場合、本実施例に従って認識処理された文字画像は標
準文字セットまたはフォントに変換され、装置から送信
することができる。これにより、例えば、文字画像を含
む画像の受信、文字画像の文字認識、再送信前に行なう
認識された文字の標準文字フォントへの変換が可能とな
り、劣化した画像品質を向上させる。
【0030】モデム33及び出力装置37は、画像デー
タの認識された文字の識別を、例えばASCIIコード
で出力したり格納するための選択的な手段である。文字
の識別は装置内に(ディスクメモリ内等に)格納され、
または送信のためにモデム33を介して遠隔ロケーショ
ンへ出力される。ASCIIコード等の文字の識別をフ
ァクシミリ互換性のある形式へと形式再変換するための
手段を設けることも可能で、ファクシミリ34を起動す
ることなく、モデム33を通じて離れて位置するファク
シミリ装置へ送信することができる。
【0031】プリンタ/表示装置24は、文字認識のい
ずれかのステップのための恒久的な記録を出力及び形成
するだけではなく、文字認識処理の過程を監視するため
の手段である。キーボード15は、オペレータが図3の
装置の操作を制御するためのものである。
【0032】図4は本実施例によるブロック選択技術が
有益に使用される1方法を理解するのに役立つ、全体的
な文字認識処理を示すフローチャートである。図4の処
理ステップは、プログラムROM35に格納されたコン
ピュータプログラムに従ってCPU30により実行され
る。
【0033】ステップS401では、画素画像データが
装置へ入力されRAM32へ格納される。画像データは
画像を画素単位で表現している。好ましくは、画素デー
タは2値画素データ、つまり白黒画像データである。し
かし、画像データは、各画素が複数のグレイスケールレ
ベルの内の1つで表現される中間調画像データであって
もよいし、各画素が、その色を符号化するマルチビット
ワードで表現されるカラー画像データであってもよい。
それらの場合または画素データが2値画素データではな
い他のいずれの場合でも、RAM32へ格納する前に、
非2値画素データを2値画素データへ変換するための閾
値処理が行なわれる。
【0034】好ましくは、ステップS401で入力され
た画素画像データはポートレートタイプの画像、つまり
左上隅から右下隅まで読んだ画像である。もし画像がそ
の様に構成されてない場合、例えば、ランドスケープタ
イプの画像である場合、画素画像データは、ポートレー
トタイプの画像を表現する様に翻訳される。翻訳は、画
像データを翻訳することを命じる、キーボード15を介
したオペレータ入力の命令に従って行なわれる。
【0035】ステップS402では、画像データが前処
理される。通常、劣化した文字や画像を向上させること
等により画像データを補強する様に前処理フィルタが使
用される。適切な画像補強技術は、同出願人による、1
991年10月4日出願の審査中の米国特許出願第07
/771、220号で説明されている。
【0036】ステップS402で、必要であれば、認識
処理の速度を上げるために、可能な程度に精度とコスト
を落として、画素画像データの画素数を減らすか、圧縮
を行なってもよい。例えば、m×nブロックの画素(m
とnは異なる)の画素値を平均して、そのm×nブロッ
クの平均値の単一の画素に変換することを行ってもよ
い。
【0037】ステップS403では、画像の各セグメン
トにおける画像データのタイプを特徴付け、テキスト情
報、グラフィックス情報、ライン画像情報、写真情報等
の情報のブロックを指定して識別するために、ブロック
選択が行なわれる。さらに、ステップS403のブロッ
ク選択では、画像の各部分が、後述のステップS412
で説明される様な適切な順序に再構成される様に、階層
的ツリー構造への画像の配置も行なわれる。例えば、階
層的ツリー構造には、2つの欄の画像データが、欄1よ
りのテキストが欄2よりのテキストへ読み込まれるのを
防止する様に、欄1のテキストを欄2のテキストに先行
して再構成する情報が含まれている。ステップS403
によるブロック選択を以下に詳細に説明する。
【0038】最初の情報のブロックがRAM32に格納
された画像から選択され、ステップS404では、それ
がステップS403で決定されたブロック識別に基づい
てテキストブロックか否かが決定される。その最初のブ
ロックがテキストブロックではない場合、ステップS4
05へ進み、次のブロックが選択されて、ステップS4
04へ戻る。
【0039】ステップS404で、ブロックがテキスト
ブロックである場合はステップS406へ進み、テキス
トブロックに対しライン分割が行なわれる。ライン分割
では、テキストブロックにおけるテキストの個々のライ
ンがテキストブロックのテキストの他のラインから分割
されて、分割されたラインは、次に詳細に説明される様
に順次処理される。
【0040】ステップS407では、あるラインの各文
字が、そのラインの他の文字から切り離しあるいは分割
され、個々の文字が次に詳細に説明される認識処理ルー
ティンに提供される。
【0041】ステップS408において、各文字に対し
て認識処理が文字単位で行なわれ、各文字は、文字ディ
クショナリ36に格納された標準文字と公知の技術で比
較される。文字ディクショナリ36のエントリは、通常
単一の文字に対するものであるが、ある文字の連続は切
り分けるのが困難であり(例えば「fi」)、また単一
の文字も時折不用意に切れるので(例えば「j」)、文
字ディクショナリは一文字以外の他のエントリも有して
いる。得に、ディクショナリは切り離しが困難な接触文
字の組のためのエントリを有している。さらに、ティク
ショナリはしばしば不用意に切れる文字の部分のための
エントリも有している。
【0042】比較に基づいて、文字画像に対してある識
別が選択されて、RAM32へ格納されるか、または出
力装置37へ出力される。また、所望により、識別され
た文字をプリンタ/表示装置24上で表示してもよい。
【0043】ステップS409では、テキストブロック
に対する処理が完了したかどうかを判定する。処理が完
了していない場合は、ステップS406(または、ステ
ップS407が適切ならばステップS407)へ戻り、
更なるライン分割または文字分割処理を行なう。ブロッ
ク処理が完了すると、ステップS410へ進んで、ペー
ジに対する処理が完了したかどうかを判定する。ページ
の処理が完了していない場合は、ステップS405へ戻
り、そこで同じページの次のブロックが処理のために選
択される。
【0044】ページの処理が完了すると、ステップS4
10からS411へ進み、後処理が行なわれる。後処理
にはコンテクストチェッキングやスペルチェッキング等
の技術が含まれ、ステップS408において実行された
処理の様に個々の文字に基づくよりはむしろ、それらの
文字の識別が生じるコンテクスト(全体的観点)に基づ
いて、ステップS408の認識処理で認識された文字の
識別結果が修正される。
【0045】ステップS412では、画像データはブロ
ック選択ステップS403で規定されたツリー構造に基
づいて再構成される。ページ再構成により、画像データ
は、適切な順序に変換される。例えば、脚注は本文テキ
ストから切り離され、欄は他の欄と混合されるというよ
りは、むしろその欄の後へと続き、グラフィックまたは
線画データはページの認識された文字テキストにおける
適切な位置へ挿入される。
【0046】上述のグラフィック画像または線画像に関
連する説明文(caption)はそれらの画像に隣接して挿
入される。他のルールも適用可能である。例えば、ペー
ジの物理的再構成は必要ではない場合に、ページからテ
キストを抽出するために再構成を行なう、ということも
可能である。
【0047】ステップS413では、再構成されたペー
ジは例えば出力装置37に格納される。そして、ROM
35に格納された他のアプリケーションプログラムに従
い、CPU30により実行される形で、スプレッドシー
トやワードプロセッシング等の情報処理が行なわれる。
続いて、処理された情報(または必要であれば処理を行
なっていない情報)は、様々な手段により、例えばファ
クシミリ34、モデム35、またはコンピュータテキス
トファイルを音声再生するスピーチ合成装置による通常
の音声電話機により、再送信される。
【0048】図5は図4のステップS403におけるブ
ロック選択処理を説明するための全体的なフローチャー
トである。ただし、ブロック選択処理は文字認識システ
ムとは別に使用される。例えば、画像再生機器におい
て、あるタイプのブロックに用いられる第1の画像再生
方法を生じ、次のタイプのブロックに用いられる第2の
画像再生方法を生じるため、またはデータ圧縮方式にお
けるブロック選択を使用するために、ブロック選択処理
を用いることが可能である。
【0049】ステップS50では、ブロック選択処理速
度を上げることが必要であれば、画像補強及び/または
データ縮小を行なうことができる。データ縮小が行なわ
れると、ブロック選択は縮小された画像に対して行なわ
れる。しかし、図4の文字認識処理(つまりステップS
404〜S413)に影響を与えない様に、ブロック選
択処理の終了時点で、選択されたブロックは縮小されて
いない画素画像データに対して適用される。
【0050】画像データ縮小はm×m画素ブロック毎に
黒画素の連続性を評価することにより進められる。例え
ば、3×3画素のブロックにおいて2つの連続する黒画
素が存在すれば、その3×3画素ブロックは単一の黒画
素に縮小される。逆に、3×3画素ブロックに2つの連
続する黒画素が存在しなければ、その3×3画素ブロッ
クは単一の白画素に縮小される。好ましくは、4×4画
素ブロックの黒画素の評価が行なわれる。この原理は原
画像の連続性を保持するためのものである。
【0051】ステップS51では、画素画像が分析され
た、連続成分が検出され、その大きさ及び他の連続成分
との相対的位置に基づいて、検出された連続成分が分類
される。連続成分は白画素によって完全に囲まれた黒画
素のグループである。従って、連続成分は、少なくとも
1つの白画素によって他の黒画素のグループから分離さ
れた黒画素のグループである。図6を参照して詳細に後
述するが、ステップS51では連続成分(各画素を囲む
8方向の内いずれかで連続した成分)の検出が行なわれ
る。ステップS52では、連続成分から得られたサイズ
情報及びある統計上の値(下記に詳説する)に基づい
て、各連続成分に分類が割り当てられる。詳細は後述す
るが、各連続成分はテキストユニットまたは非テキスト
ユニットとして分類される。ステップS53において、
非テキストユニットは更なる分類に掛けられ、フレーム
データか、中間調画像か、線画か、表かまたは他のテー
ブル状の構造のテキストデータか、垂直線か、水平線
か、垂直または水平な斜線であるか、または未知の分類
に相当するかどうかが、その厚さや黒画素の割合に基づ
いて判定される。連続成分の組織的データを提供し、ス
テップS412で前述した様にデジタルデータの再構成
を助成するために、各連続成分に対して階層ツリー構造
が展開される。
【0052】ステップS54では、非テキスト連続成分
のエッジに沿って不可視線(白線)がサーチされる。こ
のような不可視線を使用する理由は、テキスト欄の間の
距離が、同じページの大抵の欄の隙間よりも例外的に狭
いものがあるためである。こうした不可視線の検出は、
後で隣接するテキスト連続成分が実際は同じブロック内
にグループ分けされるべきかどうかを判定するのに役立
つ。
【0053】ステップS55では、ステップS51で分
類することができなかった非テキストユニットが分析さ
れて、大きいフォントサイズのタイトルであるかどうか
が判定される。タイトルである場合は、ユニットは適切
に再指定されて、ツリー構造が更新される。タイトルは
ステップS412におけるページ再構成に役立つもので
ある。未知の非テキスト及びステップS52、S53で
識別されたテキスト成分をグループ化することにより、
水平または垂直方向にタイトルラインが形成される。こ
のグループ化の前に、グループ化されると想定される成
分の間の距離と、タイトルが水平または垂直である場合
に可能なタイトルの長さとに基づいて、グループ化の方
向が決定される。
【0054】ステップS56では、後述するが、テキス
トブロックがテキスト連続成分から形成される。ステッ
プS57では、形成されたテキストブロックを可視線ま
たは不可視線が横切っていた場合、テキストブロックは
分割される。これらの線を使用する理由は、極端に狭い
欄間の隙間のためだけではなく、異なるブロックのテキ
スト連続成分の間の距離が、斜めの場合に、特に不可視
または可視線がそれらを分けている場合に、それらの成
分が1グループにするのに十分に短くできるためであ
る。
【0055】ステップS58では、各テキストブロック
の方向が検出される。この様に、本実施例によれば、テ
キストブロックが形成される前には歪み検出も画像回転
も行なわれることはない。こうして、一般のブロック選
択アルゴリズムとは異なり、本実施例は予め歪み検出や
画像回転を行なうことなく、ページ画像に直接テキスト
ブロックを形成する。これにより、画像回転に費やされ
る時間が節約され、歪み検出による不正確さを避けるこ
とができる。さらに、ある特殊な視覚効果を達成するた
めに、同じページのテキスト領域の幾つかを、特別に斜
めに編集することも可能である。こうした場合、歪み検
出及び画像回転は、ページ画像を直立スタイルに修正す
るのに役立つことになる。こうして、本実施例によれ
ば、テキスト及び非テキストブロックは、スキャンされ
たページの歪みに係わり無くサーチされる。テキストブ
ロックが形成された後、各テキストブロックの歪み方向
が個別に識別される。
【0056】ステップS59では、テキストブロックの
方向に基づいて、各テキストブロックのテキストライン
が形成される。ステップS60では、テキスト及び非テ
キストブロック表現をより簡潔で明瞭にするために後処
理が行なわれる。例えば、以前のブロック選択アルゴリ
ズムは四角形で表現されたテキストブロックを形成する
ものであった。しかし、歪んだ文書の場合、そうした四
角形ではテキストブロックの分離が不明瞭になる。テキ
ストブロックの四角形領域が重なる場合にテキストブロ
ック間の分離を明白にするために、本実施例では各テキ
ストブロックをより簡潔に囲む不規則な形状の曲線を提
供するものである。この曲線による囲みは表示効果を補
強するだけではなく、ブロック画像の抽出にも有効であ
る。テキストブロックを囲む不規則形状の曲線は、テキ
ストブロック形成ステップS56でテキストブロックが
新たに形成または更新される度に形成することができ
る。
【0057】図6A、図6B、図6C、図6Dは、上述
のステップS51〜S53の処理を詳細に示すフローチ
ャートである。このフローチャートには、画素画像デー
タの連続成分がどの様にして検出されるか、またそれら
の連続成分がどの様にして分類されるかが示されてい
る。図6A〜図6Dの各処理ステップは、プログラムR
OM35に格納されたプログラムステップに従ってCP
U30により実行されるものである。
【0058】ステップS601では、輪郭トレーシング
により画素画像データの連続成分が検出される。輪郭ト
レーシングは図7Aに示す様な画像データをスキャンす
ることにより行なわれる。スキャニングは矢印Aで示さ
れる様に画像の右下部から左へと進み、画像の右の境界
に到達するまで続く。スキャニングは、例えば左上から
右下へ向けたり、他の方向へも行なうことができる。黒
画素があると、隣接する画素が符号71で示される様な
放射状のパターンになった順序で調べられ、黒画素の隣
接画素も黒画素であるかどうかが判定される。放射状パ
ターン71は共通の中心から延びる8つの番号の付いた
ベクトルを持つので、以下この輪郭トレーシングは「8
方向」トレーシングと称される。隣接する黒画素が見つ
かると、処理は上述の様に画像の外郭のトレースが終わ
るまで進められる。こうして、図7Bに示す様に、矢印
Aの方向のスキャニングは文字「Q」の尾の部分に対応
する点72を突き止める。隣接画素の捜査は、文字
「Q」の外郭がトレースされてしまう様に、放射状パタ
ーン71に従って進められる。閉じた輪郭の内側の部分
はトレースが行なわれない。
【0059】1つの連続成分が検出され、その輪郭が8
方向トレーシングによりトレースされた後、スキャニン
グは次の黒画素が見つかるまで進められる。こうして、
例えば、完全に黒く塗りつぶされた領域を表すオブジェ
クト74が8方向トレースされる。同様に、単語「non-
text」を示す手書き文字の非テキストオブジェクト75
が、単語「text」を形成する個々の文字からなるテキス
トオブジェクト76における個々の単語と同様にトレー
スされる。図7Aに示すスキャニングは画素データの全
ての連続成分が検出されてその輪郭が8方向トレースさ
れるまで続けられる。
【0060】そして、ステップS602に進み、各連続
成分が四角形化される。詳しくは、各連続成分の周りに
最小の可能な四角形が描かれる。こうして、図7Bに示
す様に、四角形77がオブジェクト72の周りに、四角
形79がオブジェクト74の周りに、四角形80がオブ
ジェクト75の周りに、そして四角形81a、81b、
81c、81dがテキストオブジェクト76a、76
b、76c、76dの周りに夫々描かれる。
【0061】ステップS603では、ツリーの位置が各
四角形に割り当てられる。殆どの部分について、ステッ
プS603で得られたツリー構造は画素画像における各
オブジェクトに対し直接ツリーの根から進んでいる。こ
れは、連続成分の外郭のみがトレースされ、閉じた輪郭
の内側の部分はトレースされないためである。この様
に、図7Cに示す様に、連続成分72に相当する四角形
77はページの根から直接進んでいる。しかし、非テキ
ストオブジェクト75に相当する四角形80や、テキス
トオブジェクト76a、76bに相当する四角形81
a、81bの様な、その四角形が他の連続成分の四角形
の中にすっかり収まっている連続成分については、そう
した連続成分を囲んでいる成分(この場合成分74)か
らの末裔として指定されている。さらに、少なくとも1
つの枝分れ成分を持つ各連続成分については、その成分
自身からの「主末裔成分」として指定されている。この
様に、成分79は他の末裔成分80、81a、81bの
中に自身79からの主末裔成分として指定されている。
【0062】ステップS604では、ツリーの最初のレ
ベルにある連続成分が、テキストユニットまたは非テキ
ストユニットに分類される。分類は2つのステップで進
む。最初のステップでは、連続成分の四角形が所定の大
きさの閾値と比較される。連続成分を囲む四角形の高さ
及び幅が最大フォントサイズに相当する第1の所定閾値
より大きい場合、連続成分は非テキストユニットと分類
されて「非テキスト」属性がユニットに与えられる。
【0063】第2のステップでは、全てのユニット、つ
まりまだ非テキストとして分類されていないユニット
が、残りの全ての連続成分の集合的なサイズに基づいて
適応的に決定された閾値と比較される。詳しくは、非テ
キストの指定がされていない全ての四角形のうちで通常
のテキストサイズの大きい方(12pt)及び中間のサ
イズ(中間の高さと中間の幅のうち小さい方の四角形が
選択される。選択された値はスカラーで乗算され(説明
の都合で、1.5として選択されている)、高さ及び幅
について適応的に決定された閾値とされる。決定された
閾値より大きい全てのユニットは非テキストであると推
定され、その様に分類される。一方、適応的に決定され
た閾値のいずれかより小さく所定のテキスト特性に合う
ユニットはテキストと推定される。ユニットはこの様に
分類され適切な属性が与えられる。これらの分類は図6
A〜図6Dの残りで述べられる様な精密な分類であり、
下記により詳細に説明する。
【0064】ツリーの第1のレベルの各ユニットがテキ
ストまたは非テキストとして分類された後、テキストユ
ニットの主末裔成分を含む全ての末裔成分がテキストユ
ニットとして分類される。非テキストユニットの主末裔
成分は非テキストとして分類されるが、非テキストユニ
ットの他の末裔成分はテキストユニットとして分類され
る。
【0065】ステップS606では、最初のユニットが
選択される。ステップS606で、そのユニットがテキ
ストユニットである場合は、ステップS607へ進んで
次のユニットが選択される。非テキストユニットが選択
されるまでステップS606〜S607が繰り返され、
非テキストユニットが選択された時点でステップS60
8へ進む。
【0066】ステップS608では、非テキストユニッ
トが調べられ、そこからの末裔が存在するかどうかが判
定される。例えば、図7Cに示す様に、非テキストユニ
ット79は非テキスト主末裔79とテキスト末裔80、
81a、81bを含んでいる。
【0067】ステップS608において何らかの末裔が
存在する場合、ステップS609へ進み、そのユニット
がフィルタ処理され、そのユニットが中間調(またはグ
レイスケール)ユニットであるかどうか決定する。中間
調フィルタリングでは、ユニットの末裔が調べられ、
「ノイズサイズ」ユニットより小さいサイズの末裔の数
が決定される。「ノイズサイズ」ユニットは、画像デー
タについて予測された最小フォントサイズよりも小さい
高さ及び幅を持つユニットである。ノイズサイズより小
さいサイズの末裔の数が末裔の総数の過半数である時、
ユニットは中間調画像であると判定される。従って、ス
テップS610よりS611へ進んで、「中間調」の属
性が当該ユニットに与えられる。そしてステップS60
7へ戻り、処理のために次のユニットが選択される。
【0068】ステップS609の中間調フィルタリング
でユニットが中間調画像ではないと判定されると、ステ
ップS610からS613へ進んで、ユニットからの主
末裔が更なる処理のために選択される。そしてステップ
S614へ戻る。
【0069】ステップS608で非テキストユニットに
末裔が存在しないと判定されると、あるいはステップS
613で主末裔が更なる処理のために選択されると、ス
テップS614でその主末裔にフレームフィルタリング
が行なわれる。フレームフィルタリングは、問題のユニ
ットがフレームであって、ユニットを囲む四角形の幅及
び/または高さと夫々ほぼ等しい平行な水平線及び平行
な垂直線を含んでいるかどうかを判定する様に設計され
る。特に、連続成分が調べられて、画素の各列につい
て、ユニット内の連続成分の内側の部分をつなぐ最長の
距離が決定される。こうして、図8Aに示す様に、非テ
キストユニット82は連続成分83を含み、その輪郭は
84で示される様に8方向トレースされている。列
「i」については、連続成分の内部をつなぐ最長距離は
輪郭の左の境界85aから右の境界85bまでの距離X
iである。一方、列「j」については、連続成分の内部
をつなぐ2つの距離が存在する。つまり連続成分の境界
上の点86a、86b間の距離と、点87a、87b間
の距離である。点86a、86b間の距離の方が点87
a、87b間の距離よりも長いため、距離Xiは列jに
関する連続成分の内部をつなぐ最長距離である。
【0070】非テキストユニット82におけるn個の列
の各々について、「x」距離が求められ、非テキストユ
ニットがフレームであるかどうかを判定するために次の
不等式がテストされる。
【0071】
【数1】
【0072】ここでXkはk番目の列に関し連続成分の
内部をつなぐ最長の距離であり(上記の通りである)、
Wは四角形ユニット82の幅であり、Nは列数であり、
そしてたとえ画像においてフレームが歪んでいたり斜に
なっていてもフレームの検出ができる様に、閾値が予め
算出されている。1°の歪みまたは傾斜角度を許容する
ためには、「sin(1°)×L+ステップS604で
計算された平均テキスト高さに等しいオフセット」で満
足な結果が得られることがわかる。
【0073】上記の不等式が満足された場合、ユニット
はフレームデータと判定され、ステップS615からS
616へと進み、「フレーム」属性が当該ユニットに与
えられる。
【0074】ステップS616の後、フレームデータが
表またはテーブル状に組織されたデータを含んでいる可
能性を検討する。こうして、ステップS617(図6
B)で、連続成分の内部が調べられて白輪郭が得られ
る。
【0075】白輪郭はステップS601で検出された輪
郭と同様であるが、黒画素よりも白画素が調べられる。
こうして、図9Aに示す様に、非テキストユニットの内
部が、矢印Bの方向に右下部から左上に向けてスキャン
される。最初の白画素が見つかると、その隣接画素が放
射状パターン91に示される順序で調べられる。ただ
し、放射状パターン91は1から4まで番号が付けられ
たベクトルを有している。従って、このステップに従っ
た白輪郭トレーシングは以下「4方向」白輪郭トレーシ
ングと称される。白輪郭トレーシングは、黒画素に囲ま
れた全ての白輪郭がトレースされるまで4方向に行なわ
れる。例えば、白輪郭トレーシングは、96で示され
る、一般に指定された黒画素の様な、内部の他の黒画素
に加えて黒画素セグメント92、93、94、95の内
部輪郭を形成している画素に続くものである。白輪郭が
見つかる度に、非テキストオブジェクトに囲まれた全て
の白輪郭がトレースされるまで、スキャニングが上述の
様に矢印Bの方向に進められる。
【0076】ステップS618では、非テキストユニッ
トの密度が計算される。密度は、連続成分の黒画素数を
数えて、その黒画素数を四角形に囲まれた画素の総数で
除算することにより求められる。
【0077】ステップS619では、非テキストユニッ
ト内で見つかった白輪郭の数が調べられる。白輪郭数が
4以上の場合は、非テキストユニットは実際は、表また
はテーブル状に配置されたテキストブロックの連続であ
る可能性がある。従って、ステップS620(図6D)
で、白輪郭フィリング率が決定される。白輪郭フィリン
グ率は、白輪郭が非テキスト画像で囲まれた領域を埋め
る度合いである。図9Aに示す様に、白輪郭フィリング
率は、黒画素が見つかる白空間である100や101の
様な領域に加えて、完全に空白の空間である97や99
の様な斜線領域を含んでいる。フィリング率が高いと、
非テキスト画像が表またはテーブル状に配されたテキス
トデータのシーケンスである可能性がある。従って、ス
テップS621でフィリング率が調べられる。フィリン
グ率が高いと、非テキスト画像が表またはテーブル状に
配されたテキストデータのシーケンスである可能性があ
る。この判定の信頼度を増すためには、白輪郭が調べら
れて、それらが水平及び垂直に拡がるグリッド状の構造
を形成しているかどうかが判定される。詳しくは、ステ
ップS622では、非グリッド配列の白輪郭は、その境
界が少なくとも2つの輪郭を横切って水平及び垂直に延
びていない場合は再結合される。例えば、図9Aに示す
様に、白輪郭99の左の境界102と右の境界103
は、白輪郭100の左の境界104と右の境界105に
一致する様に垂直に拡がっている。従って、これらの白
輪郭はグリッド構造に配置されているので、これらの白
輪郭は再結合されない。同様に、白輪郭103の上部の
境界106と下部の境界107は、白輪郭110の上部
の境界108と下部の境界109に一致する様に水平に
拡がっている。従って、これらの白輪郭はグリッド状構
造に配置されているので、これらの白輪郭は再結合され
ない。
【0078】図9B〜図9Cは、白輪郭が結合される状
態を説明するための図である。図9Bは、例えば、ステ
ップS401において前述した様に中間調画像を2値画
像に変換する閾値計算を通じて形成される、非テキスト
ユニット111を示している。非テキスト画像111
は、白領域114、115、116、117、118、
119に加えて黒領域112を含んでいる。推定上、こ
れらの白領域のフィリング率は、ステップS621から
再結合ステップS622へ進める様に、十分に高くなっ
ている。最初に、図9Bに示す様に、白輪郭115の上
下境界が白輪郭117の上下境界と比較される。これら
の上下境界は一致しないので、図9Cに示す様に白輪郭
115は白輪郭116と再結合されて、結合された白輪
郭116’を生成する。図9Cにおいて、白輪郭117
の左右境界が白輪郭118の左右境界と比較される。こ
れらの境界は同じではないため、図9Dに示す様に、白
輪郭117と119は単一の白輪郭117’に再結合さ
れる。
【0079】再結合が生じなくなるまで、この処理が水
平及び垂直に反復される。
【0080】こうして、上述した様に、表に関する白輪
郭は再結合される可能性が低く、非テーブルの白輪郭、
例えば中間調画像または線画は再結合される可能性がよ
り高い。従って、ステップS623で、再結合率が調べ
られる。再結合率が高い場合、またはステップS621
でフィリング率が低い場合、非テキストフレームユニッ
トは斜線、未知の画像(an unknown)、中間調画像また
は線画である可能性があり、ステップS628へ進んで
非テキストユニットは表ではないとの指定がされて、後
述のステップS642A(図6B)へ進む。
【0081】ステップS623で再結合率が高くない場
合は、ステップS624へ進み、非テキスト画像は「表
類」として指定される。ステップS625では、8方向
に連続成分を検出して分類する様に、新たに指定された
表の内部が調べられる。ステップS626では、新しい
内部の連続成分に基づいて、階層構造が更新される。ス
テップ627では、内部の連続成分はテキストまたは非
テキストとして再分類され、ステップS602〜S60
4で前述した様に、適切な属性が与えられる。ステップ
S627の後、表内部のテキスト連続成分が線描画、中
間調画、または未知の画であるかがサイズ、密度等に基
づいて更に分類される。フレーム内部の非テキスト連続
成分及び線描画内部の非テキスト連続成分も、ステップ
S608以降に説明した様に、更に分類される。
【0082】ステップS621、S623において、ス
テップS621でフィリング率が高くない場合、または
ステップS623で再結合率が高い場合は、非テキスト
フレームユニットは斜線、未知の画像、中間調画像また
は線画、つまり表ではない可能性がある。
【0083】ステップS619において、白輪郭の数が
4より少なければ、フレームユニットは表ではないと考
えられる。従って、ステップS642Aへ進んで、フレ
ーム及び密度が約0.5に等しい閾値より小さいかどう
かが判定される。閾値は、フレーム内部のテキストユニ
ットまたは線画が画素の半分より少ないとの推測に基づ
いて選択されたものである。フレーム及び密度が閾値よ
り小さい場合、上述のステップS625〜S627へ戻
り、その後、ステップS607へ進んで、次のユニット
の選択が行なわれる。
【0084】ステップS642Aにおいて、フレーム及
び密度が所定の閾値より小さい場合、ステップS642
へ進み、フレームユニットが線画または中間調画像に分
類できるかどうか、あるいはフレームは分類できないか
(つまり、フレームは「未知の画像」である)どうか
が、より詳細に後述される様に決定される。
【0085】ステップS615(図6A)に戻って、ス
テップS614におけるフレームフィルタリングで非テ
キストユニット内のフレームが検出されなかった場合、
ステップS635(図6B)へ進み、非テキストユニッ
トがラインを含んでいるかどうかが判定される。ライン
はテキスト境界を表す有用な非テキストユニットであ
る。しかし、そうしたラインにより境界が引かれている
テキストは、しばしばラインと近接しているため、その
テキストをラインに結びつけることが可能である。従っ
て、テキストが近接した、またはテキストが近接してい
ないラインを検出する様に、ライン検出が指定される。
【0086】ラインを単独で検出するためには、ユニッ
トの長さ方向で非テキストユニットのヒストグラムが計
算される。図8Bに示す様に、あるラインのヒストグラ
ム88は、ライン幅にほぼ等しい高さの、明らかに均一
な分配を示している。ラインの幅は非テキストユニット
の幅(W)にほぼ等しい。いずれの差異も、画素画像が
形成される時に原稿文書が歪んでいた場合に結果として
生じる傾斜角度θsによるものである。従って、非テキ
ストユニットがラインを含んでいるかどうかを判定する
ためには、ヒストグラムにおける各cellkが、非テ
キストユニットの幅Wと比較される。次に示す様に、こ
れらの値の二乗平均の平方根の差が、閾値と比較され
る。
【0087】
【数2】
【0088】閾値は、非テキストユニット内のラインの
歪みまたは傾斜角度θsを許容するために算出されるも
のである。1°の歪みまたは傾斜角度に対しては、
【0089】
【数3】
【0090】の閾値で満足な結果が得られることがわか
る。
【0091】上記の式に従って近接物の無いラインが見
つからない場合、そのユニットがテキスト近接ラインを
含んでいるかどうかが判定される。テキスト近接ライン
が非テキストユニットに含まれているかどうかを判定す
るにために、テキストユニットが調べられて、あるライ
ンがユニット境界に沿って縦に延びているかどうかが判
定される。詳しくは、もしあるラインがユニットの縦方
向に延びていれば、図8Cに示す様に、ユニットを囲む
四角形の境界がそのラインの非常に近くにあるというこ
とになる。従って、四角形の境界内にある最初の複数の
黒画素における均一性が、境界からの距離の二乗の数の
合計を計算することによって調べられる。このように、
図8Cを参照すると、次の不等式がテストされる。
【0092】
【数4】
【0093】二乗の合計が所定の閾値より小さければ、
テキストが接着したラインが見つかったことになる。接
着物の無いラインに対して得られた閾値と同じ閾値で、
満足する結果を得ることができる。
【0094】ステップS635でラインが検出される
と、ステップS636からS637Aへ進んで、「ライ
ン」の属性が非テキストユニットに与えられる。そして
ステップS607(図6A)へ戻り、次のユニットが選
択される。
【0095】一方、ステップS635でラインが検出さ
れない場合、ステップS636からS637へ進んで、
非テキストユニットの大きさが調べられる。サイズが所
定の閾値より大きくなければ、非テキストユニットの分
類は決定できない。閾値は最大フォントサイズ及び文書
タイプ(水平、垂直、または両者混合)によって設定さ
れる。最大フォントサイズの半分だと満足な結果が得ら
れる。従って、ステップS638へ進んで「未知」の属
性が非テキストユニットに与えられ、ステップS607
(図6A)へ戻って、次のユニットが選択される。
【0096】ステップS637でサイズが所定閾値より
大きければ、ステップS617、S618、S619へ
進み、前述の様に、非テキストユニットの内部の白輪郭
がトレースされ、非テキストユニットの密度が計算さ
れ、白輪郭数が調べられる。
【0097】ステップS619で白輪郭数が4より大き
くなければ、上述の様にステップS642A、S642
へ進む。ステップS642ではユニットのサイズが計算
されて、線画または中間調画像を構成できる程大きいか
どうかが判定される。このサイズ判定は、黒画素の最大
ランレングスに加えて、非テキストユニットの高さ及び
幅と文書タイプ、に基づいて行なわれる。例えば、非テ
キストユニットの高さ及び幅が最大フォントサイズより
大きくない場合は、その非テキストユニットは中間調画
像または線画になる程大きくはないため、ステップS6
43へ進み、「未知」の属性が与えられる。さらに、非
テキストユニットの幅は最大フォントサイズより大きい
が黒画素の最大ランレングスは最大フォントサイズより
大きくない場合も、ステップS643へ進み、「未知」
の属性が与えられる。そしてステップS607(図6
A)へ戻り、新たなユニットが選択される。
【0098】ステップS642で、非テキストユニット
が線画または中間調画像になる程大きい場合、ステップ
S643Aへ進み、非テキストユニットが水平または垂
直の傾斜したラインであるかどうかが判定される。その
後、ステップS644へ進み、非テキストユニットが線
画か中間調画像であるかが判定される。ユニットが線画
として、または中間調画像として分類されるかどうか
は、ユニット内の黒画素の平均水平ランレングス、ユニ
ット内の白画素の平均水平ランレングス、白画素対黒画
素の比、及び密度に基づいて判定される。一般に、非常
に暗い画像は中間調画像と考えられ、明るい画像は線画
と考えられる。
【0099】詳しくは、白画素の平均ランレングスがゼ
ロにほぼ等しく(つまり、暗い部分が優勢または点描画
の様な場合)、ステップS618で算出される様な密度
が、ユニットが白より黒の方が強く(つまり、約1/2
に等しい第1の閾値より密度が高い)、そして殆どの列
が長い黒ランレングスを含んでいることを示す場合は、
フレームユニットは中間調画像であると判定される。密
度が第1の閾値よりも高くない場合は、ユニットは線画
であると判定される。
【0100】白画素の平均ランレングスがゼロにほぼ等
しくはなく、白画素の平均ランレングスが黒画素の平均
ランレングスより大きく、そして殆どの列に長い黒ラン
レングスが含まれていない場合は、フレームユニットは
線画であると判定される。しかし、白画素の平均ランレ
ングスが黒画素の平均ランレングスより大きくない(つ
まり、再び、暗い部分が優勢な画像である)場合、更な
るテストが必要である。
【0101】詳しくは、黒画素数が白画素数より大幅に
少ない場合(つまり、白画素数で割った黒画素数が、2
に等しい第2の閾値より大きい場合)、フレームユニッ
トは中間調のユニットであると判定される。一方、白画
素数で割った黒画素数は第2の閾値より大きくないが、
ステップS618で求めた密度が第1の閾値より大きい
場合は、ユニットは中間調画像であると判定される。そ
うでなければ、ユニットは線画であると判定される。
【0102】従って、ステップS644でユニットが線
画であると判定されると、ステップS645へ進み、
「線画」の属性が与えられ、ステップS646で全ての
末裔成分が現在の親成分から移動されて、2代前の親の
直接の末裔とされる。詳しくは、一度ユニットが線画で
あると判定されると、文字認識のためにいずれのブロッ
クも線画から選択されることはない。その後、ステップ
S625、S626、S627へ戻り、それからステッ
プS607で次のユニットが選択される。一方、ステッ
プS644でユニットが線画ではないと判定されると、
ステップS647へ進み、「中間調」の属性が与えら
れ、ステップS648で全ての末裔成分が現在の親成分
から移動されて、2代前の親の直接の末裔とされる。そ
して、ステップS607へ戻り、次のユニットが選択さ
れる。
【0103】本実施例は、上述のように判定された非テ
キストユニットに加えて、傾斜した垂直ライン及び水平
ラインを、その厚さや完全性に基づいて識別する。
【0104】ステップS53に2つの付加的機能を取り
入れることも可能である。詳しくは、テキスト文字が下
線より分離されるような、ライン近接物分離機能の実行
が可能である。2番目の機能としては、点線、破線、ま
たは装飾された線(直線でも斜線でも)の検出が実行可
能である。
【0105】ライン近接物分離機能は、テキスト(ある
いは他のテキストのサイズの近接物)が、何らかの非テ
キスト成分(直線、水平線、フレーム等)に付随してい
るように見える所に取り入れることができる。例えば、
テキスト文字が下に引かれた水平線に近接しているよう
に見える場所では、テキスト文字がテキスト連続成分と
して特徴付けられ、ライン画素が非テキスト連続成分と
して検出される様に、テキスト文字をラインから切り離
す必要がある。
【0106】テキストとラインの近接状態を分離する方
法は、まずそうした近接物の存在を検出することで実行
される。ラインの場合、ラインの片側のエッジはスムー
ズであると判定され、しかし反対側のエッジはスムーズ
ではないと判定された場合、そのスムーズでない方のエ
ッジに何らかの付着物が存在している。フレームの場
合、外郭のエッジのいずれかがスムーズでない場合、そ
うしたフレームエッジに何らかの付着物が存在している
ことになる。
【0107】次に、付着されたライン(またはフレーム
のエッジ)の2つの端点が算出されるが、これらの2つ
の端点の位置は非スムーズ側の画像アウトラインに基づ
いている。そして、「分離線」が算出された2つの端点
の間を通って形成され、付着物は分離線に沿った線から
切り離される。付着物はラインから「分離線」に沿って
切り離され、付着物とラインはそれぞれ処理されて、付
着物がテキスト連続成分か非テキスト連続成分かが判定
されるが、好ましい形では、分離された付着物はテキス
ト連続成分として分類される。
【0108】点線、破線、また装飾された線の存在を検
出する方法は、垂直線、水平線、水平斜線、垂直斜線の
いずれかの属性を各検出された線に与えることで実行さ
れる。そうした非連続線を検出するために、水平及び/
または垂直な小さいサイズの(ピリオドの大きさと同様
である)テキスト連続成分が収集される。次に、収集さ
れた成分は、それらの相対的な距離に基づいて異なるグ
ループに分配される。各グループについては、そのサイ
ズが水平、垂直、または斜線として十分かどうかが判定
される。十分でなければ、そのグループが点線であり得
るかどうかがチェックされる。対象のグループがライン
として可能であれば、グループはサイズとグループ間の
間隙の明瞭度とに基づいて再編成される。その後、グル
ープは再びチェックされて点線であるかどうか判定され
る。
【0109】グループの幅が垂直線と同様であって、対
象のラインの周辺に垂直なラインが存在し、グループと
ラインの間の間隙が明瞭であれば、グループは垂直線と
考えられる。そうでない場合は、グループの長さが水平
線と同じであるか、周辺に水平なラインが存在し、グル
ープとこのラインの間の間隙が明瞭であるかどうかが判
定される。そうである場合には、検出された非連続ライ
ンは水平線であると決定される。
【0110】画素画像における全ての連続成分が検出さ
れ、図6(図5のステップS53)で説明した様に分類
されると、図10に示されるような修正されたツリーが
得られる。図示の様に、ツリーの根は画素画像データの
ページに相当する。根から出ているのはテキストブロッ
ク、内容の不明な非テキストブロック、フレーム、写
真、及び線の分類である。フレームから出ているのはテ
キストブロック、未知の非テキストデータ、写真や線の
テキストブロックを含む表である。
【0111】図5に戻り、ステップS53で全ての非テ
キスト連続成分が分類されると、ステップS54では非
テキスト連続成分のエッジに沿った不可視線(白線)が
サーチされる。そうした不可視線は(ステップS52で
求められた不可視線も合わせて)、ステップS57で、
可視または不可視線がテキストブロックを横切っている
場合に、テキストブロックを分離するのに使用される。
この手順は後で詳細に説明する。
【0112】ステップS55で、ステップS53で分類
された未知の非テキスト連続成分を用いて、水平及び垂
直タイトルラインが形成される。これらの未知の非テキ
スト連続成分は、グループと想定される成分間の距離
と、タイトルが水平または垂直である場合に可能なタイ
トルな長さとに基づいて、名目上垂直、水平、または傾
斜のタイトルの方向を検出するのに使用される。この方
法を用いて、各タイトル連続成分が水平及び垂直方向の
非常に近接したブロックと比較され、より近いブロック
に水平または垂直タイトルが添付される。
【0113】ステップS56では、テキスト連続成分は
テキストブロックを形成するのに用いられる。簡潔に述
べると、各テキスト連続成分に対し、周辺にある近い水
平及び垂直の成分がサーチされて、集成プロセスで、テ
キストブロックとしてグループ化される。プロセスを図
11に従って詳細に説明する。
【0114】図11において、ステップS52で識別さ
れたテキスト連続成分を用いて、ステップS561でH
−GAP及びV−GAPが計算される。これらはそれぞ
れ、隣接するテキスト連続成分間の水平及び垂直中央間
隙部である。ステップS562では、全てのテキスト連
続成分が、その垂直な位置によりソートされる。ステッ
プS563では、現在のテキストブロックの形成が開始
される。ステップS564では、ソート順に連続成分が
抽出され、値V−DIST及びH−DISTとが計算さ
れる。これらの値はそれぞれ、抽出された連続成分と現
在のテキストブロックの間の垂直及び水平距離である。
利用可能な連続成分が存在しなければ、ステップS56
3へ戻り、次のテキストブロックが形成される。
【0115】ステップS565では、抽出された連続成
分について、V−DISTがV−GAPより大きいかど
うか、またはH−DISTがH−GAPより大きいかど
うかが判定される。ステップS565でいずれかに該当
すれば、抽出された連続成分は現在のテキストブロック
内には存在しないことになるので、ステップS564へ
戻り、ソート順に次の連続成分が抽出される。一方、ス
テップS565でいずれにも該当しない場合は、抽出さ
れた連続成分は現在のテキストブロック内に存在するこ
とになるので、ステップS566へ進む。
【0116】ステップS566では、抽出された連続成
分と、現在のテキストブロックに既に含まれている連続
成分とが、所定の条件を満たすかどうかが判定される。
好適な実施例では、所定条件は図12に示される通りで
ある。
【0117】図12において、ステップS5661で
は、抽出された連続成分が現在のテキストブロックに既
に含まれている連続成分と比較される。ステップS56
62では、値h−dist及びv−distが計算され
る。これらの値はそれぞれ、抽出された連続成分とステ
ップS5661で識別された1つの連続成分(テキスト
ブロックに含まれている連続成分)との間の水平及び垂
直距離を表している。
【0118】ステップS5663では、v−distが
V−GAPより小さいかどうか、そしてh−distが
H−GAPより小さいかどうかが判定される。ステップ
S5663の条件に該当しない場合は、テキストブロッ
クに含まれている連続成分は抽出された連続成分に十分
に近似していないことになるため、ステップS5661
へ戻って、現在のテキストブロック内の次のテキスト連
続成分が抽出された連続成分と比較される。
【0119】ステップS5663で条件に該当すれば、
ステップS5664へ進み、抽出された連続成分がテキ
ストブロックに含まれている連続成分とどのような垂直
関係にあるのかが判定される。3つの関係が可能であ
る。つまり、(1)抽出された連続成分が垂直にテキス
トブロックに含まれている連続成分の上にある、(2)
抽出された連続成分は垂直にテキストブロックに既に含
まれている連続成分の上ではなく、水平方向にある、
(3)抽出された連続成分は垂直にテキストブロックに
既に含まれている連続成分の上ではなく、斜め下方向に
ある、という関係である。条件(1)が満たされる場
合、ステップS5665へ進むが、条件(2)または
(3)が満たされる場合は、ステップS5667へ進
む。
【0120】ステップS5665では、現在のテキスト
ブロック内に、抽出された連続成分に近い他の連続成分
が存在するかどうかが判定される。これは、h−dis
tがW−GAPより小さいかどうか(W−GAPはH−
GAPより僅かに広い)を判定することにより確認され
る。該当しない場合は、ステップS5661へ戻って、
現在のテキストブロック内の次の連続成分を用いて比較
を行なう。しかし、ステップS5665において該当す
る場合は、ステップS5667へ進み、何らかの線描オ
ブジェクト(例えば、ライン、線描画等)が抽出された
連続成分とテキストブロックに含まれている連続成分の
間に存在するかどうかが判定される。そのような線描オ
ブジェクトが存在する場合は、ステップS564へ戻
り、次の連続成分がパート順に抽出される。しかし、ス
テップS5667でそうしたオブジェクトが存在しない
と判定された場合は、図11のステップS567へ戻
る。
【0121】図11に戻り、ステップS567では、ち
ょうど処理されたばかりの、抽出された連続成分が、ス
テップS52で識別された最後のテキスト連続成分であ
るかどうかが判定される。抽出された連続成分が最後の
成分でない場合は、ステップS568で、その連続成分
は現在のテキストブロックに挿入され、ステップS56
4へ戻って、ソート順に次の連続成分が抽出される。一
方、ステップS567で最後の連続成分と判定された場
合は、その成分は現在のテキストブロックに既に挿入さ
れているので、図5のステップS57へ戻る。
【0122】図5に戻って、ステップS57では、ステ
ップS56で形成されたテキストブロックが単一のテキ
ストブロックであるかどうか、または形成されたテキス
トブロックを横切る可視線または不可視線により、複数
のテキストブロックに分割されるべきであるかどうかが
判定される。例えば、図13Aはテキストブロック13
1を示し、テキストブロック131内には複数の連続成
分132が配されている。テキストブロックに隣接する
のは非テキストブロック133、134である。非テキ
ストブロックの間にはステップS54で述べた不可視
(白)線が存在している。例えば、非テキストブロック
133、134が各々写真を含み、ブロックの間に不可
視線が引かれている場合は、非テキストブロック133
に隣接するテキスト連続成分は非テキストブロック13
3にのみ関係し、非テキストブロック134に隣接する
テキスト連続成分は非テキストブロック134にのみ関
係している。ステップS57で形成されたテキストブロ
ック131が単一のテキストブロックである場合は、後
に行なわれる文字認識処理で、非テキストブロック13
3、134を文字として誤認識する可能性がある。
【0123】図13Bに示すように、不可視線135
(または可視線)が先に形成されたテキストブロック1
31を横切っている場合において、テキストブロックは
2つのテキストブロック136、137に分割される。
そして、非テキストブロック133、134のそれぞれ
のテキスト連続成分が適切に処理される。ステップS5
7の後、ステップS58へ進み、各テキストブロックの
方向が検出される。テキストブロックの方向の検出は、
テキストブロック内のテキスト連続成分の長さ及び幅、
連続成分間の水平及び垂直の間隙、及びそれらの位置に
依存して行なわれる。図14A、及び、図14Bは、こ
の処理を詳細に説明したフローチャートである。
【0124】図14Aにおいて、まずステップS580
1で、ステップS56で形成されたテキストブロック内
の全てのテキスト成分について、様々な値が計算され
る。ただし、幅は水平寸法に相当し、長さは垂直寸法に
相当するものである。値MAX−LEN及びMAX−W
IDが計算されるが、これらはそれぞれ、テキストブロ
ック内のテキスト連続成分間の最長の長さ及び最大の幅
を表している。また値AVG−LEN及びAVG−WI
Dが計算されるが、これらはそれぞれ、テキストブロッ
ク内の全ての連続成分の平均の長さと幅を表している。
最後に、値STD−LEN及びSTD−WIDが計算さ
れるが、これらはそれぞれ、テキストブロック内の全て
の連続成分の長さ及び幅の標準的な偏差を表している。
【0125】その後、複数の処理ステップが実行されて
テキストブロックが水平テキストブロックか垂直テキス
トブロックかが判定される。ステップS5802では、
STD−LENがSTD−WID以下かどうか、MAX
−WIDがMAX−LENより大きいかどうか、そして
MAX−WIDが12ptのプリントサイズ、もしくは
1.5×MAX−LENよりも大きいかどうかが判定さ
れる(ここで、12pt値は通常のテキストサイズに基
づいている。勿論、これより大きいまたは小さいテキス
トサイズの場合は、好ましくはダイナミックに調整でき
る異なる値が必要とされる)。これらの関係に該当する
と、テキストブロックは水平テキストブロックであると
決定される。これらの関係に該当しない場合は、ステッ
プS5803へ進む。
【0126】ステップS5803では、STD−WID
がSTD−LEN以下であるかどうか、MAX−LEN
がMAX−WIDより大きいかどうか、そしてMAX−
LENが12pt、または1.5×MAX−WIDより
大きいかどうかが判定される。これらの関係に該当する
と、テキストブロックは垂直テキストブロックであると
決定される。これらの関係に該当しない場合は、ステッ
プS5804へ進む。
【0127】ステップS5804では、各連続成分につ
いて、値H−SHORT及びV−SHORTが決定され
る。これらの値はそれぞれ、各連続成分及びその周辺の
連続成分からの最短の水平及び垂直の間隙を表してい
る。
【0128】そしてステップS5805(図14B)へ
進み、テキストブロック内の大抵の連続成分について、
H−SHORTがV−SHORTより小さいかどうかが
判定される。この関係に該当すると、テキストブロック
は水平テキストブロックであると決定される。この関係
に該当しない場合は、ステップS5806へ進んで、テ
キストブロック内の大抵の連続成分について、V−SH
ORTがH−SHORTより小さいかどうかが判定され
る。この関係に該当すると、テキストブロックは垂直テ
キストブロックであると決定され、該当しない場合は、
ステップS5807へ進む。
【0129】ステップS5807では、テキストブロッ
ク内の連続成分間の水平及び垂直の間隙の数が計算され
る。その後、ステップS5808では、水平間隙の数が
垂直間隙の数より多いかどうか、またテキストブロック
の幅が12pt×2より大きいかどうかが判定される。
この関係に該当すると、テキストブロックは水平テキス
トブロックであると決定され、該当しない場合は、ステ
ップS5809へ進む。ステップS5809では垂直間
隙数が水平間隙数より多いかどうか、またテキストブロ
ックの長さが12pt×2より大きいかどうかが判定さ
れる。この関係に該当すると、テキストブロックは垂直
テキストブロックであると決定され、該当しない場合
は、ステップS5810へ進む。
【0130】ステップS5810では、テキストブロッ
クの長さが12pt×2より小さく、全ての連続成分が
同一の水平ライン上にあるかどうかが判定される。これ
に該当する判定であれば、テキストブロックは水平テキ
ストブロックであり、該当しない判定の場合は、ステッ
プS5811へ進む。ステップS5811では、テキス
トブロックの幅が12pt×2より小さく、全ての連続
成分が同一の垂直線上にあるかどうかが判定される。こ
の関係に該当すると、テキストブロックは垂直テキスト
ブロックであると決定され、該当しない場合は、ステッ
プS5812へ進む。
【0131】ステップS5812では、テキストブロッ
ク内の全ての連続成分が垂直にソートされて、最初の連
続成分と最後の連続成分が、重なる垂直領域を有してい
るかどうか検出される。それらが重なっていれば、テキ
ストブロックは水平テキストブロックであると決定さ
れ、重なっていない場合は、ステップS5813へ進
む。ステップS5813では、テキストブロック内の全
ての連続成分が水平にソートされて、最初の連続成分と
最後の連続成分が、重なる水平領域を有しているかどう
か検出される。それらが重なっていれば、テキストブロ
ックは垂直テキストブロックであると決定され、重なっ
ていない場合は、テキストブロックは未知のブロックで
ある。
【0132】識別された全てのテキストブロックの方向
が一度決定されると、ステップS59へ進み、ステップ
S58で識別された方向に基づいて、各テキストブロッ
クに関するテキストラインが形成される。図15はこの
処理を詳細に示すフローチャートである。
【0133】図15は水平テキストブロック内のテキス
ト連続成分の処理を示している。垂直テキストブロック
内の連続成分の処理も同様であるので、詳細な説明は省
略する。ステップS591では、水平テキストブロック
内のテキスト成分が、その水平位置に従ってソートされ
る。その後、ステップS592では、ソーティングリス
トの次の連続成分が抽出され、その連続成分が既に存在
しているいずれかのテキストラインに嵌入するかどうか
検出される。この判定の詳細な処理は、図16A〜図1
6Eで示されるフローチャートを参照して説明する。
【0134】図16Aでは、ステップS5921で、ス
テップS592で抽出した連続成分を用いて、値C−L
INE1及びC−BLOCK1が計算される。C−LI
NE1は、抽出された連続成分と現在のテキストライン
との間のパーセントの垂直領域重畳部分を表し、C−B
LOCK1は、抽出された連続成分と現在のテキストラ
インの末尾連続成分との間のパーセントの垂直領域重畳
部分を表している。図16AのステップS5921は現
在のテキストライン、その末尾の連続成分、抽出された
連続成分、及びそれらの垂直領域重畳部分の関係を示し
ている。
【0135】ステップS5922では、C−LINE1
がゼロより大きいかどうかが判定される。ゼロより大き
くなければ、図16Eに従ってより詳細に説明されるス
テップS5936へ進む。一方、ステップS5922
で、C−LINE1がゼロより大きいと判定されると、
3つの値h−dist1、 v−dist1、NEXT
−CLOSEST−LINEが決定される。h−dis
t1は、抽出された連続成分と現在のテキストラインの
末尾連続成分との間の水平距離である。v−dist1
は、抽出された連続成分と現在のテキストラインの末尾
連続成分との間の垂直距離である。NEXT−CLOS
EST−LINEは、(i)現在のラインの下にあり、
(ii)その末尾連続成分が抽出された連続成分に最も
近接しており、末尾連続成分と抽出された連続成分の間
の距離は所定の距離内である、テキストラインである。
そして、図16BのステップS5924へ進む。
【0136】ステップS5924では、値C−LINE
2、C−BLOCK2、h−dist2、及びv−di
st2が決定される。C−LINE2は、抽出された連
続成分とNEXT−CLOSEST−LINEとの間の
パーセントの垂直領域重畳部分である。C−BLOCK
2は、抽出された連続成分とNEXT−CLOSEST
−LINEの末尾連続成分との間のパーセントの垂直領
域重畳部分である。h−dist2は、抽出された連続
成分とNEXT−CLOSEST−LINEの末尾連続
成分との間の水平距離である。v−dist2は、抽出
された連続成分とNEXT−CLOSEST−LINE
の末尾連続成分との間の垂直距離である。
【0137】その後、ステップS5925へ進み、C−
LINE1が50%未満でC−LINE2が50%以上
であり、そして現在のラインが上方向に傾き、NEXT
−CLOSEST−LINEが上方向に傾いているかど
うかが判定される。この関係に該当すると、ステップS
5926へ進み、次の水平テキストラインが選択され
て、図15のステップS592へ戻る。一方、この関係
に該当しない場合は、図16CのステップS5927へ
進む。
【0138】図16Cにおいて、ステップS5927で
は、8つの関係が存在するかどうかが判定される。それ
らの関係は次の通りである。即ち、 (1) C-LINE2=0% (2) C-LINE1≧50%、C-LINE2≦50%、 C-BLOCK1≧0%、C-BLOCK1>C-BLOCK2 (3) h-dist1>0、h-dist2>0、 (h-dist1<12pt、又はh-dist1<h-dist2)、 C-BLOCK1>0%、C-BLOCK1>C-BLOCK2 (4) h-dist1>0、h-dist2>0、 (h-dist1<12pt、又はh-dist1<h-dist2)、 C-BLOCK1>0%、現在のラインは下方向に傾き、 NEXT-CLOSEST-LINEも下方向に傾いている (5) h-dist1>0、h-dist2>0 (h-dist1<12pt、又はh-dist1<h-dist2)、 C-BLOCK1=0%、C-BLOCK2=0%、 v-dist1<h-dist2 (6) h-dist1≧0、h-dist1<12pt、 C-BLOCK1>0%、h-dist2<0 (7) h-dist1<0、h-dist2<0、 v-dist1>v-dist2 (8) C-BLOCK1>C-BLOCK2 である。
【0139】そしてステップS5928へ進み、(1)
〜(8)の関係のいずれかに該当するかどうかが判定さ
れる。該当するものが無いと、ステップS5929へ進
んで、次の水平テキストラインが選択され、図15のス
テップS592へ戻る。ステップS5928で(1)〜
(8)の関係のいずれかに該当すると、ステップS59
30へ進んで、抽出された連続成分の水平位置が、現在
のテキストラインの末尾連続成分と重畳するかどうかが
判定される。重畳部分が存在すれば、ステップS593
1へ進み、重畳部分が存在しなければ、ステップS59
32へ進む。
【0140】図16Dにおいて、ステップS5931で
は、抽出された連続成分と現在のテキストラインの末尾
連続成分を合計した長さが、1文字の長さと同じである
かどうかが判定される。合計の長さが1文字の長さと同
じである場合は、ステップS5935へ進み、抽出され
た連続成分は現在のテキストラインに嵌入される。一
方、合計の長さが1文字の長さと同じでない場合には、
ステップS5931’へ進んで、C−BLOCK1が5
0%より大きいかどうか、またはv−dist1が1ド
ットサイズより小さいかどうかが判定される。いずれか
の関係に該当すると、ステップS5935へ進んで、抽
出された連続成分は現在の水平テキストラインへ嵌入さ
れる。しかし、ステップS5931’のいずれの関係に
も該当しない場合は、ステップS5933へ進み、次の
水平テキストラインが選択されて、その後、図15のス
テップS592へ戻る。
【0141】ステップS5932では、h−dist1
が12pt×2より小さく、(C−LINE1が0%よ
り大きいか、またはC−BLOCK1が0%より大き
い)かどうか、あるいは、NEXT−CLOSEST−
LINEが存在しないかどうか、またはv−dist1
がv−dist2より小さいかどうかが判定される。こ
れらの条件が満たされると、抽出された連続成分は現在
のテキストライン内に当て嵌まると決定され、ステップ
S5935を介して図15のステップS592へ進む。
ステップS5932の関係に該当しない場合は、ステッ
プS5934で次のテキストラインが選択され、再び図
15のステップS592へ戻る。
【0142】図16Aへ戻り、ステップS5922で、
C−LINE1が0%より大きくないと判定されると、
図16EのステップS5936へ進む。ステップS59
36では、ステップS5923、S5924で概略を述
べたように、NEXT−CLOSEST−LINE、h
−dist1、h−dist2、v−dist1、及び
v−dist2が決定される。
【0143】ステップS5937では、NEXT−CL
OSEST−LINEが存在し、v−dist1がv−
dist2より大きいかどうかが判定される。該当する
場合、ステップS5939へ進み、次のテキストライン
が選択され、そして図15のステップS592へ戻る。
しかし、ステップS5937の関係が存在しなければ、
ステップS5938へ進み、h−dist1がゼロ未満
でv−dist1が1ドットサイズ以下であり、抽出さ
れた連続成分と末尾連続成分の合計の長さが1文字の長
さと同じであるかどうかが判定される。これらの関係に
該当すると、ステップS5941で、抽出された連続成
分は現在の水平テキストライン内に当て嵌まると決定さ
れ、図15のステップS592へ戻る。ステップS59
38の関係に該当しない場合は、ステップS5940へ
進み、h−dist1がゼロ以上で、抽出された連続成
分が末尾連続成分の上にあり、抽出された連続成分の垂
直位置が末尾連続成分の垂直位置に近いかどうかが判定
される。これらの関係に該当すると、ステップS594
1へ進み、抽出された連続成分は現在の水平テキストラ
イン内に当て嵌まると判定され、図15のステップS5
92へ戻る。これらの関係に該当しない場合は、ステッ
プS5942へ進み、次の水平テキストラインが選択さ
れ、図15のステップS592へ戻る。
【0144】図5のステップS59において各テキスト
ブロックについて全てのテキストラインが形成される
と、ステップS60へ進み、ブロックの後処理が行なわ
れる。後処理は、文字認識、データ圧縮等の、特定の後
続する手順を適用するようにしてもよい。この応用の目
的で、後続する文字認識をブロックに対する後処理とし
て行なう場合を説明する。こうした後処理の目的は、テ
キスト及び非テキストブロック表現をより簡潔にするこ
とである。後処理において、必要であれば、テキストブ
ロックは他のテキストブロックと結合され、非テキスト
ブロックは他の非テキストブロックと結合されて、文字
認識等の更なる処理を容易にする。まず、例えば、最小
二乗法を用いて、形成されたテキストライン(ステップ
S59で決定された)に含まれる連続成分に基づいて、
そのテキストラインの歪み角度を概算し、全体のページ
の歪みが計算される。ページの歪みは、ページのテキス
トラインの歪み角度の平均値となる。
【0145】ページが僅かに歪んでいるだけであると
(例えば、図17に示すように、各テキストを囲む四角
形または不規則な曲線の間の間隙が明確である)判定さ
れた場合は、様々な処理ステップが実行できる。始め
に、テキスト(またはタイトル)ブロックと、タイトル
ブロックが、重畳する四角形または不規則な曲線の囲み
が存在するかどうか、それらの方向(orientation)等
に基づいて結合できる。次に、ある小さいテキストブロ
ックが実際にテキストブロックであるか、それとも写真
等の非テキストブロックの一部であるかを判断するため
に、ある中間調(またはグレイスケール)画像が四角い
領域を占めているかどうかが判定できる。3番目に、欄
の分析を行い、欄情報に基づいて、テキストブロックが
結合できる。こうした結合は、基本的に、ブロックが同
一の欄内にあるかどうか、お互いに近接しているかどう
か、その結合が他のブロックに重なるかどうか、及びそ
れらのブロックが同一の傾斜を持っているかどうかに基
づいて行なわれる。
【0146】ページの歪みがいくらか大きい場合は、歪
みページのケースにおいて上記の3つの処理ステップは
抜かされる。そして、小さいテキストブロックがその近
接ブロックと結合されるステップが実行される。この結
合は、近接ブロックの属性、近接ブロックの近接度、及
びテキストブロック自身の特性に基づいて行なわれる。
こうした結合の後、結合されたテキストブロックの属性
は、結合された近接テキストブロックと一致するように
変えられる。
【0147】また、複数のテキストブロックは、複数の
タイトルブロックまたは未知の連続成分を1つ含んだ複
数ブロックと結合することができる。この結合は、その
相対的な位置、ブロックの方向、ブロックの相対的なサ
イズ等に元づいて行なわれる。
【0148】最後に、ブロックの後処理として、幾つか
の非テキストブロックの結合を行なうこともできる。こ
うした結合は、非テキストブロックの相対的位置、ブロ
ックの属性等に基づいて行なわれる。例えば、幾つかの
写真ブロックは、それらが同一の写真に属しているとい
うことが検出されれば結合される。こうした後処理を、
後続の文字認識処理を容易にするために実行することが
可能である。
【0149】このように、格納された文書において効果
的及び効率的にテキスト及び非テキストブロックを選択
する方法及び装置であって、垂直及び水平テキストブロ
ックが認識され、テキストブロックの形成の前に文書の
回転を必要としない、方法及び装置を説明した。
【0150】図面のブロックで概略が示され、または指
定された個々の成分は、文字認識の分野では公知のもの
であり、その特定の構成及び動作は、本実施例の操作ま
たは実行の最良の形態において重要なものではない。
【0151】本発明は好適な実施例について説明された
が、本発明は開示された実施例に限定されるものではな
いことが理解されるべきである。反対に、発明の精神と
範囲内に含まれる、様々な修正や同等の変形が可能であ
るよう意図されている。特許請求の範囲の記載は、そう
した修正及や同等の構成及び機能の全てに渡るように最
大の解釈が与えられるものである。
【0152】尚、本発明は、複数の機器から構成される
システムに適用しても1つの機器からなる装置に適用し
ても良い。また、本発明はシステム或いは装置に本発明
により規定される処理を実行させるプログラムを供給す
ることによって達成される場合にも適用できることはい
うまでもない。
【0153】
【発明の効果】以上説明したように、本発明によれば、
垂直及び水平テキストブロックを認識し、テキストブロ
ック形成の前に歪んだ文書を回転させることを不要と
し、テキスト及び非テキストブロックを効果的に且つ効
率的に選択することが可能となる。また、本発明によれ
ば、各ブロックを不規則な形状の曲線で囲むことが可能
となり、各ブロックをより簡潔かつ明瞭に囲むブロック
選択方法が提供される。
【0154】
【図面の簡単な説明】
【図1】文字認識される文書の一般的な1ページを示す
図である。
【図2】本発明の一実施例に係わる装置の斜視図であ
る。
【図3】本発明の一実施例に係わる装置のブロック図で
ある。
【図4】本実施例のブロック選択の特徴がどの様に文字
認識のプロセスに組み込まれているかを示す、一般化さ
れたフローチャートである。
【図5】本発明に係わるブロック選択技術を示す全体的
なフローチャートである。
【図6A】図5のステップS51〜S53の詳細を示す
フローチャートである。
【図6B】図5のステップS51〜S53の詳細を示す
フローチャートである。
【図6C】図5のステップS51〜S53の詳細を示す
フローチャートである。
【図6D】図5のステップS51〜S53の詳細を示す
フローチャートである。
【図7A】輪郭トレースを説明するための図である。
【図7B】輪郭トレースを説明するための図である。
【図7C】輪郭トレースを説明するための図である。
【図8A】非テキストユニットに対する分類処理を説明
するための図である。
【図8B】非テキストユニットに対する分類処理を説明
するための図である。
【図8C】非テキストユニットに対する分類処理を説明
するための図である。
【図9A】白輪郭処理を説明するための図である。
【図9B】白輪郭処理を説明するための図である。
【図9C】白輪郭処理を説明するための図である。
【図9D】白輪郭処理を説明するための図である。
【図10】本実施例における、テキスト及び非テキスト
文字を決定するためのルートまたはツリー階層構造を概
略的に示す図である。
【図11】図5のステップS56を示すフローチャート
である。
【図12】図11のステップS566を示すフローチャ
ートである。
【図13A】図5のステップS57を概略的に示す図で
ある。
【図13B】図5のステップS57を概略的に示す図で
ある。
【図14A】図5のステップS58を示すフローチャー
トである。
【図14B】図5のステップS58を示すフローチャー
トである。
【図15】図5のステップS59を示すフローチャート
である。
【図16A】図15のステップS592を示すフローチ
ャートである。
【図16B】図15のステップS592を示すフローチ
ャートである。
【図16C】図15のステップS592を示すフローチ
ャートである。
【図16D】図15のステップS592を示すフローチ
ャートである。
【図16E】図15のステップS592を示すフローチ
ャートである。
【図17】不規則な形状のテキストブロックを概略的に
示す図である。

Claims (81)

    【特許請求の範囲】
  1. 【請求項1】 画素画像データから画素のブロックを選
    択する選択方法であって、 画素データにおける連続成分の輪郭を描写する輪郭描写
    工程と、 連続成分を、サイズ及び他の連続成分との近接度に基づ
    いて、選択的に幅方向に結合してラインを形成する、第
    1の結合工程と、 幅方向に結合されたラインを、サイズ及び他のラインと
    の近接度に基づいて、選択的に垂直に結合してブロック
    を形成する、第2の結合工程と、 前記第2の結合工程で形成されたブロックの周りに不規
    則な曲線を形成する形成工程とを備えることを特徴とす
    るブロック選択方法。
  2. 【請求項2】 画素画像データを入力する入力工程を更
    に備え、該入力工程は、画素画像データが2値画素画像
    データではない場合に、画素画像データを2値画素画像
    データに変換する工程を含むことを特徴とする請求項1
    に記載のブロック選択方法。
  3. 【請求項3】 前記形成工程において、各テキストブロ
    ックの周りに、最小の不規則形状の曲線が形成されるこ
    とを特徴とする請求項1に記載のブロック選択方法。
  4. 【請求項4】 前記輪郭描写工程で輪郭が描写された連
    続成分の階層ツリーを、前記形成工程で形成された対応
    する不規則形状の曲線の位置に基づいて形成する工程を
    更に備えることを特徴とする請求項1に記載のブロック
    選択方法。
  5. 【請求項5】 前記形成工程で形成された不規則形状の
    曲線を、テキストブロック及び非テキストブロックに分
    類する工程を更に備えることを特徴とする請求項4に記
    載のブロック選択方法。
  6. 【請求項6】 前記テキストブロックにおける文字画像
    を認識する工程を更に備えることを特徴とする請求項5
    に記載のブロック選択方法。
  7. 【請求項7】 前記第1の結合工程と第2の結合工程
    は、非テキスト連続成分に対しては行なわれないことを
    特徴とする請求項6に記載のブロック選択方法。
  8. 【請求項8】 前記非テキストの輪郭描写された連続成
    分に対して白輪郭を生じる工程を更に備えることを特徴
    とする請求項6に記載のブロック選択方法。
  9. 【請求項9】 前記非テキストブロックは、白輪郭数に
    従って、表ユニットとして指定されることを特徴とする
    請求項8に記載のブロック選択方法。
  10. 【請求項10】 白輪郭フィリング率を計算する工程を
    更に備えることを特徴とする請求項9に記載のブロック
    選択方法。
  11. 【請求項11】 前記非テキストブロックは、フィリン
    グ率が高い場合は画像として指定されないことを特徴と
    する請求項10に記載のブロック選択方法。
  12. 【請求項12】 非グリッド配列の白輪郭を再結合する
    工程を更に備えることを特徴とする請求項10に記載の
    ブロック選択方法。
  13. 【請求項13】 非テキストブロックは、再結合率が高
    くない場合に、表として指定されることを特徴とする請
    求項12に記載のブロック選択方法。
  14. 【請求項14】 白輪郭は4方向に計算されることを特
    徴とする請求項8に記載のブロック選択方法。
  15. 【請求項15】 連続成分の輪郭は少なくとも8方向で
    描写されることを特徴とする請求項1に記載のブロック
    選択方法。
  16. 【請求項16】 前記輪郭描写工程において、連続成分
    の輪郭は、連続成分の外側の部分でのみ描写されること
    を特徴とする請求項1に記載のブロック選択方法。
  17. 【請求項17】 画素画像データにおける間隙を検出す
    る工程を更に備え、 前記第1の結合工程において、連続成分は、間隙がそれ
    らの連続成分を分離している場合は、幅方向に結合され
    ないことを特徴とする請求項1に記載のブロック選択方
    法。
  18. 【請求項18】 連続成分の間の垂直に延びる間隙に従
    って欄が検出されることを特徴とする請求項17に記載
    のブロック選択方法。
  19. 【請求項19】 前記第2の結合工程は、前記第1の結
    合工程で結合されたテキストデータのラインの間の非テ
    キスト境界を判定する工程を含み、 前記第2の結合工程は、介在する非テキスト境界が存在
    する場合は、ラインを垂直にブロックに結合しないこと
    を特徴とする請求項1に記載のブロック選択方法。
  20. 【請求項20】 前記輪郭描写工程の前に、画素画像デ
    ータを圧縮する工程を更に備えることを特徴とする請求
    項1に記載のブロック選択方法。
  21. 【請求項21】 画素画像データから画素のブロックを
    選択する選択装置であって、 画素画像データを格納する格納手段と、 (1)格納された画素画像データにおける連続成分の輪
    郭を描写し、(2)連続成分を、サイズと、他の不規則
    な形状の曲線との近接度に基づいて、選択的に幅方向に
    結合してラインを形成し、(3)幅方向に結合されたラ
    インを、サイズと、他のラインとの近接度に基づいて、
    選択的に垂直に結合してブロックを形成し、(4)各輪
    郭描写された連続成分の周りに不規則な形状の曲線を形
    成する、処理手段とを備えることを特徴とするブロック
    選択装置。
  22. 【請求項22】 画素画像データを入力する入力手段を
    更に備え、該入力手段は、前記画素画像データが2値画
    素画像データではない場合に、該画素画像データを2値
    画素画像データに変換する変換手段を含むことを特徴と
    する請求項21に記載のブロック選択装置。
  23. 【請求項23】 前記処理手段は、各テキストブロック
    の周りに、最小の不規則形状の曲線が形成することを特
    徴とする請求項21に記載のブロック選択装置。
  24. 【請求項24】 前記処理手段は、前記輪郭が描写され
    た連続成分の階層ツリーを、前記形成された対応する不
    規則形状の曲線の位置に基づいて形成することを特徴と
    する請求項21に記載のブロック選択装置。
  25. 【請求項25】 前記処理手段は、形成された不規則形
    状の曲線を、テキストブロック及び非テキストブロック
    に分類することを特徴とする請求項24に記載のブロッ
    ク選択装置。
  26. 【請求項26】 前記処理手段は、テキストブロックに
    おける文字画像を認識することを特徴とする請求項25
    に記載のブロック選択装置。
  27. 【請求項27】 前記処理手段は、非テキスト連続成分
    に対しては結合機能を実行しないことを特徴とする請求
    項25に記載のブロック選択装置。
  28. 【請求項28】 前記処理手段は、非テキストの輪郭描
    写された連続成分に対して白輪郭を生じることを特徴と
    する請求項25に記載のブロック選択装置。
  29. 【請求項29】 前記処理手段は、非テキストブロック
    を、白輪郭数に従って、表ユニットとして指定すること
    を特徴とする請求項28に記載のブロック選択装置。
  30. 【請求項30】 前記処理手段は、白輪郭フィリング率
    を計算することを特徴とする請求項28に記載のブロッ
    ク選択装置。
  31. 【請求項31】 前記処理手段は、非テキストブロック
    を、フィリング率が高い場合は画像として指定しないこ
    とを特徴とする請求項30に記載のブロック選択装置。
  32. 【請求項32】 前記処理手段は、非グリッド配列の白
    輪郭を再結合することを特徴とする請求項30に記載の
    ブロック選択装置。
  33. 【請求項33】 前記処理手段は、非テキストブロック
    を、前記再結合の率が高くない場合に、表として指定す
    ることを特徴とする請求項32に記載のブロック選択装
    置。
  34. 【請求項34】 前記処理手段は、白輪郭を4方向に計
    算することを特徴とする請求項28に記載のブロック選
    択装置。
  35. 【請求項35】 前記処理手段は、連続成分の輪郭を少
    なくとも8方向で描写することを特徴とする請求項21
    に記載のブロック選択装置。
  36. 【請求項36】 前記処理手段は、連続成分の輪郭を、
    連続成分の外側の部分で描写されることを特徴とする請
    求項21に記載のブロック選択装置。
  37. 【請求項37】 前記処理手段は、画素画像データにお
    ける間隙を検出し、該間隙が連続成分を分離している場
    合はそれらの連続成分を幅方向に結合しないことを特徴
    とする請求項21に記載のブロック選択装置。
  38. 【請求項38】 前記処理手段は、連続成分の間の垂直
    に延びる間隙に従って、欄を検出することを特徴とする
    請求項37に記載のブロック選択装置。
  39. 【請求項39】 前記処理手段は、結合されたテキスト
    データのラインの間の非テキスト境界を判定し、介在す
    る非テキスト境界が存在する場合は、ラインを垂直にブ
    ロックに結合しないことを特徴とする請求項21に記載
    のブロック選択装置。
  40. 【請求項40】 前記処理手段は輪郭描写の前に画素画
    像データを圧縮することを特徴とする請求項21に記載
    のブロック選択装置。
  41. 【請求項41】 画素画像データにおける文字のテキス
    トファイルを形成する方法であって、 2値の画素画像データを入力して格納し、 格納された画素画像データのブロックを選択し、 格納された画素画像データにおける連続成分の輪郭を描
    写し、 輪郭描写された連続成分がテキストユニットまたは非テ
    キストユニットを含んでいるかどうか判定し、 テキストユニットを、隣接するテキストユニットの近接
    度に基づいて、選択的に幅方向に結合してテキストライ
    ンを形成し、 テキストラインを、隣接するテキストラインの近接度
    と、テキストライン間の非テキストユニットの位置とに
    基づいて、選択的に垂直に結合してテキストブロックを
    形成し、 テキストブロックを不規則形状の曲線で囲み、 前記輪郭描写工程で輪郭描写された連続成分に基づい
    て、テキストブロックの階層的なツリーを形成し、 テキストブロックを少なくとも1つの欄に適応的に分け
    ることにより、ツリー化されたテキストブロックを画素
    データのラインに分割することを特徴とする方法。
  42. 【請求項42】 画素画像データが前処理される前処理
    工程を更に備えることを特徴とする請求項41に記載の
    方法。
  43. 【請求項43】 前記前処理工程は画像圧縮工程を含む
    ことを特徴とする請求項42に記載の方法。
  44. 【請求項44】 前記前処理工程は画素画像データを補
    強する工程を含むことを特徴とする請求項43に記載の
    方法。
  45. 【請求項45】 非テキストユニットの内部を白輪郭ト
    レースする工程を更に備えることを特徴とする請求項4
    1に記載の方法。
  46. 【請求項46】 非テキストユニットに指定子を付加す
    る工程を更に備えることを特徴とする請求項45に記載
    の方法。
  47. 【請求項47】 非テキストユニット内に含まれる白輪
    郭の数に基づいて、表であることを指定する指定子が非
    テキストユニットに付加されることを特徴とする請求項
    45に記載の方法。
  48. 【請求項48】 画素画像データにおける文字のテキス
    トファイルを形成する装置であって、 画素画像データをデータを入力する入力手段と、 入力された画素画像データを格納する格納手段と、 (1)格納された画素画像データにおける連続成分の輪
    郭を描写し、(2)輪郭描写された連続成分がテキスト
    ユニットまたは非テキストユニットを含んでいるかどう
    か判定し、(3)テキストユニットを、隣接するテキス
    トユニットの近接度に基づいて、選択的に幅方向に結合
    してテキストラインを形成し、(4)テキストライン
    を、隣接するテキストラインの近接度と、テキストライ
    ン間の非テキストユニットの位置とに基づいて、選択的
    に垂直に結合してテキストブロックを形成し、(5)テ
    キストブロックを不規則形状の曲線で囲み、(6)前記
    輪郭描写工程で輪郭描写された連続成分に基づいて、テ
    キストブロックの階層的なツリーを形成し、(7)テキ
    ストブロックを少なくとも1つの欄に適応的に分けるこ
    とにより、ツリー化されたテキストブロックを画素デー
    タのラインに分割する処理手段とを備えることを特徴と
    する装置。
  49. 【請求項49】 前記処理手段は、画素画像データを前
    処理することを特徴とする請求項48に記載の装置。
  50. 【請求項50】 格納された文書のテキスト領域と非テ
    キスト領域のブロックを分離する方法であって、 格納された文書における連続画素成分を識別する識別工
    程と、 識別された画素成分をテキスト及び非テキスト成分に分
    離する分離工程と、 前記文書に対し、非テキスト成分に沿った可視線及び不
    可視線のサーチを行なうサーチ工程と、 識別されたテキスト成分と、可視及び不可視線を用い
    て、テキスト及び非テキストブロックを形成する形成工
    程と、 各形成されたテキストブロックについて、テキスト方向
    を検出する方向検出工程と、 検出されたテキスト傾斜に基づいて、テキストブロック
    からテキストラインを抽出する抽出工程と、 格納された文書について、抽出されたテキストラインに
    基づいて、歪み角度を検出する歪み検出工程と、 検出された歪み角度に基づいて、形成されたテキストブ
    ロックを修正する修正工程とを備えることを特徴とする
    ブロック分離方法。
  51. 【請求項51】 前記サーチ工程の後で、水平及び垂直
    タイトルラインを形成する工程を更に備えることを特徴
    とする請求項50に記載のブロック分離方法。
  52. 【請求項52】 前記形成工程の後で、形成されたテキ
    ストブロックを、可視または不可視線が横切っている場
    合は分割する工程を更に備えることを特徴とする請求項
    50に記載のブロック分離方法。
  53. 【請求項53】 前記形成工程は、識別されたテキスト
    成分が、形成中のテキストブロックに含まれている1つ
    のテキスト成分の垂直上にあるか否かを判定する工程を
    含むことを特徴とする請求項50に記載のブロック分離
    方法。
  54. 【請求項54】 前記形成工程は、識別されたテキスト
    成分と形成中のテキストブロックに含まれている他の1
    つのテキスト成分との間に、いずれかの線描オブジェク
    トが存在するかどうか検出する工程を含むことを特徴と
    する請求項50に記載のブロック分離方法。
  55. 【請求項55】 前記形成工程は歪み角度を検出する工
    程の前に位置することを特徴とする請求項50に記載の
    ブロック分離方法。
  56. 【請求項56】 修正され、形成されたテキストブロッ
    クを文字認識する工程を更に備えることを特徴とする請
    求項50に記載のブロック分離方法。
  57. 【請求項57】 前記分離工程の後に、非テキスト成分
    を、所定の複数の非テキスト分類のうちの少なくとも1
    つに分類する工程を更に備えることを特徴とする請求項
    50に記載のブロック分離方法。
  58. 【請求項58】 格納された文書のテキスト領域及び非
    テキスト領域のブロックを分離する装置であって、 画素成分を含む文書を格納する格納手段と、 (1)格納された文書における連続画素成分を識別し、
    (2)識別された画素成分をテキスト及び非テキスト成
    分に分離し、(3)前記文書に対し、非テキスト成分に
    沿った可視線及び不可視線のサーチを行ない、(4)識
    別されたテキスト成分と、可視及び不可視線を用いて、
    テキスト及び非テキストブロックを形成し、(5)各形
    成されたテキストブロックについて、テキスト傾斜を検
    出し、(6)検出されたテキスト傾斜に基づいて、テキ
    ストブロックからテキストラインを抽出し、(7)格納
    された文書について、抽出されたテキストラインに基づ
    いて、歪み角度を検出し、(8)検出された歪み角度に
    基づいて、形成されたテキストブロックを修正する処理
    手段とを備えることを特徴とするブロック分離装置。
  59. 【請求項59】 前記処理手段は、前記(3)における
    サーチの後で、水平及び垂直タイトルラインを形成する
    ことを特徴とする請求項58に記載のブロック分離装
    置。
  60. 【請求項60】 前記処理手段は、前記(4)におこえ
    る形成処理の後で、形成されたテキストブロックを、可
    視または不可視線が横切っている場合はこれを分割する
    ことを特徴とする請求項50に記載のブロック分離装
    置。
  61. 【請求項61】 前記処理手段は、識別されたテキスト
    成分が、形成中のテキストブロックに含まれている1つ
    のテキスト成分の垂直に上にあるかどうか判定すること
    により、テキストブロックを形成することを特徴とする
    請求項58に記載のブロック分離装置。
  62. 【請求項62】 前記処理手段は、識別されたテキスト
    成分と形成中のテキストブロックに含まれている他の1
    つのテキスト成分との間にいずれかの線描オブジェクト
    が存在するか否かを検出することでテキストブロックを
    形成することを特徴とする請求項50に記載のブロック
    分離装置。
  63. 【請求項63】 前記処理手段は、格納された文書の歪
    み角度が検出される前に、テキスト及び非テキストブロ
    ックを形成することを特徴とする請求項58に記載のブ
    ロック分離装置。
  64. 【請求項64】 前記処理手段は、修正され、形成され
    たテキストブロックについて文字認識することを特徴と
    する請求項58に記載のブロック分離装置。
  65. 【請求項65】 前記処理手段は、非テキスト成分を、
    所定の複数の非テキスト分類のうちの少なくとも1つに
    分類することを特徴とする請求項58に記載のブロック
    分離装置。
  66. 【請求項66】 水平及び垂直テキストを有する、格納
    された文書において、テキストブロックを形成する方法
    であって、 連続画素成分を識別する識別工程と、 識別された画素連続成分を水平及び垂直にグループ化す
    るグループ化工程と、 グループ化された成分に基づき、歪み検出を行なうこと
    なく、不規則形状の水平及び垂直テキストブロックを形
    成する形成工程と、 その後、各形成されたテキストブロックについて歪み角
    度を検出する検出工程とを備えることを特徴とするテキ
    ストブロック形成方法。
  67. 【請求項67】 前記グループ化工程は、テキスト及び
    非テキスト連続成分を分離する工程を含むことを特徴と
    する請求項66に記載のテキストブロック形成方法。
  68. 【請求項68】 非テキスト成分を、所定の複数の非テ
    キスト分類の少なくとも1つに分類する工程を更に備え
    ることを特徴とする請求項67に記載のテキストブロッ
    ク形成方法。
  69. 【請求項69】 格納された文書に対して、非テキスト
    連続成分のエッジに沿った不可視線のサーチを行なう工
    程を更に備えることを特徴とする請求項67に記載のテ
    キストブロック形成方法。
  70. 【請求項70】 形成されたテキストブロックを、可視
    線または不可視線がそのブロックを横切っている場合、
    該テキストブロックを分割することを特徴とする請求項
    66に記載のテキストブロック形成方法。
  71. 【請求項71】 各テキストブロックについて、検出さ
    れた歪み角度に基づいて、テキストラインを形成する工
    程を更に備えることを特徴とする請求項66に記載のテ
    キストブロック形成方法。
  72. 【請求項72】 形成されたテキストブロック内の画素
    連続成分を文字認識する工程をさらに備えることを特徴
    とする請求項66に記載のテキストブロック形成方法。
  73. 【請求項73】水平及び垂直テキストを有する、格納さ
    れた文書において、テキストブロックを形成する装置で
    あって、 格納された文書を格納する手段と、 (1)連続画素成分を識別し、(2)識別された画素連
    続成分を水平及び垂直にグループ化し、(3)グループ
    化された成分に基づき、歪み検出を行なうことなく、不
    規則形状の水平及び垂直テキストブロックを形成し、
    (4)その後、各形成されたテキストブロックについ
    て、歪み角度を検出する処理手段とを備えることを特徴
    とするテキストブロック形成装置。
  74. 【請求項74】前記処理手段はテキスト及び非テキスト
    連続成分を分離することを特徴とする請求項73に記載
    のテキストブロック形成措置。
  75. 【請求項75】 前記処理手段は、非テキスト成分を、
    所定の複数の非テキスト分類の少なくとも1つに分類す
    ることを特徴とする請求項74に記載のテキストブロッ
    ク形成装置。
  76. 【請求項76】 前記処理手段は、格納された文書に対
    して、非テキスト連続成分のエッジに沿った不可視線の
    サーチを行なうことを特徴とする請求項74に記載のテ
    キストブロック形成装置。
  77. 【請求項77】 前記処理手段は、形成されたテキスト
    ブロックを、可視線または不可視線がそのブロックを横
    切っている場合、分割することを特徴とする請求項73
    に記載のテキストブロック形成装置。
  78. 【請求項78】 前記処理手段は、各テキストブロック
    について、検出された歪み角度に基づいて、テキストラ
    インを形成することを特徴とする請求項73に記載のテ
    キストブロック形成装置。
  79. 【請求項79】 前記処理手段は、形成されたテキスト
    ブロック内の連続画素成分を文字認識することを特徴と
    する請求項73に記載のテキストブロック形成装置。
  80. 【請求項80】 非テキスト情報と、水平及び垂直テキ
    スト情報とを有する、格納された文書において、テキス
    ト及び非テキストブロックを形成する方法であって、 連続画素成分を識別し、 識別された画素成分をテキスト及び非テキスト成分に分
    離し、 連続テキスト成分を水平及び垂直にグループ化し、 前記文書に対して、非テキスト成分のエッジに沿った可
    視線及び不可視線のサーチを行ない、 グループ化されたテキスト成分と、可視及び不可視線に
    基づき、歪み検出を行なうことなく、不規則形状の非テ
    キストブロックと、不規則形状の水平及び垂直テキスト
    ブロックとを形成し、 各形成されたテキストブロックについて、テキスト傾斜
    を検出し、 検出されたテキスト傾斜に基づいて、テキストブロック
    からテキストラインを抽出し、 その後、各形成されたテキスト及び非テキストブロック
    について、歪み角度を検出し、 検出された歪み角度に基づいて、形成された水平及び垂
    直テキストブロックを修正することを特徴とするテキス
    トブロック形成方法。
  81. 【請求項81】 非テキスト情報と、水平及び垂直テキ
    スト情報とを有する、格納された文書において、テキス
    ト及び非テキストブロックを形成する装置であって、 格納された文書を格納する格納手段と、 (1)連続画素成分を識別し、(2)識別された画素成
    分をテキスト及び非テキスト成分に分離し、(3)連続
    テキスト成分を水平及び垂直にグループ化し、(4)前
    記文書に対して、非テキスト成分のエッジに沿った可視
    線及び不可視線のサーチを行ない、(5)グループ化さ
    れたテキスト成分と、可視及び不可視線に基づき、歪み
    検出を行なうことなく、不規則形状の非テキストブロッ
    クと、不規則形状の水平及び垂直テキストブロックとを
    形成し、(6)各形成されたテキストブロックについ
    て、テキスト傾斜を検出し、(7)検出されたテキスト
    傾斜に基づいて、テキストブロックからテキストライン
    を抽出し、(8)その後、各形成されたテキスト及び非
    テキストブロックについて、歪み角度を検出し、(9)
    検出された歪み角度に基づいて、形成された水平及び垂
    直テキストブロックを修正する処理手段とを備えること
    を特徴とするテキストブロック形成装置。
JP32095594A 1993-12-22 1994-12-22 文書のテキスト及び/または非テキストブロックの選択方法及び装置 Expired - Fee Related JP3754716B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/171720 1993-12-22
US08/171,720 US5588072A (en) 1993-12-22 1993-12-22 Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks

Publications (2)

Publication Number Publication Date
JPH07234918A true JPH07234918A (ja) 1995-09-05
JP3754716B2 JP3754716B2 (ja) 2006-03-15

Family

ID=22624869

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32095594A Expired - Fee Related JP3754716B2 (ja) 1993-12-22 1994-12-22 文書のテキスト及び/または非テキストブロックの選択方法及び装置

Country Status (6)

Country Link
US (2) US5588072A (ja)
EP (2) EP1061469B1 (ja)
JP (1) JP3754716B2 (ja)
DE (2) DE69432585T2 (ja)
SG (1) SG98357A1 (ja)
TW (1) TW258803B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7805003B1 (en) 2003-11-18 2010-09-28 Adobe Systems Incorporated Identifying one or more objects within an image
US11977533B2 (en) 2021-04-02 2024-05-07 Kofax, Inc. Automated document processing for detecting, extracting, and analyzing tables and tabular data

Families Citing this family (131)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6219157B1 (en) * 1992-06-18 2001-04-17 Canon Kabushiki Kaisha Image coding apparatus
JP3373008B2 (ja) * 1993-10-20 2003-02-04 オリンパス光学工業株式会社 画像像域分離装置
US5588072A (en) * 1993-12-22 1996-12-24 Canon Kabushiki Kaisha Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks
US5987171A (en) * 1994-11-10 1999-11-16 Canon Kabushiki Kaisha Page analysis system
US5689342A (en) * 1994-11-17 1997-11-18 Canon Kabushiki Kaisha Image processing method and apparatus which orders text areas which have been extracted from an image
US6005680A (en) * 1995-04-04 1999-12-21 Canon Information Systems, Inc. Method for capturing a document image, a scanner using the method and a document image management system using the scanner
JP3026751B2 (ja) * 1995-06-15 2000-03-27 インターナショナル・ビジネス・マシーンズ・コーポレイション 画像切出方法及び装置
US5848186A (en) * 1995-08-11 1998-12-08 Canon Kabushiki Kaisha Feature extraction system for identifying text within a table image
US5774579A (en) * 1995-08-11 1998-06-30 Canon Kabushiki Kaisha Block selection system in which overlapping blocks are decomposed
US5889886A (en) * 1995-11-28 1999-03-30 Xerox Corporation Method and apparatus for detecting running text in an image
AU728856B2 (en) * 1995-12-21 2001-01-18 Canon Kabushiki Kaisha Zone segmentation for image display
US5719386A (en) * 1996-02-07 1998-02-17 Umax Data Systems, Inc. High efficiency multi-image scan method
US6496600B1 (en) * 1996-06-17 2002-12-17 Canon Kabushiki Kaisha Font type identification
US6157738A (en) * 1996-06-17 2000-12-05 Canon Kabushiki Kaisha System for extracting attached text
US6192163B1 (en) * 1996-10-29 2001-02-20 Seiko Epson Corporation Image processing method and image processing apparatus
US6512848B2 (en) 1996-11-18 2003-01-28 Canon Kabushiki Kaisha Page analysis system
US5893127A (en) * 1996-11-18 1999-04-06 Canon Information Systems, Inc. Generator for document with HTML tagged table having data elements which preserve layout relationships of information in bitmap image of original document
US5892843A (en) * 1997-01-21 1999-04-06 Matsushita Electric Industrial Co., Ltd. Title, caption and photo extraction from scanned document images
JP3563911B2 (ja) * 1997-03-04 2004-09-08 シャープ株式会社 文字認識装置
JPH10257488A (ja) * 1997-03-12 1998-09-25 Oki Data:Kk 画像符号化装置および画像復号化装置
KR100212318B1 (ko) * 1997-05-29 1999-08-02 윤종용 수직 얼라인먼트(Alignment)보정 장치 및 방법
US6137906A (en) * 1997-06-27 2000-10-24 Kurzweil Educational Systems, Inc. Closest word algorithm
KR19990016070A (ko) * 1997-08-13 1999-03-05 윤종용 셔틀 스캐너의 수직 얼라인먼트 오차 보정 방법
US6108444A (en) * 1997-09-29 2000-08-22 Xerox Corporation Method of grouping handwritten word segments in handwritten document images
US6298173B1 (en) 1997-10-03 2001-10-02 Matsushita Electric Corporation Of America Storage management system for document image database
JPH11143986A (ja) * 1997-10-17 1999-05-28 Internatl Business Mach Corp <Ibm> ビットマップイメージの処理方法及び処理装置、ビットマップイメージの処理を行うイメージ処理プログラムを格納した記憶媒体
US6173073B1 (en) 1998-01-05 2001-01-09 Canon Kabushiki Kaisha System for analyzing table images
JP4077919B2 (ja) * 1998-01-30 2008-04-23 キヤノン株式会社 画像処理方法及び装置及びその記憶媒体
JPH11220298A (ja) * 1998-02-02 1999-08-10 Matsushita Electric Ind Co Ltd 電子部品実装方法
US6298157B1 (en) * 1998-02-27 2001-10-02 Adobe Systems Incorporated Locating and aligning embedded images
JPH11306197A (ja) * 1998-04-24 1999-11-05 Canon Inc 画像処理装置及びその方法、コンピュータ可読メモリ
US6804414B1 (en) * 1998-05-01 2004-10-12 Fujitsu Limited Image status detecting apparatus and document image correcting apparatus
EP0967792B1 (en) * 1998-06-26 2011-08-03 Sony Corporation Printer having image correcting capability
US6360006B1 (en) 1998-09-29 2002-03-19 Canon Kabushiki Kaisha Color block selection
JP2000217000A (ja) * 1998-11-19 2000-08-04 Murata Mach Ltd 画像処理装置、画像処理方法及び記録媒体
US6711292B2 (en) * 1998-12-30 2004-03-23 Canon Kabushiki Kaisha Block selection of table features
IL132719A (en) * 1999-01-07 2010-04-29 Topscan Ltd Optical scanner and software therefor
JP3150130B2 (ja) * 1999-03-26 2001-03-26 新潟日本電気株式会社 画像形成装置及びプログラムを記憶した記憶媒体
JP3913985B2 (ja) * 1999-04-14 2007-05-09 富士通株式会社 文書画像中の基本成分に基づく文字列抽出装置および方法
US6496198B1 (en) 1999-05-04 2002-12-17 Canon Kabushiki Kaisha Color editing system
US7266761B2 (en) * 1999-06-15 2007-09-04 Microsoft Corporation Special API interface for interfacing an application with a TWAIN module, negotiating and presenting a user interface for inserting an image into a document
US6535633B1 (en) * 1999-09-24 2003-03-18 Bank One Method and apparatus for re-classifying color image pixels classified by single channel segmentation
US6839466B2 (en) * 1999-10-04 2005-01-04 Xerox Corporation Detecting overlapping images in an automatic image segmentation device with the presence of severe bleeding
US7016536B1 (en) 1999-11-24 2006-03-21 Gtx Corporation Method and apparatus for automatic cleaning and enhancing of scanned documents
EP1117072A1 (en) * 2000-01-17 2001-07-18 Koninklijke Philips Electronics N.V. Text improvement
JP2001218011A (ja) * 2000-01-31 2001-08-10 Canon Inc 画像処理装置、画像処理方法及び記憶媒体
US6687421B1 (en) * 2000-03-17 2004-02-03 International Business Machines Corporation Skew detection of text in a noisy digitized image
US6757870B1 (en) * 2000-03-22 2004-06-29 Hewlett-Packard Development Company, L.P. Automatic table detection method and system
US8682077B1 (en) 2000-11-28 2014-03-25 Hand Held Products, Inc. Method for omnidirectional processing of 2D images including recognizable characters
KR100411894B1 (ko) * 2000-12-28 2003-12-24 한국전자통신연구원 문서영상 영역해석 방법
US20020178183A1 (en) * 2001-04-10 2002-11-28 Uwe Meding Data extraction method and apparatus
US6898313B2 (en) * 2002-03-06 2005-05-24 Sharp Laboratories Of America, Inc. Scalable layered coding in a multi-layer, compound-image data transmission system
US7079686B2 (en) * 2002-08-20 2006-07-18 Lexmark International, Inc. Systems and methods for content-based document image enhancement
JP2004088585A (ja) * 2002-08-28 2004-03-18 Fuji Xerox Co Ltd 画像処理システムおよびその方法
JP3950777B2 (ja) * 2002-09-30 2007-08-01 キヤノン株式会社 画像処理方法、画像処理装置および画像処理プログラム
US20040066538A1 (en) * 2002-10-04 2004-04-08 Rozzi William A. Conversion of halftone bitmaps to continuous tone representations
JP4194462B2 (ja) * 2002-11-12 2008-12-10 キヤノン株式会社 電子透かし埋め込み方法、電子透かし埋め込み装置、及びそれらを実現するプログラム並びにコンピュータ可読記憶媒体
JP4538214B2 (ja) * 2002-11-22 2010-09-08 オセ−テクノロジーズ・ベー・ヴエー グラフによる画像分割
EP1634135B1 (en) * 2003-02-28 2011-09-14 Gannon Technologies Group Systems and methods for source language word pattern matching
US7305612B2 (en) * 2003-03-31 2007-12-04 Siemens Corporate Research, Inc. Systems and methods for automatic form segmentation for raster-based passive electronic documents
JP4189654B2 (ja) * 2003-04-18 2008-12-03 セイコーエプソン株式会社 画像処理装置
US7298920B2 (en) * 2003-06-11 2007-11-20 Hewlett-Packard Development Company, L.P. Method and device for determining orientation of text
EP1661059B1 (en) * 2003-07-21 2010-10-06 Gannon Technologies Group Systems and methods for assessing disorders affecting fine motor skills using handwriting recognition
AU2004271639B2 (en) * 2003-09-05 2010-09-23 Gannon Technologies Group Systems and methods for biometric identification using handwriting recognition
US7356200B2 (en) * 2003-11-03 2008-04-08 Hewlett-Packard Development Company, L.P. Method and device for determining skew angle of an image
JP4012140B2 (ja) * 2003-11-20 2007-11-21 キヤノン株式会社 画像処理装置、情報処理装置及びそれらの制御方法、プログラム
US7286718B2 (en) * 2004-01-26 2007-10-23 Sri International Method and apparatus for determination of text orientation
US20050281463A1 (en) * 2004-04-22 2005-12-22 Samsung Electronics Co., Ltd. Method and apparatus for processing binary image
CN100377171C (zh) * 2004-08-13 2008-03-26 富士通株式会社 生成劣化字符图像的方法和装置
CN100373399C (zh) * 2004-08-18 2008-03-05 富士通株式会社 建立劣化字典的方法和装置
US7724958B2 (en) * 2004-09-07 2010-05-25 Gannon Technologies Group Llc Systems and methods for biometric identification using handwriting recognition
JP4477468B2 (ja) * 2004-10-15 2010-06-09 富士通株式会社 組み立て図面の装置部品イメージ検索装置
JP2006130221A (ja) * 2004-11-09 2006-05-25 Konica Minolta Medical & Graphic Inc 医用画像転送装置、プログラム及び記憶媒体
JP4443443B2 (ja) * 2005-03-04 2010-03-31 富士通株式会社 文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法
JP2006268372A (ja) * 2005-03-23 2006-10-05 Fuji Xerox Co Ltd 翻訳装置、画像処理装置、画像形成装置、翻訳方法及びプログラム
US7584424B2 (en) 2005-08-19 2009-09-01 Vista Print Technologies Limited Automated product layout
US7676744B2 (en) * 2005-08-19 2010-03-09 Vistaprint Technologies Limited Automated markup language layout
US20080311551A1 (en) * 2005-08-23 2008-12-18 Mazer Corporation, The Testing Scoring System and Method
US7596270B2 (en) * 2005-09-23 2009-09-29 Dynacomware Taiwan Inc. Method of shuffling text in an Asian document image
CA2637005A1 (en) * 2006-01-11 2007-07-19 Gannon Technologies Group, Llc Pictographic recognition technology applied to distinctive characteristics of handwritten arabic text
US7702154B2 (en) * 2006-01-13 2010-04-20 Adobe Systems, Incorporated Method and apparatus indentifying halftone regions within a digital image
US8630498B2 (en) 2006-03-02 2014-01-14 Sharp Laboratories Of America, Inc. Methods and systems for detecting pictorial regions in digital images
US7889932B2 (en) 2006-03-02 2011-02-15 Sharp Laboratories Of America, Inc. Methods and systems for detecting regions in digital images
US7792359B2 (en) * 2006-03-02 2010-09-07 Sharp Laboratories Of America, Inc. Methods and systems for detecting regions in digital images
JP4807618B2 (ja) * 2006-03-06 2011-11-02 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
US8437054B2 (en) 2006-06-15 2013-05-07 Sharp Laboratories Of America, Inc. Methods and systems for identifying regions of substantially uniform color in a digital image
US7864365B2 (en) * 2006-06-15 2011-01-04 Sharp Laboratories Of America, Inc. Methods and systems for segmenting a digital image into regions
US7876959B2 (en) * 2006-09-06 2011-01-25 Sharp Laboratories Of America, Inc. Methods and systems for identifying text in digital images
US20080168402A1 (en) 2007-01-07 2008-07-10 Christopher Blumenberg Application Programming Interfaces for Gesture Operations
US20080168478A1 (en) 2007-01-07 2008-07-10 Andrew Platzer Application Programming Interfaces for Scrolling
US20080225340A1 (en) * 2007-03-14 2008-09-18 Ricoh Company, Limited Image processing apparatus, image processing method, and computer program product
US8014596B2 (en) * 2007-10-30 2011-09-06 Sharp Laboratories Of America, Inc. Methods and systems for background color extrapolation
US20090153912A1 (en) * 2007-12-18 2009-06-18 Mohamed Nooman Ahmed Scanner Calibration Strip, Scanner, and Method for Segmenting a Scanned Document Image
WO2009081791A1 (ja) * 2007-12-21 2009-07-02 Nec Corporation 情報処理システム、その方法及びプログラム
US8717305B2 (en) 2008-03-04 2014-05-06 Apple Inc. Touch event model for web pages
US8645827B2 (en) 2008-03-04 2014-02-04 Apple Inc. Touch event model
CN101551859B (zh) * 2008-03-31 2012-01-04 夏普株式会社 图像辨别装置及图像检索装置
JP5132416B2 (ja) * 2008-05-08 2013-01-30 キヤノン株式会社 画像処理装置およびその制御方法
US8023741B2 (en) * 2008-05-23 2011-09-20 Sharp Laboratories Of America, Inc. Methods and systems for detecting numerals in a digital image
US8023770B2 (en) * 2008-05-23 2011-09-20 Sharp Laboratories Of America, Inc. Methods and systems for identifying the orientation of a digital image
US8452108B2 (en) * 2008-06-25 2013-05-28 Gannon Technologies Group Llc Systems and methods for image recognition using graph-based pattern matching
US8620080B2 (en) * 2008-09-26 2013-12-31 Sharp Laboratories Of America, Inc. Methods and systems for locating text in a digital image
WO2010087886A1 (en) * 2009-01-27 2010-08-05 Gannon Technologies Group Llc Systems and methods for graph-based pattern recognition technology applied to the automated identification of fingerprints
US8285499B2 (en) 2009-03-16 2012-10-09 Apple Inc. Event recognition
US8566045B2 (en) 2009-03-16 2013-10-22 Apple Inc. Event recognition
US9684521B2 (en) 2010-01-26 2017-06-20 Apple Inc. Systems having discrete and continuous gesture recognizers
US9092668B2 (en) * 2009-07-18 2015-07-28 ABBYY Development Identifying picture areas based on gradient image analysis
US20110052094A1 (en) * 2009-08-28 2011-03-03 Chunyu Gao Skew Correction for Scanned Japanese/English Document Images
US9223590B2 (en) * 2010-01-06 2015-12-29 Apple Inc. System and method for issuing commands to applications based on contextual information
US8922582B2 (en) * 2009-11-16 2014-12-30 Martin J. Murrett Text rendering and display using composite bitmap images
CN101853297A (zh) * 2010-05-28 2010-10-06 英华达(南昌)科技有限公司 一种在电子设备中快速获得期望图像的方法
US10216408B2 (en) 2010-06-14 2019-02-26 Apple Inc. Devices and methods for identifying user interface objects based on view hierarchy
AU2010257298B2 (en) 2010-12-17 2014-01-23 Canon Kabushiki Kaisha Finding text regions from coloured image independent of colours
JP2012203783A (ja) * 2011-03-28 2012-10-22 Fuji Xerox Co Ltd 画像処理装置およびプログラム
US9110926B1 (en) * 2012-11-07 2015-08-18 Amazon Technologies, Inc. Skew detection for vertical text
US9076058B2 (en) * 2013-01-29 2015-07-07 Sharp Laboratories Of America, Inc. Methods, systems and apparatus for determining orientation in a document image
US9785240B2 (en) * 2013-03-18 2017-10-10 Fuji Xerox Co., Ltd. Systems and methods for content-aware selection
US9733716B2 (en) 2013-06-09 2017-08-15 Apple Inc. Proxy gesture recognizer
KR102107395B1 (ko) 2013-08-28 2020-05-07 삼성전자주식회사 모바일 단말기 및 그의 코드 인식 방법
JP5915628B2 (ja) * 2013-11-26 2016-05-11 コニカミノルタ株式会社 画像形成装置、テキストデータの埋め込み方法及び埋め込みプログラム
AU2013273778A1 (en) * 2013-12-20 2015-07-09 Canon Kabushiki Kaisha Text line fragments for text line analysis
US9373048B1 (en) * 2014-12-24 2016-06-21 Wipro Limited Method and system for recognizing characters
CN105472392B (zh) * 2015-12-11 2018-11-20 西安万像电子科技有限公司 基于渐进式文字块压缩的屏幕视频编解码方法及编解码器
CN106250831A (zh) * 2016-07-22 2016-12-21 北京小米移动软件有限公司 图像检测方法、装置和用于图像检测的装置
CN107172430B (zh) * 2017-06-06 2019-06-18 西安万像电子科技有限公司 文字块的编码方法和装置
US10318803B1 (en) * 2017-11-30 2019-06-11 Konica Minolta Laboratory U.S.A., Inc. Text line segmentation method
JP7406884B2 (ja) * 2019-06-27 2023-12-28 キヤノン株式会社 情報処理装置、プログラム及び制御方法
US11256913B2 (en) * 2019-10-10 2022-02-22 Adobe Inc. Asides detection in documents
CN111310579B (zh) * 2020-01-19 2023-06-23 徐庆 一种图像骨架节点特征描述符获取方法及装置
US11675970B2 (en) * 2020-02-14 2023-06-13 Open Text Corporation Machine learning systems and methods for automatically tagging documents to enable accessibility to impaired individuals
US20210286991A1 (en) * 2020-03-12 2021-09-16 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4379282A (en) * 1979-06-01 1983-04-05 Dest Corporation Apparatus and method for separation of optical character recognition data
US4741045A (en) * 1983-09-23 1988-04-26 Dest Corporation Optical character isolation system, apparatus and method
JPH07107694B2 (ja) * 1984-08-31 1995-11-15 株式会社日立製作所 文書処理装置
JPS63268081A (ja) * 1987-04-17 1988-11-04 インタ−ナショナル・ビジネス・マシ−ンズ・コ−ポレ−ション 文書の文字を認識する方法及び装置
US5001766A (en) * 1988-05-16 1991-03-19 At&T Bell Laboratories Apparatus and method for skew control of document images
US5062141A (en) * 1988-06-02 1991-10-29 Ricoh Company, Ltd. Method of segmenting characters in lines which may be skewed, for allowing improved optical character recognition
US4916838A (en) * 1988-06-17 1990-04-17 The Holson Company Photo holder for photo albums
US4988852A (en) * 1988-07-05 1991-01-29 Teknekron Transportation Systems, Inc. Bar code reader
US5101448A (en) * 1988-08-24 1992-03-31 Hitachi, Ltd. Method and apparatus for processing a document by utilizing an image
US5129012A (en) * 1989-03-25 1992-07-07 Sony Corporation Detecting line segments and predetermined patterns in an optically scanned document
JP2812982B2 (ja) * 1989-04-05 1998-10-22 株式会社リコー 表認識方法
JPH0816918B2 (ja) * 1989-04-18 1996-02-21 シャープ株式会社 行抽出方法
JP2644041B2 (ja) * 1989-05-08 1997-08-25 キヤノン株式会社 文字認識装置
US5159667A (en) * 1989-05-31 1992-10-27 Borrey Roland G Document identification by characteristics matching
JP2940936B2 (ja) * 1989-06-06 1999-08-25 株式会社リコー 表領域識別方法
US5120977A (en) * 1989-10-10 1992-06-09 Unisys Corporation (Formerly Burroughs Corp.) Document transport control including document velocity profiles
US5021676A (en) * 1989-10-10 1991-06-04 Unisys Corp. Document-skew detection with photosensors
US5052044A (en) * 1990-02-02 1991-09-24 Eastman Kodak Company Correlated masking process for deskewing, filtering and recognition of vertically segmented characters
JPH03290774A (ja) * 1990-04-06 1991-12-20 Fuji Facom Corp 文書画像の文章領域抽出装置
US5054094A (en) * 1990-05-07 1991-10-01 Eastman Kodak Company Rotationally impervious feature extraction for optical character recognition
EP0472313B1 (en) * 1990-08-03 1998-11-11 Canon Kabushiki Kaisha Image processing method and apparatus therefor
JPH0490083A (ja) * 1990-08-03 1992-03-24 Canon Inc 文字認識装置
US5101439A (en) * 1990-08-31 1992-03-31 At&T Bell Laboratories Segmentation process for machine reading of handwritten information
CA2092529A1 (en) * 1990-09-27 1992-03-28 Wolfgang Lellmann Process for extracting individual characters from raster images of a read-in handwritten or typed series of characters in free distribution
KR930002349B1 (ko) * 1990-12-29 1993-03-29 주식회사 금성사 압축영상의 문자열 분리방법
JPH04248687A (ja) * 1991-01-23 1992-09-04 Internatl Business Mach Corp <Ibm> 文書画像のレイアウト解析方法及びシステム
US5172422A (en) * 1991-05-13 1992-12-15 Eastman Kodak Company Fast character segmentation of skewed text lines for optical character recognition
US5317652A (en) * 1991-06-05 1994-05-31 Phoenix Imaging Rotation and position invariant optical character recognition
US5307422A (en) * 1991-06-25 1994-04-26 Industrial Technology Research Institute Method and system for identifying lines of text in a document
US5351314A (en) * 1991-10-04 1994-09-27 Canon Information Systems, Inc. Method and apparatus for image enhancement using intensity dependent spread filtering
US5335290A (en) * 1992-04-06 1994-08-02 Ricoh Corporation Segmentation of text, picture and lines of a document image
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
US5588072A (en) * 1993-12-22 1996-12-24 Canon Kabushiki Kaisha Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7805003B1 (en) 2003-11-18 2010-09-28 Adobe Systems Incorporated Identifying one or more objects within an image
US11977533B2 (en) 2021-04-02 2024-05-07 Kofax, Inc. Automated document processing for detecting, extracting, and analyzing tables and tabular data
US11977534B2 (en) 2021-04-02 2024-05-07 Kofax, Inc. Automated document processing for detecting, extracting, and analyzing tables and tabular data

Also Published As

Publication number Publication date
DE69432585D1 (de) 2003-06-05
DE69432585T2 (de) 2004-04-08
EP0660256B1 (en) 2003-05-02
TW258803B (ja) 1995-10-01
JP3754716B2 (ja) 2006-03-15
EP0660256A3 (en) 1996-03-20
DE69432942D1 (de) 2003-08-14
EP0660256A2 (en) 1995-06-28
EP1061469A1 (en) 2000-12-20
US5854853A (en) 1998-12-29
SG98357A1 (en) 2003-09-19
EP1061469B1 (en) 2003-07-09
US5588072A (en) 1996-12-24

Similar Documents

Publication Publication Date Title
JP3754716B2 (ja) 文書のテキスト及び/または非テキストブロックの選択方法及び装置
US5987171A (en) Page analysis system
US5809167A (en) Page segmentation and character recognition system
EP0567344B1 (en) Method and apparatus for character recognition
JP4065460B2 (ja) 画像処理方法及び装置
US6738154B1 (en) Locating the position and orientation of multiple objects with a smart platen
JP3259993B2 (ja) 語形測定方法及び画像信号処理方法
US6173073B1 (en) System for analyzing table images
US5619594A (en) Image processing system with on-the-fly JPEG compression
US6711292B2 (en) Block selection of table features
US20010012400A1 (en) Page analysis system
JPH05282495A (ja) 比較方法
WO2003069554A2 (en) Method and system for interactive ground-truthing of document images
US6532302B2 (en) Multiple size reductions for image segmentation
JP4408495B2 (ja) 画像処理方法及び画像処理装置
JP3285686B2 (ja) 領域分割方法
US6356657B1 (en) Image processing method and apparatus for discriminating an input image area or an attribute of image information in the discriminated area
EP0975146B1 (en) Locating the position and orientation of multiple objects with a smart platen
EP0767941B1 (en) Automatic determination of landscape scan in binary images
EP0974931A1 (en) Method and apparatus for identifying a plurality of sub-images in an input image
JPH08272987A (ja) 画像処理方法及びその装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050419

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050805

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051005

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20051104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051219

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081222

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091222

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091222

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101222

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111222

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121222

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131222

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees