JPH10162150A - ページ解析システム - Google Patents
ページ解析システムInfo
- Publication number
- JPH10162150A JPH10162150A JP9315675A JP31567597A JPH10162150A JP H10162150 A JPH10162150 A JP H10162150A JP 9315675 A JP9315675 A JP 9315675A JP 31567597 A JP31567597 A JP 31567597A JP H10162150 A JPH10162150 A JP H10162150A
- Authority
- JP
- Japan
- Prior art keywords
- data
- image data
- block
- character recognition
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
析システムにおける画像データの分類の精度を向上する
方法を提供することを目的とする。 【解決手段】 上記方法は、画素データとして文書ペー
ジの画像データを入力し、すべての連結画素を配置する
ために前記画素データを解析し、連結画素データをブロ
ックに矩形化し、各ブロックに含まれる画像データのタ
イプを決定するために各画素データのブロックを解析
し、前記解析において、前記決定されたブロック内の画
像データのタイプに対応する属性を出力し、前記解析が
前記ブロック内の画像データのタイプを決定できない場
合、ブロック内の画像データを認識するために文字認識
を実行する。
Description
を利用することによって、文書ページの画像データを解
析するページ解析システムに関するものであり、特に、
画像データの特徴に基づいて画像データのブロックを分
類するようなシステムに関するものである。例えば、画
像データのブロックは、テキストデータ、タイトル、中
間調画像データ、線画、表、垂直線、あるいは水平線に
分類される。
「文字認識装置及び方法」、米国特許出願第08/17
1,720号の「記憶された文書内のテキスト及び非テ
キスト選択装置及び方法」、米国特許出願08/59
6,716号の「傾斜及び複数方向の文書(Skewed An
d Multi-Orientation Documents)の特徴抽出システ
ム」、米国特許出願第08/338,781号の「ペー
ジ解析システム」は、本発明の譲渡人によって所有され
るものであり、それらは参照されることによって本発明
に組み込まれる。
2号及び第08/171,720号で記述される技術の
ような、近年発達しているブロック選択技術は、文書ペ
ージ内の画像データの自動解析を提供するページ解析シ
ステムで使用される。特に、これらの技術は、文書ペー
ジ内の異なるタイプの画像データを識別するために使用
される。このような技術による処理結果は、光学的文字
認識(OCR)、 データ圧縮、データルーティング等
のような画像データの後処理として実行される処理の種
類を選択するために使用される。例えば、ブロック選択
技術でテキストデータとして表わされる画像データはO
CR処理され、これに対し自然画データとして表される
画像データはデータ圧縮される。これに先行して、ユー
ザーの介在を必要としないで、様々なタイプの画像デー
タが入力され、自動的に加工されるうる。
場合に最も有益である。図1は、ブロック選択技術によ
る処理結果として得られる合成文書ページ1を示す図で
ある。文書ページ1では、ブロック2にロゴ、ブロック
3から6に大きいフォントのタイトル、ブロック7に大
きい修飾フォントのテキスト、ブロック8から13にテ
キストサイズの修飾フォントのテキスト、ブロック14
から27に様々なテキストサイズのシンボル、ブロック
28から35に小さいシンボルパターンを含んでいる。
に、ブロック選択技術は図1で示したような「ブロック
化」された文書イメージを使う。図2は、文書ページ1
を表す階層ツリーを示す図である。階層ツリーは、ルー
トノード101と複数の下位ノードで、文書ページ1を
表す。下位ノード102、104から106、107、
108から113、114から127及び128から1
45は、それぞれブロック領域2、3から6、7、8か
ら13、14から27及び28から35を表す。
米国特許出願第07/873,012号及び08/171,
720で記述されるようなブロック選択技術は、「連結
成分」を検出するために文書ページ1内の各領域を検索
する。これに記述されるように、連結成分は、対象画素
の周囲8方向に2つ以上連続する画素から構成される。
連結成分の面積は、「ブロック化された」領域との対応
を生成するために矩形化される。次に、テキスト連結成
分が非テキスト連結成分から分離される。その後、分離
された非テキスト連結成分は、表、中間調画像、線画等
に分類される。加えて、ブロック選択技術は、関係のあ
るデータをより効果的に処理するために関係づけられて
表わされる画像データのブロックを組み合わせても良
い。
プは、連結成分のサイズ、連結成分の面積、各連結成分
のサイズの平均、連結成分内のサイズの平均、隣接連結
成分の分類のような連結成分の特徴を解析することによ
って実行される。しかしながら、ブロック選択技術は、
上記の要点とともに、画像データのブロックを分類する
ための複雑なアルゴリズムを使用するにもかかわらず、
しばしば誤認識あるいは文書ページの画像データのブロ
ックを認識することができない。
ク選択技術は、文書ページ1のブロック2、3及び7の
内容を識別することができない。従って、ノード10
2、103及び107は「未知」として表される。
ルゴリズムは、例えば、与えられたサイズの閾値内にお
さまるデータは、すべてテキストデータとして分類しま
う、つまり、データサイズに多くの仮定関係が前提とさ
れてしまうで、上記の問題が発生する。従って、その閾
値外のテキストデータは、ほとんどがテキストデータと
して特徴づけられていない。また、テキスト連結成分は
自然画連結成分より通常小さいという仮定に基づいて、
テキスト及び非テキスト連結成分が分類される。加え
て、上記アルゴリズムは、テキストの連結成分が文書ペ
ージ内の大多数の連結成分から構成されると仮定してい
る。
データの内容の実際の認識を試みず、文書画像データの
サイズに関係する特徴に関して仮定が依存するので、本
質的に正確でない。
の誤認識は、画像データの関連ブロックを合成する場合
に、重要な問題となる。例えば、この例で使われた合成
アルゴリズムは、隣接テキストを合成して「未知」を表
すブロック選択技術を必要とする。従って、文書ページ
の「未知」ブロック2、3は「テキスト」ブロック4か
ら6に隣接するので、これらのブロックは、図3に示す
ように、「テキスト」ブロック36を形成するようにグ
ループ化される。それゆえ、ブロック2内のロゴはテキ
ストとして誤った処理がなされる。また、図3に示すよ
うに、ブロック7から13、14から27及び28から
35は、それぞれ1つの「テキスト」ブロック38、3
9、40に合成される。
合成を行ってしまうブロック選択技術の傾向により技術
が発達している。例えば、米国特許出願第08/36
1,240号は、ブロック選択技術に起因するデータの
分類の検証方法及びブロック選択技術によって画像デー
タが誤認識される場合の分類の編集方法が記述されてい
る。しかしながら、そのような技術は、オペレーターの
介在を必要とし、それゆえ、ブロック選択技術のオート
メーションが必要とされる場合に適していない。
のであり、ブロック選択技術の欠点を解決する光学的文
字認識処理を利用した文書ページ内の画像データのブロ
ックを分類する方法及び装置、コンピュータ可読メモリ
を提供することを目的とする。
本発明は、文書ページの画像データを解析するページ解
析システムにおける画像データの分類の精度を向上する
方法である。上記方法は、画素データとして文書ページ
の画像データを入力し、すべての連結画素を配置するた
めに前記画素データを解析し、連結画素データをブロッ
クに矩形化し、各ブロックに含まれる画像データのタイ
プを決定するために各画素データのブロックを解析し、
上記解析において、前記決定されたブロック内の画像デ
ータのタイプに対応する属性を出力し、上記解析が前記
ブロック内の画像データのタイプを決定できない場合、
ブロック内の画像データを認識するために文字認識を実
行する。
は、文書ページの画像データを解析するページ解析シス
テムにおける画像データを正確に分類する方法である。
上記方法は、画素データとして文書ページの画像データ
を入力し、連結された画素データを画像データのブロッ
クへと合成して矩形化し、データのタイプとして前記画
像データを解析して分類する。そして、画像データのブ
ロックがテキストデータとして分類され、前記テキスト
データのサイズが所定サイズの閾値と等しくない場合、
該テキストデータに対し文字認識を実行する。
質が早急に理解されるであろう。本発明のより完全な理
解は、以下詳細に説明する添付の図面と組み合わさった
実施形態を参照することによって達成され得る。
外観を示す概要図である。図4では、マイクロソフトウ
ィンドウズ(TM)のようなウインドウ環境を有する、マッ
キントッシュ、あるいはIBM PC、あるいはPC互
換システムでも良いコンピュータシステム41を示して
いる。コンピュータシステム41は、カラーモニタのよ
うなディスプレイスクリーン42、ユーザーコマンドを
入力するためのキーボード44及びディスプレイスクリ
ーン42で表示されたオブジェクトを指示及び操作する
ためのマウス等のポインティングデバイス45が提供さ
れる。
あるいは解凍されたフォーマットの画像データファイル
を含むデータファイルを記憶し、かつ本発明のコンピュ
ータ実行可能処理ステップを記憶するコンピュータディ
スク46のような大容量の記憶装置を含んでいる。コン
ピュータシステム41へ文書のビットマップ画像を供給
するために、文書をスキャンするスキャナ47を用いて
も良い。また、ネットワークインタフェース49から、
ネットワークインタフェース49あるいはファクシミリ
/モデムインタフェース50を介してワールドワイドウ
ェブ(WWW)のような他の様々なソースから、文書を
コンピュータシステム41に入力しても良い。プリンタ
51は、処理された文書イメージを出力するために提供
される。
タシステムが示されるが、本発明を実行するために、専
用コンピュータあるいはスタンドアローンのコンピュー
タまたあるいは他のタイプのデータ処理装置が使用され
得ることが理解されるであろう。
成の詳細を示すブロック図である。図5に示すように、
コンピュータシステム41は、コンピュータバス54に
接続する中央処理装置(CPU)52を含んでいる。ま
た、コンピュータバス54には、スキャナインタフェー
ス55、プリンタインタフェース56、ネットワークイ
ンタフェース57、ファクシミリ/モデムインタフェー
ス59、メインランダムアクセスメモリ(RAM)6
1、ディスク46、キーボードインタフェース62及び
マウスインタフェース64が接続されている。
ク選択技術の処理ステップのように記憶された処理ステ
ップを実行するために、CPU52に対しRAM記憶を
提供するコンピュータバス54に接続される。より具体
的には、CPU52はディスク46から処理ステップを
メインメモリ61へロードし、文書ページ1のような文
書ページ内の画像データを認識し分類するために、メイ
ンメモリ61からその記憶された処理ステップを実行す
る。また、図5に示すように、ディスク46には、圧縮
あるいは解凍されたフォーマットの文書画像、ブロック
選択システムによって作成された階層ツリー構造データ
及びブロック選択プログラムの処理結果を編集するため
のブロック選択編集プログラム及びブロック選択プログ
ラムを含むアプリケーションプログラムファイルを含ん
でいる。
ローチャートである。
像データは画素データとしてコンピュータシステム41
に入力される。文書画像データは、スキャナ47あるい
はネットワーク49に接続された他の入力装置によって
入力されても良い。続いて、その画像データはRAM6
1に記憶される。ステップS602で、一度入力された
画像データは文書ページ1内の連結成分を検出するため
に解析される。連結成分は、白画素によって完全に囲ま
れる黒画素のグループである。ステップS604で、各
連結成分は矩形化される。矩形化は、連結成分の周囲を
完全に囲む最少矩形を生成する。また、矩形化の詳細に
ついては、米国特許出願第08/338,781号に記述
され、参照することによって本発明に組み込まれる。
ロック選択プログラムによって生成される。尚、ブロッ
ク選択プログラムは、ブロック化された文書ページ1を
表す図2の階層ツリー構造によって示されるように、連
結成分の周囲を囲む各矩形ブロックに対応するノードを
階層ツリー構造に割り当てる。
は、ブロック内の連結成分がテキストデータを示すある
基準にかかるかどうかを決定するための分析がなされ
る。ブロックが所定閾値サイズより小さければ、そのブ
ロックは、非テキストであると決定され、フローはステ
ップS609に進む。あるいはまた、テキスト/非テキ
ストの閾値は、文書ページ内の他の矩形の高さ及び幅の
平均に基づいても良い。このテキスト/非テキストの解
析のより詳しい詳細については、米国特許出願第07/
873,012に記述されている。
データを含むと決定されれば、フローはステップS60
7に進み、ブロックに対応するノードが更新され、その
ノードには「テキスト」の属性が付加される。
テキストデータが含まれるかどうかを決定するための分
析がなされる。尚、ステップS609では、ブロック内
の非テキストデータが、線(水平線、垂直線、点線、斜
線)、接続線、絵、線画、枠、あるいは表を表すかどう
かを決定するために、いくつかの種類の解析を画像デー
タのブロック対し行う。この非テキストデータの分類
は、数学的に定式化され動的に計算される様々なサイズ
の閾値及びブロック位置情報の複雑な解析に基づいて実
行される。 非テキストの分類のより詳細な記述は、参
照することで本発明に組み込まれる米国特許出願07/
873,012号を参照することによって示される。
プの1つとしてブロックが認識されるまで、あるいはブ
ロックが正常に認識されずに各非テキスト画像タイプに
関して試験されるまで続けられる。ブロックが非テキス
ト画像タイプの1つであると決定された場合、ステップ
S610で、階層ツリー構造の対応ノードが、非テキス
ト画像タイプの属性を含むように更新される。
非テキスト画像タイプの1つとして認識できない場合
は、ステップS611で、ブロックは「未知」データを
含むということが前もって指示される。ステップS61
2で、「未知」ブロックは光学的文字認識(OCR)技
術を用いた処理がなされる。その後、ステップS614
で、「未知」ブロックに対応する階層ツリー構造のノー
ドが、ステップS612の処理結果に従って更新され
る。
行された処理のより詳細な説明を示すフローチャートで
ある。ステップS701で、ステップ611で「未知」
データを含むとして前もって指示された連結成分が、O
CR処理を用いた処理が実行される。次に、ステップS
702で、OCR処理がその連結成分を認識できない場
合、続けて、ステップS704に進み、その連結成分に
対応するノードは、「自然画」の属性を含むように更新
される。フローは、続いて、ステップS705に進む。
分を認識すれば、対応ノードは「未知」属性を含むよう
に更新される連結成分がステップS702で認識された
ので、対応ノードは「テキスト」属性を含むように更新
されるべきであると思われる。しかしながら、「未知」
ブロックがテキストを含む場合、上述したように、「未
知」ブロックは、より効果的なブロック化を実行するた
めに「テキスト」ブロックと合成されたブロックを除外
していないブロックとして表されている。加えて、その
ような「未知」ブロックの再表現は、自然画データを包
む「未知」ブロックを生じ、ブロックのグループ化にお
いて「テキスト」ブロックと不正確に合成させられる。
それゆえ、「未知」として認識された連結成分に対応す
るノードは、より効果的な処理結果をもたらす。
「未知」を含む連結成分として前もって指示されたブロ
ックのすべてについて処理されたか否かが判定される。
処理されていない場合、ステップS701に戻り、上述
した処理を実行する。一方、処理された場合、フローは
ステップS707に進む。
層ツリー構造の概要を示す図である。図7に示すよう
に、「未知」ノード102は「自然画」ノード202に
更新されている。これに対し、ブロック3及び7は、O
CR認識可能な連結成分を含むので、ブロック3及び7
は、「未知」ノード203及び207によって表され
る。
く、より効果的に処理可能な画像データのブロックを生
成するために、文書ページ1内に合成されるべき画像デ
ータのブロックがあるか否かが決定される。合成が必要
である場合、フローはステップS709に進み、文書ペ
ージ1に対応する階層ツリー構造が更新される。そし
て、フローはステップS710に進む。
決定される場合、フローはステップS710に進み、画
像データのブロックの後処理が発生する。
層ツリー構造の概要を示す図である。これに従えば、
「テキスト」ノード204から206は隣接する「未
知」ノード203とグループ化されて「タイトル」ノー
ド366を生成し、「テキスト」ノード208から21
3は隣接する「未知」ノード207とグループ化されて
「タイトル」ノード367を生成し、「テキスト」ノー
ド214から227はグループ化されて「テキスト」ノ
ード368を生成し、「テキスト」ノード228から2
45はグループ化されて「テキスト」ノード369を生
成する。ブロック化された文書ページ1を図10に示
す。図3と比較して有効なことは、「自然画」ブロック
70が「テキスト」ブロック71とグループ化されてい
ないことである。従って、ブロック70内の連結成分
は、ブロック71の連結成分とは異なる処理がなされて
も良い。
選択技術を画像に対して適用した後に実行される後処理
である。特に、図11の方法は、ブロック選択技術の正
確さをチェックし、かつすべての後処理中に階層ツリー
データを更新し、訂正するために使われる。図11の方
法は、どんなブロック選択技術でも使われうるが、上述
の技術に関し、読者に対して連続性を提供するための方
法については以下に説明する。
「テキスト」ブロック内の連結成分は閾値サイズと比較
される。尚、閾値サイズは、値解析される各文書ページ
に対し所定の閾値サイズ、あるいは米国特許出願第07
/873,012号に記述されているような閾値サイズ、
また、あるいは文書ページの連結成分のサイズの平均に
基づいて計算される閾値サイズを用いても良い。それゆ
え、ステップS1101で、ブロック内ので大部分の連
結成分のサイズが閾値サイズ外である場合、あるいはブ
ロックが「タイトル」ブロックである場合、ブロック内
の連結成分に対しOCR処理を実行するためにフローは
ステップS1102に進む。一方、ブロック内の大部分
の連結成分のテキストのサイズが閾値サイズにおさまる
場合、フローはステップS1109に進む。
いると、ブロック70が「テキスト」ブロックでないの
で、ブロック70の連結成分はステップS1101では
評価されない。
CR処理結果は、ブロック内の大部分の連結成分が認識
可能であるか否かを指示するために判定される。判定さ
れない場合、そのブロックは、ステップS1107で
「自然画」と分類され、ステップS1110に進み、上
述した処理を続ける。
プS1104の基準を満たしていない。従って、対応ノ
ード367及び368は、図10に示したように、自然
画ノード370及び371として再分類される。
ると、フローはステップS1105に進み、対象ブロッ
ク内の大部分のテキストラインが認識可能であるか否か
を決定するために判定される。判定されない場合、フロ
ーはステップS1107に進み、上述した処理を続け
る。対象ブロック内の大部分のテキストラインが認識で
できる場合、フローはステップS1106に進む。
分の連結成分が英数字であるか否かを決定するためにO
CR処理結果が判定される。判定されない場合、フロー
はステップS1107に進む。ステップS1101で利
用された閾値サイズ以下におさまる「テキスト」ブロッ
ク74は、英数字でなく、その「テキスト」ブロック7
4は「自然画」ブロック372として再表現される。
10に進み、文書画像のすべてのブロックが解析された
場合は、フローは終了する。
部分の連結成分が英数字であるとOCR処理結果が示す
場合、フローはステップS1109に進み、対象ブロッ
クの「テキスト」属性が確認される。そして、フロー
は、上述したステップS1110に進む。
テップS1106からステップS1104の各ステップ
の基準を満たすので、「タイトル」ブロックを示すこと
が維持される。従って、図12に示すように、図9の階
層ツリー構造は図11の方法によって変化させられる。
具体的には、「タイトル」ノード367及び「テキス
ト」ノード368は、「自然画」ノード370及び37
1に更新され、「テキスト」ノード369は「自然画」
ノード372に再指定される。
するためにOCR処理を利用するため、上記データが処
理対象となり得る。
の方法は、上述したように、ブロック選択技術の異なる
部分に用いられるので、これらの方法は部分的あるいは
別々に使われても良い。
タのブロックをグループ化するような評価対象のブロッ
ク内の連結成分にOCR処理をいつでも採用するブロッ
ク選択技術の改良を意図している。それゆえ、最初に文
書画像データをテキスト及び非テキストブロックに分離
し、及び/あるいはまた非テキストデータタイプに従う
ブロックの分類の基準としてOCR処理結果が使用され
るページ解析システムにおいて、本発明は具体的に示さ
れ得る。
CR処理はかなりの時間を消費するので、本システムは
好ましい実施形態ではない。従って、すべての状況で有
用であるかもしれないOCR処理を採用することは実質
的には非効率的である。それどころか、実質的で明確な
効果を最大にするような処理方法を適用することで、上
記実施形態はOCR処理に起因する不必要な非効率さを
減少させるために発達させられたものである。
る。本発明が上記実施形態及び変形例に限定されず、ク
レームの請求の範囲から逸脱しない範囲で、当業者によ
って様々な変形及び修正されても良いことが理解される
であろう。
ブロック選択技術の欠点を解決する光学的文字認識処理
を利用した文書ページ内の画像データのブロックを分類
する方法及び装置、コンピュータ可読メモリを提供でき
る。
像を有する文書ページを示す図である。
である。
化画像データを含む図1の文書を示す図である。
ク図である。
チャートである。
タを分類するための方法の詳細を示すフローチャートで
ある。
部を適用して生成した階層ツリー構造を示す図である。
用して生成した階層ツリー構造を示す図である。
ページを示す図である。
ータを分類するための方法を示すフローチャートであ
る。
用して得られる階層ツリーを示す図である。
Claims (30)
- 【請求項1】 文書ページの画像データを解析するペー
ジ解析システムにおける画像データの分類の精度を向上
する方法であって、 画素データとして文書ページの画像データを入力する工
程と、 すべての連結画素を配置するために前記画素データを解
析する第1解析工程と、 連結画素データをブロックに矩形化する工程と、 各ブロックに含まれる画像データのタイプを決定するた
めに各画素データのブロックを解析する第2解析工程
と、 前記第2解析工程において、前記決定されたブロック内
の画像データのタイプに対応する属性を出力する工程
と、 前記第2解析工程が前記ブロック内の画像データのタイ
プを決定できない場合、ブロック内の画像データを認識
するために文字認識を実行する工程とを備えることを特
徴とする方法。 - 【請求項2】 前記第2解析工程では、前記画素データ
はテキストデータあるいは非テキストデータのいずれか
に解析され、 前記出力工程では、前記画像データのブロックがテキス
トデータであると決定された場合には、テキストデータ
の属性を出力し、前記画像データのブロックがが非テキ
ストデータであると決定された場合には、非テキストデ
ータの属性を出力することを特徴とする請求項1に記載
の方法。 - 【請求項3】 前記文字認識は、光学的文字認識である
ことを特徴とする請求項1に記載の方法。 - 【請求項4】 文書ページの画像データを解析するペー
ジ解析システムにおける画像データを正確に分類する方
法であって、 画素データとして文書ページの画像データを入力する工
程と、 連結された画素データを画像データのブロックへと合成
し矩形化する工程と、 データのタイプとして前記画像データを解析し分類する
工程と、 画像データのブロックがテキストデータとして分類さ
れ、前記テキストデータのサイズが所定サイズの閾値と
等しくない場合、該テキストデータに対し文字認識を実
行する工程とを備えることを特徴とする方法。 - 【請求項5】 更に、前記実行工程では、前記ブロック
化された画像データが認識された場合には、自然画デー
タの属性を出力することを特徴とする請求項4に記載の
方法。 - 【請求項6】 更に、前記実行工程では、前記ブロック
化された画像データが認識できない場合には、未知デー
タの属性を出力することを特徴とする請求項4に記載の
方法。 - 【請求項7】 前記文字認識は、前記ブロック内のテキ
ストデータのサイズが前記所定サイズの閾値より大きい
場合のみに、該テキストデータに対して実行されること
を特徴とする請求項4に記載の方法。 - 【請求項8】 前記文字認識は、前記ブロック内のテキ
ストデータのサイズが前記所定サイズの閾値より小さい
場合のみに、該テキストデータに対して実行されること
を特徴とする請求項4に記載の方法。 - 【請求項9】 前記所定サイズの閾値は、前記解析され
た文書ページ内の画素データのサイズの平均に基づいて
いることを特徴する請求項4に記載の方法。 - 【請求項10】 前記文字認識は、光学的文字認識であ
ることを特徴とする請求項4に記載の方法。 - 【請求項11】 文書ページの画像データを解析するペ
ージ解析システムに用い、画像データの分類の精度を向
上するためのコンピュータ実行可能処理ステップを記憶
したコンピュータ可読メモリであって、 画素データとして文書ページの画像データを入力する入
力工程の処理ステップと、 すべての連結画素を配置するために前記画素データを解
析する第1解析工程の処理ステップと、 連結画素データをブロックに矩形化する矩形化工程の処
理ステップと、 各ブロックに含まれる画像データのタイプを決定するた
めに各画素データのブロックを解析する第2解析工程の
処理ステップと、 前記第2解析工程において、前記決定されたブロック内
の画像データのタイプに対応する属性を出力する出力工
程の処理ステップと、 前記第2解析工程が前記ブロック内の画像データのタイ
プを決定できない場合、ブロック内の画像データを認識
するための文字認識を実行する実行工程の処理ステップ
とを備えることを特徴とするコンピュータ可読メモリ。 - 【請求項12】 前記第2解析工程の処理ステップで
は、前記画素データはテキストデータあるいは非テキス
トデータのいずれかに解析され、 前記出力工程の処理ステップでは、前記画像データのブ
ロックがテキストデータであると決定された場合には、
テキストデータの属性を出力し、前記画像データのブロ
ックがが非テキストデータであると決定された場合に
は、非テキストデータの属性を出力することを特徴とす
る請求項11記載のコンピュータ可読メモリ。 - 【請求項13】 前記文字認識は、光学的文字認識であ
ることを特徴とする請求項11に記載のコンピュータ可
読メモリ。 - 【請求項14】 文書ページの画像データを解析するコ
ンピュータ実行可能処理ステップを記憶したコンピュー
タ可読メモリであって、 画素データとして文書ページの画像データを入力する入
力工程の処理ステップと、 連結された画素データを画像データのブロックへと合成
し矩形化する合成矩形化工程の処理ステップと、 データのタイプとして前記画像データを解析し分類する
解析分類工程の処理ステップと、 画像データのブロックがテキストデータとして分類さ
れ、前記テキストデータのサイズが所定サイズの閾値と
等しくない場合、該テキストデータに対し文字認識を実
行する実行工程の処理ステップとを備えることを特徴と
するコンピュータ可読メモリ。 - 【請求項15】 更に、前記実行工程の処理ステップで
は、前記ブロック化された画像データが認識された場合
には、自然画データの属性を出力することを特徴とする
請求項14に記載のコンピュータ可読メモリ。 - 【請求項16】 更に、前記実行工程の処理ステップで
は、前記ブロック化された画像データが認識できない場
合には、未知データの属性を出力することを特徴とする
請求項14に記載のコンピュータ可読メモリ。 - 【請求項17】 前記文字認識は、前記ブロック内のテ
キストデータのサイズが前記所定サイズの閾値より大き
い場合のみに、該テキストデータに対して実行されるこ
とを特徴とする請求項14に記載のコンピュータ可読メ
モリ。 - 【請求項18】 前記文字認識は、前記ブロック内のテ
キストデータのサイズが前記所定サイズの閾値より小さ
い場合のみに、該テキストデータに対して実行されるこ
とを特徴とする請求項14に記載のコンピュータ可読メ
モリ。 - 【請求項19】 前記所定サイズの閾値は、前記解析さ
れた文書ページ内の画素データのサイズの平均に基づい
ていることを特徴する請求項14に記載のコンピュータ
可読メモリ。 - 【請求項20】 前記文字認識は、光学的文字認識であ
ることを特徴とする請求項14に記載のコンピュータ可
読メモリ。 - 【請求項21】 文書ページのページ解析を実行する装
置であって、 プロセッサによって実行可能なページ解析処理ステップ
と文書ページの画像を記憶するメモリと、 プロセッサは、前記メモリに格納された(1)画素デー
タとして文書ページの画像データを入力し、 (2)すべての連結画素を配置するために前記画素デー
タを解析し、 (3)連結画素データをブロックに矩形化し、 (4)各ブロックに含まれる画像データのタイプを決定
するために各画素データのブロックを解析し、 (5)前記プロセッサによって解析されたブロック内の
画像データのタイプに対応する属性を出力し、 (6)前記ブロック内の画像データのタイプを前記プロ
セッサが決定できない場合、該ブロック内の画像データ
を認識するための文字認識を実行する前記ページ解析処
理ステップを実行することを特徴とする装置。 - 【請求項22】 前記プロセッサは、前記画素データの
テキストデータあるいは非テキストデータの解析によっ
て各ブロックに含まれる画像データのタイプを決定する
ために画素データの各ブロックを解析し、 前記プロセッサは、 (1)前記画像データのブロックがテキストデータであ
ると決定される場合には、テキストデータの属性を
(2)前記画像データのブロックが非テキストデータで
あると決定される場合には、非テキストデータの属性を
出力することを特徴とする請求項21に記載の装置。 - 【請求項23】 前記文字認識は、光学的文字認識であ
ることを特徴とする請求項21に記載の装置。 - 【請求項24】 文書ページのページ解析を実行する装
置であって、プロセッサによって実行可能なページ解析
処理ステップと文書ページの画像を記憶するメモリと、 プロセッサは、前記メモリに格納された(1)画素デー
タとして文書ページの画像データを入力し、 (2)画素データを画像データのブロックへ合成して矩
形化し、 (3)前記画像データをデータのタイプとして解析して
分類し、 (4)画像データのブロックがテキストデータとして分
類され、前記テキストデータのサイズが所定サイズの閾
値と等しくない場合、該テキストデータに対し文字認識
を実行する前記ページ処理解析ステップを実行すること
を特徴とする装置。 - 【請求項25】 前記プロセッサは、前記ブロック化さ
れた画像データが認識された場合、自然画データの属性
を出力する前記メモリに記憶された処理ステップを実行
することを特徴とする請求項24に記載の装置。 - 【請求項26】 前記プロセッサは、前記ブロック化さ
れた画像データを認識できない場合、未知データの属性
を出力することを特徴とする請求項24に記載の装置。 - 【請求項27】 前記プロセッサは、前記ブロック内の
テキストデータのサイズが前記所定サイズの閾値より大
きい場合のみに、該テキストデータに文字認識を実行す
ることを特徴とする請求項24に記載の装置。 - 【請求項28】 前記プロセッサは、前記ブロック内の
テキストデータのサイズが前記所定サイズの閾値より小
さい場合のみに、該テキストデータに文字認識を実行す
ることを特徴とする請求項24に記載の装置。 - 【請求項29】 前記所定サイズの閾値は、前記解析さ
れた文書ページ内の画素データのサイズの平均に基づい
ていることを特徴する請求項24に記載の装置。 - 【請求項30】 前記文字認識は、光学的文字認識であ
ることを特徴とする請求項24に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/751,677 US6512848B2 (en) | 1996-11-18 | 1996-11-18 | Page analysis system |
US08/751677 | 1996-11-18 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH10162150A true JPH10162150A (ja) | 1998-06-19 |
Family
ID=25023015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9315675A Withdrawn JPH10162150A (ja) | 1996-11-18 | 1997-11-17 | ページ解析システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US6512848B2 (ja) |
EP (1) | EP0843277A3 (ja) |
JP (1) | JPH10162150A (ja) |
Families Citing this family (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6104833A (en) * | 1996-01-09 | 2000-08-15 | Fujitsu Limited | Pattern recognizing apparatus and method |
KR19990086291A (ko) * | 1998-05-27 | 1999-12-15 | 윤종용 | 데이터를 다중매수로 인쇄하는 장치 및 방법 |
ATE238584T1 (de) * | 1999-09-30 | 2003-05-15 | Brother Ind Ltd | Datenverarbeitung um text und bilddaten auf einem substrat anzubringen |
US6867875B1 (en) * | 1999-12-06 | 2005-03-15 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for simplifying fax transmissions using user-circled region detection |
JP3756719B2 (ja) * | 2000-01-20 | 2006-03-15 | 理想科学工業株式会社 | 文書修飾装置及び画像処理装置 |
JP5033277B2 (ja) * | 2000-09-12 | 2012-09-26 | コニカミノルタビジネステクノロジーズ株式会社 | 画像処理装置および画像処理方法並びにコンピュータ読み取り可能な記録媒体 |
US20040017482A1 (en) * | 2000-11-17 | 2004-01-29 | Jacob Weitman | Application for a mobile digital camera, that distinguish between text-, and image-information in an image |
US20040194009A1 (en) * | 2003-03-27 | 2004-09-30 | Lacomb Christina | Automated understanding, extraction and structured reformatting of information in electronic files |
US20060010016A1 (en) * | 2003-05-01 | 2006-01-12 | Kossol Joyce L | System and method for reconciling an insurance payment with an insurance claim |
WO2004099918A2 (en) * | 2003-05-01 | 2004-11-18 | Pep Systems, Inc | System and method for reconciling an insurance payment with an insurance claim |
JP2005056315A (ja) * | 2003-08-07 | 2005-03-03 | Ricoh Co Ltd | 情報処理装置、プログラム及び記憶媒体 |
JP4903569B2 (ja) * | 2003-09-12 | 2012-03-28 | アクセス ビジネス グループ インターナショナル エルエルシー | サイトカインモジュレータ及び関係する使用法 |
EP1671235A4 (en) * | 2003-09-23 | 2007-10-24 | Amazon Com Inc | CUSTOMIZED RESEARCH BANK WITH HIGH-PERFORMANCE CAPABILITIES FOR ACCESSING ELECTRONIC TEXT IMAGES ON THE BASIS OF MEMBERSHIP OF THE CORRESPONDING PHYSICAL TEXT |
US7496560B2 (en) * | 2003-09-23 | 2009-02-24 | Amazon Technologies, Inc. | Personalized searchable library with highlighting capabilities |
US9769354B2 (en) | 2005-03-24 | 2017-09-19 | Kofax, Inc. | Systems and methods of processing scanned data |
US9137417B2 (en) | 2005-03-24 | 2015-09-15 | Kofax, Inc. | Systems and methods for processing video data |
US8885229B1 (en) | 2013-05-03 | 2014-11-11 | Kofax, Inc. | Systems and methods for detecting and classifying objects in video captured using mobile devices |
US20100254606A1 (en) * | 2005-12-08 | 2010-10-07 | Abbyy Software Ltd | Method of recognizing text information from a vector/raster image |
RU2309456C2 (ru) * | 2005-12-08 | 2007-10-27 | "Аби Софтвер Лтд." | Способ распознавания текстовой информации из векторно-растрового изображения |
US7840071B2 (en) * | 2006-12-12 | 2010-11-23 | Seiko Epson Corporation | Method and apparatus for identifying regions of different content in an image |
US8023770B2 (en) | 2008-05-23 | 2011-09-20 | Sharp Laboratories Of America, Inc. | Methods and systems for identifying the orientation of a digital image |
US8023741B2 (en) | 2008-05-23 | 2011-09-20 | Sharp Laboratories Of America, Inc. | Methods and systems for detecting numerals in a digital image |
US8352855B2 (en) * | 2009-01-02 | 2013-01-08 | Apple Inc. | Selection of text in an unstructured document |
US8774516B2 (en) | 2009-02-10 | 2014-07-08 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US9576272B2 (en) | 2009-02-10 | 2017-02-21 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US8879846B2 (en) | 2009-02-10 | 2014-11-04 | Kofax, Inc. | Systems, methods and computer program products for processing financial documents |
US9767354B2 (en) | 2009-02-10 | 2017-09-19 | Kofax, Inc. | Global geographic information retrieval, validation, and normalization |
US8958605B2 (en) | 2009-02-10 | 2015-02-17 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US9349046B2 (en) * | 2009-02-10 | 2016-05-24 | Kofax, Inc. | Smart optical input/output (I/O) extension for context-dependent workflows |
US9239952B2 (en) * | 2010-01-27 | 2016-01-19 | Dst Technologies, Inc. | Methods and systems for extraction of data from electronic images of documents |
US9152617B2 (en) * | 2010-03-11 | 2015-10-06 | A2iA S.A. | System and method for processing objects |
US8442998B2 (en) | 2011-01-18 | 2013-05-14 | Apple Inc. | Storage of a document using multiple representations |
US8543911B2 (en) | 2011-01-18 | 2013-09-24 | Apple Inc. | Ordering document content based on reading flow |
US10146795B2 (en) | 2012-01-12 | 2018-12-04 | Kofax, Inc. | Systems and methods for mobile image capture and processing |
US9483794B2 (en) | 2012-01-12 | 2016-11-01 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
TWI492166B (zh) | 2012-01-12 | 2015-07-11 | Kofax Inc | 行動影像擷取和處理的系統和方法 |
US9058580B1 (en) | 2012-01-12 | 2015-06-16 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
US9058515B1 (en) | 2012-01-12 | 2015-06-16 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
KR101992153B1 (ko) * | 2012-11-13 | 2019-06-25 | 삼성전자주식회사 | 문서 영상 인식 방법, 장치 및 이를 이용한 사진 촬영 방법 |
US9208536B2 (en) | 2013-09-27 | 2015-12-08 | Kofax, Inc. | Systems and methods for three dimensional geometric reconstruction of captured image data |
US9355312B2 (en) | 2013-03-13 | 2016-05-31 | Kofax, Inc. | Systems and methods for classifying objects in digital images captured using mobile devices |
EP2973226A4 (en) | 2013-03-13 | 2016-06-29 | Kofax Inc | CLASSIFICATION OF OBJECTS ON DIGITAL IMAGES RECORDED BY MOBILE DEVICES |
US20140316841A1 (en) | 2013-04-23 | 2014-10-23 | Kofax, Inc. | Location-based workflows and services |
WO2015073920A1 (en) | 2013-11-15 | 2015-05-21 | Kofax, Inc. | Systems and methods for generating composite images of long documents using mobile video data |
CN105830091A (zh) * | 2013-11-15 | 2016-08-03 | 柯法克斯公司 | 使用移动视频数据生成长文档的合成图像的系统和方法 |
JP2017514225A (ja) * | 2014-04-15 | 2017-06-01 | コファックス, インコーポレイテッド | コンテキスト依存型ワークフローのためのスマート光入出力(i/o)拡張部 |
US9760788B2 (en) | 2014-10-30 | 2017-09-12 | Kofax, Inc. | Mobile document detection and orientation based on reference object characteristics |
US10242285B2 (en) | 2015-07-20 | 2019-03-26 | Kofax, Inc. | Iterative recognition-guided thresholding and data extraction |
US10467465B2 (en) | 2015-07-20 | 2019-11-05 | Kofax, Inc. | Range and/or polarity-based thresholding for improved data extraction |
US9779296B1 (en) | 2016-04-01 | 2017-10-03 | Kofax, Inc. | Content-based detection and three dimensional geometric reconstruction of objects in image and video data |
JP6173542B1 (ja) * | 2016-08-10 | 2017-08-02 | 株式会社Pfu | 画像処理装置、画像処理方法、および、プログラム |
US11062176B2 (en) | 2017-11-30 | 2021-07-13 | Kofax, Inc. | Object detection and image cropping using a multi-detector approach |
CN108647680B (zh) * | 2018-04-28 | 2021-11-12 | 北京盒子鱼教育科技有限公司 | 图像定位框检测方法和装置 |
GB2577989B (en) * | 2018-09-30 | 2021-03-24 | Lenovo Beijing Co Ltd | Information processing method and electronic device |
US11816910B2 (en) * | 2020-07-07 | 2023-11-14 | Smart Engines Service, LLC | Approximate modeling of next combined result for stopping text-field recognition in a video stream |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4379282A (en) | 1979-06-01 | 1983-04-05 | Dest Corporation | Apparatus and method for separation of optical character recognition data |
JPH07107694B2 (ja) | 1984-08-31 | 1995-11-15 | 株式会社日立製作所 | 文書処理装置 |
JPS63116569A (ja) | 1986-11-04 | 1988-05-20 | Canon Inc | 画像処理システム |
JPH01183784A (ja) | 1988-01-19 | 1989-07-21 | Toshiba Corp | 文書画像処理装置 |
US5131053A (en) * | 1988-08-10 | 1992-07-14 | Caere Corporation | Optical character recognition method and apparatus |
US5101448A (en) | 1988-08-24 | 1992-03-31 | Hitachi, Ltd. | Method and apparatus for processing a document by utilizing an image |
US5129012A (en) | 1989-03-25 | 1992-07-07 | Sony Corporation | Detecting line segments and predetermined patterns in an optically scanned document |
JP2812982B2 (ja) | 1989-04-05 | 1998-10-22 | 株式会社リコー | 表認識方法 |
JPH0816918B2 (ja) | 1989-04-18 | 1996-02-21 | シャープ株式会社 | 行抽出方法 |
JP2644041B2 (ja) | 1989-05-08 | 1997-08-25 | キヤノン株式会社 | 文字認識装置 |
JP2940936B2 (ja) | 1989-06-06 | 1999-08-25 | 株式会社リコー | 表領域識別方法 |
JPH03290774A (ja) | 1990-04-06 | 1991-12-20 | Fuji Facom Corp | 文書画像の文章領域抽出装置 |
JPH0490083A (ja) | 1990-08-03 | 1992-03-24 | Canon Inc | 文字認識装置 |
US5101439A (en) | 1990-08-31 | 1992-03-31 | At&T Bell Laboratories | Segmentation process for machine reading of handwritten information |
WO1992006448A1 (de) | 1990-09-27 | 1992-04-16 | Cgk Computer Gesellschaft Konstanz Mbh | Verfahren zur extrahierung von einzelzeichen aus rasterbildvorlagen einer gelesenen hand- oder maschinenschriftlichen zeichenfolge freier teilung |
KR930002349B1 (ko) | 1990-12-29 | 1993-03-29 | 주식회사 금성사 | 압축영상의 문자열 분리방법 |
JPH04248687A (ja) | 1991-01-23 | 1992-09-04 | Internatl Business Mach Corp <Ibm> | 文書画像のレイアウト解析方法及びシステム |
US5307422A (en) | 1991-06-25 | 1994-04-26 | Industrial Technology Research Institute | Method and system for identifying lines of text in a document |
US5351314A (en) | 1991-10-04 | 1994-09-27 | Canon Information Systems, Inc. | Method and apparatus for image enhancement using intensity dependent spread filtering |
US5335290A (en) | 1992-04-06 | 1994-08-02 | Ricoh Corporation | Segmentation of text, picture and lines of a document image |
US5588072A (en) | 1993-12-22 | 1996-12-24 | Canon Kabushiki Kaisha | Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks |
-
1996
- 1996-11-18 US US08/751,677 patent/US6512848B2/en not_active Expired - Fee Related
-
1997
- 1997-10-13 EP EP97308087A patent/EP0843277A3/en not_active Withdrawn
- 1997-11-17 JP JP9315675A patent/JPH10162150A/ja not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
EP0843277A2 (en) | 1998-05-20 |
US6512848B2 (en) | 2003-01-28 |
US20010012400A1 (en) | 2001-08-09 |
EP0843277A3 (en) | 1998-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH10162150A (ja) | ページ解析システム | |
US5335290A (en) | Segmentation of text, picture and lines of a document image | |
JP7013182B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP4427342B2 (ja) | 文書分析情報を使用して文書を再フォーマット化する方法及び製造物 | |
US8614838B2 (en) | Image processing apparatus and image processing method | |
US5452374A (en) | Skew detection and correction of a document image representation | |
JP5274305B2 (ja) | 画像処理装置、画像処理方法、コンピュータプログラム | |
US8112706B2 (en) | Information processing apparatus and method | |
US7593961B2 (en) | Information processing apparatus for retrieving image data similar to an entered image | |
US8320019B2 (en) | Image processing apparatus, image processing method, and computer program thereof | |
US8412705B2 (en) | Image processing apparatus, image processing method, and computer-readable storage medium | |
US6711292B2 (en) | Block selection of table features | |
US20090274369A1 (en) | Image processing device, image processing method, program, and storage medium | |
JP2011192145A (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP4261988B2 (ja) | 画像処理装置及び方法 | |
JP4730775B2 (ja) | 画像処理装置 | |
US8181108B2 (en) | Device for editing metadata of divided object | |
US20090290797A1 (en) | Image processing for storing objects separated from an image in a storage device | |
US20150254884A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
JPH08180068A (ja) | 電子ファイリング装置 | |
JPH08202859A (ja) | 電子ファイリング装置及びその方法 | |
JPH05128307A (ja) | 文字認識装置 | |
JPH0934986A (ja) | 画像処理装置及び方法 | |
JPH0433079A (ja) | 表処理方式 | |
JPH05217027A (ja) | 文字認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041117 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041117 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20041117 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20041117 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20051005 |