JPH0863548A - 画像処理方法及び装置 - Google Patents

画像処理方法及び装置

Info

Publication number
JPH0863548A
JPH0863548A JP7089441A JP8944195A JPH0863548A JP H0863548 A JPH0863548 A JP H0863548A JP 7089441 A JP7089441 A JP 7089441A JP 8944195 A JP8944195 A JP 8944195A JP H0863548 A JPH0863548 A JP H0863548A
Authority
JP
Japan
Prior art keywords
image
row
pixel
character
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7089441A
Other languages
English (en)
Other versions
JP4065460B2 (ja
Inventor
Aruuhatsusen Hatsusen
アル−ハッセン ハッセン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JPH0863548A publication Critical patent/JPH0863548A/ja
Application granted granted Critical
Publication of JP4065460B2 publication Critical patent/JP4065460B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/155Removing patterns interfering with the pattern to be recognised, such as ruled lines or underlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

(57)【要約】 (修正有) 【目的】文字認識処理を行うに先立って好適な前処理を
実行する。 【構成】ドキュメントのグレイスケール画像の歪みを補
正し、グレイスケール画像を閾値と比較することによ
り、歪み補正されたグレイスケール画像から2値画像を
生成し、2値画像をセグメンテーション処理して個々の
文字の位置及び形状を決定し、個々の文字について抽出
されたグレイスケール画像情報を認識処理して文字の識
別を決定し、文字の識別結果を格納する。また、画像に
おける下線付きの文字から下線を除去し、2値画像内の
連続成分を得て、テキストタイプの連続成分を非テキス
トタイプの連続成分からフィルタリングするように連続
成分に複数セットのルールを適用し、テキストタイプの
連続成分のみを文字認識処理する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は光学文字認識システムに
関し、特にドキュメント画像(images of documents)
を走査してコンピュータへ格納する方法及び装置であっ
て、ドキュメント画像をテキストブロック及び非テキス
トブロックに区分し、テキストブロックにおける文字の
識別(identity)を決定する方法及び装置に関するもの
である。
【0002】
【従来の技術】近年、書類になったドキュメントを走査
してコンピュータ化画像を形成し、テキスト領域内の画
像を分析して、テキストデータ内の個々の文字を認識
し、認識された文字に対応する、コンピュータによる読
み取りが可能な文字コードのファイルを形成することが
できるようになった。そうしたファイルはワードプロセ
ッシング、データ圧縮、または他の情報処理プログラム
で操作することが可能であり、また、照会ベース(quer
y-based)のテキストデータのサーチに応じたドキュメ
ント画像の検索にも使用することが可能である。これよ
りそうしたシステムを「文字認識システム」と称する
が、これらのシステムは、タイプの打ち直しや、書類に
なったドキュメントからテキストデータを再入力する必
要をなくすことができるので有益である。例えば、ファ
クシミリにより送信されたり、マイクロフィルムから、
または写真複写により再生されたドキュメントに認識処
理を行ない、文字の文字コード(例えば、ASCII文
字コード)やドキュメントの数字を含むコンピュータテ
キストファイルを形成することが可能である。
【0003】従来の文字認識システムは書類になってい
るドキュメントを走査してドキュメントの2値画像を形
成する。「2値画像」とは、画像の各画素が2値のゼ
ロ、つまりドキュメントの白領域を表す画素であるか、
2値の1、つまり黒領域を表す画素のどちらかである画
像である。そして、2値画像(または「白黒画像(blac
k-and-white image)」) に対し、認識処理を行な
い、ドキュメントのテキスト領域内の文字の識別を決定
する。
【0004】最近、書類形態のドキュメントを走査して
ドキュメントのグレイスケール画像を形成すれば、認識
精度が大幅に向上することが判明している。「グレイス
ケール」とは、ドキュメントの各画素が、2値のゼロで
も2値の1でもなく、2つ以上の強度レベルのうちの1
つ、例えば4レベル、16レベル、256レベルなどの
強度レベルのうちの1つにより表される画像のことであ
る。そうしたシステムは、本出願人による米国特許出願
第08/112、133号「遷移グラウンドデータに基
づくOCR分類(OCR Classification Based On Transi
tion Group Data)」(1993年8月26日出願)に
記載されており、その全内容は参照により本願に含まれ
ているものとする。幾つかの例では、2値画像よりもグ
レイスケール画像を用いた方が認識精度が向上してお
り、ドキュメントの1ページに付き1つのエラーが50
0ページに付き1以下のエラーと減少している。
【0005】図1は2値画像とグレイスケール画像の相
違を表しており、上述のような認識精度がいかにして得
られるかを理解するための図である。図1(a)は、文
字「a」の上に画素解像度を表すグリッド1が重ねられ
た状態を表している。文字「a」は、グリッド1を用
い、CCD列など感光性の素子で走査される。例えば、
グリッド1は400ドット・パー・インチ(dot per in
ch) (dpi)の解像度を表している。図1(b)に示さ
れるように、各画素について、文字「a」がその画素を
有効にする(activate)のに十分な程度にその画素に対
応する感光性素子を暗くしているかどうかに基づいて、
各画素に2値の1または2値のゼロを割り当てることに
より、文字「a」の2値画像が形成される。こうして、
図1(a)の画素2aは文字「a」である黒い領域内に
完全に存在しているので、図1(b)の黒画素2bとな
る。一方、画素3aは文字領域から完全にはずれてお
り、白画素3bとなる。画素4aは部分的に文字領域内
であるが有効な文字部分の画素としては不十分に文字領
域にかかっているため、白画素4bとなる。一方、画素
5aは文字部分の画素として有効な画素になるのに十分
に文字領域内に含まれており、黒画素5bとなる。
【0006】図1(c)は同一の文字「a」のグレイス
ケール画像を表している。図1(c)に示されるよう
に、完全に文字領域内の画素(2a)や完全に文字領域
外の画素(3a)は、図1(b)と同様の完全な黒や白
のグレイスケールレベルの画素である。一方、部分的に
文字領域内であった画素は領域範囲内に相当する量を表
すグレイレベルを割り当てられる。こうして、4レベル
のグレイスケール画像を表す図1(c)において、画素
4c及び5cは、夫々の領域内の量に基づいて、画素4
cは低グレイスケール値を与えられ、画素5cはより高
いグレイスケール値を与えられている。こうして、走査
プロセスの所産により、図1(a)に示されるような本
来白黒のドキュメントを走査し、基本的には文字エッジ
に、文字領域内の量に依存して割り当てられたグレイス
ケール値を持つ、図1(c)のようなグレイスケール画
像とすることが出来る。
【0007】図1(b)、1(c)を比較すると、図1
(c)には付加的な細かい部分が、特に文字エッジに存
在することがわかる。この付加部分は基本的には認識精
度を向上させるためのものである。
【0008】しかし、個々のグレイスケール文字画像を
認識処理に送るために、個々の文字のグレイスケール画
像をどのようにドキュメントのグレイスケール画像から
抽出するかという点に問題がある。さらに詳しくは、認
識精度は、1文字が始まる場所と、次の1文字が終わる
場所を決定する能力に多いに依存しているため、文字の
グループよりも単一の文字に対して認識処理を行なって
いる。
【0009】図2はこの状況を表すもので、代表的なド
キュメントの1ページを示している。図2において、ド
キュメント10は2欄形式になっている。ドキュメント
は、タイトルに適切な大きいフォントサイズの情報を含
む、タイトルブロック12と、カラーまたは中間調の絵
を含むピクチャーブロック13と、個々の文字の行のテ
キスト情報を含むテキストブロック14と、非テキスト
であるグラフィック画像を含むグラフィックブロック1
5と、テーブルのテキストまたは非テキストのボーダー
(borders)またはフレームに囲まれた数値情報を含む
テーブルブロック16と、説明分(キャプション)に適
切な小さいフォントサイズの情報であって、通常グラフ
ィックまたはテーブル情報のブロックに関連している、
キャプションブロック17から成っている。
【0010】認識処理に先立ち、ドキュメントのグレイ
スケール画像を形成するために、ドキュメント10を走
査する際、グレイスケール画像のどの領域がテキスト領
域で、どの領域が非テキスト領域であるかを決めること
と、さらに、テキスト領域に対して、どこに個々の文字
が位置しているかを決めることが必要である。以降この
処理を「セグメンテーション処理(segmentation proce
ssing)」と称する。セグメンテーション処理により位
置付けられた後に、個々の文字に認識処理を行ない、文
字を識別して文字のテキストファイルを形成することが
できる。
【0011】従来の2値画像に対するセグメンテーショ
ン処理技術は、一般に正確にテキストを非テキスト領域
から分離できず、テキスト領域内の個々の文字の位置を
正確に識別できないという点において不十分であった。
さらに、グレイスケール画像に対しては、現在のところ
セグメンテーション処理技術は知られていない。
【0012】
【発明が解決しようとする課題】文字認識処理において
は、画像データに対して実際に認識を行うに際して、文
字の回転の補正や、文字の切り出し等の前処理が必要で
ある。この前処理は、正確な文字認識を行う上で重要な
ものであり、適切な前処理が望まれている。
【0013】本発明は上記の課題に鑑み、ドキュメント
画像の回転による歪みを効果的かつ効率的に補正するこ
とを可能とする画像処理装置を提供することを目的とす
る。
【0014】また、本発明の他の目的は、グレイスケー
ル画像を2値化するに際して、適切な閾値を設定するこ
とが可能な画像処理装置を提供することにある。
【0015】また、本発明の他の目的は、ドキュメント
画像中の下線付の文字より下線を除去するにおいて、メ
モリの使用量や処理時間を低減することが可能な画像処
理装置を提供することにある。
【0016】また、本発明の他の目的は、画像より連続
成分を抽出するに際して、メモリの使用量や処理時間を
低減することが可能な画像処理装置を提供することにあ
る。
【0017】また、本発明の他の目的は、抽出された連
続成分についてテキストであるか非テキストであるかを
効率的に検出することが可能な画像処理装置を提供する
ことにある。
【0018】
【課題を解決するための手段】及び
【作用】上記の目的を達成する本発明の画像処理装置
は、文字を含むドキュメントの画像を歪み補正する画像
処理装置であって、前記画像の歪み角度を測定する測定
手段と、前記画像を回転変換して歪み角度を約0度に縮
小する回転変換手段と、前記画像の列を画素移動して歪
み角度を約0度に縮小する画素移動手段と、測定された
歪み角度が所定の限度より大きい場合に前記回転変換手
段により歪み角度を縮小させ、前記測定された歪み角度
が所定の限度より小さい場合に前記画素移動手段により
歪み角度を縮小させる判定手段とを備えることを特徴と
する。
【0019】また、他の目的を達成するための本発明の
画像処理装置は、閾値処理を行なってグレイスケール画
像を2値画像に変換する画像処理装置であって、前記グ
レイスケール画像の画素の明暗度のヒストグラムを形成
する手段と、少なくとも1つのヒストグラムグループ離
れたトップの2グループを識別する識別手段と、前記ト
ップの2グループ間の中間の距離において全体的な閾値
を計算する計算手段と、前記グレイスケール画像の各画
素を2値化するために各画素を前記全体的な閾値と比較
する比較手段と、前記グレイスケール画像に対応する2
値画像を出力する出力手段とを備える。
【0020】また、他の目的を達成するための本発明の
画像処理装置は、下線の付いた文字の画像を下線から分
離する画像処理装置であって、前記画像を行毎に横断走
査する横断走査手段と、前記横断走査手段によって横断
走査された各行について、水平画素ランのランレングス
を計算する計算手段と、前記横断走査手段によって横断
走査された現在の行のランレングスを前行のランレング
スと比較する比較手段と、前記横断走査手段に前記画像
を上から下へ行毎に横断走査させ、前記比較手段が現在
の行のランレングスが前行より所定値を越えて増加して
いることを示す場合には、前記画像を水平に分割させる
第1の処理手段と、前記横断走査手段に前記画像を下か
ら上へ行毎に横断走査させ、前記比較手段が以前に隣接
する水平分割が行なわれた領域でランレングスが所定値
を越えて増加していることを示す場合には、前記画像を
垂直に分割して前記第1の処理手段により行なわれた水
平分割を再結合させる第2の処理手段とを備えることを
特徴とする画像処理装置。
【0021】更に、他の目的を達成するための本発明の
画像処理装置は、画像に対する画素データにおける連続
成分を識別する画像処理装置であって、連続成分のリス
トを開いて前記リストが空白になるように初期化する手
段と、前記画像を行毎に横断走査する横断走査手段と、
前記画像の現在の行における全水平画素セグメントを識
別する識別手段と、現在の行の水平画素セグメントを前
行の水平画素セグメントと比較して、現在の行の水平画
素セグメントが前行のオープン領域に隣接している第1
のケースが存在するかどうか、現在の行の水平画素セグ
メントが前行の水平セグメントに隣接している第2のケ
ースが存在するかどうか、現在の行の水平画素セグメン
トが連続成分のリストの内の2つまたはそれ以上の連続
成分にまたがっている第3のケースが存在するかどう
か、前行の水平画素セグメントが現在の行のオープン領
域に隣接している第4のケースが存在するかどうかを判
定する比較手段と、前記第1のケースが存在する場合
に、新しい連続成分をスタートする手段と、前記第2の
ケースが存在する場合に、連続成分のリストにおける現
在の連続成分を更新する手段と、前記第3のケースが存
在する場合に、現在のまたがって接続された成分を合併
する手段と、前記第4のケースが存在する場合に、連続
成分のリストにおける連続成分を閉じる手段と、前記画
像が横断走査された後に前記連続成分のリストを出力す
る手段とを備える。
【0022】更に、他の目的を達成するための本発明の
画像処理装置は、文字画像と非文字画像の両方を含む画
像における文字位置を決定するセグメンテーション装置
であって、前記画像における連続成分の位置を決定する
位置決定手段と、前記連続成分の各々の画像属性を獲得
する獲得手段と、文字画像を非文字画像から分離するた
めに前記獲得手段で獲得された画像属性に基づいて各連
続成分をフィルタリングするフィルタリング手段とを備
え、前記フィルタリング手段は各連続成分について、前
記画像属性に複数セットのルールを連続的に適用する手
段を含むことを特徴とする。
【0023】本発明の好ましい一態様によれば、セグメ
ンテーション処理技術を含む、向上されたグレイスケー
ル文字認識システムが提供される。
【0024】本発明によれば、グレイスケール画像に歪
み補正を行なって歪みをなくし、歪み補正されたグレイ
スケール画像を閾値処理することによって2値画像を得
て、得られた2値画像内の個々の文字の位置、個々の文
字の形状を決定するためにセグメンテーション処理を行
ない、2値画像の位置と形状を用いて、各文字のグレイ
スケール画像をグレイスケール画像から抽出することに
より、ドキュメントのグレイスケール画像における個々
の文字を抽出し、認識処理を行う。そして、抽出された
各文字のグレイスケール画像に認識処理を行なう。
【0025】このように、本発明の文字認識システム
は、ドキュメントを走査してそのドキュメントのグレイ
スケール画像を得て、スキャンされたグレイスケール画
像に歪み補正を行い、グレイスケール画像と閾値とを比
較して歪み補正されたグレイスケール画像から2値画像
を生成することにより、文字が形成されているドキュメ
ントにおける、それらの文字を識別する。2値画像をセ
グメンテーションによって分割し、2値画像内の個々の
文字の位置と、個々の文字の形状を決定する。2値画像
における文字の位置と形状に基づいて、個々の文字に対
するグレイスケール画像情報をグレイスケール画像から
抽出する。そして、抽出されたグレイスケール画像に対
して認識処理を行ない、文字の識別を決定し、その文字
の識別をコンピュータに読み取れるファイルに格納す
る。
【0026】本発明による歪み補正は、グレイスケール
画像の歪み角度を測定して、測定されたグレイスケール
画像の歪み角度を±10度などの所定の限度値と比較す
ることによって実行する。歪み角度が所定の限度値より
も大きい場合は、画像の数学的回転変換により歪み角度
を約0度に縮小することにより画像の歪み補正を行な
う。一方、歪み角度が所定限度値より小さい場合は、画
像の列を画素移動して歪み角度を縮小することにより画
像の歪み補正を行なう。画像の列の画素移動は、画像の
文字が画素移動により変歪しないように、文字間の空白
領域で行なうことが好ましい。
【0027】グレイスケール画像の各画素を2値化する
ために各画素を全体的な閾値と比較することによって、
グレイスケール画像から2値画像を得る。全体的な閾値
は、グレイスケール画像の画素の明暗度のヒストグラム
を形成し、ヒストグラムが8グループなど複数の画素明
暗度のグループから成るようにして選択する。グループ
の近接度に基づいて、ヒストグラムにおいて少なくとも
1ヒストグラムグループ離れたトップの2グループを識
別する。全体的な閾値は、グループ間の例えば2分の1
など中間の距離で計算する。
【0028】本発明によるセグメンテーション処理は、
画像における下線付きの文字の下線を除去し、その処理
を行なった後の画像内の連続成分を得て、各連続成分に
ついて物理的な画像属性を特定し、テキストの画素を含
む連続成分と非テキストの画素を含む連続成分とを区別
するように複数のルールを画像属性に順次適用すること
により行なう。
【0029】より詳しくは、画像を上から下へ画素行毎
に横断走査して下線付きの文字から下線を除去、あるい
はより正確には分離し、各画素行について、水平画素ラ
ンのランレングスを計算する。各画素行のランレングス
を直前の画素行のランレングスと比較して、現在の画素
行のランレングスが前画素行のランレングスより所定値
を越えて増加していると判断した場合には画像を水平に
分割する。分割された画像を再び横断走査するが、今度
は下から上へと画素行毎に横断走査を行なう。現在の画
素行について再びランレングスを計算し、前画素行のラ
ンレングスと比較する。以前に水平分割が行なわれたの
と同じ領域で現在の画素行のランレングスが前画素行の
ランレングスより所定値を越えて増加していると判断し
た場合には、画像を垂直に分割して以前の水平分割を再
結合する。さらに、文字に相対的に以前の水平分割が行
なわれた領域を検出して、水平分割が文字のエッジ付近
で行なわれていると判断した場合は、垂直分割よりも斜
めの分割を行なうことにより、「j」または「g」など
の幾つかの文字の形状を保存することも可能である。
【0030】この上から下、それから下から上へ向かう
画素行毎の画像の横断走査により、画像の2つの画素行
の情報のみを比較するだけで済み、下線付きの文字を下
線から分離するのに必要な処理時間を減らすことができ
る。さらに、水平及び垂直分割が全て同時的に行なわれ
るため、画像のコピーを1つだけメモリに格納すればよ
く、メモリの記憶容量を減らすことができる。
【0031】本発明による連続成分の分析もまたメモリ
容量と処理時間を従来技術と比較して減らすことができ
る。詳しくは本発明による連続成分の分析では、一度に
画像の2列のみをメモリに格納すればよく、画像の走査
入力またはメモリからの読み出しに従って画素行単位に
行なうことができる。さらに、本発明による連続成分の
分析では、何度も画素データにアクセスするのではな
く、1度だけのアクセスで十分であり、処理時間が減少
する。
【0032】さらに詳しくは、本発明による連続成分の
分析では、連続成分のリストを開いて空(null)または
空白のリストに初期化する。画像を画素行毎に、好まし
くは下から上へ横断走査し、画像データの現在の画素行
の全水平画素セグメントを識別する。現在の画素行の水
平セグメントを前画素行の水平セグメントと比較して4
つの異なるケースのいずれかあるいは全てが存在するか
どうかを判定する。つまり、第1のケースは現在の画素
行のセグメントが前画素行のオープン領域に隣接してい
る場合であり、この場合は連続成分のリストにおいて新
らしい連続成分をスタートする。第2のケースは現在の
画素行の水平セグメントが前画素行の水平セグメントに
隣接している場合であり、この場合は連続成分のリスト
における現在の連続成分のトレース(trace)を更新す
る。第3のケースは現在の画素行のセグメントが連続成
分のリストにおいて少なくとも2つの連続成分にまたが
っている場合であり、この場合はリストにおいてまたが
った連続成分を合併する。第4のケースは前画素行の水
平セグメントが現在の画素行のオープン領域に隣接して
いる場合であり、この場合は連続成分のリストの連続成
分のトレースを閉じる。画像全体の画素行毎の横断走査
を終えると、連続成分のリストを完成して出力する。
【0033】画像の連続成分を得ると、各連続成分につ
いて連続成分の周囲、高さ及び幅、画素密度などの画像
属性を得る。テキストタイプの連続成分を非テキストタ
イプの連続成分からフィルタリングするように、各連続
成分の物理的画像属性に複数セットのルールを適用す
る。ルールは、テキストタイプ、非テキストタイプの連
続成分の区分が決定しやすいものから先に適用し、区分
の決定が困難なものを後に適用するような順になってい
る。後半のルールを適用する時には、タイプが未知のま
まの連続成分がより少なくなっている。
【0034】テキストタイプの連続成分を非テキストタ
イプの連続成分から分離してしまうと、テキストタイプ
の連続成分について上記のような文字認識処理が行なわ
れる。さらに、上述のように文字のグレイスケール画像
を認識処理するだけではなく、さらに文字の2値画像を
認識処理することによっても、認識精度を向上すること
が可能である。グレイスケール画像及び2値画像の夫々
から決定された識別の不一致は、文字の2値画像のアス
ペクト比や画素密度など実際の画像属性に基づいて解決
する(または「明確にする(disambiguated)」)。
【0035】文字のフォント特性(font characteristi
cs)、例えば、文字のスペースが均一であるか、プロポ
ーショナルであるか、サンセリフ(sans-serif)(セリ
フという文字のヒゲ飾りがない活字書体)であるか、を
決定することでも、さらに認識精度を上げることができ
る。フォント特性に基づいて、複数の認識処理技術から
1つを選択し、各文字が抽出される毎に、上述のように
選択された認識処理技術に従って認識処理をおこなう。
【0036】ドキュメント内の1つのテキストを識別し
てコンピュータ読み取り可能なファイルとして格納して
しまうと、そのテキストファイルはドキュメント画像を
検索するのに使用される。例えば照会ベースのサーチを
用いて対応するドキュメント画像を検索するのに使用さ
れる。
【0037】認識処理技術は普通の人間の知覚に必要な
解像度よりもかなり高い解像度を必要とするため、本発
明の1態様は、ドキュメント格納及び検索システムであ
って、従来のシステムと比較して、必要な格納容量を縮
小できるシステムに向けられている。この発明の1態様
によれば、ドキュメント格納及び検索システムは、ドキ
ュメントのテキストを認識処理するのに適切な第1の解
像度でドキュメントを走査してドキュメントのグレイス
ケール画像を形成する。そしてドキュメントのテキスト
に認識処理を行ない、テキストのコンピュータ読み取り
可能なファイルを作成し、グレイスケール画像の解像度
を低下させて、第1の解像度より低い、視覚や画像再生
に適切な第2の解像度にする。この低下した解像度の画
像のみをコンピュータ読み取り可能なファイルと関連さ
せて格納して、後で照会ベースのサーチを用いて画像が
検索されるようにする。
【0038】以上の構成により、低解像度の画像のみを
格納するので、メモリの記憶容量を縮小することがで
き、より多くの画像を格納することができる。さらに、
画像データ量がより小さいので処理速度を上げることが
可能である。また画像データを移動したり、圧縮または
伸張したり、その他の処理をさらに高速に行なうことが
可能である。
【0039】上述の簡潔な要約は本発明の本質を迅速に
理解するためのものである。添付の図面に係わる以下の
好適な実施例の説明を参照すれば、発明のより完全な理
解が得られるであろう。
【0040】
【実施例】本発明の代表的な1実施例の構成は図3、
4、5に示され、この代表的な実施例の動作は残りの図
面に説明される通りである。本実施例は「パーソナル画
像処理コンピュータシステム(personal imaging compu
ter system)」すなわちドキュメントの走査、格納及び
処理の装置を含む単一のスタンドアロン装置であって、
コンピュータ化したローカルエリアネットワークまたは
ワイドエリアネットワークと接続可能な装置である。相
当する汎用構成要素は以下に説明される装置で代用する
ことができる。例えば、汎用のプログラム可能なコンピ
ュータを、適切な周辺機器で代用することが可能であ
る。
【0041】[1.1 パーソナル画像処理コンピュー
タシステム]図3は本実施例に係わるグレイスケール文
字認識システムを含むパーソナル画像処理システム
(「PICS」)の外観の部分切取図である。図3に示
すように、PICS装置20は、1つのハウジング内
に、積み重なった書類であるドキュメントが載置され1
シートづつドキュメントスキャナ部22を通るように供
給されるドキュメント供給部21を備えている。ドキュ
メントスキャナ部22は、好ましくはデュアルサイドス
キャナから成り、CCDラインセンサ列を用いて各ドキ
ュメントページを走査し、ドキュメントのグレイスケー
ル画像を生成する。走査の後に、ドキュメントページは
排紙トレー23へ排出され、トレー上に積み重ねられ
る。同様にペーパー格納トレー25内の(または不図示
のペーパーカートリッジ)空白のドキュメントシートが
PICS装置20によりプリンタ部26へ供給される。
プリンタ部26は空白のシート上にトナー像を形成し、
新しくプリントされたドキュメントを排紙トレー27へ
排出する。
【0042】PICS装置20はさらにファクシミリ/
モデムインターフェイス(図5)を備えており、このイ
ンターフェイスによりPICS装置20は通常の音声/
データ電話回線と接続して、遠隔のコンピュータとデー
タ通信やファクシミリ通信を行ない、オペレータはハン
ドセット30を介して通常の音声通信を行なうことがで
きる。ローカルエリアネットワーク31及びワイドエリ
アネットワーク32にもインターフェイスが設けられて
おり、ユーザがそれらのネットワークを介して遠隔のワ
ークステーションと通信できるようになっている。
【0043】コントロールパネル34ではオペレータに
よる制御と、表示が行なわれる。コントロールパネル3
4は、VGA液晶表示パネルなどのフラットパネル表示
スクリーン35を備えている。オペレータが表示スクリ
ーン35に表示されたカーソルを操作できるように、ま
た表示スクリーン上のオブジェクトを選択できるよう
に、トラックボール36が設けられている。33の位置
に通常の電話キーが設けられ、37の位置に、従来のフ
ァクシミリ制御ボタンが設けられ、38の位置にスター
ト/ストップボタンが設けられている。39の位置にプ
ログラム可能な機能キーが設けられており、オペレータ
がPICS装置20の様々な画像処理動作を制御できる
ようになっている。
【0044】PICS装置20は汎用コンピュータ(図
5に詳細を示す)を備えており、このコンピュータによ
り、オペレータはドキュメントを走査し、ドキュメント
にセグメンテーション処理や認識処理を行なってドキュ
メントのテキスト領域に対応するテキストファイルを作
成し、ドキュメント画像をプリントし、トラックボール
36と表示スクリーン35を介してドキュメント画像や
テキストファイルを操作したり、ドキュメントや画像を
ファクシミリによって送受信する。
【0045】ワードプロセッシング、画像処理、スプレ
ッドシート処理などの他の情報処理技術は、PICS装
置20にロードされているソフトウェアに従って、オペ
レータが実行する。このように、PICS装置20はオ
ペレータに、他の情報処理プロジェクトのための汎用コ
ンピュータシステムも備えた強力なパーソナル画像処理
コンピュータシステムを提供する。
【0046】[1.2 コンピュータ化したネットワー
ク接続]ローカルエリアネットワーク31及び/または
ワイドエリアネットワーク32と接続すると、PICS
装置20はコンピュータ化したネットワークのユーザに
上述の機能(capabilities)を提供する。さらに詳しく
は、図4に示すように、PICS装置20はローカルエ
リアネットワーク31に接続することができる。ワーク
ステーション40などの複数のワークステーションは、
同様にローカルエリアネットワーク31に接続されてお
り、ネットワークオペレーティングシステムの制御によ
り、PICS装置20の画像処理機能にアクセスするこ
とができる。ワークステーションの1つ、例えばワーク
ステーション43を、ネットワーク管理者が使用するよ
うに指定することができる。ローカルエリアネットワー
ク31にはファイルサーバー41が接続され、ネットワ
ークディスク42に格納されているファイルのアクセス
を管理している。プリントサーバー44は、プリンタ群
45にプリントサービスを供給する。他の不図示の周辺
機器はローカルエリアネットワーク31に接続されてい
る。この構成により、ワークステーション40の内の1
つのオペレータは、PICS装置20を用いてドキュメ
ントを走査し、ドキュメント画像にセグメンテーション
処理及び認識処理を行なってドキュメントのテキスト領
域に対応するテキストファイルを得て、ドキュメント画
像とそれに関連するテキストファイルをネットワークデ
ィスク42に格納し、ドキュメント画像及びそのテキス
トファイルを検索して、必要であればワークステーショ
ン40で操作し、原稿の、あるいは操作されたドキュメ
ント画像及びテキストファイルをプリンタ45の内の1
つでプリントアウトすることができる。
【0047】典型的な例では、31のようなローカルエ
リアネットワークは、建物内の1つの階または隣接する
複数の階において完全にローカル化されたユーザのグル
ープに使用される。別の建物や別の州に分かれるなど、
ユーザが互いに離れると、ワイドエリアネットワークを
作ってもよい。このネットワークは主として幾つかのロ
ーカルエリアネットワークの集合であり、全てのローカ
ルエリアネットワークは高速ISDN電話回線などの高
速ディジタル回線により接続されている。こうして、図
4に示すように、ローカルエリアネットワーク31、4
6、48は、モデム/トランスポンダ49及びバックボ
ーン50を介してワイドエリアネットワークを形成して
いる。各ローカルエリアネットワークはそれぞれのワー
クステーションを有し、通常必要でなくともそれぞれフ
ァイルサーバとプリントサーバを有している。このよう
に、図4に示すように、ローカルエリアネットワーク4
6は複数のワークステーション51、ファイルサーバ5
2、ネットワークディスク54、プリントサーバ55、
及び複数のプリンタ56を有している。一方ローカルエ
リアネットワーク48は、複数のワークステーション5
7のみを有している。ワイドエリアネットワーク接続に
より、ローカルエリアネットワーク31、46、48の
いずれの装置も他のローカルエリアネットワークの装置
の機能にアクセスすることができる。こうして、例え
ば、複数のワークステーション57の1つが、バックボ
ーン50とモデム/トランスポンダ49を介してPIC
S装置20の画像処理機能にアクセスすることができ
る。同様に、複数のワークステーション51の1つがネ
ットワークワークディスク42からドキュメント画像を
検索して、その画像に対しPICS装置20上でセグメ
ンテーション及び認識処理を行ない、処理結果をワーク
ステーション51で受信したり操作を行なって、複数の
プリンタ56の1つでドキュメントのプリントアウトを
行なうことができる。勿論他の組み合わせも可能であ
り、上述の例に限定されるものではない。
【0048】[1.3 内部構成]図5は本発明に従った
好適な実施例であるPICS装置20の内部構成と接続
を示す詳細ブロック図である。図5に示すように、PI
CS装置20は、コンピュータバス61とインタフェー
スされたインテル社の80486DX(商標)や縮小イ
ンストラクションセットコンピュータ(RISC)など
の中央処理部(CPU)60を備えている。また、ロー
カルエリアネットワーク31とのインタフェースのため
のイーサネットインタフェース62、ワイドエリアネッ
トワーク32とのインタフェースのためのISDNイン
タフェース64、電話回線29との適当なモデム/ファ
クシミリ/音声電話インタフェースのためのモデム/フ
ァクシミリ/音声電話インタフェース65、プリンタ2
6とのインタフェースのためのプリンタインタフェース
フェース66、そしてドキュメントトレー21からスキ
ャナ22を通じて排紙トレー23へペーパーを搬送した
り、ペーパー格納トレー25からプリンタ部26を通じ
て排紙トレー27へとペーパー搬送を行なうための適当
なペーパー供給コマンドを供給する、トレー/ペーパー
供給インタフェース67が、コンピュータバス61とイ
ンタフェース接続されている。
【0049】ディスプレイインタフェース69はディス
プレイ35とコンピュータバス61間のインタフェース
を行ない、トラックボール/キーボードインタフェース
70はコンピュータバス61、トラックボール36、キ
ー39間のインタフェースを行なう。
【0050】コンピュータバス61は、スキャナインタ
フェース71及びオンザフライJPEG(Joint Photog
raphic Expert Group)プロセッサ72を介してスキャ
ナ22と接続される。さらに詳しくは、スキャナ22が
ドキュメントを走査してスキャナインタフェース71に
よって画素データが収集されると、スキャナインタフェ
ース71は画素データをJPEGプロセッサ72へ送
り、JPEG圧縮方式で画素データを圧縮させる。圧縮
された画素データはコンピュータバス61へ供給され
る。こうして、ドキュメントを走査する際にオンザフラ
イJPEG圧縮を行なうことで装置の動作の高速化が達
成される。
【0051】圧縮プロセッサ72はJPEG圧縮を行な
うことが好ましいが、それはJPEG圧縮は周知であ
り、本発明を実施する際容易に用いることができるから
である。しかしながら、JPEGのようなデータ量の減
少のある(lossy)圧縮が望ましいが、他のタイプの圧
縮を行なってもよい。
【0052】さらに、JPEGプロセッサ72は、バス
61上のコマンドを介し、JPEG圧縮されたファイル
をビットマップ画素データに伸張するような構成を有し
てもよい。伸張されたビットマップ画素データは不図示
の直接接続部(direct connection)を通じてプリンタ
インタフェース66へ供給される。プリントステーショ
ン26がグレイスケール画素を直接プリントすることが
できない場合は、ソフトウェアによる設定可能な閾値比
較器をその直接接続部へ設けて、何らかの選択可能な閾
値レベルでグレイスケール画素データを2値の画素デー
タへ変換できるようにしてもよい。この構成により、J
PEGプロセッサ72を通じて、必要であれば2値の閾
値処理を行なって、直接プリントインタフェース66へ
ファイルを読み出すことによって、ソフトウェアによる
データ伸張を必要とせずに、JPEG圧縮された画像フ
ァイルを迅速にプリントすることが可能となる。
【0053】1.2ギガバイトのハードディスクなどの
ディスク75は、SCSI(「Small Computer Systems
interface」)インタフェース76を介してコンピュー
タバス61に接続される。ディスクには、2値、グレイ
スケール、カラーの画像データファイルとテキストデー
タファイルとが、CPU60がそれらのデータファイル
を操作したり作成したりするのに用いるプログラムイン
ストラクションシーケンスと共に格納されている。詳し
くは、ディスク75はドキュメントのグレイスケール画
像をセグメンテーション処理して、ドキュメント画像の
テキストと非テキスト領域に分離し、テキスト領域から
個々の文字を抽出するためのプログラムインストラクシ
ョンシーケンスと、文字の画像を認識処理して文字の識
別を決定するためのプログラムインストラクションシー
ケンスとを格納している。適切な認識処理技術には、以
下のシステムに限られるものではなく、文字画像からフ
ィーチャ(feature)及び/またはストローク(strok
e)を抽出してそうした情報の辞書との比較を行なうフ
ィーチャ及び/またはストローク抽出システム、人間の
神経の相互連絡を模倣して文字画像を識別するニューラ
ルネットワーク認識システム、フィーチャ/ストローク
認識システムとニューラルネットワーク認識システムの
両方の態様を持つハイブリッドシステムが含まれる。
【0054】読み取り専用メモリ(ROM)77はコン
ピュータバス61とインタフェース接続し、CPU60
にスタートアッププログラムやBIOSプログラムなど
の特殊化された不変の機能を提供する。メインランダム
アクセスメモリ(RAM)79はCPU60に必要なデ
ータ及びインストラクションシーケンスのためのメモリ
記憶領域を提供する。詳しくは、セグメンテーションプ
ログラムまたは文字認識プログラムなどのプログラムイ
ンストラクションシーケンスを実行する時、CPU60
は通常それらのインストラクションシーケンスをディス
ク75から(あるいは、ネットワークアクセスの場合は
他のプログラム格納媒体から)RAM79へロードし
て、これら格納されたプログラムインストラクションシ
ーケンスをRAMから実行する。図5に示すように、デ
ータ操作のためのワーキング格納領域もRAMに設けら
れており、そこにはグレイスケール画像、2値画像、連
続成分、テキストファイルのためのワーキング領域も含
まれている。
【0055】[2.0 動作]上述の本発明の代表的な実
施例の動作を、図6〜22を参照して説明する。一般
に、オペレータの命令(通常キーボード/トラックボー
ルインタフェース70を介し受信されるが、他の供給
源、例えばローカルエリアネットワーク31またはワイ
ドエリアネットワーク32、またはモデムまたはDTM
Fコマンドにより電話回線29を介して受信される)に
従って格納されたアプリケーションプログラムを選択
し、データの処理や操作をするように選択したアプリケ
ーションを起動する。例えば、セグメンテーション処理
プログラム、認識処理プログラム、ワードプロセッシン
グプログラム、画像編集プログラム、スプレッドシート
プログラム及び同様の情報処理プログラムなどの様々な
アプリケーションプログラムがオペレータに提供され、
オペレータはそれらを選択したり使用することができ
る。こうして、セグメンテーションプロセッシングプロ
グラムを起動して、スキャナ22によりドキュメントを
走査して、ドキュメントのグレイスケール画像をRAM
79に格納する。格納されたプログラムインストラクシ
ョンに従ってグレイスケール画像をセグメンテーション
処理して、ドキュメントのテキスト領域と非テキスト領
域を識別し、テキスト領域の個々の文字を抽出する。そ
の後、認識処理プログラムを起動して、抽出された文字
画像を認識処理し、文字を識別してテキストファイルの
形で格納することもできる。得られたテキストファイル
をオペレータに提供して、オペレータがそれを検討した
り、ワードプロセッシングプログラムなど他のアプリケ
ーションプログラムを使用して操作するようにしてもよ
いし、ディスクへ格納したり、ローカルエリアネットワ
ーク31、ワイドエリアネットワーク32または電話回
線29上へ出力することもできる。
【0056】[2.1 プログラム可能な機能キー]図
6、7はプログラム可能な機能キー39の使用及びプロ
グラミングに関するコントロールパネル34の拡大図で
ある。
【0057】上述のように、PICS装置20はネット
ワーク化可能な装置であり、通常PICS装置20から
遠隔の様々なネットワークユーザの誰かにより使用され
る。従って、PICS装置20によってドキュメントを
処理する必要がある場合、普通ユーザはドキュメントを
自分のワークステーションからPICS装置20へ移動
させる。ユーザが、自分のワークステーションからPI
CS装置20により実行させるドキュメント処理機能を
プログラムして、ユーザが実際にPICS装置20の所
にいる時に最小の労力でそれらの機能が実行されるよう
にできる事は、ユーザにとり好都合である。ところで、
ユーザがPICS装置20により実行される画像処理タ
スクを規定してから実際にPICS装置20の所へ行っ
てそれらの画像処理タスクを実行するまでに時間が経過
してしまう。その間他のユーザはPICS装置20を使
用することができない。
【0058】ここに述べるように、PICS装置20は
好ましくはプログラム可能な機能キー39を備え、これ
らのキーはネットワークユーザにより自分達のワークス
テーションからプログラムされ、ユーザが実際にPIC
S装置20の所で画像処理を行なう時に選択することが
できる。画像処理タスクには、PICS装置20のスキ
ャナ22による新しいドキュメントの走査、様々なネッ
トワーク格納媒体からの現在のドキュメント画像の検
索、テキストファイルを作成するためのドキュメント画
像の認識処理、様々なネットワーク格納媒体へのテキス
トファイルの格納が含まれ、格納されたテキストファイ
ルを用いるスプレッドシートまたはリポート作成ワード
プロセッシングプログラムなど、他の情報処理プログラ
ムなどの関連したタスクも含まれている。これらの画像
処理タスクの幾つかまたは全てを連続して、機能キー3
9の1つに触れるだけで一連の画像処理または関連のタ
スクが実行されるようにマクロ的なの機能を提供するよ
うに、機能キー39をプログラムすることができる。
【0059】好ましくは、プログラム可能な機能キー3
9は2つのグループに別れる。1つのグループはネット
ワーク管理装置43によってのみプログラム可能であ
り、もう1つのグループはいずれかのLANユーザにより
プログラム可能である。キーのいずれかにより実行され
る詳細な画像処理機能は、必要であればディスプレイ3
5に表示することができる。
【0060】簡潔に述べると、図6、7はローカルエリ
アネットワークに接続可能で、ドキュメント画像におけ
る文字を識別するためのドキュメント画像の認識処理を
行なうパーソナル画像処理コンピュータシステム(PI
CS)を説明する図である。複数のプログラム可能な機
能キーはパーソナル画像処理コンピュータに設けられ、
各機能キーは、画像処理コンピュータシステムがあらか
じめプログラムされた画像処理タスクを実行するよう
に、オペレータにより操作される。複数のプログラム可
能な機能キーは少なくとも2つのグループに区分される
が、第1のグループはLANのネットワーク管理者だけ
がプログラム可能であり、第2のグループはLANのい
ずれのユーザでもプログラム可能である。複数の機能キ
ーの画像を表示する表示手段が設けられている。複数の
機能キーの1つの画像をオペレータが選択するのに応じ
て、表示手段はそのキーにより実行される機能を表示す
る。
【0061】さらに詳しくは、図6に示すように、プロ
グラム可能キー39の画像が表示手段により表示され
る。さらに図6に示すように、画像は2グループに別れ
ている。ネットワーク管理者の装置43だけがプログラ
ムできるように限定された機能キーの第1のグループ1
76と、いずれのLANユーザもプログラムできる、限
定されていない機能キーの第2のグループ177であ
る。図6には示していないが、175の各機能キーの表
示においては、現在そのキーをプログラムしたユーザの
識別の表示を含むことが好ましい。操作においては、ワ
ークステーション40の所にいるユーザは、PICS装
置20に実行させたい画像処理タスクを指定し、グルー
プ177のプログラム可能キーの1つを選択し、ローカ
ルエリアネットワーク31を介してその機能キーをプロ
グラムする。そして、ユーザは、PICS装置20で処
理するドキュメントをPICS装置20の実際の場所ま
で運ぶ。PICS装置20の所へ着くと、ユーザは図6
に示す表示を出して、ユーザ識別を参照してプログラム
したキー位置を突き止める。
【0062】ユーザはトラックボール36を使用して、
ネットワーク管理者装置43によりプログラムされるキ
ーと他のいずれのLANユーザによってもプログラムで
きるキーとを含む、表示されたキーの1つを選択する。
図7の178に示すように、表示されたキーの選択をす
る際には、そのキーに関連した現在の機能が表示され
る。実際に機能キー39を操作することにより、PIC
S装置20は自動的に指示された機能を実行する。
【0063】[2.2 画像解像度調整]図8はPICS
装置20の動作を示すフローチャートであり、装置20
は、ドキュメントを第1の解像度で走査してドキュメン
トのグレイスケール画像を形成する。この第1の解像度
はドキュメントのテキストを認識処理するのに適切な解
像度である。そしてグレイスケール画像における文字画
像を認識処理してコンピュータ読取可能なテキストのフ
ァイルを得る。そしてグレイスケール画像の解像度を第
1の解像度よりも低く、目視や画像再生に適切な第2の
解像度に変える。それから第2の解像度の画像をコンピ
ュータ読取可能なテキストファイルと関連付けて格納す
る。添付の図面の残りのフローチャートと同様に、図8
における処理ステップは格納されたプログラムインスト
ラクションステップに従ってCPU60により実行され
る。プログラムインストラクションステップは、コンピ
ュータディスク75(または他の媒体)に格納されてお
り、RAM79へ転送されて、そこからCPU60によ
って実行される。
【0064】さらに詳しくは、ステップS801では、
ドキュメント供給トレー21上のドキュメントをスキャ
ナ22を通るように供給する。スキャナ22はドキュメ
ントを走査してドキュメントの画像を作成する。好まし
くは、ドキュメントを走査する解像度は、400dpi
などの認識処理に適切な解像度である。オンザフライJ
PEGプロセッサ72は画像が走査入力される際に圧縮
を行ない、圧縮された画像はディスク75またはRAM
79に格納される。
【0065】ステップS802では、ドキュメント画像
を光学文字認識処理して、ドキュメントのテキスト領域
に対するテキストファイルを作成する。光学文字認識処
理については後述の2.3章の図9A、9B、9Cを参
照して詳細に説明する。
【0066】ステップS803では、ドキュメント画像
の解像度を下げて、ドキュメント画像の格納容量が減少
するようにする。好ましくは、ドキュメント画像の解像
度は、人間であるオペレータに知覚されるのに十分であ
り、コンピュータの画面に表示したり紙面に印刷するの
に適当な程度に下げられる。現在のところ70dpiが
望ましい解像度である。画像解像度を低下させる技術は
公知であり、原稿の画像におけるいずれの色、またはグ
レイスケールのいずれのレベルも可能な程度に保持する
技術を選択することが望ましい。また、好ましい技術と
しては、バークス(Burkes)またはスタッキー(Stuck
i)法などの誤差拡散技術を用いて低解像度画像の見た
目を向上する(enhance)ものがよい。
【0067】ステップS804では、必要に応じて圧縮
した、あるいは未圧縮の低解像度の画像を、ステップS
802で作成したテキストファイルと関連付けて格納す
る。ディスク75への格納が可能であるが、ドキュメン
ト画像とその関連のテキストファイルとをサーチ可能な
データベースの一部として、ネットワークディスク42
または52の1つに格納する方がより好ましい。
【0068】こうして、ステップS805に示すよう
に、ドキュメント画像を、例えばテキストファイルの照
会ベースのサーチに応じて検索することができる。さら
に詳しくは、オペレータの照会に応じたキーワードサー
チや他のサーチに基づいて、データベースのテキストフ
ァイルがサーチされて、オペレータが入力した照会に見
合うテキストファイルを識別する。そうしたテキストフ
ァイルが識別されると、関連したドキュメント画像が検
索されて、ドキュメント画像は、表示やプリントなど所
望の形でオペレータに提示される。
【0069】ドキュメントは認識処理に適切な解像度で
走査されるが、その後走査時の解像度より低い解像度で
関連するテキストファイルと共に格納されるので、そう
したドキュメントの大規模なデータベースを格納するの
に必要な格納容量が大幅に縮小できる。
【0070】[2.3‐‐光学文字認識処理‐‐概要]図
9A、9B、9Cは上述のステップS802のようにド
キュメントを識別するための光学文字認識処理の概略を
示している。簡潔に述べると、図9A〜9Cのいずれか
によると、ドキュメントを走査してドキュメントのグレ
イスケール画像を得て、そのグレイスケール画像と閾値
とを比較することによって、グレイスケール画像から2
値画像を生成する。その2値画像をセグメンテーション
処理して2値画像内の個々の文字の位置を決定して、個
々の文字の形状を決定し、その2値画像における文字の
位置と形状をテンプレートとして用いて、各文字に対す
るグレイスケール画像情報をグレイスケール画像から抽
出する。そして抽出したグレイスケール画像情報を認識
処理して、文字を識別し、その文字の識別結果を格納す
る。
【0071】まず、図9AのステップS901に示すよ
うに、ドキュメントのグレイスケール画像を入力する。
好ましくは、ドキュメントのグレイスケール画像を入力
するために、ドキュメントをスキャナ22で走査する
が、例えば、ドキュメントを遠隔に走査して電話回線2
9、ローカルエリアネットワーク31、またはワイドエ
リアネットワーク32を介してPICS装置20へ送信
するなど他の方法で生成したドキュメント画像を入力す
ることも可能である。
【0072】ステップS902では、走査入力した画像
の歪み補正を行なう。画像の歪みは、例えばドキュメン
トを曲がった状態でスキャナ22を通過させてしまうな
どの不適当なドキュメントの走査から、あるいは別の原
稿のドキュメントを位置のずれた状態で複写して得られ
たドキュメント書類を走査することから生じる。発生源
が何であれ、歪みは文字認識においてエラーを引き起こ
すので、2.4章で図10、11に関連して詳細に後述
するようにステップS902で現在の歪みを補正する。
この点において、ステップS902で行なう歪み補正を
格納して、画像の認識処理の後や画像格納の準備の際に
「解除(un-done)」する(元の歪んだ状態に戻す)こ
とが可能である。しかし、通常は歪んだ画像は単に廃棄
して、歪み補正した画像のみを保存する。
【0073】ステップS903では、グレイスケール画
像のコピーをRAM79で保持し、後でその画像からグ
レイスケール文字画像を抽出して認識処理できるように
する(ステップS907、S908参照)。
【0074】ステップS904では、グレイスケール画
像と閾値とを比較することによって、グレイスケール画
像から2値画像を生成する。閾値処理は2.5章の図1
2、13を参照して詳細に後述する。このようにして得
た2値画像をRAM79へ格納する。
【0075】ステップS905では、2値画像をセグメ
ンテーション処理してドキュメントのテキスト領域と非
テキスト領域に分離し、ドキュメントのテキスト領域内
の個々の文字の位置を決定する。セグメンテーション処
理は図14に関連して2.6章で後述する。さらに2値
画像内の個々の文字位置に基づいて、2値の文字画像の
形状から文字テンプレートを得る(ステップS90
6)。
【0076】ステップS907では、ステップS906
で生成したテンプレートを用いて、ステップS903で
格納したグレイスケール画像からグレイスケール文字画
像を抽出する。そして抽出したグレイスケール文字画像
を認識処理して(ステップS908)ドキュメントのテ
キスト領域内の個々の文字を識別する。
【0077】ステップS915では、文字の識別を、A
SCII形式などのコンピュータ読取可能なテキストフ
ァイルの形で格納する。ここでは、テキストファイルの
読み込み順序が原稿ドキュメントの読み込み順序を反映
するように、原稿ページの再構成を行なう。例えば、図
2に戻ると、左側の欄のテキストの1行の後に、右側の
欄のテキストの相当する位置の行が続くのではなく、左
側の欄のテキストの全ての行の後に右側の欄の全ての行
が続くべきであるということがわかる。ステップS91
5では、このページ再構成を遂行してテキストファイル
に対する正しい読み込み順序を得る。
【0078】ステップS916では、ディスク75また
はネットワークディスク42、54へ出力するなどして
テキストファイルを出力する。ステップS804で上述
したように、テキストファイルは、そのドキュメントフ
ァイルと関連付けて格納して、ドキュメントの検索に利
用できるようにする。
【0079】図9Bは文字認識処理システムのフローチ
ャートであり、この処理ではドキュメントのテキスト領
域内の文字のフォント特性に従って、複数の認識処理技
術から1つを選択する。選択された認識処理技術はフォ
ント特性に対応するようにする。例えばフォント特性が
均一ピッチのフォントが使われていることを示している
場合には、均一ピッチフォントの認識処理技術を選択
し、一方フォント特性がサンセリフフォントが使われて
いることを示している場合には、サンセリフ認識処理技
術を選択するようにする。
【0080】こうして、文字の画像から文字の識別を決
定する図9Bの文字認識システムによると、テキスト領
域を含むドキュメントの画像を処理して、文字の行の位
置を決定し、各行のフォント特性を決定し、決定したフ
ォント特性に基づいて複数の認識処理技術から1つを選
択する。個々の文字画像を各行から抽出し、選択した認
識処理技術に従って、各抽出された文字画像を認識処理
する。
【0081】さらに詳しくは、図9Aについて説明した
ように、ステップS901、S902、S903、S9
04、S905、S906、S907では、グレイスケ
ール画像を入力し、そのグレイスケール画像に対し歪み
補正を行ない、歪み補正された画像のコピーを保存し、
全体的な閾値処理により2値画像を生成する。その2値
画像をセグメンテーション処理して文字画像の位置を決
定し、2値画像の形状から文字テンプレートを得て、テ
ンプレートを用いてグレイスケール画像から文字を抽出
する。
【0082】ステップS909では、1行の文字のフォ
ント特性を決定する。この決定は、セグメンテーション
処理の間に決定した文字属性に基づいてなされる。ある
いは、この決定は2値またはグレイスケール画像から抽
出した文字に基づいてなされる。「フォント特性」に
は、サンセリフまたはセリフフォント、イタリック体、
太字などのフォント形状に加え、均一またはプロポーシ
ョナルなどの文字スペースが含まれている。
【0083】ステップS910では、ステップS909
で決定した特定のフォント特性に合うように、複数の認
識処理技術の1つを選択する。さらに詳しくは、あるフ
ォントが例えばサンセリフフォントのユニバース(Univ
erse)である場合、特にサンセリフフォントに向けた認
識処理技術を使用することができる。そうした認識処理
技術はサンセリフ文字の認識処理に特に適切である。そ
れは、例えばサンセリフフォントにはセリフフォントよ
りも互いに接触する文字が少ないことが知られているか
らである。同様に、ステップS909ではそのフォント
がクーリエ(Courier)のような均一スペースのフォン
トかどうかを決定し、そのフォントに特に合わせた均一
スペースの認識処理技術を選択する。
【0084】ステップS911では、選択した認識技術
を用いて抽出したグレイスケール文字画像を認識処理す
る。そして、ステップS915、S916では、図9A
に関して上述したように、ページ再構成を行なって、識
別された文字の順序を正しい順序に変えて、生成された
テキストファイルを出力する。
【0085】図9Cは本実施例による選択的な処理を示
している。これにより、特にイタリック体や相対的なス
ペースのフォントなど認識が困難なフォントを処理する
際に、認識精度を向上することができる。図9Cに示す
文字認識システムでは、ドキュメントのグレイスケール
画像を閾値処理して2値画像を得て、2値画像をセグメ
ンテーション処理して文字の2値画像の位置を決定して
文字の2値画像の属性を決定して、ドキュメントにおけ
る文字の識別を決定する。セグメンテーション処理され
た2値画像における文字の形状に基づいて文字のグレイ
スケール画像を抽出し、グレイスケール文字画像と2値
の文字画像の両方に対して認識処理を行ない、文字の識
別を決定する。そして、セグメンテーション処理中に決
定された文字属性に基づいて、グレイスケール文字画像
の認識処理結果と2値文字画像の認識処理結果の不一致
を解決する。
【0086】さらに詳しくは、ステップS901からS
908では、図9Aで上述したように、グレイスケール
画像を入力し、グレイスケール画像の歪みを補正し、閾
値処理により2値画像を得る。そして2値画像をセグメ
ンテーション処理して文字画像の位置を決定し、2値画
像の形状から文字テンプレートを得る。テンプレートを
用いてグレイスケール文字画像を抽出し、抽出したグレ
イスケール文字画像を認識処理する。
【0087】ステップS913では、ステップS905
でセグメンテーション処理中に抽出された2値の文字画
像を認識処理して2値の文字画像の識別を決定する。ス
テップS914では、ステップS905のセグメンテー
ション処理中に得られた文字画像の実際の画像特性に基
づいて、グレイスケール文字画像の認識処理結果(ステ
ップS908)と2値文字画像の認識処理結果(ステッ
プS913)のいかなる不一致も解決する。例えば、
「L」の小文字活字ケース(「l」)、数字の「いち」
(「1」)、角括弧(「[」または「]」)を区別するの
は困難である。ステップS908、S913における認
識処理の違いにより、これらの文字のいずれか1つにつ
いて異なる識別が決定される可能性がある。そうした場
合、ステップS905のセグメンテーション処理中に得
られた物理的属性を参照して、不一致を解決する。さら
に詳しくは、そして図14について後述するように、セ
グメンテーション処理の間に、各文字画像について(さ
らに詳しくは、下記に説明するように、画像中の各連続
成分について)画素密度やアスペクト比などの物理的属
性を決定する。これらの物理的属性に基づいて、ステッ
プS908、S913の認識処理結果を明確にする。
【0088】ステップS915、S916では、図9A
に関して上述したように、ページ再構成とテキスト出力
を行なう。
【0089】[2.4 歪み補正]図10A、10B及び
図11Aから11Cは本実施例による歪み補正処理を説
明する図である。これらの図に示すように、画像の歪み
を決定しし、歪みが±10°など所定の限度より大きい
場合には数学的回転変換により歪み補正し、歪みが所定
の限度より小さい場合には画素データを垂直移動するこ
とにより歪みを補正することにより、歪みの補正を行な
う。大抵の場合、画素データの数学的変換を行なう必要
はないので、この技術による歪み補正によって相当な時
間を節約することができる。数学的変換は、特にグレイ
スケール画素データが含まれている場合には、プロセッ
サの処理時間に換算すると不経済である。それは、歪み
補正される画像の各画素が、歪んだ画像の幾つかの画素
の数学的な組合わせから得られるからである。さらに、
歪み補正される画素の値は数学的に算出されるので、一
般的に述べると、1つの歪み補正される画素の値と最初
に走査された画像における画素の値とが等しくはなら
ず、不正確な認識(例えばそれぞれ値が「1」及び
「2」である画素を、それらの平均値(1.5)に置換
して、その結果それらの画素の値は元の原稿の画像のど
こにも存在しないものとなる)を増加させることにな
る。一方、歪んだ画像を単純に移動して歪み補正された
画像とすると、そうした数学的組み合わせは含まず、さ
らに、最初に走査された画像からの画素値をそのまま有
している。勿論、画像の歪みが大きすぎる場合は垂直移
動により、いくらかの画像の変歪が生じるため、そうし
た変歪を起こさない数学的変換を避けることはできな
い。
【0090】さらに詳しくは、図10Aに示すように、
ステップS1001からS1004では、画像の画素デ
ータのベースライン分析によって画像の歪みを判定す
る。これは、ハインズ他の「ランレングス符号化及びハ
フ変換を用いたドキュメントの歪み検出方法」(Hinds,
et al., "A Document Skew Detection Method Using R
un Length Encoding And The Hough Transform", IEEE
10th International Conference On Pattern Recogniti
on, June, 1990, page 464)に記載されているような修
正ハフ変換(modified Hough transform)の適用により
行なう。より詳しくは、ステップS1001で画像にサ
ブサンプリングを行なって処理が必要なデータの量を減
らす。好ましくは、画像のサブサンプリングは、正確な
歪み検出に十分な約100dpiの解像度で画像を得る
ようにする。歪み補正すべき画像を400dpiの解像
度で入力した場合、1:4の比でサブサンプリングを行
なうので、原稿の画像の4番目の画素毎にサブサンプリ
ングを行ない、100dpiの画像を形成することにな
る。サブサンプリング比は異なる入力解像度について
も、同様に選択する。例えば、600dpi画像に対し
ては1:6のように選択する。
【0091】ステップS1002では、任意の閾値を用
いて、または図12、13(後述)の説明で計算される
閾値を用いて、サブサンプリングした画像を2値化す
る。
【0092】ステップS1003では、サブサンプリン
グ、そして2値化を行なったデータに粗いハフ変換を行
なって原稿の画像における歪み角度を凡その程度で決定
する。さらに詳しくは、例えば1°毎といった単純な角
度の解像度で±20°など所定の制限間にハフ変換を適
用する。必要であれば、ハフ変換に先立ち、画像のベー
スライン(活字の並び線)の感度(sensitivity)を増
幅することができる。これは、画素データの各垂直ラン
(run)について、夫々の垂直ランの数を各垂直ランの
底部に位置させたものに交換し、像や線を表す画素デー
タを省略することにより行なう。
【0093】ステップS1004では、サブサンプリン
グおよび2値化を行なった画像に、ステップS1003
で得られた凡その歪み情報を用いて、精密なハフ変換を
適用する。より詳しくは、ステップS1003で決定し
た凡その歪み角度の±1°前後において、0.1°など
の精密な角度の解像度で精密なハフ変換を適用する。
【0094】ステップS1005では、ステップS10
04で決定した歪み角度を±10°などの所定の限度と
比較する。歪みが所定の限度より大きい場合、ステップ
S1006へ進んで、数学的変換により画像の歪み補正
を行なう。一方、歪みが所定限度より小さければ、ステ
ップS1007へ進んで、歪みに基づいて垂直移動ファ
クター(factor)を決定する。より詳しくは、図11A
に示すように、ステップS1001からS1004で上
述したように、まず、歪み角度シータ(θ)を計算す
る。それから、歪み角度θから、歪み角度θをゼロへ減
少させる垂直移動ファクターを算出する。図11Aの例
では、垂直移動ファクターは、歪み角度4.4度に対応
して、横の13画素毎に下方向の1画素となる。そし
て、図11Bに示すように、左から右へ処理を行なう
と、移動ファクターに基づいて、画像の全列が連続して
上方向または下方向に移動する。移動の後には、歪み角
度θがゼロに減少しているのがわかる。
【0095】図10Aに戻り、ステップS1006の数
学的変換またはステップS1008の画素移動に従って
画像を歪み補正すると、その歪み補正された画像を出力
する(ステップS1009)。
【0096】画素移動にる歪み補正は、処理時間の節約
の点では有利であるが、幾つかの状況では文字の画像を
変形させてしまう。例えば、図11Bでは、文字「a」
の各画像が、これらの文字の中央で下方向の移動が起こ
ったために崩れてしまっている。図10Bはこの種の変
形を防ぐ処理を示している。
【0097】図10Bにおいて、ステップS1001か
らS1007は図10Aと同様である。ステップS10
10では、移動ファクターに従って画像の列を上または
下方向に移動する時点であれば、CPU60はその画像
が文字間の空白部分にあるかどうかを判断する。その画
像が文字間にあると判断すると、ステップS1011へ
進んで、移動ファクターに従って、前に移動した列に相
対的に画像の全列を上または下方向へ連続的に移動す
る。一方、文字間にない場合は、移動は行なわず、移動
ファクターを単に蓄積する(ステップS1012)。ス
テップS1010へ戻り、文字間についてのみ移動を行
なう。こうして、図11Cに示すように、2つの文字
「a」の間のみ移動が行なわれ、この場合の蓄積された
移動ファクターは、「DOWN 2」である。処理は前述のよ
うに進んで、ステップS1013で歪み補正された画像
を出力する。
【0098】図10Bに従って処理を行なうことによ
り、画素移動が文字間のみで行なわれて文字の中央で行
なわれないため、各文字の変形を防ぐことができる。
【0099】[2.5 閾値処理]図12はステップS9
04で説明した閾値処理を詳細に示すフローチャートで
ある。図12に示す閾値処理手順に従って、グレイスケ
ール画像から2値画像を形成する。つまり、グレイスケ
ール画像の画素の明暗度のヒストグラムを形成し、少な
くとも1つのヒストグラムグループ離れたヒストグラム
のトップの2グループを識別し、これらの2つのトップ
グループの間の距離の半分を計算してこれを全体的な閾
値とし、グレイスケール画像の各画素をこの全体的な閾
値と比較して各画素を2値化し、グレイスケール画像に
対応する2値画像を出力する。
【0100】ステップS1201では、グレイスケール
画像について、画素強度における画素のヒストグラムを
形成する。図13(a)に示すように、ヒストグラムは
複数の画素強度のグループを有しており、各グループの
高さはグループ内に入るグレイスケール画像の画素の数
に基づいて決定されている。図13(a)では、0から
255のグレイスケール画像の明暗度に基づいて、
(1)から(8)までの8つのグループが指定されてい
る。他のグループ分けも可能であるが、実施が容易な図
13(a)のグループ分けを用いることが好ましい。
【0101】ステップS1202では、ヒストグラムを
調べて、グレイスケール画像が「反転ビデオ」画像かど
うか、つまり画像が従来の画像のように白地に黒ではな
くて、黒地に白の画像であるかどうかを判定する。ヒス
トグラムがグレイスケール画像が反転ビデオ画像である
ことを示している場合は、グレイスケールを反転して
(ステップS1203)画像を従来の白地に黒の画像に
変換する。
【0102】ステップS1204では、各ヒストグラム
グループの高さに基づいてヒストグラムグループを降順
に格納する。図13(a)の例では、最も高い数値を有
するグループ(8)が最初のグループであり、最も低い
数値を有するグループ(5)が最後のグループである。
このようにして、図13(b)に示すように図13
(a)のヒストグラムグループを格納する。
【0103】ステップS1205では、少なくとも1グ
ループ離れたトップの2グループを選択する。こうし
て、図13(b)に示すように、トップの2グループで
あるグループ(8)、(7)を最初に比較する。しか
し、これらは少なくとも1グループ離れていないため
(つまり、数値的に、グループ(8)はグループ(7)
の直接の隣接グループである)、グループ(8)および
(7)は選択しない。その代わりに、次のトップの2グ
ループであるグループ(7)、(2)を比較する。グル
ープ(7)、(2)は少なくとも1グループ離れている
ため(この例では数値的に4グループ離れている)、ス
テップS905でグループ(7)、(2)を選択する。
【0104】ステップS1206では、ステップS12
05で選択した2グループ間の距離の半分で全体的な閾
値(global threshold)を計算する。図13(a)に示
すように、グループ(2)、(7)は160(つまり1
92‐32)の距離だけ離れている。従ってこの代表的
なグレイスケール画像の全体的な閾値は、TH=160
÷2=80となる。
【0105】ステップS1207では、グレイスケール
画像の各画素の明暗度を、ステップS1206で算出し
た全体的な閾値と比較して、グレイスケール画像を2値
化する。図12に示すように、比較を行なった結果の画
素の明暗度が全体的な閾値より低い場合は、その画素
を、白を表す2値の「0」にセットする(ステップS1
208)。一方、画素の明暗度が全体的な閾値より高い
場合は、その画素を、黒を表す2値の「1」にセットす
る(ステップS1209)。
【0106】グレイスケール画像の全画素と全体的な閾
値との比較を終了すると、2値画像を出力する(ステッ
プS1210)。
【0107】[2.6 セグメンテーション処理]図14
はステップS905で上述したセグメンテーション処理
を示すフローチャートである。この処理により、ドキュ
メント画像のテキストおよび非テキスト領域を識別し
て、テキスト領域の個々の文字を抽出する。図14の処
理は、ステップS904で生成した2値画像の連続成分
(connected component)を分析することにより行なう
ものである。「連続成分」とは、連続する黒画素のグル
ープで、全体を白画素で囲まれたものをいう。本願の印
刷書類におけるページのように、通常の印刷ページにお
いて、連続成分は通常ある文字か、文字の分離した一部
であるが、下線を引いた文字または筆記体の原稿では、
連続成分は連続した文字のグループである可能性もあ
る。
【0108】図14に示すように、テキスト領域と非テ
キスト領域の両方を含むドキュメント画像において、ド
キュメン画像における連続成分を識別し、各連続成分の
画素密度やアスペクト比などの画像属性を得て、その画
像属性に基づいて各連続成分をフィルタリングして、非
テキスト領域を表す連続成分からテキスト領域を表す連
続成分を分離することによりテキスト領域の位置を決定
する。フィルタリングは、未知のタイプの連続成分がテ
キストか非テキストかが決定できるまで、複数セットの
ルールを連続的に未知の連続成分の画像属性に適用する
ことで行なう。
【0109】さらに詳しくは、ステップS1401で
は、セグメンテーション処理する画像を入力する。好ま
しくは、この画像はステップS904で閾値処理して生
成した2値画像であるが、一般に、セグメンテーション
処理が必要ないずれの画像でもよい。例えば、入力する
画像は画像再生の準備としてディジタル複写機により走
査されて得られた画像でもよい。この場合は、画像のど
の領域がテキストでどの領域が非テキストかを決定し
て、その決定に基づく文字再生を制御するためにセグメ
ンテーション処理が必要である。こうして、ここで説明
するセグメンテーション処理は、画像のどの領域がテキ
ストかを決定して、それらの領域を黒いトナーのみを用
いてディジタル複写により再生したり、どの領域が非テ
キストかを決定して、それらの領域をシアン、マジェン
タ、イエロー、ブラックのトナーを組み合わせて用い
て、ディジタル複写により再生するように使用される。
【0110】ステップS1402では、画像における下
線部を検出して除去する。下線部が引かれた文字は、幾
つかの別々な連続成分ではなく、むしろ単一の連続成分
として識別されやすく、こうして連続成分の分析が損な
われることになる。下線部除去は2.6.1章で図1
8、19を参照して詳細に説明する。
【0111】ステップS1403では、画像を分析して
全ての連続成分を識別する。上述のように、「連続成
分」は連続した黒画素のグループであって、全体を白画
素で囲まれたものである。図15は、単語「finally」
の画像を形成する画素を示すが、同図に示されるよう
に、連続成分は画像の各画素の8方向分析により検出で
きる。さらに詳しくは、図15の画像における最も右下
の黒画素である画素80などの最初の画素から始まっ
て、黒画素を取り囲む画素を、星状方向81に示すよう
に8方向に調べて、隣接する黒画素が存在するかどうか
を判定する。画素82はそうした黒画素で、更に画素8
2から8方向の処理を始めて、矢印84で示すように連
続成分の周囲をたどる。
【0112】この画像における各画素を図15で説明し
たように分析して、テーブルのフレーム内の個々の項目
のような内部的連続成分を含む、画像における各連続成
分の位置を識別して決定する。この実施例では、図15
の四角形85のように、文字を取り囲む四角形の位置を
決定することによって、各連続成分の位置を規定する。
【0113】図15に示す8方向処理は連続成分を正確
に識別できるが、CPUの処理時間やメモリ格納領域の
観点からは不経済な処理である。というのは、通常全体
の画像を一度にメモリへ格納しなければならないからで
ある。図20、21を参照して2.6.2章で説明する
連続成分処理は連続成分を検出するためのより効率的な
技術であり、従ってこのステップS1403にとっては
好ましい方法である。
【0114】ステップS1404では、各連続成分につ
いて物理的な画像属性を得る。こうして、図16に示す
ように、各連続成分について、アスペクト比、画素カウ
ント(画素数)、密度、周囲、周囲/幅の比、(周囲の
二乗)/領域の比などの画像属性の全てを得る。さら
に、「タイプ」属性も各連続成分に関連する。最初に、
タイプ属性は「未知」と設定されるが、さらなる処理に
従って、究極的には各連続成分のタイプが「テキスト」
または「非テキスト」と設定される。このステップS1
404で得た物理的画像属性は図9CのステップS91
4における多義性の解決に使用される。
【0115】ステップS1405では、連続成分を検討
して画像の方向がポートレート(縦長)またはランドス
ケープ(横長)であるかを判断する。より詳しくは、大
抵の画像はポートレート方向の画像として走査されるの
で、ここで説明する処理はポートレート方向の画像のみ
を扱うことにする。従って、ステップS1405でラン
ドスケープの方向が検出された場合は、ステップS14
06へ進んで、画像を90°回転してポートレート方向
の画像を得る。そしてステップS1404へ戻って、各
連続成分の属性を得る。
【0116】ポートレート方向の画像を得ると、ステッ
プS1407へ進み、各「未知」のタイプの連続成分に
ついて、複数のルールを適用して、連続成分がテキスト
であるかまたは非テキストであるかを判定する。連続成
分ルールについては図22を参照して詳細に説明する
が、一般に、ルールは連続成分自体にではなくステップ
S1404で決定された属性に適用される。さらに、好
ましくは、最初の段階で適用するルールは時間をほとん
ど掛けずに計算を行ない、早い段階で非テキスト連続成
分から識別し易いテキスト連続成分を分離することので
きる単純なルールである。後の段階で適用するルール
は、非テキスト連続成分から識別し難いテキスト連続成
分を分離する、より複雑で時間の掛かるルールである。
しかし、この後期の処理段階では「未知」のタイプの連
続成分はさらに少なくなっているため、後半のルールは
前半のルールよりも適用頻度が低い。
【0117】ステップS1408では、「テキストタイ
プ」の連続成分を分析してテキストのラインを識別す
る。テキストのラインの分析は、ステップS915のペ
ージ再構成で利用される。さらに、テキストのラインを
識別することによって、連続成分の分析により分離され
た文字の部分を再接続することができる。例えば、図1
5からわかるように、「i」の上の点86は連続成分の
分析によって「i」の文字本体から分離されていた。ス
テップS1408に示すように、テキストのラインを識
別することにより、ステップS1411で後述するよう
に文字をテキストのラインから順次切り離す時に、完全
な文字「i」を形成するように連続成分を再接続するこ
とが可能である。
【0118】ステップS1409で、もしテキストのラ
インの接触があれば、ステップS1410で分離する。
そして、ステップS1411で、さらなる処理のために
個々の文字をテキストのラインから切り離す。例えば、
図9Aから9Cを参照すると、テキストのラインから切
り離された個々の文字を、ステップS906でテンプレ
ートとして使用して、ステップS907で文字のグレイ
スケール画像から文字を抽出する。さらに、ステップS
913では、このステップS1411で切り離した文字
自体を認識処理する。
【0119】図17は上述の処理が下線付きの単語「fi
nally」に与える効果を示している。図17に示すよう
に、ステップS901に従って、印刷された下線付きの
単語「finally」を含むドキュメント90を画素解像度
91で走査して、下線付きの単語「finally」のグレイ
スケール画像92を入力する。歪み補正(ステップS9
02)の後、ステップS903に従って、グレイスケー
ル画像のコピーを93として保存する。そして、ステッ
プS904に従い、グレイスケール画像を閾値処理して
2値画像94を作成する。
【0120】そしてステップS905で上述したように
2値画像をセグメンテーション処理する。さらに詳しく
は、図14を参照して説明すると、下線を除去して(ス
テップS1402)画像95を生成する。連続成分の分
析(ステップS1403からS1412)を通して、文
字96を画像95から切り離す。そして、テンプレート
97を得て(ステップS906)、テンプレートをグレ
イスケール画像のコピー93に適用し、グレイスケール
文字画像98を抽出する(ステップS907)。なお、
テンプレートは、関係する全画素がグレイスケール画像
から適切に抽出されたかどうかを確認するために、約2
画素程度拡大することが可能である。さらに、グレイス
ケール画像93をもとのままの下線が付いた状態で保存
するため、グレイスケール文字画像を取り出す際、下線
部の残りを小量含むことになる。しかし、これらの小量
の下線の残余は、認識処理を妨げるものではない。そこ
で抽出されたグレイスケール文字画像に認識処理を行な
い、抽出された文字画像を識別する。この例では、文字
「f」に関しては、認識処理によりASCIIコードの
「66hex」が得られるが、このコードは文字「f」
に対するASCIIコードの16進数値である。
【0121】[2.6.1 下線除去]図18A、Bはス
テップS1402に従って行なう下線部の除去を説明す
るためのフローチャートである。これは下線部を文字通
り取り除くわけではなく、下線部分の文字を下線から分
離するものである。連続成分の分析により分離された下
線のセグメント(segment)は「非テキスト」であると
判断され、後続の認識処理ではそれらは無視される。
【0122】下線部分における下線の文字からの分離は
次のように行なう。つまり、画像を上から下に向かっ
て、画素行毎に横断走査して、画像の水平画素ランの各
行のランレングスを計算し、各画素行のランレングスを
前画素行のランレングスと比較して、現在の画素行のラ
ンレングスが前画素行のランレングスより所定値を越え
て大きくなった時に、画像を水平に分割する。次に、分
割された画像を下から上に向かって画素行毎に横断走査
して、現在の画素行のランレングスを計算して前画素行
のランレングスと比較し、現在の行のランレングスが画
像の水平分割が行なわれたのと同一領域内において前画
素行のランレングスより所定値を越えて増加した時に、
画像を垂直に分割して前の水平分割部分を再結合する。
さらに、どこで前の水平分割が行なわれたかを検出す
る、つまり、分割が文字の中央付近か、それとも文字の
エッジ近辺で行なわれたかを検出することにより、上記
の2回目のの分割を垂直に行なう必要はなく、「j」ま
たは「g」などの幾つかの文字の形状を保存するように
斜めに分割してもよい。
【0123】さらに詳細を図18A、B、図19により
説明する。ステップS1801に示すように、最初にド
キュメント画像の最大の文字幅「MAX」を概算する。図
18に示す下線除去技術の適切な動作のためには最大文
字幅の正確な概算は必要ではなく、最大文字幅の簡単な
概算があればよい。従って、最大文字幅を任意の固定
値、例えばMAX=50画素に設定してもよいし、また
概算された平均文字幅の約3倍に設定してもよい。この
実施例では、概算された平均文字幅を、16で割った凡
その画像解像度として計算し、最大文字幅MAXをその
値の3倍に設定する。こうして、400dpiの画像に
対し、MAX=3×400/16=75画素である。
【0124】ステップS1802では、ドキュメント画
像を上から下へ向けて画素行毎に横断走査する。そし
て、ステップS1803では、水平画素ランのランレン
グスを計算する。より詳しくは、例えば図19(a)に
示すように、下線付きの文字列「Qqpygj」を形成する画
素から成るドキュメント画像101を用いて説明する。
画像の画素の任意の画素行102について、画素の各水
平ランの水平ランレングスを計算する。このように、1
04に示すように、文字「Q」の最も左のエッジを構成
する画素の水平ランレングスを計算する。行102の画
素の各水平ランレングスについても同様にランレングス
を計算する。
【0125】ステップS1804では、現在の画素行の
水平ランレングスを前画素行の水平ランレングスと比較
する。現在の画素行の水平ランレングスが前画素行の水
平ランレングスよりMAXを越えて増加していない場
合、特別な処理は行なわず、ドキュメント画像の次の画
素行を選択して処理し(ステップS1805)、全画素
行が上から下まで横断走査処理されるまで処理を続ける
(ステップS1806)。一方、ステップS1804の
計算で、現在の行のランレングスが前行のランレングス
と比較してMAXを越えて増加していることがわかった
場合、その行で画像を水平に分割する。図19(b)は
この処理を表している。
【0126】さらに詳しくは、図19(b)に示すよう
に、下線103が存在するために現在の画素行の水平ラ
ンレングスが前画素行の水平ランレングスよりMAXを
越えて増加していると判断するまで処理は進む。従っ
て、その行の全画素を105の所で水平に分割する。処
理は全画素行が上から下まで横断処理されるまで次の行
および後続の行へと続く(ステップS1805、S18
06)。
【0127】そして、ステップS1808へ進み、分割
された画像を下から上へ向かって画素行毎に横断する。
ステップS1809では、現在の画素行の水平画素ラン
のランレングスを計算し、ステップS1810で現在の
画素行のランレングスを前画素行のランレングスと比較
する。前述のように、現在の画素行のランレングスが前
画素行のランレングスよりMAXを越えて増加していな
い場合は、特別な処理を行なわずに、次の行を選択し、
分割された画像の全行が下から上へ向かって横断される
まで処理を続ける。
【0128】一方、ステップS1810で、現在の画素
行のランレングスが前画素行のランレングスよりMAX
を越えて増加していると判断した場合は、ステップS1
813で隣接する領域に以前に行なわれた水平分割(ス
テップS1807より)があるかどうかを判断する。ス
テップS1813で以前に行なわれた水平分割はないと
判断すると、前述のように、特別な処理を行なわずに、
ステップS1811へ戻り、画像の全行が下から上へ横
断されるまで処理を続ける。
【0129】一方、隣接する領域に以前行なわれた水平
分割があれば、ステップS1814からS1819に示
すように、水平分割を再結合(または閉じる)して、1
対の垂直または斜めの分割部分と置換する。さらに詳し
くは、ステップS1814で、図19(c)の「q」、
「p」、「y」などの文字の中央付近で小さいサイズの
水平分割が行なわれていると判断した場合、ステップS
1815へ進んで、水平分割を再結合して、1対の垂直
分割部分を挿入する。特に図19(c)に示すように、
前の水平分割が文字「q」、「p」、「y」の中央付近
で行なわれているので、水平分割を閉じて、106に示
すような垂直分割と置換する。
【0130】ステップS1816で、文字エッジ近辺で
小さい水平分割があった場合は、ステップS1817へ
進み、水平分割を再結合して1対の斜の分割部分に置換
する。さらに詳しくは、図19(d)に示すように、文
字「g」と「j」の文字エッジで水平分割が検出されて
いるので、水平分割を閉じて1対の斜めの分割108と
置換する。
【0131】ステップS1818で大きい水平分割があ
ったと判断した場合は、ステップS1819へ進んで、
水平分割を再結合して、ステップS1817で挿入した
よりも広いスペースで1対の斜めの分割を挿入する。
【0132】[2.6.2 連続成分分析]図20は連続
成分(ステップS1403)を得るための好適な技術を
示すフローチャートである。2.6章で上述した連続成
分分析はCPUの処理時間やメモリの記憶容量の観点か
らは不経済である。それは、CPUは画像データの個々
の画素ビットを何度も比較しなければならず、また画像
全体を同時にメモリに格納する必要があるからである。
ここで図20に基づいて説明する技術では、メモリには
1度に画像の2画素行が存在していればよい。また、C
PUは個々の画素ビットや画像データに何度もアクセス
する必要はなく、水平画素セグメントを得るために画素
データに1度アクセスすればよい。その後、CPUは水
平画素セグメントの位置で動作するだけである。
【0133】簡潔に述べると、図20に関して説明する
技術によると、画素画像データにおける連続成分を得る
方法は、最初は連続成分を含まない連続成分のリストを
開き、画像を画素行毎に下から上へ向かって横断走査し
て適切なシーケンスの連続成分を出力し、画像データの
現在の画素行における全ての水平画素セグメントを識別
し、現在の行の水平セグメントを前行の水平セグメント
と比較して、以下4つの異なるケースの全てまたはいず
れかが存在するかどうかを判断する。第1のケースは現
在の画素行のセグメントが前画素行の開いた領域(オー
プン領域)に隣接している場合である。第2のケースは
現在の画素行の水平セグメントが前画素行の水平セグメ
ントに隣接している場合である。第3のケースは現在の
画素行のセグメントが連続成分のリストにおいて少なく
とも2つの連続成分をまたいでいる(bridges)場合で
ある。第4のケースは現在の画素行の水平セグメントが
現在の画素行のオープン領域に隣接している場合であ
る。第1のケースが存在する場合、リストで新しい連続
成分をスタートする(started in the list)。第2の
ケースが存在する場合、水平セグメントの現在の連続成
分のトレース(trace)を更新する。第3のケースが存
在する場合、水平セグメントがまたがっている2つの連
続成分を合併する。最後に、第4のケースが存在する場
合、連続成分のリスト内の連続成分のトレースを閉じる
(closed out)。画像の全行を横断すると、さらなる処
理のために連続成分のリストを出力する。
【0134】より詳しくは、ステップS2001に示す
ように、コンピュータ化した連続成分のリストを開く。
リストは連続成分を含まないように初期化されている
が、最終的には画像の全ての連続成分を含むようにな
る。
【0135】ステップS2002では、画像を画素行ご
とに、好ましくは画像の下から上へ向かって横断走査す
る。こうすると連続成分のリスト内の連続成分が正しい
シーケンスの順序に並ぶため、この順序が好ましい。
【0136】ステップS2003では、画像の現在の画
素行における全ての水平画素セグメントを識別する。さ
らに詳しくは、図21に単語「UNION」の任意の画像1
20について示すように、画素行121には水平画素セ
グメントが存在しない。一方、画素行122には領域1
22a、b、c、d、e、f、g、hで認識される8つ
の画素セグメントが存在する。これらの8つの水平画素
セグメントの各々をステップS2003で識別する。
【0137】ステップS2004へ進んで、ステップS
2003で識別された水平画素セグメントが画像の前画
素行における水平セグメントに隣接するかどうかを判定
する。現在の画素行の水平セグメントが前画素行の水平
セグメントに隣接していない場合は、新たな水平セグメ
ントを識別しており、ステップS2005へ進んで新た
な連続成分を連続成分のリスト上でスタートする。こう
して、例えば、図21の8つの水平セグメント122
a、b、c、d、e、f、g、hについて新しい連続成
分がスタートする。
【0138】一方、ステップS2004で、現在の画素
行の水平セグメントが前画素行の水平セグメントに隣接
している場合は、ステップS2006で水平セグメント
に相当する現在の連続成分のトレースを単純に更新す
る。さらに詳しくは、図21に戻って、行123に対し
ては、123aから123lまでの各水平セグメントは
前行の水平セグメントに隣接している。従って、これら
の水平セグメントに相当する連続成分のトレースを単純
に更新する。この点において、水平セグメント123c
および123eは同一の連続成分に含まれている。これ
らの水平画素行セグメントは両方とも単一の行セグメン
ト、つまり水平画素セグメント122cで始まっている
からである。同様に、水平画素セグメント123hおよ
び123iは共に水平画素セグメント(122f)から
始まり、同一の連続成分に含まれている。
【0139】ステップS2007では水平画素セグメン
トが2つまたはそれ以上の連続成分にまたがっているか
どうかを判定する。水平画素セグメントが2またはそれ
以上の連続成分にまたがっている場合は、それらの連続
成分のトレースを合併する(ステップS2008)。さ
らに詳しくは、図21の行124について示すように、
水平画素セグメント124aは水平セグメント122a
および122bから始まる2つの連続成分にまたがって
いる。従って、これらの2つの連続成分を合併する。同
様に、水平セグメント124cは水平セグメント122
cおよび122dから始まる2つの連続成分にまたがっ
ている。従って、これらの2つの連続成分を合併する。
なお、水平画素セグメント124eは2つの異なる連続
成分にまたがってはいない。これは単一の連続成分が1
22fで始まっているからである。
【0140】ステップS1709では前画素行における
水平画素セグメントが現在の画素行における開いたセグ
メントに隣接するかどうかを判定する。前画素行の水平
セグメントが開いたセグメントに隣接している場合は、
連続成分は完成しており、相当する連続成分を閉じる
(ステップS2010)。
【0141】いずれの場合も、ステップS2011へ進
んで画像の次の画素行を処理し、画像の全画素行の処理
が完了するまで(ステップS2012)処理を続ける。
画像全体を処理すると、連続成分のリストを閉じて、リ
ストを出力し(ステップS2013)、連続成分属性の
計算を行なう(ステップS1404参照)。
【0142】[2.6.3 非テキストからテキストを
区分するためのルール]図22A〜図22Fは連続成分
属性に適用してテキストエレメントか非テキストエレメ
ントかを判定するための複数セットのルールを示すフロ
ーチャートである。ルールは適切な動作のためにフォン
トサイズまたは他のサイズ情報または分析されるドキュ
メントの予備的な知識には依存しない、スケール不変の
ものである。
【0143】迅速な処理が可能で、テキストおよび非テ
キスト連続成分間において容易な区分判定ができるルー
ルを最初に適用し、より難しく、テキストおよび非テキ
スト連続成分間において困難な区分判定を行なうルール
を後に適用する。これらのルールは「未知の」タイプの
連続成分に適用されるが、始めの方で適用されるルール
によりすでにテキスト、非テキストの判定がされてしま
うため後半のルールはたまにしか適用されない。
【0144】ステップS2201では、連続成分の平均
の高さを決定して連続成分属性と比較するためのスケー
ル不変のパラメータを計算する。そして、ステップS2
202では、連続成分の平均の高さに基づいてパラメー
タを計算する。幾つかのパラメータは本質的にスケール
不変であり連続成分の平均の高さに基づく計算を必要と
しない。例えば、アスペクト比は高さ対幅の比であるの
で、すでにスケール不変である。しかし、最小の高さな
ど他のパラメータはスケール不変ではないのでステップ
S2202で決定する。
【0145】そして、図22A〜Fの残りの部分に説明
するように、「未知」のタイプのままの各連続成分に複
数セットのルールを適用する。まず、ルール1に従っ
て、高さ、アスペクト比、密度、(周囲の二乗)/領域
の比、周囲/幅の比を全て検討して連続成分がテキスト
連続成分の高さ、アスペクト比、密度、パラメータをほ
ぼ有しているかどうかを判定する。それらを有する場合
は、連続成分の高さ、アスペクト比、密度についてさら
にテストを加えて、テキストか非テキストかを決定し
て、それに従い連続成分のタイプを分類する。
【0146】ルール1に該当せず連続成分が「未知」の
ままである場合は、ルール2を用い、画素数、周囲、ア
スペクト比、高さを検討して連続成分が「.」より小さ
いまたは細いかどうかを判定する。そうである場合は、
連続成分を「非テキスト」に設定する。
【0147】ルール2に該当せず連続成分が「未知」の
ままである場合は、ルール3を用い、連続成分の高さ、
アスペクト比、密度を検討して、連続成分がスラッシュ
(「/」)であるかどうかを判定する。スラッシュであ
る場合は、連続成分を「テキスト」に設定する。
【0148】ルール3に該当せず連続成分が「未知」の
ままである場合は、ルール4を用い、連続成分のアスペ
クト比、高さ、密度を検討して、連続成分が「1」、
「l」などの単一の小さく細い文字であるかどうかを判
定する。そうした文字である場合は、連続成分を「テキ
スト」に設定する。
【0149】ルール4に該当せず連続成分が「未知」の
ままである場合は、ルール5を用い、連続成分のアスペ
クト比、高さ、密度、(周囲の二乗)/領域の比を検討
して、連続成分が「-」、「_」、「-」などの単一の短
い文字か、「=」や「%」の各部分であるかどうかを判
定する。そうした文字や文字部分である場合は、連続成
分を「テキスト」に設定する。
【0150】ルール5に該当せず連続成分が「未知」の
ままである場合は、ルール6を用い、アスペクト比、高
さ、密度を検討して、連続成分が「.」、「,」などの小
さい文字か、「:」や「;」の各部分であるかどうかを
判定する。そうした文字や文字部分である場合は、連続
成分を「テキスト」に設定する。
【0151】ルール6に該当せず連続成分が「未知」の
ままである場合は、ルール7を用い、連続成分のアスペ
クト比、高さ、密度を検討して、連続成分が「>」、
「<」、「^」、「u」、「v」などの高さおよび密度の低
い文字であるかどうかを判定する。そうした文字である
場合は、連続成分を「テキスト」に設定する。
【0152】ルール7に該当せず連続成分が「未知」の
ままである場合は、ルール8を用い、連続成分の高さ、
アスペクト比、密度、(周囲の二乗)/領域の比、周囲
/幅の比を検討して、連続成分が行において連続した文
字のように幅が広く短いものであるかどうかを判定す
る。そうである場合は、線のように周囲/幅の比が低い
かまたは密度が高ければ、連続成分のタイプを「非テキ
スト」に設定する。周囲/幅の比が高く密度が低けれ
ば、連続成分を「テキスト」に設定する。
【0153】ルール8に該当せず連続成分が「未知」の
ままである場合は、ルール9を用い、連続成分のアスペ
クト比、密度を検討して、連続成分が「|」のような高
い垂直な線であるかどうかを判定する。そうした線であ
る場合は、連続成分を「非テキスト」に設定する。
【0154】ルール9に該当せず連続成分が「未知」の
ままである場合は、ルール10を用い、連続成分のアス
ペクト比、密度を検討して、連続成分が長い水平の線の
ストロークであるかどうかを判定する。そうである場合
は、連続成分のタイプを「非テキスト」に設定する。
【0155】ルール10に該当せず連続成分が「未知」
のままである場合は、ルール11を用い、連続成分の高
さを検討して、連続成分がルール9ではピックアップで
きない高い非テキスト領域であるかどうかを判定する。
そうである場合は、連続成分のタイプを「非テキスト」
に設定する。
【0156】ルール11に該当せず連続成分が「未知」
のままである場合は、ルール12を用い、連続成分の高
さ、密度を検討して、連続成分がまだピックアップされ
ていないボーダーラインテキスト(borderline text)
成分であるかどうかを判定する。そうである場合は、連
続成分のタイプを「テキスト」に設定する。
【0157】ルール12に該当せず連続成分が「未知」
のままである場合は、ルール13を用い、連続成分のア
スペクト比、高さ、密度、(周囲の二乗)/領域の比、
周囲/幅の比を検討して、連続成分がまだルール8でピ
ックアップされていない、「an」、「the」、「was」な
どの一連の短い単語の列であるかどうかを判定する。そ
うである場合は、連続成分を「テキスト」に設定する。
【0158】ルール13に該当せず連続成分が「未知」
のままである場合は、ルール14を用い、連続成分のア
スペクト比、密度を検討して、連続成分が非テキストで
あるしみ(blotch)であるかどうかを判定する。そうし
たしみである場合は、連続成分を「非テキスト」に設定
する。
【0159】ルール14に該当せず連続成分が「未知」
のままである場合は、ルール15を用い、連続成分の密
度を検討して、連続成分が、例えば詳細なグラフィック
に見られるような非常に高密度な非テキストブロックの
しみか、あるいはテーブルに見られるテキストを囲むフ
レームなどのような、非常に低密度の非テキストのしみ
であるかどうかを判定する。そうである場合は、連続成
分を「非テキスト」に設定する。
【0160】ルール15に該当せず連続成分が「未知」
のままである場合は、ルール16を用い、連続成分の高
さ、密度、アスペクト比、(周囲の二乗)/領域の比、
周囲/幅の比を検討して、連続成分が通常タイトルや見
だしに見られる大きいフォントの単語であるかどうかを
判定する。そうである場合は、連続成分を「テキスト」
に設定する。
【0161】ルール16に該当せず連続成分が「未知」
のままである場合は、ルール17を用い、連続成分の高
さ、密度、アスペクト比、(周囲の二乗)/領域の比、
周囲/幅の比を検討して、連続成分が、大きいフォント
の単語に似ているが周囲の値が低く、従って非テキスト
であるエレメントであるかどうかを判定する。そうした
場合は、連続成分を「非テキスト」に設定する。
【0162】ルール17に該当せず連続成分が「未知」
のままである場合は、ルール18を用い、連続成分の高
さ、密度を検討して、連続成分がルール12でピックア
ップされていないボーダーラインテキストブロック(bo
rderline text block)であるかどうかを判定する。そ
うである場合は、連続成分を「テキスト」に設定する。
【0163】ルール18に該当せず連続成分が「未知」
のままである場合は、ルール19を用い、連続成分の
(周囲の二乗)/領域の比、周囲/幅の比、密度を検討
して、連続成分が残りの判定困難なテキスト連続成分で
あるかどうかを判定する。そうである場合は、連続成分
を「テキスト」に設定する。
【0164】ルール19に該当せず連続成分が「未知」
のままである場合は、ルール20を用い、連続成分の
(周囲の二乗)/領域の比、周囲/幅の比、密度を検討
して、連続成分がルール18でピックアップされていな
い残りの判定困難な非テキストエレメントであるかどう
かを判定する。そうである場合は、連続成分を「非テキ
スト」に設定する。
【0165】ルール20に該当せず連続成分が「未知」
のままである場合は、ルール21を用い、連続成分の密
度、アスペクト比、(周囲の二乗)/領域の比を検討し
て、ルール19でピックアップされていない残りの判定
困難なテキストタイプの連続成分を検出する。連続成分
が残りの判定困難なテキストタイプの連続成分の1つで
ある場合は、連続成分を「テキスト」に設定する。
【0166】ルール21に該当せず連続成分が「未知」
のままである場合は、ルール22を用い、連続成分の高
さ、周囲/幅の比、アスペクト比、(周囲の二乗)/領
域の比を全て検討して、連続成分が雑誌記事における最
初の大きいフォント文字のような孤立した大きいフォン
トの文字であるかどうかを判定する。そうである場合
は、連続成分を「テキスト」に設定する。
【0167】ルール22に該当せず連続成分が「未知」
のままである場合は、ルール23を用い、連続成分の高
さ、周囲/幅の比、アスペクト比を検討して、連続成分
が見出しやタイトルのフォントのような大きいフォント
の文字に似ているが、非テキストである、孤立した非テ
キストエレメントであるかどうかを判定する。そうであ
る場合は、連続成分を「非テキスト」に設定する。
【0168】ルール23に該当せず連続成分が「未知」
のままである場合は、ルール24を用い、連続成分の
(周囲の二乗)/領域の比、周囲/幅の比を検討して、
連続成分が非常に長い単語または連続した単語のセット
であるかどうかを判定する。フィルタリングのルールの
この時点においては、そうした一連の単語が「テキス
ト」であると正しく指定できるもの以外は滅多に検出す
ることはない。このルールの基準に合うならば、連続成
分を「テキスト」に設定する。
【0169】ルール24に該当せず連続成分が「未知」
のままである場合は、ルール25を用い、残りの連続成
分を「非テキスト」に設定する。
【0170】ルール26では各テキストの連続成分を検
討して、連続成分が他のテキスト連続成分から孤立して
いる場合は、その連続成分を「非テキスト」に設定す
る。これは、無意識に鉛筆を動かして付けた印や紙の透
かし模様(water marks)などページに孤立して付いた
印が誤ってテキストとして解釈されないことを保証する
ものである。
【0171】尚、本発明は、複数の機器から構成される
システムに適用しても1つの機器からなる装置に適用し
ても良い。また、本発明はシステム或いは装置に本発明
により規定される処理を実行させるプログラムを供給す
ることによって達成される場合にも適用できることはい
うまでもない。
【0172】
【発明の効果】以上説明したように本発明によれば、文
字認識処理を行うに先立って好適な前処理が実行可能と
なる。
【0173】また本発明によれば、ドキュメント画像の
回転による歪みを効果的かつ効率的に補正することが可
能となる。
【0174】また本発明によれば、グレイスケール画像
を2値化するに際して、適切な閾値を設定することが可
能となる。
【0175】また本発明によれば、ドキュメント画像中
の下線付の文字より下線を除去するにおいて、メモリの
使用量や処理時間を低減することが可能となる。
【0176】また本発明によれば、画像より連続成分を
抽出するに際して、メモリの使用量や処理時間を低減す
ることが可能となる。
【0177】また本発明によれば、抽出された連続成分
についてテキストであるか非テキストであるかを効率的
に検出することが可能となる。
【0178】
【図面の簡単な説明】
【図1】2値画像とグレイスケール画像の相違を説明す
るための図である。
【図2】代表的なドキュメントページを表す図である。
【図3】本実施例に係わるパーソナル画像処理コンピュ
ータシステムの外観を表す部分切取図である。
【図4】図3の装置のネットワーク接続を説明する図で
ある。
【図5】図3の装置の内部構成を示す詳細ブロック図で
ある。
【図6】図3の装置のコントロールパネルの拡大図であ
る。
【図7】図3の装置のコントロールパネルの拡大図であ
る。
【図8】ドキュメント格納及び検索を説明するためのフ
ローチャートである。
【図9A】本実施例に係わる光学文字認識を説明するた
めのフローチャートである。
【図9B】本実施例に係わる光学文字認識を説明するた
めのフローチャートである。
【図9C】本実施例に係わる光学文字認識を説明するた
めのフローチャートである。
【図10A】画像の歪み補正(de-skew)を説明するた
めのフローチャートである。
【図10B】画像の歪み補正(de-skew)を説明するた
めのフローチャートである。
【図11A】代表的な歪んだ(skewed)画素とその補正
(de-skew)を表す図である。
【図11B】代表的な歪んだ(skewed)画素とその補正
(de-skew)を表す図である。
【図11C】代表的な歪んだ(skewed)画素とその補正
(de-skew)を表す図である。
【図12】閾値処理による、グレイスケール画像からの
2値画像処理を説明するためのフローチャートである。
【図13】グレイスケール画像の代表的なヒストグラム
である。
【図14】本実施例に係わるセグメンテーション処理を
説明するためのフローチャートである。
【図15】画像内の連続成分(connected components)
の検出(derivation)を説明するための図である。
【図16】各連続成分に対して格納される画像属性を示
す図である。
【図17】下線付きの単語「finally」の画像に対する
画像処理の効果を説明する図である。
【図18A】下線除去を説明するためのフローチャート
である。
【図18B】下線除去を説明するためのフローチャート
である。
【図19】下線除去の連続的な処理段階と、これら処理
段階における、下線部付きの文字の画像に対する効果を
示す図である。
【図20】連続成分の分析を説明するためのフローチャ
ートである。
【図21】単語「UNION」の画像から連続成分が誘導さ
れる様子を示す図である。
【図22A】連続成分のルールベースの処理を示すフロ
ーチャートである。
【図22B】連続成分のルールベースの処理を示すフロ
ーチャートである。
【図22C】連続成分のルールベースの処理を示すフロ
ーチャートである。
【図22D】連続成分のルールベースの処理を示すフロ
ーチャートである。
【図22E】連続成分のルールベースの処理を示すフロ
ーチャートである。
【図22F】連続成分のルールベースの処理を示すフロ
ーチャートである。

Claims (88)

    【特許請求の範囲】
  1. 【請求項1】 文字を含むドキュメントの画像を歪み補
    正する画像処理装置であって、 前記画像の歪み角度を測定する測定手段と、 前記画像を回転変換して歪み角度を約0度に縮小する回
    転変換手段と、 前記画像の列を画素移動して歪み角度を約0度に縮小す
    る画素移動手段と、 測定された歪み角度が所定の限度より大きい場合に前記
    回転変換手段により歪み角度を縮小させ、前記測定され
    た歪み角度が所定の限度より小さい場合に前記画素移動
    手段により歪み角度を縮小させる判定手段とを備えるこ
    とを特徴とする画像処理装置。
  2. 【請求項2】 前記測定手段は粗い歪み角度を決定する
    ための粗い測定を行ない、粗い歪み角度で近辺の精密な
    歪み角度を得るための精密な測定を行なうことを特徴と
    する請求項1に記載の画像処理装置。
  3. 【請求項3】 前記測定手段は前記画像をサブサンプリ
    ングし、前記画像を2値化し、粗いハフ変換を行なって
    粗い歪み角度を得て、粗い歪み角度の近辺に精密なハフ
    変換を行なって歪み角度を決定することを特徴とする請
    求項1に記載の画像処理装置。
  4. 【請求項4】 前記測定手段はピクチャーの歪み角度の
    測定を省略することを特徴とする請求項1に記載の画像
    処理装置。
  5. 【請求項5】 前記回転変換手段は行列積演算を行なう
    ことを特徴とする請求項1に記載の画像処理装置。
  6. 【請求項6】 前記画素移動手段は画像の文字間の空白
    領域における画像の列を画素移動することを特徴とする
    請求項1に記載の画像処理装置。
  7. 【請求項7】 前記画素移動手段は垂直移動ファクター
    を決定する決定手段を含み、該垂直移動ファクターは文
    字間の空白領域に到達するまで蓄積されることを特徴と
    する請求項6に記載の画像処理装置。
  8. 【請求項8】 前記画素移動手段は前記画像の全列を連
    続的に移動するための垂直移動ファクターを決定する決
    定手段を含むことを特徴とする請求項1に記載の画像処
    理装置。
  9. 【請求項9】 文字を含むドキュメントの画像を歪み補
    正する画像処理装置であって、 前記画像を格納し、前記画像を処理するインストラクシ
    ョンシーケンスを格納するメモリと、 前記インストラクションシーケンスを実行する処理部と
    を備え、 前記インストラクションシーケンスは前記処理部に
    (a)前記画像の歪み角度を測定させ、(b)測定され
    た歪み角度が所定の限度より大きい場合に画像を回転変
    換して歪み角度を約0度に縮小させ、(c)測定された
    歪み角度が前記所定限度よりも小さい場合に画像の列を
    画素移動して歪み角度を縮小させる処理工程を含むこと
    を特徴とする画像処理装置。
  10. 【請求項10】 前記インストラクションシーケンスは
    前記処理部に粗い測定を行なって粗い歪み角度を決定さ
    せ、精密な測定を行なって前記歪み角度の近辺の精密な
    歪み角度を得させる処理工程を含むことを特徴とする請
    求項9に記載の画像処理装置。
  11. 【請求項11】 前記インストラクションシーケンスは
    前記処理部に前記画像をサブサンプリングさせ、前記画
    像を2値化させ、粗いハフ変換を行なって粗い歪み角度
    を得て、前記粗い歪み角度の近辺に精密なハフ変換を行
    なって歪み角度を決定させる処理工程を含むことを特徴
    とする請求項9に記載の画像処理装置。
  12. 【請求項12】 前記インストラクションシーケンスは
    前記処理部にピクチャーの歪み角度の測定を省略させる
    処理工程を含むことを特徴とする請求項9に記載の画像
    処理装置。
  13. 【請求項13】 前記回転変換は行列積演算から成るこ
    とを特徴とする請求項9に記載の画像処理装置。
  14. 【請求項14】 前記インストラクションシーケンスは
    前記処理部に画像の文字間の空白領域における画像の列
    を画素移動させる処理工程を含むことを特徴とする請求
    項9に記載の画像処理装置。
  15. 【請求項15】 前記インストラクションシーケンスは
    前記処理部に垂直移動ファクターを決定させる処理工程
    を含み、前記垂直移動ファクターは文字間の空白領域に
    到達するまで蓄積されることを特徴とする請求項14に
    記載の画像処理装置。
  16. 【請求項16】 前記インストラクションシーケンスは
    前記処理部に画像の全列を連続的に移動するための垂直
    移動ファクターを決定させる処理工程を含むことを特徴
    とする請求項9に記載の画像処理装置。
  17. 【請求項17】 文字を含むドキュメントの画像を歪み
    補正する画像処理方法であって、 前記画像の歪み角度を測定する測定工程と、 測定された歪み角度が所定の限度より大きい場合に画像
    を回転変換して前記歪み角度を約0度に縮小する回転変
    換工程と、 測定された歪み角度が所定の限度より小さい場合に画像
    の列を画素移動して前記歪み角度を縮小する画素移動工
    程とを備えることを特徴とする画像処理方法。
  18. 【請求項18】 前記測定工程は粗い歪み角度を決定す
    る粗い測定工程と、前記粗い歪み角度の近辺の精密な歪
    み角度を得る精密な測定工程とを含むことを特徴とする
    請求項17に記載の画像処理方法。
  19. 【請求項19】 前記測定工程は前記画像をサブサンプ
    リングし、前記画像を2値化し、粗いハフ変換を行なっ
    て粗い歪み角度を得て、前記粗い歪み角度の近辺で、精
    密なハフ変換を行なって前記歪み角度を決定することを
    特徴とする請求項17に記載の画像処理方法。
  20. 【請求項20】 前記前記測定工程はピクチャーの歪み
    角度の測定を省略することを特徴とする請求項17に記
    載の画像処理方法。
  21. 【請求項21】 前記回転変換工程は行列積演算を行な
    うことを特徴とする請求項17に記載の画像処理方法。
  22. 【請求項22】 前記画素移動工程は前記画像の文字間
    の空白領域において画像の列を画素移動することを特徴
    とする請求項17に記載の画像処理方法。
  23. 【請求項23】 前記画素移動工程は垂直移動ファクタ
    ーを決定する工程を含み、該垂直移動ファクターは文字
    間の空白領域に到達するまで蓄積されることを特徴とす
    る請求項22に記載の画像処理方法。
  24. 【請求項24】 前記画素移動工程は前記画像の全列を
    連続的に移動するための垂直移動ファクターを決定する
    工程を含むことを特徴とする請求項17に記載の画像処
    理方法。
  25. 【請求項25】 文字を含むドキュメントの画像を歪み
    補正するコンピュータに実行可能な処理ステップであっ
    て、 前記画像の歪み角度を測定する測定工程と、 前記歪み角度を所定の限度と比較する比較工程と、 前記歪み角度が前記所定の限度より大きい場合に前記画
    像を回転変換して歪み角度を約0度に縮小する回転工程
    と、 前記歪み角度が前記所定の限度より小さい場合に前記画
    像の列を画素移動して歪み角度を約0度に縮小する移動
    工程とを備えることを特徴とする処理ステップ。
  26. 【請求項26】 前記測定工程は粗い歪み角度を決定す
    る粗い測定工程と、前記粗い歪み角度の近辺で精密な歪
    み角度を得る精密な測定工程を含むことを特徴とする請
    求項25記載のコンピュータに実行可能な処理ステッ
    プ。
  27. 【請求項27】 前記測定工程は前記画像をサブサンプ
    リングするサブサンプリング工程と、前記画像を2値化
    する2値化工程と、粗いハフ変換を行なって粗い歪み角
    度を得る第1の実行工程と、前記粗い歪み角度の近辺で
    精密なハフ変換を行なって前記歪み角度を決定する第2
    の実行工程とを含むことを特徴とする請求項25記載の
    コンピュータに実行可能な処理ステップ。
  28. 【請求項28】 前記測定工程はピクチャーの歪み角度
    の測定を省略することを特徴とする請求項25記載のコ
    ンピュータに実行可能な処理ステップ。
  29. 【請求項29】 前記回転変換工程は行列積演算を行な
    うことを特徴とする請求項25記載のコンピュータに実
    行可能な処理ステップ。
  30. 【請求項30】 前記画素移動工程は前記画素における
    文字間の空白領域において画像の列を画素移動すること
    を特徴とする請求項25記載のコンピュータに実行可能
    な処理ステップ。
  31. 【請求項31】 前記画素移動工程は垂直移動ファクタ
    ーを決定する決定工程を含み、該垂直移動ファクターは
    文字間の空白領域に到達するまで蓄積されることを特徴
    とする請求項30記載のコンピュータに実行可能な処理
    ステップ。
  32. 【請求項32】 前記画素移動工程は前記画像の全列を
    連続的に移動するための垂直移動ファクターを決定する
    決定工程を含むことを特徴とする請求項25記載のコン
    ピュータに実行可能な処理ステップ。
  33. 【請求項33】 閾値処理を行なってグレイスケール画
    像を2値画像に変換する画像処理装置であって、 前記グレイスケール画像の画素の明暗度のヒストグラム
    を形成する手段と、 少なくとも1つのヒストグラムグループ離れたトップの
    2グループを識別する識別手段と、 前記トップの2グループ間の中間の距離において全体的
    な閾値を計算する計算手段と、 前記グレイスケール画像の各画素を2値化するために各
    画素を前記全体的な閾値と比較する比較手段と、 前記グレイスケール画像に対応する2値画像を出力する
    出力手段とを備えることを特徴とする画像処理装置。
  34. 【請求項34】 前記ヒストグラムにおけるグループを
    ソートするソート手段をさらに備え、 前記識別手段は、少なくとも1つのヒストグラムグルー
    プ離れた2グループを識別するまでソートされたヒスト
    グラムグループの組を連続的に比較することを特徴とす
    る請求項33に記載の画像処理装置。
  35. 【請求項35】 前記全体的な閾値は前記トップの2グ
    ループ間の2分の1の距離で計算されることを特徴とす
    る請求項33に記載の画像処理装置。
  36. 【請求項36】 前記グレイスケール画像はドキュメン
    トの1ページの一部分から成ることを特徴とする請求項
    33に記載の画像処理装置。
  37. 【請求項37】 前記グレイスケール画像が反転ビデオ
    信号かどうかを検出し、反転ビデオを検出した場合には
    前記グレイスケール画像を反転する検出手段をさらに備
    えることを特徴とする請求項33に記載の画像処理装
    置。
  38. 【請求項38】 閾値処理を行なってグレイスケール画
    像を2値画像に変換する画像処理装置であって、 前記グレイスケール画像を格納し、前記グレイスケール
    画像を処理するためのインストラクションシーケンスを
    格納するメモリと、 前記インストラクションシーケンスを実行する処理部と
    を備え、 前記インストラクションシーケンスは前記処理部に
    (a)前記グレイスケール画像の画素の明暗度のヒスト
    グラムを形成させ、(b)少なくとも1ヒストグラムグ
    ループ離れたトップの2グループを識別させ、(c)前
    記トップの2グループ間の中間の距離で全体的な閾値を
    計算させ、(d)前記グレイスケール画像の各画素を2
    値化するために各画素を前記全体的な閾値と比較させ、
    (e)前記グレイスケール画像に対応する2値画像を出
    力させる処理工程を含むことを特徴とする画像処理装
    置。
  39. 【請求項39】 前記インストラクションシーケンスは
    前記処理部に前記ヒストグラムのグループをソートさ
    せ、前記ヒストグラムのうち少なくとも1ヒストグラム
    グループ離れた2グループを識別するまでソートされた
    ヒストグラムグループの組を連続的に比較することによ
    り、前記ヒストグラムのトップの2グループを識別させ
    る処理工程を含むことを特徴とする請求項38に記載の
    画像処理装置。
  40. 【請求項40】 前記全体的な閾値は前記トップの2グ
    ループ間の2分の1の距離で計算されることを特徴とす
    る請求項38に記載の画像処理装置。
  41. 【請求項41】 前記グレイスケール画像はドキュメン
    トの1ページの一部分から成ることを特徴とする請求項
    38に記載の画像処理装置。
  42. 【請求項42】 前記インストラクションシーケンスは
    前記処理部に前記グレイスケール画像が反転ビデオであ
    るかどうかを検出させ、反転ビデオを検出した場合には
    前記グレイスケール画像を反転させる処理工程を含むこ
    とを特徴とする請求項38に記載の画像処理装置。
  43. 【請求項43】 閾値処理によってグレイスケール画像
    を2値画像に変換する画像処理方法であって、 前記グレイスケール画像の画素の明暗度のヒストグラム
    を形成する形成工程と、 前記ヒストグラムにおいて少なくとも1ヒストグラムグ
    ループ離れたトップの2グループを識別する識別工程
    と、 前記トップの2グループ間の中間の距離で全体的な閾値
    を計算する計算工程と、 前記グレイスケール画像の各画素を2値化するために各
    画素を前記全体的な閾値と比較する比較工程と、 前記グレイスケール画像に対応する2値画像を出力する
    出力工程とを備えることをを特徴とする画像処理方法。
  44. 【請求項44】 前記ヒストグラムのグループをソート
    する工程をさらに備え、 前記識別工程では少なくとも1ヒストグラムグループ離
    れた2グループを識別するまでソートされたヒストグラ
    ムグループの組を連続的に比較することによって前記ト
    ップの2グループを識別することを特徴とする請求項4
    3に記載の画像処理方法。
  45. 【請求項45】 前記全体的な閾値は前記トップの2グ
    ループ間の2分の1の距離で計算されることを特徴とす
    る請求項43に記載の画像処理方法。
  46. 【請求項46】 前記グレイスケール画像はドキュメン
    トの1ページの一部分から成ることを特徴とする請求項
    43に記載の画像処理方法。
  47. 【請求項47】 前記画像が反転ビデオであるかどうか
    を検出し、反転ビデオ画像を検出した場合には前記グレ
    イスケール画像を反転する工程をさらに備えることを特
    徴とする請求項43に記載の画像処理方法。
  48. 【請求項48】 閾値処理によってグレイスケール画像
    を2値画像に変換するコンピュータに実行可能な処理ス
    テップであって、 前記グレイスケール画像の画素の明暗度のヒストグラム
    を形成する形成工程と、 前記ヒストグラムにおいて少なくとも1ヒストグラムグ
    ループ離れたトップの2グループを識別する識別工程
    と、 前記トップの2グループ間の中間の距離で全体的な閾値
    を計算する計算工程と、 前記グレイスケール画像の各画素を2値化するために各
    画素を前記全体的な閾値と比較する比較工程と、 前記グレイスケール画像に対応する2値画像を出力する
    出力工程とを備えることを特徴とするコンピュータに実
    行可能な処理ステップ。
  49. 【請求項49】 前記ヒストグラムのグループをソート
    するソート工程をさらに備え、 前記識別工程では少なくとも1ヒストグラムグループ離
    れた2グループを識別するまでソートされたヒストグラ
    ムグループの組を連続的に比較することによって前記ト
    ップの2グループを識別することを特徴とする請求項4
    8記載のコンピュータに実行可能な処理ステップ。
  50. 【請求項50】 前記全体的な閾値は前記トップの2グ
    ループ間の2分の1の距離で計算されることを特徴とす
    る請求項48記載のコンピュータに実行可能な処理ステ
    ップ。
  51. 【請求項51】 前記グレイスケール画像はドキュメン
    トの1ページの一部分から成ることを特徴とする請求項
    48記載のコンピュータに実行可能な処理ステップ。
  52. 【請求項52】 前記画像が反転ビデオであるかどうか
    を検出し、反転ビデオ画像を検出した場合には前記グレ
    イスケール画像を反転する検出工程をさらに備えること
    を特徴とする請求項48記載のコンピュータに実行可能
    な処理ステップ。
  53. 【請求項53】 下線の付いた文字の画像を下線から分
    離する画像処理装置であって、 下線の付いた文字を格納し、下線の付いた文字を処理す
    るためのインストラクションシーケンスを格納するメモ
    リと、 前記インストラクションシーケンスを実行する処理部と
    を備え、 前記インストラクションシーケンスは前記処理部に
    (a)前記画像を上から下へ行毎に横断走査させ、
    (b)各行について、水平画素ランのランレングスを計
    算させ、(c)各行のランレングスを前行のランレング
    スと比較させ、(d)前記第1の比較ステップがランレ
    ングスが所定値を越えて増加していることを示す場合に
    は、前記画像を水平に分割させ、(e)分割された画像
    を下から上へ行毎に横断走査させ、(f)各行につい
    て、水平画素ランのランレングスを計算させ、(g)各
    行のランレングスを前行のランレングスと比較させ、
    (h)前記第2の比較ステップが以前に隣接する水平分
    割が行なわれた領域でランレングスが前記所定値を越え
    て増加していることを示す場合には、前記画像を垂直に
    分割して以前の水平分割を再結合させる処理工程を含む
    ことを特徴とする画像処理装置。
  54. 【請求項54】 前記処理工程は、文字の中央近辺また
    は文字のエッジ付近で水平分割が行なわれたかどうかを
    判定する工程をさらに含み、 文字の中央近辺で水平分割が行なわれたと判定した場合
    は垂直分割を行ない、文字のエッジ付近で水平分割が行
    なわれたと判定した場合は画像を斜めに分割することを
    特徴とする請求項53に記載の画像処理装置。
  55. 【請求項55】 下線の付いた文字の画像を下線から分
    離する方法であって、 前記画像を上から下へ行毎に横断走査する横断走査工程
    と、 各行について、水平画素ランのランレングスを計算する
    計算工程と、 各行のランレングスを前行のランレングスと比較する第
    1の比較工程と、 前記第1の比較工程が、ランレングスが所定値を越えて
    増加していることを示す場合には、前記画像を水平に分
    割する分割工程と、 各行について、水平画素ランのランレングスを計算する
    計算工程と、 各行のランレングスを前行のランレングスと比較する第
    2の比較工程と、 前記第2の比較工程が、以前に隣接する水平分割が行な
    われた領域においてランレングスが前記所定値を越えて
    増加していることを示す場合には、前記画像を垂直に分
    割して以前の水平分割を再結合する分割/再結合工程と
    を備えることを特徴とする下線文字分離方法。
  56. 【請求項56】 文字の中央近辺または文字のエッジ付
    近で水平分割が行なわれたかどうかを判定する工程をさ
    らに含み、文字の中央近辺で水平分割が行なわれたと判
    定した場合は垂直分割を行ない、文字のエッジ付近で水
    平分割が行なわれたと判定した場合は画像を斜めに分割
    することを特徴とする請求項55に記載の下線文字分離
    方法。
  57. 【請求項57】 下線の付いた文字の画像を下線から分
    離する画像処理装置であって、 前記画像を行毎に横断走査する横断走査手段と、 前記横断走査手段によって横断走査された各行につい
    て、水平画素ランのランレングスを計算する計算手段
    と、 前記横断走査手段によって横断走査された現在の行のラ
    ンレングスを前行のランレングスと比較する比較手段
    と、 前記横断走査手段に前記画像を上から下へ行毎に横断走
    査させ、前記比較手段が現在の行のランレングスが前行
    より所定値を越えて増加していることを示す場合には、
    前記画像を水平に分割させる第1の処理手段と、 前記横断走査手段に前記画像を下から上へ行毎に横断走
    査させ、前記比較手段が以前に隣接する水平分割が行な
    われた領域でランレングスが所定値を越えて増加してい
    ることを示す場合には、前記画像を垂直に分割して前記
    第1の処理手段により行なわれた水平分割を再結合させ
    る第2の処理手段とを備えることを特徴とする画像処理
    装置。
  58. 【請求項58】 文字の中央近辺または文字のエッジ付
    近で水平分割が行なわれたかどうかを判定する判定手段
    をさらに含み、文字の中央近辺で水平分割が行なわれた
    と判定した場合は垂直分割を行ない、文字のエッジ付近
    で水平分割が行なわれたと判定した場合は画像を斜めに
    分割することを特徴とする請求項57に記載の画像処理
    装置。
  59. 【請求項59】 下線の付いた文字の画像を下線から分
    離するコンピュータに実行可能な処理ステップであっ
    て、 前記画像を上から下へ行毎に横断走査する第1の横断走
    査工程と、 各行について水平画素ランのランレングスを計算する第
    1の計算工程と、 各行のランレングスと前行のランレングスを比較する第
    1の比較工程と、 前記第1の比較工程が、ランレングスが所定値を越えて
    増加していることを示す場合には、前記画像を水平に分
    割する水平分割工程と、 分割された画像を下から上へ行毎に横断走査する第2の
    横断走査工程と、 各行について水平画素ランのランレングスを計算する第
    2の計算工程と、 各行のランレングスを前行のランレングスと比較する第
    2の比較工程と、 前記第2の比較工程が、以前に隣接する水平分割が行な
    われた領域においてランレングスが前記所定値を越えて
    増加していることを示す場合に、前記画像を垂直に分割
    して以前の水平分割を再結合する垂直分割工程とを備え
    ることを特徴とするコンピュータに実行可能な処理ステ
    ップ。
  60. 【請求項60】 文字の中央近辺または文字のエッジ付
    近で水平分割が行なわれたかどうかを判定する判定工程
    をさらに含み、文字の中央近辺で水平分割が行なわれた
    と判定した場合は垂直分割を行ない、文字のエッジ付近
    で水平分割が行なわれたと判定した場合は画像を斜めに
    分割することを特徴とする請求項59記載のコンピュー
    タに実行可能な処理ステップ。
  61. 【請求項61】 画像に対する画素データにおける連続
    成分を識別する画像処理装置であって、 連続成分のリストを開いて前記リストが空白になるよう
    に初期化する手段と、 前記画像を行毎に横断走査する横断走査手段と、 前記画像の現在の行における全水平画素セグメントを識
    別する識別手段と、 現在の行の水平画素セグメントを前行の水平画素セグメ
    ントと比較して、現在の行の水平画素セグメントが前行
    のオープン領域に隣接している第1のケースが存在する
    かどうか、現在の行の水平画素セグメントが前行の水平
    セグメントに隣接している第2のケースが存在するかど
    うか、現在の行の水平画素セグメントが連続成分のリス
    トの内の2つまたはそれ以上の連続成分にまたがってい
    る第3のケースが存在するかどうか、前行の水平画素セ
    グメントが現在の行のオープン領域に隣接している第4
    のケースが存在するかどうかを判定する比較手段と、 前記第1のケースが存在する場合に、新しい連続成分を
    スタートする手段と、 前記第2のケースが存在する場合に、連続成分のリスト
    における現在の連続成分を更新する手段と、 前記第3のケースが存在する場合に、現在のまたがって
    接続された成分を合併する手段と、 前記第4のケースが存在する場合に、連続成分のリスト
    における連続成分を閉じる手段と、 前記画像が横断走査された後に前記連続成分のリストを
    出力する手段とを備えることを特徴とする画像処理装
    置。
  62. 【請求項62】 画像に対する画素データにおける連続
    成分を識別する画像処理方法であって、 連続成分のリストを開いて前記リストが空白になるよう
    に初期化する初期化工程と、 前記画像を行毎に横断走査する横断走査工程と、 前記画像の現在の行における全水平画素セグメントを識
    別する識別工程と、 現在の行の水平画素セグメントを前行の水平画素セグメ
    ントと比較して、現在の行の水平画素セグメントが前行
    のオープン領域に隣接している第1のケースが存在する
    かどうか、現在の行の水平画素セグメントが前行の水平
    セグメントに隣接している第2のケースが存在するかど
    うか、現在の行の水平画素セグメントが連続成分のリス
    トの内の2つまたはそれ以上の連続成分にまたがってい
    る第3のケースが存在するかどうか、前行の水平画素セ
    グメントが現在の行のオープン領域に隣接している第4
    のケースが存在するかどうかを判定する比較工程と、 前記第1のケースが存在する場合に、新しい連続成分を
    スタートする工程と、 前記第2のケースが存在する場合に、連続成分のリスト
    における現在の連続成分を更新する工程と、 前記第3のケースが存在する場合に、現在のまたがって
    接続された成分を合併する工程と、 前記第4のケースが存在する場合に、連続成分のリスト
    における連続成分を閉じる工程と、 前記画像が横断走査された後に前記連続成分のリストを
    出力する工程とを備えることを特徴とする画像処理方
    法。
  63. 【請求項63】 画像に対する画素データにおける連続
    成分を識別する画像処理装置であって、 前記画像を格納し、前記画像を処理するためのインスト
    ラクションシーケンスを格納するメモリと、 前記インストラクションシーケンスを実行する処理部と
    を備え、 前記インストラクションシーケンスは、前記処理部に
    (a)連続成分のリストを開いて前記リストが空白にな
    るように初期化させ、(b)前記画像を行毎に横断走査
    させ、(c)前記画像の現在の行における全水平画素を
    セグメントを識別させ、(d)現在の行の水平画素セグ
    メントを前行の水平画素セグメントと比較して、現在の
    行の水平画素セグメントが前行のオープン領域に隣接し
    ている第1のケースが存在するかどうか、現在の行の水
    平画素セグメントが前行の水平セグメントに隣接してい
    る第2のケースが存在するかどうか、現在の行の水平画
    素セグメントが連続成分のリストの内の2つまたはそれ
    以上の連続成分にまたがっている第3のケースが存在す
    るかどうか、前行の水平画素セグメントが現在の行のオ
    ープン領域に隣接している第4のケースが存在するかど
    うかを判定させ、(e)前記第1のケースが存在する場
    合に、新しい連続成分をスタートさせ、(f)前記第2
    のケースが存在する場合に、連続成分のリストにおける
    現在の連続成分を更新させ、(g)前記第3のケースが
    存在する場合に、現在のまたがって接続された成分を合
    併させ、(h)前記第4のケースが存在する場合に、連
    続成分のリストにおける連続成分を閉じさせ、(i)前
    記画像が横断走査された後に前記連続成分のリストを出
    力させる処理工程を含むことを特徴とする画像処理装
    置。
  64. 【請求項64】 画像に対する画素データにおける連続
    成分を識別するコンピュータに実行可能な処理ステップ
    であって、 連続成分のリストを開いて前記リストが空白になるよう
    に初期化するオープニング工程と、 前記画像を行毎に横断走査する横断走査工程と、 前記画像の現在の行における全水平画素セグメントを識
    別する識別工程と、 現在の行の水平画素セグメントを前行の水平画素セグメ
    ントと比較して、現在の行の水平画素セグメントが前行
    のオープン領域に隣接している第1のケースが存在する
    かどうか、現在の行の水平画素セグメントが前行の水平
    セグメントに隣接している第2のケースが存在するかど
    うか、下内の行の水平画素セグメントが連続成分のリス
    トの内の2つまたはそれ以上の連続成分にまたがってい
    る第3のケースが存在するかどうか、前行の水平画素セ
    グメントが現在の行のオープン領域に隣接している第4
    のケースが存在するかどうかを判定する比較工程と、 前記第1のケースが存在する場合に、新しい連続成分を
    スタートする第1の処理工程と、 前記第2のケースが存在する場合に、連続成分のリスト
    における現在の連続成分を更新する第2の処理工程と、 前記第3のケースが存在する場合に、現在のまたがって
    接続された成分を合併する第3の処理工程と、 前記第4のケースが存在する場合に、連続成分のリスト
    における連続成分を閉じる第4の処理工程と、 前記画像が横断走査された後に前記連続成分のリストを
    出力する出力工程とを備えることを特徴とする画像処理
    装置。
  65. 【請求項65】 文字画像と非文字画像の両方を含む画
    像における文字位置を決定するセグメンテーション装置
    であって、 前記画像における連続成分の位置を決定する位置決定手
    段と、 前記連続成分の各々の画像属性を獲得する獲得手段と、 文字画像を非文字画像から分離するために前記獲得手段
    で獲得された画像属性に基づいて各連続成分をフィルタ
    リングするフィルタリング手段とを備え、前記フィルタ
    リング手段は各連続成分について、前記画像属性に複数
    セットのルールを連続的に適用する手段を含むことを特
    徴とするセグメンテーション装置。
  66. 【請求項66】 前記画像属性は物理的な画像属性を含
    み、該物理的な画像属性はアスペクト比、画素カウン
    ト、密度、周囲、周囲対幅の比を含むことを特徴とする
    請求項65に記載のセグメンテーション装置。
  67. 【請求項67】 各連続成分は「未知」に初期化され
    る、関連するタイプを有し、前記複数のセットのルール
    は各「未知」のタイプのままの連続成分に連続的に適用
    されることを特徴とする請求項65に記載のセグメンテ
    ーション装置。
  68. 【請求項68】 前記複数セットのルールの各セットを
    適用した結果に従って、各連続成分のタイプは「テキス
    ト」または「非テキスト」にセットされるか、あるいは
    「未知」のままであることを特徴とする請求項67に記
    載のセグメンテーション装置。
  69. 【請求項69】 前記複数セットのルールは、非テキス
    トタイプの連続成分とテキストタイプの連続成分との区
    分の決定が容易なものが先に適用され、区分の決定の困
    難なものが後で適用されるように、連続的に適用される
    ことを特徴とする請求項67に記載のセグメンテーショ
    ン装置。
  70. 【請求項70】 全てのテキストタイプの連続成分を検
    査してそれらが他のテキストタイプの連続成分から孤立
    しているかどうかを判定し、孤立したテキストタイプの
    連続成分を非テキストタイプにセットする検査手段をさ
    らに備えることを特徴とする請求項67に記載のセグメ
    ンテーション装置。
  71. 【請求項71】 文字画像と非文字画像の両方を含む画
    像における文字位置を決定するセグメンテーション装置
    であって、 前記画像を格納し、前記画像における連続成分の画像属
    性に適用可能な複数セットのルールを格納し、グレイス
    ケール画像を処理するためのインストラクションシーケ
    ンスを格納するメモリと、 前記インストラクションシーケンスを実行する処理部と
    を備え、 前記インストラクションシーケンスは前記処理部に
    (a)前記画像における連続成分の位置を決定させ、
    (b)前記連続成分の各々について画像属性を獲得し、
    (c)前記複数セットのルールを各連続成分に対する画
    像属性に連続的に適用することによって、文字画像を非
    文字画像から分離するように、前記画像属性に基づいて
    各連続成分をフィルタリングさせる処理工程を含むこと
    を特徴とするセグメンテーション装置。
  72. 【請求項72】 前記画像属性は物理的画像属性を含
    み、該物理的画像属性はアスペクト比、画素カウント、
    密度、周囲、周囲対幅の比を含むことを特徴とする請求
    項71に記載のセグメンテーション装置。
  73. 【請求項73】 各連続成分は「未知」に初期化され
    る、関連するタイプを有し、前記複数のセットのルール
    は各「未知」のタイプままの連続成分に連続的に適用さ
    れることを特徴とする請求項71に記載のセグメンテー
    ション装置。
  74. 【請求項74】 前記複数セットのルールの各セットを
    適用した結果に従って、各連続成分のタイプは「テキス
    ト」または「非テキスト」にセットされるか、あるいは
    「未知」のままであることを特徴とする請求項73に記
    載のセグメンテーション装置。
  75. 【請求項75】 前記複数セットのルールは、非テキス
    トタイプの連続成分とテキストタイプの連続成分との区
    分の決定が容易なものが先に適用され、区分の決定の困
    難なものが後で適用されるように、連続的に適用される
    ことを特徴とする請求項71に記載のセグメンテーショ
    ン装置。
  76. 【請求項76】 前記インストラクションシーケンスは
    前記処理部に全てのテキストタイプの連続成分を検査し
    てそれらが他のテキストタイプの連続成分から孤立して
    いるかどうかを判定し、孤立したテキストタイプの連続
    成分を非テキストタイプにセットさせる処理工程を含む
    ことを特徴とする請求項71に記載のセグメンテーショ
    ン装置。
  77. 【請求項77】 文字画像と非文字画像の両方を含む画
    像における文字位置を決定するセグメンテーション方法
    であって、 前記画像における連続成分の位置を決定する位置決定工
    程と、 前記連続成分の各々の画像属性を獲得する獲得工程と、 文字画像を非文字画像から分離するために前記獲得工程
    で獲得された画像属性に基づいて各連続成分をフィルタ
    リングするフィルタリング工程とを備え、 前記フィルタリング工程は各連続成分について、前記画
    像属性に複数セットのルールを連続的に適用する手段を
    含むことを特徴とするセグメンテーション方法。
  78. 【請求項78】 前記画像属性は物理的画像属性を含
    み、該物理的画像属性はアスペクト比、画素カウント、
    密度、周囲、周囲対幅の比を含むことを特徴とする請求
    項77に記載のセグメンテーション方法。
  79. 【請求項79】 各連続成分は「未知」に初期化され
    る、関連するタイプを有し、前記複数のセットのルール
    は各「未知」のタイプままの連続成分に連続的に適用さ
    れることを特徴とする請求項77に記載のセグメンテー
    ション方法。
  80. 【請求項80】 前記複数セットのルールの各セットを
    適用した結果に従って、各連続成分のタイプは「テキス
    ト」または「非テキスト」にセットされるか、あるいは
    「未知」のままであることを特徴とする請求項79に記
    載のセグメンテーション方法。
  81. 【請求項81】 前記複数セットのルールは、非テキス
    トタイプの連続成分とテキストタイプの連続成分との区
    分の決定が容易なものが先に適用され、区分の決定の困
    難なものが後で適用されるように、連続的に適用される
    ことを特徴とする請求項77に記載のセグメンテーショ
    ン方法。
  82. 【請求項82】 全てのテキストタイプの連続成分を検
    査してそれらが他のテキストタイプの連続成分から孤立
    しているかどうかを判定し、孤立したテキストタイプの
    連続成分を非テキストタイプにセットする工程をさらに
    含むことを特徴とする請求項77に記載のセグメンテー
    ション方法。
  83. 【請求項83】 文字画像と非文字画像の両方を含む画
    像における文字位置を決定するコンピュータに実行可能
    な処理ステップであって、 前記画像における連続成分の位置を決定する位置決定工
    程と、 前記連続成分の各々の画像属性を獲得する獲得工程と、 文字画像を非文字画像から分離するために前記獲得工程
    で獲得された画像属性に基づいて各連続成分をフィルタ
    リングするフィルタリング工程とを備え、 前記フィルタリング工程は各連続成分について、前記画
    像属性に複数セットのルールを連続的に適用する手段を
    含むことを特徴とするコンピュータに実行可能な処理ス
    テップ。
  84. 【請求項84】 前記画像属性は物理的画像属性を含
    み、該物理的画像属性はアスペクト比、画素カウント、
    密度、周囲、周囲対幅の比を含むことを特徴とする請求
    項83記載のコンピュータに実行可能な処理ステップ。
  85. 【請求項85】 各連続成分は「未知」に初期化され
    る、関連するタイプを有し、前記複数のセットのルール
    は各「未知」のタイプままの連続成分に連続的に適用さ
    れることを特徴とする請求項83記載のコンピュータに
    実行可能な処理ステップ。
  86. 【請求項86】 前記複数セットのルールの各セットを
    適用した結果に従って、各連続成分のタイプは「テキス
    ト」または「非テキスト」にセットされるか、あるいは
    「未知」のままであることを特徴とする請求項85記載
    のコンピュータに実行可能な処理ステップ。
  87. 【請求項87】 前記複数セットのルールは、非テキス
    トタイプの連続成分とテキストタイプの連続成分との区
    分の決定が容易なものが先に適用され、区分の決定の困
    難なものが後で適用されるように、連続的に適用される
    ことを特徴とする請求項83記載のコンピュータに実行
    可能な処理ステップ。
  88. 【請求項88】 全てのテキストタイプの連続成分を検
    査してそれらが他のテキストタイプの連続成分から孤立
    しているかどうかを判定し、孤立したテキストタイプの
    連続成分を非テキストタイプにセットする工程をさらに
    含むことを特徴とする請求項83記載のコンピュータに
    実行可能な処理ステップ。
JP08944195A 1994-04-15 1995-04-14 画像処理方法及び装置 Expired - Fee Related JP4065460B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US22837294A 1994-04-15 1994-04-15
US08/228372 1994-04-15

Publications (2)

Publication Number Publication Date
JPH0863548A true JPH0863548A (ja) 1996-03-08
JP4065460B2 JP4065460B2 (ja) 2008-03-26

Family

ID=22856917

Family Applications (1)

Application Number Title Priority Date Filing Date
JP08944195A Expired - Fee Related JP4065460B2 (ja) 1994-04-15 1995-04-14 画像処理方法及び装置

Country Status (4)

Country Link
US (2) US5761344A (ja)
EP (2) EP0811946A3 (ja)
JP (1) JP4065460B2 (ja)
DE (1) DE69516751T2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011166768A (ja) * 2010-02-05 2011-08-25 Palo Alto Research Center Inc 微細固有特徴生成方法およびドキュメント画像処理システム
JP2016048900A (ja) * 2014-08-28 2016-04-07 富士フイルム株式会社 色変換テーブル作成装置及び方法、並びにプログラム

Families Citing this family (129)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5903892A (en) * 1996-05-24 1999-05-11 Magnifi, Inc. Indexing of media content on a network
US6374260B1 (en) 1996-05-24 2002-04-16 Magnifi, Inc. Method and apparatus for uploading, indexing, analyzing, and searching media content
US6370543B2 (en) * 1996-05-24 2002-04-09 Magnifi, Inc. Display of media previews
US5956701A (en) * 1997-06-13 1999-09-21 International Business Machines Corporation Method and system for using an artificial neural net for image map processing
US6006226A (en) * 1997-09-24 1999-12-21 Ricoh Company Limited Method and system for document image feature extraction
US6731788B1 (en) 1999-01-28 2004-05-04 Koninklijke Philips Electronics N.V. Symbol Classification with shape features applied to neural network
JP2001060247A (ja) * 1999-06-14 2001-03-06 Fuji Xerox Co Ltd 画像処理装置および画像処理方法
JP3204259B2 (ja) * 1999-10-06 2001-09-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字列抽出方法、手書き文字列抽出方法、文字列抽出装置、および画像処理装置
US6529641B1 (en) * 1999-10-29 2003-03-04 Eastman Kodak Company Method for deskewing a scanned text image
US6704722B2 (en) * 1999-11-17 2004-03-09 Xerox Corporation Systems and methods for performing crawl searches and index searches
US6674900B1 (en) 2000-03-29 2004-01-06 Matsushita Electric Industrial Co., Ltd. Method for extracting titles from digital images
US6757081B1 (en) * 2000-04-07 2004-06-29 Hewlett-Packard Development Company, L.P. Methods and apparatus for analyzing and image and for controlling a scanner
US7672022B1 (en) * 2000-04-07 2010-03-02 Hewlett-Packard Development Company, L.P. Methods and apparatus for analyzing an image
JP3426189B2 (ja) * 2000-04-26 2003-07-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 画像処理方法、相対濃度の検出方法、および画像処理装置
GB2364416B (en) * 2000-06-30 2004-10-27 Post Office Image processing for clustering related text objects
US6842265B1 (en) * 2000-09-29 2005-01-11 Hewlett-Packard Development Company, L.P. Method and apparatus for controlling image orientation of scanner apparatus
US6792142B1 (en) * 2001-01-16 2004-09-14 Micron Technology, Inc. Image sensing system with histogram modification
US7392287B2 (en) 2001-03-27 2008-06-24 Hemisphere Ii Investment Lp Method and apparatus for sharing information using a handheld device
US20030037302A1 (en) * 2001-06-24 2003-02-20 Aliaksei Dzienis Systems and methods for automatically converting document file formats
EP1271403B1 (en) 2001-06-26 2005-03-09 Nokia Corporation Method and device for character location in images from digital camera
US20030095722A1 (en) * 2001-11-19 2003-05-22 Regimbal Laurent A. Method and apparatus to detect and compensate for skew in a printing device
US6898314B2 (en) * 2001-12-26 2005-05-24 Lockheed Martin Corporation Grayscale image connected components segmentation
US7359098B2 (en) * 2002-09-06 2008-04-15 Kabushiki Kaisha Toshiba System and method for testing scan and fax jobs
US20040240735A1 (en) * 2003-04-29 2004-12-02 Mitchell Medina Intelligent text selection tool and method of operation
US7349918B2 (en) * 2003-06-30 2008-03-25 American Express Travel Related Services Company, Inc. Method and system for searching binary files
DE10344238A1 (de) * 2003-09-24 2005-04-28 Oce Printing Systems Gmbh Verfahren und Einrichtung zur Korrektur der Papierschrumpfung bei der Generierung einer Bitmap
EP1555804A3 (en) * 2004-01-19 2006-08-16 Ricoh Company, Ltd. Image processing apparatus, image processing program and storage medium
US9236043B2 (en) * 2004-04-02 2016-01-12 Knfb Reader, Llc Document mode processing for portable reading machine enabling document navigation
US7641108B2 (en) * 2004-04-02 2010-01-05 K-Nfb Reading Technology, Inc. Device and method to assist user in conducting a transaction with a machine
US8873890B2 (en) * 2004-04-02 2014-10-28 K-Nfb Reading Technology, Inc. Image resizing for optical character recognition in portable reading machine
US7627142B2 (en) * 2004-04-02 2009-12-01 K-Nfb Reading Technology, Inc. Gesture processing with low resolution images with high resolution processing for optical character recognition for a reading machine
US7505056B2 (en) * 2004-04-02 2009-03-17 K-Nfb Reading Technology, Inc. Mode processing in portable reading machine
US7659915B2 (en) * 2004-04-02 2010-02-09 K-Nfb Reading Technology, Inc. Portable reading device with mode processing
US8036895B2 (en) * 2004-04-02 2011-10-11 K-Nfb Reading Technology, Inc. Cooperative processing for portable reading machine
US7840033B2 (en) * 2004-04-02 2010-11-23 K-Nfb Reading Technology, Inc. Text stitching from multiple images
US7629989B2 (en) * 2004-04-02 2009-12-08 K-Nfb Reading Technology, Inc. Reducing processing latency in optical character recognition for portable reading machine
US20060020486A1 (en) * 2004-04-02 2006-01-26 Kurzweil Raymond C Machine and method to assist user in selecting clothing
US7325735B2 (en) * 2004-04-02 2008-02-05 K-Nfb Reading Technology, Inc. Directed reading mode for portable reading machine
US8320708B2 (en) 2004-04-02 2012-11-27 K-Nfb Reading Technology, Inc. Tilt adjustment for optical character recognition in portable reading machine
US8249309B2 (en) * 2004-04-02 2012-08-21 K-Nfb Reading Technology, Inc. Image evaluation for reading mode in a reading machine
JP4574235B2 (ja) * 2004-06-04 2010-11-04 キヤノン株式会社 画像処理装置、及びその制御方法、プログラム
TWI238645B (en) * 2004-06-08 2005-08-21 Benq Corp Titled angle detection for document image deskew
JP4533067B2 (ja) * 2004-09-27 2010-08-25 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
US8369655B2 (en) 2006-07-31 2013-02-05 Ricoh Co., Ltd. Mixed media reality recognition using multiple specialized indexes
US8195659B2 (en) 2005-08-23 2012-06-05 Ricoh Co. Ltd. Integration and use of mixed media documents
US8949287B2 (en) 2005-08-23 2015-02-03 Ricoh Co., Ltd. Embedding hot spots in imaged documents
US8385589B2 (en) 2008-05-15 2013-02-26 Berna Erol Web-based content detection in images, extraction and recognition
US8276088B2 (en) 2007-07-11 2012-09-25 Ricoh Co., Ltd. User interface for three-dimensional navigation
US8838591B2 (en) 2005-08-23 2014-09-16 Ricoh Co., Ltd. Embedding hot spots in electronic documents
US8005831B2 (en) 2005-08-23 2011-08-23 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment with geographic location information
US8086038B2 (en) 2007-07-11 2011-12-27 Ricoh Co., Ltd. Invisible junction features for patch recognition
US9530050B1 (en) 2007-07-11 2016-12-27 Ricoh Co., Ltd. Document annotation sharing
US7885955B2 (en) 2005-08-23 2011-02-08 Ricoh Co. Ltd. Shared document annotation
US7991778B2 (en) 2005-08-23 2011-08-02 Ricoh Co., Ltd. Triggering actions with captured input in a mixed media environment
US8868555B2 (en) 2006-07-31 2014-10-21 Ricoh Co., Ltd. Computation of a recongnizability score (quality predictor) for image retrieval
US8144921B2 (en) 2007-07-11 2012-03-27 Ricoh Co., Ltd. Information retrieval using invisible junctions and geometric constraints
US8510283B2 (en) 2006-07-31 2013-08-13 Ricoh Co., Ltd. Automatic adaption of an image recognition system to image capture devices
US9373029B2 (en) 2007-07-11 2016-06-21 Ricoh Co., Ltd. Invisible junction feature recognition for document security or annotation
US9405751B2 (en) 2005-08-23 2016-08-02 Ricoh Co., Ltd. Database for mixed media document system
US9171202B2 (en) 2005-08-23 2015-10-27 Ricoh Co., Ltd. Data organization and access for mixed media document system
US8176054B2 (en) 2007-07-12 2012-05-08 Ricoh Co. Ltd Retrieving electronic documents by converting them to synthetic text
US7702673B2 (en) 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
US8335789B2 (en) 2004-10-01 2012-12-18 Ricoh Co., Ltd. Method and system for document fingerprint matching in a mixed media environment
US8989431B1 (en) 2007-07-11 2015-03-24 Ricoh Co., Ltd. Ad hoc paper-based networking with mixed media reality
US8600989B2 (en) * 2004-10-01 2013-12-03 Ricoh Co., Ltd. Method and system for image matching in a mixed media environment
US8156427B2 (en) 2005-08-23 2012-04-10 Ricoh Co. Ltd. User interface for mixed media reality
US7917554B2 (en) 2005-08-23 2011-03-29 Ricoh Co. Ltd. Visibly-perceptible hot spots in documents
US8332401B2 (en) 2004-10-01 2012-12-11 Ricoh Co., Ltd Method and system for position-based image matching in a mixed media environment
US8825682B2 (en) * 2006-07-31 2014-09-02 Ricoh Co., Ltd. Architecture for mixed media reality retrieval of locations and registration of images
US8521737B2 (en) * 2004-10-01 2013-08-27 Ricoh Co., Ltd. Method and system for multi-tier image matching in a mixed media environment
US8156116B2 (en) * 2006-07-31 2012-04-10 Ricoh Co., Ltd Dynamic presentation of targeted information in a mixed media reality recognition system
US7920759B2 (en) 2005-08-23 2011-04-05 Ricoh Co. Ltd. Triggering applications for distributed action execution and use of mixed media recognition as a control input
US9384619B2 (en) 2006-07-31 2016-07-05 Ricoh Co., Ltd. Searching media content for objects specified using identifiers
US8184155B2 (en) 2007-07-11 2012-05-22 Ricoh Co. Ltd. Recognition and tracking using invisible junctions
US8856108B2 (en) 2006-07-31 2014-10-07 Ricoh Co., Ltd. Combining results of image retrieval processes
US7970171B2 (en) 2007-01-18 2011-06-28 Ricoh Co., Ltd. Synthetic image and video generation from ground truth data
AU2004242419A1 (en) * 2004-12-21 2006-07-06 Canon Kabushiki Kaisha Analysing digital image of a document page
DE602005026862D1 (de) * 2004-12-21 2011-04-21 Canon Kk Segmentierung eines digitalen bildes und herstellung einer kompakten repräsentation
US9769354B2 (en) * 2005-03-24 2017-09-19 Kofax, Inc. Systems and methods of processing scanned data
NO20052656D0 (no) * 2005-06-02 2005-06-02 Lumex As Geometrisk bildetransformasjon basert pa tekstlinjesoking
US7636467B2 (en) 2005-07-29 2009-12-22 Nokia Corporation Binarization of an image
WO2007063705A1 (ja) * 2005-11-29 2007-06-07 Nec Corporation パターン認識装置、パターン認識方法、およびパターン認識プログラム
US7650041B2 (en) * 2006-02-24 2010-01-19 Symbol Technologies, Inc. System and method for optical character recognition in an image
US8073263B2 (en) 2006-07-31 2011-12-06 Ricoh Co., Ltd. Multi-classifier selection and monitoring for MMR-based image recognition
US8201076B2 (en) 2006-07-31 2012-06-12 Ricoh Co., Ltd. Capturing symbolic information from documents upon printing
US9176984B2 (en) 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US9063952B2 (en) 2006-07-31 2015-06-23 Ricoh Co., Ltd. Mixed media reality recognition with image tracking
US8676810B2 (en) 2006-07-31 2014-03-18 Ricoh Co., Ltd. Multiple index mixed media reality recognition using unequal priority indexes
US9020966B2 (en) 2006-07-31 2015-04-28 Ricoh Co., Ltd. Client device for interacting with a mixed media reality recognition system
US8489987B2 (en) 2006-07-31 2013-07-16 Ricoh Co., Ltd. Monitoring and analyzing creation and usage of visual content using image and hotspot interaction
CN101354746B (zh) * 2007-07-23 2011-08-31 夏普株式会社 文字图像抽出装置及文字图像抽出方法
US8023741B2 (en) * 2008-05-23 2011-09-20 Sharp Laboratories Of America, Inc. Methods and systems for detecting numerals in a digital image
US8023770B2 (en) * 2008-05-23 2011-09-20 Sharp Laboratories Of America, Inc. Methods and systems for identifying the orientation of a digital image
US8331680B2 (en) * 2008-06-23 2012-12-11 International Business Machines Corporation Method of gray-level optical segmentation and isolation using incremental connected components
US8300945B2 (en) * 2008-07-28 2012-10-30 Sharp Laboratories Of America, Inc. Methods and systems for connected-component labeling
US8620080B2 (en) 2008-09-26 2013-12-31 Sharp Laboratories Of America, Inc. Methods and systems for locating text in a digital image
US9767354B2 (en) 2009-02-10 2017-09-19 Kofax, Inc. Global geographic information retrieval, validation, and normalization
US9576272B2 (en) 2009-02-10 2017-02-21 Kofax, Inc. Systems, methods and computer program products for determining document validity
US8555359B2 (en) * 2009-02-26 2013-10-08 Yodlee, Inc. System and methods for automatically accessing a web site on behalf of a client
US8385660B2 (en) 2009-06-24 2013-02-26 Ricoh Co., Ltd. Mixed media reality indexing and retrieval for repeated content
CN101782966B (zh) * 2010-02-11 2012-07-04 上海点佰趣信息科技有限公司 指纹图像二值化处理方法
KR20120017670A (ko) * 2010-08-19 2012-02-29 삼성전자주식회사 화상 통신 방법 및 장치
US8731296B2 (en) * 2011-04-21 2014-05-20 Seiko Epson Corporation Contact text detection in scanned images
US9058331B2 (en) 2011-07-27 2015-06-16 Ricoh Co., Ltd. Generating a conversation in a social network based on visual search results
US20130163871A1 (en) * 2011-12-22 2013-06-27 General Electric Company System and method for segmenting image data to identify a character-of-interest
US9514357B2 (en) 2012-01-12 2016-12-06 Kofax, Inc. Systems and methods for mobile image capture and processing
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
JP5906788B2 (ja) * 2012-02-17 2016-04-20 オムロン株式会社 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム
US9922263B2 (en) 2012-04-12 2018-03-20 Tata Consultancy Services Limited System and method for detection and segmentation of touching characters for OCR
JP5960010B2 (ja) * 2012-09-26 2016-08-02 日本電産サンキョー株式会社 画像処理装置、画像処理方法、およびプログラム
WO2014160426A1 (en) 2013-03-13 2014-10-02 Kofax, Inc. Classifying objects in digital images captured using mobile devices
US9355312B2 (en) 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US9208536B2 (en) 2013-09-27 2015-12-08 Kofax, Inc. Systems and methods for three dimensional geometric reconstruction of captured image data
US20140316841A1 (en) 2013-04-23 2014-10-23 Kofax, Inc. Location-based workflows and services
EP2992481A4 (en) 2013-05-03 2017-02-22 Kofax, Inc. Systems and methods for detecting and classifying objects in video captured using mobile devices
US9646221B2 (en) 2013-07-24 2017-05-09 Nec Corporation Image recognition apparatus and storage medium
JP2016538783A (ja) 2013-11-15 2016-12-08 コファックス, インコーポレイテッド モバイル映像データを用いて長尺文書の合成画像を生成するためのシステムおよび方法
US11080777B2 (en) 2014-03-31 2021-08-03 Monticello Enterprises LLC System and method for providing a social media shopping experience
US9305239B2 (en) * 2014-05-13 2016-04-05 Samsung Electronics Co., Ltd. Detecting and processing small text in digital media
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
US9779296B1 (en) 2016-04-01 2017-10-03 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US10169650B1 (en) * 2017-06-30 2019-01-01 Konica Minolta Laboratory U.S.A., Inc. Identification of emphasized text in electronic documents
US11062176B2 (en) 2017-11-30 2021-07-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
US10769827B1 (en) * 2018-04-25 2020-09-08 Facebook, Inc. Determining whether to overlay text included in a content item on an image included in the content item for presentation to a user of an online system
JP2020067959A (ja) * 2018-10-26 2020-04-30 キヤノン株式会社 画像処理装置、その制御方法及びプログラム
CN111412864B (zh) * 2020-02-26 2021-12-07 长安大学 一种基于磨痕灰度相似性的磨痕角自动检测方法
RU2734577C1 (ru) * 2020-03-20 2020-10-20 Федеральное государственное бюджетное образовательное учреждение высшего образования «Омский государственный технический университет» Способ определения траектории и погрешности движения листа в печатной машине при его передаче из захватов в захваты
CN113780131B (zh) * 2021-08-31 2024-04-12 众安在线财产保险股份有限公司 文本图像朝向识别方法和文本内容识别方法、装置、设备

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3979555A (en) * 1975-05-27 1976-09-07 Hughes Aircraft Company Histogram equalization system for display improvement
JPS5537092A (en) * 1978-09-05 1980-03-14 Ibm Mode switch for setting threshold value
US4326258A (en) * 1980-01-31 1982-04-20 Ncr Canada Ltd - Ncr Canada Ltee Method and apparatus for reducing the gray scale resolution of a digitized image
JPS59106079A (ja) * 1982-12-10 1984-06-19 Omron Tateisi Electronics Co 図形照合装置の二値化装置
JPS59125176A (ja) * 1982-12-30 1984-07-19 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン ビデオイメ−ジのシエ−ジング効果の補正装置
FR2542011B1 (fr) * 1983-03-01 1985-11-29 Centre Nat Rech Scient Vecteurs de clonage et d'expression du gene sacb et procede pour la preparation de la levansaccharase
US4802229A (en) * 1983-04-12 1989-01-31 Canon Kabushiki Kaisha Image processing system
US4558461A (en) * 1983-06-17 1985-12-10 Litton Systems, Inc. Text line bounding system
US4741046A (en) * 1984-07-27 1988-04-26 Konishiroku Photo Industry Co., Ltd. Method of discriminating pictures
US4723297A (en) * 1984-09-27 1988-02-02 Siemens Aktiengesellschaft Method for automatic correction of character skew in the acquisition of a text original in the form of digital scan results
EP0177823A1 (de) * 1984-09-27 1986-04-16 Siemens Aktiengesellschaft Verfahren zur Selektion, insbesondere zur Selektion und Löschung horizontaler und/oder vertikaler linien in digitalsierten Faksimiles
US4656665A (en) * 1985-01-15 1987-04-07 International Business Machines Corporation Thresholding technique for graphics images using histogram analysis
JPH0750483B2 (ja) * 1985-05-22 1995-05-31 株式会社日立製作所 文書画像追加情報の蓄積方法
US4985930A (en) * 1987-09-24 1991-01-15 Hitachi, Ltd. Image data filing system and image data correcting method
US5125045A (en) * 1987-11-20 1992-06-23 Hitachi, Ltd. Image processing system
US5101448A (en) * 1988-08-24 1992-03-31 Hitachi, Ltd. Method and apparatus for processing a document by utilizing an image
JPH02214976A (ja) * 1989-02-16 1990-08-27 Seiko Epson Corp 電子翻訳器
JPH02287684A (ja) * 1989-04-28 1990-11-27 Ibm Japan Ltd イメージ処理装置および方法
US5537483A (en) * 1989-10-03 1996-07-16 Staplevision, Inc. Automated quality assurance image processing system
JP2940960B2 (ja) * 1989-10-31 1999-08-25 株式会社日立製作所 画像の傾き検出方法および補正方法ならびに画像情報処理装置
US5187753A (en) * 1989-12-08 1993-02-16 Xerox Corporation Method and apparatus for identification and correction of document skew
US5245676A (en) * 1989-12-21 1993-09-14 Xerox Corporation Determination of image skew angle from data including data in compressed form
JPH041866A (ja) * 1990-04-18 1992-01-07 Toyobo Co Ltd 画像処理方法およびその装置
US5054098A (en) * 1990-05-21 1991-10-01 Eastman Kodak Company Method of detecting the skew angle of a printed business form
US5452374A (en) * 1992-04-06 1995-09-19 Ricoh Corporation Skew detection and correction of a document image representation
EP0677811A1 (en) * 1994-04-15 1995-10-18 Canon Kabushiki Kaisha Image processing system with on-the-fly JPEG compression

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011166768A (ja) * 2010-02-05 2011-08-25 Palo Alto Research Center Inc 微細固有特徴生成方法およびドキュメント画像処理システム
JP2016048900A (ja) * 2014-08-28 2016-04-07 富士フイルム株式会社 色変換テーブル作成装置及び方法、並びにプログラム

Also Published As

Publication number Publication date
EP0677818B1 (en) 2000-05-10
JP4065460B2 (ja) 2008-03-26
US5818978A (en) 1998-10-06
EP0677818A3 (en) 1996-09-18
DE69516751T2 (de) 2000-10-05
EP0811946A2 (en) 1997-12-10
US5761344A (en) 1998-06-02
EP0677818A2 (en) 1995-10-18
DE69516751D1 (de) 2000-06-15
EP0811946A3 (en) 1998-01-14

Similar Documents

Publication Publication Date Title
JP4065460B2 (ja) 画像処理方法及び装置
JP3792747B2 (ja) 文字認識装置及び方法
JP3696920B2 (ja) ドキュメント格納装置及び方法
JPH0869505A (ja) 画像処理システム
JP3727974B2 (ja) 画像処理装置及び方法
US6574375B1 (en) Method for detecting inverted text images on a digital scanning device
US7664321B2 (en) Image processing method, system, program, program storage medium and information processing apparatus
US6711292B2 (en) Block selection of table features
US20040213458A1 (en) Image processing method and system
JPH07200745A (ja) 少なくとも二つのイメージセクションの比較方法
Ramel et al. User-driven page layout analysis of historical printed books
JPH01253077A (ja) 文字列検出方法
JPH0863546A (ja) 情報抽出方法および画像修復方法並びに画像修復システム
Lakshmi et al. An optical character recognition system for printed Telugu text
StevensÝ et al. Automatic processing of document annotations
Winder et al. Extending page segmentation algorithms for mixed-layout document processing
US20090290797A1 (en) Image processing for storing objects separated from an image in a storage device
JPH04502526A (ja) 像認識
JPH06103411A (ja) 文書読取装置
Aparna et al. A complete OCR system development of Tamil magazine documents
Li An implementation of ocr system based on skeleton matching
KR100317653B1 (ko) 대용량인쇄체문자인식을위한특징추출방법
Prasath et al. CHAPTER FOURTEEN Optical Character Recognition using Deep Learning Techniques
Xu et al. A new algorithm separating text strings from map images
Sandar A Comparison of Recognition for Off-line Myanmar Handwriting and Printed Characters

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060120

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080105

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110111

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120111

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130111

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140111

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees