JPH06259597A - ドキュメントイメージ処理方法並びに文字認識システムおよびドキュメントイメージ処理装置 - Google Patents

ドキュメントイメージ処理方法並びに文字認識システムおよびドキュメントイメージ処理装置

Info

Publication number
JPH06259597A
JPH06259597A JP5347855A JP34785593A JPH06259597A JP H06259597 A JPH06259597 A JP H06259597A JP 5347855 A JP5347855 A JP 5347855A JP 34785593 A JP34785593 A JP 34785593A JP H06259597 A JPH06259597 A JP H06259597A
Authority
JP
Japan
Prior art keywords
document image
document
data set
moment
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5347855A
Other languages
English (en)
Inventor
Efu Karen Jiyon
エフ. カレン ジョン
Jii Sutooku Deibitsudo
ジー. ストーク デイビッド
Haato Piitaa
ハート ピーター
Koichi Ejiri
公一 江尻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JPH06259597A publication Critical patent/JPH06259597A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1463Orientation detection or correction, e.g. rotation of multiples of 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【目的】 ドキュメントを蓄積したり再生したりする
際に、ドキュメントのページやテキストの向きが正しい
か否かを極めて容易に検出することが可能である。 【構成】 ドキュメントイメ−ジ内において、画素デ
ータの複数のスキャンラインを含むテキストブロックを
それぞれ識別し、前記テキストブロックの所定の組内に
おいて前記複数の各スキャンラインごとに2つの論理値
のうちのいずれか一方をもつ画素データ数を総計してサ
ンプルデータセットを取得し、前記サンプルデータセッ
トのモーメントを計算し、前記サンプルデータセットの
前記モーメントと既知の向きをもつ複数のドキュメント
イメ−ジについて標準化されたモーメントデータとを比
較して、ドキュメントイメージの向きが逆向きか否かを
検出する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、ドキュメントイメ−ジ
処理方法並びに文字認識システムおよびドキュメントイ
メージ処理装置に関する。
【0002】
【従来の技術】ドキュメントイメージは、2次元の印刷
物の視覚的表現である。ドキュメントイメージは、ドキ
ュメント対象を光学的にスキャンすることによって,す
なわち、ラスタデジタル化することによって得ることが
できる。ドキュメントイメージを得るのに用いられる装
置には、複写機、ファクシミリ装置およびデジタルスキ
ャナーが、広く知られている。これらのドキュメントイ
メージ処理装置は、印刷された情報を効率的に収集した
り広めるために、今日のビジネス界において重要な手段
となっている。
【0003】
【発明が解決しようとする課題】しかしながら、多数の
ページやイメージを持つドキュメントでは、個々のペー
ジやイメージが、そのドキュメント内にある他のイメー
ジやテキストに対して不適切な向きになっている場合が
ある。例えば、多ページドキュメントの1つのページ
が、そのドキュメントの他の部分と比べて、逆向きにな
っていることがある。このときには、収集されたドキュ
メントの読者に迷惑をかける。さらに、不適切な向きの
イメージがあると、ドキュメント制作者が慎重でないと
か,あるいは、プロフェッショナルでないとか、否定的
に解釈される恐れもある。
【0004】現在、不適切な向きのイメージを検出する
のに広く行なわれている方法は、ドキュメントを収集(a
ssembly)したり再生(reproduction)したりするのに先
立って、ドキュメントを視覚で(すなわち、人間が見て)
検査する方法である。しかしながら、この処理は、作業
者に非常に負担をかけ、能率的ではない。さらに、この
処理は、適切な向きを認識するのに、作業者がエラーし
たり、作業者の認識力による制限を受ける。例えば、ド
キュメントが、作業者に慣じみのない外国語のものであ
る場合、作業者にとって、不適切な向きのページを検出
するのは難しい。
【0005】本発明は、ドキュメントを蓄積したり再生
したりする際に、ドキュメントのページやテキストの向
きが正しいか否かを極めて容易に検出することの可能な
ドキュメントイメージ処理方法および装置を提供するこ
とを目的としている。
【0006】
【課題を解決するための手段および作用】本発明の1つ
の観点によれば、先ず、再生されるべきイメージをスキ
ャンして、そのドキュメントのデジタル表現を形成す
る。次いで、このドキュメントを画素レベルで分析し
て、テキスト語,ノイズ,イメージデータを区切る短形
領域を同定(識別)する。語を含むとして同定された短形
領域の選択において、その短形領域内の各スキャンライ
ン上の黒画素数を計数する。この計数値を用いて、短形
領域内のアセンダー(ascenders)とディセンダー(descen
ders)の数を決定し、このデータを分析して、ドキュメ
ントの適切な向きを決定することができる。例えば、英
語では、語は主にアセンダー(ascenders)で構成されて
いる。ドキュメント画素データのサンプルセットについ
ての平均値,分散および/またはスキュー値を、既知の
向きのドキュメントについて標準化された平均値,分散
および/またはスキューの各データと比較して、現在の
ドキュメントイメージの向きを確かめることができる。
【0007】本発明の他の観点によれば、ドキュメント
イメージを、語,イメージ,ノイズの各データに分類す
ることによって、イメージデータが存在する場合にもド
キュメントの向きを容易に確かめることができる。
【0008】このように、本発明では、ドキュメントの
ページやテキストの向きが正しいか否かを極めて容易に
検出することができ、不適切な向きのイメージについ
て、これをイメージのデジタル操作によって、完成ドキ
ュメント内で正しい向きに再生(reproduce)することが
できる。
【0009】
【実施例】図1は本発明の実施例による逆向きページ検
出処理の概要を示す図である。この処理では、先ず、物
理的ドキュメントのデジタル表現をビット列として作成
する(ステップ2)。この目的のためにドキュメントスキ
ャナーを用いることができる。各ビットは、スキャンさ
れたイメージの1つの画素に対応しており、その位置に
白いスペースがあるか否かを表現している。システムメ
モリの全体量を必要最小限にするために、ステップ2で
得られるイメージ画素データを、ステップ4で圧縮す
る。
【0010】大抵のドキュメントでは、語とイメージと
は、白いスペースの領域によって、互いに縦方向と横方
向の両方の方向に分離している。従って、語,テキス
ト,または絵画像のイメージは、白画素の広がりによっ
て分離された主に黒画素のランとして見ることができ
る。これらの2つの領域の境界は、語またはイメージを
含む短形領域のエッジ(縁)を画定する。ステップ6で
は、上述した関係を用いてドキュメントイメージ画素デ
ータを再分類するために必要な操作を実行する。
【0011】テキスト,ノイズ,イメージの各短形領域
もまた特有の特徴をもっている。例えば、語の短形領域
は、絵画イメージの短形領域よりも寸法が小さく、ま
た、アスペクト比が小さいという傾向がある。ステップ
8では、これらの関係を用いて、ドキュメントの短形領
域の全セットからテキストブロックを同定(識別)する。
【0012】テキストとして分類された短形領域は、語
のヒストグラムを形成するために、図1のステップ10
でさらに処理される。このヒストグラムは、語の短形領
域の各スキャンライン上の黒画素数を表わしている。
【0013】語のヒストグラムは、所定の語についての
テキスト文字がアセンダー(ascenders)であるかディセ
ンダー(descenders)であるかの傾向を示している。英語
では、テキスト文字の大多数は、アセンダーである。例
えば、大文字や、文字“h”,“t”は、アセンダーで
ある。この事実を用いて、ステップ12,14におい
て、ドキュメントの正しい位置を解析することができ
る。
【0014】ステップ12では、先ず、40個のドキュ
メント短形領域のサンプルセットから取られたヒストグ
ラムデータの平均値,分散,スキュー値を得る。次い
で、サンプルデータセットの平均値,分散,スキュー値
の各値を、既知の向きを持つ同じ言語のドキュメントに
ついて標準化された既知のデータ曲線と比較する。ステ
ップ14では、標準化されたデータとサンプルデータと
の関係に従って、問題としているドキュメントが、逆向
きのものであるか、逆向きのものでないかを判別し、類
別する。
【0015】図2は、本発明の好適な実施例によるイメ
ージの再生および向き検出を行うのに適したハードウェ
ア構成を示す図である。このハードウェア構成は、複写
機のようなスタンドアローン型の装置内に備わっていて
も良いし,あるいは、ローカルネットワークやワイドエ
リアネットワークの一部であっても良い。ドキュメント
イメージ処理システムでは、CPU22にスキャン装置
20が接続されている。なお、スキャン装置20として
は、電荷結合素子(CCD)によるものでも良いし、ある
いは、従来知られている他のスキャン装置を用いても良
い。CPU22は、本発明に従って、ドキュメントイメ
ージデータを処理するコマンドを実行する。
【0016】また、CPU22には、メモリ24が接続
されている。ここで、メモリ24として、任意の形式の
ランダムアクセスメモリを用いることができる。メモリ
24には、ドキュメントイメージデータが格納されるよ
うになっている。この場合、メモリ24としては、テキ
ストイメージデータと絵画像イメージデータとをそれぞ
れの別々に格納するメモリ24a,24bを有していて
も良い。CPU22によって実行されるコマンドとデー
タを記憶しておくために、CPU22には、ROM(図
示せず)を接続することもできる。また、CPU22に
は、ユーザインターフェース26が接続されている。ド
キュメントイメージ処理装置のオペレータは、このユー
ザインターフェース26によって、完成されたドキュメ
ントについて所望の特徴を指定することができ、この場
合、CPU22は、これらの特徴に基づいた処理を実施
するのに必要なコマンドのサブセットを実行することが
できる。例えば、装置のオペレータは、多くの照合コピ
ーが作られるように指定したり,あるいは、完成された
ドキュメントが特定の宛先に送られるように指定したり
することができる。
【0017】図3乃至図4は、本発明によるイメージ向
き検出方法のフローチャートである。図3のフローチャ
ートでは、先ず、CCDスキャナーや他のスキャン装置
1を用いてドキュメントをスキャンし、ドキュメントイ
メージのデジタル表現を作成する(ステップ201)。こ
の結果、各スキャンラインは、イメージの各画素に対応
するビット列としてデジタル表現される。好適な実施例
では、スキャンラインは左から右へ延びる。しかしなが
ら、スキャンされるドキュメントが通常読まれる方向
に、スキャン方向を対応付けるよう、スキャン方向を再
設定しても良い。例えば、アラビア語テキストについて
は右から左へスキャンしても良い。
【0018】次いで、ビットマップ表現の圧縮を行なう
(ステップ202)。このデータ圧縮は、後述のように、
短形領域を抽出するために用いられる。本実施例におけ
る圧縮技術により、ドキュメントを表現するのに用いら
れる実際のデータ量を1/4に減少させ、また、処理デ
ータ量を1/32に減少させることができる。この圧縮
技術では、論理OR演算を用いて、4本の水平のスキャ
ンラインを1本の圧縮したスキャンラインにまとめる。
なお、上記のように選択されたスキャンラインの本数,
すなわち4本は、経験に基づくものであり、4本のスキ
ャンラインを選択することによって、6ポイントのタイ
プフェイス程度の低い解像度のドキュメントの処理が可
能となる。他の本数を選択することも可能である。
【0019】ステップ202の圧縮技術は、縦方向の圧
縮と横方向の圧縮との2つの処理を有している。縦方向
に隣接する4本のスキャンライン内の同じ位置で、1つ
あるいは1以上の黒画素が存在する場合、これを圧縮し
て得られる1本のスキャンラインの画素は、黒画素とし
て表現される。4本のスキャンラインのグループ内の同
じ位置に黒画素が存在しない場合には、圧縮の結果得ら
れる1本のスキャンラインの画素は、白画素として表現
される。
【0020】図5は、本実施例におけるスキャンライン
の圧縮を示す図である。図5には、元の圧縮されていな
いビットマップ表現からの4本のスキャンライン300
乃至303がそれぞれ示されている。スキャンライン3
00乃至303の各々に対して、それぞれ2バイト(3
04,305;306,307;308,309;31
0,311)が与えられている。また、縦方向の圧縮を
した結果のバイト(312,313)が示されている。
各バイト304乃至311と、圧縮の結果得られたバイ
ト312,313は、8ビットで構成されている。
【0021】イメージデータを縦方向に圧縮した後、横
方向に圧縮する。この場合、図5のライン314に示す
ように、1つのセグメント,すなわち1つのバイト31
2または313が黒画素データを含んでいるならば、こ
のセグメントは、1バイトの画素データが全て黒として
表わされる一方、1つのセグメントが黒画素データを含
んでいない場合には、そのセグメントは、1バイトの画
素データが全て白として表現される。上述した圧縮技術
によって、システムメモリ量を低減できる。なお、本発
明では、上述以外の圧縮技術を用いても良い。あるい
は、データ圧縮処理を省略しても良い。
【0022】図3のステップ202においてイメージを
圧縮した後、ステップ203,204では、ドキュメン
トイメ−ジを解析することによって、データを矩形領域
に整理する。ここで、矩形領域は、テキストと絵画像と
ノイズとの境界を画定するものである。矩形領域データ
を得るため、ステップ203では、先ず、ラン長さ抽出
処理によって、連続黒画素のブロックごとのラン長さを
抽出する。
【0023】ラン長さの定義において、最初の要素は、
白から黒への変移が生じる黒画素の位置を特定し、次の
要素は、黒から白への変移が生じる位置を特定する。各
圧縮スキャンラインは、1またはそれ以上のラン長さを
もつことができる。圧縮スキャンラインに沿って一連の
連続黒画素をサ−チすることによって、各圧縮スキャン
ラインに対して、ラン長さレコードで構成される“ラン
長さ”の組が得られる。この処理では、先ず、論理値
“0”が白画素を表わしている場合に、“0”でない論
理値を求めてそのスキャンラインのバイト値を調べるこ
とによって、連続する一連の黒画素を同定する。このよ
うな処理での最初の黒画素位置がラン長さについての開
始値としてセットされる。次いで、“0”の論理値の画
素を求めてスキャンラインの以後のバイト値を調べるこ
とによって、次の白画素を探索する。この画素は、ラン
長さの終了値としてセットされる。このような仕方で、
1つのスキャンラインについて全ての“ラン長さ”が抽
出される。所定のスキャンラインについて全てのラン長
さが抽出されると、これらの組は、圧縮されたビットマ
ップ表現の1番上からn番目のスキャンラインに存在す
るラン長さの組としてラベル付けされる。
【0024】ラン長さの分類は、関連して抽出された矩
形領域を初期分類するのに使用される。300dpiの
解像度で走査されたドキュメントに対する分類規則は、
ヒューリスティックなデータに基づいており、以下のよ
うなものとなっている。 1. ラン長さ≦2画素である場合には、ラン長さの型
にSHORTを割り当てる。 2. ラン長さ>60画素である場合には、ラン長さの
型にLONGを割り当てる。 3. 60画素≧ラン長さ>2画素である場合には、ラ
ン長さの型にMEDIUMを割り当てる。
【0025】図6は、画素のスキャンラインとラン長さ
とを示す図である。なお、図6では、1バイトをその対
応する画素値として表わし、簡略化していることに留意
すべきである。例えば、画素405は“0”でないバイ
ト値(すなわち、黒画素)を表わしている一方で、画素
406は“0”のバイト値(すなわち、白画素)を表わ
している。スキャンライン401には、一連の連続黒画
素で構成されている部分402がある。画素403のア
ドレスは、そのラン長さの始めを示しており、また、画
素404のアドレスは、そのラン長さの終端を示してい
る。ここで、画素403がアドレス“312”のところ
にあり、また、画素404がアドレス“440”のとこ
ろにあるとし、長いラン長さに対する閾値が“100”
であるとすると、結果として得られるラン長さレコ−ド
は、始端値“312”と、終端値“440”と、長いラ
ン長さについてのラン長さフラグ値とをもつ。
【0026】圧縮スキャンラインに基づいてラン長さが
抽出されるときに、ドキュメントの特徴を表わす矩形領
域が構築される。これらの矩形領域は、ドキュメントイ
メ−ジの横方向と縦方向の両方向における連続黒画素の
境界を表わしている。ラン長さは、一次元であるが、こ
れに対し、矩形領域は二次元である。
【0027】処理のどの時点においても、2つの圧縮ス
キャンラインのラン長さを記述する2組のレコ−ドだけ
が使用され、メモリーに記憶される。第1の組のレコ−
ドは、現在のスキャンラインのラン長さを記述してお
り、第2の組のレコ−ドは、過去のスキャンラインのラ
ン長さを記述している。過去のスキャンライン情報は、
矩形領域の抽出に使用される。圧縮スキャンラインレコ
−ドの新たな組を読み取るに先立って、現在のレコ−ド
の組は、過去のスキャンラインのレコ−ドとして保持す
るためメモリー位置に複写される。次いで、新しいスキ
ャンラインを記述するレコ−ドが、現在のスキャンライ
ンを記述するレコ−ドを保持しているメモリー位置に読
み込まれて、適宜処理される。
【0028】現在の圧縮スキャンラインと過去の圧縮ス
キャンラインとの間の関係によって、現在の圧縮スキャ
ンラインのラン長さを、既存の矩形領域に割り当てる
か、新しい矩形領域を作るかが決定される。最初の圧縮
スキャンラインが処理されると、各ラン長さによって、
1つの矩形領域が定められる。新しい圧縮スキャンライ
ンを次々に処理していくとき、ラン長さは、既存のスキ
ャンラインの矩形領域と関連付けられ、新たな矩形領域
の境界を定めるのに用いられる。ラン長さのある部分が
矩形領域の境界内に存在する場合には、そのラン長さは
既存の矩形領域と関連付けられる。現在の圧縮スキャン
ラインにおいて矩形領域と隣接している全ての画素が白
であるとき、1つの矩形領域は完成し、それ以上には拡
張されない。換言すると、現在の圧縮スキャンラインの
ラン長さが矩形領域境界内に存在しなくなるとき、1つ
の矩形領域が完結する。1つのラン長さが矩形領域境界
内に一部存在する場合には、新しい矩形領域が作り出さ
れる。このような方式では、重なり合う矩形領域が生成
されることがある。このような重なり合った矩形領域
は、次の工程においてさらに処理される。
【0029】図7には、現在の圧縮スキャンラインのラ
ン長さと過去の圧縮スキャンラインのラン長さとから、
矩形領域を構築する様子が示されている。図7におい
て、過去の圧縮スキャンライン501と現在の圧縮スキ
ャンライン502とは、それぞれ、複数のラン長さを含
んでいる。過去の圧縮スキャンライン501は、ラン長
さ503乃至509を有している。一方、現在の圧縮ス
キャンライン502は、ラン長さ510乃至517を有
している。なお、図7に示すように、スキャンライン5
01とスキャンライン502とは、ビットに関し整列し
ている。従って、スキャンライン501の左端ビット
が、スキャンライン502の左端ビットに対応してい
る。
【0030】また図7には、過去に画定された矩形領域
520乃至525が示されている。ラン長さ510乃至
517が既存の矩形領域に加えられるためには、ラン長
さ510乃至517とラン長さ503乃至509との関
係が次のものである必要がある。すなわち、現在のスキ
ャンライン内の1つのラン長さの始点が、過去のスキャ
ンライン内のラン長さと連続性を有していなければなら
ない。例えば、図7において、ラン長さ510の始点
は、圧縮スキャンライン501のラン長さ503,50
4と連続性をもっているので、ラン長さ510は、既存
の矩形領域520に加えられる。これに対し、ラン長さ
515に関しては、過去のスキャンライン501内のラ
ン長さと連続性がないので、新たな矩形領域522が作
り出される。また、過去のスキャンライン501内のラ
ン長さ508については、現在のスキャンライン内のラ
ン長さと連続性がなく、従って、矩形領域524が完成
する。
【0031】図7において、スキャンライン501のラ
ン長さは、既存の矩形領域に次のように加えられる。す
なわち、ラン長さ503乃至504は矩形領域520に
加えられ、また、ラン長さ505は矩形領域521に加
えられ、また、ラン長さ506乃至507は、矩形領域
523に加えられ、また、ラン長さ509は、矩形領域
525に加えられる。また、ラン長さ508によって、
矩形領域524が作り出される。スキャンライン502
に関しては、ラン長さ510,511が矩形領域520
に加えられ、ラン長さ512乃至514が矩形領域52
1に加えられ、ラン長さ516が矩形領域523に加え
られ、ラン長さ517が矩形領域525に加えられる。
また、上述したように、ラン長さ515によって矩形領
域522が新たに作り出される。
【0032】矩形領域が構築されているとき、各矩形領
域に含まれている互いに異なる型のラン長さについての
計数が続けられている。1つの矩形領域が画定すると、
矩形領域の初期分類が行なわれ、矩形領域は、4つの
型、すなわち、縦線“VL”,横線“HL”,画像(絵
画像)“IMG”,不明“UNKNOWN”のいずれか
1つに分類される。以下の一般的な規則が、矩形領域の
分類に使用される。 規則1.「ラン長さが全て型LONGであり」、かつ、
「矩形領域の高さがラン長さの型SHORTの閾値より
も小さいかまたは等しい」ならば、HLの型として矩形
領域を分類する。 規則2.「ラン長さが全て型SHORTであり」、か
つ、「矩形領域の高さがラン長さの型SHORTの閾値
より大きい」)ならば、VL型として矩形領域を分類す
る。 規則3.「ラン長さが型LONGか」、または、「矩形
領域の幅がラン長さの型LONGの閾値よりも小さいか
または等しく」かつ「矩形領域の高さが画像高さ矩形領
域閾値よりも大きい」ならば、矩形領域をIMG型とし
て分類する。 規則4.その他の残りの矩形領域を全てUNKNOWN
として分類する。
【0033】規則1は、横線を識別し、規則2は縦線を
識別し、規則3は画像矩形領域を識別し、規則4は“不
明”のデフォルト分類を与える。300dpiのドキュ
メントイメ−ジに対して、ラン長さの型SHORTの閾
値を2画素と定め、また、画像高さ矩形領域の閾値を8
2画素と定めた。上記分類規則は、典型的なドキュメン
トが含んでいる既知のパラメータから得られる。これら
のパラメータは、ドキュメントのビットマップ表現の解
像度に応じて変更しても良いし、および/または、矩形
領域の大きさの分布を解析することにより、ドキュメン
トに合わせても良い。
【0034】図3のステップ204の処理の最後に、ド
キュメントイメージの全ての基本的な対象を記述する矩
形領域のリストを作成し、初期分類がなされる。この段
階で、あるテキストは、縦線型あるいはUNKNOWN
“不明”型のセグメントとして誤分類される。例えば、
文字“I”,“l”,“1”は、しばしば誤分類され
る。
【0035】従って、ステップ205では、以下の規則
によって、上述のようになされた初期分類結果を試験
し、これをより正確なものにする。 規則1’:誤分類された文書,すなわち縦線として分類
された1(いち),l(エル),またはI(アイ)を修
正する。「矩形領域の型がVLで」かつ「矩形領域の高
さが“不明”矩形領域の高さの閾値よりも小さい」なら
ば、矩形領域をUNKNOWN型として分類する。 規則2’:フォントサイズに基づいて矩形領域を再割り
当てする。最大のフォントサイズより大きい矩形領域に
ついては、これらを画像とする。(矩形領域の高さの2
倍)が(画像の高さに対する閾値)よりも大きいなら
ば、矩形領域をIMG型として分類する。 規則3’:「単語」は高くなるというよりも長くなると
いう傾向にあるとの前提に基づいて、画像領域を割り当
てる。((矩形領域の高さの4倍)+(矩形領域の
幅))が(画像の高さの閾値の4倍)よりも大きいなら
ば、矩形領域をIMG型として分類する。 規則4’:この規則4’は、横線を定義するための基準
を与えるものであって、長い横線がテキストブロックま
たはコラムを分割する短かい横線よりも太い傾向がある
との前提に基づいている。(矩形領域の高さの4倍)の
比としての(矩形領域の幅)が(横線の幅に対する閾
値)よりも大きいならば、矩形領域をHL型として分類
する。 規則5’:規則5’は、横線を小さな(例えば6ポイン
トの)フォントテキストの長いラインと区別するための
基準を与えるものである。((矩形領域の高さ)の比と
しての(矩形領域の幅))が(横線の幅と高さとの比に
対する閾値)よりも大きいならば、矩形領域をHL型と
して分類する。
【0036】300dpiのイメ−ジに対し、上記の各
閾値は次のとおりである。すなわち、“不明”矩形領域
に対する高さ閾値は“5”であり、画像高さ閾値は“8
2”であり、横線の幅閾値は“77”であって、横線の
幅高さ比の閾値は“15”である。
【0037】ステップ205の最後に、絵画像エリア,
縦線,横線の正確な分類を行なう。残っている“不明”
短形領域UNKNOWNには、主にテキストが含まれて
いる。従って、この“不明”短形領域をテキストブロッ
クとして同定することができる。
【0038】図3のステップ201乃至205の処理に
よって、ドキュメントイメージを構成するテキストブロ
ックが同定(識別)されると、次いで、図4のステップ2
12乃至220によってこれらのテキストブロックを解
析し、ドキュメントの向きを決定することができる。本
発明におけるこの処理には、1992年4月6日に
「“Segmentation of Text Picture and Lines of a Do
cument Image”」という名称で出願された米国特許出願
第07/864,423号に記載されているような、ス
キュー検出およびスキュー補正の処理,短形領域のマー
ジ(併合)の処理,および/または、ブロックの順序付け
の処理をも自由に追加し含ませることができる。図4の
ステップ212乃至220では、テキストブロックのサ
ンプルセットからの個々のビットマップに着目してい
る。
【0039】ステップ212では、さらに処理を行なう
ために、先に同定(識別)されたテキストブロックのサブ
セットを選び出す。本発明の一実施例においては、40
個のテキストブロックのサブセットを用いる。次いで、
ステップ214では、選び出されたテキストブロックの
各ライン上の黒画素数の総和をとる。
【0040】図8は、語のテキストブロックについての
未圧縮のビットマップを示している。このビットマップ
の各ラインは、多くの画素を有している。各ラインにつ
いての黒画素数の総和は、図8の右側位置の欄1050
に計算されている。この欄1050に計算されている黒
画素数の総和を用いて、図9(a)のヒストグラム105
2を作成することができる。ヒストグラム1052は、
スキャンラインごとの黒画素数のグラフィックな表現を
示している。テキストブロックが逆向きであると、スキ
ャンライン12が最初のスキャンラインになる。この場
合、欄1050を下から上へ読み出して、ブロックが逆
向きのときの黒画素数の総和を得ることができる。図9
(b)は、逆向きのブロックについてのヒストグラムを示
している。
【0041】英語のテキストでは、ディセンダー(desce
nders)よりもアセンダー(ascenders)の方が多く含まれ
ているので、図9(a)および図9(b)のヒストグラムが
示しているように、逆向きのイメージでは、通常の向き
の語に比べて、低いライン番号に多くの画素が存在す
る。このように、ドキュメントテキストブロックのサブ
セットから得られるヒストグラムデータを利用すること
によって、ドキュメントの向きを確かめることができ
る。
【0042】図4のステップ216では、テキストブロ
ックのサンプルセットについてのヒストグラムデータの
第1,第2,第3のモーメントを計算する。この第1,
第2,第3のモーメントは、ヒストグラムデータの平均
値,分散,スキュー値にそれぞれ対応している。次い
で、ステップ218では、サンプルデータセットについ
てのこれらのパラメータを、標準化されたデータセット
についてのパラメータと比較し、ドキュメントの向きを
決定する。
【0043】標準化されたデータを得るために、既知の
向きの一連のイメージを上述の手法で処理する。すなわ
ち、先ず、既知の適切な向きのドキュメントヒストグラ
ムについて平均値,スキュー値,分散の各データを決定
し、次いで、既知の逆向きのドキュメントヒストグラム
について平均値,スキュー値,分散の各データを決定す
る。図10は、英語ドキュメントのいくつかの逆向きの
サンプル,いくつかの逆向きでないサンプルの各々につ
いての平均値データ点およびスキューデータ点を示すグ
ラフである。これらの2つのサンプルパラメータからの
データは、別々のクラスタとして分離可能であって、異
なる向きのドキュメントのトレーニングデータの標準化
されたガウス分布1064,1066を仮定することに
よって、上記2つのクラスタの間にベイズ(Bayes
ian)最適決定面1062を引くことができる。ここ
で、分布1066は逆向きのイメージに対応し、分布1
064は逆向きでないイメージに対応している。イメー
ジデータが決定面1062に対しどちらの側にあるかに
よって(すなわち、イメージデータの決定面1062に
対する関係によって)、ドキュメントイメージが逆向き
であるか否かを予測することができる。
【0044】なお、図10の例では、決定面は放物線形
のものとなっているが、他の関数形のものでも良い。例
えば、3次元関数形のものであっても良い。すなわち、
ドキュメントの言語および/またはタイプフェイスの固
有の特徴に応じて、決定面の形を決定することができ
る。従って、ヒストグラムデータを、適当な言語および
/またはタイプフェイスについての決定面と比較するこ
とによって、種々の言語のドキュメントに対して、これ
が逆向きであるか否かをチェックすることができる。
【0045】また、決定面を画定するのに、平均値,分
散,スキュー値のデータの各々を個別にあるいは組み合
わせて用いても良い。例えば、平均値のデータだけで、
ドキュメントが逆向きか逆向きでないかを信頼性良く十
分に判別することも可能である。従って、スキュー値お
よび/または分散のデータの計算および比較は、処理時
間およびメモリ資源を節約するために省略することも可
能である。
【0046】図4のステップ220では、ドキュメント
の向きを画定する信号を出力する。サンプルデータが決
定面の一方の側にある場合、そのドキュメントは、多分
逆向きである。これに対し、ドキュメントイメージサン
プルデータが、決定面の他方の側にある場合には、その
ドキュメントは、多分適切な向きである。方向を示す信
号は、例えば、TRUE(真),FALSE(偽)のフラ
グ、または、バイナリワードやシングルバイナリビット
で出力される。
【0047】次いで、図4のステップ222では、この
信号値を用いて、イメージの向きを電気的に設定し直す
ようにCPU22に指示を与えることができる。イメー
ジの向きの再設定は、当業者に良く知られている技術に
より行なうことができる。例えば、スキャンライン番号
を逆の順に設定し直すだけのコマンドをCPU22が実
行することにより、イメージの向きを電気的に変えるこ
とができる。次いで、ディスプレイ装置や物理的媒体上
にドキュメントイメージを再生する指示をCPU22が
実行することによって、ドキュメントイメージを、他の
ドキュメントイメージに対して適切な向きに再生するこ
とができる。
【0048】具体例として、ドキュメントペ−ジをコピ
ーするのに用いられる複写機を例にとって説明する。
【0049】図11は、本発明を用いた複写機によって
複写されるべき多ページドキュメントの最初のペ−ジ1
299を示している。図11のドキュメントイメ−ジ
は、タイトル領域1301,サブタイトル領域130
2,著者領域1303,画像の見出し領域1307,ペ
−ジ番号領域1309,出版/日付領域1311,コラ
ム文書領域1305,1308,1310,1312,
1313に、文書を含んでいる。また、このドキュメン
トペ−ジには、画像(絵画像)領域1304,1306
も含まれている。
【0050】複写機では、オペレータは、入力装置を用
いて、所望のドキュメントの特徴を選択することができ
る。これらの特徴としては、例えば、複写枚数,ドキュ
メント縮小率,あるいは照合などがある。また、複写機
に本発明を適用することによってこの複写機が1種類以
上の言語に対してサポートする機能を有している場合に
は、複写されるドキュメントの言語をこの時点で入力す
ることができる。適当な言語が選択されると、ドキュメ
ントのヒストグラムデータを適当な標準化されたデータ
セットと比較する処理をCPUに行なわせることができ
る。
【0051】所望の再生特徴が選択されると、CCDス
キャナは、ページ1299をスキャンし、これにより、
ページ1299の画素イメージが得られる。図12に
は、抽出された1セット(1組)の矩形領域としてのイ
メージが示されている。
【0052】図12の各矩形領域は、1つの語,あるい
は一連の語,あるいは1つの画像に対応している。この
ドキュメントレイアウトの主な特徴は、各矩形領域を同
定できることにある。すなわち、領域1501乃至15
09は、図11の領域1301乃至1313と直接関係
付けられる。例えば、タイトル領域1301は、矩形領
域1501に対応し、サブタイトル領域1302は、矩
形領域1502に対応している。
【0053】図13には、図12において同定されたテ
キストブロック矩形領域のうちの1つから取られたテキ
ストブロックの例が示されている。ここで、欄2000
には、スキャンラインごとの黒画素数が示されている。
テキストブロックのサンプルセットに含まれているテキ
ストブロック矩形領域ごとに、欄2000に示されてい
る型式のデータの総和をとって、ドキュメントイメ−ジ
全体についてのデータのサンプルセットを得る。
【0054】次いで、このデータのサンプルセットをさ
らに処理して、データの平均値,分数およびスキュ−値
を得る。いま、所定のドキュメント例について、モーメ
ントデータが次のようなものであるとする。 平均値=18.13 スキュ−値=−0.8
【0055】ユーザによる指示入力によって、このドキ
ュメント例の言語やタイプフェースのドキュメントイメ
−ジに対する適切な決定面が例えば図10に示すように
引かれる。上記のドキュメント例では、平均値およびス
キュ−値は、それぞれ“18.13”,“−0.8”で
あり、これを図10のグラフ上にプロットすると、決定
面よりも下側となるので、ドキュメントイメージが逆向
きでないと判別される。
【0056】これに対し、仮に、このドキュメント例の
平均値,スキュ−値がそれぞれ例えば“16.37”,
“0.10”であるとすると、このデータ点は図10の
グラフ上で、決定面よりも上側となり、従って、この場
合には、このドキュメントイメ−ジは逆向きであると判
別される。このときには、CPU22は、命令を実行
し、このドキュメントの表示すなわち物理的再生結果が
正しい向きとなるように、イメージデータの向きを電気
的に設定しなおす(イメージデータの向きを電気的に変
える)。
【0057】以上、本発明の好適な実施例について説明
したが、種々の変形も当業者にとって明らかである。例
えば、上述の処理では、イメージの黒画素に着目し、黒
画素に関して処理を行なったが、同様の処理を白画素に
着目して行なっても良い。
【0058】また、上述の具体例では、本発明を複写機
に適用した場合について説明したが、本発明は、複写機
に限定されず、他の装置,他の用途にも適用可能であ
る。
【0059】
【発明の効果】以上に説明したように、本発明によれ
ば、ドキュメントイメ−ジ内において、画素データの複
数のスキャンラインを含むテキストブロックをそれぞれ
識別し、前記テキストブロックの所定の組内において前
記複数の各スキャンラインごとに2つの論理値のうちの
いずれか一方をもつ画素データ数を総計してサンプルデ
ータセットを取得し、前記サンプルデータセットのモー
メントを計算し、前記サンプルデータセットの前記モー
メントと既知の向きをもつ複数のドキュメントイメ−ジ
について標準化されたモーメントデータとを比較するこ
とにより、ドキュメントイメージの向きが逆向きか否か
を極めて容易に検出することができる。
【図面の簡単な説明】
【図1】本発明に係るドキュメントイメージ処理の一実
施例を示すフローチャートである。
【図2】本発明によるイメージの再生および向き検出を
行なうのに適したハードウェア構成を示す図である。
【図3】本発明によるイメージ向き検出処理の一例を示
すフローチャートである。
【図4】本発明によるイメージ向き検出処理の一例を示
すフローチャートである。
【図5】スキャンラインの圧縮の一例を示す図である。
【図6】スキャンラインとラン長さとを示す図である。
【図7】過去の圧縮スキャンラインと現在の圧縮スキャ
ンラインとから矩形領域を形成する仕方を説明するため
の図である。
【図8】語のテキストブロックについての未圧縮のビッ
トマップの一例を示す図である。
【図9】(a),(b)は図8の例において黒画素数の
総和を用いて作成されたヒストグラムを示す図である。
【図10】英語ドキュメントのいくつかの逆向きのサン
プル,いくつかの逆向きでないサンプルの各々について
の平均値データ点およびスキュ−データ点を示す図であ
る。
【図11】ドキュメントイメージの一例を示す図であ
る。
【図12】図11のドキュメントイメ−ジから抽出され
た矩形領域を示す図である。
【図13】図12において同定されたテキストブロック
矩形領域のうちの1つの矩形領域に対応したテキストブ
ロックのビットマップを示す図である。
【符号の説明】
20 スキャン装置 22 CPU 24 メモリ 25 ユーザインタフェース
フロントページの続き (72)発明者 ピーター ハート アメリカ合衆国 カリフォルニア州 メン ロパーク サンドヒルロード 2882 スイ ート 115 リコーコーポレーション内 (72)発明者 江尻 公一 東京都大田区中馬込1丁目3番6号 株式 会社リコー内

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 ドキュメントイメ−ジの向きを決定する
    ドキュメントイメージ処理方法であって、ドキュメント
    イメ−ジ内において、画素データの複数のスキャンライ
    ンを含むテキストブロックをそれぞれ識別し、前記テキ
    ストブロックの所定の組内において前記複数の各スキャ
    ンラインごとに2つの論理値のうちのいずれか一方をも
    つ画素データ数を総計してサンプルデータセットを取得
    し、前記サンプルデータセットのモーメントを計算し、
    前記サンプルデータセットの前記モーメントと既知の向
    きをもつ複数のドキュメントイメ−ジについて標準化さ
    れたモーメントデータとを比較することを特徴とするド
    キュメントイメ−ジ処理方法。
  2. 【請求項2】 請求項1記載のドキュメントイメージ処
    理方法において、前記サンプルデータセットのモーメン
    トの計算は、前記サンプルデータセットの平均値,分
    数,スキュ−値の少なくとも1つを計算することによっ
    てなされることを特徴とするドキュメントイメ−ジ処理
    方法。
  3. 【請求項3】 請求項1記載のドキュメントイメージ処
    理方法において、さらに、前記ドキュメントイメ−ジが
    逆向きであることを示す信号を出力することを特徴とす
    るドキュメントイメ−ジ処理方法。
  4. 【請求項4】 請求項1記載のドキュメントイメージ処
    理方法において、前記サンプルデータセットの前記モー
    メントと前記標準化されたモーメントデータとの比較
    は、既知の正しい向きのドキュメントについての1つの
    標準化されたモーメントデータセットと、既知の逆向き
    のドキュメントについての1つの標準化されたモーメン
    トデータセットとの間に決定面を画定してなされること
    を特徴とするドキュメントイメ−ジ処理方法。
  5. 【請求項5】 請求項3記載のドキュメントイメージ処
    理方法において、さらに、前記信号が出力されたとき
    に、ドキュメントイメ−ジの向きを電気的に再設定する
    ことを特徴とするドキュメントイメ−ジ処理方法。
  6. 【請求項6】 請求項4記載のドキュメントイメージ処
    理方法において、前記標準化されたモーメントデータセ
    ットは、複数の標準化されたモーメントデータセットの
    うちから選択されることを特徴とするドキュメントイメ
    −ジ処理方法。
  7. 【請求項7】 ドキュメントの向きを決定するドキュメ
    ントイメ−ジ処理方法において、少なくとも1本のスキ
    ャンラインを有する媒体表現をラン長さ抽出/分類手段
    に与え、前記媒体表現の各スキャンラインからラン長さ
    を抽出し、各ラン長さが短いものか長いものであるかを
    判別し分類して、複数のラン長さレコードを生成し、前
    記ラン長さ情報から前記媒体の一部分を表わす矩形領域
    を構成し、前記矩形領域の各々に対して、これをイメー
    ジタイプ、または縦線タイプ、または横線タイプ、また
    は不明タイプとして分類し、不明タイプの矩形領域をテ
    キストブロックであるとし、前記テキストブロックの所
    定の組内において前記複数の各スキャンラインごとに2
    つの論理値のうちのいずれか一方をもつ画素データ数を
    総計してサンプルデータセットを取得し、前記サンプル
    データセットのモーメントを計算し、前記サンプルデー
    タセットの前記モーメントと既知の向きをもつ複数のド
    キュメントイメ−ジについて標準化されたモーメントデ
    ータとを比較することを特徴とするドキュメントイメ−
    ジ処理方法。
  8. 【請求項8】 請求項7記載のドキュメントイメージ処
    理方法において、前記サンプルデータセットのモーメン
    トの計算は、前記サンプルデータセットの平均値,分
    数,スキュ−値の少なくとも1つを計算することによっ
    てなされることを特徴とするドキュメントイメ−ジ処理
    方法。
  9. 【請求項9】 請求項7記載のドキュメントイメージ処
    理方法において、さらに、前記ドキュメントイメ−ジが
    逆向きであることを示す信号を出力することを特徴とす
    るドキュメントイメ−ジ処理方法。
  10. 【請求項10】 請求項7記載のドキュメントイメージ
    処理方法において、前記サンプルデータセットの前記モ
    ーメントと前記標準化されたモーメントデータとの比較
    は、既知の正しい向きのドキュメントについての1つの
    標準化されたモーメントデータセットと、既知の逆向き
    のドキュメントについての1つの標準化されたモーメン
    トデータセットとの間に決定面を画定してなされること
    を特徴とするドキュメントイメ−ジ処理方法。
  11. 【請求項11】 請求項9記載のドキュメントイメージ
    処理方法において、さらに、前記信号が出力されたとき
    に、ドキュメントイメ−ジの向きを電気的に再設定する
    ことを特徴とするドキュメントイメ−ジ処理方法。
  12. 【請求項12】 請求項1記載のドキュメントイメージ
    処理方法によりドキュメントイメージの向きを決定し、
    しかる後、文字認識を行なうことを特徴とする文字認識
    システム。
  13. 【請求項13】 ドキュメントイメージの向きを決定す
    るドキュメントイメージ処理装置であって、ドキュメン
    トイメ−ジ内において、画素データの複数のスキャンラ
    インを含むテキストブロックをそれぞれ識別する手段
    と、前記テキストブロックの所定の組内において前記複
    数の各スキャンラインごとに2つの論理値のうちのいず
    れか一方をもつ画素データ数を総計してサンプルデータ
    セットを取得する手段と、前記サンプルデータセットの
    モーメントを計算する手段と、前記サンプルデータセッ
    トの前記モーメントと既知の向きをもつ複数のドキュメ
    ントイメ−ジについて標準化されたモーメントデータと
    を比較する手段とを有していることを特徴とするドキュ
    メントイメ−ジ処理装置。
  14. 【請求項14】 請求項13記載のドキュメントイメー
    ジ処理装置において、前記標準化されたモーメントデー
    タを、複数の標準化されたモーメントデータのうちから
    選択する手段をさらに有していることを特徴とするドキ
    ュメントイメ−ジ処理方法。
JP5347855A 1993-03-09 1993-12-24 ドキュメントイメージ処理方法並びに文字認識システムおよびドキュメントイメージ処理装置 Pending JPH06259597A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US2850493A 1993-03-09 1993-03-09
US08/028504 1993-03-09

Publications (1)

Publication Number Publication Date
JPH06259597A true JPH06259597A (ja) 1994-09-16

Family

ID=21843818

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5347855A Pending JPH06259597A (ja) 1993-03-09 1993-12-24 ドキュメントイメージ処理方法並びに文字認識システムおよびドキュメントイメージ処理装置

Country Status (2)

Country Link
JP (1) JPH06259597A (ja)
DE (1) DE4405105C2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818983A (zh) * 2021-01-22 2021-05-18 常州友志自动化科技有限公司 一种利用图片相识度判断字符倒置的方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000182066A (ja) 1998-10-07 2000-06-30 Advantest Corp 画像処理装置
EP1628240B1 (en) 2004-08-10 2008-03-05 Océ-Technologies B.V. Outlier detection during scanning

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5191438A (en) * 1989-12-12 1993-03-02 Sharp Kabushiki Kaisha Facsimile device with skew correction and text line direction detection
US5335290A (en) * 1992-04-06 1994-08-02 Ricoh Corporation Segmentation of text, picture and lines of a document image
US5452374A (en) * 1992-04-06 1995-09-19 Ricoh Corporation Skew detection and correction of a document image representation

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818983A (zh) * 2021-01-22 2021-05-18 常州友志自动化科技有限公司 一种利用图片相识度判断字符倒置的方法

Also Published As

Publication number Publication date
DE4405105C2 (de) 1999-10-07
DE4405105A1 (de) 1994-09-15

Similar Documents

Publication Publication Date Title
US6574375B1 (en) Method for detecting inverted text images on a digital scanning device
US5335290A (en) Segmentation of text, picture and lines of a document image
US5854854A (en) Skew detection and correction of a document image representation
EP0854433B1 (en) Caption and photo extraction from scanned document images
JP4065460B2 (ja) 画像処理方法及び装置
EP0544431B1 (en) Methods and apparatus for selecting semantically significant images in a document image without decoding image content
JP3282860B2 (ja) 文書上のテキストのデジタル画像を処理する装置
US8462394B2 (en) Document type classification for scanned bitmaps
JP3259993B2 (ja) 語形測定方法及び画像信号処理方法
US7805022B2 (en) Image processing apparatus, image processing method and computer program
US8483499B2 (en) Image processing apparatus, image processing method, computer-readable medium and computer data signal
JP2001297303A (ja) 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体
EP1017011A2 (en) Block selection of table features
US5966455A (en) Image processing apparatus and method
US6532302B2 (en) Multiple size reductions for image segmentation
JPH11213160A (ja) 画像処理方法及び装置及びその記憶媒体
US6289120B1 (en) Method and system for processing images of forms which have irregular construction and/or determining whether characters are interior to a form
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2005303880A (ja) 画像形成装置、画像形成方法およびプログラム
US20010043742A1 (en) Communication document detector
JP3285686B2 (ja) 領域分割方法
JP3215163B2 (ja) 罫線識別方法及び領域識別方法
JPH06259597A (ja) ドキュメントイメージ処理方法並びに文字認識システムおよびドキュメントイメージ処理装置
JPH0721817B2 (ja) 文書画像処理方法
JP3380024B2 (ja) ドキュメントイメージ処理方法およびドキュメントイメージ処理装置