JPH05135202A - 文書画像読み取り装置 - Google Patents

文書画像読み取り装置

Info

Publication number
JPH05135202A
JPH05135202A JP3322578A JP32257891A JPH05135202A JP H05135202 A JPH05135202 A JP H05135202A JP 3322578 A JP3322578 A JP 3322578A JP 32257891 A JP32257891 A JP 32257891A JP H05135202 A JPH05135202 A JP H05135202A
Authority
JP
Japan
Prior art keywords
block
character
photograph
picture
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP3322578A
Other languages
English (en)
Inventor
Shoji Shimomura
昭二 下村
Yasuo Hongo
保夫 本郷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Fuji Facom Corp
Original Assignee
Fuji Electric Co Ltd
Fuji Facom Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd, Fuji Facom Corp filed Critical Fuji Electric Co Ltd
Priority to JP3322578A priority Critical patent/JPH05135202A/ja
Publication of JPH05135202A publication Critical patent/JPH05135202A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【目的】 テキスト領域ではないと判別されたブロック
が、図、表、写真のいずれであるかを高精度に弁別す
る。 【構成】 イメージスキャナ1より読み込まれた文書画
像を、画像処理装置2において、2値化するとともにブ
ロック化する。次いで、テキスト領域ではないと判別さ
れたブロック7の上下左右の何れかに位置する文字列を
探して、OCR5により読み取り、そのブロック7が
図、表または写真のいずれの属性であるかを弁別する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文書画像読み取り装置に
関し、詳しくは、抽出されたブロック領域のなかでテキ
スト領域以外の図、表または写真からなる領域を高精度
に弁別できる文書画像読み取り装置に関する。
【0002】
【従来の技術】従来の文書画像読み取り装置は、分割さ
れたブロックがテキスト領域であるか否かを判別すると
ともに、テキスト領域以外と判別されたブロックが図、
表または写真のいずれであるかを弁別するのに、ブロッ
クごとにテキスチャ解析するか、白画素または黒画素の
出現頻度を統計的に処理していた。
【0003】
【発明が解決しようとする課題】しかしながら、従来の
方式で各種の文書画像に対応しようとすると、データの
処理量が大きくなる。また、読み込まれる文書の形式が
多様化していると統計量の分散が大きくなり、図、表、
写真それぞれの属性を正確に判定することができない等
の問題点があった。本発明は上記問題点を解決するため
になされたもので、その目的とするところは、テキスト
領域以外と判別されたブロックが図、表、写真のいずれ
の属性であるかを簡単な処理により高精度に弁別するこ
とができる文書画像読み取り装置を提供することにあ
る。
【0004】
【課題を解決するための手段】上記目的を達成するため
に、本発明は、入力された文書画像を2値化してブロッ
クを抽出するとともに、ブロックがテキスト領域である
か否かを判別した後に、テキスト領域と判別されたブロ
ックの文字認識をおこなう文書画像読み取り装置におい
て、テキスト領域でないと判別されたブロックの上下左
右の何れかに位置する文字列を読み取る手段と、文字列
の読み取り結果からブロックが図、表または写真のいず
れであるかを弁別する手段とを備えたことを特徴とす
る。
【0005】
【作用】本発明においては、テキスト領域でないと判別
されたブロックの上下左右の何れかに位置する文字列が
読み取られ、その読み取り結果からそのブロックが図、
表または写真のいずれであるかが弁別される。
【0006】
【実施例】以下、図に沿って本発明の実施例を説明す
る。図1は本発明に係る文書画像読み取り装置の構成を
示すブロック図である。図において、1はイメージスキ
ャナであり、読み取られる印刷文書等が光学的に入力さ
れる。2は画像処理装置であり、内部にCPU3や画像
メモリ4を備え、入力画像に関する各種の処理が行われ
る。5はOCRであり、画像処理装置2の処理結果に基
づいて文字の認識処理がおこなわれる。
【0007】図2は、図1の画像処理装置2で行われる
ブロック抽出処理を示すフローチャートである。この処
理は、図に示されるように、最初に入力された画像を2
値化する(S1,S2)。次いで、2値化された画像を
水平方向に走査し、白画素についてのランレングスをと
り、得られた値が予め設定されている閾値以下であれば
その間の白画素を黒画素に変換して画像G1を形成する
(S3)。
【0008】同様にして、2値化された画像を垂直方向
に走査し、白画素についてのランレングスをとり、得ら
れた値が予め設定されている閾値以下であればその間の
白画素を黒画素に変換して画像G2を形成する(S
4)。こうして得られた画像G1,G2を重合わせて、
黒画素についての論理積を取り、画像G3を形成する
(S5)。さらに、論理積画像G3について境界追跡を
おこない、ブロックを求める(S6)。
【0009】以上の処理で求められたブロックは、図3
に示すようになる。この画像は横書き文書から得られた
ものであり、横に長いブロックを行ブロック6と判別
し、残りの面積が大きくてしかも幅が行ブロックよりも
2倍以上大きいために行ブロックとは判別できないブロ
ックを、表、図または写真の候補ブロック7とする。
【0010】図4は候補ブロック7中に記載される表の
1例を示し、表の欄外上部に表のタイトル“表1***
*”が書き込まれている。図5は候補ブロック7中に記
載される図の1例を示し、図の下方に近接してタイトル
“第10図****”が書き込まれている。これら候補
ブロック7に示されたように、一般に、文書中に記載さ
れた表,図および写真には、必ず、その上下左右の何れ
かの位置にタイトルが書き込まれている。
【0011】そこで、候補ブロック7が抽出された後
は、その候補ブロック7の上下左右に位置する行ブロッ
クを探し、その行ブロック内の文字列をOCR5により
読み取って、その候補ブロック7が表,図または写真の
いずれであるかを弁別する。OCR5により読み取られ
る文字列中には、表1に示すように、表,図または写真
ごとに固有の文字列が含まれており、OCR5の読み取
り結果から表1を参照して、候補ブロック7の属性を正
確に判別することができる。
【0012】
【表1】
【0013】このようにして、従来は候補ブロック7が
抽出されるとそのビットマップの分布を統計的に処理す
る等の煩わしい処理で属性を決定していたものが、実施
例ではその候補ブロック7に付帯する文字列を直接にO
CR5により読み取ることで正確にしかも短い処理時間
で属性が判明できるようになる。
【0014】
【発明の効果】以上述べたように本発明によれば、テキ
スト領域でないと判別されたブロックの上下左右の何れ
かに位置する文字列が読み取られて、その読み取り結果
からそのブロックが図、表または写真のいずれであるか
が弁別される。そのため、簡単な処理により図、表、写
真のいずれであるかを高速、高精度に弁別することがで
きる。
【図面の簡単な説明】
【図1】本発明の実施例の構成を示すブロック図であ
る。
【図2】ブロック抽出処理を示すフローチャートであ
る。
【図3】ブロックが抽出された画像の一例を示す図であ
る。
【図4】候補ブロック中に記載される表の1例を示す図
である。
【図5】候補ブロック中に記載される図の1例を示す図
である。
【符号の説明】
1 イメージスキャナ 2 画像処理装置 3 CPU 4 画像メモリ 5 OCR 6 行ブロック 7 候補ブロック

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 入力された文書画像を2値化してブロッ
    クを抽出するとともに、ブロックがテキスト領域である
    か否かを判別した後に、テキスト領域と判別されたブロ
    ックの文字認識をおこなう文書画像読み取り装置におい
    て、 テキスト領域でないと判別されたブロックの上下左右の
    何れかに位置する文字列を読み取る手段と、 文字列の読み取り結果からブロックが図、表または写真
    のいずれであるかを弁別する手段と、 を備えたことを特徴とする文書画像読み取り装置。
JP3322578A 1991-11-11 1991-11-11 文書画像読み取り装置 Withdrawn JPH05135202A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3322578A JPH05135202A (ja) 1991-11-11 1991-11-11 文書画像読み取り装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3322578A JPH05135202A (ja) 1991-11-11 1991-11-11 文書画像読み取り装置

Publications (1)

Publication Number Publication Date
JPH05135202A true JPH05135202A (ja) 1993-06-01

Family

ID=18145256

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3322578A Withdrawn JPH05135202A (ja) 1991-11-11 1991-11-11 文書画像読み取り装置

Country Status (1)

Country Link
JP (1) JPH05135202A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006293970A (ja) * 2005-03-15 2006-10-26 Ricoh Co Ltd 画像処理装置、画像処理方法、画像処理プログラム
US7529419B2 (en) 2004-12-21 2009-05-05 Konica Minolta Business Technologies, Inc. Data processing device capable of processing image data with small memory capacity, image processing method, and program product

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7529419B2 (en) 2004-12-21 2009-05-05 Konica Minolta Business Technologies, Inc. Data processing device capable of processing image data with small memory capacity, image processing method, and program product
JP2006293970A (ja) * 2005-03-15 2006-10-26 Ricoh Co Ltd 画像処理装置、画像処理方法、画像処理プログラム

Similar Documents

Publication Publication Date Title
JP2940936B2 (ja) 表領域識別方法
EP1310912A2 (en) Image processing method, apparatus and system
US5075895A (en) Method and apparatus for recognizing table area formed in binary image of document
JP2000207489A (ja) 文字抽出方法、装置および記録媒体
JP3544324B2 (ja) 文字列情報抽出装置及び方法及びその方法を記録した記録媒体
JPH05135202A (ja) 文書画像読み取り装置
EP0975146B1 (en) Locating the position and orientation of multiple objects with a smart platen
JPH07111738B2 (ja) 文書中の領域境界抽出方式
JP2894111B2 (ja) 光学式活字文字認識装置における認識結果の総合判定方式
JP3400154B2 (ja) 文書画像の領域抽出方法および装置
JPH04287168A (ja) ファイリングの自動キーワード抽出方法
JP3756660B2 (ja) 画像認識方法、装置および記録媒体
JP3220226B2 (ja) 文字列方向判別方法
JPH0573718A (ja) 領域属性識別方式
JPH0535914A (ja) 画像傾き検出方法
JPH0728934A (ja) 文書画像処理装置
JPS63101983A (ja) 文字列抽出方式
JPH09269970A (ja) 文字認識方法とその装置
JP2931041B2 (ja) 表内文字認識方法
JP3653156B2 (ja) 文書画像領域抽出方法
JP2843638B2 (ja) 文字画像整列方法
JP3277977B2 (ja) 文字認識方法
JP3031565B2 (ja) 表領域判定方法
JPH04309191A (ja) 領域属性識別装置
JPH05128305A (ja) 領域分割方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19990204