JP2939985B2 - 画像処理装置 - Google Patents

画像処理装置

Info

Publication number
JP2939985B2
JP2939985B2 JP1075366A JP7536689A JP2939985B2 JP 2939985 B2 JP2939985 B2 JP 2939985B2 JP 1075366 A JP1075366 A JP 1075366A JP 7536689 A JP7536689 A JP 7536689A JP 2939985 B2 JP2939985 B2 JP 2939985B2
Authority
JP
Japan
Prior art keywords
rectangular area
character string
noise
hereinafter referred
image information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1075366A
Other languages
English (en)
Other versions
JPH02253383A (ja
Inventor
学人 杉本
真司 近藤
光榮 陸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP1075366A priority Critical patent/JP2939985B2/ja
Publication of JPH02253383A publication Critical patent/JPH02253383A/ja
Application granted granted Critical
Publication of JP2939985B2 publication Critical patent/JP2939985B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】 産業上の利用分野 新聞,雑誌等の不特定な書式の文書から文字列,図
表,写真,線分,ノイズの領域を抽出し、分類する画像
処理装置に関するものである。
従来の技術 文字,図形の混在する画像から、文字領域,図形領域
を切り分ける画像処理装置には、入力画像の表示しオペ
レータがマウスなどを使用して指定するものと、オペレ
ータの介在なくして自動的に行うものがある。オペレー
タの介在なくして自動的に行うものには、画像全体を文
字と図形に区別することなく所定のフォーマットに基づ
き強制的に文字として1文字毎の小領域に切り出し、す
でに知られているパターン認識技術を用いて認識し、そ
の1文字毎の小領域の認識結果が文字として認識可能で
あるか否かを判定し、その判定結果を用いて1文字毎の
小領域どうしの連続性を調べて文字領域と図形領域を分
類していた(例えば、特開昭61−11888号公報)。
発明が解決しようとする課題 しかしながら、上記のような従来の技術では、文字認
識処理のための文字領域と文字以外の領域の分類に主眼
がおかれており、画像内の文字以外の領域は図表,写
真,線分,ノイズの領域というように、細かく分類する
ことができないという欠点を有していた。
本発明はかかる点に鑑みてなされたものであり、画像
内の文字列,図表,写真,線分,ノイズの領域の簡易な
方法で、自動的に抽出し分類する画像処理装置を提供す
ることを目的としている。
課題を解決するための手段 本発明は上記目的を達成するために、画像から文字
列,図表,写真,線分,ノイズの矩形領域を抽出する矩
形領域座標抽出部と、前記矩形領域座標抽出部で抽出し
た矩形領域の特徴を抽出する矩形領域特徴抽出部と、前
記矩形領域特徴抽出部から抽出した特徴を用いて、矩形
領域を文字列,図表,写真,線分,ノイズに分類する矩
形領域分類部を備えた画像処理装置である。
作用 本発明は上記の構成により、画像から矩形領域座標抽
出部で矩形領域を抽出し、抽出した矩形領域に対し矩形
領域特徴抽出部で特徴を抽出し、抽出した特徴を矩形領
域分類部で文字列,図表,写真,線分,ノイズそれぞれ
にあらかじめ用意した特徴と比較することにより、矩形
領域が文字列,図表,写真,線分,ノイズのいずれかに
該当するかを判定する。
実 施 例 以下、本発明の実施例について図面を参照しながら説
明する。
第1図は、本発明による画像処理装置の一実施例の構
成図である。1は画像入力部であり文字列,図表,写
真,線分,ノイズを含む画像を走査し、2値信号で画像
メモリ部2に格納する。3は矩形領域座標抽出部であり
文字列,図表,写真,線分,ノイズを囲む。最小の矩形
領域座標を抽出する。4は矩形領域特徴抽出部であり、
矩形領域座標抽出部3で抽出した文字列,図表,写真,
線分,ノイズを囲む矩形領域の特徴を抽出する。5は矩
形領域分類部であり、矩形領域特徴抽出部4で抽出され
た特徴をもとに、矩形領域が文字列であるか、図表であ
るか,写真であるか,線分である,ノイズであるかを分
類する。
以上のように構成された画像処理装置について、第2
図に示す入力画像Pの例に説明する。
画像入力部1から、入力された画像Pは文字列,図
表,写真,線分,ノイズ部の黒画素を1、背景部の白画
素をOの2値データで画像メモリ部2に蓄えられる。
矩形領域座標抽出部3では、画像メモリ部2に蓄えら
れている入力画像Pを横方向に走査して黒画素間の距離
があらかじめ定めたしきい値R1以下の場合、その黒画素
どうしは連結しているものとする。同様に画像メモリ部
2に蓄えられている入力画像Pを縦方向に走査して黒画
素間の距離があらかじめ定めたしきい値R2以下の場合、
その黒画素どうしは連結しているものとする。横方向,
縦方向に走査して得られた黒画素間の連結情報に着目し
文字列,図表,写真,線分,ノイズ部分のいずれかを囲
む最小の矩形領域の左上点座標(Xmin,Ymin),右下点
座標(Xmax,Ymax)を抽出する。第3図に文字列の矩形
領域を抽出した状態を座標を用いて示す。第4図に第2
図の入力画像Pから矩形領域座標抽出部3で抽出したす
べての矩形領域を示す。
矩形領域特徴抽出部4では、矩形領域座標抽出部3で
抽出した文字列,図表,写真,線分,ノイズの矩形領域
座標から、矩形領域の幅Wを式(1)によって求める。
W=Xmax−Xmin+1 ……(1) 同様に矩形領域座標から矩形領域の高さHを式(2)
によって求める。
H=Ymax−Ymin+1 ……(2) 矩形領域の幅Wと高さHから、矩形領域の文字列方向
垂直高さVを式(3)によって求める。
矩形領域の幅Wと高さHから、矩形領域サイズSを式
(4)によって求める。
S=WH ……(4) 矩形領域の幅Wと高さHから、矩形領域縦横比Eを式
(5)によって求める。
矩形領域サイズSと矩形領域内の黒画素数Bから矩形
領域の黒画素密度Dを式(6)によって求める。
矩形領域分類部5では、一般的な文書の文字列,図
表,写真,線分,ノイズは矩形領域特徴抽出部4で抽出
した矩形領域の文字列方向垂直高さV,矩形領域サイズS,
矩形領域縦横比E,矩形領域の黒画素密度Dが特定の性質
を持つことを利用して分類を行う。具体的には、矩形領
域の文字列方向垂直高さVがあらかじめ定めたしきい値
Vthr以上の場合、その矩形領域は図表、または写真と分
類され、VがVthr未満の場合は文字列,線分,ノイズの
うちいずれかであると分類される。文字列,線分,ノイ
ズのうちいずれかであると分類された矩形領域は、矩形
領域サイズSがあらかじめ定めたしきい値Sthr以上の場
合は文字列,線分と分類され、SがSthr未満の場合は、
ノイズであると分類される。文字列,線分と分類された
矩形領域は、矩形領域縦横比Eがあらかじめ定めたしき
い値Ethr以上の場合は、線分と分類され、EがEthr未満
の場合は文字列と分類される。図表または写真と分類さ
れた矩形領域は、矩形領域の黒画素密度Dがあらかじめ
定めたしきい値Dthr以上の場合は、写真と分類され、D
がDthr未満の場合は図表と分類される。第5図に矩形領
域の分類条件の説明図を示す。
以上のように構成された画像処理装置では文字列,図
表,写真,線分,ノイズの混在する画像から文字列,図
表,写真,線分,ノイズを抽出し、分類することができ
る。
尚、本実施例の画像処理装置を文字認識装置に接続す
ることにより、文字列と分類された矩形領域から文字を
切り出し、認識することができる。
発明の効果 以上説明したように、本発明によれば不特定な書式の
文書の入力画像から簡易な方法で自動的に文字列,図
表,写真,線分,ノイズの領域を抽出することができ
る。この方法を使用して、文字列の領域はすでに知られ
ている文字認識技術によって1文字毎に切り出して認識
し、図表,写真,線分,ノイズの領域はそれぞれ固有の
処理を行うことによって入力画像をより柔軟に加工する
ことができ、その実用的効果は大きい。
【図面の簡単な説明】
第1図は本発明における一実施例の画像処理装置の構成
図、第2図は入力画像の説明図、第3図は抽出した文字
列の矩形領域座標を示す説明図、第4図は第2図の入力
画像に対して抽出したすべての矩形領域を示す説明図、
第5図は矩形領域の分類条件を示す説明図である。 1……画像入力部、2……画像メモリ部、3……矩形領
域座標抽出部、4……矩形領域特徴抽出部、5……矩形
領域分類部、6……文字列領域、7……線分領域、8…
…写真領域、9……図表領域、P……入力画像。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭62−86465(JP,A) 特開 昭63−205238(JP,A) (58)調査した分野(Int.Cl.6,DB名) G06T 7/00

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】文字列、図表、写真、線分、ノイズのう
    ち、少なくとも2組の要素からなる画像情報を入力する
    画像情報入力部と、前記画像情報入力部に入力された前
    記画像情報を格納する画像情報メモリ部と、前記画像情
    報メモリ部に格納された画像情報から、横方向、縦方向
    に走査して得られた黒画素間の連結情報に着目し文字
    列、図表、写真、線分、ノイズのいずれかを囲む最小の
    矩形領域を抽出する矩形領域座標抽出部と、前記矩形領
    域座標抽出部で抽出した矩形領域から、矩形領域の文字
    列方向垂直高さ(以下Vと言う)、矩形領域サイズ(以
    下Sと言う)、矩形領域縦横比(以下Eと言う)、矩形
    領域の黒画素密度(以下Dと言う)を特徴として抽出す
    る矩形領域特徴抽出部と、前記矩形領域特徴抽出部で抽
    出した特徴を用いて、矩形領域の文字列方向垂直高さの
    しきい値(以下Vthrと言う)、矩形領域サイズのしきい
    値(以下Sthrと言う)、矩形領域縦横比のしきい値(以
    下Ethrと言う)、矩形領域の黒画素密度のしきい値(以
    下Dthrと言う)としたときに、V<VthrかつS≧Sthrか
    つE≧Eのときは文字列、V≧VthrかつD<Dthrのとき
    は図表、V≧VthrかつD≧Dthrのときは写真、V<Vthr
    かつS≧SthrかつE<Eのときは線分、V<VthrかつS
    <Sthrのときはノイズ、として矩形領域を文字列、図
    表、写真、線分、ノイズに分類する矩形領域分類部を有
    することを特徴とする画像処理装置。
JP1075366A 1989-03-27 1989-03-27 画像処理装置 Expired - Fee Related JP2939985B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1075366A JP2939985B2 (ja) 1989-03-27 1989-03-27 画像処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1075366A JP2939985B2 (ja) 1989-03-27 1989-03-27 画像処理装置

Publications (2)

Publication Number Publication Date
JPH02253383A JPH02253383A (ja) 1990-10-12
JP2939985B2 true JP2939985B2 (ja) 1999-08-25

Family

ID=13574151

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1075366A Expired - Fee Related JP2939985B2 (ja) 1989-03-27 1989-03-27 画像処理装置

Country Status (1)

Country Link
JP (1) JP2939985B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3278471B2 (ja) * 1991-11-29 2002-04-30 株式会社リコー 領域分割方法
EP0632402B1 (en) * 1993-06-30 2000-09-06 International Business Machines Corporation Method for image segmentation and classification of image elements for document processing
JP3096388B2 (ja) * 1994-06-22 2000-10-10 シャープ株式会社 電子複写機における自動画質調整装置
JP3876531B2 (ja) 1998-05-28 2007-01-31 富士通株式会社 文書画像の傾き補正方法

Also Published As

Publication number Publication date
JPH02253383A (ja) 1990-10-12

Similar Documents

Publication Publication Date Title
US6512848B2 (en) Page analysis system
EP0490687B1 (en) Method and apparatus for image processing
JP2812982B2 (ja) 表認識方法
EP1310912A2 (en) Image processing method, apparatus and system
JP3278471B2 (ja) 領域分割方法
JP4655335B2 (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2001297303A (ja) 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体
US6289120B1 (en) Method and system for processing images of forms which have irregular construction and/or determining whether characters are interior to a form
JP2939985B2 (ja) 画像処理装置
EP1296283A2 (en) Half-tone dot elimination method and system thereof
JPH1031716A (ja) 文字行抽出方法および装置
Ozawa et al. A character image enhancement method from characters with various background images
JP3187895B2 (ja) 文字領域抽出方法
JPH0548510B2 (ja)
JP3122476B2 (ja) 自動文書清書装置
EP0767941B1 (en) Automatic determination of landscape scan in binary images
EP0446630A2 (en) Method and apparatus for segmenting characters in an amount field on a financial document
JP2537973B2 (ja) 文字認識装置
JP2995818B2 (ja) 文字切り出し方法
JP3135290B2 (ja) 画像処理方法及び装置
JPH0797390B2 (ja) 文字認識装置
JPH0728934A (ja) 文書画像処理装置
JP2878327B2 (ja) 文字切り出し装置
JPH05135204A (ja) 文字認識装置
JP2993252B2 (ja) 同形異文字判別方法および装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees