JPH0276084A - 高速文字図形分離装置 - Google Patents

高速文字図形分離装置

Info

Publication number
JPH0276084A
JPH0276084A JP63227478A JP22747888A JPH0276084A JP H0276084 A JPH0276084 A JP H0276084A JP 63227478 A JP63227478 A JP 63227478A JP 22747888 A JP22747888 A JP 22747888A JP H0276084 A JPH0276084 A JP H0276084A
Authority
JP
Japan
Prior art keywords
image
character
area
mask
original image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63227478A
Other languages
English (en)
Other versions
JP2800192B2 (ja
Inventor
Yukio Hayashi
幸雄 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP63227478A priority Critical patent/JP2800192B2/ja
Publication of JPH0276084A publication Critical patent/JPH0276084A/ja
Application granted granted Critical
Publication of JP2800192B2 publication Critical patent/JP2800192B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は認識のためにあらかじめ人間がマーク付は等を
行っていない一般の文書を対象とした文書画像認識にお
いて、文字と図形が混在する文書から、文字領域と図形
領域を高速に・分離する高速文字図形分離装置に関する
ものである。
(従来技術) 従来、文字図形混在文書から文字と図形を分離する手法
として、文字と図形の大きさの違いに着目したり、複雑
さの違いに着目する手法がある。
その−例としては、連結画素の外接矩形をとり、この矩
形の周辺長で文字と図形を識別するようにしたものがあ
る。しかし外接矩形゛をとるために連結画素を追跡した
のち連結画素の座標の最大、最小値等を求める処理等が
必要になり、画素数が増加すると処理時間が大きくなる
という問題があった。
(発明が解決しようとする課題) 本発明は文字図形混在一般文書から、文字領域と図形領
域を、マスク処理によって高速にしかも画素数が増加し
ても処理時間が大きくなることなく、文字と図形を分離
する装置を提供することを目的とするものである。
(課題を解決するための手段) 第1の発明 本発明の第1の態様は、画像をデジタル化して入力する
入力手段(第1図1)と、画像を記憶するイメージメモ
リ(同図2)と、文字の周囲の一定の空白部を検出する
矩形枠(回)の形のマスクを有し、この空白部検出マス
クによって原画像の全面を1ドツトずつずらしながら走
査し、空白部検出マスクに適合する空白部を検出したと
き、空白部検出マスクに囲まれた領域内の画素群を抽出
する文字領域抽出手段と(同図3)、原画像から前記文
字領域抽出手段によって抽出した文字領域を取り除いて
図形領域を抽出する図形領域抽出手段(同図4)とを備
えた高速文字図形分離装置である。
第2の発明 本発明の第2の態様は、画像をデジタル化して入力する
入力手段(第4図11)と、画像を記憶するイメージメ
モリ(同図12)と、原画像を左または右の一方向へ1
ドツトシフトし、原画像とそのシフトした画像との論理
積演算を行ない、その演算結果の画像をさらに前記方向
へ1ドツトシフトし、原画像とそのシフトした画像との
論理積演算を行なうというシフト動作と論理積演算を所
定の回数繰り返して、横方向に所定の画素数連続した空
白部を検出すると共に、原画像をよまたは下の一方向へ
1ドツトシフトし、原画像とそのシフトした画像との論
理積演算を行ない、その演算結果の画像をさらに前記方
向へ1ドツトシフトし、原画像とそのシフトした画像と
の論理積演算を行なうというシフト動作と論理積演算を
所定の回数繰り返ルで、縦方向に所定の画素数連続した
空白部を検出し、文字の周囲の一定の空白部を求める空
白部検出手段(同図13)と、空白部検出手段の出力に
基づき文字領域を表わす文字マスクを生成する文字マス
ク生成手段(同図14)と、前記文字マスクと原画像と
の論理積演算を行ない文字領域を抽出する文字領域抽出
手段(同図15)と、原画像から前記文字領域抽出手段
によって抽出した文字領域を取り除いて図形領域を抽出
する図形領域抽出手段(同図16)とを備えた高速文字
図形分離装置である。
(作用) 本発明(第1の発明)の高速文字図形分離装置において
、文字領域抽出手段は、文字の周囲の一定の空白部を検
出する矩形枠の形をした空白部検出マスクによって原画
像の全面を1ドツトずつシフトながら走査する。走査の
結果空白部検出マスクに適合する空白部を検出したとき
、空白部検出マスクに囲まれた領域内の画素群を抽出す
る。原画像から前記文字領域抽出手段によって抽出した
文字領域を取り除いて図形領域を抽出する。
以上のように、本発明はマスクにより原画像の全面を走
査して文字を抽出するので、原画像の任意の位置に存在
する、マスクの大きさに合った文字を洩れな(抽出し文
字画像を得ることができる。
また、本発明においては、原画像から前記文字像を取り
除き図形領域を抽出するので、任意の角度の線分を含む
図形を抽出することができる。
本発明(第2の発明)の高速文字図形分離装置は、第1
の発明のマスク処理による文字領域抽出手段の文字図形
分離処理をシフト付き論理演算により行なうよう構成し
て、−層の高速化を計ったものである。その空白部検出
手段は第1の発明の矩形枠の形をした空白部検出マスク
の機能をシフト付き論理演算により行なう。即ち、原画
像を左または右の一方向へ1ドツトシフトし、原画像と
そのシ・フトした画像との論理積演算を行ない、その演
算結果の画像をさらに前記方向へ1ドツトシフトし、原
画像とそのシフトした画像との論理積演算を行なうとい
うシフト動作と論理積演算を所定の回数繰り返して、横
方向に所定の画素数連続した空白部を検出する。また、
原画像を上または下の一方向へ1ドツトシフトし、原画
像とそのシフトした画像との論理積演算を行ない、その
演算結果の画像をさらに前記方向へ1ドツトシフトし、
原画像とそのシフトした画像との論理積演算を行なうと
いうシフト動作と論理積演算を所定の回数繰り返して、
縦方向に所定の画素数連続した空白部を検出する。文字
マスク生成手段は、空白部検出手段の出力に基づき文字
領域を抽出するための文字マスクを生成する。文字領域
抽出手段は前記文字マスクと原画像との論理積演算を行
ない文字領域を抽出する。図形領域抽出手段は原画像か
ら前記文字領域抽出手段によって抽出した文字領域を取
り除いて図形領域を抽出する。
第2の態様の発明によれば、シフト付論理演算で文字図
形分離処理が可能なため、その処理のためのハード構成
が簡単となると共に、第1の態様の発明のマスクを走査
することに相当する処理が、文書−面を処理の単位とし
て一括して即ち並列的に処理できるので、処理速度が一
層高速になる。
(実施例) 第1図は本発明の第1の態様に対応する実施例を示すも
ので、画像入力部1、イメージメモリ2、文字領域抽出
部3、図形領域抽出部4からなっている。画像入力部1
は文字図形混在一般文書をイメージスキャナ等により入
力し、デジタルデータ(2値データ)に変換するもので
ある。イメージメモリ2は画像入力部1の出力するデジ
タルデータ(原画像)を記憶するものである。文字領域
抽出部3は、第2図(a)に示すような矩形枠の形をし
たマスクa(斜線部分)に黒画素がなければ、マスクb
の内部に相当する部分を文字領域として識別し、マスク
b内の文字画像を抽出するものである。図形領域抽出部
4はイメージメモリのマスクb内の位置を消去する処理
を行ない図形画像を得るものである。
以上のように構成された本実施例の文字と図形を分離す
る動作の概要は次のとおりである。
5topO(初期化):矩形枠の形をしたマスクaを原
画像の左上端にあわせ、処理結果を格納するメモリを初
期化(0)する。
5tapl (白枠白黒画素検出):第2図(a)の矩
形枠状のマスク(斜線部分)内に黒画素が存在するか調
べる。黒画素があればマスクb(マスクaの内部の領域
)内を白(0)に、そうでなければ黒(1)にする。
5top2(文字領域検出):原画像と上記マスクbで
ANDをとり結果を結果格納用イメージメモリに保存す
る。
5top3(再帰手続):マスクaを1dat右にシフ
トし5teplに戻る。但し、右端に来たら、l d 
o を下の左端にシフトさせ同様に行う。
右下端に来たら5tep4を実行する。即ち、マスク処
理を第3図に示すように1dotずつシフトしながら原
画像−面に走査して行う。
5tel)4(図形領域抽出):原画像から5top2
で得られた文字画像を取り除き図形領域画像を得る。(
終了) マスク処理を施した例を第2図(c)(d)に示す。マ
スクの大きさは標準の文字サイズの例としてはマスクb
を文字サイズ(24X24dat)に設定し、マスクa
をマスクbを囲む大きさ(28X28da t)とする
ことかできる。文字サイズの違う見出し文字、半月文字
等を抽出するためには、標準文字サイズとサイズの違う
マスクを用いて同様に文字図形分離処理を行う。
本実施例においては、マスクにより原画像の全面を走査
して文字を抽出するので、原画像の任意の位置に存在す
る、マスクの大きさに合った文字を洩れなく抽出し文字
画像を得ることができる。
また、本実施例においては、原画像から前記文字画像を
取り除き図形領域を抽出するので、任意の角度の線分を
含む図形を抽出できることができる。
また、文字図形の分離処理は、画像の内容にかかわらず
、マスクを画面−面に走査するだけの単純な処理であり
、高速化を計ることができ、しかも文字数が増えても、
処理時間がそれに応じて大きくならない利点がある。
第2の実施例 第4図は本発明の第2の実施例を示すもので、画像入力
部11、イメージメモリ12、白枠白黒画素検出部13
、文字マスク作成部14、文字領域抽出部15、図形領
域抽出部16からなっている。
画像入力部11は人力された文字図形混存一般文書を、
読み取りこれを2値のデジタルデータに変換する。変換
されたデジタルデータ(原画像)はイメージメモリ12
に記憶される。
白枠白黒画素検出部13、文字マスク作成部14、文字
領域抽出部15、図形領域抽出部16の機能はシフト付
論理演算により行なわれる。
第5図はその動作(アルゴリズム)の説明のための図で
ある。第1の実施例のマスクの大きさに相当するシフト
距離は25dat(文字サイズ+1)とした。
5tel)O(初期化):原画像を白黒反転し、これを
画像Aとする。
5tel)1 :画像Aと画像Aを右へ1datシフト
した画像のANDをとり、これを画像Bとする。
5tep2:i=2〜25まで以下の手順(Step2
)をくり返す。
画像Aと画像Bを1dot右ヘシフトした画像のAND
をとり、これを新たに画像Bとする。このくり返しで得
られた結果を画像Cとする。
St’ep3:画像Cと画像Cを下へ25datシフト
した画像のANDをとり、これを画像Dセする。
5tep4:5tepl、2と同様の手順を下へのシフ
トのAND演算で行う。この結果を画像Eとする。
5tep5:画像Eと画像Eを25dot右ヘシフトし
た画像のANDをとり、これを画像Fとする。
5tap6:画像りと画像FのANDをとり、これを画
像Gとする。
5top7(文字マスク作成):画像Gを上に順々に2
5datまでシフトしながらそれ自身と0Rをとり、こ
れを画像Hとする。さらに画像Hを左へ順々に25da
 tまでシフトしながらORをとり文字マスク作成処理
を施す。これを画像Iとする。
5top8(文字領域抽出):原画像と画像IのAND
をとり文字画像Jを得る。
5tep9(図形領域抽出):原画像から文字画像Jを
取り除き、図形領域画像Kを得る。(終了) 前記アルゴリズムにおいて、5top2.3は第1実施
例のマスクa上部および下部の白枠内黒画素検出に相当
し、5tepi 5はマスクaの左右部の白枠内黒画素
検出に相当する。5tel)6の白枠内黒画素検出の結
果は、原画像内の任意の位置の24X24datのサイ
ズ内にサイズ外にはみ出さずに文字が含まれれば、画像
Gの前記位置のサイズ内右下画素が黒に、そうでなけれ
ば(図形又は文字が24X2Adotサイズ外にはみ出
していれば)前記右下画素が白になる。
画像GをシフトとOR演算により文字マスクを作成する
手順は第6図の下部に示されている。大域的には第7図
の様になる。
文字サイズの違う見出し文字、半角文字等を抽出できる
ようにするため、標準文字サイズとサイズの違うマスク
に相当するシフト距離を用いて同様に分離処理を行う。
この処理も同様にハードで高速に処理することが出来る
とともに並列処理も可能となる。
なお、画像Gから画像■を構成するとき、1dOtずつ
シフトしOR演算を施すことを25回行ったが、1do
tの黒画素が28X28datの黒画素になれば良いの
で、以下の様な方法をとってもよい。前記25回のシフ
トを、1.2,3゜4.8,9dot (2ndot)
のシフトとOR演算で5回の処理で行うことによって実
現可能である。左方向上方向ともにこれを行えば50(
25+2°5)回の処理が10(5+5)回の処理で行
なうことができる。
本実施例によれば、シフト付論理演算で分離処理が可能
なため、処理が簡単となり、ノ\−ド構成が簡単となる
また、第1の実施例のマスクを走査することに相当する
処理が、文書−面を処理の単位として一括して処理出来
るので、第1の実施例よりもさらに高速処理ができる。
(発明の効果) 本発明によれば、マスクにより原画像の全面を走査し°
て文字を抽出するので、原画像の任意の位置に存在する
、マスクの大きさに合った文字を洩れな(抽出し文字画
像を得ることができる。
また、本発明によれば、原画像から前記文字画像を取り
除き図形領域を抽出するので、任意の角度の線分を含む
図形を抽出できることができる。
また、本発明によれば、文字図形の分離処理は、画像の
内容にかかわらず、マスクを画面−面に走査するだけの
単純な処理であり、高速化を計ることができ、しかも文
字数が増えても、処理時間がそれに応じて大きくならな
い利点がある。
また、本発明によれば、マスクにより原画像の全面を走
査する代りに、シフト付論理演算でその機能を実現し、
文字図形分離処理を行なう態様においては、文書−面を
処理の単位として一括して即ち並列的に処理できるので
、処理速度が一層高速になると共に、その処理のための
ハード構成が簡単となる。
【図面の簡単な説明】
第1図はマスク処理を用いた本発明の第1の実施例の概
略の構成を示す図である。 第2図は第1の実施例の動作を説明するための図で、(
a)は白枠白黒画素検出マスク、(b)は内部領域マス
ク、(C)は図形領域にマスク処理した例、(d)は文
字領域にマスク処理した例をそれぞれ示すものである。 第3図は文書−面にマスク処理を施す様子を示す図で゛
ある。 第4図は本発明のシフト付き論理を用いる第2の実施例
の概略の構成を示す図である。 第5図(a)は原画、(b)は原画から抽出した図形領
域、(C)は原画から抽出した文字領域の例を示す図で
ある。 第6図は第2の実施例のシフト付論理演算によるアルゴ
リズムを説明した図である。 第7rI!Jは原画とマスクにより文字領域を抽出する
様子を説明する図である。 1.11・・・画像入力部、2.12・・・イメージメ
モリ、13・・・空白部検出部(白枠白黒画素検出部)
、14・・・文字マスク作成部、3.15・・・文字領
域抽出部、4.16・・・図形領域抽出部。 第1図 第2図 第4図 シフト付3輪5を漢簀で1覚 第5図 (a) (b)            (c)第6図 第7 藁像I

Claims (2)

    【特許請求の範囲】
  1. (1)画像をデジタル化して入力する入力手段と、 画像を記憶するイメージメモリと、 文字の周囲の一定の空白部を検出する矩形枠状のマスク
    を有し、この空白部検出マスクによって原画像の全面を
    1ドットずつずらしながら走査し、空白部を検出したと
    き、空白部検出マスクに囲まれた領域内の画素群を抽出
    する文字領域抽出手段と、 原画像から前記文字領域抽出手段によって抽出した文字
    領域を取り除いて図形領域を抽出する図形領域抽出手段
    と を備えたことを特徴とする高速文字図形分離装置。
  2. (2)画像をデジタル化して入力する入力手段と、 画像を記憶するイメージメモリと、 原画像を左または右の一方向へ1ドットシフトし、原画
    像とそのシフトした画像との論理積演算を行ない、その
    演算結果の画像をさらに前記方向へ1ドットシフトし、
    原画像とそのシフトした画像との論理積演算を行なうと
    いうシフト動作と論理積演算を所定の回数繰り返して、
    横方向に所定の画素数連続した空白部を検出すると共に
    、原画像を上または下の一方向へ1ドットシフトし、原
    画像とそのシフトした画像との論理積演算を行ない、そ
    の演算結果の画像をさらに前記方向へ1ドットシフトし
    、原画像とそのシフトした画像との論理積演算を行なう
    というシフト動作と論理積演算を所定の回数繰り返して
    、縦方向に所定の画素数連続した空白部を検出し、文字
    の周囲の一定の空白部を求める空白部検出手段と、 空白部検出手段の出力に基づき文字領域を表わす文字マ
    スクを生成する文字マスク生成手段と、前記文字マスク
    と原画像との論理積演算を行ない文字領域を抽出する文
    字領域抽出手段と、原画像から前記文字領域抽出手段に
    よって抽出した文字領域を取り除いて図形領域を抽出す
    る図形領域抽出手段と を備えたことを特徴とする高速文字図形分離装置。
JP63227478A 1988-09-13 1988-09-13 高速文字図形分離装置 Expired - Lifetime JP2800192B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63227478A JP2800192B2 (ja) 1988-09-13 1988-09-13 高速文字図形分離装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63227478A JP2800192B2 (ja) 1988-09-13 1988-09-13 高速文字図形分離装置

Publications (2)

Publication Number Publication Date
JPH0276084A true JPH0276084A (ja) 1990-03-15
JP2800192B2 JP2800192B2 (ja) 1998-09-21

Family

ID=16861511

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63227478A Expired - Lifetime JP2800192B2 (ja) 1988-09-13 1988-09-13 高速文字図形分離装置

Country Status (1)

Country Link
JP (1) JP2800192B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07282283A (ja) * 1994-04-13 1995-10-27 Ricoh Co Ltd 文字画像編集処理装置
JP2019207645A (ja) * 2018-05-30 2019-12-05 大日本印刷株式会社 文字切り出し装置、文字切り出し方法、及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07282283A (ja) * 1994-04-13 1995-10-27 Ricoh Co Ltd 文字画像編集処理装置
JP2019207645A (ja) * 2018-05-30 2019-12-05 大日本印刷株式会社 文字切り出し装置、文字切り出し方法、及びプログラム

Also Published As

Publication number Publication date
JP2800192B2 (ja) 1998-09-21

Similar Documents

Publication Publication Date Title
US5048109A (en) Detection of highlighted regions
US5272764A (en) Detection of highlighted regions
US5075895A (en) Method and apparatus for recognizing table area formed in binary image of document
EP0431958B1 (en) Identification and segmentation of finely textured and solid regions of binary images
US5129014A (en) Image registration
JP4189506B2 (ja) 画像処理のための装置、方法及び記録媒体
JPH0772861B2 (ja) プログラム作成装置
JP3753357B2 (ja) 文字抽出方法および記録媒体
US5467410A (en) Identification of a blank page in an image processing system
JP2010011450A (ja) 画像形成装置及び画像処理方法
JPH0276084A (ja) 高速文字図形分離装置
JP2002133424A (ja) 文書の傾き角度及び境界の検出方法
JPH08123901A (ja) 文字抽出装置及び該装置を用いた文字認識装置
JP2795860B2 (ja) 文字認識装置
JP2789622B2 (ja) 文字/図形領域判定装置
JPS63304387A (ja) 文書読取装置
JPH03172984A (ja) 表処理方法
JP3534997B2 (ja) 罫線抽出装置および方法
JP2507949B2 (ja) 文字/図形領域判定装置
JPH0728934A (ja) 文書画像処理装置
JP3162414B2 (ja) 罫線認識方法及び表処理方法
JP2844618B2 (ja) 文字切り出し装置
JP3566738B2 (ja) 網掛け領域処理方法および網掛け領域処理装置
JPH01152586A (ja) 文字図形認識方法
JPH02176973A (ja) 図面読取処理方法