JP2800192B2 - 高速文字図形分離装置 - Google Patents

高速文字図形分離装置

Info

Publication number
JP2800192B2
JP2800192B2 JP63227478A JP22747888A JP2800192B2 JP 2800192 B2 JP2800192 B2 JP 2800192B2 JP 63227478 A JP63227478 A JP 63227478A JP 22747888 A JP22747888 A JP 22747888A JP 2800192 B2 JP2800192 B2 JP 2800192B2
Authority
JP
Japan
Prior art keywords
image
character
original image
area
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63227478A
Other languages
English (en)
Other versions
JPH0276084A (ja
Inventor
幸雄 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP63227478A priority Critical patent/JP2800192B2/ja
Publication of JPH0276084A publication Critical patent/JPH0276084A/ja
Application granted granted Critical
Publication of JP2800192B2 publication Critical patent/JP2800192B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は認識のためにあらかじめ人間がマーク付け等
を行っていない一般の文書を対象とした文書画像認識に
おいて、文字と図形が混在する文書から、文字領域と図
形領域を高速に分離する高速文字図形分離装置に関する
ものである。
(従来技術) 従来、文字図形混在文書から文字と図形を分離する手
法として、文字と図形の大きさの違いに着目したり、複
雑さの違いに着目する手法がある。その一例としては、
連結画素の外接矩形をとり、この矩形の周辺長で文字と
図形を識別するようにしたものがある。しかし外接矩形
をとるために連結画素を追跡したのち連結画素の座標の
最大、最小値等を求める処理等が必要になり、画素数が
増加すると処理時間が大きくなるという問題があった。
(発明が解決しようとする課題) 本発明は文字図形混在一般文書から、文字領域と図形
領域を、マスク処理によって高速にしかも画素数が増加
しても処理時間が大きくなることなく、文字と図形を分
離する装置を提供することを目的とするものである。
(課題を解決するための手段) 第1の発明 本発明の第1の態様は、画像をデジタル化して入力す
る入力手段(第1図1)と、画像を記憶するイメージメ
モリ(同図2)と、文字の周囲の一定の空白部を検出す
る矩形枠 の形のマスクを有し、この空白部検出マスクによって原
画像の全面を1ドットずつずらしながら走査し、空白部
検出マスクに適合する空白部を検出したとき、空白部検
出マスクに囲まれた領域内の画素群を抽出する文字領域
抽出手段と(同図3)、原画像から前記文字領域抽出手
段によって抽出した文字領域を取り除いて図形領域を抽
出する図形領域抽出手段(同図4)とを備えた高速文字
図形分離装置である。
第2の発明 本発明の第2の態様は、画像をデジタル化して入力す
る入力手段(第4図11)と、画像を記憶するイメージメ
モリ(同図12)と、原画像を左または右の一方向へ1ド
ットシフトし、原画像とそのシフトした画像との論理積
演算を行ない、その演算結果の画像をさらに前記方向へ
1ドットシフトし、原画像とそのシフトした画像との論
理積演算を行なうというシフト動作と論理積演算を所定
の回数繰り返して、横方向に所定の画素数連続した空白
部を検出すると共に、原画像を上または下の一方向へ1
ドットシフトし、原画像とそのシフトした画像との論理
積演算を行ない、その演算結果の画像をさらに前記方向
へ1ドットシフトし、原画像とそのシフトした画像との
論理積演算を行なうというシフト動作と論理積演算を所
定の回数繰り返して、縦方向に所定の画素数連続した空
白部を検出し、文字の周囲の一定の空白部を求める空白
部検出手段(同図13)と、空白部検出手段の出力に基づ
き文字領域を表わす文字マスクを生成する文字マスク生
成手段(同図14)と、前記文字マスクと原画像との論理
積演算を行ない文字領域を抽出する文字領域抽出手段
(同図15)と、原画像から前記文字領域抽出手段によっ
て抽出した文字領域を取り除いて図形領域を抽出する図
形領域抽出手段(同図16)とを備えた高速文字図形分離
装置である。
(作用) 本発明(第1の発明)の高速文字図形分離装置におい
て、文字領域抽出手段は、文字の周囲の一定の空白部を
検出する矩形枠の形をした空白部検出マスクによって原
画像の全面を1ドットずつシフトながら走査する。走査
の経過空白部検出マスクに適合する空白部を検出したと
き、空白部検出マスクに囲まれた領域内の画素群を抽出
する。原画像から前記文字領域抽出手段によって抽出し
た文字領域を取り除いて図形領域を抽出する。
以上のように、本発明はマスクにより原画像の全面を
走査して文字を抽出するので、原画像の任意の位置に存
在する、マスクの大きさに合った文字を洩れなく抽出し
文字画像を得ることができる。また、本発明において
は、原画像から前記文字像を取り除き図形領域を抽出す
るので、任意の角度の線分を含む図形を抽出することが
できる。
本発明(第2の発明)の高速文字図形分離装置は、第
1の発明のマスク処理による文字領域抽出手段の文字図
形分離処理をシフト付き論理演算により行なうよう構成
して、一層の高速化を計ったものである。その空白部検
出手段は第1の発明の矩形枠の形をした空白部検出マス
クの機能をシフト付き論理演算により行なう。即ち、原
画像を左または右の一方向へ1ドットシフトし、原画像
とそのシフトした画像との論理積演算を行ない、その演
算結果の画像をさらに前記方向へ1ドットシフトし、原
画像とそのシフトした画像との論理積演算を行なうとい
うシフト動作と論理積演算を所定の回数繰り返して、横
方向に所定の画素数連続した空白部を検出する。また、
原画像を上または下の一方向へ1ドットシフトし、原画
像とそのシフトした画像との論理積演算を行ない、その
演算結果の画像をさらに前記方向へ1ドットシフトし、
原画像とそのシフトした画像との論理積演算を行なうと
いうシフト動作と論理積演算を所定の回数繰り返して、
縦方向に所定の画素数連続した空白部を検出する。文字
マスク生成手段は、空白部検出手段の出力に基づき文字
領域を抽出するための文字マスクを生成する。文字領域
抽出手段は前記文字マスクと原画像との論理積演算を行
ない文字領域を抽出する。図形領域抽出手段は原画像か
ら前記文字領域抽出手段によって抽出した文字領域を取
り除いて図形領域を抽出する。
第2の態様の発明によれば、シフト付論理演算で文字
図形分離処理が可能なため、その処理のためのハード構
成が簡単となると共に、第1の態様の発明のマスクを走
査することに相当する処理が、文字一面を処理の単位と
して一括して即ち並列的に処理できるので、処理速度が
一層高速になる。
(実施例) 第1の実施例 第1図は本発明の第1の態様に対応する実施例を示す
もので、画像入力部1、イメージメモリ2、文字領域抽
出部3、図形領域抽出部4からなっている。画像入力部
1は文字図形混在一般文書をイメージスキャナ等により
入力し、デジタルデータ(2値データ)に変換するもの
である。イメージメモリ2は画像入力部1の出力するデ
ジタルデータ(原画像)を記憶するものである。文字領
域抽出部3は、第2図(a)に示すような矩形枠の形を
したマスクa(斜線部分)に黒画素がなければ、マスク
bの内部に相当する部分を文字領域として識別し、マス
クb内の文字画像を抽出するものである。図例領域抽出
部4はイメージメモリのマスクb内の位置を消去する処
理を行ない図形画像を得るものである。
以上のように構成された本実施例の文字と図形を分離
する動作の概要は次のとおりである。
Step0(初期化):矩形枠の形をしたマスクaを原画
像の左上端にあわせ、処理結果を格納するメモリを初期
化(0)する。
Step1(白枠内黒画素検出):第2図(a)の矩形枠
状のマスク(斜線部分)内に黒画素が存在するか調べ
る。黒画素があればマスクb(マスクaの内部の領域)
内を白(0)に、そうでなければ黒(1)にする。
Step2(文字領域検出):原画像と上記マスクbでAND
をとり結果を結果格納用イメージメモリに保存する。
Step3(再帰手続):マスクaを1dot右にシフトしSte
p1に戻る。但し、右端に来たら、1dot下の左端にシフト
させ同様に行う。右下端に来たらStep4を実行する。即
ち、マスク処理を第3図に示すように1dotずつシフトし
ながら原画像一面に走査して行う。
Step4(図形領域抽出):原画像からStep2で得られた
文字画像を取り除き図形領域画像を得る。(終了) マスク処理を施した例を第2図(c)(d)に示す。
マスクの大きさは標準の文字サイズの例としてはマスク
bを文字サイズ(24×24dot)に設定し、マスクaをマ
スクbを囲む大きさ(26×26dot)とすることかでき
る。文字サイズの違う見出し文字、半角文字等を抽出す
るためには、標準文字サイズとサイズの違うマスクを用
いて同様に文字図形分離処理を行う。
本実施例においては、マスクにより原画像の全面を走
査して文字を抽出するので、原画像の任意の位置に存在
する、マスクの大きさに合った文字を洩れなく抽出し文
字画像を得ることができる。
また、本実施例においては、原画像から前記文字画像
を取り除き図形領域を抽出するので、任意の角度の線分
を含む図形を抽出できることができる。
また、文字図形の分離処理は、画像の内容にかかわら
ず、マスクを画面一面に走査するだけの単純な処理であ
り、高速化を計ることでき、しかも文字数が増えても、
処理時間がそれに応じて大きくならない利点がある。
第2の実施例 第4図は本発明の第2の実施例を示すもので、画像入
力部11、イメージメモリ12、白枠内黒画素検出部13、文
字マスク作成部14、文字領域抽出部15、図形領域抽出部
16からなっている。
画像入力部11は入力された文字図形混存一般文書を読
み取りこれを2値のデジタルデータに変換する。変換さ
れたデジタルデータ(原画像)はイメージメモリ12に記
憶される。
白枠内黒画素検出部13、文字マスク作成部14、文字領
域抽出部15、図形領域抽出部16の機能はシフト付論理演
算により行なわれる。
第5図はその動作(アルゴリズム)の説明のための図
である。第1の実施例のマスクの大きさに相当するシフ
ト距離は25dot(文字サイズ+1)とした。
Step0(初期化):原画像を白黒反転し、これを画像
Aとする。
Step1:画像Aと画像Aを右へ1dotシフトした画像のAN
Dをとり、これを画像Bとする。
Step2:i=2〜25まで以下の手順(Step2)をくり返
す。
画像Aと画像Bをidot右へシフトした画像のANDをと
り、これを新たに画像Bとする。このくり返しで得られ
た結果を画像Cとする。
Step3:画像Cと画像Cを下へ25dotシフトした画像のA
NDをとり、これを画像Dとする。
Step4:Step1、2と同様の手順を下へのシフトのAND演
算で行なう。この結果を画像Eとする。
Step5:画像Eと画像Eを25dot右へシフトした画像のA
NDをとり、これを画像Fとする。
Step6:画像Dと画像FのANDをとり、これを画像Gと
する。
Step7(文字マスク作成):画像Gを上に順々に25dot
までシフトしながらそれ自身とORをとり、これを画像H
とする。さらに画像Hを左へ順々に25dotまでシフトし
ながらORをとり文字マスク作成処理を施す。これを画像
Iとする。
Step8(文字領域抽出):原画像と画像IのANDをとり
文字画像Jを得る。
Step9(図形領域抽出):原画像から文字画像Jを取
り除き、図形領域画像Kを得る。(終了) 前記アルゴリズムにおいて、Step2,3は第1実施例の
マスクa上部および下部の白枠内黒画素検出に相当し、
Step4,5はマスクaの左右部の白枠内黒画素検出に相当
する。Step6の白枠内黒画素検出の結果は、原画像内の
任意の位置の24×24dotのサイズ内にサイズ外にはみ出
さずに文字が含まれれば、画像Gの前記位置のサイズ内
右下画素が黒に、そうでなければ(図形又は文字が24×
24dotサイズ外にはみ出していれば)前記右下画素が白
になる。
画像GをシフトとOR演算により文字マスクを作成する
手順は第6図の下部に示されている。大域的には第7図
の様になる。
文字サイズの違う見出し文字、半角文字等を抽出でき
るようにするため、標準文字サイズとサイズの違うマス
クに相当するシフト距離を用いて同様に分離処理を行
う。この処理も同様にハードで高速に処理することが出
来るとともに並列処理も可能となる。
なお、画像Gから画像Iを構成するとき、1dotずつシ
フトしOR演算を施すことを25回行ったが、1dotの黒画素
が26×26dotの黒画素になれば良いので、以下の様な方
法をとってもよい。前記25回のシフトを、1,2,3,4,8,9d
ot(2ndot)のシフトとOR演算で5回の処理で行うこと
によって実現可能である。左方向上方向ともにこれを行
えば50(25+25)回の処理が10(5+5)回の処理で行
なうことができる。
本実施例によれば、シフト付論理演算で分離処理が可
能なため、処理が簡単となり、ハード構成が簡単とな
る。
また、第1の実施例のマスクを走査することに相当す
る処理が、文書一面を処理の単位として一括して処理出
来るので、第1の実施例よりもさらに高速処理ができ。
(発明の効果) 本発明によれば、マスクにより原画像の全面を走査し
て文字を抽出するので、原画像の任意の位置に存在す
る、マスクの大きさに合った文字を洩れなく抽出し文字
画像を得ることができる。
また、本発明によれば、原画像から前記文字画像を取
り除き図形領域を抽出するので、任意の角度の線分を含
む図形を抽出できることができる。
また、本発明によれば、文字図形の分離処理は、画像
の内容にかかわらず、マスクを画面一面に走査するだけ
の単純な処理であり、高速化を計ることができ、しかも
文字数が増えても、処理時間がそれに応じて大きくなら
ない利点がある。
また、本発明によれば、マスクにより原画像の全面を
走査する代りに、シフト付論理演算でその態様を実現
し、文字図形分離処理を行なう態様においては、文書一
面を処理の単位として一括して即ち並列的に処理できる
ので、処理速度が一層高速になると共に、その処理のた
めのハード構成が簡単となる。
【図面の簡単な説明】
第1図はマスク処理を用いた本発明の第1の実施例の概
略の構成を示す図である。 第2図は第1の実施例の動作を説明するための図で、
(a)は白枠内黒画素検出マスク,(b)は内部領域マ
スク,(c)は図形領域にマスク処理した例,(d)は
文字領域にマスク処理した例をそれぞれ示すものであ
る。 第3図は文書一面にマスク処理を施す様子を示す図であ
る。 第4図は本発明のシフト付き論理を用いる第2の実施例
の概略の構成を示す図である。 第5図(a)は原画、(b)は原画から抽出した図形領
域、(c)は原画から抽出した文字領域の例を示す図で
ある。 第6図は第2の実施例のシフト付論理演算によるアルゴ
リズムを説明した図である。 第7図は原画とマスクにより文字領域を抽出する様子を
説明する図である。 1,11……画像入力部、2,12……イメージメモリ、13……
空白部検出部(白枠内黒画素検出部)、14……文字マス
ク作成部、3,15……文字領域抽出部、4,16……図形領域
抽出部。

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】画像をデジタル化して入力する入力手段
    と、 画像を記憶するイメージメモリと、 文字の周囲の一定の空白部を検出する矩形枠状のマスク
    を有し、この空白部検出マスクによって原画像の全面を
    1ドットずつずらしながら走査し、空白部を検出したと
    き、空白部検出マスクに囲まれた領域内の画素群を抽出
    する文字領域抽出手段と、 原画像から前記文字領域抽出手段によって抽出した文字
    領域を取り除いて図形領域を抽出する図形領域抽出手段
    と を備えたことを特徴とする高速文字図形分離装置。
  2. 【請求項2】画像をデジタル化して入力する入力手段
    と、 画像を記憶するイメージメモリと、 原画像を左または右の一方向へ1ドットシフトし、原画
    像とそのシフトした画像との論理積演算を行ない、その
    演算結果の画像をさらに前記方向へ1ドットシフトし、
    原画像とそのシフトした画像との論理積演算を行なうと
    いうシフト動作と論理積演算を所定の回数繰り返して、
    横方向に所定の画素数連続した空白部を検出すると共
    に、原画像を上または下の一方向へ1ドットシフトし、
    原画像とそのシフトした画像との論理積演算を行ない、
    その演算結果の画像をさらに前記方向へ1ドットシフト
    し、原画像とそのシフトした画像との論理積演算を行な
    うというシフト動作と論理積演算を所定の回数繰り返し
    て、縦方向に所定の画素数連続した空白部を検出し、文
    字の周囲の一定の空白部を求める空白部検出手段と、 空白部検出手段の出力に基づき文字領域を表わす文字マ
    スクを生成する文字マスク生成手段と、 前記文字マスクと原画像との論理積演算を行ない文字領
    域を抽出する文字領域抽出手段と、 原画像から前記文字領域抽出手段によって抽出した文字
    領域を取り除いて図形領域を抽出する図形領域抽出手段
    と を備えたことを特徴とする高速文字図形分離装置。
JP63227478A 1988-09-13 1988-09-13 高速文字図形分離装置 Expired - Lifetime JP2800192B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63227478A JP2800192B2 (ja) 1988-09-13 1988-09-13 高速文字図形分離装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63227478A JP2800192B2 (ja) 1988-09-13 1988-09-13 高速文字図形分離装置

Publications (2)

Publication Number Publication Date
JPH0276084A JPH0276084A (ja) 1990-03-15
JP2800192B2 true JP2800192B2 (ja) 1998-09-21

Family

ID=16861511

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63227478A Expired - Lifetime JP2800192B2 (ja) 1988-09-13 1988-09-13 高速文字図形分離装置

Country Status (1)

Country Link
JP (1) JP2800192B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3483934B2 (ja) * 1994-04-13 2004-01-06 株式会社リコー 文字画像編集処理装置
JP7127365B2 (ja) * 2018-05-30 2022-08-30 大日本印刷株式会社 文字切り出し装置、文字切り出し方法、及びプログラム

Also Published As

Publication number Publication date
JPH0276084A (ja) 1990-03-15

Similar Documents

Publication Publication Date Title
US5075895A (en) Method and apparatus for recognizing table area formed in binary image of document
JP2930612B2 (ja) 画像形成装置
JP2000207489A (ja) 文字抽出方法、装置および記録媒体
JP2800192B2 (ja) 高速文字図形分離装置
JPH1125222A (ja) 文字切り出し方法及び文字切り出し装置
JP2890306B2 (ja) 表領域分離装置および表領域分離方法
JPH08123901A (ja) 文字抽出装置及び該装置を用いた文字認識装置
JP2002133424A (ja) 文書の傾き角度及び境界の検出方法
JP3126462B2 (ja) 境界抽出方法および装置
JPH03172984A (ja) 表処理方法
JP2795860B2 (ja) 文字認識装置
JP2851087B2 (ja) 表処理方法
JPH1011589A (ja) 画像処理方法
JPH01270107A (ja) 数値制御加工装置のプログラム作成装置
JPH02187883A (ja) 文書読取装置
JP3100619B2 (ja) 写真領域抽出装置
JP2926842B2 (ja) 文字切出し回路
JPH02254574A (ja) ノイズ除去方式
JPH01296385A (ja) 2値画像データの画質改善方法
JPH03113687A (ja) 文字行検出方式
JPH03154176A (ja) パターン処理方法
JPH02253386A (ja) 文字認識装置
JP2019016897A (ja) 画像処理装置、および、コンピュータプログラム
JPH04288773A (ja) 属性判別方法
JPH10188000A (ja) 画像の直線成分抽出方法及びその装置