JPH09114924A - 文書画像処理装置および文書画像処理方法 - Google Patents

文書画像処理装置および文書画像処理方法

Info

Publication number
JPH09114924A
JPH09114924A JP7271569A JP27156995A JPH09114924A JP H09114924 A JPH09114924 A JP H09114924A JP 7271569 A JP7271569 A JP 7271569A JP 27156995 A JP27156995 A JP 27156995A JP H09114924 A JPH09114924 A JP H09114924A
Authority
JP
Japan
Prior art keywords
area
frame
character
label
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7271569A
Other languages
English (en)
Inventor
Tsutomu Kuramochi
勉 倉持
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP7271569A priority Critical patent/JPH09114924A/ja
Publication of JPH09114924A publication Critical patent/JPH09114924A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Processing Or Creating Images (AREA)

Abstract

(57)【要約】 【課題】 多重枠の表および多重枠領域の中に存在する
文字領域を正確かつ効率的に抽出する文書画像処理装置
および文書画像処理方法を提供する。 【解決手段】 文書画像中の黒画素に黒画素ラベル付け
部11でラベルを付け、領域抽出部12はラベルをもと
に表・枠領域などを抽出する。多重枠検出部13は、抽
出された表・枠が多重枠か否かを判定し、多重枠の場合
には一番内側の表・枠領域を、文字領域を抽出する対象
とする。表・枠領域中の文字部を文字消去部14で消去
し、白画素ラベル付け部15で表・枠領域中の背景画素
にラベルを付ける。ラベル変更部16は、文字消去部1
4で消去した文字等が存在した画素のラベルを、各連結
背景画素ごとに他のラベルと異なるラベルに変更する。
そして、文字領域抽出部17は変更されたラベルを同じ
値ごとに外接矩形で囲み、文字領域とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字認識装置、文
書画像ファイリング装置等において、文書画像中の文字
領域、特に、表および枠領域の中に存在する文字領域を
抽出する文書画像処理装置および文書画像処理方法に関
するものである。
【0002】
【従来の技術】表および枠領域の中に存在する文字領域
を抽出する方法としては、例えば、特開平6−6022
0号公報で提案されている方法がある。その方法では、
まず、文書画像中から抽出した表領域の中の背景を表わ
す白画素にラベルを付けることにより、表の各セルの外
接矩形の座標を求める。この時、セル内に閉ループを持
つ文字、例えば、「口」といった文字が含まれることを
考慮して、包含関係にあるラベルは同一のラベルに修正
する。次に、各セル内を走査し、セル内にある要素を囲
む外接矩形の座標を求め、その座標を表領域中の文字領
域の座標として出力している。
【0003】この方法では、N重枠(ただし、Nは2以
上の自然数)を処理対象とした場合、最外郭の枠が内側
の枠を包含するため、最外郭の内側がすべて同一のラベ
ルとなって、外側から2番目の枠の外接矩形を文字領域
として誤って出力する可能性がある。また、表および枠
領域の中に存在する文字領域のみを抽出することを目的
とした場合、例えば、表の各セルの座標を求めるなどの
処理は必要以上の情報を得るものであり、効率が悪い。
【0004】
【発明が解決しようとする課題】本発明は、上述した事
情に鑑みてなされたもので、多重枠の表および多重枠領
域の中に存在する文字領域を正確かつ効率的に抽出する
文書画像処理装置および文書画像処理方法を提供するこ
とを目的とするものである。
【0005】
【課題を解決するための手段】請求項1に記載の発明
は、文書画像中に存在する表および枠領域から文字領域
を抽出する文書画像処理装置において、表および枠が多
重枠か否かを領域の包含関係により判定し多重枠の場合
に最も内側の枠を含む領域を文字を含む表領域および枠
領域とする多重枠判定手段と、前記表領域および前記枠
領域に含まれる文字部を消去する文字消去手段と、前記
文字部を消去した前記表領域および前記枠領域中に存在
する背景画素にラベルを付ける背景ラベリング手段と、
消去した前記文字部が存在する画素のラベルを各連結背
景画素ごとに他のラベルと異なるラベルに変更するラベ
ル変更手段と、変更したラベルを各ラベルごとに外接す
る矩形で囲む外接矩形処理手段を備え、該外接矩形処理
手段によって矩形で囲まれた領域を前記表領域および前
記枠領域中の文字領域として抽出することを特徴とする
ものである。
【0006】請求項2に記載の発明は、文書画像中に存
在する表および枠領域から文字領域を抽出する文書画像
処理方法において、表および枠が多重枠か否かを領域の
包含関係により判定し、多重枠の場合には最も内側の枠
を含む領域を文字を含む表領域および枠領域とし、該表
領域および該枠領域に含まれる文字部を消去し、該文字
部を消去した前記表領域および前記枠領域中に存在する
背景画素にラベルを付け、消去した前記文字部が存在す
る画素のラベルを各連結背景画素ごとに他のラベルと異
なるラベルに変更し、変更したラベルを各ラベルごとに
外接する矩形で囲み、該矩形で囲まれた領域を前記表領
域および前記枠領域中の文字領域として抽出することを
特徴とするものである。
【0007】
【発明の実施の形態】図1は、本発明の文書画像処理装
置の実施の一形態を示す概略ブロック図である。図中、
11は黒画素ラベル付け部、12は領域抽出部、13は
多重枠検出部、14は文字消去部、15は白画素ラベル
付け部、16はラベル変更部、17は文字領域抽出部で
ある。ここでは、文字部等の有意画素は黒画素、背景部
は白画素として説明する。
【0008】黒画素ラベル付け部11は、文書画像中に
存在する全ての黒画素にラベルを付ける。ラベル付けの
方法は、例えば、森健一監修,「パターン認識」,電子
情報通信学会,171〜172頁に記載されている方法
など、既知の方法を用いることができる。
【0009】領域抽出部12は、ラベル付けにより得ら
れた連結黒画素に外接する矩形領域を求め、その矩形領
域の中から、表および枠領域や、文字領域などを抽出す
る。この抽出方法としては、例えば、連結黒画素の幅と
高さが全ての連結黒画素の幅と高さの平均値のM倍より
も大きく、かつ、連結黒画素の幅と同じ長さの水平方向
の黒ランを含むか連結黒画素の高さと同じ長さの垂直方
向の黒ランを含み、かつ、連結黒画素に外接する矩形領
域内に他の連結黒画素を包含する場合に、その連結黒画
素に外接する矩形領域を表領域または枠領域と判定する
方法がある。ただし、Mは自然数であり、例えば5程度
とすることができる。また、従来から用いられている別
の表領域、枠領域の抽出方法を用いてもよい。
【0010】多重枠検出部13は、領域抽出部12で抽
出した表および枠領域が多重枠であるか否かを判定し、
多重枠である場合には、一番内側の表または枠領域を、
文字領域を抽出する対象となる表領域または枠領域とす
る。この処理は、例えば、領域抽出部12で抽出した表
および枠領域の包含関係を調べ、他の表および枠領域に
含まれない表および枠領域を選択すればよい。
【0011】文字消去部14は、表および枠領域中の文
字部を消去する。文字部の消去は、例えば領域抽出部1
2で抽出された文字領域について、すべての画素を白画
素とすればよい。
【0012】白画素ラベル付け部15は、表および枠領
域中の白画素に正の値のラベルを付ける。このラベル付
けの方法としては、例えば、黒画素ラベル付け部11と
同様の手法を白画素に対して用いればよい。
【0013】ラベル変更部16は、文字消去部14で消
去した文字領域内の文字等が存在した画素のラベルの値
に−1を掛け、表および枠領域中の各連結背景画素ごと
に他のラベルと異なる負の値のラベルを文字の存在した
画素に付与する。
【0014】文字領域抽出部17は、負の値のラベルを
同じ値ごとに外接矩形で囲み、その各矩形の座標を文字
領域の座標として出力する。
【0015】次に、本発明の文書画像処理装置の実施の
一形態における動作の一例を、具体例を用いて説明す
る。図2は、文書画像の一例の一部を示す説明図であ
る。図中、21〜32は連結黒画素である。図2に示し
た画像中には、「イロハ」、「ニホヘ」の文字が二重枠
内に配置されている。この部分画像の中には、連結黒画
素21から連結黒画素32までの12個の連結黒画素が
存在している。このような文書画像が黒画素ラベル付け
部11に入力されると、連結黒画素21〜32にそれぞ
れ異なるラベルが付けられる。そして、ラベルの付けら
れた文書画像が領域抽出部12に渡される。
【0016】領域抽出部12では、ラベルの付けられた
文書画像から、各領域を抽出する。ここで、連結黒画素
21に外接する矩形領域と連結黒画素22に外接する矩
形領域が表または枠領域として抽出される。
【0017】多重枠検出部13では、領域抽出部12で
表または枠領域として抽出された領域に対して、多重枠
か否かを判定する。図2に示す部分画像の場合、表また
は枠領域として抽出された連結黒画素21に外接する矩
形領域と、連結黒画素22に外接する矩形領域とが包含
関係にあるため、多重枠であると判定する。そして、一
番内側の表または枠領域、すなわち図2の場合では連結
黒画素22に外接する矩形領域が、文字領域を抽出する
対象の表または枠領域である。そのため、以降の処理に
おいては連結黒画素21は無視して処理を進める。もち
ろん、多重枠ではない表または枠領域の場合は、その領
域が文字領域を抽出する対象の表または枠領域となる。
【0018】文字消去部14は、文字領域を抽出する対
象の表または枠領域について、文字部を消去する。例え
ば図2の場合では、連結黒画素23から連結黒画素32
を白画素に変更、すなわち消去する。文字部の消去によ
り、この例では連結黒画素22に外接する矩形領域のみ
が処理対象となる。
【0019】図3は、白画素ラベル付け部15における
ラベル付けの一例の説明図である。図中、41,42は
連結白画素である。白画素ラベル付け部15では、文字
の消去された表または枠領域の白画素に対して、正の値
のラベルを付ける。ここでは、図2における連結黒画素
22に外接する矩形領域が、文字領域を抽出する対象の
表または枠領域であり、この領域から文字消去部14に
よって文字が消去され、連結黒画素22のみが残ってい
る。この状態で、白画素ラベル付け部15は、連結黒画
素22に外接する矩形領域内に対して、白画素のラベリ
ングを行なう。その結果、図3に示すように、2つの領
域にラベルが付けられる。図3では、縦線で示した連結
白画素41の各画素にラベル1、横線で示した連結白画
素42の各画素にラベル2を付けるものとする。
【0020】図4は、ラベル変更部16におけるラベル
の変更処理の一例の説明図である。図中、51,52は
画素群である。ラベル変更部16では、白画素ラベル付
け部15でラベル付けされた画像に対し、文字消去部1
4で消去した文字部が存在した画素に付けられたラベル
の値に−1を掛けて、負の値に変更する。この処理によ
って、図3の連結白画素41内に配置されていた文字
「イロハ」の存在する画素群51は、ラベルが1から−
1に変更される。また、連結白画素42内に配置されて
いた文字「ニホヘ」の存在する画素群52は、ラベルが
2から−2に変更される。図4では、画素群51と画素
群52のラベルの値の違いを、ドット内のハッチングの
違いによって表わしている。また、連結白画素41,4
2の部分の縦線、横線は省略している。このようにし
て、各連結白画素ごとに、文字部に対して別のラベルを
付与することができる。
【0021】ここでは、文字の存在する画素のラベルの
値に−1を掛けたが、その代わりに、予め定めた値を足
しても構わない。この時、予め定めた値を足した値が他
のラベルと同じにならないように、足す値を定める必要
がある。
【0022】図5は、文字領域抽出部17により抽出さ
れた文字領域の一例の説明図である。図中、61、62
は矩形領域である。ラベル変更部16で文字部の画素群
のラベルが変更された後、文字領域抽出部17は、負の
値のラベルが付いた画素群に対して、ラベルの値が同じ
画素ごとに外接する矩形で囲み、その各矩形領域の座標
を文字領域の座標として出力する。図4に示すようにラ
ベル付けされた画像の例においては、まず−1のラベル
が付けられた画素群51に外接する矩形領域61が、図
5(A)に示すように文字領域として抽出される。ま
た、−2のラベルが付けられた画素群52に外接する矩
形領域62が、図5(B)に示すように文字領域として
抽出される。したがって、図2に示した表領域中に存在
する文字領域を抽出した結果、図5に示すように、「イ
ロハ」を含む矩形領域61と、「ニホヘ」を含む矩形領
域62が得られることになる。このようにして、多重枠
の表または枠領域の中に存在する文字領域を抽出するこ
とができる。
【0023】上述の例では、文字部等の有意画素は黒画
素、背景部は白画素として説明したが、本発明はこれに
限らず、有意画素が白画素、背景部が黒画素の場合で
も、黒画素に対する処理を白画素に、白画素に対する処
理を黒画素にそれぞれ適用すれば、同様にして処理を行
なうことができる。
【0024】
【発明の効果】以上の説明から明らかなように、本発明
によれば、多重枠の表および枠領域の中に存在する文字
領域についても、正確かつ効率的に抽出することができ
るという効果がある。
【図面の簡単な説明】
【図1】 本発明の文書画像処理装置の実施の一形態を
示す概略ブロック図である。
【図2】 文書画像の一例の一部を示す説明図である。
【図3】 白画素ラベル付け部15におけるラベル付け
の一例の説明図である。
【図4】 ラベル変更部16におけるラベルの変更処理
の一例の説明図である。
【図5】 文字領域抽出部17により抽出された文字領
域の一例の説明図である。
【符号の説明】
11…黒画素ラベル付け部、12…領域抽出部、13…
多重枠検出部、14…文字消去部、15…白画素ラベル
付け部、16…ラベル変更部、17…文字領域抽出部。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 文書画像中に存在する表および枠領域か
    ら文字領域を抽出する文書画像処理装置において、表お
    よび枠が多重枠か否かを領域の包含関係により判定し多
    重枠の場合に最も内側の枠を含む領域を文字を含む表領
    域および枠領域とする多重枠判定手段と、前記表領域お
    よび前記枠領域に含まれる文字部を消去する文字消去手
    段と、前記文字部を消去した前記表領域および前記枠領
    域中に存在する背景画素にラベルを付ける背景ラベリン
    グ手段と、消去した前記文字部が存在する画素のラベル
    を各連結背景画素ごとに他のラベルと異なるラベルに変
    更するラベル変更手段と、変更したラベルを各ラベルご
    とに外接する矩形で囲む外接矩形処理手段を備え、該外
    接矩形処理手段によって矩形で囲まれた領域を前記表領
    域および前記枠領域中の文字領域として抽出することを
    特徴とした文書画像処理装置。
  2. 【請求項2】 文書画像中に存在する表および枠領域か
    ら文字領域を抽出する文書画像処理方法において、表お
    よび枠が多重枠か否かを領域の包含関係により判定し、
    多重枠の場合には最も内側の枠を含む領域を文字を含む
    表領域および枠領域とし、該表領域および該枠領域に含
    まれる文字部を消去し、該文字部を消去した前記表領域
    および前記枠領域中に存在する背景画素にラベルを付
    け、消去した前記文字部が存在する画素のラベルを各連
    結背景画素ごとに他のラベルと異なるラベルに変更し、
    変更したラベルを各ラベルごとに外接する矩形で囲み、
    該矩形で囲まれた領域を前記表領域および前記枠領域中
    の文字領域として抽出することを特徴とした文書画像処
    理方法。
JP7271569A 1995-10-19 1995-10-19 文書画像処理装置および文書画像処理方法 Pending JPH09114924A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7271569A JPH09114924A (ja) 1995-10-19 1995-10-19 文書画像処理装置および文書画像処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7271569A JPH09114924A (ja) 1995-10-19 1995-10-19 文書画像処理装置および文書画像処理方法

Publications (1)

Publication Number Publication Date
JPH09114924A true JPH09114924A (ja) 1997-05-02

Family

ID=17501915

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7271569A Pending JPH09114924A (ja) 1995-10-19 1995-10-19 文書画像処理装置および文書画像処理方法

Country Status (1)

Country Link
JP (1) JPH09114924A (ja)

Similar Documents

Publication Publication Date Title
US20070237394A1 (en) Image processor for character recognition
JPH0713995A (ja) 自動テキスト特徴決定装置
US6754391B2 (en) Systems and methods for rendering image-based data
JP2000207489A (ja) 文字抽出方法、装置および記録媒体
CN115797939A (zh) 一种基于深度学习的两阶段斜体字符识别方法及装置
JPH09114924A (ja) 文書画像処理装置および文書画像処理方法
CN111798542B (zh) 模型训练方法、数据处理方法及装置、设备、存储介质
JP4281236B2 (ja) 画像認識装置、画像認識方法、および、画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体
JP3171626B2 (ja) 文字認識の処理領域・処理条件指定方法
CN114237468B (zh) 文字图片的翻译方法、装置、电子设备及可读存储介质
JPH0660220A (ja) 文書画像の領域抽出方法
JP2001143076A (ja) 画像処理装置
JP3086277B2 (ja) 文書画像処理装置
JP2002015323A (ja) 文書画像レイアウト識別方法および装置
JP2574795B2 (ja) 図面記号抽出方法
JP2001236464A (ja) 文字抽出方法、文字抽出装置及び記憶媒体
JP3162414B2 (ja) 罫線認識方法及び表処理方法
JPH0535914A (ja) 画像傾き検出方法
JP3100825B2 (ja) 線認識方法
JP2800205B2 (ja) 画像処理装置
JPH02187883A (ja) 文書読取装置
JPH10233930A (ja) 画像処理装置
JPS63101983A (ja) 文字列抽出方式
JPH07152862A (ja) 文字認識用の文字切り出し装置
JPH08171609A (ja) 文字列高速抽出装置