JPH0271379A - 画像処理装置 - Google Patents

画像処理装置

Info

Publication number
JPH0271379A
JPH0271379A JP63223827A JP22382788A JPH0271379A JP H0271379 A JPH0271379 A JP H0271379A JP 63223827 A JP63223827 A JP 63223827A JP 22382788 A JP22382788 A JP 22382788A JP H0271379 A JPH0271379 A JP H0271379A
Authority
JP
Japan
Prior art keywords
area
image
areas
horizontal
layout
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63223827A
Other languages
English (en)
Inventor
Toshiki Saito
斉藤 俊樹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP63223827A priority Critical patent/JPH0271379A/ja
Publication of JPH0271379A publication Critical patent/JPH0271379A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野) 本発明は、原稿のレイアウト構造を認識し、電子文書の
レイアウト構造として再刊用するための画像処理装置に
関する。
(従来の技術) 近年、ワークステーションやワードブロセッザ等を用い
て電子文書を作成J−る方式としては、文書のレイアウ
トを先に決定してから編集を行うものがある。この方式
では、記憶装置に記憶される文書編集ファイル上に各属
性を持つ枠(例えば横古さ枠、縦書き枠、ビットマツプ
枠等)を割り付け、それらの枠の中に横古き、縦書きの
文字やイメージ情報等を挿入して文書を編集していた。
従来、このレイアウト属性を認識する方式としては、論
文[DoculTlent  Analysis Sy
stem(に、Y、WongIBM J、RES、DE
VELOP、・VOL、26・No、 6・N0VO4
BER1982)」でアルゴリズムが提唱されている。
この論文に閤かれているアルゴリズムは、アルファベッ
ト等の英文の原稿、つまり横書き原稿から同一レイアラ
l−属性をもつピクセルを連結させて、「文字列」、「
グラフィックスとハーフ1ヘーンイメージ」、[水平j
j向の黒ライン]、1−垂直方向の黒ライン」を確認す
ることが可能であった。
〔発明が解決しようとする課題] ところが、上記論文のアルゴリズムは、上述したことく
横書きの原稿用に開発されたもので、日本語等のJζう
に横書き、/縦書き混在の原稿に対しては、横書きと縦
書きの文字列をそれぞれ別々に認識することができず、
全く意味をなさないという問題点があった。
本発明は、上記問題点に鑑みなされICもので、横書ぎ
/縦書き混在の原稿から横内き文字列、縦書き文字列、
横書き/縦書き以外の領域を容易に認識することができ
る画像処理装置を提供することを課題とする。
(課題を解決するだめの手段及び作用)本発明では、入
力した原稿の画像からデジタル画像を生成する画像入力
装置(イメージスキャナー)等の画像入力手段と、前記
イメージスキャナーによって読取られ、生成されたデジ
タル画像に対して同じレイアウト属性(例えば横書き、
縦書き、横書ぎ/If1ilき以外のもの)をもつピク
セルを連結させる前処理部等の連結手段と、前記前処理
部で連結された各ピクセル群の領域を求める領域算出手
段及び前記領域算出手段で求めた領域から該領域に対す
る情報を抽11」する情報抽出手段とからなる特徴抽出
部と、前記特徴抽出部で抽出した各情報に応じてそれぞ
れのレイアクl−属性を認識する認識部等のレイアウト
属性認識手段とを具え、前記デジタル画像から抽出した
特徴を分析し、MIl害ぎ領域、MI潟き領域、横書き
/If1占き領域以外の領域等の属性の異なるそれぞれ
のレイアウト属性を認識、識別する。
〔実施例〕
本発明の実施例を第1図乃至第6図の図面に基づき詳細
に説明する。
第1図は、本発明に係る画像処理g@の概略構成を示リ
ブロック図である。図において、プロセッサー10は、
前処理部、特徴抽出部、認識部からなり、制御プログラ
ム等により画像入力装置11、イメージエディター12
、画像メモリー3、ファイル14、デイスプレィ装@1
5、キーボード16等の各別器の制御及び情報、信号等
の人出り制鶴0を時分υI r:並行して行う。
画像入力装置11及びイメージエディター12は、原稿
の画像を入力し、上記画像から2値化したディジタル画
像を生成しでいる。生成されたディジタル画像は、画像
メモリー3に格納され、プロセラ1ノー 10の前処理
部によって前処理がなされ、上記前処理がなされたディ
ジタル画像に対し、特徴抽出部によって特徴の抽出がな
され、さらに認識部によって抽出した特徴から画像のレ
イアウト構造が認識される。
キーボード16は、ユーザがレイアウト属性を指定する
ときに、その指示を入力するものであり、上記指示に基
づき、プロセッサー10は、入力又は出力されたディジ
タル画像及び認識されたレイアウト構造に関するデータ
をCRT等からなるデイスプレィ装置15に表示させて
いる。
また、ファイル14は、プロセッサ−10から出力され
たディジタル画像を格納するものである。
次に、第2図乃至第6図に基づぎプロセッサー10の各
処理を実現するためのアルゴリズムを説明する。
第2図において、まず画像人力装置11の図示しない画
像読取装置(イメージスキャナー等)を用いて第4図(
a)に示す原稿等のペーパードキコメントを走査し、上
記画像人力装置11又はイメージエディター12によっ
て2値のディジタル画像を1−成し、ぞの生成したディ
ジタル画@(以下、1両@AIという。)(第4図(b
)@照)を画像メモリ13に格納づ−る(ステップ10
1)。
次にブロセッυ−10の一〇処理部は、上記画像メモリ
13内の画像Δに対して横書さの特徴と縦書きの特徴を
別々に抽出するための前処理を行う。
上記前処理では、まずランレングス・スムージング・ア
ルゴリズム(以下、rRLsAJという。)を行う必要
がある。このRLSAiよ、白ピクセルが’o”、黒ビ
クセルが” 1 ”で表されでいるバイナリ−・イメー
ジに対して、レイアラl−i性が同じ黒ピクセルを連結
する効果がある。レイアウト属性とは、そのピクセルが
どのようなものを表しているかを示すもので、例えば縦
書き領域にある黒ビクセルはレイアウト属性が「縦書き
」である。そのアルゴリズムはバイナリ−・シーケンス
×を、以下のルールでアウトブッ1〜・シーケンスYに
変換する。
ルール1 連続する゛′0パの数が予め決められた閾値
C以下ならば、×の′O゛′はYては′1′”に変換さ
れる。
ルール2 Xにある” 1 ”は、Yでは変換されない
例えば、C=4だと、以下のようにシーケンスXはシー
ケンスYに変換される。
x : oooloooooloiooooioooo
oooiioo。
Y : 1111000001i1111110000
00011111RLSAは、Cピクセル以下で分離さ
れている黒ピクセルの領域を連結プる効果がある。閾値
Cの値がその画像にとって適切ならば、結合された領域
は同じレイアウト属性をもつ領域になるはずである。
ここでは、まず横書きに関する前処理として、前処理部
は画像への水平方向に上記RL、 S Aを行い(ステ
ップ102>、第4図(C)に示す画像Bhを得る。な
お、このときの上記閾値Cの値は、横書ぎでの文字間を
考慮して[その画像にある文字幅の平均値]×2とする
。次に前処理部は、画像Aの垂直方向に上記RLSAを
行い(ステップ103)、第4図(d)に示す画像ch
を得る。
なあ、このどきの上記閾値Cの値は、横古さでの行間を
考慮してその画像にある文字高の平均値とする。そして
、上記得られた画像Bhと画像chの論理積(AND)
をとり(ステップ104)、第4図(e)に示づ画像D
hを得る。さらに、上記得られた画像Dhの水平方向に
再び−F記RLSAを行い(ステップ105)、第4図
(f)に示づ画像[hを得る。
上記横書きに関する前処理が終了すると、前処理部は、
次に縦書きに関プる前処理を行う。まず、画&Aの垂直
方向に上記RL S Aを行い(ステップ106)、第
4図(h)に示す画@Bを得る。
なあ、このときの上記閾値Cの値は、ステップ102と
同様[その画像にある文字幅の平均値1×2とする。次
に前処理部は、画像Aの水平方向に上記RLSAを行い
(ステップゴ07)、第4図(i)に示す画像CVを得
る。なお、このときの上記閾値Cの値は、ステップ10
3と同様その画像にある文字高の平均値とする。そして
、上記得られた画像3vと画像CVの論理1(AND)
をとり(ステップ108)、第4図(j)に示す画像D
Vを得る。さらに、上記得られた画像1)vの水平方向
に再び上記RL S Aを行い(ステップ109)、第
4図(k)に示す画像EVを得る。
なお、上記前処理では、横書きに関する前処理を先に行
ったが、縦書きに関する前処理を先に行ってもいっこう
に構わない。また、ステップ102とステップ106、
ステップ103とステップ107及びステップ104と
ステップ108は、上記閾値Cの値が同じ場合には、同
一の動作なので、ステップ106からステップ108ま
での処理動作は省略することが可能である。
上記前処理が終了すると、次に特徴抽出部に制御が移り
(第3図参照)、矩形情報の抽出が行われる。この矩形
情報の抽出は、上記前処理で得られた画像[hと画像[
Vに対して行う。第3図において、上記特徴抽出部は、
特徴抽出処理により画像Ehと画像[Vから矩形領域を
取り出す(ステップ110)。この特徴抽出処理を実理
するためのアルゴリズムの一実施例を第5図のフローチ
ヤードに基つき説明1−る。
図において、特徴抽出部は、前処理で得られた画像Fh
と画像EVを画像メモリ13に格納する(ステップ20
7)。次に特徴抽出部は、上記画像メモリ13内の画像
E hと画像[Vに対してラスター走査を開始しくステ
ップ202>、今のピクセルが黒かどうか判断する(ス
テップ203)。
ここで、今のピクセルが黒の場合には、−殻内な境界追
跡処理(例えば、文献「画像認識と画像理解1啓学出版
・1986・157ページー・158ベージにある方法
)を上記ピクセルから開始するとともに(ステップ20
4)、現在境界追跡をしている黒ビクセル群の最小座標
値(Xmin。
Ymin)及び最大座標値(Xmax、 Ymax)を
求める(第6図参照)(ステップ205)。
そして、追跡処理が終了したならば〈ステップ206 
) 、l配水めた最小座標値(Xmin。
Ymin)及び最大座標値(Xmax、Ymax)て表
される矩形領域内のピクセルを全て白ピクセルに変換す
るくステップ207)。上記処理が終了すると、第4図
(g)、(,1!>に示づ−ような矩形領域が得られる
上記処理では、境界追跡が終了したピクセル群の領域を
全て境界領域対象外のピクセルに変換するため、同じピ
クセル群に対する重複した境界追跡処理がなくなり、処
f!!速度が向上する。
次に特徴抽出部は、第3図に示すように、重なりのある
矩形領域の重なりをなくす処理動作を行う(ステップ1
11)。つまり、第4図(Ω)、(it)に示す矩形領
域は、どこかで重なっている可能性があり、その重なり
をなくづ処理をしなくてはならない。この重なりには、 (1)横書ぎに関する前処理で得られた画像から抽出し
た各矩形領域(以下、r I−(A Jという。)内又
は縦書きに関する前処理で得られた画像から抽出した各
矩形領域(以下、「\/AJという、、)内の矩形領域
が重なっている場合、 (2))−IAとVAの矩形領域が互い重なっている場
合、 の2通りが考えられる。そこで、(1)の場合には、重
なる領域があれば、それらの領域を複合して1つの矩形
領域に変換し、それ以外の領域はそのままの状態にして
おく。また、(2)の場合には、重なる領域があれば、
矩形領域の小さい矩形領域を削除し、それ以外の領域は
残しておくことにより、重なりをなく−y九 次に特徴抽出部は、上記処理で求められた矩形領域内の
情報抽出を行う(ステップ112)。
ここでは、HAの各矩形領域に対しては、高さH=’1
’max−yml n+ 1オリジナル画像(スキャナ
ーで入力した画像)にある黒ピクセルの数DC オリジナル画像の水平方向で自から黒に変わった領域の
数TC1例えば、 オリジナル画像  前処理で得られた画像 TC000
01110001+110000 000011117
111110000 1となる。
黒ビクセルの平均長R=DC/TC を求め、VAの各矩形領域に対しては、幅H=Xmax
−Xmi n+1 オリジナル画像(スキャナーで入力した画像)にある黒
ピクセルの数DC オリジナル画像の垂直方向で自から黒に変わった領域の
数TC 黒ピクセルの平均長R=DC/TC を求める。
さらに、HAとVAに対して、上記1−1AとVAの矩
形領域の数をそれぞれNh、Nvと考えて以下の値 1−1n −Σ H/(Nh+Nv) Rm−ΣDC/ΣTO を求める。
上記矩形領域HA、VA内の情報抽出が終了すると、次
に認識部に制御が移り、各領域の認識かが行われる。こ
こでは、まず横書き領域の認識が行われ(ステップ11
3)、矩形領域HAから確実に横書ぎたと思われる領域
を、以■の条件を使って認識する。
[条件1黒ピクセルの平均長R<C2qxRmで、かつ tl < C22X t−(m (C21−3、C22
=3>ならば、横書さ′である。
な&−3、CplとC29はいろいろな実験結果をベー
スに割当てられた値である。
次に、縦書き領[VAの認識が行われ(ステップ11/
l)、矩形領域V Aから確実にl占きたと思われる領
域を、以下の条件を使って認識する。
[条件]黒ピクセルの平均長R<CC21XRで、かつ 1−1〈C22×11m(C21−3、C22=3>な
らば、横書きである。
なJ5、C21とC22はいろいろな実験結果をベース
に割当てられた値である。
さらに、横書き/′縦占き以外の領域の認識を行われ(
スlツゾ115)、HAから検古き領域と認識できなか
った矩形領域及びVAから縦書ぎ領域と認識できなかっ
た矩形領域を横書き、/縦書き以外の領域と認識覆る。
次に、プ[]セッサー10は、]−ザがキーボード1G
を使用して所望のレイアウト属性を指定したかどうか判
断しくステップ116)、所望のレイアラ1−属性が指
定されたならば、その指定に該当するレイアウト属性を
もつ領域、例えばオリジナル画像の横書き領域、同じく
縦書き領域、同じく横書き/縦書さ゛以外の領域、各領
域を所定の線で表した画像を出力して、第4図(m)か
ら([〕)デイスプレィ装置15に表示させて(スイッ
プ117)、上記処理動作を終了覆る。
これにより、プロセッサー10は、]−−ザが希望する
レイアウト属性をもつ領域だtすを取り出ブーことがて
きる。
したがって、本発明では、前処理において、異なるレイ
アウト属性を持つ領域を分離できるため、文字認識等の
前処理として非常に有効なものどなる。また、境界追跡
処理によって得られた各矩形領域を全て白ピクセルに変
換することにより、既に検出されたビクセル群の境界内
のピクセルに対して境界追跡処理を行う必要がなくなり
、1記境界追跡処理の簡略化を図ることもできる。また
、認識処理においては、異なるレイアウト属性を持つ領
域を別々に認識できるので、ユーザの指定したレイアウ
ト属性を持つ領域のみを抽出してデイスプレィ又はファ
イルに出力することができる。
なお、本実施例では、ラスター走査によって焦ピクセル
を検出したが、本発明はこれのみに限らず、白ビクセル
を検出することも可能であり、また検出した白ビクセル
を黒ピクセルに変換することも可能である。
〔発明の効果] 以上説明したように、本発明で(よ、箕なるレイアウト
属性を持つ領域を分離し、同一のレイアウト属性を持つ
領域を抽出することかてぎるので、横8き/縦書き混在
の原稿から横書き文字列、縦書き文字列、横書き/[@
き以外の領域を容易に認識することができる。
を示すブロック図、第2図、第3図は第1図に示した画
像処理装置のレイアウト認識の処理動作を説明ブーるた
めの)D−ヂp−1〜を示す図、第4図は上記処理動作
の各行程でのイメージを示す図、第5図は特徴抽出処理
動作の詳細を説明づ゛るためのフローチセートの一実施
例を示ブー図、第6図は第5図の特徴抽出処理動作での
境界追跡の行程を示す図である。
10・・・プロセッサー 11・・・画像入力装置、1
2・・・イメージエディター、13・・・画像メモリ、
14・・・ファイル、15・・・デイスプレィ、1G・
・・キーボード。
【図面の簡単な説明】

Claims (2)

    【特許請求の範囲】
  1. (1)原稿の画像からデジタル画像を生成し、該デジタ
    ル画像に基づきレイアウト属性を認識する画像処理装置
    において、 前記デジタル画像に対して同じレイアウト属性をもつピ
    クセルを連結させる連結手段と、前記連結手段で連結さ
    れた各ピクセル群の領域を求める領域算出手段と、 前記領域算出手段で求めた領域から該領域に対する情報
    を抽出する情報抽出手段と、 前記情報抽出手段で抽出した各情報に応じてそれぞれの
    レイアウト属性を認識するレイアウト属性認識手段と を具え、属性の異なるそれぞれのレイアウト属性を認識
    することを特徴とする画像処理装置。
  2. (2)請求項第(1)項の領域算出手段は、前記連結手
    段で連結された各ピクセル群の領域を求める境界追跡手
    段と、 前記境界追跡手段で求めた領域内のすべてのピクセルを
    白又は黒のピクセルに変換する変換手段と、 前記求められた領域の最大座標値と最小座標値を求める
    座標値算出手段と からなることを特徴とする画像処理装置。
JP63223827A 1988-09-07 1988-09-07 画像処理装置 Pending JPH0271379A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63223827A JPH0271379A (ja) 1988-09-07 1988-09-07 画像処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63223827A JPH0271379A (ja) 1988-09-07 1988-09-07 画像処理装置

Publications (1)

Publication Number Publication Date
JPH0271379A true JPH0271379A (ja) 1990-03-09

Family

ID=16804339

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63223827A Pending JPH0271379A (ja) 1988-09-07 1988-09-07 画像処理装置

Country Status (1)

Country Link
JP (1) JPH0271379A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017009910A1 (ja) * 2015-07-10 2017-01-19 楽天株式会社 電子書籍表示装置、電子書籍表示方法、及びプログラム
JP2017111720A (ja) * 2015-12-18 2017-06-22 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017009910A1 (ja) * 2015-07-10 2017-01-19 楽天株式会社 電子書籍表示装置、電子書籍表示方法、及びプログラム
WO2017010351A1 (ja) * 2015-07-10 2017-01-19 楽天株式会社 画像処理装置、画像処理方法、及びプログラム
JPWO2017009910A1 (ja) * 2015-07-10 2017-07-13 楽天株式会社 電子書籍表示装置、電子書籍表示方法、及びプログラム
JPWO2017010351A1 (ja) * 2015-07-10 2018-03-08 楽天株式会社 画像処理装置、画像処理方法、及びプログラム
JP2017111720A (ja) * 2015-12-18 2017-06-22 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム

Similar Documents

Publication Publication Date Title
JP2940936B2 (ja) 表領域識別方法
JP3308032B2 (ja) スキュー補正方法およびスキュー角検出方法およびスキュー補正装置およびスキュー角検出装置
JP4745830B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
US5075895A (en) Method and apparatus for recognizing table area formed in binary image of document
US20070237394A1 (en) Image processor for character recognition
JPH03260787A (ja) テキスト又は線図形を識別する方法及びデジタル処理システム
JP2001297303A (ja) 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体
JP2000207489A (ja) 文字抽出方法、装置および記録媒体
JP3062382B2 (ja) 画像処理装置及び方法
US6983077B2 (en) Image processor
JP2002342710A (ja) 文字切出し装置及びそれに用いる文字切出し方法並びにそのプログラム
JPH0271379A (ja) 画像処理装置
JP4890351B2 (ja) 画像処理装置、画像処理プログラムおよび該画像処理プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに画像処理方法
CN112419208A (zh) 一种基于施工图审查矢量图纸编译方法及系统
JP2846486B2 (ja) 画像入力装置
JP3030126B2 (ja) 画像処理方法
EP1229497A2 (en) Run length based connected components and contour following for enhancing the performance of circled region extraction algorithm
JP2800205B2 (ja) 画像処理装置
JPH05159062A (ja) 文書認識装置
JPH0728934A (ja) 文書画像処理装置
JPS63157287A (ja) 文字パタ−ン抽出方法
JP4230478B2 (ja) 文書処理装置、方法およびプログラム
JPH0773273A (ja) パターン切出しおよび認識方法とそのシステム
JPH0433079A (ja) 表処理方式
JPH02166583A (ja) 文字認識装置