JPH04288690A - 文書画像の縦書き・横書き判定方法 - Google Patents

文書画像の縦書き・横書き判定方法

Info

Publication number
JPH04288690A
JPH04288690A JP3052845A JP5284591A JPH04288690A JP H04288690 A JPH04288690 A JP H04288690A JP 3052845 A JP3052845 A JP 3052845A JP 5284591 A JP5284591 A JP 5284591A JP H04288690 A JPH04288690 A JP H04288690A
Authority
JP
Japan
Prior art keywords
writing
area
document image
areas
vertical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP3052845A
Other languages
English (en)
Inventor
Akitoshi Tsukamoto
明利 塚本
Sadamasa Hirogaki
広垣 節正
Naohiro Amamoto
直弘 天本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP3052845A priority Critical patent/JPH04288690A/ja
Publication of JPH04288690A publication Critical patent/JPH04288690A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書画像の文字領域の
部分を取り出し、その文字領域の文字列の方向が縦書き
か横書きかを判別する文書画像の縦書き・横書き判定方
法に関するものである。
【0002】
【従来の技術】従来、このような分野の技術としては、
例えば、電子情報通信学会技術研究報告PRL85−1
7(1985−6)辻・浅井著「スプリット検出法に基
づく頁画像の構造解析」P.63−70に記載されるも
のがあった。
【0003】従来、文書画像の文字読取り方法では、文
書画像上の文字や図表等の領域を分割して文書構成要素
を抽出し、その抽出された文書構成要素の縦書きかまた
は横書きかを判別した後、個々の文字の切り出し等を行
っている。
【0004】図2は、前記文献に記載された一般的書籍
の頁画像を示す文書画像例の図である。
【0005】この文書画像例では、頁番号・外題1、図
表2、及び章/節/題から成る本文3の各構成要素で構
成されている。図表2は、周囲の空白によって本文3と
の切り分けが可能である。本文3は、通常、文字要素の
集合体である複数の文字列が、規則的に配列されること
によって形成されている。
【0006】従来、図2のような文書画像の縦書きか横
書きかを判定する場合、前記文献に記載されているよう
に、水平または垂直方向の投影分布に基づき、順次階層
的に各構成要素の領域を分割する。そして、文字列候補
領域に対し、複数の文字塊領域を抽出し、その抽出され
た各文字塊領域から、縦書きか横書きかの識別を行う。 この縦/横の識別は、文字行候補群の各分割レベルにお
いて、縦・横を示す分割レベルを持つ文字列候補内の文
字塊領域数によって判定する。
【0007】このような縦書き・横書きの判定結果から
、文字列群から成る本文3が決定される。決定された本
文3は、例えば文字認識を行うために、文字切り出し処
理が行われる。
【0008】
【発明が解決しようとする課題】しかしながら、上記構
成の縦書き・横書き判定方法では、次のような課題があ
った。
【0009】(a)従来の縦書き・横書き判定方法では
、文字列候補群の各分割レベルにおいて、縦・横を示す
分割レベルを持つ文字列候補内の文字塊領域数によって
文書画像の縦書きか横書きを判定している。ところが、
文書画像が複雑なレイアウトの場合等においては、文字
塊領域数によって縦・横を的確に判定することが困難な
場合がある。
【0010】(b)そこで、前記(a)のような問題を
解決するため、本願出願人は先に特開平1−26464
9号明細書において、縦書き・横書きの判定方法を提案
した。この縦書き・横書き判定方法では、文書画像デー
タを入力して領域分割を行い、文字領域以外の構成要素
を削除した画像を作成する。作成した画像において、黒
画素の存在しない行が連続する領域(白ライン領域)と
、黒画素の存在しない列が連続する領域(白カラム領域
)の出現回数を調べ、それらの大小により、縦書きか横
書きかの判定を行う。
【0011】ところが、先に提案した判定方法では、白
ライン領域及び白カラム領域の出現回数に着目している
ので、それらの領域内に「ゴミ」の黒画素が存在すると
、次のような不都合が生じる。ここでいう「ゴミ」は、
実際の文書に付着した汚れや、文書画像入力時にスキャ
ナ面に付着していた汚れによる影等の、文書内容ではな
い黒画素塊である。このような黒画素塊が存在すると、
前記の領域が複数個に分けられるため、出現回数が増加
し、誤判定を起こす。また、文書画像において文面以外
の領域が広い場合には、例えばその部分に白ライン領域
が多く存在するなど、その領域の状態によっても、出現
回数が変動するため、判定の誤りを起こす。さらに、複
雑なレイアウトの文章においては、白ライン領域や白カ
ラム領域を、書き方向を正しく判定するのに十分な数だ
け文書内に見出だすことが困難な場合がある。
【0012】従って、未だ技術的に充分満足のゆく縦書
き・横書きの判定方法を得ることが困難であった。
【0013】本発明は、前記従来技術が持っていた課題
として、「ゴミ」等の影響を受けることなく、複雑なレ
イアウトの文書画像等においても、精度良く縦書き・横
書きの判定を行うことが困難な点について解決した文書
画像の縦書き・横書き判定方法を提供するものである。
【0014】
【課題を解決するための手段】本発明は、前記課題を解
決するために、文書画像の縦書き・横書き判定方法にお
いて、文字の方向とスキャンの方向が同じという条件で
読み取られた文書画像における文字列、図、表、フィー
ルドセパレータ等の基本構成要素の各分割領域のうち、
文字列の幅(即ち、横方向の文字列の場合の高さ、縦方
向の文字列の場合の幅をいい、これらを以下「厚さ」と
いう)が閾値以下の分割領域を検出する。そして、検出
された分割領域の方向が縦長か横長かにより、該分割領
域が縦長領域か横長領域かを判定する。その後、判定さ
れた縦長領域と横長領域の個数の大小により、文書画像
が縦書きか横書きかを判定する。
【0015】
【作用】本発明によれば、以上のように文書画像の縦書
き・横書き判定方法を構成したので、前処理において、
文字の方向とスキャンの方向が同じという条件で読み取
られた文書画像の基本構成要素の各分割領域が与えられ
ると、それらの分割領域のうち、厚さが閾値以下の分割
領域が検出される。検出された分割領域は、それが縦長
か横長かの判定が行われ、判定された縦長領域と横長領
域の個数が計数(カウント)され、その個数の大小によ
り、例えば横長領域数の方が縦長領域数よりも多い時に
は横書き、その反対の時には縦書きと判定される。
【0016】このように、文書画像における文字列程度
の厚さの構成要素の方向を観測することにより、縦書き
・横書きの判定が行われるので、的確な判定結果が得ら
れる。従って、前記課題を解決できるのである。
【0017】
【実施例】図3は、本発明の実施例を示す文書画像の縦
書き・横書き判定方法の全体処理を示す図である。
【0018】この縦書き・横書きの全体の判定処理は、
文字の方向とスキャンの方向が同じという条件で読み取
られた文書画像10に基づき、前処理として領域分割処
理20により、文字列、図、表、フィールドセパレータ
等の基本構成要素に分割して分割領域30を作成する。 次に、縦書き・横書き判別処理40により、前処理で得
られた全ての基本要素の分割領域30について、縦書き
か横書きかの判定を行う。
【0019】領域分割処理20では、種々の方法を用い
て分割領域30を作成することが出来る。例えば、前記
文献に記載された技術を用いた場合、文書画像10の垂
直/水平投影分布を用い、該文書画像10を縦方向及び
横方向へブロック分割することを繰り返すことにより、
領域分割を行い、その分割領域30を縦書き・横書き判
別処理40へ送る。
【0020】図1は、本発明の実施例を示す縦書き・横
書き判別処理のフローチャートである。
【0021】この縦書き・横書き判別処理では、領域分
割処理20で得られた全ての基本要素の分割領域30に
ついて、ステップS11で、各分割領域30の高さ及び
幅を調べ、それらのうち小さい方の値(厚さ)が閾値以
下であるか否かを判定する。閾値以下である分割領域に
ついては、ステップS12において、その高さ及び幅を
比較して該分割領域が縦長か横長かを判定し、縦長領域
の時にはその数をステップS13で記憶し、横長領域の
時にはその数をステップS14で記憶する。この操作を
ステップS10において全ての領域について行うと、ス
テップS13で縦長領域数が、ステップS14で横長領
域数がそれぞれ記憶される。
【0022】このようにして縦長か横長かの判定ループ
がステップS20で終了すると、ステップS21では、
ステップS13,S14で記憶された横長領域数と縦長
領域数との比較を行う。横長と判定された横長領域数の
方が、縦長と判定された縦長領域数よりも多い時には、
ステップS22で横書きと判定され、縦長の方が多い時
には、ステップS23で縦書きと判定され、該判定結果
が出力される。
【0023】なお、ステップS11における閾値の値は
、文書画像10中にある図2の本文3に示すような文字
列の厚さによって異なるが、一般的な文書において用い
られている活字のサイズを考慮し、5.0mm程度が適
当である。但し、この値は、文書画像の垂直/水平投影
分布等を用いることにより、処理対象である文書画像毎
に、そのデータから閾値を適応的に求めることも可能で
ある。例えば、垂直/水平投影分布を用いて閾値を適応
的に求める場合、文書画像10に存在する黒画素の数の
各行・列における和の分布を求め、これが閾値以上連続
して存在する区間の幅を平均文字幅と仮定し、この数割
増の値を閾値とすれば良い。
【0024】以上のように、本実施例では、文字の方向
とスキャンの方向が同じという条件で読み取った文書画
像10の基本構成要素の各分割領域30の内、その厚さ
が閾値以下のものに着目し、それが縦長か横長かを観測
していくことにより、文書画像10が縦書きか横書きか
の判定を行うようにしている。そのため、分割領域30
内に「ゴミ」の黒画素が存在しても、その「ゴミ」によ
る影響を受けることなく、的確な判定が行える。さらに
、文書画像10と実際の文書の大きさの違いによらず、
複雑なレイアウトの文書画像等でも、縦書き・横書きの
精度の良い判定が行える。
【0025】なお、本発明は上記実施例に限定されず、
種々の変形が可能である。その変形例として、例えば次
のようなものがある。
【0026】(i)図3の領域分割処理20では、前記
文献に記載された方法以外に、種々の方法を用いること
ができる。例えば、本願出願人が先に提案した特願平1
−264649号明細書に記載された方法を用いても良
い。この方法では、文書画像デ―タを入力して横方向及
び縦方向の操作を2回繰り返して行い、黒画素の存在し
ない行及び列で画像を分割し、文字領域のものに対して
はそれらを統合することによって構成要素の分割領域を
得るようにしている。
【0027】(ii)図3の処理を行う装置は、集積回
路等を用いた個別回路で実現したり、或いはマイクロコ
ンピュータを用いたプログラム制御等によって実行する
など、種々の装置で実現できる。
【0028】
【発明の効果】以上詳細に説明したように、本発明によ
れば、文書画像の基本構成要素の各分割領域のうち、厚
さが閾値以下のものを検出し、その分割領域が縦長か横
長かを判定し、縦長領域と横長領域の個数の大小によっ
て文書画像が縦書きか横書きかを判定するようにしてい
る。このように、文書画像における文字列程度の厚さの
構成要素の方向を観測することにより、「ゴミ」による
影響を受けず、また文書画像と実際の文書の大きさの違
いにもよらず、複雑なレイアウトの文書画像等でも、簡
単な処理で、精度の良い縦書き・横書きの判定が可能と
なる。
【図面の簡単な説明】
【図1】本発明の実施例を示す縦書き・横書き判別処理
のフローチャートである。
【図2】文書画像の例を示す図である。
【図3】本発明の実施例を示す縦書き・横書き判定方法
の全体処理図である。
【符号の説明】
10  文書画像 20  領域分割処理 30  分割領域 40  縦書き・横書き判別処理

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】  文字の方向とスキャンの方向が同じと
    いう条件で読み取られた文書画像の基本構成要素の各分
    割領域のうち、文字列の幅が閾値以下の分割領域を検出
    し、前記検出された分割領域の方向が縦長か横長かによ
    り、該分割領域が縦長領域か横長領域かを判定し、前記
    判定された縦長領域と横長領域の個数の大小によって前
    記文書画像が縦書きか横書きかを判定する、ことを特徴
    とする文書画像の縦書き・横書き判定方法。
JP3052845A 1991-03-18 1991-03-18 文書画像の縦書き・横書き判定方法 Withdrawn JPH04288690A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3052845A JPH04288690A (ja) 1991-03-18 1991-03-18 文書画像の縦書き・横書き判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3052845A JPH04288690A (ja) 1991-03-18 1991-03-18 文書画像の縦書き・横書き判定方法

Publications (1)

Publication Number Publication Date
JPH04288690A true JPH04288690A (ja) 1992-10-13

Family

ID=12926182

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3052845A Withdrawn JPH04288690A (ja) 1991-03-18 1991-03-18 文書画像の縦書き・横書き判定方法

Country Status (1)

Country Link
JP (1) JPH04288690A (ja)

Similar Documents

Publication Publication Date Title
JP3278471B2 (ja) 領域分割方法
JPS615386A (ja) パタ−ン認識装置
KR100383858B1 (ko) 문자인식장치의 문자추출방법 및 장치
CN115063817A (zh) 一种基于形态学检测的表格识别方法、系统以及储存介质
JPH04288690A (ja) 文書画像の縦書き・横書き判定方法
JP3607753B2 (ja) 文書画像の領域分割方法および装置、並びに段組種類判別方法および装置
CN1983302A (zh) 行方向判定程序、方法以及装置
JP4194309B2 (ja) 文書方向推定方法および文書方向推定プログラム
JP3187895B2 (ja) 文字領域抽出方法
JPH07230525A (ja) 罫線認識方法及び表処理方法
JP4731748B2 (ja) 画像処理装置、方法、プログラム及び記憶媒体
JPH07160810A (ja) 文字認識装置
JP2571826B2 (ja) 文字列パターン切り出し装置
JPH0713994A (ja) 文字認識装置
JPH0373916B2 (ja)
KR930012142B1 (ko) 문서인식장치의 개별문자 절출방법
JPH0679348B2 (ja) 行切り出し方法
JP3086277B2 (ja) 文書画像処理装置
JP2877548B2 (ja) 文書画像の属性判別方法
JPS6343788B2 (ja)
JP2917394B2 (ja) 文字認識装置及び文字切り出し方法
CN112801090A (zh) 文字区域检测方法及装置
JP3653156B2 (ja) 文書画像領域抽出方法
JPH09288714A (ja) 表認識方法および装置
JP2878327B2 (ja) 文字切り出し装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19980514