JPH0540846A - 文書画像の和文・欧文判定方法 - Google Patents

文書画像の和文・欧文判定方法

Info

Publication number
JPH0540846A
JPH0540846A JP3196507A JP19650791A JPH0540846A JP H0540846 A JPH0540846 A JP H0540846A JP 3196507 A JP3196507 A JP 3196507A JP 19650791 A JP19650791 A JP 19650791A JP H0540846 A JPH0540846 A JP H0540846A
Authority
JP
Japan
Prior art keywords
japanese
line
document image
european
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP3196507A
Other languages
English (en)
Inventor
Akitoshi Tsukamoto
明利 塚本
Sadamasa Hirogaki
節正 広垣
Naohiro Amamoto
直弘 天本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP3196507A priority Critical patent/JPH0540846A/ja
Publication of JPH0540846A publication Critical patent/JPH0540846A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 連結黒画素の外接矩形の作成を不要にし、和
文・欧文判定処理に要する時間を短縮する。 【構成】 文書画像を読込み・2値化手段2を用いて2
値化を行い、和文・欧文判定手段6において2値化を行
った文書画像の行方向または列方向の黒ランの数を計数
して線密度を測定し、測定した線密度の統計的特徴によ
ってその行が和文の行か欧文の行かを判定する。したが
って、連結黒画素の外接矩形を作成することなく、文書
画像の和文・欧文の判定が行われる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書画像が和文である
か欧文であるかを判定する方法に関するものである。
【0002】
【従来の技術】従来、この分野の技術としては、例え
ば、福田・樋野・町田「黒画素連結成分の外接矩形によ
る英文和文判定方式」(情報処理学会第38回全国大会
予稿集3C−7pp.139−140)に示されたもの
がある。上記文献に開示された英文和文判定方式は、
(1)英文の場合はベースとなる位置が存在してa,c
のように上下につきでないもの、b,dのように上につ
きでるもの、g,jのように下につきでるもの等に分類
できるが、和文にはそのような特徴はない、(2)英文
では、単語と単語の間にスペース部分が存在するが和文
にはない、(3)英文は単一の連結成分からなるものが
多いが、和文は複数の連結成分からなるものが多い、と
いう英文と和文の特徴に着目し、文字列の外接矩形とそ
の各文字を構成する連結黒画素の外接矩形を作成し、連
結成分の外接矩形の上辺と下辺のY座標の、Y軸方向で
の頻度分布によって判定する方法、あるいは隣接する連
結成分の外接矩形の間の距離の分布によって判定する方
法であった。
【0003】
【発明が解決しようとする課題】しかしながら、上記従
来の英文和文判定方式では文字を構成する連結黒画素の
外接矩形を作成するという特殊な処理が必要であり、こ
のための処理時間が長くかかるという問題点があった。
本発明は、前記問題点を解決して、連結黒画素の外接矩
形の作成が不要で、処理時間の短い和文・欧文判定方法
を提供することを目的とする。
【0004】
【課題を解決するための手段】前記問題点を解決するた
めに、本発明は、文書画像の読込みと2値化を行い、2
値化を行った文書画像の行方向または列方向の線密度を
測定し、測定した線密度の統計的特徴によってその行が
和文の行か欧文の行かを判定するように構成した。
【0005】本発明は、発明者が和文の文書画像と欧文
の文書画像との間の画像上の特徴を分析した結果、発見
した事実である、(1)和文は欧文に対して画数が多
く、また文字列を水平方向に投影して観測した時、欧文
文字列ではその中央部に線密度が集中しており、周辺部
との差が大きい、(2)和文は欧文に対して横線の多さ
のバラツキが大きい、という和文の文書画像と欧文の文
書画像との間の画像上の特徴の違いを利用している。
【0006】
【作用】本発明によれば、以上のように文書画像の和文
・欧文判定方法を構成したので、文書画像の読込みと2
値化を行い、2値化を行った文書画像の行方向または列
方向の黒ランの数を計数して線密度を測定し、測定した
線密度の統計的特徴によってその行が和文の行か欧文の
行かを判定する。したがって、連結黒画素の外接矩形を
作成することなく、文書画像の和文・欧文の判定が行わ
れる。
【0007】
【実施例】以下、本発明の実施例について図面を参照し
ながら詳細に説明する。図1は、本発明の実施例に係る
文書画像の和文・欧文判定方法のデータフロー図であ
る。まず、和文・欧文の判定対象である文書1を読込み
・2値化手段2を用いて読込み、適当なしきい値で2値
化する。2値化した文書画像は文書画像記憶手段3に記
憶する。2値化して記憶した文書画像を行切出し手段4
により切出し、各文字行の位置情報(文字行の矩形の上
下左右の座標、あるいは特定の位置の座標と高さ、幅
等)を行情報記憶手段5に記憶する。以上で、前処理が
終わる。
【0008】次に、和文・欧文判定手段6において、行
情報記憶手段5に記憶されている各文字行の位置情報に
基づいて、文書画像記憶手段3に記憶されている文書画
像の各行部分を行方向に走査して読出し、各ラインにお
ける線密度(黒ランの数)を測定する。図2はこの走査
と線密度分布を示す説明図である。また、この行部分に
存在した黒ランの総数も同時に求める。走査終了後、こ
の各ライン毎の線密度を黒ランの総数で割ることによっ
て線密度分布の正規化を行い、その正規化された線密度
における分散値があるしきい値よりも小さい時は和文、
それ以外の時は欧文と判定する。判定結果は結果出力手
段7から出力する。
【0009】なお、和文と欧文の横線の多さのバラツキ
の大小に着目し、行方向に測定した線密度の分布の代わ
りに図3のように各行部分を列方向に走査して測定した
各カラムにおける線密度分布の分散値によって判定を行
うことも可能である。また、図2における文字行の中心
部の線密度の平均値と周辺部(中心部の上下)の線密度
の平均値の差分値を用いて文書画像の和文・欧文の判定
を行うこともできる。
【0010】このように、本発明は線密度の分布を用い
て文書画像の和文・欧文の判定を行うが、一般的に2値
化した文書画像においては前景部と背景部との境界が図
4のようにギザギザに入り込む1ドットサイズのノッチ
が存在する。以下に、このノッチの影響を低減する線密
度測定法を説明する。図5はノッチの影響を低減する線
密度測定法の説明図である。
【0011】この測定法は基本的には、行方向に2ライ
ンずつ、または、列方向に2カラムずつ走査を行い、画
素値が0から1(白から黒)に反転する回数をカウント
する。図5(a)はこの状態を示したもので、列方向測
定時に2カラムの画素が同時に反転している。また、斜
めの線を行(または列)方向に走査したときには、画素
値が反転する位置がずれている場合があるので、図5
(b),(c)のように、どららか一方が以前から黒画
素であった場合もカウントする。
【0012】2ライン(またはカラム)の画素がともに
黒になると、次にその黒画素の状態が継続する数をカウ
ントする。そして、図5(d)のように、この継続数が
1であった場合には、その黒画素の両隣の画素を観測
し、ともに黒画素である場合のみ測定値に加える。これ
により、大きさ1の黒ノッチを線密度数に加えないよう
にする。
【0013】また、両ライン(カラム)とも黒画素であ
る状態が継続中に一方だけが白である状態になり、この
状態が一回しか継続せずにまた両ライン(カラム)とも
黒画素の状態に戻った時は、この戻った部分でのカウン
トアップは行わない。図5(e),(f)に示すよう
に、このときは、大きさ1の白ノッチが存在する。この
とき、再び2カラムとも黒画素となった時点で図5
(b),(c)と同じ状態になるので、線密度が1増加
するが、これをカウントしないようにして、白ノッチの
影響を除いている。
【0014】このように、黒ノッチ及び白ノッチを無視
する処理を行うため、ノッチの影響が低減する。実際の
文書画像における各文字行について行方向及び列方向に
線密度を測定した結果、それらの分布はそれぞれ図6,
図7のようになった。これらの結果より、原画像で判定
する場合には行方向線密度分布のしきい値=5.0×1
-5、列方向線密度分布のしきい値=0.7が適当であ
る。
【0015】なお、本発明は上記実施例に限定されるも
のではなく、本発明の趣旨に基づき種々の変形が可能で
あり、それらを本発明の範囲から排除するものではな
い。
【0016】
【発明の効果】以上、詳細に説明したように、本発明に
よれば、連結黒画素の外接矩形の作成が不要であるた
め、文書画像の和文・欧文判定処理に要する時間が短縮
される。
【図面の簡単な説明】
【図1】本発明の実施例に係る文書画像の和文・欧文判
定方法のデータフロー図である。
【図2】本発明の実施例における行方向の走査と線密度
分布を示す説明図である。
【図3】本発明の実施例における列方向の走査と線密度
分布を示す説明図である。
【図4】ノッチの説明図である。
【図5】ノッチの影響を低減する線密度測定法の説明図
である。
【図6】本発明の実施例における行方向の線密度の測定
値を示す図である。
【図7】本発明の実施例における列方向の線密度の測定
値を示す図である。
【符号の説明】
1 文書 2 読込み・2値化手段 3 文書画像記憶手段 4 行切出し手段 5 行情報記憶手段 6 和文・欧文判定手段 7 結果出力手段

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 (a)文書画像の読込みと2値化を行
    い、 (b)2値化を行った文書画像の行方向または列方向の
    線密度を測定し、 (c)測定した線密度の統計的特徴によってその行が和
    文の行か欧文の行かを判定することを特徴とする文書画
    像の和文・欧文判定方法。
  2. 【請求項2】 線密度の分散値と所定のしきい値との大
    小関係にもとづいてその行が和文の行か欧文の行かを判
    定することを特徴とする請求項1記載の文書画像の和文
    ・欧文判定方法。
  3. 【請求項3】 行方向の線密度の分散値が所定のしきい
    値より小さい場合は和文と判定し、それ以外の場合は欧
    文と判定する請求項2記載の文書画像の和文・欧文判定
    方法。
  4. 【請求項4】 行方向または列方向に2ラインまたは2
    カラムずつ走査を行って線密度を測定することにより、
    ノッチの影響を低減した請求項1,2または3記載の文
    書画像の和文・欧文判定方法。
JP3196507A 1991-08-06 1991-08-06 文書画像の和文・欧文判定方法 Withdrawn JPH0540846A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3196507A JPH0540846A (ja) 1991-08-06 1991-08-06 文書画像の和文・欧文判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3196507A JPH0540846A (ja) 1991-08-06 1991-08-06 文書画像の和文・欧文判定方法

Publications (1)

Publication Number Publication Date
JPH0540846A true JPH0540846A (ja) 1993-02-19

Family

ID=16358906

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3196507A Withdrawn JPH0540846A (ja) 1991-08-06 1991-08-06 文書画像の和文・欧文判定方法

Country Status (1)

Country Link
JP (1) JPH0540846A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0621552A2 (en) * 1993-04-19 1994-10-26 Xerox Corporation Method and apparatus for automatic character script determination
EP0621541A3 (en) * 1993-04-19 1995-05-17 Xerox Corp Method and device for automatic speech recognition.

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0621552A2 (en) * 1993-04-19 1994-10-26 Xerox Corporation Method and apparatus for automatic character script determination
EP0621541A3 (en) * 1993-04-19 1995-05-17 Xerox Corp Method and device for automatic speech recognition.
EP0621552A3 (en) * 1993-04-19 1995-05-17 Xerox Corp Method and apparatus for automatic determination of entries.

Similar Documents

Publication Publication Date Title
EP0621552B1 (en) Method and apparatus for automatic character script determination
JP3308032B2 (ja) スキュー補正方法およびスキュー角検出方法およびスキュー補正装置およびスキュー角検出装置
US5073953A (en) System and method for automatic document segmentation
US5425110A (en) Method and apparatus for automatic language determination of Asian language documents
US6798906B1 (en) Image processing apparatus and method including line segment data extraction
JPH0721310A (ja) 文書認識装置
US6141444A (en) Method for deleting ruled lines and a recording medium storing programs for performing the method
Saitoh et al. Document image segmentation and layout analysis
JPH0540846A (ja) 文書画像の和文・欧文判定方法
JPH064704A (ja) 罫線識別方法及び領域識別方法
JP3835652B2 (ja) 文書画像の日本語英語判定方法および記録媒体
JPH06187489A (ja) 文字認識装置
JP3187895B2 (ja) 文字領域抽出方法
EP0767941B1 (en) Automatic determination of landscape scan in binary images
JP3220226B2 (ja) 文字列方向判別方法
JP2728086B2 (ja) 文字切り出し方法
Okun et al. Robust text detection from binarized document images
JP2001143076A (ja) 画像処理装置
JPH0573714A (ja) 文字認識装置
JPH0535914A (ja) 画像傾き検出方法
JPH07160810A (ja) 文字認識装置
JPH0628520A (ja) 文字認識装置
JPH06223224A (ja) 行切出し方法
JPH06348891A (ja) 図形混在文書画像の構造解析方法
JPH06259597A (ja) ドキュメントイメージ処理方法並びに文字認識システムおよびドキュメントイメージ処理装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19981112