JP3384634B2 - 文字種識別方法 - Google Patents

文字種識別方法

Info

Publication number
JP3384634B2
JP3384634B2 JP30332194A JP30332194A JP3384634B2 JP 3384634 B2 JP3384634 B2 JP 3384634B2 JP 30332194 A JP30332194 A JP 30332194A JP 30332194 A JP30332194 A JP 30332194A JP 3384634 B2 JP3384634 B2 JP 3384634B2
Authority
JP
Japan
Prior art keywords
character
rectangles
rectangle
size
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP30332194A
Other languages
English (en)
Other versions
JPH08161430A (ja
Inventor
敏文 山合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP30332194A priority Critical patent/JP3384634B2/ja
Publication of JPH08161430A publication Critical patent/JPH08161430A/ja
Application granted granted Critical
Publication of JP3384634B2 publication Critical patent/JP3384634B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書認識に係り、特
に、紙文書(紙に内容が印刷などによって記載された文
書、以下、単に文書と呼ぶ)を認識する際に、その文字
種、例えば英文で書かれているか、または日本文で書か
れているかを識別する技術に関する。
【0002】
【従来の技術】文書の内容をデータ処理し、テキストデ
ータとして再利用できるようにするための文書認識処理
の一般的な手法は、文書をイメージデータとして読み込
み、次に文書画像を文字領域と図形領域などに分割し、
文字領域に関しては文字認識処理を行なってテキストデ
ータへ変換する。
【0003】この文書認識、なかでも文字認識に関して
は、英文と日本文とに処理を分けたほうが、言語特有の
処理手法を活かせるので性能面で有利である。領域分割
の処理においても、文字矩形を統合して行くようなボト
ムアップ手法を採用する場合には、予め対象言語が特定
されているほうが性能面で有利である。
【0004】さて、文書が日本文、英文のいずれで書か
れているか識別する技術に関しては、特開平4−346
188号及び特開平4−346189号の方法が知られ
ている。特開平4−346188号の方法では、領域分
割によって切り出された文字行のイメージデータより、
一定値以上の長さを持つ縦線と横線を抽出し、これら
縦、横線により囲まれた閉領域(文字中の矩形)を抽出
し、その個数に基づいて当該文字行が日本文/英文のい
ずれであるか判断する。特開平4−346189号の方
法では、領域分割によって切り出された文字行のイメー
ジデータをスキャンして、文字間の距離を求め、文字間
距離の分布に基づいて英文/日本文の識別をする。
【0005】
【発明が解決しようとする課題】上記従来方法は、領域
分割によって切り出された文字領域について行単位に文
字種を判別する局所的な方法であり、文字認識にかける
直前の前処理としては都合がよいものの、領域分割がな
される前の文字領域が確定していない段階には適用でき
ない(つまり、領域分割の前処理としては利用できな
い)。また、文書の全体、あるいは、ある程度大きな領
域について、大局的に英文か日本文かを識別する目的に
利用しようとすると、領域分割からの処理全部を行なう
必要があるため、長い処理時間と大きなメモリ量を要す
る。
【0006】よって、本発明の目的は、文書の大局的な
文字種識別、すなわち文書全体または文書のかなり大き
な領域の文字種の識別、より具体的には英文、日本文の
いずれで書かれているかの判別を効率的に行なうための
手段を提供することにある。本発明のもう一つの目的
は、領域分割の前処理としても利用可能な、大局的な文
字種識別の手段を提供することにある。
【0007】
【課題を解決するための手段】請求項1記載の発明によ
る文字種識別方法は、文書を読み取った画像データを圧
縮して圧縮画像を生成する処理と、前記圧縮画像中の黒
画素連結成分の外接矩形を抽出する処理と、前記抽出し
た外接矩形を文字矩形とそれ以外の矩形に分類する処理
と、前記文字矩形に分類された外接矩形について、行に
対して垂直な方向の大きさと平行な方向の大きさの比
(縦横比)を求め、その頻度分布に基づいて前記文書の
文字種を判別する処理とからなることを特徴とするもの
である。
【0008】請求項2記載の発明による文字種識別方法
は、文書を読み取った画像データを圧縮して圧縮画像を
生成する処理と、前記圧縮画像中の黒画素連結成分の外
接矩形を抽出する処理と、前記抽出された外接矩形から
文字となり得ない大きな矩形を除いた外接矩形を選択す
る処理と、前記選択された外接矩形の行に対して垂直方
向の大きさより文書の標準文字サイズを表わす固有値を
求める処理と、前記固有値をもとに、前記選択された外
接矩形を文字矩形とそれ以外の矩形に分類する処理と、
前記文字矩形に分類された外接矩形について、行と平行
な方向の大きさが前記固有値以下の個数を求め、前記個
数と前記文字矩形に分類された外接矩形の総数との比に
基づいて前記文書の文字種を判定する処理とからなるこ
とを特徴とするものである。
【0009】請求項3記載の発明による文字種識別方法
は、文書を読み取った画像データを圧縮して圧縮画像を
生成する処理と、前記圧縮画像中の黒画素連結成分の外
接矩形を抽出する処理と、前記抽出された外接矩形から
文字となり得ない大きな矩形を除いた外接矩形を選択す
る処理と、前記選択された以外接矩形の行に対して垂直
方向の大きさより文書の標準文字サイズを表わす固有値
を求める処理と、前記固有値をもとに、前記選択された
外接矩形を文字矩形とそれ以外の矩形に分類する処理
と、前記文字矩形に分類された外接矩形について、行と
平行な方向の大きさが前記固有値のほぼ整数倍のものの
頻度を求め、該頻度に基づいて前記文書の文字種を判定
する処理とからなることを特徴とするものである。
【0010】
【作用】請求項1記載の発明において文字種判定のため
の特徴量として用いられる、文字矩形の縦横比の分布に
関し、日本文と英文について考察する。日本文の場合、
文字間が英文に比べて広いことが多いので、画像を圧縮
しても文字間が融合することは少ない。一方、英文の場
合には、画像の圧縮によって文字間が融合して1単語が
一つの矩形になることが多い。したがって、日本文であ
れば縦横比の分布は、ある1に近い値に集中するが、英
文であれば縦横比の分布は、そのように特定の値に集中
せず、1より小さいある範囲の値にばらつく傾向があ
る。請求項1記載の発明は、圧縮画像を対象に、このよ
うな日/英それぞれの場合の文字矩形の縦横比の分布の
違いを利用して、文字種(日/英)を識別するものであ
る。なお、この縦横比の分布は、文字種判定のための証
拠の一つに過ぎないので、他の特徴量も併用して文字種
判定を行なえば、より正確な文字種識別が可能になる。
これは他の請求項記載の発明においても同様である。
【0011】文字矩形中の行と平行な方向の大きさが標
準文字サイズ(固有値)より小さい矩形の個数と、文字
矩形総数との比は、日本文の場合、新聞のような文字間
がかなり詰まった文書を除けば、一般に大きい(圧縮し
ても隣接した文字が融合するのは新聞くらいである)。
しかし、英文の場合、雑誌などの一般的な文書では、こ
の比は日本文にくらべ小さい値となる傾向がある。請求
項2記載の発明は、このような性質を利用して文字種
(英/日)を識別するものである。
【0012】日本文の場合、漢字等では文字自体の縦横
比がほとんど1に近く、圧縮によって複数の文字が融合
して一つの矩形に統合されたとしても、矩形の幅は標準
文字サイズの整数倍、またはそれに非常に近い値にな
る。請求項3記載の発明は、このような性質に着目して
文字種(日/英)を識別するものである。
【0013】本発明の方法は、文字行単位に処理する方
法でなく、文書全体または文書の大きな領域についての
大局的な文字種識別に適用できるものであり、しかも、
従来の方法と違い予め領域分割を行なう必要がないの
で、大局的な文字種識別を行なう場合にも従来方法に比
べ処理時間及び必要メモリ量が減少する。また、各請求
項記載の発明の方法によれば、領域分割の前処理として
文字種識別を行なうことができる。
【0014】なお、ここまでの説明及び以下の説明にお
いて、日本文と英文が識別対象の文字種として用いられ
るが、それ以外の言語の文字種の識別にも本発明は適用
できるものである。
【0015】
【実施例】以下、本発明のいくつかの実施例について図
面を用いて説明する。各実施例の詳細を説明する前に、
各実施例に係る文字種識別装置の構成例を図1に示して
説明する。
【0016】図1に示した文字種識別装置は、例えば文
字認識装置の前処理装置として位置付けることができ
る。画像入力部1は、文書の2値化された画像データを
スキャナ2より入力する。入力された画像データは画像
メモリ3に蓄積される。画像圧縮部4は、画像メモリ3
内の入力画像データを所定の倍率で圧縮して圧縮画像を
生成し、この圧縮画像のデータを画像メモリ3に格納す
る。この圧縮の倍率は、解像度や文書の文字サイズ等に
よって調整される。雑誌や新聞の400dpiの原稿の
場合、8×8画素を1画素にOR圧縮する程度で一般に
問題ない。外接矩形検出部5は、画像メモリ3内の圧縮
画像データに対して黒画素の連結成分に外接する矩形を
抽出し、抽出した外接矩形のデータを矩形メモリ6に格
納する。特徴抽出部7は矩形メモリ6内の外接矩形デー
タを参照して、文字種判別のための一種または複数種類
の特徴量を抽出する。この特徴量に基づき、文字種判定
部8は文字種を判定する。特徴抽出部7と文字種判定部
8の処理内容は各実施例毎に相違するが、これについて
は各実施例別に後述する。判定された文字種(日本文/
英文)は、文字種出力部9によって例えば文字認識装置
へ出力される。以下、各実施例について説明する。
【0017】<実施例1> 本実施例における画像入力後の処理フローを図2に示
す。画像圧縮部4により入力画像の圧縮処理を行ない
(ステップ20)、外接矩形検出部5により圧縮画像中
の黒画素連結成分の外接矩形を抽出する(ステップ2
1)。
【0018】続いて、特徴抽出部7において、外接矩形
を文字矩形(文字らしい矩形)とそれ以外の矩形とに分
類する(ステップ22)。この分類は例えば、すべての
外接矩形の高さ(行に対し垂直な方向の外接矩形の大き
さ)のヒストグラムをとり、最も頻度が大きい高さと、
その前後の高さを持つ外接矩形を文字矩形とする方法に
よることができる。
【0019】次に、特徴抽出部7において、文字矩形に
分類された外接矩形について、行に対して垂直な方向の
大きさと平行な方向の大きさの比(縦横比)を求め、そ
の分布をヒストグラムにする(ステップ24)。そし
て、この分布を特徴量として、文字種判定部8で、日本
文であるか英文であるかを判定する(ステップ25)。
因みに、日本文の場合、文字間が英文に比べて広いこと
が多いので、画像を圧縮しても文字間が融合することは
少ないのに対し、英文の場合は、画像の圧縮によって文
字間が融合して1単語が一つの矩形になることが多い。
したがって、日本文であれば縦横比の分布は、ある1に
近い値に集中するが、英文であれば縦横比の分布は、そ
のように特定の値に集中せず、1より小さいある範囲の
値にばらつく傾向がある。よって、縦横比の分布をもと
に文字種を識別することができる。
【0020】ただし、この縦横比の分布を文字種識別の
ための特徴量の一つとして扱い、後記実施例で採用され
るような他の一種類もしくは複数種類の特徴量と併用し
て文字種判定を行なうのが、より実用的であろう。
【0021】<実施例2> 本実施例における画像入力後の処理フローを図3に示
す。画像圧縮処理(ステップ30)、外接矩形抽出処理
(ステップ31)は前記実施例1のステップ20,21
と同様である。
【0022】ステップ32からステップ36までは特徴
抽出部7による処理である。まず、抽出された外接矩形
の中から、文字となり得ないような大きな矩形を除いた
外接矩形を選び出す(ステップ32)。そして、選び出
された外接矩形について、行に対して垂直な方向の大き
さ分布をとり、最大頻度となった大きさ(高さ)を求
め、その値そのもの、または、その値をベースにした値
(ある定数を掛けた値、ある定数を加算した値など)
を、標準文字サイズという固有値として求める(ステッ
プ33)。ここで、標準文字サイズとは、横書きの場合
は図4の(a),(b),(e)に示すように1文字の
平均的高さを表わし、縦書きの場合は図4の(c),
(d)に示すように1文字の平均的幅を表わす。
【0023】次に、標準文字サイズを用いて、ステップ
32で選ばれた外接矩形を、文字らしい矩形と、文字ら
しくない矩形とに分類する(ステップ34)。具体的に
は、行に対して垂直な方向の大きさが、標準文字サイズ
に比べ遥かにおおきな外接矩形は文字以外の矩形とし、
それ以外を文字矩形とする。得られた文字矩形中の行と
平行な方向の大きさが標準文字サイズより小さい矩形の
個数を数え、その個数と文字矩形総数との比を求める
(ステップ36)。
【0024】そして、文字種判定部8において、ステッ
プ36で得られた比をもとに、英文であるか日本文であ
るかの判定をする(ステップ37)。日本文の場合、こ
の比は、新聞のような文字間がかなり詰まった文書を除
けば、一般に大きい(圧縮しても隣接した文字が融合す
るのは新聞くらいである)。英文の場合、雑誌などの一
般的な文書では、この比は日本文にくらべ小さい値とな
る傾向がある。したがって、この比の大小により文字種
判定が可能である。
【0025】ただし、英文の場合でも、プロポーショナ
ル印字以外のワープロ文書や文字サイズが大きい文書で
は当該比は大きくなるので、当該比単独では文字種判定
の正確を期すことができないことも少なくない。したが
って、当該比を文字種判別の一条件として扱い、他の実
施例で採用されるような他の特徴量と併用して文字種識
別を行なうのが、より実用的であろう。
【0026】<実施例3> 本実施例における画像入力後の処理フローを図5に示
す。画像圧縮処理(ステップ30)と外接矩形抽出処理
(ステップ31)は前記実施例1のステップ20,21
と同様である。また、矩形分類処理(ステップ42)、
標準文字サイズ抽出処理(ステップ43)、文字分類処
理(ステップ44)は前記実施例2のステップ32,3
3,34と同様である。
【0027】以上の処理に続き、特徴抽出部7におい
て、文字矩形の中で行と平行な方向の大きさ(幅)が標
準文字サイズより大きな矩形の個数Aを計数し、また、
そのような矩形の中で幅が標準文字サイズの整数倍(あ
る程度の余裕をみた約整数倍)の矩形の個数Bを計数す
る(ステップ45)。
【0028】文字種判定部8は、ステップ45で得られ
た個数の比B/Aを特徴量として文字種を判定する(ス
テップ46)。日本文の場合、漢字等では文字自体の縦
横比がほとんど1に近く、圧縮によって複数の文字が融
合して一つの矩形に統合されたとしても、矩形の幅は標
準文字サイズの整数倍、またはそれに非常に近い値にな
る。したがって、標準文字サイズの整数倍の幅を持つ文
字矩形の頻度つまり比B/Aを、日本文であるかそうで
ないかの判別のための証拠の一つとして利用できる。つ
まりステップ46では、比B/Aがある値より大きい時
に日本文、それより小さい時に英文、と判定する。
【0029】なお、この整数倍の幅を持つ矩形の頻度
(比)という特徴量は、他の実施例で採用するような他
の特徴量と併用されるのが、より実用的である。特に、
前記実施例1または2で文字種識別のための特徴量とし
て用いられた比が小さくなる場合に、つまり圧縮による
単語や文字の融合が多い場合に、この整数倍の幅を持つ
矩形の頻度を併用すると日本文と英文の判別がしやすく
なり効果的である。
【0030】<実施例4> 本実施例における画像入力後の処理フローを図6に示
す。画像圧縮処理(ステップ50)、外接矩形抽出処理
(ステップ51)は前記実施例1のステップ20,21
と同様である。また、矩形分類処理(ステップ52)、
標準文字サイズ抽出処理(ステップ53)は前記実施例
2のステップ32,33と同様である。
【0031】以上の処理に続いてステップ54からステ
ップ57までの処理が特徴抽出部7で行なわれる。ステ
ップ54はステップ52により選ばれた外接矩形を、文
字らしい矩形とそれ以外の矩形とに分類するが、本実施
例では、行に対して垂直な方向の大きさが標準文字サイ
ズ以下の外接矩形を文字矩形とする。さらにステップ5
5において、文字矩形の中で、文字以外に分類された大
きな外接矩形に包含されているものは排除する。これ
は、ハーフトーンの部分などで小さな矩形が大量に発生
することがあるので、そのような小さな矩形を文字矩形
としないためである。このようにして選ばれた文字矩形
からステップ56で微小な矩形を除外し、残った文字矩
形について、ステップ57で相互の包含または重なりの
頻度を計測する。そして、この頻度を特徴量として、文
字種判定部8が日本文であるか英文であるかを判定する
(ステップ58)。
【0032】日本文の場合、編、旁、冠、構などの部首
があるため、1文字が複数の矩形に分離しがちであり、
しかも、外接矩形でみたときに重なりや包含関係になる
ものも多い。特に、文字間が融合しない程度の圧縮率で
あったり、文字サイズがかなり大きい場合には、そうな
りやすい。これに対して、英文では、文字が分離するの
はi,jなどの点だけであり、また、プロポーションル
印字のときにに矩形の重なりが生じる程度で包含関係に
なるものなない。したがって、ステップ57で得られる
文字矩形の包含または重なり関係の頻度を日英識別に利
用できる。
【0033】ただし、このような包含または重なり関係
の頻度は、文字種識別のための証拠の一つであるので、
この証拠のみによっては文字種を断定できない場合も少
なくない。したがって、この証拠に加えて、他の実施例
で採用されるような他の証拠も併用して文字種を最終的
に決定するのが、より実用的であろう。
【0034】<実施例5> 本実施例における画像入力後の処理フローを図7に示
す。画像圧縮処理(ステップ60)、外接矩形抽出処理
(ステップ61)、矩形分類処理(ステップ62)、標
準文字サイズ抽出処理(ステップ63)、矩形分類処理
(ステップ64)、不要矩形の排除処理(ステップ6
5,66)は、前記実施例4のステップ50,51,5
2,53,54,55,56と同様である。
【0035】以上の処理に続き、特徴抽出部7は、ステ
ップ67で、前ステップで残った文字矩形について、行
方向に重なりのある文字矩形間の距離を測定し、そのヒ
ストグラムを求める。図8に示す文字矩形70,71,
72の場合、文字矩形70,71は行方向に重なりがあ
るので、その間の距離は測定対象となる。しかし、文字
矩形71,72は行方向に重なりがないので、その間の
距離は測定対象にならない。
【0036】日本文では、矩形間距離ヒストグラムのピ
ークは、文字間距離に相当するピーク、句読点とその後
の文字との距離に相当するピーク、マルチコラムの場合
のコラム間距離に相当するピークの三つが予想され、そ
れぞれのピークの山は高い。一方、英文では、文字サイ
ズが大きい場合や、ワープロ、タイプライター類により
印字された場合で文字間距離に相当するピークと、単語
間距離に相当するピーク、それにマルチコラムの場合の
コラム間距離に相当するピークの3種類のピークが出る
と予想される。しかし、プロポーショナルな配置の関係
でコラム間距離より単語間距離のほうが大きい場合や、
単語間距離が行によって著しく変わる場合などがあるた
め、その矩形間距離分布は、日本文のように急激なピー
クを得られるほど安定していない。そこで、文字種判定
部8は、矩形間距離ヒストグラムのピークの安定度など
の特徴から英文/日本文の判定を行なう(ステップ6
8)。より具体的には、矩形間距離ヒストグラムのピー
ク付近の分散が大きいか、または高いピークが現われな
いかを調べて文字種を判定する。なお、文字種判定のた
めに他の特徴量を併用してもよく、そのほうがより実用
的であろう。
【0037】<実施例6> 本実施例における画像入力後の処理フローを図9に示
す。画像圧縮処理(ステップ80)、外接矩形抽出処理
(ステップ81)、矩形分類処理(ステップ82)、標
準文字サイズ抽出処理(ステップ83)、矩形分類処理
(ステップ84)、不要矩形の排除処理(ステップ8
5,86)、矩形間距離測定処理(ステップ87)は、
前記実施例5のステップ60,61,62,63,6
4,65,66,67と同様である。
【0038】以上の処理に続き、特徴抽出部7はステッ
プ88において、ステップ87で得たストグラムより、
スペース間値以下の矩形間距離の分布と、スペース間値
より大きな矩形間距離の分布とを求める。そして、文字
種判定部8はステップ88において、スペース間値より
大きな矩形間距離のほうがスペース間値以下の矩形間距
離より分布が大きいときは日本文と、そうでないときは
英文と、判定する。
【0039】ここで、スペース間値とは文字と文字の間
の空白部分の予想される大きさのことであり、本実施例
においてはステップ83で求めた標準文字サイズをスペ
ース間値として用いる。日本文では文字間距離が標準文
字サイズより大きくなるのは句読点の部分くらいである
が、英文では標準文字サイズより大きな単語間距離が発
生する。この性質をステップ89で利用するわけであ
る。
【0040】なお、スペース間値より大きな矩形間距離
を全て計測してしまうと、マルチコラムの場合に、コラ
ム間距離まで計測されるという不都合がある。これを避
けるためには、ステップ87において、スペース間値を
超える大きなスペースがあった場合、その上下の位置を
検索して文字矩形があるときに限り、その距離を計測す
るとよい。これは、その大きなスペース部分がコラムと
コラムの間の部分ならば、その上下に文字矩形は存在し
ないと考えるわけである。図10はその説明図である。
図10の(a)に示した文字矩形91,92間のスペー
ス90(スペース間値を超えるもの)は、その上下に文
字矩形が存在しないので、コラム間スペースの可能性が
あるため計測しない。しかし、図10の(b)に示した
文字矩形94,95間のスペース93(スペース間値を
超えるもの)は、その上に文字矩形96が存在しコラム
間スペースの可能性は低いので計測する。
【0041】なお、本実施例においても、文字種識別に
他の特徴量を併用してよく、そのほうがより実用的であ
ろう。
【0042】<実施例7> 本実施例における画像入力後の処理フローを図11に示
す。ステップ100,101,102,103,10
4,105,106は、前記実施例4のステップ50,
51,52,53,54,55,56と同様である。
【0043】以上の処理に続き、特徴抽出部7はステッ
プ107,108を行なう。ステップ107において
は、行方向に重なりのある文字矩形(図8参照)につい
て、その矩形間距離を測定し、スペース間値(本実施例
ではステップ103で得られた標準文字サイズ)を超え
る大きさのスペース部分を抽出する。そしてステップ1
08において、前ステップで抽出されたスペース部分の
前の(行先頭側の)文字矩形の位置について画像メモリ
3内の原画像(圧縮前の画像)を調べ、句読点らしい、
文字矩形より小さな矩形があるか調べる。次のステップ
109において、文字種判定部8は、ステップ108に
よって句読点らしき小さな矩形が検出されたか否かと、
検出された頻度とから、文字種を判定する。つまり、句
読点らしき矩形が検出された頻度が大きければ日本文、
そうでなければ英文、と判定する。ここまでの説明から
理解されるように、本実施例では、実施例6において述
べた「日本文では、文字間距離が標準文字サイズを超え
るのは、句読点の部分くらいである」という性質を文字
種識別に利用している。
【0044】なお、本実施例においても他の実施例で採
用されるような他の特徴量を文字種判定に併用してよ
く、そのほうがより実用的であろう。
【0045】<実施例8> 本実施例は、前記実施例1乃至実施例7で採用された文
字種識別方法を組合せ、それぞれの方法による判定結果
の確信度を総合して最終的な文字種を決定するものであ
る。本実施例における画像入力後の処理の概略を図12
に示す。
【0046】図12において、ステップ110,111
は前記実施例1のステップ20,21と同様である。ス
テップ112_1,112_2,...,112_i,...,11
2_7はそれぞれ前記実施例1,実施例2,...,実施例
i,...,実施例7と同様の文字種判定処理である。よ
り詳しくは、ステップ112_1 は前記実施例1(図2)
のステップ21〜25と同様の処理であり、ステップ1
12_2 は前記実施例2(図3)のステップ32〜37
と同様の処理であり、ステップ112_7は前記実施例7
(図11)のステップ102〜109と同様の処理であ
る。ただし、それぞれの方法による判定結果は、英文ら
しさまたは日本文らしさの度合(確信度)が数値化され
る。例えば、予め何種類かの圧縮率の場合について、各
方法で用いる特徴量の分布を英文、日本文それぞれにつ
いて求めておき、入力画像に対して実際に得られた特徴
量の分布の、同じ圧縮率の場合に予め求めておいた特徴
量の分布からのずれの大きさ(距離)が数値化され、そ
の数値が確信度として用いられる。
【0047】図12において、ステップ113,114
は文字種判定部8による処理である。ステップ113で
は、ステップ112_1,112_2,...,112_7 によ
って得られた確信度を合成する。このようにして合計さ
れた確信度をもとに、ステップ114で最終的な文字種
判定を行なう。例えば、上に述べたのような確信度の場
合には、それぞれの日本文らしさまたは英文らしさの確
信度の合計値または平均値をステップ113で求め、英
文らしさの確信度の合計値または平均値と日本文らしさ
の確信度の合計値または平均値とを比較し、値が小さい
ほうの文字種を最終的な判定結果とする。
【0048】
【発明の効果】以上、詳細に説明した如く、本発明によ
れば、文書全体または文書の大きな領域についての大局
的な文字種識別を効率的に行なうことができ、処理に必
要なメモリ量も少なくても済むようになり、また領域分
割の前処理として文字種識別を行なうことが可能にな
る。
【0049】そして、請求項1記載の発明によれば、
縮画像に着目して、文字矩形の縦横比の分布の相違する
文字種(例えば日/英)の識別を効果的に行なうことが
できる。
【0050】請求項2記載の発明によれば、文書画像を
圧縮した場合に、文字間が融合しやすい文字種と融合し
にくい文字種との識別(例えば英/日識別)を効果的に
行なうことができる。
【0051】請求項3記載の発明によれば、縦横比がほ
ぼ1の文字種とそうでない文字種との識別(例えば日/
英識別)を効果的に行なうことができる。
【図面の簡単な説明】
【図1】本発明の各実施例に係る文字種識別装置の構成
例を示すブロック図である。
【図2】実施例1の処理フローを示すフローチャートで
ある。
【図3】実施例2の処理フローを示すフローチャートで
ある。
【図4】(a)行方向が横の横書き日本文の標準文字サ
イズの説明図である。(b)行方向が横の英文の標準文
字サイズの説明図である。(c)行方向が縦の横書き日
本文の標準文字サイズの説明図である。(d)行方向が
縦の縦書き日本文の標準文字サイズの説明図である。
(e)行方向が縦の英文の標準文字サイズの説明図であ
る。
【図5】実施例3の処理フローを示すフローチャートで
ある。
【図6】実施例4の処理フローを示すフローチャートで
ある。
【図7】実施例5の処理フローを示すフローチャートで
ある。
【図8】文字矩形間距離の測定の説明図である。
【図9】実施例6の処理フローを示すフローチャートで
ある。
【図10】(a)コラム間である可能性が高いため矩形
間距離の測定対象から除外するケースの説明図である。
(b)コラム間である可能性が低いため矩形間距離の測
定対象とするケースの説明図である。
【図11】実施例7の処理フローを示すフローチャート
である。
【図12】実施例8の処理フローの概略を示すフローチ
ャートである。
【符号の説明】
1 画像入力部 2 スキャナ 3 画像メモリ 4 画像圧縮部 5 外接矩形検出部 6 矩形メモリ 7 特徴抽出部 8 文字種判定部 9 文字種出力部 70〜72 文字矩形 90〜95 文字矩形

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 文書を読み取った画像データを圧縮して
    圧縮画像を生成する処理と、前記圧縮画像中の黒画素連
    結成分の外接矩形を抽出する処理と、前記抽出した外接
    矩形を文字矩形とそれ以外の矩形に分類する処理と、前
    記文字矩形に分類された外接矩形について、行に対して
    垂直な方向の大きさと平行な方向の大きさの比(縦横
    比)を求め、その頻度分布に基づいて前記文書の文字種
    を判別する処理とからなることを特徴とする文字種識別
    方法。
  2. 【請求項2】 文書を読み取った画像データを圧縮して
    圧縮画像を生成する処理と、前記圧縮画像中の黒画素連
    結成分の外接矩形を抽出する処理と、前記抽出された外
    接矩形から文字となり得ない大きな矩形を除いた外接矩
    形を選択する処理と、前記選択された外接矩形の行に対
    して垂直方向の大きさより文書の標準文字サイズを表わ
    す固有値を求める処理と、前記固有値をもとに、前記選
    択された外接矩形を文字矩形とそれ以外の矩形に分類す
    る処理と、前記文字矩形に分類された外接矩形につい
    て、行と平行な方向の大きさが前記固有値以下の個数を
    求め、前記個数と前記文字矩形に分類された外接矩形の
    総数との比に基づいて前記文書の文字種を判定する処理
    とからなることを特徴とする文字種識別方法。
  3. 【請求項3】 文書を読み取った画像データを圧縮して
    圧縮画像を生成する処理と、前記圧縮画像中の黒画素連
    結成分の外接矩形を抽出する処理と、前記抽出された外
    接矩形から文字となり得ない大きな矩形を除いた外接矩
    形を選択する処理と、前記選択された外接矩形の行に対
    して垂直方向の大きさより文書の標準文字サイズを表わ
    す固有値を求める処理と、前記固有値をもとに、前記選
    択された外接矩形を文字矩形とそれ以外の矩形に分類す
    る処理と、前記文字矩形に分類された外接矩形につい
    て、行と平行な方向の大きさが前記固有値のほぼ整数倍
    のものの頻度を求め、該頻度に基づいて前記文書の文字
    種を判定する処理とからなることを特徴とする文字種識
    別方法。
JP30332194A 1994-12-07 1994-12-07 文字種識別方法 Expired - Lifetime JP3384634B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP30332194A JP3384634B2 (ja) 1994-12-07 1994-12-07 文字種識別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30332194A JP3384634B2 (ja) 1994-12-07 1994-12-07 文字種識別方法

Publications (2)

Publication Number Publication Date
JPH08161430A JPH08161430A (ja) 1996-06-21
JP3384634B2 true JP3384634B2 (ja) 2003-03-10

Family

ID=17919569

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30332194A Expired - Lifetime JP3384634B2 (ja) 1994-12-07 1994-12-07 文字種識別方法

Country Status (1)

Country Link
JP (1) JP3384634B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3670934B2 (ja) * 2000-06-01 2005-07-13 三洋電機株式会社 デジタルテレビ放送受信機における文字データの表示方法
JP2005332062A (ja) * 2004-05-18 2005-12-02 Sharp Corp 画像処理装置,画像処理システム,画像処理方法,画像処理プログラム及びその画像処理プログラムが記録されたコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
JPH08161430A (ja) 1996-06-21

Similar Documents

Publication Publication Date Title
US5491760A (en) Method and apparatus for summarizing a document without document image decoding
EP0544431B1 (en) Methods and apparatus for selecting semantically significant images in a document image without decoding image content
JP3282860B2 (ja) 文書上のテキストのデジタル画像を処理する装置
Shafait et al. Table detection in heterogeneous documents
US6377704B1 (en) Method for inset detection in document layout analysis
US5369714A (en) Method and apparatus for determining the frequency of phrases in a document without document image decoding
US8645819B2 (en) Detection and extraction of elements constituting images in unstructured document files
Aradhye A generic method for determining up/down orientation of text in roman and non-roman scripts
US8155425B1 (en) Automated check detection and image cropping
EP2275974A2 (en) System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking
US20120170829A1 (en) Check Boundary Detection by String Literal Analysis
JPH07200745A (ja) 少なくとも二つのイメージセクションの比較方法
JP4280355B2 (ja) 文字認識装置
Melinda et al. Parameter-free table detection method
Tan et al. Language identification in multilingual documents
Chaudhuri et al. Extraction of type style-based meta-information from imaged documents
JP3384634B2 (ja) 文字種識別方法
JPH0773271A (ja) 領域分割方法
JP3835652B2 (ja) 文書画像の日本語英語判定方法および記録媒体
JPH0950488A (ja) 異サイズ混在文字列の読取り方法
KR100317653B1 (ko) 대용량인쇄체문자인식을위한특징추출방법
JP3197441B2 (ja) 文字認識装置
JP3220226B2 (ja) 文字列方向判別方法
JP4079333B2 (ja) 文書画像の日本語英語判定方法および記録媒体
JP3428504B2 (ja) 文字認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071227

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081227

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081227

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091227

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101227

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101227

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111227

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111227

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121227

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131227

Year of fee payment: 11

EXPY Cancellation because of completion of term