JPH05282492A - 文字サイズ抽出方法 - Google Patents

文字サイズ抽出方法

Info

Publication number
JPH05282492A
JPH05282492A JP4079469A JP7946992A JPH05282492A JP H05282492 A JPH05282492 A JP H05282492A JP 4079469 A JP4079469 A JP 4079469A JP 7946992 A JP7946992 A JP 7946992A JP H05282492 A JPH05282492 A JP H05282492A
Authority
JP
Japan
Prior art keywords
character
width
height
histogram
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4079469A
Other languages
English (en)
Inventor
Ayumi Tachibana
亜由美 橘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP4079469A priority Critical patent/JPH05282492A/ja
Publication of JPH05282492A publication Critical patent/JPH05282492A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【目的】 長体・正体・平体文字において、文字切り出
しを行うための文字サイズの決定を自動的に行う。 【構成】 黒画素連結成分の外接矩形を外接矩形抽出部
2で抽出し、文字列方向と垂直に重なる外接矩形を基本
矩形作成部3で統合し、ヒストグラム作成部4で基本矩
形の幅/高さのヒストグラムを作成、これをもって、長
体・正体・平体文字を判別し、文字の幅/高さ決定部5
で文字の幅/高さを算出し、文字サイズ算出部6で文字
サイズを決定する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、日本語文書をスキャナ
などの画像読み取り装置から画像データとして読み込
み、1文字ずつ認識する日本語文字認識装置における文
字切り出しを行うための文字サイズ抽出方法に関する。
【0002】
【従来の技術】一般に、文字の幅と高さは等しいことか
ら、従来は、行を抽出し、行の幅から文字の幅、高さを
決定していた。
【0003】
【発明が解決しようとする課題】しかしながら、平体文
字(正体文字を横に偏平化したもの)や長体文字(正体
文字を縦に偏平化したもの)の場合、文字の幅と高さは
等しくないので、正確に文字サイズを決定できず、あら
かじめ、マニュアルで設定する必要があった。
【0004】本発明はこの課題を解決するもので、書体
にかかわらず、正確に文字サイズが決定できる文字サイ
ズ抽出方法の提供を目的とする。
【0005】
【課題を解決するための手段】本発明は、上記目的を達
成するため、各行において、文字列方向と垂直に重なる
外接矩形を統合し(基本矩形)、基本矩形の幅/高さに
ついてヒストグラムを作成、このヒストグラムから長体
・正体・平体文字のいずれであるかを判別し、文字の幅
/高さを算出し、文字サイズを決定する方法である。
【0006】
【作用】本発明は上記した方法において、長体・正体・
平体文字のいずれであるかを自動的に判別し、文字の幅
/高さを算出するように作用する。
【0007】
【実施例】図1は、本発明の一実施例における文字サイ
ズ抽出方法を用いた装置の全体構成図である。1はスキ
ャナなどの画像読み取り装置から文書画像を入力する入
力部、2は入力された文書画像から黒画素連結成分の外
接矩形を抽出する外接矩形抽出部、3は各行において、
文字列方向と垂直に重なった外接矩形を統合する基本矩
形作成部、4は基本矩形の幅/高さについてヒストグラ
ムを作成するヒストグラム作成部、5はヒストグラムか
ら、長体・正体・平体文字の判定を行い、文字の幅/高
さを算出する文字の幅/高さ決定部、6は文字サイズを
決定する文字サイズ算出部、7は文字サイズを出力する
出力部である。
【0008】上記構成要素よりなる装置にかける文字サ
イズ抽出方法について、図2に示す全体フローチャート
に従い説明する。
【0009】s1では、文書画像を入力する。s2で
は、文書画像の黒画素連結部分の外接矩形を抽出する。
【0010】s3では、抽出された外接矩形から、行を
切り出す。s4では、文字列方向と垂直に重なった外接
矩形を統合する(基本矩形)。例として、図6aの文書
画像の最初の行がbのような場合、外接矩形,基本矩形
はc,dのようになる。
【0011】s5では、基本矩形の幅/高さについてヒ
ストグラムを作成する。s6では、ヒストグラムをもと
にして、長体・正体・平体文字を判別する。
【0012】s7では、文字の幅/高さを決定し、文字
サイズを算出する。s5,s6,s7については、後述
する。
【0013】次に、基本矩形の幅/高さのヒストグラム
の作成について、図3に示すフローチャートに従い説明
する。例として、図6dの行の幅,基本矩形の幅,高さ
が、図7のようなものであったとする。
【0014】s8では、行の幅を仮文字幅に設定する。
図7では、仮文字幅は、75となる。
【0015】s9では、基本矩形の幅が、仮文字幅×t
h1(th=0.5)以上である場合、s10へ、そう
でない場合、s12へ移行する。これは、分離文字,半
角文字などを除くためである。図7では、仮文字幅×t
h1=75×0.5=37.5であるので、基本矩形
A,B,C,D,F,H,I,J,K,L,N,O,
P,Q,R,Uの場合、s10へ移行し、基本矩形E,
G,M,S,T,Vの場合、s12へ移行する。
【0016】s10では、基本矩形の幅/高さを算出
し、s11で、ヒストグラムにその値を加算する。ヒス
トグラムは、0.1単位とする。図7では、基本矩形A
の場合、幅/高さ=55/51=1.08で、ヒストグ
ラムの1.1のところを、+1とする。
【0017】s12では、行に含まれるすべての基本矩
形について処理が終了しておれば、s13へ移行し、終
了していなければs9へ戻って次の基本矩形について処
理を繰り返す。図6dの行のすべての基本矩形について
処理が終了すると、図8aに示すようなヒストグラムが
作成される。
【0018】s13は、文書画像に含まれるすべての行
について処理が終了しておればヒストグラム作成を終了
し、そうでなければs8へ戻って次の行について処理を
繰り返す。図6aの文書画像について処理が終了し、図
8bのようなヒストグラムが作成されたものとする。
【0019】次に、長体・正体・平体文字の判定につい
て、図4に示すフローチャートに従って説明する。例と
して図8bのヒストグラムについて以下、説明する。
【0020】s14では、ヒストグラムを、図9に示す
ように、5個のブロックに分割する。
【0021】s15では、各ブロックについて、および
全体について、ヒストグラムの度数の総計を算出する。
図8bのヒストグラムでは、図9に示すようになる。
【0022】s16では、最大の度数のブロックを抽出
する。図9では、ブロック4が最大の度数となる。
【0023】s17では、最大の度数のブロックが、長
体のブロックであれば、s18へ移行し、そうでなけれ
ば、s20へ移行する。
【0024】s18では、正体のブロックと、平体のブ
ロックの度数の和が、全体の度数×th2(th2=
0.2)より大きければ、s19へ移行し、そうでなけ
れば、長体と判定し、終了する。図9では、全体の度数
×th2=141×0.2=28となり、最大の度数の
ブロックが長体のブロックであっても、正体のブロック
と平体のブロックの度数の和が28より、大きければ、
長体と判定しない。これは、分離文字や、半角文字が多
く含まれた文書の場合を考慮しているためである。
【0025】s19では、正体のブロックのうち、最大
の度数のブロックを抽出し、s21へ移行する。
【0026】s20では、最大のブロックが、正体であ
れば、s21へ移行し、そうでなければ、平体と判定
し、終了する。
【0027】s21では、平体のブロックの度数が、全
体の度数×th2より大きければ、s22へ移行し、そ
うでなければ、正体と判定し、終了する。これも、s1
8と同様であり、最大の度数のブロックが正体のブロッ
クであっても、平体のブロックの度数が28より、大き
ければ、正体と判定しない。
【0028】s22では、平体のブロックのうち、最大
の度数のブロックを抽出し、平体と判定し、終了する。
【0029】次に、文字の幅/高さの決定と文字サイズ
の決定について、図5に示すフローチャートに従って、
説明する。s23では、決定したブロックに含まれる基
本矩形の幅/高さの平均と、最大高さを算出する。図6
bの行では、決定したブロックに含まれる基本矩形は
A,C,D,H,I,J,L,O,Q,Rであるので、
基本矩形の幅/高さの平均は、(1.08+1.27+
………+1.29+1.18)/11=1.24とな
る。また、基本矩形の最大高さは、66となる。
【0030】s24では、文字の幅/高さを基本矩形の
幅/高さの平均に決定する。図6bの行では、文字の幅
/高さ=1.24に決定する。
【0031】s25では、文字の高さを基本矩形の最大
高さに決定する。図6bの行では、文字の高さ=66に
決定する。
【0032】s26では、文字の幅を文字の高さ×文字
の幅/高さに決定する。図6bの行では、文字の幅66
×1.24=82となる。
【0033】s27では、文書画像に含まれるすべての
行について文字サイズが決定しておれば文字サイズ決定
を終了し、そうでなければs23へ戻って次の行につい
て処理を繰り返す。
【0034】このように本実施例によると、入力文字の
黒画素連結部の外接矩形を外接矩形抽出部で抽出し、基
本矩形作成部において基本矩形を作成し、その幅/高さ
比によってヒストグラムをヒストグラム作成部で作成
し、そのヒストグラムから長体・正体・平体文字を判別
し、文字の高さ,幅を算出し、文字サイズを決定してい
るので、書体にかかわらず正確に、自動的に文字サイズ
を決定できる。
【0035】なお、本実施例においては横書き文書の場
合について説明したが、縦書き文書の場合でも、同様に
処理することができる。
【0036】
【発明の効果】以上の実施例から明らかなように本発明
によると、基本矩形の幅/高さのヒストグラムをもっ
て、長体・正体・平体文字を判別し、文字の幅/高さを
算出するため、マニュアルで設定する必要がなく、正確
に文字サイズを決定することができる文字サイズ抽出方
法を提供できる。
【図面の簡単な説明】
【図1】本発明の一実施例における文字サイズ抽出方法
を用いた装置の全体構成図
【図2】本発明の一実施例における全体フローチャート
【図3】本発明の一実施例における基本矩形の幅/高さ
のヒストグラムの作成フローチャート
【図4】本発明の一実施例における長体・正体・平体文
字の判定フローチャート
【図5】本発明の一実施例における文字の幅/高さの決
定と文字サイズの決定フローチャート
【図6】本発明の一実施例における文字サイズ抽出方法
を説明するための説明図
【図7】本発明の一実施例における行の幅、基本矩形の
幅,高さの例を示す説明図
【図8】本発明の一実施例におけるヒストグラム
【図9】本発明の一実施例におけるヒストグラムのブロ
ックの例を示す説明図
【符号の説明】
2 外接矩形抽出部 3 基本矩形作成部 4 ヒストグラム作成部 5 文字の幅/高さ決定部 6 文字サイズ算出部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 入力された文書画像から黒画素連結成分
    の外接矩形を抽出し、各行において文字列方向と垂直に
    重なった外接矩形を統合して基本矩形を作成する前記基
    本矩形の幅/高さについてヒストグラムを作成し、前記
    ヒストグラムから長体・正体・平体文字のいずれである
    か判別し、文字の幅/高さを決定し、文字の幅/高さか
    ら文字切り出しを行うための文字サイズを算出する文字
    サイズ抽出方法。
JP4079469A 1992-04-01 1992-04-01 文字サイズ抽出方法 Pending JPH05282492A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4079469A JPH05282492A (ja) 1992-04-01 1992-04-01 文字サイズ抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4079469A JPH05282492A (ja) 1992-04-01 1992-04-01 文字サイズ抽出方法

Publications (1)

Publication Number Publication Date
JPH05282492A true JPH05282492A (ja) 1993-10-29

Family

ID=13690752

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4079469A Pending JPH05282492A (ja) 1992-04-01 1992-04-01 文字サイズ抽出方法

Country Status (1)

Country Link
JP (1) JPH05282492A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090245640A1 (en) * 2008-03-31 2009-10-01 Jilin Li Image determination apparatus, image search apparatus and a recording medium on which an image search program is recorded
JP2010039615A (ja) * 2008-08-01 2010-02-18 Hitachi Omron Terminal Solutions Corp 文字認識方法及び文字認識装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090245640A1 (en) * 2008-03-31 2009-10-01 Jilin Li Image determination apparatus, image search apparatus and a recording medium on which an image search program is recorded
US8385643B2 (en) * 2008-03-31 2013-02-26 Sharp Kabushiki Kaisha Determination of inputted image to be document or non-document
JP2010039615A (ja) * 2008-08-01 2010-02-18 Hitachi Omron Terminal Solutions Corp 文字認識方法及び文字認識装置

Similar Documents

Publication Publication Date Title
JP2002298085A (ja) 文字認識装置、文字認識方法、及び記録媒体
JPH05282492A (ja) 文字サイズ抽出方法
JP2000090194A (ja) 画像処理方法および画像処理装置
JP3548234B2 (ja) 文字認識方法及び装置
JP2002109470A (ja) 画像認識装置、画像認識方法、および、画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体
JP3122476B2 (ja) 自動文書清書装置
JPS62165284A (ja) 文字列抽出方式
JPH05159062A (ja) 文書認識装置
JP2612383B2 (ja) 文字認識処理方式
JPH0620091A (ja) 文字サイズ抽出方法
JPH1049676A (ja) 罫線認識方法
JP3140079B2 (ja) 罫線認識方法及び表処理方法
JP3162414B2 (ja) 罫線認識方法及び表処理方法
JP3220226B2 (ja) 文字列方向判別方法
JP3157534B2 (ja) 表認識方法
JP2931041B2 (ja) 表内文字認識方法
JPH03160582A (ja) 文書画像データに於ける罫線と文字の分離方法
JPH0417086A (ja) 文字切り出し方法
JPH1049602A (ja) 帳票認識方法
JPS6327990A (ja) 文字認識方法
JPS6330980A (ja) パタ−ン認識装置
JPH0433079A (ja) 表処理方式
JPH05182025A (ja) 文字認識装置
JPH09223189A (ja) 表処理方法および表処理装置
JPH05108882A (ja) 文字認識装置