JPH05282492A - 文字サイズ抽出方法 - Google Patents
文字サイズ抽出方法Info
- Publication number
- JPH05282492A JPH05282492A JP4079469A JP7946992A JPH05282492A JP H05282492 A JPH05282492 A JP H05282492A JP 4079469 A JP4079469 A JP 4079469A JP 7946992 A JP7946992 A JP 7946992A JP H05282492 A JPH05282492 A JP H05282492A
- Authority
- JP
- Japan
- Prior art keywords
- character
- width
- height
- histogram
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Input (AREA)
Abstract
(57)【要約】
【目的】 長体・正体・平体文字において、文字切り出
しを行うための文字サイズの決定を自動的に行う。 【構成】 黒画素連結成分の外接矩形を外接矩形抽出部
2で抽出し、文字列方向と垂直に重なる外接矩形を基本
矩形作成部3で統合し、ヒストグラム作成部4で基本矩
形の幅/高さのヒストグラムを作成、これをもって、長
体・正体・平体文字を判別し、文字の幅/高さ決定部5
で文字の幅/高さを算出し、文字サイズ算出部6で文字
サイズを決定する。
しを行うための文字サイズの決定を自動的に行う。 【構成】 黒画素連結成分の外接矩形を外接矩形抽出部
2で抽出し、文字列方向と垂直に重なる外接矩形を基本
矩形作成部3で統合し、ヒストグラム作成部4で基本矩
形の幅/高さのヒストグラムを作成、これをもって、長
体・正体・平体文字を判別し、文字の幅/高さ決定部5
で文字の幅/高さを算出し、文字サイズ算出部6で文字
サイズを決定する。
Description
【0001】
【産業上の利用分野】本発明は、日本語文書をスキャナ
などの画像読み取り装置から画像データとして読み込
み、1文字ずつ認識する日本語文字認識装置における文
字切り出しを行うための文字サイズ抽出方法に関する。
などの画像読み取り装置から画像データとして読み込
み、1文字ずつ認識する日本語文字認識装置における文
字切り出しを行うための文字サイズ抽出方法に関する。
【0002】
【従来の技術】一般に、文字の幅と高さは等しいことか
ら、従来は、行を抽出し、行の幅から文字の幅、高さを
決定していた。
ら、従来は、行を抽出し、行の幅から文字の幅、高さを
決定していた。
【0003】
【発明が解決しようとする課題】しかしながら、平体文
字(正体文字を横に偏平化したもの)や長体文字(正体
文字を縦に偏平化したもの)の場合、文字の幅と高さは
等しくないので、正確に文字サイズを決定できず、あら
かじめ、マニュアルで設定する必要があった。
字(正体文字を横に偏平化したもの)や長体文字(正体
文字を縦に偏平化したもの)の場合、文字の幅と高さは
等しくないので、正確に文字サイズを決定できず、あら
かじめ、マニュアルで設定する必要があった。
【0004】本発明はこの課題を解決するもので、書体
にかかわらず、正確に文字サイズが決定できる文字サイ
ズ抽出方法の提供を目的とする。
にかかわらず、正確に文字サイズが決定できる文字サイ
ズ抽出方法の提供を目的とする。
【0005】
【課題を解決するための手段】本発明は、上記目的を達
成するため、各行において、文字列方向と垂直に重なる
外接矩形を統合し(基本矩形)、基本矩形の幅/高さに
ついてヒストグラムを作成、このヒストグラムから長体
・正体・平体文字のいずれであるかを判別し、文字の幅
/高さを算出し、文字サイズを決定する方法である。
成するため、各行において、文字列方向と垂直に重なる
外接矩形を統合し(基本矩形)、基本矩形の幅/高さに
ついてヒストグラムを作成、このヒストグラムから長体
・正体・平体文字のいずれであるかを判別し、文字の幅
/高さを算出し、文字サイズを決定する方法である。
【0006】
【作用】本発明は上記した方法において、長体・正体・
平体文字のいずれであるかを自動的に判別し、文字の幅
/高さを算出するように作用する。
平体文字のいずれであるかを自動的に判別し、文字の幅
/高さを算出するように作用する。
【0007】
【実施例】図1は、本発明の一実施例における文字サイ
ズ抽出方法を用いた装置の全体構成図である。1はスキ
ャナなどの画像読み取り装置から文書画像を入力する入
力部、2は入力された文書画像から黒画素連結成分の外
接矩形を抽出する外接矩形抽出部、3は各行において、
文字列方向と垂直に重なった外接矩形を統合する基本矩
形作成部、4は基本矩形の幅/高さについてヒストグラ
ムを作成するヒストグラム作成部、5はヒストグラムか
ら、長体・正体・平体文字の判定を行い、文字の幅/高
さを算出する文字の幅/高さ決定部、6は文字サイズを
決定する文字サイズ算出部、7は文字サイズを出力する
出力部である。
ズ抽出方法を用いた装置の全体構成図である。1はスキ
ャナなどの画像読み取り装置から文書画像を入力する入
力部、2は入力された文書画像から黒画素連結成分の外
接矩形を抽出する外接矩形抽出部、3は各行において、
文字列方向と垂直に重なった外接矩形を統合する基本矩
形作成部、4は基本矩形の幅/高さについてヒストグラ
ムを作成するヒストグラム作成部、5はヒストグラムか
ら、長体・正体・平体文字の判定を行い、文字の幅/高
さを算出する文字の幅/高さ決定部、6は文字サイズを
決定する文字サイズ算出部、7は文字サイズを出力する
出力部である。
【0008】上記構成要素よりなる装置にかける文字サ
イズ抽出方法について、図2に示す全体フローチャート
に従い説明する。
イズ抽出方法について、図2に示す全体フローチャート
に従い説明する。
【0009】s1では、文書画像を入力する。s2で
は、文書画像の黒画素連結部分の外接矩形を抽出する。
は、文書画像の黒画素連結部分の外接矩形を抽出する。
【0010】s3では、抽出された外接矩形から、行を
切り出す。s4では、文字列方向と垂直に重なった外接
矩形を統合する(基本矩形)。例として、図6aの文書
画像の最初の行がbのような場合、外接矩形,基本矩形
はc,dのようになる。
切り出す。s4では、文字列方向と垂直に重なった外接
矩形を統合する(基本矩形)。例として、図6aの文書
画像の最初の行がbのような場合、外接矩形,基本矩形
はc,dのようになる。
【0011】s5では、基本矩形の幅/高さについてヒ
ストグラムを作成する。s6では、ヒストグラムをもと
にして、長体・正体・平体文字を判別する。
ストグラムを作成する。s6では、ヒストグラムをもと
にして、長体・正体・平体文字を判別する。
【0012】s7では、文字の幅/高さを決定し、文字
サイズを算出する。s5,s6,s7については、後述
する。
サイズを算出する。s5,s6,s7については、後述
する。
【0013】次に、基本矩形の幅/高さのヒストグラム
の作成について、図3に示すフローチャートに従い説明
する。例として、図6dの行の幅,基本矩形の幅,高さ
が、図7のようなものであったとする。
の作成について、図3に示すフローチャートに従い説明
する。例として、図6dの行の幅,基本矩形の幅,高さ
が、図7のようなものであったとする。
【0014】s8では、行の幅を仮文字幅に設定する。
図7では、仮文字幅は、75となる。
図7では、仮文字幅は、75となる。
【0015】s9では、基本矩形の幅が、仮文字幅×t
h1(th=0.5)以上である場合、s10へ、そう
でない場合、s12へ移行する。これは、分離文字,半
角文字などを除くためである。図7では、仮文字幅×t
h1=75×0.5=37.5であるので、基本矩形
A,B,C,D,F,H,I,J,K,L,N,O,
P,Q,R,Uの場合、s10へ移行し、基本矩形E,
G,M,S,T,Vの場合、s12へ移行する。
h1(th=0.5)以上である場合、s10へ、そう
でない場合、s12へ移行する。これは、分離文字,半
角文字などを除くためである。図7では、仮文字幅×t
h1=75×0.5=37.5であるので、基本矩形
A,B,C,D,F,H,I,J,K,L,N,O,
P,Q,R,Uの場合、s10へ移行し、基本矩形E,
G,M,S,T,Vの場合、s12へ移行する。
【0016】s10では、基本矩形の幅/高さを算出
し、s11で、ヒストグラムにその値を加算する。ヒス
トグラムは、0.1単位とする。図7では、基本矩形A
の場合、幅/高さ=55/51=1.08で、ヒストグ
ラムの1.1のところを、+1とする。
し、s11で、ヒストグラムにその値を加算する。ヒス
トグラムは、0.1単位とする。図7では、基本矩形A
の場合、幅/高さ=55/51=1.08で、ヒストグ
ラムの1.1のところを、+1とする。
【0017】s12では、行に含まれるすべての基本矩
形について処理が終了しておれば、s13へ移行し、終
了していなければs9へ戻って次の基本矩形について処
理を繰り返す。図6dの行のすべての基本矩形について
処理が終了すると、図8aに示すようなヒストグラムが
作成される。
形について処理が終了しておれば、s13へ移行し、終
了していなければs9へ戻って次の基本矩形について処
理を繰り返す。図6dの行のすべての基本矩形について
処理が終了すると、図8aに示すようなヒストグラムが
作成される。
【0018】s13は、文書画像に含まれるすべての行
について処理が終了しておればヒストグラム作成を終了
し、そうでなければs8へ戻って次の行について処理を
繰り返す。図6aの文書画像について処理が終了し、図
8bのようなヒストグラムが作成されたものとする。
について処理が終了しておればヒストグラム作成を終了
し、そうでなければs8へ戻って次の行について処理を
繰り返す。図6aの文書画像について処理が終了し、図
8bのようなヒストグラムが作成されたものとする。
【0019】次に、長体・正体・平体文字の判定につい
て、図4に示すフローチャートに従って説明する。例と
して図8bのヒストグラムについて以下、説明する。
て、図4に示すフローチャートに従って説明する。例と
して図8bのヒストグラムについて以下、説明する。
【0020】s14では、ヒストグラムを、図9に示す
ように、5個のブロックに分割する。
ように、5個のブロックに分割する。
【0021】s15では、各ブロックについて、および
全体について、ヒストグラムの度数の総計を算出する。
図8bのヒストグラムでは、図9に示すようになる。
全体について、ヒストグラムの度数の総計を算出する。
図8bのヒストグラムでは、図9に示すようになる。
【0022】s16では、最大の度数のブロックを抽出
する。図9では、ブロック4が最大の度数となる。
する。図9では、ブロック4が最大の度数となる。
【0023】s17では、最大の度数のブロックが、長
体のブロックであれば、s18へ移行し、そうでなけれ
ば、s20へ移行する。
体のブロックであれば、s18へ移行し、そうでなけれ
ば、s20へ移行する。
【0024】s18では、正体のブロックと、平体のブ
ロックの度数の和が、全体の度数×th2(th2=
0.2)より大きければ、s19へ移行し、そうでなけ
れば、長体と判定し、終了する。図9では、全体の度数
×th2=141×0.2=28となり、最大の度数の
ブロックが長体のブロックであっても、正体のブロック
と平体のブロックの度数の和が28より、大きければ、
長体と判定しない。これは、分離文字や、半角文字が多
く含まれた文書の場合を考慮しているためである。
ロックの度数の和が、全体の度数×th2(th2=
0.2)より大きければ、s19へ移行し、そうでなけ
れば、長体と判定し、終了する。図9では、全体の度数
×th2=141×0.2=28となり、最大の度数の
ブロックが長体のブロックであっても、正体のブロック
と平体のブロックの度数の和が28より、大きければ、
長体と判定しない。これは、分離文字や、半角文字が多
く含まれた文書の場合を考慮しているためである。
【0025】s19では、正体のブロックのうち、最大
の度数のブロックを抽出し、s21へ移行する。
の度数のブロックを抽出し、s21へ移行する。
【0026】s20では、最大のブロックが、正体であ
れば、s21へ移行し、そうでなければ、平体と判定
し、終了する。
れば、s21へ移行し、そうでなければ、平体と判定
し、終了する。
【0027】s21では、平体のブロックの度数が、全
体の度数×th2より大きければ、s22へ移行し、そ
うでなければ、正体と判定し、終了する。これも、s1
8と同様であり、最大の度数のブロックが正体のブロッ
クであっても、平体のブロックの度数が28より、大き
ければ、正体と判定しない。
体の度数×th2より大きければ、s22へ移行し、そ
うでなければ、正体と判定し、終了する。これも、s1
8と同様であり、最大の度数のブロックが正体のブロッ
クであっても、平体のブロックの度数が28より、大き
ければ、正体と判定しない。
【0028】s22では、平体のブロックのうち、最大
の度数のブロックを抽出し、平体と判定し、終了する。
の度数のブロックを抽出し、平体と判定し、終了する。
【0029】次に、文字の幅/高さの決定と文字サイズ
の決定について、図5に示すフローチャートに従って、
説明する。s23では、決定したブロックに含まれる基
本矩形の幅/高さの平均と、最大高さを算出する。図6
bの行では、決定したブロックに含まれる基本矩形は
A,C,D,H,I,J,L,O,Q,Rであるので、
基本矩形の幅/高さの平均は、(1.08+1.27+
………+1.29+1.18)/11=1.24とな
る。また、基本矩形の最大高さは、66となる。
の決定について、図5に示すフローチャートに従って、
説明する。s23では、決定したブロックに含まれる基
本矩形の幅/高さの平均と、最大高さを算出する。図6
bの行では、決定したブロックに含まれる基本矩形は
A,C,D,H,I,J,L,O,Q,Rであるので、
基本矩形の幅/高さの平均は、(1.08+1.27+
………+1.29+1.18)/11=1.24とな
る。また、基本矩形の最大高さは、66となる。
【0030】s24では、文字の幅/高さを基本矩形の
幅/高さの平均に決定する。図6bの行では、文字の幅
/高さ=1.24に決定する。
幅/高さの平均に決定する。図6bの行では、文字の幅
/高さ=1.24に決定する。
【0031】s25では、文字の高さを基本矩形の最大
高さに決定する。図6bの行では、文字の高さ=66に
決定する。
高さに決定する。図6bの行では、文字の高さ=66に
決定する。
【0032】s26では、文字の幅を文字の高さ×文字
の幅/高さに決定する。図6bの行では、文字の幅66
×1.24=82となる。
の幅/高さに決定する。図6bの行では、文字の幅66
×1.24=82となる。
【0033】s27では、文書画像に含まれるすべての
行について文字サイズが決定しておれば文字サイズ決定
を終了し、そうでなければs23へ戻って次の行につい
て処理を繰り返す。
行について文字サイズが決定しておれば文字サイズ決定
を終了し、そうでなければs23へ戻って次の行につい
て処理を繰り返す。
【0034】このように本実施例によると、入力文字の
黒画素連結部の外接矩形を外接矩形抽出部で抽出し、基
本矩形作成部において基本矩形を作成し、その幅/高さ
比によってヒストグラムをヒストグラム作成部で作成
し、そのヒストグラムから長体・正体・平体文字を判別
し、文字の高さ,幅を算出し、文字サイズを決定してい
るので、書体にかかわらず正確に、自動的に文字サイズ
を決定できる。
黒画素連結部の外接矩形を外接矩形抽出部で抽出し、基
本矩形作成部において基本矩形を作成し、その幅/高さ
比によってヒストグラムをヒストグラム作成部で作成
し、そのヒストグラムから長体・正体・平体文字を判別
し、文字の高さ,幅を算出し、文字サイズを決定してい
るので、書体にかかわらず正確に、自動的に文字サイズ
を決定できる。
【0035】なお、本実施例においては横書き文書の場
合について説明したが、縦書き文書の場合でも、同様に
処理することができる。
合について説明したが、縦書き文書の場合でも、同様に
処理することができる。
【0036】
【発明の効果】以上の実施例から明らかなように本発明
によると、基本矩形の幅/高さのヒストグラムをもっ
て、長体・正体・平体文字を判別し、文字の幅/高さを
算出するため、マニュアルで設定する必要がなく、正確
に文字サイズを決定することができる文字サイズ抽出方
法を提供できる。
によると、基本矩形の幅/高さのヒストグラムをもっ
て、長体・正体・平体文字を判別し、文字の幅/高さを
算出するため、マニュアルで設定する必要がなく、正確
に文字サイズを決定することができる文字サイズ抽出方
法を提供できる。
【図1】本発明の一実施例における文字サイズ抽出方法
を用いた装置の全体構成図
を用いた装置の全体構成図
【図2】本発明の一実施例における全体フローチャート
【図3】本発明の一実施例における基本矩形の幅/高さ
のヒストグラムの作成フローチャート
のヒストグラムの作成フローチャート
【図4】本発明の一実施例における長体・正体・平体文
字の判定フローチャート
字の判定フローチャート
【図5】本発明の一実施例における文字の幅/高さの決
定と文字サイズの決定フローチャート
定と文字サイズの決定フローチャート
【図6】本発明の一実施例における文字サイズ抽出方法
を説明するための説明図
を説明するための説明図
【図7】本発明の一実施例における行の幅、基本矩形の
幅,高さの例を示す説明図
幅,高さの例を示す説明図
【図8】本発明の一実施例におけるヒストグラム
【図9】本発明の一実施例におけるヒストグラムのブロ
ックの例を示す説明図
ックの例を示す説明図
2 外接矩形抽出部 3 基本矩形作成部 4 ヒストグラム作成部 5 文字の幅/高さ決定部 6 文字サイズ算出部
Claims (1)
- 【請求項1】 入力された文書画像から黒画素連結成分
の外接矩形を抽出し、各行において文字列方向と垂直に
重なった外接矩形を統合して基本矩形を作成する前記基
本矩形の幅/高さについてヒストグラムを作成し、前記
ヒストグラムから長体・正体・平体文字のいずれである
か判別し、文字の幅/高さを決定し、文字の幅/高さか
ら文字切り出しを行うための文字サイズを算出する文字
サイズ抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4079469A JPH05282492A (ja) | 1992-04-01 | 1992-04-01 | 文字サイズ抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4079469A JPH05282492A (ja) | 1992-04-01 | 1992-04-01 | 文字サイズ抽出方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH05282492A true JPH05282492A (ja) | 1993-10-29 |
Family
ID=13690752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4079469A Pending JPH05282492A (ja) | 1992-04-01 | 1992-04-01 | 文字サイズ抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH05282492A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090245640A1 (en) * | 2008-03-31 | 2009-10-01 | Jilin Li | Image determination apparatus, image search apparatus and a recording medium on which an image search program is recorded |
JP2010039615A (ja) * | 2008-08-01 | 2010-02-18 | Hitachi Omron Terminal Solutions Corp | 文字認識方法及び文字認識装置 |
-
1992
- 1992-04-01 JP JP4079469A patent/JPH05282492A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090245640A1 (en) * | 2008-03-31 | 2009-10-01 | Jilin Li | Image determination apparatus, image search apparatus and a recording medium on which an image search program is recorded |
US8385643B2 (en) * | 2008-03-31 | 2013-02-26 | Sharp Kabushiki Kaisha | Determination of inputted image to be document or non-document |
JP2010039615A (ja) * | 2008-08-01 | 2010-02-18 | Hitachi Omron Terminal Solutions Corp | 文字認識方法及び文字認識装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2002298085A (ja) | 文字認識装置、文字認識方法、及び記録媒体 | |
JPH05282492A (ja) | 文字サイズ抽出方法 | |
JP2000090194A (ja) | 画像処理方法および画像処理装置 | |
JP3548234B2 (ja) | 文字認識方法及び装置 | |
JP2002109470A (ja) | 画像認識装置、画像認識方法、および、画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体 | |
JP3122476B2 (ja) | 自動文書清書装置 | |
JPS62165284A (ja) | 文字列抽出方式 | |
JPH05159062A (ja) | 文書認識装置 | |
JP2612383B2 (ja) | 文字認識処理方式 | |
JPH0620091A (ja) | 文字サイズ抽出方法 | |
JPH1049676A (ja) | 罫線認識方法 | |
JP3140079B2 (ja) | 罫線認識方法及び表処理方法 | |
JP3162414B2 (ja) | 罫線認識方法及び表処理方法 | |
JP3220226B2 (ja) | 文字列方向判別方法 | |
JP3157534B2 (ja) | 表認識方法 | |
JP2931041B2 (ja) | 表内文字認識方法 | |
JPH03160582A (ja) | 文書画像データに於ける罫線と文字の分離方法 | |
JPH0417086A (ja) | 文字切り出し方法 | |
JPH1049602A (ja) | 帳票認識方法 | |
JPS6327990A (ja) | 文字認識方法 | |
JPS6330980A (ja) | パタ−ン認識装置 | |
JPH0433079A (ja) | 表処理方式 | |
JPH05182025A (ja) | 文字認識装置 | |
JPH09223189A (ja) | 表処理方法および表処理装置 | |
JPH05108882A (ja) | 文字認識装置 |