JPH04266185A - 文字のライン化方式 - Google Patents

文字のライン化方式

Info

Publication number
JPH04266185A
JPH04266185A JP3027036A JP2703691A JPH04266185A JP H04266185 A JPH04266185 A JP H04266185A JP 3027036 A JP3027036 A JP 3027036A JP 2703691 A JP2703691 A JP 2703691A JP H04266185 A JPH04266185 A JP H04266185A
Authority
JP
Japan
Prior art keywords
line
block
words
word
slope
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3027036A
Other languages
English (en)
Inventor
Takayuki Furuya
古谷 隆之
Ichiro Kaneko
一郎 金子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP3027036A priority Critical patent/JPH04266185A/ja
Publication of JPH04266185A publication Critical patent/JPH04266185A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文字のライン化方式に関
し、特に文字認識装置における文字のライン化方式に関
する。
【0002】
【従来の技術】従来、紙葉類上に印字された文字を認識
するため、紙面上を走査してブロックの切り出し回路か
ら得られるブロック情報を用いてラインを検出している
。ここでブロック及びブロック情報とは以下に述べるよ
うな情報をいう。
【0003】例えば、「A」という文字は、イメージ情
報としては図6のように黒ドットの集りで表現される。 そして、このイメージを、文字切り出し回路を用いて切
り出し処理を行う。切り出し処理とは、原点0からy方
向に1ドットずつ走査していき、黒ドットが最初に現わ
れた座標(x座標及びy座標)、及び再度、白ドットに
変わる座標を記憶しておく。図6に示す「A」の場合は
、x=5,y=3及びx=5,y=7である。y方向に
対する走査が終点に達したならば(終点は任意の値が設
定される)、次は走査始点を1ドットx方向へ移動し、
y=0の点から同じようにy方向へ走査を開始する。こ
の処理を繰り返し行い、黒ドットが存在しない走査線が
検出されたとき(図6では、x=10のラインである)
、「A」という文字が切り出されたことになる。
【0004】次に、上記の処理で得られた黒ドットの始
点と終点のx座標とy座標の中から、最小のx,yであ
るxs,ys及び最大のx,yであるxl,ylを求め
る。なお、図6では最小のx,yがxs=5,ys=3
であり、最大のx,yがxl=10,yl=10である
。これらの座標を結ぶと「A」を囲む枠となり、この枠
をブロックと呼ぶ。そして、枠の座標情報(xs,ys
,xl,yl)、及び幅,高さの情報(幅:w、高さ:
H)のことをブロック情報と呼ぶ。この場合のブロック
情報は、xs=5,ys=3,xl=10,yl=10
,w=5,H=7となる。
【0005】次に、ラインを検出する前に、切り出され
たブロックの単語化が行われるが、ここで単語化とは以
下に述べる意味である。
【0006】例えば、「東京都  府中市」とあった場
合、「東京都」と「府中市」との2単語に分類すること
ができる、これをブロック情報を用いて単語の区切り(
スペース)を検出し、ブロックを単語に分類することを
単語化といっている。また、単語の第一ブロックとは、
単語分類されたブロックの一番目のブロックを示し、「
東京都  府中市」の場合には、「東」と「府」に対す
るブロックのことである。
【0007】次に、単語化されたブロックのブロック情
報を用いてラインの傾きが求められる。ここで、ライン
の傾きとは、以下に述べる意味である。
【0008】通常、紙葉類上の印字は、図7に示すよう
に、水平に印字されているが、印字誤りなどにより、図
8に示すように、斜めに印字されている場合がある。こ
のようなときの傾きをラインの傾きといい、角度θをラ
インの傾き角度という。
【0009】次に、図9に示される文字列を例に文字の
ライン化について説明する。
【0010】まず、図9に示すように、ブロックの単語
化を行って各単語の第1ブロック10a〜10cのYs
情報の総和を求め、これをYsaとする。
【0011】Ysa=Ys1 +Ys2 +Ys3  
また、各単語の最終ブロック11a〜11cのYs情報
の総和も求めこれをYsbとする。
【0012】Ysb=Ys4 +Ys5 +Ys6  
上記のYsa,Ysbの差からラインの傾きを求める。
【0013】次に、各単語の幅の平均値を計算し、この
幅の平均値とラインの傾きとから、傾き角度θを計算す
るが、このθは下記の式により求められる。
【0014】tanθ=ラインの傾き/幅の平均値次に
、各単語のY情報を、傾き角度θを考慮して、図10に
示すように、Y軸に投影した値Yw1 〜Yw3 を求
め、下記の式により△Yw1 ,△Yw2 を求める。
【0015】△Yw1 =Yw2 −Yw1    △
Yw2 =Yw3 −Yw2  これらの△Yw1 ,
△Yw2 を、下記に示した同一ラインとみなされる条
件式と照し合わせてライン化処理を行う。
【0016】△Ywi<単語の高さの平均値
【発明が解
決しようとする課題】上述した従来の文字のライン化方
式では、各単語の第1ブロックのYsの総和と最終ブロ
ックのYsの総和との差より求めたラインの傾きの値が
、ライン化の精度を左右するといってよいほど厳密に用
いられているため、例えば、単語の第1のブロックの文
字がアルファベットの大文字の「H」であり、最終ブロ
ックの文字がアルファベットの小文字の「g」である場
合には、第1のブロックのYsと最終ブロックのYsと
に多少の差が生じ、ラインの傾きがなくてもラインの傾
きがあるものと判断され、ライン化の精度をおとしてし
まうという欠点を有している。
【0017】本発明の目的は、ラインの傾きの値に多少
の誤差が生じてもライン作成には影響がなく、ライン化
の精度を向上することができる文字のライン化方式を提
供することにある。
【0018】
【課題を解決するための手段】本発明の文字のライン化
方式は、紙葉類上に印字された文字を認識するため、紙
面上を走査して切り出し回路から出力されたブロック情
報を用いてラインを検出する文字認識装置の文字のライ
ン化方式において、(A)ブロックの平均の高さを計算
するステップ、(B)計算された前記ブロックの平均の
高さを用いて単語化し、得られた単語を検出するステッ
プ、(C)単語化された前記ブロックのブロック情報を
用いてラインの傾斜角を求めるステップ、(D)前記検
出された単語とラインの傾斜角を用いてラインを検出す
るステップ、を備えて構成されている。
【0019】
【実施例】次に、本発明の実施例について図面を参照し
て説明する。
【0020】図1は、本発明の文字のライン化方式の一
実施例の動作の流れを示すフローチャートである。
【0021】まず、文字切り出し回路から出力された、
図2に示すブロック情報を入力し(ステップ1)、次に
ブロックの平均の高さを計算する(ステップ2)。この
とき、ノイズブロックなどのHsが非常に大きいもの、
また非常に小さいものは平均値の計算処理の対象とはせ
ずに、上限値と下限値とを設定し、その範囲内のHsだ
けを用いて平均値Haveを計算する。
【0022】次に、任意のブロック情報とそれ以外のブ
ロック情報とを比較して、上記で計算されたブロック情
報の高さの平均値Haveを用いてブロックを単語化し
分類する(ステップ3)。このとき、任意のブロック情
報をX1 ,Y1 ,H1 ,W1 それ以外のブロッ
ク情報をXn,Yn,Hn,Wnとした場合に、同一単
語とみなされる条件は、y方向に関しては、 Yn≦Y1   かつ  Yn≧Y1 −H1の式を満
足するか、または、 Yn−Hn≦Y1   かつ  Yn−Hn≧Y1 −
H1の式を満足し、x方向に関しては、 X1 −(Xn−Wn)<Have×βの式を満足する
ことである。なお、βは0<β≦0.75の範囲の任意
の値である。このβは処理対象のフォントによって決定
される。すなわち、文字の高さに対する単語間ギャップ
との間には、一定の相関関係がある。例えば、処理対象
のフォントをOCR−Bフォントとした場合には、β=
0.75が最適であると考えられる。これらの条件を満
足するブロック情報が検出されなかった場合は、その任
意のブロックが単語の区切りと見なされる。単語化を行
った結果が図3に示される。
【0023】次に、作成した単語を基にラインの傾きを
計算する(ステップ4)。
【0024】まず、各単語の第1ブロックのYsの総和
を求め、これをYssとする。次に、各単語の最終ブロ
ックのYsの総和を求めこれをYseとする。そして、
このYssとYseとの差よりラインの傾き(右下がり
かまたは左下がりか)を求める。以下にその条件を(1
)〜(3)式に示す。
【0025】 −10≦Yss−Yse≦10        (1)
(1)式の場合は、ラインの傾きが無いことを示す。
【0026】 Yss−Yse>10               
 (2)(2)式の場合は、右下がりであることを示す
【0027】 Yss−Yse<−10              
(3)(3)式の場合は、左下がりであることを示す。
【0028】上記のようにして、ラインの傾きが求めら
れたなら、次に任意の単語とそれ以外の単語の単語情報
とを、傾きを考慮しY座標のデータを比較していってブ
ロックのライン化を行う(ステップ5)。
【0029】図4に示すように、任意の単語のY座標デ
ータをYws1 ,Ywl1 ,Ywm1 とし、それ
以外の単語のY座標データをYws2 ,Ywl2 ,
Ywm2 として、ライン化処理を(1)式〜(3)式
の上記条件ごとに分けて説明する。
【0030】ラインの傾きが上記の条件の(1)式の場
合、二つの単語が同一ラインと見なされる条件は、Yw
s1 <Ywm2 <Ywl1 であるか、または、 Yws2 <Ywm1 <Ywl2 である。
【0031】また、ラインの傾きが上記の(2)式の場
合、二の単語が同一ラインと見なされる条件は、Yws
1 <Yws2 <Ywl1 であるか、または、 Yws2 <Ywll <Ywl2 である。
【0032】そして、ラインの傾きが上記の(3)式の
場合、二の単語が同一ラインと見なされる条件は、Yw
s1 <Ywl2 <Ywl1 であるか、または、 Yws2 <Yws1 <Ywl2 である。
【0033】このように、傾き条件に応じてこれらのY
座標のY座標データを比較し、ライン化処理を行ってい
き、ライン化を行った結果が図5に示される。
【0034】
【発明の効果】以上説明したように、本発明の文字のラ
イン化方式は、ブロックをラインに分類する手段として
ラインの傾きの値を厳密に用いずに、あくまでも傾きを
知る目安として用いることにより、ラインの傾き値に多
少の誤差が生じてもライン作成には影響がなく、ライン
化の精度を向上することができるという効果を有してい
る。
【図面の簡単な説明】
【図1】本発明の文字のライン化方式の一実施例の動作
の流れを示すフローチャートである。
【図2】本実施例の切り出し回路から得られたブロック
情報を示す図である。
【図3】図2のブロック情報を単語化した状態を示す図
である。
【図4】図3の単語情報のY座標データを示す図である
【図5】図3の単語情報をライン化した状態を示す図で
ある。
【図6】文字「A」のイメージ情報を示す図である。
【図7】紙葉類上の印字例を示す図である。
【図8】斜めに印字されている紙葉類上の印字例を示す
図である。
【図9】単語化されたブロックの状態を示す図である。
【図10】単語のY情報がY軸に投影された状態を示す
図である。
【符号の説明】
10a〜10c    第1ブロック 11a〜11c    最終ブロック

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】  紙葉類上に印字された文字を認識する
    ため、紙面上を走査して切り出し回路から出力されたブ
    ロック情報を用いてラインを検出する文字認識装置の文
    字のライン化方式において、(A)ブロックの平均の高
    さを計算するステップ、(B)計算された前記ブロック
    の平均の高さを用いて単語化し、得られた単語を検出す
    るステップ、(C)単語化された前記ブロックのブロッ
    ク情報を用いてラインの傾斜角を求めるステップ、(D
    )前記検出された単語とラインの傾斜角を用いてライン
    を検出するステップ、を備えることを特徴とする文字の
    ライン化方式。
JP3027036A 1991-02-21 1991-02-21 文字のライン化方式 Pending JPH04266185A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3027036A JPH04266185A (ja) 1991-02-21 1991-02-21 文字のライン化方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3027036A JPH04266185A (ja) 1991-02-21 1991-02-21 文字のライン化方式

Publications (1)

Publication Number Publication Date
JPH04266185A true JPH04266185A (ja) 1992-09-22

Family

ID=12209844

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3027036A Pending JPH04266185A (ja) 1991-02-21 1991-02-21 文字のライン化方式

Country Status (1)

Country Link
JP (1) JPH04266185A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8850860B2 (en) 2010-04-06 2014-10-07 Nippon Steel & Sumitomo Metal Corporation Method of controlling operation of tandem rolling mill and method of manufacturing hot-rolled steel sheet using the same

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8850860B2 (en) 2010-04-06 2014-10-07 Nippon Steel & Sumitomo Metal Corporation Method of controlling operation of tandem rolling mill and method of manufacturing hot-rolled steel sheet using the same

Similar Documents

Publication Publication Date Title
US5513304A (en) Method and apparatus for enhanced automatic determination of text line dependent parameters
US7580571B2 (en) Method and apparatus for detecting an orientation of characters in a document image
US5075895A (en) Method and apparatus for recognizing table area formed in binary image of document
JPH0713995A (ja) 自動テキスト特徴決定装置
JP2006228232A (ja) 文字分割プログラム、文字分割装置および文字分割方法
JP2005073015A (ja) 画像処理装置及び画像処理方法及びコンピュータプログラム
US20010055423A1 (en) Image processing device and program product
US7508984B2 (en) Language recognition method, system and software
US7146047B2 (en) Image processing apparatus and method generating binary image from a multilevel image
Dori et al. Segmentation and recognition of dimensioning text from engineering drawings
US7149352B2 (en) Image processing device, program product and system
JP4565396B2 (ja) 画像処理装置および画像処理プログラム
JPH04266185A (ja) 文字のライン化方式
JP3090342B2 (ja) 文字列方向判別装置
JP3796276B2 (ja) 自動テキスト特徴決定システム
JP2000090194A (ja) 画像処理方法および画像処理装置
JP4070486B2 (ja) 画像処理装置、画像処理方法及び同方法の実行に用いるプログラム
JPH0916582A (ja) 文書作成装置及び同装置に用いられる認識結果出力方法
JP4998176B2 (ja) 翻訳装置及びプログラム
US20080225340A1 (en) Image processing apparatus, image processing method, and computer program product
JPH0728935A (ja) 文書画像処理装置
JP3071479B2 (ja) 行間スペース検出方法
JP2755299B2 (ja) 画像処理方法
JP2725859B2 (ja) 文字行検出方式
JP2000155806A (ja) 文字認識方法、文字認識装置、辞書作成方法、辞書作成装置、文字品質判定方法、及び、記録媒体