JP2930605B2 - 大文字,小文字および漢字仮名類似字形文字の判別方法 - Google Patents

大文字,小文字および漢字仮名類似字形文字の判別方法

Info

Publication number
JP2930605B2
JP2930605B2 JP1196619A JP19661989A JP2930605B2 JP 2930605 B2 JP2930605 B2 JP 2930605B2 JP 1196619 A JP1196619 A JP 1196619A JP 19661989 A JP19661989 A JP 19661989A JP 2930605 B2 JP2930605 B2 JP 2930605B2
Authority
JP
Japan
Prior art keywords
character
kana
kanji
size
lowercase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1196619A
Other languages
English (en)
Other versions
JPH02224084A (ja
Inventor
泰二 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Efu Efu Shii Kk
Fuji Electric Co Ltd
Original Assignee
Efu Efu Shii Kk
Fuji Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Efu Efu Shii Kk, Fuji Electric Co Ltd filed Critical Efu Efu Shii Kk
Publication of JPH02224084A publication Critical patent/JPH02224084A/ja
Application granted granted Critical
Publication of JP2930605B2 publication Critical patent/JP2930605B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、平仮名や片仮名などの文字を認識する文
字認識装置における文字種(大文字か小文字かなど)の
判別方法に関する。なお、大文字と小文字を持つ仮名文
字の例を第6図に示す。
〔従来の技術〕
従来、例えば大文字,小文字の判別にあたっては、小
文字とするしきい値のみを設け、これを文字の外形特徴
と比較して行なうものが知られている。
〔発明が解決しようとする課題〕
しかしながら、この方法では一般に片仮名の大きさが
漢字よりも小さく、その比率は書体によっても変化す
る。このため、或る文字の大きさが或る書体では大文字
となり、別の書体では小文字となるような場合が生じ得
ると云う問題がある。
したがって、この発明の課題は大文字,小文字に別々
の判断基準を設けて判断し、また判断基準の中間の文字
については、行の中心からの文字の中心座標のずれをし
きい値にもとづき判断することにより、判別精度を向上
させることにある。
〔課題を解決するための手段〕
文字種によらず標準サイズが略同じな対象文字の大き
さを正規化し、大文字も小文字も同じ標準バターンにて
文字を認識した後、認識結果の各文字についてその外接
枠の中心座標を記憶するとともに、それが大文字と小文
字の両方をもつ文字か否かを判断し、両方をもつ文字な
らばその文字幅,文字高さおよび文字幅と文字高さを掛
け合わせたものを含む外形特徴量を求め、該外形特徴量
を文字毎に予め定められた標準文字に対して大文字,小
文字を判定するための各しきい値とそれぞれ比較して大
文字か小文字かを確定し、これらのしきい値にもとづく
確定ができないときはその文字に未確定なる情報を付与
するとともに、一行の確定作業を終了する毎に未確定文
字を含む行内の各文字の中心座標から文字行の中心線を
求め、未確定文字の中心座標と中心線の座標との差を予
め定められたしきい値と比較して判別する 〔作用〕 認識結果の文字が大文字と小文字の両方をもつ文字か
どうかを判断し、両方をもつ文字であればその文字幅,
文字高さおよびこれらを掛け合わせたものを含む外形特
徴量を、その標準文字に対する大文字とするしきい値,
小文字とするしきい値とそれぞれ比較して大文字,小文
字のいずれかとして判断(確定)し、そのいずれでもな
いもの、すなわち外形特徴量で判断できない文字につい
ては、一行の認識結果の中心座標より行の中心線を求
め、文字の中心と中心線の座標との差を予め定めたしき
い値と比較して大文字,小文字の判別を行なうことによ
り誤判別を少なくし、判別精度を向上させる。
〔実施例〕
第1図はこの発明の実施例を示すフローチャート、第
2図は横書き文字群の一例とその中心線を説明するため
の説明図である。
まず、公知の画像処理により文字画像データを抽出し
(参照)、同じく公知の手法にて対象文字を認識する
(参照)。次いで、この文字の中心座標情報を保存し
(参照)、さらに認識結果より、対象文字が大文字,
小文字の両方を持つ文字か否かを判断し(参照)、大
文字,小文字の両方を持つ文字であればその文字幅,高
さ,および幅と高さを掛けたものを求める(参照)。
次に、対象文字について予め定められている、1つ以上
のその標準文字に対して大文字とするしきい値と比較し
(参照)、その結果大文字であれば大文字と確定し
(参照)、大文字でなければ、小文字とするしきい値
と比較し(参照)、その結果小文字であれば小文字と
して確定する(参照)。一方、どちらにも確定できな
かった場合には、未確定である旨の情報を付加する(
参照)。以上のステップ〜を繰り返し、一行の認識
結果を得る(参照)。次いで、行中に未確定の文字が
あれば(参照)、行内の横書き文字の各中心座標から
公知の手法、例えば最小二乗法などを用いて行の中心線
の近似式、 Y=ax+b を求め(参照)、未確定文字のX方向中心座標XCを近
似式に代入し、第2図(ロ)に示す如きY方向の座標YL
を得る(参照)。なお、第2図の「×」印は各文字の
中心位置を示す。そして、この座標YLと未確定文字のY
方向の中心座標YCとの差(YL−YC)を求め、これを予め
定めた標準文字に対するしきい値と比較し(参照)、
その結果から大文字か小文字かを判別する(,参
照)。つまり、上記差(YL−YC)につき、小文字の場合
の方が大文字の場合よりも大きくなることを利用して判
別する。
ところで、以上では文字種によってその標準的な大き
さ(標準サイズ)が変わらないものと仮定して大文字,
小文字を判別するようにしている。しかし、印刷文書等
では文字種によって標準的な大きさが異なるものも多い
(例えば、印刷文書では漢字の方が仮名よりも一般的に
大きい)。標準サイズの例を第7図に示す。また、漢字
と仮名で字形が類似する文字(以下、漢字仮名類似字形
文字ともいう)も存在する。その一例を第8図に示す。
したがって、このような場合は以上の如き方法では対
処できないので、次のようにする。第3図はかかる場合
の方法を説明するためのフローチャートである。
まず、第1図の場合と同様に、公知の画像処理により
文字画像データを抽出し(参照)、同じく公知の手法
にて対象文字を認識する(参照)。次いで、認識結果
から得られる文字コード,おおきさを第4図に示すよう
な形式で順次記憶し(参照)、その文字コードより文
字の文字種が漢字,片仮名、平仮名、英字などに判別し
(参照)、その文字が文字種の標準サイズを持ってい
るか、または第6図に示す“や",“ゆ",“よ”のように
小文字を持つ文字か、もしくは第8図に示す“カ",
“タ”のような漢字仮名類似字形文字かを、例えば第5
図に示すような形式で予め文字コード毎に設定されてい
る属性テーブルTを参照して判断し(,参照)、小
文字を持つ文字または漢字仮名類似字形文字ならば記憶
した文字にマークを付け(参照)、その文字が標準サ
イズを持っているならば(参照)、その文字の大きさ
を文字種毎に適切な方法、例えば頻度分布計算,平均値
計算等を用いて集計し(参照)、一文書の認識結果を
得る(参照)。その集計結果より、文字種毎にその文
字種の標準サイズを、例えば頻度分布から最も頻度の高
い大きさを求めるなどして計算し(参照)、先に記憶
した文字の中からマークを付けた文字を検索し(参
照)、ステップで文字種毎に計算して求めた(確定し
た)標準サイズの、マークを付けた文字種対応の値に予
め設定された比率を乗じる等して求められるしきい値
と、実際の文字の大きさを比較して大文字か小文字かの
判別を行なう(参照)。さらに、ステップで求めた
標準サイズの漢字と平仮名,片仮名との差を予め設定さ
れたしきい値と比較して大きさが異なるか否かをチエッ
クし(参照)、異なる場合には先にマークを付けた漢
字仮名類似字形文字について、これと類似する全ての文
字に対し、例えば第5図に示すテーブルTの文字の大き
さとその文字の属する文字種の標準の大きさの比率テー
ブルに予め設定されている引率を、ステップで求めた
文字種毎の標準サイズに掛けて文字の大きさを推定し、
これと実際の文字の大きさとを比較して大きさの一番近
い文字を候補とする(参照)。上記ステップ〜を
一文書が終了するまで、繰り返す(参照)。なお、漢
字仮名類似字形文字が漢字か仮名かを判別するに当たっ
ては、その前後の文字種を判別する方法も併せて用いる
ことが望ましい。また、上記では大文字から小文字かの
判別と、漢字仮名類似字形文字が漢字か仮名かの判別と
を同時に実施するようにしているが、そのいずれか一方
のみを実施するようにしても良いことは勿論である。
〔発明の効果〕
この発明によれば、文字種によって文字の標準サイズ
が略同じ場合は、文字のサイズだけでなく文字の中心座
標も使って大文字,小文字の判別を行なうようにしたの
で、誤判別を少なくすることができ、判別精度を向上し
得る利点がもたらされる。
また、文字種によって文字の標準サイズが異なる場合
は、文字種毎に標準サイズを計算(確定)するようにし
たので、大文字,小文字および漢字仮名類似字形文字の
判別精度を向上し得る利点がもたらされる。
【図面の簡単な説明】
第1図はこの発明の一実施例を示すフローチャート、第
2図は横書き文字群の一例とその中心線を説明するため
の説明図、第3図はこの発明の他の実施例を示すフロー
チャート、第4図は認識結果の記憶態様を説明するため
の説明図、第5図は文字属性テーブルの一例を示す構成
図、第6図は大文字と小文字で字形が類似な文字の例を
説明するための説明図、第7図は文字毎の標準サイズの
例を説明するための説明図、第8図は漢字仮名類似字形
文字の例を説明するための説明図である。 符号説明 L……中心線、P1……未確定文字の中心位置、T……文
字属性テーブル。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G06K 9/46,9/62

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】文字種によらず標準サイズが略同じな対象
    文字の大きさを正規化し、大文字も小文字も同じ標準パ
    ターンにて文字を認識した後、 認識結果の各文字についてその外接枠の中心座標を記憶
    するとともに、それが大文字と小文字の両方をもつ文字
    か否かを判断し、両方をもつ文字ならばその文字幅,文
    字高さおよび文字幅と文字高さを掛け合わせたものを含
    む外形特徴量を求め、該外形特徴量を文字毎に予め定め
    られた標準文字に対して大文字,小文字を判定するため
    の各しきい値とそれぞれ比較して大文字か小文字かを確
    定し、これらのしきい値にもとづく確定ができないとき
    はその文字に未確定なる情報を付与するとともに、一行
    の確定作業を終了する毎に該未確定文字を含む行内の各
    文字の中心座標から文字行の中心線を求め、未確定文字
    の中心座標と中心線の座標との差を予め定められたしき
    い値と比較して判別することを特徴とする大文字,小文
    字の判別方法。
  2. 【請求項2】文字種によって標準サイズが異なる対象文
    字の大きさを正規化し、大文字も小文字も同じ標準パタ
    ーンにて文字を認識した後、 認識結果の各文字について文字コード、大きさを順次記
    憶しつつその文字コードから文字種を判別するととも
    に、その文字が標準サイズを持つ文字か、または類似な
    字形の小文字を持つ文字かを文字コード毎に予め設定さ
    れたテーブルを参照して判断し、小文字を持つ文字なら
    ば記憶した文字にマークを付ける一方、標準サイズを持
    つ文字の実際の大きさを文字種毎に集計して一文書の認
    識結果を得、文字種毎に計測したサイズを集計した値か
    ら頻度分布または平均値を求めて文字種毎に標準サイズ
    を確定し、先にマークを付けた文字についてその文字種
    対応の前記確定した標準サイズに所定のしきい値を設定
    して、大文字か小文字かを判別することを特徴とする大
    文字,小文字の判別方法。
  3. 【請求項3】文字種によって標準サイズが異なる対象文
    字の大きさを正規化し、大文字も小文字も同じ標準パタ
    ーンにて文字を認識した後、 認識結果の各文字について文字コード,大きさを順次記
    憶しつつその文字コードから文字種を判別するととも
    に、その文字が標準サイズを持つ文字か、または漢字と
    仮名で類似な字形を持つ文字(漢字仮名類似字形文字)
    かを文字コード毎に予め設定されたテーブルを参照して
    判断し、漢字仮名類似字形文字ならば記憶した文字にマ
    ークを付ける一方、標準サイズを持つ文字の実際の大き
    さを文字種毎に集計して一文書の認識結果を得、文字種
    毎に計測したサイズを集計した値から頻度分布または平
    均値を求めて文字種毎に標準サイズを確定し、先にマー
    クを付けた文字についてその文字種対応の前記確定した
    標準サイズに所定のしきい値を設定して、漢字仮名類似
    字形文字が漢字か仮名かを判別することを特徴とする漢
    字仮名類似字形文字の判別方法。
  4. 【請求項4】文字種によって標準サイズが異なる対象文
    字の大きさを正規化し、大文字も小文字も同じ標準パタ
    ーンにて文字を認識した後、 認識結果の各文字について文字コード,大きさを順次記
    憶しつつその文字コードから文字種を判別するととも
    に、その文字が標準サイズを持つ文字か、または類似な
    字形の小文字を持つ文字か、もしくは漢字と仮名で類似
    な字形を持つ文字(漢字仮名類似字形文字)かを文字コ
    ード毎に予め設定されたテーブルを参照して判断し、小
    文字を持つ文字または漢字仮名類似字形文字ならば記憶
    した文字にマークを付ける一方、標準サイズを持つ文字
    の実際の大きさを文字種毎に集計して一文書の認識結果
    を得、文字種毎に計測したサイズを集計した値から頻度
    分布または平均値を求めて文字種毎に標準サイズを確定
    し、先にマークを付けた文字についてその文字種対応の
    前記確定した標準サイズに所定のしきい値を設定して、
    大文字か小文字かまたは漢字仮名類似字形文字が漢字か
    仮名かを判別することを特徴とする大文字,小文字およ
    び漢字仮名類似字形文字の判別方法。
  5. 【請求項5】漢字仮名類似字形文字が漢字か仮名かを判
    別するに当たっては、前後の文字種の組み合わせも判別
    することを特徴とする請求項4)に記載の大文字,小文
    字の判別方法。
  6. 【請求項6】漢字仮名類似字形文字が漢字か仮名かを判
    別するに当たっては、前後の文字種の組み合わせも判別
    することを特徴とする請求項5)に記載の大文字,小文
    字および漢字仮名類似字形文字の判別方法。
JP1196619A 1988-11-30 1989-07-31 大文字,小文字および漢字仮名類似字形文字の判別方法 Expired - Fee Related JP2930605B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP63-300692 1988-11-30
JP30069288 1988-11-30

Publications (2)

Publication Number Publication Date
JPH02224084A JPH02224084A (ja) 1990-09-06
JP2930605B2 true JP2930605B2 (ja) 1999-08-03

Family

ID=17887928

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1196619A Expired - Fee Related JP2930605B2 (ja) 1988-11-30 1989-07-31 大文字,小文字および漢字仮名類似字形文字の判別方法

Country Status (1)

Country Link
JP (1) JP2930605B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69132789T2 (de) * 1990-05-14 2002-05-23 Canon Kk Verfahren und Gerät zur Bildverarbeitung

Also Published As

Publication number Publication date
JPH02224084A (ja) 1990-09-06

Similar Documents

Publication Publication Date Title
KR100658119B1 (ko) 문자 인식 장치 및 방법
US6178263B1 (en) Method of estimating at least one run-based font attribute of a group of characters
US6208744B1 (en) Document image processor and method for setting a document format conforming to a document image
EP0385009A1 (en) Apparatus and method for use in image processing
JP3452774B2 (ja) 文字認識方法
US20040136591A1 (en) Method and device for recognition of a handwritten pattern
JP2651009B2 (ja) 情報認識装置
EP0810542A2 (en) Bitmap comparison apparatus and method
JP2930605B2 (ja) 大文字,小文字および漢字仮名類似字形文字の判別方法
US5119441A (en) Optical character recognition apparatus and method using masks operation
JPH0423185A (ja) 自動セル属性判定機能を有する表読取装置
US7133556B1 (en) Character recognition device and method for detecting erroneously read characters, and computer readable medium to implement character recognition
JP2510722B2 (ja) 英文の大文字,小文字の判別方法
JP3213403B2 (ja) 手書き情報処理装置および手書き情報処理方法
JPH069064B2 (ja) 手書き文字認識装置
JPS62271086A (ja) パタ−ン認識装置
JP2576080B2 (ja) 文字切出し方法
JP3897999B2 (ja) 手書き文字認識方法
JP3985926B2 (ja) 文字認識方法、文字認識装置、文書画像処理システム及び記録媒体
JP2755299B2 (ja) 画像処理方法
JPH10162103A (ja) 文字認識装置
JP2972443B2 (ja) 文字認識装置
JP2851865B2 (ja) 文字認識装置
JPS62187988A (ja) 光学的文字認識方式において使用する処理手段
JPS63195783A (ja) 文字切出し方式

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090521

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees