JPH10162102A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH10162102A
JPH10162102A JP8323009A JP32300996A JPH10162102A JP H10162102 A JPH10162102 A JP H10162102A JP 8323009 A JP8323009 A JP 8323009A JP 32300996 A JP32300996 A JP 32300996A JP H10162102 A JPH10162102 A JP H10162102A
Authority
JP
Japan
Prior art keywords
character
handwritten
stroke
printed
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8323009A
Other languages
English (en)
Inventor
Shinobu Yamamoto
忍 山本
Toshio Miyazawa
利夫 宮澤
Toshihiro Suzuki
俊博 鈴木
Shiori Ooaku
志緒理 大阿久
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP8323009A priority Critical patent/JPH10162102A/ja
Publication of JPH10162102A publication Critical patent/JPH10162102A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 1文字の文字データの中から、活字または手
書き文字に応じて異なる簡単な特徴を抽出し、対象文字
が活字であるか手書き文字であるかを高精度に判定す
る。 【解決手段】 特徴抽出部4は、文字データ抽出部3で
抽出された1文字の文字データの中から、文字が活字で
あるか手書き文字であるかを判定するための特徴(文字
ストロークの方向性、太さ、直線性など)を抽出する。
文字種類判定部5は、その特徴に基いて活字であるか手
書き文字であるかを判定し、その判定結果に応じて、活
字文字認識部6、手書き文字認識部7の何れかを実行さ
せる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、対象文字が活字で
あるか手書き文字であるかを、簡単な特徴を用いて自動
的に判定し、それぞれに適した文字認識方法を適用する
ことにより、活字と手書き文字の両方を認識できる新規
な方法を開発することなく、活字と手書き文字とが混在
して記載されている文書や帳票においても高い認識精度
を得ることができる文字認識装置に関する。
【0002】
【従来の技術】現在、文書や帳票などに記載されている
文字を認識する文字認識装置が広く普及しているが、そ
の多くは活字専用であるか手書き文字専用であり、一つ
の認識方法で活字と手書き文字の両方を認識するものは
ほとんどない。
【0003】活字と手書き文字の両方を認識する装置の
多くは、活字用の文字認識処理と手書き文字用の文字認
識処理の両方を実行し、その結果を比較検討して最終的
な文字認識結果を出力している。しかし、このように、
二種類の文字認識処理を実行し、その結果を比較検討す
る方法では、処理に要する時間が長くなる。
【0004】そこで、自動的に文字が活字であるのか手
書き文字であるのかを判定し、その結果によって活字用
と手書き文字用の認識処理を選択することができれば、
処理速度の間題を解決することができる。
【0005】上記した方法を用いた従来の文字認識装置
として、例えば特開平5−189604号公報に記載さ
れた光学的文字読み取り装置がある。この装置では、活
字であるか手書き文字であるかを判定する特徴として、
数個の文字の高さの変化量を用いている。
【0006】
【発明が解決しようとする課題】しかしながら、上記し
た従来の装置では、複数の文字が存在しなければ、文字
が活字であるか手書きであるかを判定できない特徴を用
いているので、1文字しかないような帳票の欄の文字の
認識や、活字文字の並びの中の一部だけが手書き文字で
あるような文字を認識する場合に、活字であるか手書き
文字であるかの判定が難しいという問題がある。
【0007】また、活字であるか手書き文字であるかに
よる違いが現れにくい、文字の大きさを特徴として用い
ているので、例えば大きさが揃っている手書き文字を、
活字であると誤認識する可能性が高くなる。
【0008】本発明の目的は、活字と手書き文字とが混
在して記載されている文書や帳票において、1文字の文
字データの中から、活字または手書き文字に応じて異な
る簡単な特徴を抽出し、対象文字が活字であるか手書き
文字であるかを高精度に判定する文字認識装置を提供す
ることにある。
【0009】
【課題を解決するための手段】前記目的を達成するため
に、請求項1記載の発明では、文書、帳票などを画像入
力手段によって読み取って得られる文書画像データから
文字を抽出して認識する文字認識装置であって、前記文
字のストロークの方向性に関する特徴量を抽出する手段
と、該抽出された特徴量を基に前記文字が活字であるか
手書き文字であるかを判定する手段と、該判定結果に応
じた文字認識を実行する手段とを備えたことを特徴とし
ている。
【0010】請求項2記載の発明では、前記抽出される
特徴量は、文字のストロークの太さに関する特徴量であ
ることを特徴としている。
【0011】請求項3記載の発明では、前記抽出される
特徴量は、文字のストロークの直線性に関する特徴量で
あることを特徴としている。
【0012】請求項4記載の発明では、前記抽出される
特徴量は、文字のストロークの角に関する特徴量である
ことを特徴としている。
【0013】請求項5記載の発明では、文書、帳票など
を画像入力手段によって読み取って得られる文書画像デ
ータから文字を抽出して認識する文字認識装置であっ
て、請求項1〜4記載の特徴量を複数組み合わせた特徴
量を抽出する手段と、該抽出された特徴量を基に前記文
字が活字であるか手書き文字であるかを判定する手段
と、該判定結果に応じた文字認識を実行する手段とを備
えたことを特徴としている。
【0014】
【発明の実施の形態】以下、本発明の一実施例を図面を
用いて具体的に説明する。図1は、本発明の実施例の構
成を示す。本実施例は、スキャナやデジタルカメラなど
の画像入力装置を用いて文書や帳票などの画像データを
獲得する画像入力部1と、画像データのノイズ除去や傾
き補正などの前処理を実行する前処理部2と、画像デー
タから1文字ごとの文字データを抽出し、大きさの正規
化を行う文字データ抽出部3と、1文字の文字データの
中から、文字が活字であるか手書き文字であるかを判定
するための特徴を抽出する特徴抽出部4と、その特徴に
基いて文字が活字であるか手書き文字であるかを判定す
る文字種類判定部5と、文字が活字であると判定された
場合に文字認識を実行する活字文字認識部6と、文字が
手書き文字であると判定された場合に文字認識を実行す
る手書き文字認識部7と、認識結果をメモリ、ディスク
などの外部記憶装置、ディスプレイなどの表示装置、プ
リンタなどの出力装置などに出力する出力部8から構成
されている。
【0015】〈実施例1〉まず、活字と手書き文字が混
在して記載されている文書や帳票などを、画像入力部1
によって読み取り、その画像データに対して、前処理部
2はノイズ除去や傾き補正などの前処理を実行し、文字
データ抽出部3は、その画像データから、1文字ごとの
文字データを切り出し、大きさの正規化を行う。これら
画像入力部1、前処理部2、文字データ抽出部3は、公
知の技術を用いる。
【0016】図2は、活字の文字データの例を示し、図
3は、手書き文字の文字データの例を示す。次に、特徴
抽出部4は、文字データから、水平方向と垂直方向に連
続する画素の並び(ラン)を抽出する。図4は、図2の
一部を拡大して画素単位で表したものであり、図5は、
図3の一部を拡大して画素単位で表したものである。図
4、図5において、黒く塗りつぶした画素の並びが、そ
れぞれの水平方向ランの一つを表している。
【0017】このランの長さを、ランに含まれる画素の
数で表し、文字の全体にわたって水平方向ラン、垂直方
向ランの長さとランの数の分布を求める。そして、予め
定められたしきい値t1以上の長さをもつランの数とラ
ンの総数との比rを求め、ストロークの方向性に関する
特徴量とする。
【0018】通常、活字は水平方向の直線や垂直方向の
直線を含むことが多いが、手書き文字は右上がりなどの
筆記癖のために、水平方向や垂直方向の直線を書いたつ
もりでもその方向が水平方向や垂直方向からずれること
が多い。そのため、手書き文字は、活字に比べて長い水
平方向ランや長い垂直方向ランが少なくなる。
【0019】したがって、本実施例のように、長いラン
の数とランの総数との比を特徴量とすることによって、
対象文字が、活字であるか手書き文字であるかを効果的
に判定することができる。文字種類判定部5では、この
ストロークの方向性に関する特徴量rが、予め定められ
たしきい値t2より大きければ活字であると判定し、小
さければ手書き文字であると判定する。
【0020】文字種類判定部5で活字であると判定され
れば、活字文字認識部6が活字文字認識を実行し、手書
き文字であると判定されれば、手書き文字認識部7が手
書き文字認識を実行して、その認識結果を出力部8に出
力する。
【0021】〈実施例2〉実施例2では、特徴抽出部4
において、文字データ抽出部3で抽出された文字データ
から、ストロークの線の太さを抽出する。そして、文字
の全体にわたって太さのばらつきを求め、ストロークの
太さに関する特徴量とする。ばらつきを表す量として
は、例えば分散もしくは標準偏差dを用いることができ
る。
【0022】通常、活字のストロークの太さは一定値で
あることが多いが、手書き文字のストロークの太さは筆
圧の変化などの筆記癖のために、変動することが多い。
したがって、本実施例のように、ストロークの太さの分
散を特徴量とすることによって、活字であるか手書き文
字であるかを効果的に判定することができる。文字種類
判定部5は、このストロークの太さのばらつきに関する
特徴量dが予め定められたしきい値t3より小さければ
活字であると判定し、大きければ手書き文字であると判
定する。
【0023】〈実施例3〉実施例3では、特徴抽出部4
において、文字データ抽出部3で抽出された文字データ
から、公知の方法を用いてストロークの輪郭線もしくは
骨格線に対して線分による近似を行い、文字の全体にわ
たって線分の長さと数の分布を求める。そして、予め定
められたしきい値t4以上の長さをもつ線分の数と線分
の総数との比sを求め、ストロークの直線性に関する特
徴量とする。
【0024】図6は、活字文字のストロークの輪郭線に
対して、線分による近似を行った例であり、図7は、手
書き文字のストロークの輪郭線に対して、線分による近
似を行った例である。それぞれ図中の丸印は、近似した
線分の境界を表している。
【0025】通常、活字は直線を表すのが容易であるの
で、直線状のストロークには長い線分が多く含まれる。
これに対して、手書き文字では直線状のストロークを書
いても手ぶれや筆記癖のために細かく見ると曲がりがあ
るため、長い線分が少なくなる。
【0026】したがって、本実施例のように、長い線分
の数と線分の総数との比を特徴量とすることによって、
活字であるか手書き文字であるかを効果的に判定するこ
とができる。文字種類判定部5は、このストロークの直
線性に関する特徴量sが予め定められたしきい値t5よ
り大きければ活字であると判定し、小さければ手書き文
字であると判定する。
【0027】〈実施例4〉本実施例では、特徴抽出部4
において、文字データ抽出部3で抽出された文字データ
から、公知の方法を用いてストロークの交点と変曲点を
求め、ストロークのなす角度を求める。そして、文字の
全体にわたり、ストロークの交点と変曲点でのストロー
クのなす角度のばらつきを求め、ストロークの角に関す
る特徴量とする。ばらつきを表す量としては、例えば分
散もしくは標準偏差aを用いることができる。
【0028】通常、活字ではストロークの交差する角度
や折れ曲がりの角度は直角になることが多いが、手書き
文字では筆記癖のために直角からずれることが多い。し
たがって、本実施例のようにストロークの交点と変曲点
でのストロークのなす角度の標準偏差を特徴量とするこ
とによって、活字であるか手書き文字あるかを効果的に
判定することができる。文字種類判定部5は、このスト
ロークの角に関する特徴量aが予め定められたしきい値
t6より大きければ活字であると判定し、小さければ手
書き文字であると判定する。
【0029】〈実施例5〉実施例5の特徴抽出部4は、
上記した実施例1〜4の特徴量を複数組み合わせて、活
字であるか手書き文字であるかの判定を行う。特徴量を
複数組み合わせることによって、それぞれの判定ミスを
補うことができ、より効果的に活字であるか手書き文字
であるかを判定することができる。
【0030】なお、本発明は上記した実施例に限定され
るものではなく、本発明の文字認識装置は、コンピュー
タ上で動作するソフトウェアとしても実現できる。すな
わち、原稿を読み取るスキャナがコンピュータに接続さ
れ、このコンピュータは汎用の処理装置からなり、CP
U、メモリ、ハードディスク、CD−ROMドライブ、
FDドライブ、ディスプレイ、キーボードなどから構成
されている。そして、上記した各実施例で説明した本発
明の文字認識処理機能を実現するプログラムが、例えば
CD−ROMなどの記録媒体に記録されている。
【0031】
【発明の効果】以上、説明したように、請求項1記載の
発明によれば、1つの文字データから抽出された、水平
方向ランと垂直方向ランの長さと数で表された、簡単な
特徴に基いて活字であるか手書き文字であるかの判定を
行っているので、認識速度を損なうことなく、高い認識
精度で活字と手書き文字が混在する文書や帳票などにお
ける文字を認識することができる。
【0032】請求項2記載の発明によれば、1つの文字
データから抽出された、ストロークの太さのばらつきと
いう、簡単な特徴に基いて活字であるか手書き文字であ
るかの判定を行っているので、認識速度を損なうことな
く、高い認識精度で活字と手書き文字が混在する文書や
帳票などにおける文字を認識することができる。
【0033】請求項3記載の発明によれば、1つの文字
データから抽出された、ストロークを近似した線分の長
さと数で表された、簡単な特徴に基いて活字であるか手
書き文字であるかの判定を行っているので、認識速度を
損なうことなく、高い認識精度で活字と手書き文字が混
在する文書や帳票などにおける文字を認識することがで
きる。
【0034】請求項4記載の発明によれば、1つの文字
データから抽出された、ストロークの交点や変曲点での
角度のばらつきという、簡単な特徴に基いて活字である
か手書き文字であるかの判定を行っているので、認識速
度を損なうことなく、高い認識精度で活字と手書き文字
が混在する文書や帳票などにおける文字を認識すること
ができる。
【0035】請求項5記載の発明によれば、複数の特徴
量を組み合わせて判定を行っているので、判定ミスを減
少させることができ、活字と手書き文字が混在する文書
や帳票などにおける文字を高い認識精度で認識すること
ができる。
【図面の簡単な説明】
【図1】本発明の実施例の構成を示す。
【図2】活字の文字データの例を示す。
【図3】手書き文字の文字データの例を示す。
【図4】図2の一部を拡大して画素単位で表した図であ
る。
【図5】図3の一部を拡大して画素単位で表した図であ
る。
【図6】活字文字のストロークの輪郭線に対して、線分
による近似を行った例である。
【図7】手書き文字のストロークの輪郭線に対して、線
分による近似を行った例である。
【符号の説明】
1 画像入力部 2 前処理部 3 文字データ抽出部 4 特徴抽出部 5 文字種類判定部 6 活字文字認識部 7 手書き文字認識部 8 出力部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 大阿久 志緒理 東京都大田区中馬込1丁目3番6号 株式 会社リコー内

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 文書、帳票などを画像入力手段によって
    読み取って得られる文書画像データから文字を抽出して
    認識する文字認識装置であって、前記文字のストローク
    の方向性に関する特徴量を抽出する手段と、該抽出され
    た特徴量を基に前記文字が活字であるか手書き文字であ
    るかを判定する手段と、該判定結果に応じた文字認識を
    実行する手段とを備えたことを特徴とする文字認識装
    置。
  2. 【請求項2】 前記抽出される特徴量は、文字のストロ
    ークの太さに関する特徴量であることを特徴とする請求
    項1記載の文字認識装置。
  3. 【請求項3】 前記抽出される特徴量は、文字のストロ
    ークの直線性に関する特徴量であることを特徴とする請
    求項1記載の文字認識装置。
  4. 【請求項4】 前記抽出される特徴量は、文字のストロ
    ークの角に関する特徴量であることを特徴とする請求項
    1記載の文字認識装置。
  5. 【請求項5】 文書、帳票などを画像入力手段によって
    読み取って得られる文書画像データから文字を抽出して
    認識する文字認識装置であって、請求項1〜4記載の特
    徴量を複数組み合わせた特徴量を抽出する手段と、該抽
    出された特徴量を基に前記文字が活字であるか手書き文
    字であるかを判定する手段と、該判定結果に応じた文字
    認識を実行する手段とを備えたことを特徴とする文字認
    識装置。
JP8323009A 1996-12-03 1996-12-03 文字認識装置 Pending JPH10162102A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8323009A JPH10162102A (ja) 1996-12-03 1996-12-03 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8323009A JPH10162102A (ja) 1996-12-03 1996-12-03 文字認識装置

Publications (1)

Publication Number Publication Date
JPH10162102A true JPH10162102A (ja) 1998-06-19

Family

ID=18150122

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8323009A Pending JPH10162102A (ja) 1996-12-03 1996-12-03 文字認識装置

Country Status (1)

Country Link
JP (1) JPH10162102A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6643401B1 (en) 1998-12-16 2003-11-04 Fujitsu Limited Apparatus and method for recognizing character
US6778712B1 (en) 1999-12-20 2004-08-17 Fujitsu Limited Data sheet identification device
CN100428271C (zh) * 2005-09-22 2008-10-22 夏普株式会社 图像判定方法、图像处理装置以及图像输出装置
JP2012022359A (ja) * 2010-07-12 2012-02-02 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
US8189921B2 (en) 2008-03-31 2012-05-29 Fujitsu Frontech Limited Character recognition device
CN104346631A (zh) * 2013-07-30 2015-02-11 夏普株式会社 图像判别方法、图像处理装置以及图像输出装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6643401B1 (en) 1998-12-16 2003-11-04 Fujitsu Limited Apparatus and method for recognizing character
KR100658119B1 (ko) * 1998-12-16 2006-12-15 후지쯔 가부시끼가이샤 문자 인식 장치 및 방법
US6778712B1 (en) 1999-12-20 2004-08-17 Fujitsu Limited Data sheet identification device
CN100428271C (zh) * 2005-09-22 2008-10-22 夏普株式会社 图像判定方法、图像处理装置以及图像输出装置
US7991231B2 (en) 2005-09-22 2011-08-02 Sharp Kabushiki Kaisha Method and apparatus for determining whether image characters or graphics are handwritten
US8189921B2 (en) 2008-03-31 2012-05-29 Fujitsu Frontech Limited Character recognition device
JP2012022359A (ja) * 2010-07-12 2012-02-02 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
CN104346631A (zh) * 2013-07-30 2015-02-11 夏普株式会社 图像判别方法、图像处理装置以及图像输出装置

Similar Documents

Publication Publication Date Title
JP3343864B2 (ja) 語体の分離方法
US5539841A (en) Method for comparing image sections to determine similarity therebetween
US5410611A (en) Method for identifying word bounding boxes in text
JP3576570B2 (ja) 比較方法
US7054485B2 (en) Image processing method, apparatus and system
US7580571B2 (en) Method and apparatus for detecting an orientation of characters in a document image
JPH05282490A (ja) 語形形成方法
JPH01253077A (ja) 文字列検出方法
EP0482187A1 (en) Row-by-row segmentation and thresholding for optical character recognition (system and method)
US20030118211A1 (en) Watermark information extraction apparatus and method of controlling thereof
JPH10116340A (ja) ビットマップ比較装置及び方法
US6266445B1 (en) Classification-driven thresholding of a normalized grayscale image
JPH10162102A (ja) 文字認識装置
JPH10307889A (ja) 文字認識方法、装置及び文字認識プログラムを記録した記録媒体
JP3006466B2 (ja) 文字入力装置
AU2005209704A1 (en) Method and Apparatus for Analysing Connected Components
JP3090342B2 (ja) 文字列方向判別装置
JP4001446B2 (ja) 画像背景色特定のための方法、装置及びコンピュータ読み取り可能な記録媒体
JP2001022883A (ja) 文字認識方式及び該文字認識方式の機能を実現させるための記録媒体
JP4070486B2 (ja) 画像処理装置、画像処理方法及び同方法の実行に用いるプログラム
JP3883993B2 (ja) 画像処理装置、方法およびプログラム
JPH08237404A (ja) 光学文字認識モードの選択方法
JP2867531B2 (ja) 文字サイズ認識装置
JP4011859B2 (ja) 単語画像正規化装置,単語画像正規化プログラム記録媒体および単語画像正規化プログラム
JP3285837B2 (ja) 文字列の切り出し装置および方法