JPH10162104A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH10162104A
JPH10162104A JP8315919A JP31591996A JPH10162104A JP H10162104 A JPH10162104 A JP H10162104A JP 8315919 A JP8315919 A JP 8315919A JP 31591996 A JP31591996 A JP 31591996A JP H10162104 A JPH10162104 A JP H10162104A
Authority
JP
Japan
Prior art keywords
character
recognition
dictionary
character recognition
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8315919A
Other languages
English (en)
Inventor
Yoshitaka Yamamoto
美貴 山本
Masato Teramoto
正人 寺本
Mitsuhisa Himaga
充寿 日間賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP8315919A priority Critical patent/JPH10162104A/ja
Publication of JPH10162104A publication Critical patent/JPH10162104A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】続け字の認識精度を向上させる文字認識装置を
提供することにある。 【解決手段】文字認識辞書17に、1文字単位の認識辞
書のほかに続け字を1つの文字パターンとする認識辞書
も登録しておき、認識プロセッサ16は、画像メモリ1
5に記憶されている帳票のイメージデータと、ワークメ
モリ14に記憶されている上記帳票のフォーマット情報
とから、上記帳票に記入された文字を上記文字認識辞書
17を利用して続け字を1つの文字パターンとして文字
認識を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、2文字以上連続し
て記入された手書き文字の認識処理に好適な文字認識装
置に関する。
【0002】
【従来の技術】従来の文字認識処理装置では、帳票上の
文字記入枠に2文字以上連続して記入された手書き文
字、いわゆる続け字を文字認識する場合、特開平7−1
92094号公報に開示されているように、続け字の連
続部分を検出する事によって切り出し位置を確定し、1
文字ずつに分離した後、1文字単位に文字認識処理を行
っている。
【0003】
【発明が解決しようとする課題】しかし、上記従来技術
では、続け字を1文字に分離する際、文字と文字が連続
した部分を完全に除去することが必要となる。例えば
「5」と「6」が連続している様な例では、連続した線
分の一部が文字を構成する線分であり、分離位置の特定
が困難になる。また1文字ずつに分離した文字の内部に
連続部分の一部が残ってしまうことによって、認識結果
が不読となる場合があり、文字認識の精度の上で問題で
あった。
【0004】本発明の目的は、続け字の認識精度を向上
させる文字認識装置を提供することにある。
【0005】
【課題を解決するための手段】上記課題を解決するため
に本発明では、文字認識辞書に2文字以上続けて記入さ
れた続け字を1つの文字パターンとして登録し、認識手
段が続け字を上記文字認識辞書に登録された上記続け字
の文字パターンにより文字認識を行うことにしたもので
ある。
【0006】
【発明の実施の形態】以下、本発明の一実施例を図面を
用いて詳細に説明する。
【0007】図1は、本発明の一実施例となる文字認識
装置の構成を示したものである。図1において、文字認
識装置1は、インターフェース制御部(以下I/F制御
部と略す)13、ワークメモリ14、画像メモリ15、
認識プロセッサ16、文字認識辞書17、制御プロセッ
サ18で構成され、各部はバスを介して接続されてい
る。本実施例において、認識されるべき手書き文字は帳
票に記入されたものとする。手書き文字が記入された帳
票はイメージスキャナやFAXなどのイメージ入力装置
11で読み取られ、上記帳票のイメージデータはイメー
ジ入力装置11から文字認識装置1に送信され、制御プ
ロセッサ18は送信された上記帳票のイメージデータを
I/F制御部13を介して画像メモリ15に記憶する制
御を行う。帳票の記入枠情報を定義したフォーマット情
報はパソコンなどの上位装置12から文字認識装置1に
送信され、制御プロセッサ18は送信されたフォーマッ
ト情報をI/F制御部13を介してワークメモリ14に
記憶する制御を行う。画像メモリ15に記憶された帳票
のイメージデータとワークメモリ14に記憶されたフォ
ーマット情報を用いて、認識プロセッサ14は、認識対
象文字列や続け字の検出、1文字分離処理等を行った
後、後述する文字認識辞書17を用いて文字認識処理を
行う。制御プロセッサ18は認識結果をワークメモリ1
4に記憶し、I/F制御部13を介して上位装置12に
転送する制御を行う。
【0008】図2は、イメージ入力装置で読み取られる
帳票の一例を示す図である。この例では、「1000
0」という数字が、「1」という数字が1文字で書か
れ、「0000」の4文字が続け字で書かれている。帳
票の記入枠情報を定義したフォーマット情報とは、図2
に示すように、文字記入枠の左上の位置を示す値X1、
Y1、文字記入枠全体の大きさX2、Y2、および1文
字分の桁幅X3からなる。なお、本実施の形態では、文
字記入枠線および桁線は非ドロップアウトカラーで印刷
されているものとする。
【0009】図3は、文字認識辞書17の登録データの
構成図を示す。文字認識辞書17は、1文字単位の特徴
量を格納した1文字単位認識辞書30、および続け字パ
ターンの特徴量を、文字の桁数に応じて作成した2文字
続け字専用認識辞書31、3文字続け字専用認識辞書3
2、‥n文字続け字専用認識辞書33からなる。ここ
で、nは帳票の最高桁数を示している。この文字認識辞
書17には、文字線分の本数、接点数、端点数、端点の
方向性などの特徴量が、認識対象となる文字種分登録さ
れている。1文字単位認識辞書30には「0」〜「9」
の数字の特徴量が登録され、2文字続け字専用認識辞書
31には例えば「0」と「0」の続け字の文字パターン
の特徴量とそれが数字「00」であるという情報、
「5」と「6」の続け字の文字パターンの特徴量とそれ
が数字「56」であるという情報、「8」と「0」の続
け字の文字パターンの特徴量とそれが数字「80」であ
るという情報がそれぞれ対になって登録され、3文字続
け字専用認識辞書32には例えば「0」と「0」と
「0」の続け字の文字パターンの特徴量とそれが数字
「000」であるという情報、「8」と「0」と「0」
の続け字の文字パターンの特徴量とそれが数字「80
0」であるという情報、「2」と「0」と「0」の続け
字の文字パターンの特徴量とそれが数字「200」であ
るという情報がそれぞれ対になって登録されている。続
け字専用認識辞書31〜33には、続け字の文字パター
ンに含まれる線分数、接点数など上記で述べた特徴量の
他に、文字と文字とを連続している線分の方向性、文字
との接続位置、接続角度、文字全体の輪郭など続け字特
有の特徴量を登録しておく。
【0010】図4は、認識プロセッサ16によるイメー
ジデータの認識処理の流れを示す。認識プロセッサ16
は、ワークメモリ14に格納されたフォーマット情報の
記入枠の位置と大きさを用いて、画像メモリ13に格納
された帳票のイメージデータ文字認識エリアの切り出し
を行う(40)。次に切り出されたエリア内に存在する
枠線と桁線をイメージ上から除去する(41)。枠線及
び桁線除去処理には、次の様な方法がある。エリア内の
イメージデータに対して、黒画素の一方向への連結成分
である黒ランを検出する黒ラン検出処理、黒ラン同志の
接続関係を求めるラベリング処理を実施することによっ
て黒画素の外接矩形を検出する。検出された外接矩形の
横幅、高さ、位置などの条件によって線分であるか否か
の判定を行い、線分を形成する黒ランをイメージデータ
より除去する。桁線を除去する際には、続け字の連続部
分を除去しない事、つまり続け字を分離させないことが
必要となる。これを実現する方法としては、続け字はX
方向に延びていることから、桁線からX方向に延びる黒
画素成分を検出することによって、桁線と続け字の重複
位置を求め、桁線除去時に重複位置の黒ランを除去しな
いようにする。
【0011】次に、ステップ41での枠線及び桁線除去
処理の際に検出した黒画素の外接矩形より、矩形サイ
ズ、記入枠内での位置からノイズ成分を判定、除去し認
識対象文字矩形を抽出する(42)。次に抽出された文
字矩形について、1矩形ごとに矩形の横幅によって1文
字であるか、何文字の続け字であるかの続け字判定を行
う(43)。この続け字数判定に用いる条件は、ワーク
メモリ14に登録されたフォーマット情報の1文字分の
桁幅X3で、この桁幅の何倍分の中にその文字パターン
が含まれるかという判定で続け字数の判定を行う。ステ
ップ43で続け字でないと判定された文字については、
1文字単位認識辞書30を選択し(45)、文字認識を
行う(46)。文字認識処理の手法の一例として、特徴
量マッチング法がある。上述したように文字認識辞書1
7には、文字線分の本数、接点数、端点数、端点の方向
性などが認識対象となる文字種分登録されているので、
認識処理では、入力された文字のイメージデータについ
て、黒画素の連続を検出することによって同様の特徴量
を算出し、辞書に登録された文字種の特徴量との比較計
算を行い、辞書に登録された文字種との差分が最小とな
った文字種を認識結果とする。
【0012】ステップ44で続け字と判定した文字につ
いては、続け字の文字数が2文字かどうかを判定し(4
7)、2文字の場合は2文字続け字専用認識辞書31を
選択し(50)、文字認識処理を行う(53)。ステッ
プ47での判定が2文字でない場合は3文字かどうかを
判定し(48)、3文字の場合は3文字続け字専用認識
辞書32を選択し(51)、文字認識処理を行う(5
3)。ステップ47での判定が3文字でない場合は‥と
判定を続け、n文字続け字専用認識辞書33を選択し
(52)、文字認識処理を行う(53)。ステップ53
で認識処理を行った結果、不読文字があった場合は(5
4)、文字矩形を1文字ごとに分離し(55)、1文字
単位認識辞書を選択して(45)、1文字ずつの文字認
識処理を行う(46)。続け字の1文字分離処理の一例
には、続け字の輪郭を検出する事によって文字と文字の
間に存在する連続部分を求め、連続部分の端点を分離位
置にする事により1文字ずつに分離する方法がある。
【0013】以上の処理をステップ42の文字矩形抽出
処理で検出した全文字矩形について行ったかどうかを判
断し(56)、全矩形について文字認識を行う。
【0014】なお、本実施の形態では、帳票に記入され
た手書き文字の文字認識処理について説明したが、これ
に限らず、手書き用のペンを用いて手書き文字入力装置
に入力された文字に対して、同様に文字認識処理を行っ
てもよい。
【0015】
【発明の効果】本発明によれば、続け字を1つの文字パ
ターンとして文字認識処理を行うことができる。
【図面の簡単な説明】
【図1】本発明の一実施例となる文字認識装置のブロッ
ク図である。
【図2】本発明の一実施例となる文字認識装置で認識処
理が行われる帳票の例を示す図である。
【図3】図1内の文字認識辞書に登録されている文字パ
ターンの例を示す図である。
【図4】図1の文字認識装置の文字認識処理の流れを示
す図である。
【符号の説明】
1:文字認識装置、11:イメージ入力装置、12:上
位装置、13:I/F制御部、14:ワークメモリ、1
5:画像メモリ、16:認識プロセッサ、17:文字認
識辞書、18:制御プロセッサ

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】1文字単位に文字を認識するための辞書を
    登録した文字認識のための第1の辞書と、該第1の辞書
    を用いて文字の認識処理を行う認識手段とを有する文字
    認識装置において、2文字以上続けて記入された続け字
    を1つの文字パターンとして認識するための第2の辞書
    を登録し、上記認識手段は続け字を上記第2の辞書に登
    録された上記続け字の辞書により文字認識を行うことを
    特徴とする文字認識装置。
  2. 【請求項2】上記文字認識装置において、上記認識手段
    は、認識すべき文字の文字矩形の横幅により続け字判定
    および続け字数検出を行い、上記文字認識辞書に登録さ
    れた該続け字数に応じた認識辞書を用いて文字認識を行
    うことを特徴とする請求項1記載の文字認識装置。
  3. 【請求項3】上記文字認識装置において、上記認識手段
    は上記続け字の辞書により文字認識を行った結果不読だ
    った場合、上記認識手段はさらに上記続け字を1文字ず
    つに切り出し、上記切り出された1文字ずつに対して上
    記文字認識辞書を用いて文字認識を行うことを特徴とす
    る請求項1または2記載の文字認識装置。
  4. 【請求項4】上記第1および第2の辞書を同一辞書上に
    構成したことを特徴とする請求項1〜3のいずれかの項
    記載の文字認識装置。
JP8315919A 1996-11-27 1996-11-27 文字認識装置 Pending JPH10162104A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8315919A JPH10162104A (ja) 1996-11-27 1996-11-27 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8315919A JPH10162104A (ja) 1996-11-27 1996-11-27 文字認識装置

Publications (1)

Publication Number Publication Date
JPH10162104A true JPH10162104A (ja) 1998-06-19

Family

ID=18071190

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8315919A Pending JPH10162104A (ja) 1996-11-27 1996-11-27 文字認識装置

Country Status (1)

Country Link
JP (1) JPH10162104A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6738519B1 (en) 1999-06-11 2004-05-18 Nec Corporation Character recognition apparatus
JP2007034812A (ja) * 2005-07-28 2007-02-08 Ricoh Co Ltd 情報処理装置、情報処理方法、情報処理プログラム、及び記録媒体
JP4787275B2 (ja) * 2005-02-28 2011-10-05 ザイ デクマ アクチボラゲット セグメント化ベースの認識

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6738519B1 (en) 1999-06-11 2004-05-18 Nec Corporation Character recognition apparatus
JP4787275B2 (ja) * 2005-02-28 2011-10-05 ザイ デクマ アクチボラゲット セグメント化ベースの認識
JP2007034812A (ja) * 2005-07-28 2007-02-08 Ricoh Co Ltd 情報処理装置、情報処理方法、情報処理プログラム、及び記録媒体

Similar Documents

Publication Publication Date Title
US6226402B1 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JPH10162104A (ja) 文字認識装置
JPH0410087A (ja) 基本ライン抽出方法
JPH02116987A (ja) 文字認識装置
JP3163698B2 (ja) 文字認識方法
JP4136257B2 (ja) 文字認識装置、文字認識方法および記憶媒体
JP2982221B2 (ja) 文字読み取り装置
JPH07160810A (ja) 文字認識装置
JP2978801B2 (ja) 手書き文字認識の文字入力方式
JP3193573B2 (ja) かぎかっこ付文字認識装置
JPH10171924A (ja) 文字認識装置
JP2520174B2 (ja) 文字自動抽出装置
JP3517077B2 (ja) パターン抽出装置及びパターン領域の切り出し方法
JPH10214308A (ja) 文字判別方法
JPH05298487A (ja) 英文字認識装置
JP3239965B2 (ja) 文字認識装置
JPH0816720A (ja) 文字認識装置
JP3027232B2 (ja) 文字認識装置
JP2888885B2 (ja) 文字切出し装置
JPH0573721A (ja) 表認識装置
JPH0632074B2 (ja) 正規化方法
JPH01124082A (ja) 文字認識装置
JPH05128305A (ja) 領域分割方法
JPH03217993A (ja) 文字サイズ認識装置