JPH10254997A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH10254997A
JPH10254997A JP9060826A JP6082697A JPH10254997A JP H10254997 A JPH10254997 A JP H10254997A JP 9060826 A JP9060826 A JP 9060826A JP 6082697 A JP6082697 A JP 6082697A JP H10254997 A JPH10254997 A JP H10254997A
Authority
JP
Japan
Prior art keywords
character
learning
dictionary
feature
character recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9060826A
Other languages
English (en)
Inventor
Noriyuki Osuga
典之 大須賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP9060826A priority Critical patent/JPH10254997A/ja
Publication of JPH10254997A publication Critical patent/JPH10254997A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 既に学習したことがあるコードの文字を学習
させる場合には、学習させる文字の特徴と、学習辞書に
既に登録された文字の特徴とを結合させることにより、
学習辞書のサイズを増やすことなく学習することができ
る文字認識装置を提供することである。 【解決手段】 特徴抽出部30が、誤認識した文字の特
徴を学習部50に送ると、学習部50は、学習辞書70
を参照して、学習する文字と同じコードの文字が既に学
習されているか否かを調べる。同じコードの文字が既に
学習されていれば、そのコードの文字の特徴を学習辞書
70から読み出し、学習させる文字の特徴と学習辞書7
0から読み出した文字の特徴とを結合させて、新たな特
徴を生成する。そして、学習辞書70に記憶されていた
そのコードの文字の特徴を削除し、代わりに新たに生成
された特徴を学習辞書70に記憶する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字の画像データ
を文字コードに変換する文字認識装置に関し、特に、学
習機能を有する文字認識装置に関するものである。
【0002】
【従来の技術】従来、文字の画像データから特徴を抽出
し、文字認識用辞書を参照しながら文字認識を行う文字
認識装置においては、誤認識されたデータがあった場合
に、学習によって認識率を向上させることができる。こ
のとき、従来の学習の方法としては、学習させる文字の
特徴を、文字コードに対応づけて新たに学習辞書として
登録していく方法がある。そして、文字認識の時に基本
辞書と学習辞書との両方の辞書を参照して、最適な認識
結果を求めるようにしている。
【0003】
【発明が解決しようとする課題】しかしながら、前記従
来の装置によれば、文字を学習させる度に、学習辞書に
新たに特徴が登録されていくので、どんどん学習辞書の
サイズが大きくなってしまう。例え、同じコードの文字
を何度も学習させる場合でも、その度に、学習辞書が大
きくなっていくので、文字認識装置の記憶容量が足りな
くなる恐れがあった。しかも、学習辞書のサイズが大き
くなると、文字認識自体の処理時間も遅くなってしま
う。
【0004】本発明は、上述した問題点を解決するため
になされたものであり、既に学習したことがあるコード
の文字を学習させる場合には、学習させる文字の特徴
と、学習辞書に既に登録された文字の特徴とを結合させ
ることにより、学習辞書のサイズを増やすことなく学習
することができる文字認識装置を提供することを目的と
している。
【0005】
【課題を解決するための手段】この目的を達成するため
に、本発明の請求項1に記載の文字認識装置は、文字を
画像データとして入力する入力手段と、その入力手段に
よって入力された文字から特徴を抽出する特徴抽出手段
と、その特徴抽出手段によって抽出された文字の特徴に
基づいて文字を認識して文字コードに変換する文字認識
手段と、その文字認識手段による文字認識の際に参照す
る文字認識用辞書と、個別の文字の特徴を特定のコード
に対応づけて学習する学習手段とを備えたものを対象と
して、特に、前記文字認識用辞書は、予め文字の特徴を
記憶する基本辞書と、前記学習手段により学習した文字
の特徴を記憶する学習辞書とを備え、前記学習手段は、
ある文字の特徴を特定のコードに対応づけて学習させる
ときに、そのコードと同じコードの文字の特徴が前記学
習辞書に記憶されている場合、前記学習させる文字の特
徴と、前記学習辞書に記憶された文字の特徴とを結合さ
せて、新たな特徴を生成し前記学習辞書に記憶するよう
に構成されている。
【0006】前記の構成を有する本発明の請求項1に記
載の文字認識装置によれば、入力手段から文字の画像デ
ータが入力されると、特徴抽出手段が前記入力された文
字からその特徴を抽出する。そして、文字認識手段は、
前記特徴抽出手段によって抽出された文字の特徴に基づ
き、かつ前記文字認識用辞書を参照しながら、文字認識
を行う。もし、前記文字認識手段が誤認識をした場合、
使用者が誤認識した文字の学習を指示すると、前記学習
手段は、学習する文字の特徴を特定のコードに対応づけ
て学習する。このとき、既にそのコードと同じコードの
文字の特徴が前記学習辞書に記憶されていれば、前記学
習手段は、学習させる文字の特徴と、学習辞書に記憶さ
れた文字の特徴とを結合させて、新たな特徴を生成し前
記学習辞書に記憶し直す。
【0007】また、請求項2に記載の文字認識装置は、
前記学習手段が、ある文字の特徴を特定のコードに対応
づけて学習させるときに、そのコードと同じコードの文
字の特徴が前記学習辞書に記憶されていない場合、前記
学習させる文字の特徴と、前記基本辞書に記憶された前
記コードの文字の特徴とを結合させて、新たな特徴を生
成し学習辞書に記憶させる。
【0008】さらに、請求項3に記載の文字認識装置
は、前記学習手段が、学習させる文字の特徴と、前記文
字認識用辞書に記憶された文字の特徴とを結合させると
きに、使用者によって指定された割合に応じて結合させ
る。
【0009】
【発明の実施の形態】以下に、本発明の文字認識装置を
具体化した実施の形態について図面を参照して説明す
る。
【0010】本実施の形態の文字認識装置の概略的構成
を示すブロック図を図1に示す。図1に示すように、入
力手段である光学的読み取り装置(以下、スキャナと呼
ぶ)10が文字切り出し部20に接続され、文字切り出
し部20は、特徴抽出手段である特徴抽出部30に接続
されている。特徴抽出部30は、文字認識手段である文
字認識部40、及び学習手段である学習部50に接続さ
れている。さらに、文字認識部40と学習部50とは、
それぞれ、基本辞書60と学習辞書70に接続されてい
る。なお、本発明の文字認識用辞書は、基本辞書60と
学習辞書70とによって構成されている。
【0011】前記のように構成された文字認識装置にお
いては、前記スキャナ10から画像データが入力される
と、前記文字切り出し部20が1文字毎の画像データを
切り出す。その後、特徴抽出部30が切り出された文字
の特徴を抽出する。本実施の形態の場合、文字の輪郭線
の方向成分を、その文字の特徴として抽出するようにし
ている。抽出された特徴は文字認識部40に送られ、文
字認識部40が基本辞書60及び学習辞書70を参照し
ながら文字認識を行う。このとき、文字認識部40が誤
認識をしてしまい、使用者が誤認識した文字の学習を指
示したとすると、前記特徴抽出部30が、誤認識した文
字の特徴を学習部50に送る。学習部50は、学習辞書
70を参照して、学習する文字と同じコードの文字が既
に学習されているか否かを調べる。同じコードの文字が
既に学習されていれば、そのコードの文字の特徴を学習
辞書70から読み出し、学習させる文字の特徴と学習辞
書70から読み出した特徴とを結合させて、新たな特徴
を生成する。
【0012】そして、学習辞書70に記憶されていたそ
のコードの文字の特徴を削除し、代わりに新たに生成さ
れた特徴を学習辞書70に記憶する。学習部50が、学
習辞書70を調べたときに、学習する文字と同じコード
の文字がまだ学習されていなければ、学習部50は、基
本辞書60からそのコードの文字の特徴を読み出し、学
習させる文字の特徴と基本辞書60から読み出した文字
の特徴とを結合させて、新たな特徴を生成する。そし
て、新たに生成された特徴を学習辞書70に記憶する。
【0013】次に、図2(a)に示されるように、紙に
書かれた手書きの文字を走査して読み込み、認識させる
場合の例を説明する。
【0014】前記スキャナ10で読み込んだ画像イメー
ジが図2(a)に示した通りであったとする。そこか
ら、文字切り出し部20が1文字の画像データを切り出
す。図2(a)の「ある文字を」の「あ」の文字部分を
切り出した画像イメージを図2(b)に示す。その後、
特徴抽出部30が1文字の画像データからその文字の特
徴を抽出する。本実施の形態では、文字の輪郭線の方向
成分を特徴として抽出し、その特徴を数値化して、数字
列(以下、特徴ベクトルと呼ぶ)として文字の特徴を表
す。図2(b)に示される画像データから、文字の輪郭
線の方向成分を抽出し、かつ数値化して求めた特徴ベク
トルの例を図2(c)に示す。特徴抽出部30で算出さ
れた特徴ベクトルは文字認識部40に送られ、そこで、
基本辞書60及び学習辞書70を参照しながら、文字認
識を行う。基本辞書60には、認識できる全ての文字に
対する平均的な特徴ベクトルが記憶してあり、学習辞書
70には、学習した文字に対する特徴ベクトルが記憶し
てある。基本辞書60の例を図3(a)に示し、学習辞
書70の例を図3(b)に示す。
【0015】文字認識部40は、特徴抽出部30で算出
された特徴ベクトルと、基本辞書60及び学習辞書70
に記憶された特徴ベクトルの距離を算出することによ
り、認識する文字の特徴ベクトルに最も近い特徴ベクト
ルを認識用辞書の中から探し出し、その特徴ベクトルに
対応づけられた文字コードを認識結果とする。図2及び
図3の例において、「あ」の文字を文字認識した結果、
「お」が認識結果として得られたとする。即ち、「あ」
の特徴ベクトル「2、5、10、5、‥‥」に最も近い
辞書中の特徴ベクトルが「お」の「2、6、9、7、‥
‥」であったとする。この認識結果は誤認識であるの
で、使用者が、「あ」の文字を学習することを指示した
とする。このときの学習の動作を、図4のフローチャー
トを用いて説明する。
【0016】先ず、ステップ1(以下、S1と略称す
る。他のステップも同様)で、特徴抽出部30が学習す
る文字の特徴ベクトルを学習部50に送る。図2(b)
に示される例では、図2(c)に示す「2、5、10、
5、‥‥」のベクトルを学習部50に送る。次に、S2
で、学習部50は学習する文字と同じコードの文字が既
に学習済みか否か、即ち、学習辞書70に学習する文字
と同じコードの文字の特徴ベクトルが記憶されているか
否かを調べる。学習済みであれば、S3で、学習辞書7
0からそのコードの文字の特徴ベクトルを読み出し、S
4で、学習する文字の特徴ベクトルと、学習辞書70か
ら読み出した文字の特徴ベクトルとを結合させて、新し
い特徴ベクトルを生成する。このとき、使用者の指定す
る割合に応じて、それぞれの特徴ベクトルを重み付けし
て結合させる。その後、S5で、学習辞書70から学習
する文字コードの特徴ベクトルを削除し、代わりにS4
で作成した新しい特徴ベクトルを学習辞書70に記憶す
る(S6)。これにより、既に学習済みのコードの文字
であれば、学習辞書70のサイズを増やすことなく、新
しい文字を学習することができる。
【0017】図2、図3に示される例では、S2で、
「あ」の文字が学習済みであるか否かを調べると、学習
辞書70の中身が図3(b)であるから、学習辞書70
に「あ」の特徴ベクトル「4、7、11、3、‥‥」が
記憶されているので、「あ」の文字が学習済みであるこ
とが分かる。S3において、学習辞書70から「あ」の
特徴ベクトル「4、7、11、3、‥‥」を読み出し、
S4で、学習する文字の特徴ベクトル「2、5、10、
5、‥‥」と読み出した特徴ベクトル「4、7、11、
3、‥‥」を使用者の指定した割合に応じて結合させ
る。
【0018】例えば、使用者が、学習する割合を40%
に指定したとすると、学習する文字の特徴ベクトルを
0.4倍、辞書から読み出した特徴ベクトルを(1−
0.4)倍して、それぞれの値を加え合わせる。即ち、
新しく生成される特徴ベクトルは、「2×0.4+4×
(1−0.4)、5×0.4+7×(1−0.4)、1
0×0.4+11×(1−0.4)、5×0.4+3×
(1−0.4)、‥‥」、つまり、「3.2、6.2、
10.6、3.8、‥‥」となる。小数点以下を四捨五
入すると、「3、6、11、4、‥‥」となり、これを
新しい特徴ベクトルとする。S5で、学習辞書70から
「あ」の古い特徴ベクトル「4、7、11、3、‥‥」
を削除し、S6で、「あ」の新しい特徴ベクトル「3、
6、11、4、‥‥」を記憶する。学習後の学習辞書7
0の中身を図3(c)に示す。このように学習すること
により、学習辞書70に記憶された「あ」の特徴ベクト
ルが、学習する文字から抽出された特徴ベクトルに近づ
くので、次に学習した文字と似たような形状の「あ」を
認識したときには、誤認識せずに、正しく認識される確
率が高い。
【0019】S2で、学習する文字と同じコードの文字
がまだ学習済みでなければ、S7で、基本辞書60から
そのコードの文字の特徴ベクトルを読み出す。次に、S
8で、学習する文字の特徴ベクトルと、基本辞書60か
ら読み出した特徴ベクトルを、使用者が指定した割合に
応じて結合させ、新しい特徴ベクトルを生成する。そし
て、S6で、学習辞書70に新しい特徴ベクトルを記憶
する。学習する文字の特徴ベクトルをそのまま学習辞書
70に記憶しないで、基本辞書60に記憶された特徴ベ
クトルと結合させることにより、例えば、非常に癖のあ
る文字を学習したときに、その癖を弱めて標準の文字の
形状に近づけた特徴ベクトルを学習することになる。癖
のある文字を学習すると、逆に誤認識のもとになること
があるが、前記した処理により、学習による誤認識を防
ぐことができる。
【0020】本実施の形態では、文字の特徴として、文
字の輪郭線の方向成分を数値化した特徴ベクトルを用い
たが、その他の特徴を用いて、文字認識及び学習を行っ
ても良い。また、本実施の形態では、入力手段としてス
キャナを用いたが、タブレットを用いてオンライン方式
で文字を入力する装置としても良い。
【0021】
【発明の効果】以上説明したことから明らかなように、
本発明の請求項1に記載の文字認識装置によれば、学習
する文字の特徴と学習辞書に記憶された文字の特徴とを
結合させて学習辞書に記憶し直すので、既に学習済みの
文字を新たに学習する場合に、学習辞書のサイズを増や
すことなく、学習することができる。
【0022】また、請求項2に記載の文字認識装置によ
れば、学習する文字の特徴と基本辞書に記憶された文字
の特徴とを結合させて学習するので、癖のある文字を学
習したときでも、逆に誤認識のもとになることを充分に
防ぐことができる。
【0023】さらに、請求項3に記載の文字認識装置に
よれば、使用者が学習させる割合を指定できるので、新
しく学習する文字をどの程度、学習辞書に反映させるか
を使用者が容易に決めることができる。
【図面の簡単な説明】
【図1】本発明の実施の形態の文字認識装置の概略的構
成を示すブロック図である。
【図2】文字認識を説明するための例を示す図であっ
て、(a)は、紙に書かれた手書きの文字をスキャナで
読み込んだ画像イメージを示す図、(b)は、1文字を
切り出した画像イメージを示す図、(c)は文字の特徴
ベクトルの例を示す図である。
【図3】文字認識用辞書の記憶内容の例を示す図であっ
て、(a)は、基本辞書の例を示す図、(b)は学習辞
書の例を示す図、(c)は学習後の学習辞書の例を示す
図である。
【図4】本実施の形態の学習の動作を示すフローチャー
トである。
【符号の説明】
10 スキャナ 30 特徴抽出部 40 文字認識部 50 学習部 60 基本辞書 70 学習辞書

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 文字を画像データとして入力する入力手
    段と、その入力手段によって入力された文字から特徴を
    抽出する特徴抽出手段と、その特徴抽出手段によって抽
    出された文字の特徴に基づいて文字を認識して文字コー
    ドに変換する文字認識手段と、その文字認識手段による
    文字認識の際に参照する文字認識用辞書と、個別の文字
    の特徴を特定のコードに対応づけて学習する学習手段と
    を備えた文字認識装置において、 前記文字認識用辞書は、予め文字の特徴を記憶する基本
    辞書と、前記学習手段により学習した文字の特徴を記憶
    する学習辞書とを備え、 前記学習手段は、ある文字の特徴を特定のコードに対応
    づけて学習させるときに、そのコードと同じコードの文
    字の特徴が前記学習辞書に記憶されている場合、前記学
    習させる文字の特徴と、前記学習辞書に記憶された文字
    の特徴とを結合させて、新たな特徴を生成し前記学習辞
    書に記憶するように構成されていることを特徴とする文
    字認識装置。
  2. 【請求項2】 前記学習手段は、ある文字の特徴を特定
    のコードに対応づけて学習させるときに、そのコードと
    同じコードの文字の特徴が前記学習辞書に記憶されてい
    ない場合、前記学習させる文字の特徴と、前記基本辞書
    に記憶された前記コードの文字の特徴とを結合させて、
    新たな特徴を生成し学習辞書に記憶するように構成され
    ていることを特徴とする請求項1に記載の文字認識装
    置。
  3. 【請求項3】 前記学習手段は、学習させる文字の特徴
    と、前記文字認識用辞書に記憶された文字の特徴とを結
    合させるときに、使用者によって指定された割合に応じ
    て結合させるように構成されていることを特徴とする請
    求項1または2に記載の文字認識装置。
JP9060826A 1997-03-14 1997-03-14 文字認識装置 Pending JPH10254997A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9060826A JPH10254997A (ja) 1997-03-14 1997-03-14 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9060826A JPH10254997A (ja) 1997-03-14 1997-03-14 文字認識装置

Publications (1)

Publication Number Publication Date
JPH10254997A true JPH10254997A (ja) 1998-09-25

Family

ID=13153556

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9060826A Pending JPH10254997A (ja) 1997-03-14 1997-03-14 文字認識装置

Country Status (1)

Country Link
JP (1) JPH10254997A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6950852B1 (en) 1999-01-21 2005-09-27 International Business Machines Corporation Method and system for sharing the browser

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6950852B1 (en) 1999-01-21 2005-09-27 International Business Machines Corporation Method and system for sharing the browser

Similar Documents

Publication Publication Date Title
US6950533B2 (en) Sorting images for improved data entry productivity
JP2957375B2 (ja) 文書書式のデジタル・イメージの文字認識誤りを修復するデータ処理システム及び方法
JPH01279368A (ja) キャラクタデータの転送方式
EP1300779B1 (en) Form recognition system, form recognition method, program and storage medium
JP4597644B2 (ja) 文字認識装置、プログラムおよび記録媒体
JP3099797B2 (ja) 文字認識装置
JPH0696263A (ja) パターン認識装置
JPH10254997A (ja) 文字認識装置
JPH07168913A (ja) 文字認識システム
JPH11328315A (ja) 文字認識装置
JP2001022883A (ja) 文字認識方式及び該文字認識方式の機能を実現させるための記録媒体
US20220019833A1 (en) Information processing apparatus, information processing method, and recording medium
US10515297B2 (en) Recognition device, recognition method, and computer program product
JPH11232381A (ja) 文字読取装置
JPH08180064A (ja) 文書検索方法及び文書ファイリング装置
JPH0785221A (ja) 図面自動認識装置の文字とシンボルの分離・認識方法
JPH09114926A (ja) オンライン文字認識における入力文字大分類方法および装置
JP2000132635A (ja) 認識データ確認方法
JP3591583B2 (ja) ナンバープレート認識システム及び一括辞書の作成/照合用プログラムを記録した記録媒体
JP2851865B2 (ja) 文字認識装置
JPH07104940B2 (ja) 図形認識装置
JPH0749924A (ja) 手書き文字認識装置
JPH10187884A (ja) 文字認識装置および記録媒体
JP2643092B2 (ja) 文書書式上の事前定義されたフィールドの外側に位置する標準外データを処理する方法およびシステム
JPH09223186A (ja) オンライン文字認識装置