JP2611904B2 - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JP2611904B2
JP2611904B2 JP4279922A JP27992292A JP2611904B2 JP 2611904 B2 JP2611904 B2 JP 2611904B2 JP 4279922 A JP4279922 A JP 4279922A JP 27992292 A JP27992292 A JP 27992292A JP 2611904 B2 JP2611904 B2 JP 2611904B2
Authority
JP
Japan
Prior art keywords
character
recognition
candidate
input
variation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP4279922A
Other languages
English (en)
Other versions
JPH06131500A (ja
Inventor
道博 長石
Original Assignee
株式会社エイ・ティ・アール視聴覚機構研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール視聴覚機構研究所 filed Critical 株式会社エイ・ティ・アール視聴覚機構研究所
Priority to JP4279922A priority Critical patent/JP2611904B2/ja
Priority to DE69331035T priority patent/DE69331035T2/de
Priority to EP93105671A priority patent/EP0593844B1/en
Publication of JPH06131500A publication Critical patent/JPH06131500A/ja
Priority to US08/665,974 priority patent/US6219449B1/en
Application granted granted Critical
Publication of JP2611904B2 publication Critical patent/JP2611904B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は文字認識装置に関し、
特に、手書き文字を入力し、その文字データを認識して
結果を出力するような文字認識装置に関する。
【0002】
【従来の技術】図8は従来の文字認識装置の概略ブロッ
ク図である。図8において、入力手段1は手書き文字を
入力して電子化するものであり、入力された文字データ
は認識手段2に与えられる。認識手段2は認識のための
必要な情報などを有し、入力手段1から与えられた文字
データを認識する。入力手段1と認識手段2の結果や状
態は出力手段3に与えられて必要な情報が表示される。
【0003】ところで、図8に示した従来の文字認識装
置において手書き文字を認識する場合、一般に手書き文
字は大きな変形や省略などがあるために高い認識率を得
ることは困難である。そこで、従来の文字認識装置で
は、誤認識が起こりやすい文字に対しての認識用辞書を
改良するなど、認識方法自体の工夫がなされているが、
さらに高い認識率を達成するために、認識結果以外の手
段を使って認識結果を補う必要がある。
【0004】その代表的な方法として、文法的な知識を
用いて得られた認識結果を文法的に意味を確認して、修
正する方法がある。これは、文法に関する辞書に基づい
て知識的な処理を行なうものであり、認識の結果得られ
た複数の候補文字を適当に組合わせることにより、熟語
や句などの単位として、文法的な意味が適切な文字の組
合わせを探し出すものである。
【0005】
【発明が解決しようとする課題】しかしながら、文法的
な意味が適切な組合わせを得るには、文法に関する膨大
な知識を用いて、多数の文字の組合わせについての検討
を行なう必要がある。一方、得られた候補文字はすべて
同じに重み付けられたものとして扱っている。特に、手
書き文字を認識した場合は、認識結果の信頼性が低く、
文字によって認識結果の第1候補でも、実際にはその信
頼度は大きく異なる可能性が大きい。したがって、認識
の結果得られた複数の文字候補を単純に候補順に組合わ
せているだけでは、文法的な意味が適切な組合わせを得
るには、多数の組合せについての検討と膨大な時間が必
要になるという欠点があった。
【0006】それゆえに、この発明の主たる目的は、文
法的な意味が適切である認識候補文字の組合わせを、少
ない組合わせ数で効率的に得ることができるような文字
認識装置を提供することである。
【0007】
【課題を解決するための手段】この発明は文字データを
入力して電子化するための入力手段と、認識するために
必要な情報を有し、入力された文字データを認識する認
識手段と、入力手段と認識手段の結果や状態を表示する
出力手段とを備えた文字認識装置において、入力された
文字データ列における各文字の相対位置から入力された
文字の文字変動を予測し、予測された文字変動量の大き
さに基づいた認識結果の優先度に従って文字認識を行な
うように構成される。
【0008】
【作用】この発明に係る文字認識装置は、入力された文
字データ列における文字の相対位置から入力された文字
の文字変動を予測し、予測された文字変動量の大きさ入
に基づいた認識結果の優先度に従って文字認識をするこ
とにより、文法的な意味が適切である認識候補文字の組
合せを、少ない組合せ数で効率的に得ることができる。
【0009】
【実施例】まず、この発明の実施例について説明する前
に、この発明の原理について説明する。
【0010】図6は文書中における文字の位置について
示した図であり、図7はある文字列の個々の文字に対す
る文字変動を説明するための図である。
【0011】まず、文書内における文字の筆記位置と変
動の大きさの間にある関係について説明する。ここで、
文字の位置を表わす言葉として、文中・文頭・文末を用
いるものとする。図6(a)は文中にある文字の例を示
すものであり、文字列10および11中に存在する文字
12および13、すなわち「食」は、その両側にその文
字自身以外の文字が存在しているので、文字「食」は文
中にあるといえる。
【0012】図6(b)は文頭・文末にある文字の例を
示すものである。文字列14中に存在する文字16は、
その文字自身の右側のみに他の文字が存在するので文頭
にあるといい、文字列15中に存在する文字17は、そ
の文字自身の左側のみに他の文字が存在するので文末に
あるという。
【0013】なお、ここで用いている「文」は、一般的
な文のほかに、単語,熟語,句,節などの意味的な単位
をすべて含んだものを指しているものとする。文書内の
位置を考える場合に、この「文」を基準に考えるものと
する。
【0014】次に、ある文字列の個々の文字に対する文
字変動を図7を参照して説明する。文字は文頭や文末に
ある場合は文字変動が大きくなり、文中にある場合は文
字変動が小さくなるというように、文書内の筆記位置と
文字変動には相関がある。そこで、手書き文字のサンプ
ルを多数収集して、その傾向を統計分析し、文のどこに
書かれた場合にどれくらいの文字変動が生じるのかデー
タベースを作成することができる。今、ある任意の文字
20から23を含む文字列に対して、各文字の文におけ
る位置から、このようにして得たデータベースをもとに
それぞれの文字についての変動を、図7に示されたグラ
フのように予測することが可能である。図7の例では、
文頭の文字20や文末の文字23の文字変動が、文中の
文字21,22に比べて大きくなっている。
【0015】一般に、文字変動が小さい文字の認識率は
高いので、このように予測された文字変動が小さい文字
の認識結果を重視し、逆に文字変動が大きいと予測され
た文字の認識結果を軽視するような知識処理を行なえ
ば、文としての文法的な意味の妥当性を検討する場合、
正しい結果を得ることが容易になる。
【0016】以下、この発明の文字認識装置の実施例に
ついて説明する。図1はこの発明の一実施例の概略ブロ
ック図である。この図1に示した文字認識装置は、前述
の図8に示した入力手段1と認識手段2との間に優先度
処理手段5を接続し、この優先度処理手段5に記憶手段
4を接続して構成される。優先度処理手段5は、入力手
段1から入力された入力文字が筆記された際の文書内の
位置から入力した文字の文字変動を予測し、予測された
文字変動量の大きさに基づいた認識結果の優先度を決定
するものである。この優先度処理手段5による認識結果
の優先度を決定するのに必要な情報は記憶手段4に記憶
されている。
【0017】図2はこの発明の一実施例の一般的な電気
的構成を示す図である。図2において、CPU30は図
1に示した優先度処理手段5と認識手段2による認識処
理を実行するものであり、認識する文字データや認識過
程のデータなどは一時的にRAM31に記憶され、認識
に必要なデータベースなどはROM32に記憶されてい
る。
【0018】図3はこの発明の一実施例の動作を説明す
るためのフローチャートである。次に、図1〜図3を参
照して、この発明の一実施例の具体的な動作について説
明する。入力手段1から手書き文字が入力されると、C
PU30はステップ(図示ではSPと略称する)SP1
において、認識の結果得られた複数の候補文字から単語
を作成する。CPU30はステップSP2において、作
成された単語の意味を、ROM32にある文法的な意味
の検討に関するデータベースを用いて文法的な意味を調
べ、適切な単語であれば処理を終了する。もし、適切で
ない場合は、ステップSP3において、先ほどとは別の
候補文字を新たに選択し、別の単語を作成して再び文法
的な意味の検討を行なう。このように、適切な組合わせ
が得られるまで、複数の候補文字から単語を作成するご
とに意味の確認を継続する。
【0019】次に、認識の結果、得られた複数の候補文
字から単語を作成する手順について図4および図5を参
照して説明する。
【0020】図4は入力した文字列とその認識結果の一
例を示す図である。図4において、入力文字列50は
「日」「本」「人」「の」「食」の文字から構成されて
おり、それぞれの入力文字に対して認識結果の信頼度が
高い順に第1候補から第3候補まで得られている。候補
文字群51は入力文字「日」,候補文字群52は入力文
字「本」,候補文字群53は入力文字「人」,候補文字
群54は入力文字「の」,候補文字群55は入力文字
「食」に対して得られた第1候補から第3候補の3種類
の文字からなる文字群である。
【0021】今、候補文字群51から55までのうち
の、各候補文字群の中の第1候補文字、すなわち入力文
字「日」に対する第1候補文字56である「目」,入力
文字「本」に対する第1候補文字57である「本」,入
力文字「人」に対する第1候補文字58である「人」,
入力文字「の」に対する第1候補文字59である
「○」,入力文字「食」に対する第1候補文字60であ
る「食」から単語を構成すると、「目本人○食」となっ
て文法的意味が不適切である。したがって、各候補文字
群の第1候補以外の文字も用いて他の単語を構成して文
法的な意味の確認を行なう必要がある。
【0022】図5は図4の認識結果に対して、予測した
変動をもとに重み付けした候補文字群を示した図であ
る。文字の変動は、その文字が文書中でどのような位置
にあったか(文頭,文末,文中など)に基づいて、どの
位置に文字があった場合どのくらいの文字変動が生じる
のかというデータベースを予めROM32に記憶させて
おき、このデータと照合,判断することで文字の変動の
大きさを推定する。そして、文字変動の大きさに応じて
候補文字群51から55を重み付けし、新しい候補文字
群70から74を得る。図5の候補文字群70から74
の紙面に対して上下方向は、予測された文字変動の大き
さを示し、上方向は変動が小さく、下方向は変動が大き
いことを示している。予測される変動の大きさは、たと
えば、入力文字「日」に対する重み付けられた候補文字
群70は、入力文字「日」が文頭にあるために大きくな
っている。また、入力文字「本」「人」「の」は文中に
あるために、それぞれに対する重み付けられた候補文字
群71,72,73の変動は小さくなっている。
【0023】このように重み付けられた候補文字群70
から74より単語を作成する手順について説明する。予
測された文字変動が小さい文字は、得られた認識結果の
信頼性が高く、一方、予測された文字変動が大きい文字
は得られた認識結果の信頼性が低いので、複数の候補文
字から単語を作成する場合は、文字変動の小さいと予測
された文字の候補文字を優先した単語を作成する。以
下、入力文字列「日本人」の例を説明する。
【0024】まず、一番文字変動が小さいと予測された
入力文字「本」に対する第1候補78「本」と、次に文
字変動が小さいと予測された入力文字「人」に対する第
1候補79「人」を固定して、入力文字「日」の第1候
補75「目」,第2候補76「口」,第3候補77
「日」を順に組合わせて、次のような文字列を得る。す
なわち、「目本人」,「口本人」,「日本人」である。
【0025】次に、入力文字「本」に対する第1候補7
8「本」と、入力文字「人」に対する第2候補80
「入」を固定して、入力文字「日」の第1候補75
「目」,第2候補76「口」,第3候補77「日」を順
に組合わせて、同様にして文字列「目本入」,「口本
入」,「日本入」を得る。つまり、作成される単語が、
予測された文字変動が小さく認識結果の信頼度が高い候
補文字を優先して固定し、予測された文字変動が大き
く、認識結果の信頼度が低い候補文字を先に変更するこ
とで得られる。そして、このような順序に従って単語が
作成されるごとに文法的な意味の確認を行なう。したが
って、このような順序で得られた複数の単語において、
比較的初めに得られた単語に、文法的な意味が適切な単
語が含まれている可能性が、単に認識候補文字から単語
を作成する場合に比べて高くなるので、検討すべき単語
の数と、検討に要する時間を短縮することが可能とな
る。
【0026】
【発明の効果】以上のように、この発明によれば、認識
の結果得られた複数の候補文字から文法的な意味が適切
な単語を検討する際に、文字が筆記された際の文書内の
位置から文字変動を予測し、予測された文字変動の大き
さに応じた認識結果の信頼度に基づいて単語の組合わせ
を作成し、文法的な意味の検討を行なうようにしたの
で、検討すべき単語数と検討時間を短縮することができ
る。
【0027】また、認識結果の信頼度が予測さるので、
仮に認識結果の候補文字群の中に正しい文字が含まれて
いなくても、信頼度の高い文字の認識結果を重視し、実
際に存在する単語から正しい単語を高い確率で見つける
ことができる。
【図面の簡単な説明】
【図1】この発明の一実施例の概略ブロック図である。
【図2】この発明の文字認識装置の電気回路図である。
【図3】この発明の一実施例の文字認識装置が文法的な
意味の適切な候補文字の組合わせを得る動作を示すフロ
ーチャートである。
【図4】入力した文字列とその認識結果の一例を示す図
である。
【図5】図4の認識結果に対して、予測した変動をもと
に重み付けした候補文字群を示す図である。
【図6】文書中における文字の位置について説明するた
めの図である。
【図7】ある文字列の個々の文字に対する文字変動を説
明するための図である。
【図8】従来の文字認識装置の概略ブロック図である。
【符号の説明】
1 入力手段 2 認識手段 3 出力手段 4 優先度処理手段 5 記憶手段

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 文字データを入力して電子化するための
    入力手段と、認識するために必要な情報を有し、前記入
    力手段から入力された文字データを認識する認識手段
    と、前記入力手段と前記認識手段の結果や状態を表示す
    る出力手段とを備えた文字認識装置において、 前記入力手段から入力された文字データ列における各文
    字の相対位置から入力された文字の文字変動を予測し、
    予測された文字変動量の大きさに基づいた認識結果の優
    先度に従って文字認識を行なうことを特徴とする、文字
    認識装置
JP4279922A 1992-10-19 1992-10-19 文字認識装置 Expired - Fee Related JP2611904B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP4279922A JP2611904B2 (ja) 1992-10-19 1992-10-19 文字認識装置
DE69331035T DE69331035T2 (de) 1992-10-19 1993-04-06 Zeichenerkennungssystem
EP93105671A EP0593844B1 (en) 1992-10-19 1993-04-06 Character recognition system
US08/665,974 US6219449B1 (en) 1992-10-19 1996-06-21 Character recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4279922A JP2611904B2 (ja) 1992-10-19 1992-10-19 文字認識装置

Publications (2)

Publication Number Publication Date
JPH06131500A JPH06131500A (ja) 1994-05-13
JP2611904B2 true JP2611904B2 (ja) 1997-05-21

Family

ID=17617783

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4279922A Expired - Fee Related JP2611904B2 (ja) 1992-10-19 1992-10-19 文字認識装置

Country Status (4)

Country Link
US (1) US6219449B1 (ja)
EP (1) EP0593844B1 (ja)
JP (1) JP2611904B2 (ja)
DE (1) DE69331035T2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001137788A (ja) * 1999-11-12 2001-05-22 Hitachi Ltd 地名表記辞書作成方法および地名表記辞書作成装置
JP3480404B2 (ja) * 1999-12-22 2003-12-22 日本電気株式会社 単語大分類装置及びその単語大分類方法並びにその制御プログラムを記録した記録媒体
US7110621B1 (en) * 2000-05-19 2006-09-19 Xerox Corporation Assist channel coding using a rewrite model
US20020057842A1 (en) * 2000-06-02 2002-05-16 Yuen Henry C. Smart handwriting recognition apparatus and methods
RU2251736C2 (ru) * 2002-12-17 2005-05-10 "Аби Софтвер Лтд." Способ идентификации зачеркнутых символов при распознавании рукописного текста
JP2008268431A (ja) * 2007-04-18 2008-11-06 Oki Electric Ind Co Ltd 筆記試験システム及び筆記試験装置
TWI478074B (zh) * 2010-12-01 2015-03-21 Inst Information Industry 文字辨識方法、裝置以及儲存其之電腦可讀取紀錄媒體

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5995682A (ja) * 1982-11-25 1984-06-01 Ricoh Co Ltd 文字認識後処理方式
US4731857A (en) * 1984-06-29 1988-03-15 International Business Machines Corporation Recognition system for run-on handwritten characters
US5261009A (en) * 1985-10-15 1993-11-09 Palantir Corporation Means for resolving ambiguities in text passed upon character context
JPH0664631B2 (ja) * 1987-09-09 1994-08-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字認識装置
ES2030819T3 (es) * 1987-10-16 1992-11-16 Computer Gesellschaft Konstanz Mbh Procedimiento para el reconocimiento automatico de caracteres.
US5018217A (en) * 1988-09-26 1991-05-21 Brother Kogyo Kabushiki Kaisha Data converting apparatus having means for changing ornamental stroke end data of character outline
US5075896A (en) * 1989-10-25 1991-12-24 Xerox Corporation Character and phoneme recognition based on probability clustering
US5151950A (en) * 1990-10-31 1992-09-29 Go Corporation Method for recognizing handwritten characters using shape and context analysis
US5159644A (en) * 1991-08-30 1992-10-27 Eastman Kodak Company Character recognition method using statistically weighted correlation
US5465309A (en) * 1993-12-10 1995-11-07 International Business Machines Corporation Method of and apparatus for character recognition through related spelling heuristics

Also Published As

Publication number Publication date
EP0593844A2 (en) 1994-04-27
EP0593844A3 (en) 1994-09-28
JPH06131500A (ja) 1994-05-13
US6219449B1 (en) 2001-04-17
EP0593844B1 (en) 2001-10-31
DE69331035D1 (de) 2001-12-06
DE69331035T2 (de) 2002-06-20

Similar Documents

Publication Publication Date Title
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
US6763331B2 (en) Sentence recognition apparatus, sentence recognition method, program, and medium
US11775763B2 (en) Weakly supervised and explainable training of a machine-learning-based named-entity recognition (NER) mechanism
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JP5231698B2 (ja) 日本語の表意文字の読み方を予測する方法
CN111369980A (zh) 语音检测方法、装置、电子设备及存储介质
JP2611904B2 (ja) 文字認識装置
JPH11194793A (ja) 音声ワープロ
Hladek et al. Unsupervised spelling correction for Slovak
Zhang et al. Towards the use of pretrained language model gpt-2 for testing the hypothesis of communicative efficiency in the lexicon
Hládek et al. Diacritics restoration in the slovak texts using hidden markov model
EP0553745A2 (en) Character recognition apparatus
JP2550012B2 (ja) パタ−ン切り出し及び認識方法
Zhdanova Automatic identification of European languages
JPS63163956A (ja) 文書作成・校正支援装置
JP2004206659A (ja) 読み情報決定方法及び装置及びプログラム
JPH04232997A (ja) 音声認識装置における認識結果表示方式
Cissé et al. Advancing Language Diversity and Inclusion: Towards a Neural Network-based Spell Checker and Correction for Wolof
Blaschke Explainable Machine Learning in Linguistics and Applied NLP: Two Case Studies of Norwegian Dialectometry and Sexism Detection in French Tweets
CN118036595A (zh) 文本纠错方法、装置、计算机设备及存储介质
JPH02155073A (ja) 未知語認定装置
JPS60134992A (ja) 文字入力装置
JPS63153596A (ja) 音声文章入力装置
JPH06130989A (ja) 音声認識装置
Reeder Trainer beware: corpora for language/encoding identification.

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19961119

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080227

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090227

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees