JPH0682402B2 - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH0682402B2
JPH0682402B2 JP59073425A JP7342584A JPH0682402B2 JP H0682402 B2 JPH0682402 B2 JP H0682402B2 JP 59073425 A JP59073425 A JP 59073425A JP 7342584 A JP7342584 A JP 7342584A JP H0682402 B2 JPH0682402 B2 JP H0682402B2
Authority
JP
Japan
Prior art keywords
character
word
virtual
dictionary
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59073425A
Other languages
English (en)
Other versions
JPS60217490A (ja
Inventor
由明 黒沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Tokyo Shibaura Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Shibaura Electric Co Ltd filed Critical Tokyo Shibaura Electric Co Ltd
Priority to JP59073425A priority Critical patent/JPH0682402B2/ja
Publication of JPS60217490A publication Critical patent/JPS60217490A/ja
Publication of JPH0682402B2 publication Critical patent/JPH0682402B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は入力文字パターン列を簡易に、且つ効果的に認
識することのできる文字認識装置に関する。
〔発明の技術的背景とその問題点〕
情報処理技術の発達に伴い、印刷・手書き入力された文
字パターン列、或いは音声入力された文字パターン列か
らなる単語データを認識し、その認識結果を計算機シス
テムに取込むことが行われている。この単語データの認
識処理は、基本的には上記単語データを構成する文字列
の各文字の特徴を検出して行われるが、個々の文字認識
結果を単に組合わせるだけでは精度の高い認識結果が得
られないことが多い。例えば入力文字列中のある文字に
ついて正しい認識結果が得られなかった場合には、上記
入力文字列が示す単語全体の認識結果が得られなくな
る。
そこで、従来では例えば個々の文字認識結果と単語辞書
に予め登録された辞書単語の各文字との類似度をそれぞ
れ求め、これらの類似度を総合的に評価して上記入力文
字列全体の認識結果を得ることが行われている。
このような処理方式によれば、前述したように入力文字
列中に正しい文字認識結果が得られない文字が存在して
いても、その入力文字列全体から単語データを認識する
ことが可能となる。
然し乍ら、認識処理に供せられる入力文字列は、例えば
一般文章のように必ずしも単語単位に分割されていない
ことが多い。この為、上述した単語単位の処理だけでは
これに対処することができず、例えばオペレータの判断
によって、入力文字列の文脈からその文字に対する正し
い認識結果を推定することが必要であった。
〔発明の目的〕
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、入力文字パターン列から処理単
位となる単語を明確に抽出することができない場合であ
っても、その認識処理を効率良く、高精度に実行するこ
とのできる文字認識装置を提供することにある。
〔発明の概要〕
本発明による文字認識装置は、入力文字パターン列を各
文字パターン毎に文字認識して各文字パターンに対する
文字認識結果をそれぞれ求める第1の手段と、 この第1の手段により得られた文字認識結果を前記入力
パターン列に対応して認識文字列として格納する第2の
手段と、この第2の記憶手段に格納された認識文字列か
ら、少なくとも一つの文字を共有しかつ文字数nを異な
らせた複数組の文字列(但し、n=1,2,…)を複数の仮
想単語として選択する第3の手段と、この第3の手段に
より選択された全ての仮想単語について前記単語辞書に
登録された複数の辞書単語と類似度を求める第4の手段
と、この第4の手段により求められた類似度に基づいて
前記各仮想単語毎に該仮想単語と看做し得る一つの辞書
単語を前記単語辞書から選択する第5の手段と、この第
5の手段により選択された辞書単語に対応する、前記第
4の手段により求められた類似度を前記各仮想単語毎に
比較し、この類似度の最も高い仮想単語を検出する第6
の手段と、この第6の手段により検出された仮想単語に
対応する、前記第5の手段により選択された辞書単語を
最終認識結果として出力する第7の手段とを具備したこ
とを特徴とする。
〔発明の実施例〕
以下、図面を参照して本発明の一実施例につき説明す
る。
第1図は実施例装置の概略構成図である。この実施例装
置は帳票1に印刷、或いは手書きされた文字パターン列
を光学的に読取って文字認識するものであり、上記帳票
1に記載された文字パターン列の情報は入力部2を介し
て画像データとして入力される。前処理部3は上記画像
データ中から雑音成分を除去し、各文字パターンの大き
さを正規化する等の前処理を行うと共に、入力画像パタ
ーンを検切処理して文字パターンを1文字毎に区分し、
且つ各文字パターンの特徴を抽出するものとなってい
る。文字認識部4は文字辞書メモリ5に予め登録された
標準文字パターンの特徴情報と前記前処理部3で求めら
れた前記各文字の特徴とを照合してその文字認識結果を
求めており、その文字認識結果を入力の文字パターン列
に対応して認識文字列として文字認識結果バッファ6に
格納している。尚、上記文字認識部4における文字認識
方式は、従来より知られている種々の方式を適宜採用す
ることができる。
しかして類似度計算部7は、前記文字認識結果バッファ
6に格納された認識文字列中から文字数の相互に異なる
複数の文字列を仮想単語としてそれぞれ選択し、これら
の各仮想単語と単語辞書メモリ8に予め登録された辞書
単語との類似度計算を行っている。この類似度計算は、
例えば認識文字列中のN文字からなる仮想単語の各文字
認識結果をRi(i=1,2〜N)とし、前記単語辞書メモ
リ8に登録された辞書単語の各文字をAi(i=1,2〜
N)として、入力文字Riが文字Aiである確からしさをP
(Ai|Ri)としたとき、 なる計算によって類似度Sを求めることによって行われ
る。尚、上記P(A)は文字列Aiの出現頻度である。
尚、上記式の対数を取り、 S′=logS F(Ai|Ri)=logP(Ai|Ri) と置換え、且つ前記出現頻度P(A)が一定であると看
做すと、類似度計算を として簡易に実行することができる。
ところで、前記仮想単語の選択とその仮想単語と辞書単
語との類似度に基く文字認識結果の後処理は次のように
して行われる。
仮想単語は、例えば前記文字認識結果バッファ6に格納
された認識文字列に対して、その冒頭文字から連続する
n(1,2,〜N)文字からなる複数の文字列としてそれぞ
れ設定される。つまり、その冒頭文字を文字数“1"の仮
想単語とし、上記冒頭文字とその次の文字を文字数“2"
の仮想単語とし、更に上記冒頭文字から3文字目までを
文字数“3"の仮想単語とし、同様にして前記冒頭文字か
らN文字目までの文字列を文字数“N"の仮想単語として
設定している。このようにして求められた文字数を相互
に異にする複数の仮想単語について、前記辞書単語との
間の類似度がそれぞれ計算される。しかして、これらの
各仮想単語の前記辞書単語に対する類似度から、先ず各
仮想単語として看做し得る辞書単語がそれぞれ求められ
る。この処理によって仮想単語として看做し得る辞書単
語が求められなかった仮想単語については、もはや仮想
単語としての資格がないとして処理対象から排除され
る。しかる後、これらの各仮想単語として看做された辞
書単語間で、その辞書単語を得るに至った類似度値を相
互に比較し、類似度値が最も高い仮想単語を選択する。
この仮想単語に対して求められた前記単語を、その認識
出力結果として最も信頼性が高いとして選択し、この辞
書単語を認識文字列の該当仮想単語に対する認識結果と
する。
その後、上記認識結果を得た仮想単語を認識文字列中か
ら除去し、残された文字列に対して同様な処理を実行す
る。
かくして、このような仮想単語の設定による文字認識結
果に対する後処理によれば、例えば第2図にその処理概
念を示すように、認識文字列を順次効果的に後処理して
正しい認識結果を精度良く得ることが可能となる。
即ち、第2図は『今日は日本晴れ』なる入力文字列に対
する後処理を示すものであり、この場合、先ず第1段階
として「今」「今日」「今日は」「今日は日」「今日は
日本」なる仮想単語、すなわち少なくとも二つの仮想単
語の間で少なくとも一つの文字を共有しかつ文字数を相
互に異ならせた複数の仮想単語が選択される。そして、
これらの各仮想単語についてそれぞれ辞書単語との類似
度が計算される。この例では、「今」なる仮想単語につ
いて類似度S1が求められ、「今日」なる仮想単語につい
て類似度S2が求められ、他の仮想単語に対する該当辞書
単語は見出されない。そこで前記2つの仮想単語の各類
似度値S1,S2を相互に比較して、類似度値の高い仮想単
語「今日」を認識文字列の冒頭部分の認識結果として求
める。その後、この処理によって求められた認識結果を
示す文字列(仮想単語)を認識文字列中から取除き、残
された文字列に対して同様な処理を行う。この第2段階
では「は」「は日」「は日本」等の仮想単語が選択さ
れ、十分な類似度値を得た仮想単語「は」が認識結果と
して選択される。そして、第3段階では「日」「日本」
「日本晴」「日本晴れ」なる仮想単語がそれぞれ選択さ
れ、その辞書単語に対する類似度から仮想単語「日本」
が認識結果として選択される。以下、この後処理が認識
文字列の全てに対する最終認識結果が求められるまで、
繰返し実行される。
以上説明したように本装置によれば、入力文字パターン
列に対して各文字パターン毎に文字認識して得られた認
識文字列に対する後処理を、この認識文字列から文字数
の異なる複数の仮想単語を選択し、これらの仮想単語と
辞書単語と照合して単語として最も確からしい仮想単語
を抽出しながら、その認識結果を求めることによって行
うので、入力文字列を単語単位に明確に区切ることがで
きない場合であっても、これを効果的に認識して正しい
認識結果を簡易に、且つ精度良く求めることが可能とな
る。しかも、入力文字列に対する文脈の判断をオペレー
タに委ねることなしに認識文字列を後処理することがで
きる。故に、オペレータに対する負担、労力を大幅に軽
減し、入力パターンに対する効果的な文字認識とその後
処理を行って、高い精度の認識結果を効率良く得ること
が可能となる等の実用上絶大なる効果が奏せられる。
尚、本発明は上述した実施例に限定されるものではな
い。実施例では、文字入力パターンを光学的に画像入力
して認識処理するものについて述べたが、タブレット装
置等を介して実時間的に筆記入力される文字入力パター
ンや、音声入力された文字入力パターン(音韻情報)を
認識処理するものであっても良い。要するに本発明はそ
の要旨を逸脱しない範囲で種々変形して実施することが
できる。
【図面の簡単な説明】
第1図は本発明の一実施例装置の概略構成図、第2図は
実施例装置における文字認識結果に対する後処理の概念
を示す図である。 1……帳票、2……入力部、3……前処理部、4……文
字認識部、5……文字辞書メモリ、6……文字認識結果
バッファ、7……類似度計算部、8……単語辞書メモ
リ。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】入力文字パターン列を各文字パターン毎に
    文字認識して各文字パターンに対する文字認識結果をそ
    れぞれ求める第1の手段と、 この第1の手段により得られた文字認識結果を前記入力
    パターン列に対応して認識文字列として格納する第2の
    手段と、 この第2の記憶手段に格納された認識文字列から、少な
    くとも一つの文字を共有しかつ文字数nを異ならせた複
    数組の文字列(但し、n=1,2,…)を仮想単語として選
    択する第3の手段と、 この第3の手段により選択された全ての仮想単語につい
    て前記単語辞書に登録された複数の辞書単語と類似度を
    求める第4の手段と、 この第4の手段により求められた類似度に基づいて前記
    各仮想単語毎に該仮想単語と看做し得る一つの辞書単語
    を前記単語辞書から選択する第5の手段と、 この第5の手段により選択された辞書単語に対応する、
    前記第4の手段により求められた類似度を前記各仮想単
    語毎に比較し、この類似度の最も高い仮想単語を検出す
    る第6の手段と、 この第6の手段により検出された仮想単語に対応する、
    前記第5の手段により選択された辞書単語を最終認識結
    果として出力する第7の手段 とを具備したことを特徴とする文字認識装置。
  2. 【請求項2】前記第3の手段は、前記第2の記憶手段に
    格納された認識文字列中の特定の文字から連続するn文
    字(n=1,2,…)の文字列を仮想単語として選択するも
    のである特許請求の範囲第1項記載の文字認識装置。
  3. 【請求項3】前記特定の文字は、前記認識文字列中の冒
    頭文字、または既に最終認識結果を得た仮想単語の次の
    認識文字である特許請求の範囲第2項記載の文字認識装
    置。
JP59073425A 1984-04-12 1984-04-12 文字認識装置 Expired - Lifetime JPH0682402B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59073425A JPH0682402B2 (ja) 1984-04-12 1984-04-12 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59073425A JPH0682402B2 (ja) 1984-04-12 1984-04-12 文字認識装置

Publications (2)

Publication Number Publication Date
JPS60217490A JPS60217490A (ja) 1985-10-31
JPH0682402B2 true JPH0682402B2 (ja) 1994-10-19

Family

ID=13517863

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59073425A Expired - Lifetime JPH0682402B2 (ja) 1984-04-12 1984-04-12 文字認識装置

Country Status (1)

Country Link
JP (1) JPH0682402B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5032557B2 (ja) * 2009-12-28 2012-09-26 株式会社東芝 パターン認識装置およびパターン認識方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60144886A (ja) * 1983-12-31 1985-07-31 Ricoh Co Ltd 文字認識装置における後処理方式

Also Published As

Publication number Publication date
JPS60217490A (ja) 1985-10-31

Similar Documents

Publication Publication Date Title
US10699109B2 (en) Data entry from series of images of a patterned document
SE443251B (sv) Sett och anordning for igenkenning av stavade ord
US20200134382A1 (en) Neural network training utilizing specialized loss functions
CN110335608B (zh) 声纹验证方法、装置、设备及存储介质
CN112633423B (zh) 文本识别模型的训练方法、文本识别方法、装置及设备
US20180005087A1 (en) Pattern recognition device, pattern recognition method, and computer program product
JPH0550783B2 (ja)
US11715288B2 (en) Optical character recognition using specialized confidence functions
JPH0682402B2 (ja) 文字認識装置
US11394919B2 (en) Image processing apparatus, image processing method and medium
JP2801602B2 (ja) 単語認識装置
JP3209197B2 (ja) 文字認識装置及び文字認識プログラムを記録した記録媒体
EP0420825A2 (en) A method and equipment for recognising isolated words, particularly for very large vocabularies
JPS58186882A (ja) 手書き文字入力装置
JP2924040B2 (ja) 手書き文字の認識装置
JPS60225273A (ja) 単語検索方式
JPS63103393A (ja) 単語認識装置
CN115858797A (zh) 一种基于ocr技术生成中文近义词的方法及系统
JP2839515B2 (ja) 文字読取システム
JPH0654503B2 (ja) パタ−ン認識装置
JPS60138689A (ja) 文字認識方法
JPS59160275A (ja) 単語認識装置
JPH01191992A (ja) 文字認識装置
JPS63138479A (ja) 文字認識装置
JPS6191780A (ja) 文字認識装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term