JPH0765110A - 光学的文字読取装置 - Google Patents

光学的文字読取装置

Info

Publication number
JPH0765110A
JPH0765110A JP5210596A JP21059693A JPH0765110A JP H0765110 A JPH0765110 A JP H0765110A JP 5210596 A JP5210596 A JP 5210596A JP 21059693 A JP21059693 A JP 21059693A JP H0765110 A JPH0765110 A JP H0765110A
Authority
JP
Japan
Prior art keywords
character
word
characters
candidate
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5210596A
Other languages
English (en)
Inventor
Masanori Terasaki
正則 寺崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP5210596A priority Critical patent/JPH0765110A/ja
Publication of JPH0765110A publication Critical patent/JPH0765110A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 誤置換を減らすと共に、正置換に悪影響を与
えずに誤読率の低減を図った光学的文字読取装置を提供
すること。 【構成】 本装置は、認識部5及び後処理部7を有す
る。認識部5が入力文字パターンと認識辞書とを照合し
て候補文字を後処理部7に出力すると、後処理部7は認
識部5が出力した候補文字の列と単語辞書とを照合して
妥当と思われる単語を得る。続いて後処理部7は、その
妥当と思われる単語を構成する文字と認識部が出力した
候補文字群とを照合し、単語を構成する文字が候補文字
群に無い場合はその文字のみをリジェクトして他の文字
はそのまま出力する。従って、後処理部7が得た妥当と
思われる単語が単語辞書に登録されていない場合に、正
しく認識された文字はそのまま出力され、誤って認識す
るおそれのある文字はリジェクトして出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、光学的文字読取装置に
関し、より詳しくは後処理(知識処理)の改良に関す
る。
【0002】
【従来の技術】従来より光学的文字読取装置では、文書
等の文字を認識する際に、認識処理を行った後、後処理
を行い文字認識率の向上を図っている。
【0003】この後処理は、認識処理により得られた候
補文字の列と単語辞書とを照合し、最も妥当と思われる
単語を出力する処理である。
【0004】
【発明が解決しようとする課題】しかしながら、技術の
進歩や社会の複雑化に伴い新語が次々と誕生する近年に
おいては、新語が誕生する度にそれを単語辞書に登録し
て辞書を整備することは困難なことである。このため、
文書に含まれている新語が単語辞書に登録されていない
場合も多く、その新語について誤読が生ずるという問題
がある。例えば、文書に新語である「C型肝炎」が記入
され、単語辞書にはまだ「C型肝炎」が登録されておら
ず、「A型肝炎」,「B型肝炎」,「急性肝炎」,「慢
性肝炎」等が登録されているとする。この場合は、文字
「C」が記入文字にない別の文字、例えば文字「A」に
誤置換され、「A型肝炎」と出力されるため、全体とし
ては誤読となってしまう。
【0005】そこで、本発明は、上記事情に鑑みてなさ
れたものであり、誤置換を減らすと共に、正置換に悪影
響を与えずに誤読率の低減を図った光学的文字読取装置
を提供することを目的とする。
【0006】
【課題を解決するための手段】上記目的を達成するため
に請求項1記載の光学的文字読取装置は、入力文字パタ
ーンと認識辞書とを照合して候補文字を出力する認識部
と、この認識部が出力した候補文字の列と単語辞書とを
照合して妥当と思われる単語を得た後、その単語を構成
する文字とそれに対応する前記候補文字とを照合し、単
語を構成する文字がその候補文字と一致しない場合はそ
の文字のみをリジェクトして他の文字はそのまま出力す
る後処理部とを有することを特徴とするものである。
【0007】また、請求項2記載の光学的文字読取装置
は、入力文字パターンと認識辞書とを照合して類似度を
求め、類似度の比較的高い所定数の候補文字からなる候
補文字群を出力する認識部と、この認識部が出力した候
補文字の列と単語辞書とを照合して妥当と思われる単語
を得た後、その単語を構成する文字とそれに対応する候
補文字群とを照合し、単語を構成する文字がその候補文
字群に無い場合はその文字のみをリジェクトして他の文
字はそのまま出力する後処理部とを有することを特徴と
するものである。
【0008】また、請求項3記載の光学的文字読取装置
は、前記後処理部の出力結果を修正し得る修正手段を有
することを特徴とするものである。
【0009】
【作用】請求項1記載の光学的文字読取装置によれば、
後処理部は、妥当と思われる単語を得た後、その単語を
構成する文字とそれに対応する候補文字とを照合し、単
語を構成する文字がその候補文字と一致しない場合はそ
の文字のみをリジェクトして他の文字はそのまま出力す
ることで、正しく認識された文字はそのまま出力され、
誤って認識するおそれのある文字はリジェクトして出力
される。これにより、記入された単語が単語辞書に登録
されていない場合に、記入された文字と異なる文字に置
き換えるという誤置換を減らし、正置換に悪影響を与え
ずに誤読率の低減が可能となる。
【0010】請求項2記載の光学的文字読取装置によれ
ば、認識部は1つの入力文字パターンに対して所定数の
候補文字からなる候補文字群を出力するので、文字認識
率の向上が図れ、しかも誤置換を減らすと共に、正置換
に悪影響を与えずに誤読率の低減が可能となる。
【0011】請求項3記載の光学的文字読取装置によれ
ば、修正手段によりリジェクトされた文字のみを修正す
れば済むため、修正作業を効率良く行うことができる。
【0012】
【実施例】以下、本発明の実施例を図面を参照して詳述
する。
【0013】図1は本発明の光学的文字読取装置の一実
施例を示す概略構成図である。
【0014】同図に示す実施例装置は、文書1のイメー
ジを検出するスキャナ部2と、このスキャナ部2が検出
したイメージから1文字毎に文字パターンを切り出す文
字切出し部3と、文字切出し部3からの入力文字パター
ンと認識辞書部4に格納された認識辞書とを照合して文
字認識処理を行い認識結果(候補文字)を出力する認識
部5と、認識部5の認識結果と単語辞書部6に格納され
た単語辞書とを照合して後処理を行う後処理部7と、後
処理部7の処理結果(候補単語)を修正するためのキー
ボード,マウス等を備えた入力部8及びCRTディスプ
レイの如き表示部9と、この装置の各部を制御する制御
部10とを有して概略構成されている。
【0015】次に、上記各部の詳細を説明する。
【0016】前記スキャナ部2は、文書1上に光を照射
する光源と、文書1からの反射光を受けて電気信号に変
換する光電変換素子とを備え、文書1全体を光学的に走
査して文書1のイメージを検出するものである。
【0017】前記認識辞書部4には、文字切出し部3か
らの入力文字パターンとの照合の対象となる候補文字パ
ターン、例えばカナ文字,漢字,数字等のパターンが格
納されている。
【0018】前記認識部5は、文字切出し部3から入力
された入力文字パターンと認識辞書部4に格納されてい
る候補文字パターンとを照合例えば複合類似度法等のパ
ターンマッチング法により文字認識を行い、その認識結
果として候補文字(文字コード)を後処理部7に出力す
るものである。すなわち、このパターンマッチング法
は、文字切出し部3から入力された入力文字パターンと
認識辞書部4に格納されている候補文字パターンとを照
合して類似度値を演算して求め、その類似度値を点数に
換算し、点数の最も大きい第1位候補文字から順に第n
位候補文字まで所定数(例えば15個)の候補文字から
なる候補文字群を決定するものである。その出力例を図
2に示す。同図では、記入文字「C型肝炎」に対する認
識結果を示すものであり、第1位候補文字(100点)
として「O」,「型」,「刊」,「炎」、第2位候補文
字(90点)として「0」,「形」,「肝」,「災」、
第3位候補文字(80点)として「3」,「則」,
「干」,「火」、第n位候補文字(0点)として
「8」,「片」,「汗」,「大」がマトリックス形式で
出力されている。なお、このパターンマッチング法に限
定されず、構造解析法等の他の方法を用いてもよい。
【0019】前記単語辞書部6には、認識部5によって
出力される候補文字の列との照合の対象となる病名,姓
名,住所等の単語(文字コード)が格納されている。本
実施例では、図3に示すように、新語である「C型肝
炎」以外の「A型肝炎」,「B型肝炎」,「急性肝
炎」,「慢性肝炎」等が登録されているとする。
【0020】前記後処理部7は、認識部5が出力した候
補文字の列と単語辞書部6に格納されている単語とを照
合し、合計点数の高い順に第n位候補まで所定数の単語
候補を出力するものである。その出力例を図4に示す。
単語「A型肝炎」を構成する文字「A」は、図2に示す
ように、その文字「A」に対応する候補文字群5aに存
在しないために点数は0点であり、文字「型」,
「肝」,「炎」は、それぞれ対応する候補文字群5b,
5c,5dに存在し、点数はそれぞれ100点,90
点,100点であるので、合計点数は290点となる。
このようにして照合した結果、図4に示すように、点数
の高い順に、第1位候補単語は「A型肝炎」(290
点)、第2位候補単語は「B型肝炎」(290点)、第
3位候補単語は「急性肝炎」(190点)、第4位候補
単語は「慢性肝炎」(190点)が出力される。
【0021】また、この後処理部7は、第1位候補単語
の「A型肝炎」の各文字がそれぞれ認識部5の認識結果
である図2に示すような候補文字群5a乃至5dに存在
するか否かの判断を行い、候補文字群5a乃至5dに存
在する場合は、そのまま出力し、存在しない場合は、リ
ジェクト文字を示すマーク「?」を出力するようになっ
ている。本実施例では、第1位候補単語の先頭の文字
「A」のみがそれに対応する候補文字群5aに存在しな
いため、図5に示すように、その文字「A」がリジェク
ト文字として、「?型肝炎」を新たな第1位候補単語
(290点)とし、図4に示す旧第1位乃至第4位候補
は、それぞれ1位繰り下げて新たな第2位乃至第5位と
して制御部10に出力するようにしている。
【0022】次に、本実施例の動作を図6のフローチャ
ートに従って説明する。
【0023】文書1には、新語である「C型肝炎」が記
入され、単語辞書部6には、「C型肝炎」以外の「A型
肝炎」,「B型肝炎」,「急性肝炎」,「慢性肝炎」等
が登録されているとする。
【0024】まず、スキャナ部2は、文書1のイメージ
を検出する。次に、文字切出し部3は、スキャナ部2が
検出した文書1のイメージから1文字毎に文字パターン
を切り出して認識部5に出力する。そして認識部5は、
文字切出し部3から入力された入力文字パターンと認識
辞書部4に格納されている候補文字パターンとの照合例
えば複合類似度法等のパターンマッチング法により文字
認識を行い、その認識結果として図2に示すような候補
文字(文字コード)を後処理部7に出力する(S1)。
【0025】次に、後処理部7は、認識部5が出力した
候補文字の列と単語辞書部6に格納されている単語とを
照合し、合計点数の高い順に第n位候補まで図4に示す
ような単語候補を得る(S2)。
【0026】続いて後処理部7は、第1位候補単語の
「A型肝炎」の各文字がそれぞれ認識部5の認識結果で
ある図2に示すような候補文字群5a乃至5dに存在す
るか否か判断を行う。候補文字群5a乃至5dに存在す
る場合は、そのまま出力し、存在しない場合は、リジェ
クト文字を示すマーク「?」を出力する。本実施例で
は、第1位候補単語の先頭の文字「A」のみが候補文字
群5aに存在しないため、「?型肝炎」を新たな第1位
候補単語(290点)とし、図4に示す旧第1位乃至第
4位候補は、それぞれ1位繰り下げて新たな第2位乃至
第5位として図5に示すような所定数の候補単語として
制御部10に出力され(S3)、表示部9に制御部10
の制御により表示される(S4)。
【0027】オペレータは、表示部9の表示画面を見て
「?」で示されるリジェクト文字が有る場合は、その部
分に正解文字である「C」を入力部8を操作して入力し
て修正する(S6)。
【0028】このようにして、後処理部7が得た妥当と
思われる単語が単語辞書に登録されていない場合に、正
しく認識された文字「型」,「肝」,「炎」はそのまま
出力され、誤って認識するおそれのある文字「C」はリ
ジェクト文字「?」として出力するので、記入文字にな
い単語に置き換えるという誤置換を減らし、正置換
「型」,「肝」,「炎」に悪影響を与えずに誤読率の低
減が可能となる。
【0029】なお、本発明は上記実施例に限定されず、
その要旨を変更しない範囲内で種々に変形実施できる。
【0030】
【発明の効果】以上詳述した請求項1記載の発明によれ
ば、記入された単語が単語辞書に登録されていない場合
でも、正しく認識された文字はそのまま出力され、誤っ
て認識するおそれのある文字はリジェクトして出力され
るので、誤置換を減らすと共に、正置換に悪影響を与え
ずに誤読率の低減を図った光学的文字読取装置を提供す
ることができる。
【0031】また、請求項2記載の発明によれば、単語
を構成する文字と照合する対象は、所定数の候補文字か
らなる候補文字群であるので、文字認識率の向上が図
れ、しかも誤置換を減らすと共に、正置換に悪影響を与
えずに誤読率の低減が可能となる。
【0032】また、請求項3記載の発明によれば、後処
理部の出力結果に対してリジェクトされた文字のみを修
正すれば済むため、修正作業を効率良く行うことができ
る。
【図面の簡単な説明】
【図1】本発明の光学的文字読取装置の一実施例を示す
概略構成図。
【図2】本実施例の認識部による認識結果の一例を示す
図。
【図3】本実施例の単語辞書部への登録例を示す図。
【図4】本実施例の後処理部による後処理の一例を示す
図。
【図5】本実施例の後処理部による後処理の一例を示す
図。
【図6】本実施例の動作を説明するためのフローチャー
ト。
【符号の説明】
4 認識辞書部 5 認識部 6 単語辞書部 7 後処理部 5a乃至5d 候補文字群

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 入力文字パターンと認識辞書とを照合し
    て候補文字を出力する認識部と、この認識部が出力した
    候補文字の列と単語辞書とを照合して妥当と思われる単
    語を得た後、その単語を構成する文字とそれに対応する
    候補文字とを照合し、単語を構成する文字がその候補文
    字と一致しない場合はその文字のみをリジェクトして他
    の文字はそのまま出力する後処理部とを有することを特
    徴とする光学的文字読取装置。
  2. 【請求項2】 入力文字パターンと認識辞書とを照合し
    て類似度を求め、類似度の比較的高い所定数の候補文字
    からなる候補文字群を出力する認識部と、この認識部が
    出力した候補文字の列と単語辞書とを照合して妥当と思
    われる単語を得た後、その単語を構成する文字とそれに
    対応する候補文字群とを照合し、単語を構成する文字が
    その候補文字群に無い場合はその文字のみをリジェクト
    して他の文字はそのまま出力する後処理部とを有するこ
    とを特徴とする光学的文字読取装置。
  3. 【請求項3】 前記後処理部の出力結果を修正し得る修
    正手段を有することを特徴とする請求項1又は2記載の
    光学的文字読取装置。
JP5210596A 1993-08-25 1993-08-25 光学的文字読取装置 Pending JPH0765110A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5210596A JPH0765110A (ja) 1993-08-25 1993-08-25 光学的文字読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5210596A JPH0765110A (ja) 1993-08-25 1993-08-25 光学的文字読取装置

Publications (1)

Publication Number Publication Date
JPH0765110A true JPH0765110A (ja) 1995-03-10

Family

ID=16591947

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5210596A Pending JPH0765110A (ja) 1993-08-25 1993-08-25 光学的文字読取装置

Country Status (1)

Country Link
JP (1) JPH0765110A (ja)

Similar Documents

Publication Publication Date Title
JP3427692B2 (ja) 文字認識方法および文字認識装置
JPH0765110A (ja) 光学的文字読取装置
JP3469375B2 (ja) 認識結果の確信度決定方法及び文字認識装置
JP3221968B2 (ja) 文字認識装置
JP2000132635A (ja) 認識データ確認方法
JP3455643B2 (ja) 文字認識装置における学習辞書の更新方法及び文字認識装置
JPH11120294A (ja) 文字認識装置および媒体
JPH06333083A (ja) 光学式文字読取装置
JPH07114622A (ja) 文字認識装置の後処理方法
JPH05217017A (ja) 光学式文字読取装置
JPH1185899A (ja) 文字読み取り装置、その読み取り方法および記録媒体
JP2677271B2 (ja) 文字認識装置
JPH08315069A (ja) 文字認識方法
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JPH05298495A (ja) 文字認識装置と誤認識文字修正方法並びに欧文文書処理装置
JPH07239901A (ja) 光学式読み取り装置における文字修正方法
JP2875678B2 (ja) 文字認識結果の後処理方法
JPH06259595A (ja) 文字認識処理装置及び認識処理方法
JP2003099709A (ja) 誤読文字修正方法及び光学的文字認識装置
JPH0458381A (ja) 光学的文字読取装置
JP3077580B2 (ja) 文字読取装置
JPH06325216A (ja) 光学的文字読取装置
JPH11143983A (ja) 文字認識装置、文字認識方法及び文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0620087A (ja) Ocr処理システムにおける漢字住所データ処理方法
JPH02292691A (ja) 文字認識装置