JPH07120396B2 - 文書読み取り装置 - Google Patents

文書読み取り装置

Info

Publication number
JPH07120396B2
JPH07120396B2 JP61214352A JP21435286A JPH07120396B2 JP H07120396 B2 JPH07120396 B2 JP H07120396B2 JP 61214352 A JP61214352 A JP 61214352A JP 21435286 A JP21435286 A JP 21435286A JP H07120396 B2 JPH07120396 B2 JP H07120396B2
Authority
JP
Japan
Prior art keywords
word
dictionary
character
document
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP61214352A
Other languages
English (en)
Other versions
JPS6368989A (ja
Inventor
好昭 内田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP61214352A priority Critical patent/JPH07120396B2/ja
Publication of JPS6368989A publication Critical patent/JPS6368989A/ja
Publication of JPH07120396B2 publication Critical patent/JPH07120396B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 [概要] 文書を走査して2値データとして読み取ってから文字の
認識を行なって文章を読み取る装置において、その認識
率を向上させるため、従来、文字認識によって得られた
単語が通常の単語として妥当なものであるか否かを検査
したり、出来上がった文章が文法的に正しいか否かを検
査する方法が採られていたが、実際と異なる文字として
認識されているにもかかわらず、偶然その文字列が一般
に存在し得る単語であったり、文法的な誤りを生じない
場合には、これらの文字の認識の誤りを検出することが
できないという問題点があった。本発明はこのような従
来の問題点を解決するため、文字認識の結果得られた各
文字に対する複数の候補によって、組立てられる単語に
ついて当該文章中での使用状況と予想される単語の組合
わせを検査することにより、高い認識率を期待すること
のできる文書読み取り装置の制御について開示してい
る。
[産業上の利用分野] 本発明は文書読み取り装置に関し、特に文書の文字を正
しく認識するのに適した文書読み取り装置に係る。
[従来の技術] 文書画像を自動的に読み取って情報処理装置によって文
書に係る処理を行なう文書読み取り装置においては、文
書画像をドラムスキャナ等の入力装置によって2値デー
タ(ドット列)として読み取って、これから文字列を抜
き出し、更に該文字列から個々の文字を抽出して、その
認識を行なうという処理が行なわれる。
このような処理においては、文章が正しく読み取られる
ためには、個々の文字が正しく認識される必要がある。
文字の認識は文字列から抽出した文字パターンを辞書中
に格納してある既知の文字パターンと照合して一致する
ものあるいは最も距離の近いものを選出して、これに対
応する文字であるとすることにより行なわれる。
しかし、対象となる文章が、使用する文字の種類等を制
限することなく作成された日本文である場合にはその文
字の認識は容易なことではない。すなわち、日本文その
ものが漢字かなまじりで文字種類が多い上、数字や英字
が混ざっていることが多いからこれらを正しく識別する
ことは非常に困難であることが多い。
そのため、従来文字の認識に際して得られた複数の候補
に対して、単語としての綴りの妥当性や、文中での文法
的な妥当性を検査して、候補の中から最も確からしさの
条件を備えたものを選択するという手法によって認識率
を向上させることが行なわれている。
[発明が解決しようとする問題点] 上述した従来の文書読み取り装置における文字の認識率
を向上させるための手段、すなわち、文字の認識に際し
て得られた複数の候補に対して、単語としての綴りの妥
当性や文中での文法的な妥当性を検査して候補の中から
最も確からしさの条件を備えたものを選択する手法を用
いた場合には、第一候補が誤っていて、文字が実際とは
異なる文字として認識されても、該文字を含む文字列が
何らの意味を持つ単語を構成する場合や、該文字を含む
文字列からなる単語の文法的属性が正しく見える場合に
は、それらが正しいものと誤認されて採択されてしまう
という問題点があった。
本発明はこのような従来の問題点に鑑み、文字をより正
しく認識することのできる文書読み取り装置を提供する
ことを目的としている。
[問題点を解決するための手段] 本発明によれば、上述の目的は、前記特許請求の範囲に
記載のとおり、文書を走査して文字を2値データとして
読み取りプロセッサがそれぞれの文字を認識して文章を
読み取る装置であって、対象となる文書において高い頻
度で出現することが予想される単語を格納しておく辞書
と、対象となる文書において頻繁に出現することが予想
されるある単語と他の特定の単語との連結使用形態を格
納しておく辞書とを具備し、文字認識の結果得られた候
補の文字からなる単語についてプロセッサが上記各辞書
を用いて高い頻度で出現する単語に該当していないかを
調査すると共に他の特定の単語との間で頻繁に出現する
連結形態での使用が為されていないかを調査して、その
結果を個々の文字の認識に際する判定条件として用いる
文書読み取り装置により達成される。
[実施例] 第1図は本発明の1実施例のブロック図であって、文書
読み取り装置の構成の例を示している。図において1は
入力装置、2は表示部、3は処理部、4は文字認識用の
辞書、10は出力装置を表しており、また5、6、8、9
は辞書を、7はテーブルを示すもので、5は対象文書に
おいて、高い頻度で出現することが予想される単語をあ
つめた辞書、6は対象文書において、限定された使用方
法が予想される単語をあつめた辞書、7は対象文書にお
いて、実際に出現した単語とその使用方法を記録する為
のテーブル、8は対象文書において、実際に出現した単
語とその使用方法を記録する為の辞書、9は使用方法が
とくに限定されない語をあつめた辞書である。
第1図において、入力装置1(例えばOCR)によって文
書を2値画像データとして読み取り、得られた画像デー
タについて処理部3が文字の識別を行なう。
文字の識別はプロセッサが入力データ中の文字と見なさ
れるドット群のパターンを文字認識用の辞書4内の既知
の文字のパターンと照合することにより行なわれるが、
このとき、両者のパターンが全く一致することは稀であ
り、通常は、入力文字のパターンと類似したパターンを
有する文字が候補としていくつか選び出されることにな
る。そして、これらの候補は入力文字のパターンとの類
似の程度に応じて順序づけされる。
従って文字の識別の結果として入力の各文字それぞれに
対して、それぞれ複数の順序づけされた候補文字が得ら
れる。そして、これらの候補文字を連結することによっ
て、単語および文を生成しながら後述の方法により、そ
の妥当性を検査する。もし、不適当と判断されるものが
ある場合には、次候補を用いて再び単語を生成し検査を
行なう。そして、最終的に生成されたものを表示部2に
表示して、利用者の確認を受けた後、確定する。
上記妥当性の検査に際しては、前記、対象文書におい
て、高い頻度で出現することが予想される単語をあつめ
た辞書5と、対象文書において、限定された使用方法が
予想される単語をあつめた辞書6と、対象文書におい
て、実際に出現した単語とその使用方法を記録する為の
テーブル7と、対象文書において、実際に出現した単語
とその使用方法を記録する為の辞書8、および使用方法
がとくに限定されない語をあつめた辞書9とが用いられ
る。これらの内、テーブル7と辞書8は書き換え可能な
記憶領域に置かれ、また辞書6と8およびテーブル7の
内容はほぼ同じものとなる。
文字の認識に当たって、プロセッサはまず、第一候補を
つなげて、単語として成立するものまでをとりだす、こ
の時、第一候補と第二、第三候補の確からしさ(類似の
度合)が接近しており、いずれかによって辞書5に指定
された語が構成されるならばそれを優先する。(候補の
順位を変更する) そして、取り出された単語の品詞が該単語の前後の単語
の品詞との関係において不都合がないかについての文法
検査を行なう。不当であればその単語はすてて、次候補
の選択から繰り返す。
取り出された単語が辞書6、テーブル7にあれば辞書中
に指定されたその語の限定条件を満たしているかを検査
する。不当であれば単語選択に戻って、次候補を選択す
る。このとき、不当とされた単語の情報はプロセッサの
メモリに残しておく。
上の処理において、あらゆる候補が不当となった時は、
その時点で保存されている単語を用いる。そのような語
もなければ文字認識の第一候補から単語を構成する。
文(ないし段落・文章)が得られたならば、それを表示
して、利用者に確認をもとめる。これに対し、利用者が
キーボード等から了解の旨を通知すると、プロセッサは
その文(ないし段落・文章)を確定したものとしてメモ
リに保持する。(受理する) 文(ないし段落)が受理された時点で受理した文の先頭
から、受理した単語それぞれについて辞書9になければ
その単語の使用方法を検査して辞書8に登録する。辞書
8の内容から使用方法が限定されていると判断される語
がみつかれば、それをテーブル7に登録する。また、辞
書6、テーブル7に登録された情報と矛盾する使用方法
がなされているならば、辞書6、テーブル7の該当レコ
ードの「その情報を使用しないように指定するフラグ」
をセットする。これらの処理が終了したら次の文につい
て、処理を続ける。
文書の読み取りが終了したならば、将来同じような文書
を処理する時のためにテーブル7に保存された情報を保
存する。
以上説明した実施例における文書処理について、更に具
体的に説明すると、例えば、辞書5、辞書6、辞書9に
それぞれ、第1表に示すような単語が登録されていると
き、下記に示す例文を処理すると、テーブル7に例え
ば、「アドレス(拡張)」、「拡張(機能)」等の情報
が追加される。これは「アドレス」という単語は「拡
張」を伴って使用され、また「拡張」という単語は「機
能」を伴って使用されることがあることを意味してい
る。このような情報の収集は文中から自立語の連続を捜
して、いつも同じ組み合わせになっているものを見付け
ることにより行なわれる。
例文……「M382はM200の上位に位置する大型計算機であ
り、アドレス拡張機能をもつ最新のオペレーティングシ
ステム(MSP)が動作する。アドレス拡張機能とは…
…」 この後、次のような候補文字列を処理することを考え
る。(下線を施した第一候補が誤り)「第一候補文字:
38ドレス拡張機は……」 「第二候補文字:Mる日2あアトひヌ佑帳磯能ほ……」 辞書5を検索することにより、(m387でなく)M382が
選ばれる。(mの第二候補はM、7の第二候補は2であ
り、辞書5にはM382なる単語が存在する) 辞書5を検索することにより、(7ドレスでなく)ア
ドレスが選ばれる。(7の第二候補はアであり、辞書5
にはアドレスなる単語が存在する) テーブル7にアドレス−拡張の組合せが指定されてい
る。後の文字列により確認する。
テーブル7に拡張−機能の組合せが指定されている。
これにより、後を(機能と)選ぶ。
附属語や上のそれぞれは文法的な接続条件を満たすこ
とを確認する。
以上のような方法によれば、(38や拡張機)のよ
うな文法検査だけではうまく処理できない場合でも効率
よく処理できる。
[発明の効果] 以上説明したように本発明は、「文書読み取り装置への
入力となる文書は比較的多量の文を含み、かつ一度に入
力される文書の範囲では単語のつかわれ方が比較的一定
している。」という特徴を利用するものである。
ここで、“単語のつかわれ方”とは、その前後に限定さ
れた語がつながること、同一文中に限定された語が現れ
ること、他の語にくらべて著しく高い頻度であらわれる
こと、をさす。
即ち、本発明においては、文字識別の結果得られた候補
について、 選択された語の前後関係を確認すると共に、 次候補により構成される語の(予想される)出現頻度が
著しく高いものであれば第一候補をすすてる等の処理を
行ない、 また、上記の検査に使われる情報テーブルや辞書を、実
際に読み込まれた文に従って順次更新する等の手段によ
り、より妥当な候補を選択しているので、文字を正確に
読み取ることが可能であり、従来に比し、認識率が大幅
に向上する。また、文書の対象分野によっては、ある種
の語は限定された使用方法をされており、文書の対象分
野が分かっている場合はこのような語を予め登録してお
くことにより、同様の効果を上げることができる利点も
ある。(マニュアルにおける製品名、法律文書における
言回しなどが該当する。)
【図面の簡単な説明】
第1図は本発明の1実施例のブロック図である。 1……入力装置、2……表示部、3……処理部、4……
文字認識用の辞書、5、6、8、9……辞書、7……テ
ーブル、10……出力装置

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】文書を走査して文字を2値データとして読
    み取りプロセッサがそれぞれの文字を認識して文章を読
    み取る装置であって、 対象となる文書において高い頻度で出現することが予想
    される単語を格納しておく辞書(5)と、 対象となる文書において頻繁に出現することが予想され
    るある単語と他の特定の単語との連結使用形態を格納し
    ておく辞書(6)とを具備し、 文字認識の結果得られた候補の文字からなる単語につい
    てプロセッサが上記各辞書を用いて高い頻度で出現する
    単語に該当していないかを調査すると共に他の特定の単
    語との間で頻繁に出現する連結形態での使用が為されて
    いないかを調査して、その結果を個々の文字の認識に際
    する判定条件として用いることを特徴とする文書読み取
    り装置。
JP61214352A 1986-09-11 1986-09-11 文書読み取り装置 Expired - Fee Related JPH07120396B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61214352A JPH07120396B2 (ja) 1986-09-11 1986-09-11 文書読み取り装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61214352A JPH07120396B2 (ja) 1986-09-11 1986-09-11 文書読み取り装置

Publications (2)

Publication Number Publication Date
JPS6368989A JPS6368989A (ja) 1988-03-28
JPH07120396B2 true JPH07120396B2 (ja) 1995-12-20

Family

ID=16654349

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61214352A Expired - Fee Related JPH07120396B2 (ja) 1986-09-11 1986-09-11 文書読み取り装置

Country Status (1)

Country Link
JP (1) JPH07120396B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5754671A (en) * 1995-04-12 1998-05-19 Lockheed Martin Corporation Method for improving cursive address recognition in mail pieces using adaptive data base management

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59117673A (ja) * 1982-12-24 1984-07-07 Comput Basic Mach Technol Res Assoc 文字認識装置における後処理方式
JPH0795337B2 (ja) * 1983-06-16 1995-10-11 株式会社東芝 単語認識方式
JPS6174086A (ja) * 1984-09-18 1986-04-16 Fujitsu Ltd 単語認識装置

Also Published As

Publication number Publication date
JPS6368989A (ja) 1988-03-28

Similar Documents

Publication Publication Date Title
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
JP3427692B2 (ja) 文字認識方法および文字認識装置
JP2713622B2 (ja) 表形式文書読取装置
EP0657840A2 (en) Method of, and apparatus for, character recognition through related spelling heuristics
JP2000293626A (ja) 文字認識方法及び装置ならびに記憶媒体
JPH07120396B2 (ja) 文書読み取り装置
JPH0696288A (ja) 文字認識装置及び機械翻訳装置
JP2002063197A (ja) 検索装置、記録媒体およびプログラム
JP3457376B2 (ja) 光学式読み取り装置における文字修正方法
JP2000132635A (ja) 認識データ確認方法
JP2939945B2 (ja) ローマ字住所認識装置
JPS61133487A (ja) 文字認識装置
JP2784004B2 (ja) 文字認識装置
JPH06333083A (ja) 光学式文字読取装置
JPH06223221A (ja) 文字認識装置
JPH05120471A (ja) 文字認識装置
JP3310063B2 (ja) 文書処理装置
JPS58125183A (ja) 光学文字読取装置における認識不能文字表示方法
JP3929560B2 (ja) 誤記自動修正方法、読取装置、および誤記自動修正プログラムを記録したコンピュータ読み取り可能な記憶媒体
JPH05108703A (ja) 機械翻訳機
JPH11143983A (ja) 文字認識装置、文字認識方法及び文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2957211B2 (ja) 日本語文書校正支援装置
JPH04274580A (ja) 光学文字読取り装置
JPH05298488A (ja) 光学的文字読取装置
JPH0589279A (ja) 文字認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees