JPH07200744A - 判読困難な文字の識別方法及び装置 - Google Patents

判読困難な文字の識別方法及び装置

Info

Publication number
JPH07200744A
JPH07200744A JP6262120A JP26212094A JPH07200744A JP H07200744 A JPH07200744 A JP H07200744A JP 6262120 A JP6262120 A JP 6262120A JP 26212094 A JP26212094 A JP 26212094A JP H07200744 A JPH07200744 A JP H07200744A
Authority
JP
Japan
Prior art keywords
character
characters
unreadable
identifying
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6262120A
Other languages
English (en)
Inventor
J Johnson William
ウイリアム・ジェー・ジョンソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH07200744A publication Critical patent/JPH07200744A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 走査された文字イメージのストリームに生じ
る判読困難な文字に類似した候補文字のセツトを作成す
ることによつて判読困難な文字を識別する光学式文字読
み取り処理を改善すること。 【構成】 本発明の文字認識処理は、単語(ワード)の
綴りのチエツク処理によつて判読困難な文字に適合する
正しい文字を推理して、不確定に決定された文字だけを
置換する。文字を識別する順序は、より判読困難な文字
を処理する前に、判読がより容易な文字を処理するよう
な順序で、作為的に遂行される。判読困難な文字が識別
されると、識別された文字は、対応する候補文字のセツ
トによつて決められた関係により、関連を持つが異なつ
たテキスト的要素(ワード)中の同じ文字との置換を可
能にする。同じ文字を含む他のワードの関係か、また
は、同じワードに属するという関係によつて判読困難な
他の文字がより識別し易くなる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、光学式文字読み取り技
術、より詳細に言えば、例えば英単語などの綴り(spel
l)を用いたヒユーリステイツク(発見的手法)に関係
する候補文字を判読困難な文字に関連させることによ
り、光学式文字読み取り装置で読み取られた文字の識別
を改良する技術に関する。
【0002】
【従来の技術】文字を識別するための光学式文字読み取
り(OCR)装置の文字識別能力の正確度(確度)は改
善されつつある。然しながら、従来の最良のOCR処理
装置であつても、100パーセントの正確度を与える能
力は備えていない。文字識別の正確度は、どのようなフ
オントが走査されるかとか、走査されたフオントの識別
能力の高低などを含む多くの因子に依存している。手書
き文字、あるいは特殊なフオントの識別確度を改善する
ために用いられる1つの処理方法は、走査された文字イ
メージと比較するためのマスタ文字を作成するために、
複数のサンプル文字の内の1つのサンプル文字、または
平均的なサンプル文字で構成されたトレーニング方法を
使用している。最も適正な文字を選択するために、近似
した文字の正確度を決める処理や、他の候補文字を排除
する処理が使用される。このような処理方法の1つの欠
点は、熟練したユーザではない未経験のユーザを教育す
る必要があることである。第2の欠点は、教育用の資料
を保存するために半永久的な貯蔵場所を設ける必要があ
ることに関している。
【0003】他の文字読み取り処理は文字識別の確度を
改善するために確率的色彩配分(probabilic color dis
tribution)による複数個の文字の文字識別方法を用い
ている。確率的色彩配分の文字識別方法を使用した場
合、ある種の色彩は人間の目では判別が困難であること
が分つている。色彩の区別が誤つて解釈された時とか、
OCR処理手段が特定の文字と関連した色彩を確定でき
ない場合に問題が生じる。他の問題は、印刷インキの変
更とか、天候の変化(温度や、湿度の変化)とか、プリ
ント・ヘツドの位置調節の悪さなどのプリント処理に起
因する色彩データの出力の変動から生じる問題である。
【0004】その結果、従来の技術では識別できなかつ
た文字(character)を読み取ることにより、OCR処
理による文字識別の確度を改善するための処理手順を与
える技術が必要である。
【0005】
【発明が解決しようとする課題】本発明の目的は、ワー
ド(単語)の綴りをチエツクする手段を介して判読困難
な文字を決定することにある。
【0006】本発明の他の目的は、異なつたワード中の
文字について、類似した特徴を識別することによつて文
字読み取りの問題を解決することにある。本発明のこの
特徴によつて、単語の綴りにより1つのワード内の識別
不明文字の問題を解決することによつて、同じ文字が、
他の無関係のワードにも存在する場合、最終的に、他の
無関係のワード内にある判読困難な文字の識別問題を解
決することができる。
【0007】本発明の他の目的は、第2の判読困難な文
字に関係を持つ第1の判読困難な文字がある場合、より
容易に判別することができる第1の判読困難な文字を最
初に識別することによつて、第2の判読困難な文字を識
別することにある。従つて、一方の判読困難な文字が識
別されたならば、他方の判読困難な文字は、より容易に
識別することができる。
【0008】本発明の他の目的は、第1の判読困難な文
字と、第2の判読困難な文字との間の関係が実質的に同
じであるけれども、夫々の文字が未だ識別されていない
場合に、両者の関係を判別することにある。例えば、2
つのワード「scan」と「hat」において発生され
る複数の文字の内の文字「a」を、疑問を残さずに識別
することができない場合、本発明において、文字「a」
を識別することを可能にする。本発明は、文字が未だ識
別できない時点において、例えば「a」、「o」、
「e」、「c」、「r」及び「s」のような候補文字の
リストに対して判読困難な文字「a」を関連させる。そ
の後、ワード「scan」中の判読困難な文字が「a」
であると決定された場合に、ワード「hat」中の判読
困難な文字が未だ判別されていないとしても、ワード
「scan」中の文字「a」は、自動的にワード「ha
t」を推理することができる。何故ならば、「sca
n」中の文字「a」が「hat」中の判読困難な文字と
同じ文字であると決定されたからである。本発明は、2
つのワードを相互に全く関係なく、走査されたイメージ
の逆の領域に与えることができるように、ワードの位置
とは独立して動作する。
【0009】本発明の他の目的は、第1の判読困難なワ
ードと第2の判読困難なワードとの間の関係が、ワー
ド、即ち単語のようなテキスト的要素(textual elemen
t)の同じテキスト的要素に属していることを識別する
ことにある。例えば、判読困難な文字「a」及び「e」
を含むワード「cakes」において、文字「a」が識
別された時、本発明に従つて、ワード「cake」の綴
りから文字「e」が識別可能になる。
【0010】本発明の他の目的は、判読困難な第1の文
字と判読困難な第2の文字との間の関係が、異なつたワ
ードのような異なつたテキスト的要素に属することを判
別して、第1のテキスト的要素を識別することが第2の
テキスト的要素の識別を促進することにある。第1のテ
キスト的要素が識別された時、第1のテキスト的要素に
関連した他の判読困難な文字が識別された文字となり、
この識別された文字は、他のテキスト的要素を参照する
文字セツトにマツプすることができる。他のテキスト的
要素中にある同じ文字を、識別された文字に置き換えた
時、これらの他のテキスト的要素は、より一層識別し易
くなる。例えば、ワード「cakes」が識別可能にな
つた時、識別された文字「e」と同一の文字は、例えば
「he」のような他のワード中の文字と置き換えること
ができ、従つて「he」の綴りを決定することができ
る。本発明を用いなければ、ワード「he」は、「h
i」とか、「ho」とか、または「ha」とかのように
誤つて解釈される可能性が大きい。
【0011】本発明の他の目的は、第1の判読困難な文
字が他の判読困難な文字を含むテキスト的要素に属する
という関係が、そのテキスト的要素を識別した時に識別
されるようになることと、異なつたテキスト的要素の中
に、関連する文字セツト(組)を置換した時に、他の判
読困難な文字が、異なつたテキスト的要素の判別を可能
にすることとにある。
【0012】本発明の他の目的は、本質的に判読困難な
複数の文字を同じ文字セツトとしてグループ化すること
により文字の読み取りを改良することにある。上述の同
じ文字セツトは、本質的に判読困難な複数の文字の間の
関係を定義し、この定義に従つて、同じテキスト的要素
中、または異なつたテキスト的要素中の同じ、または異
なつた判読困難な文字の判別を可能にする。
【0013】本発明の他の目的は、判読困難な文字が構
成文字であるテキスト的要素の判別を容易にするため
に、外見が類似している判読困難な文字を同じ文字セツ
トにグループ化することにある。
【0014】本発明の他の目的は、判読困難な文字が構
成文字であるテキスト的要素の判別を容易にするため
に、同じ候補文字のリストに含まれている判読困難な文
字を、同一の候補文字セツトにグループ化することにあ
る。
【0015】本発明の他の目的は、識別が困難な判読困
難な文字の識別処理を行なう前に、より容易に識別可能
な文字の識別処理を行なうように、候補文字セツトに順
序付けを行なうことにある。文字、またはワードが識別
された後に、新しく識別される文字、またはワードと、
他の文字、または他のワードとの間の関係を知ること
は、その後に識別される文字、またはワードの識別処理
を、より容易に遂行することができる。
【0016】本発明の他の目的は、例えば、左から右へ
進む順序の文字データの配列によつて解釈される従来の
方法とは異なつて、文字を識別するための最適な方法に
よつて決められる順序に従つて、判読困難な文字の識別
処理に関して複数の処理経路を介して遂行させることに
ある。
【0017】本発明の他の目的は、最初の繰り返し処理
経路において、最も確度の高い綴りのステータス(状
態)で開始させ、そして、複数の繰り返し処理経路中の
最終段階の最後の綴りのステータスで終らせることにあ
る。識別に疑問のない明白な文字は、不明確な文字の前
に識別されることになる。類似文字の文字セツトを用い
ることにより、種々の不明確な文字の識別を可能にす
る。文字が、ワードのようなテキスト的要素の中で識別
された後には、他の文字が識別可能になる。全体のイメ
ージは、最適な識別順序で念入りに処理される。
【0018】本発明の他の目的は、2以上の文字が正し
く綴られたワードであると見做された場合のワードを正
しく解釈することにある。
【0019】本発明の他の目的は、ワードの綴りに関す
る問題を解く場合に、意味(context)が不明確な場合
のワードを正しく解釈することにある。
【0020】本発明の他の目的は、最も秀れた文字識別
処理が行なわれるように、他の文字識別手段と結合し、
または他の文字識別手段を組み入れることにある。
【0021】
【課題を解決するための手段】本発明はOCR処理の文
字識別の確度を改善し、従来の技術では判読困難であつ
た文字を識別可能にするものである。本発明の1実施例
はコンピユータ・システムにおいて、文字のイメージを
走査するためのスキヤナを使用しており、OCR文書の
イメージ内の文字をコンピユータ・システムの中に与え
られる文字コードに変換するために、走査されたイメー
ジにOCR処理が適用される。本発明の他の実施例は、
受信されたイメージが、OCR処理によつてコンピユー
タ・システム内の文字コード表示に変換されるコンピユ
ータ・システム中に設置されたフアクシミル・カードを
用いている。OCR処理に使用するための種々のハード
ウエア構成が従来から知られている。これらすべてのハ
ードウエア構成は本発明を適用する装置として用いるこ
とが可能である。本発明において、先ず、文書のイメー
ジ、または文書の一部のイメージが走査される。OCR
処理が文字の識別を行なう。例えば、文書のページ走査
が終わると、OCRの文字分析テーブルのエントリ(記
入項目)によつて参照されるテキスト出力ストリーム内
に、幾つかのアドレスを有するテキスト出力ストリーム
が発生される。OCRの文字分析テーブルのエントリ
は、判読困難な文字に遭遇した時にその文字とマツチさ
せる実際の文字である候補文字を含んでいる。候補文字
のリストは、満足する態様で識別することのできない各
文字と関連される。判読困難な文字リスト中のメンバ文
字が未だ識別されていないとしても、それらのメンバ文
字が同じ文字であるか否かを見るために、それらのメン
バ文字は、常に、相互に比較される。次に、判読困難な
文字リスト中のメンバ文字は、判読困難な文字とマツチ
を行なう基準によつて、等価な候補文字リストを持つ文
字セツトにグループ化される。候補文字リストのセツト
(組)は、候補文字数が少ないセツトから候補文字数の
多いセツトまでの順に順序付けられる。この順番付け
は、識別がより困難な文字を識別する前に、より容易に
識別可能な文字の識別処理をすることができる。従つ
て、1つのワード(単語)内で文字が識別された時、ワ
ードの綴りを用いる利益を利用することによつて、同じ
ワード中にあるより判読困難な文字が自動的に識別可能
になる。同じ文字として識別された候補文字のセツトを
保持することは、その文字が未だ識別されていない場合
でも、1つのワード中の文字認識を可能とし、従つて、
その文字は、無関係の他のワードにおいても識別するこ
とができる。
【0022】候補文字を順序付けした文字セツトが作ら
れた後、候補文字セツト内の候補文字と関連したワード
中の判読困難な文字は、上記の候補文字で適宜に置換さ
れた後、スペル・チエツク・デイクシヨナリ(辞書)の
ワードと比較される。どの文字の適用が最適であるかを
決定するために、候補ワードの綴り(スペル)のステー
タスが関連される。複数の候補文字セツトに関して複数
の経路による処理が遂行され、そして、各文字セツトに
関する新しい処理経路が、正しいワードを推理するため
に、ワードの綴りステータスを用いた新しい方法を使用
する。複数の綴りステータスの内の最後に分類されたス
テータスを用いる前に、ワードの最適な綴りステータス
が使用される。本発明の下では、従来の技術のようにデ
ータ・ストリーム中の文字は左から右へ読み取られな
い。従来とは異なつて、本発明においては、最も容易に
識別可能な文字で開始し、最も識別困難な文字で終了す
るような順序で文字が識別処理される。同じ判読困難な
文字を含むワード、またはワードの集合に対して、夫々
の判読困難な文字の識別処理を完了した後に、文字の訂
正を推理することができる。
【0023】
【実施例】図1を参照すると、本発明の処理動作を説明
する流れ図が示されている。文書の全体のイメージ、ま
たは文書の一部分のイメージが、従来の走査技術を用い
て走査される。従来の走査技術によるイメージの出力ス
トリームは、判読困難な文字を識別するために、後続す
る推理処理によつて用いられるデータの基本的文字セツ
ト(組)を与える。
【0024】ブロツク30において、本発明の処理が開
始され、PLACE_HOLDER_#(位置ホルダ番号)の変数がゼ
ロに初期化される。位置ホルダ番号の変数は、テキスト
出力ストリーム中のすべての判読困難な文字の位置に用
いられるマーカの維持を容易にする。ブロツク32にお
いて、OCR文書のイメージの端部に遭遇するか、また
は、判別困難な文字が見出されるかのいずれかまで、従
来のイメージ走査処理が遂行される。処理ブロツク32
における従来のイメージ走査処理は、判別困難な文字、
つまり判読困難な文字であるという決定が行なわれるま
で、識別されたすべての文字の適当な順序のテキスト出
力ストリームを発生することを含んでいる。ブロツク3
2以降の時点において、後述する処理ブロツク34、3
6、38及び40は、出力ストリーム中の判読困難な文
字の該当するマーカを管理することによつて識別が困難
な文字、即ち判読困難な文字を処理する。判読困難な文
字が本発明によつて処理された後、処理はブロツク32
に戻り、そこで、従来の走査及び出力ストリーム処理に
よつて、適当なテキスト出力ストリーム位置の作成を続
行する。
【0025】処理ブロツク34において、処理手順は、
OCR文書のイメージの終端に到達したか否かをチエツ
クする。若しOCR文書のイメージの終端に到達してい
なければ、このことは、判読困難な文字が発見されたこ
とを表わしている。ブロツク36においては、各判読困
難な文字のための特別のマーカが付されるのを保証する
ために、PLACE_HOLDER_#の変数が1だけ増加される。次
に、ダミー文字が出力ストリーム中に置かれるブロツク
38の処理に進む。ダミー文字は、出力ストリーム中の
有効な文字によつて必要とされるのと同じストレージを
用い、そして、後続の処理において決定される最も適合
した文字によつて置き換えられる。ブロツク40におい
て、「OCR文字分析テーブル」の中に情報が記録され
る。「OCR文字分析テーブル」中に書き込まれる情報
の記録は下記の3つのフイールドを含んでいる。
【0026】 フイールド1 : PLACE_HOLDER_#(位置ホルダ番号) フイールド2 : テキスト出力ストリーム中の文字の
位置番号 フイールド3 : 候補文字に優先性を持たせた文字リ
スト(最も確度の高い文字から最も確度の低い文字まで
を順番に配列した候補文字のリスト)
【0027】ブロツク40の処理が完了した後、処理手
順はブロツク32に戻る。従つて、ブロツク32乃至ブ
ロツク40はOCR文書のイメージ全体を処理するの
で、「OCRの文字分析テーブル」はすべての判読困難
な文字に関する記録を含んでいる。ブロツク34におい
て、若しOCR文書のイメージの終端が検出されたなら
ば、処理手順はブロツク42に進む。ブロツク32乃至
ブロツク40の処理がどのように行なわれるかを示すた
めに、結果として出力されたテキスト出力ストリームの
1つの例を説明すると、この例のブロツク32の処理に
おいて、文字一致に関する許容誤差範囲を厳格にしたの
で、不確実性を持つ多数の判読困難な文字を生じたが、
すべての文字が100パーセントの確度を持つて識別さ
れた。処理ブロツク32において、文字の一致に対して
殆ど絶対的な正確さを要求する強い制限は、確度を高め
るために、正しく識別されるであろう多数の文字を判読
困難な文字として発生する傾向を生じることは、当業者
であれば理解できるであろう。また、処理ブロツク32
において、文字の一致に対して、より低い確度でも良い
という緩慢な制限は、判読困難な文字数を少なくする
が、幾つかの文字を不正確に決定する傾向があることは
当業者であれば理解できるであろう。
【0028】判読困難な幾つかの文字がテキスト出力ス
トリームの中に書き込まれた実施例を以下に説明する。
この実施例において、判読が困難であると決定された文
字は下記の通りである。 1). 「m」、「n」、「y」、「u」及び「v」。 2). 「g」、「j」、「q」及び「y」。 3). 「a」及び「c」。 4). 「f」及び「t」。
【0029】テキスト出力ストリームの実施例。
【表1】
【0030】実際のテキスト出力ストリームは、ダミー
文字に対して16進数、00のようなプリント不可能な
ただ1つの文字だけを含んでいる。「ハツト符号付き数
字」の表記は、「OCRの文字分析テーブル」の対応す
る記録事項について、判読困難文字の読み取りの関連を
容易にするために、上述の例にのみ使用されるものであ
る。下記の表2は発生された「OCRの文字分析テーブ
ル」である。
【0031】
【表2】
【0032】再度、ブロツク42に戻つて説明を続ける
と、上記のOCRの文字分析テーブル中に示された基本
的な情報は、正しい文字を決定するために、後続する処
理において用いられる。表1に示したテキスト出力スト
リームは、後の処理で置換されるダミー文字を含んでい
る。処理ブロツク42を参照して説明される処理は、従
来の種々の文字識別技術と組み合わせて使用できること
は本発明の重要な特徴である。文字が確実に判読できな
い時に、ブロツク42及び後続のブロツクが使用され
る。従来のOCR技術と本発明の技術とを組み合わせる
ことにより、OCR文字分析テーブルの正確度が向上で
きる。
【0033】処理ブロツク42を再度参照して説明する
と、「文字が一致している(Character Match−C
M)」セツト(組)、即ちCMセツトが「OCR文字分
析テーブル」から作成される。各CMセツトは、「OC
R文字分析テーブル」からの記録項目を含んでおり、実
質的に同じ文字として識別される等価な候補文字のリス
トを持つている。この実施例において、ブロツク42の
処理結果として作成されたCMセツトは下記の通りであ
る。
【0034】
【表3】位置ホルダ番号の候補文字リストによつて決め
られたCMセツト 1、3、10 2、7 4、6 5、8 9
【0035】上述のCMセツト2、4、6及び7の各々
が同じ候補文字のリストを持つているのにも拘らず、2
つのグループに分けられているのは、処理ブロツク42
が、後続する文字を比較して、それらのグループが本質
的に異なつていることを見出したからであることには注
意を払う必要がある。この決定をするために、従来のO
CR比較技術と同じ技術を使用することができる。
【0036】処理手順は、処理ブロツク42から処理ブ
ロツク43に進み、ブロツク43において、候補文字リ
スト中の文字数が最も少ないCMセツトから始まり、候
補文字リスト中の文字数が最も多いCMリストで終わる
順位で、CMセツトが分類される。この分類をすること
によつて、識別困難な文字を識別する前に、単純な文字
の識別を行なうことができる。このことは、単純なケー
スを最初に識別することによつて、より困難なケース
が、より容易に識別できることを意味する。従つて、処
理ブロツク43において、処理の優先順位を決める下記
のリストが作成される。
【0037】
【表4】順序付けられたCMセツトのリスト 1) 5、8 2) 9 3) 2及び7 4) 4及び6 5) 1、3及び10
【0038】2つ以上のCMセツトが同数の候補文字を
含む場合、上述のCMセツト1及び2によつて示されて
いるように、それらのCMセツトは、候補文字リストの
順序付けられた位置ホルダ番号の最も小さい参照子番号
から、位置ホルダ番号の最も大きい参照子番号までの順
序に並べられる。若し同数の候補文字を持つ複数のCM
セツトが同数の参照子番号(位置ホルダ番号)を含んで
いるならば、CMセツト中の任意の参照子番号の最も長
いワードを持つCMセツトは、これより短かいワード長
を持つCMセツトよりも高い優先順位を持つ。これは、
CMセツト3及び4により示されている。同数の参照子
を含む複数のCMセツトが同じ長さの参照子番号を含む
ならば、本発明の技術思想を逸脱しない範囲内で、ラン
ダムな優先を含む幾つかの優先順位を選択する。
【0039】ブロツク43からの処理手順は、STATUS2C
HECK変数を、「CORRECTLY SPELLED(正しい綴り)」の
ワードに初期化する処理ブロツク44に進む。STATUS2C
HECK変数は、CMセツト中の候補文字を選択する経路用
の変数として使用される。この「ステータス」は、エデ
イタ・プロダクト(編集用プログラム)において用いら
れているスペル・チエツク・デイクシヨナリ(単語の綴
りをチエツクする辞書)、つまり、テキスト的要素のデ
イクシヨナリから戻つたワードの状態を意味する。第1
の処理経路は、CMセツト中の候補文字を用いて、最も
高い確度を持ち正しく綴られたワードによつて、正しい
文字を決定する。第1の処理経路が、決定された文字を
関連ワードの中に置き換えた時、他の文字を決定する他
の経路の処理が続行される。1つの処理経路が適合した
文字を決定しなければ、判読困難な文字を決定するため
に、次の意味を持つステータスが使用される。このよう
な方式で、同じステータスを有する複数の処理経路が候
補文字の入念な選択を行なう。複数経路式の前の処理経
路によつて識別されなかつた文字を決定するために、他
のステータスを持つ処理経路によつて処理が続けられ
る。図1に示した処理は、ブロツク44から、OUTPUT_C
HANGED変数が「FALSE(誤り)」に初期化されるブロツ
ク46に進む。処理ブロツク46は、現在のCMセツト
の候補文字リストに対して複数の経路を処理するため
に、繰り返し処理ループの最上部を決める。処理経路に
よつて決定される文字がなくなるまで、CMセツトに関
する複数の経路処理が遂行される。次に、処理ブロツク
48において、すべてのCMセツトが処理されたか否か
がチエツクされる。若しその処理が処理ブロツク48の
最初の実行であり、かつ、処理ブロツク32によつてす
べての文字が識別されているならば(即ち、処理ブロツ
ク42及び43の処理結果としてCMセツトの候補文字
リストがなければ)、処理ブロツク48は図2のブロツ
ク80へ進み、次に、ブロツク82へ、そして更に、完
成された出力ストリームが、後続するアプリケーシヨン
に与えられるブロツク84に進む。処理ブロツク48に
おいて、若し1つ以上のCMセツトがあれば、CMセツ
トは未だ処理されておらず、処理はブロツク50に進
む。
【0040】処理ブロツク48の後続する繰り返し処理
において、処理ブロツク48は複数のCMセツト(一致
した文字の組)の内の現在の候補文字リスト中の各候補
文字を処理するために反復処理ループの最上位を定義す
る。若しすべてのCMセツトが、ブロツク46において
開始され反復される処理で未だ処理されていなければ、
処理ブロツク48は処理ブロツク50に進む。処理ブロ
ツク50は、次のセツトを、複数のCMセツトのリスト
から検索する。次に、処理ブロツク52において、現在
のCMセツトからのすべての位置ホルダ参照子(place
holder reference)が処理されたか否かがチエツクされ
る。処理ブロツク52は、特定のCMセツト内ですべて
の位置ホルダ参照子(位置ホルダ番号)を処理するため
の反復処理ループの最上位を決める。ブロツク52にお
いて、若し現在のCMセツトからのすべての位置ホルダ
参照子が処理されていなければ、ブロツク54は次の位
置ホルダ参照子を検索し、次いで、その位置ホルダ参照
子に関連するテキスト的要素(つまり、ワード)が出力
ストリームから検索されるブロツク56に続く。「OC
R文字分析テーブル」の「文字位置」フイールドを使用
することによつて、対応する記録項目から関連するワー
ドが検索される。次に、処理ブロツク58は、「OCR
文字分析テーブル」の同じ位置情報の記録から、対応す
る候補文字リストを検索する。処理ブロツク58は、処
理ブロツク60に進み、処理ブロツク60において、テ
キスト出力ストリームから検索されたワード中の他の未
処理の位置ホルダ参照子のチエツクが行なわれる。1つ
のワードが出力ストリームから検索される時、ブロツク
60において、特別の0の値を持つ文字スペースが検索
される。このワードの前の処理経路はその文字を既に識
別しており、出力ストリーム中にそのワードを置換する
ので、特別の0値を持つ位置ホルダにその文字を重ね書
きする。この場合には、ブロツク60は、そのワードに
おいて未処理(即ち、0インジケータの存在)の文字を
持つただ1つのブロツクである。これとは異なつて、処
理ブロツク60において、若し現在のワード中に、他の
未処理の位置ホルダ参照子が存在しているならば、処理
ブロツク62において、未解決の判読困難な文字の夫々
関連した候補文字リストのために、対応する「OCR文
字分析テーブル」の記録項目が検索される。次に、処理
ブロツク62は、現在のワードのすべての候補文字リス
トからのすべての候補文字に関する処理が行なわれ、そ
のステータスが適宜に集計されるブロツク64に進む。
処理ブロツク60において、若しワード中に他の未処理
の判読困難な文字がなければ、処理手順は処理ブロツク
64に直接に進む。下記の例示において、このワードは
前の処理経路によつて既に決定されており、この場合、
ただ1つのステータスが処理ブロツク64においてログ
(経過記録)されることが示されている。
【0041】現在のワードは1つ、またはそれ以上の判
読困難な文字を含んでおり、判読困難な文字は、「セツ
トi:文字[j,k]」で表示される。この場合、iは
判読困難な文字が属する「CMセツト」番号を表わし、
jはそのCMセツト内の現在の位置ホルダ番号(参照
子)を表わし、そして、kは位置ホルダに関連した候補
文字リストから処理されるべき現在の候補文字を表わ
す。この実施例を参照して説明すると、処理ブロツク6
4の最初の処理が行なわれると、例えば、WordPerfect
(商標)プログラムのバージヨン5.0のスペル・チエ
ツク・アルゴリズムを用いた時、下記のステータスが集
計された。この場合、任意のスペル・チエツク・デイク
シヨナリを使用することができ、そして、走査された特
定のタイプのOCR文書をチエツクした時に、見出され
るワードが最大数になるようなスペル・チエツク・デイ
クシヨナリを用いることが望ましいことは、当業者であ
れば理解できるであろう。
【0042】
【表5】
【0043】処理ブロツク64は、現在処理されている
CMセツト中の次の位置ホルダ番号を処理するブロツク
52に進む。ブロツク52において、若し現在のCMセ
ツト中のすべての位置ホルダが処理されたならば、処理
は図2のブロツク66に続く。上述の実施例を参照して
説明すると、図2の処理ブロツク66の最初の処理にお
いて生じるステータスの集計は、下記の表6のようにな
る。
【0044】
【表6】
【0045】処理ブロツク62において、関連したテキ
スト的要素中に他の判読困難な文字がなかつたので、
「CMセツト1」の位置ホルダ番号8の実行は必要なか
つたことには注意を払う必要がある。
【0046】次に、図2の処理ブロツク66は、STATUS
2CHECK変数により表示されたワードの綴りステータスを
含んでいるワードがあるか否かをチエツクする。処理ブ
ロツク66において最初の実行が行なわれたということ
は、STATUS2CHECK変数が「正しく綴られた(CORRECTLY
SPELLED)」ワードを設定したことを示唆している。上
述の表6において集計された綴りステータスを検査する
と、CMセツトの中で正しく綴られたと決定されたワー
ドは、3個であることが示されている。処理ブロツク6
6において、若し2以上のエントリが、求められた綴り
ステータスを持つているならば、処理手順は競合の確認
を行なうブロツク68に進む。位置ホルダ参照子を処理
している時に、1つ、またはそれ以上のワードが、異な
つた文字を使用しているにも拘らず同じステータスを含
んでいる場合に、競合が生じる。次に、処理ブロツク6
9は、競合状態にあるワードのすべての位置ホルダ参照
子を確認する。若し競合状態があれば、処理手順は、次
のCMセツトの候補文字リストをテストする図1のブロ
ツク48に戻る。若し1つ、またはそれ以上のワードの
位置ホルダ参照子が競合状態になければ、処理手順はブ
ロツク70に進む。上述の表5に示した実施例におい
て、ワード「family」は、位置ホルダ参照子5の
中で正しい綴りを持つただ1つのワードである。これに
反して、位置ホルダ参照子8の中では正しい綴りを持つ
ワードは2個である。従つて、位置ホルダ参照子8は競
合状態にあり、競合マークが付される。ブロツク69は
ブロツク70に進み、処理ブロツク70において、求め
られたステータスを持つ競合状態にないワードの文字が
テキスト出力ストリーム中に置換される。この実施例に
おいて、ワード「family」がテキスト出力ストリ
ーム中に発生される。位置ホルダ参照子8には競合があ
つたので、位置ホルダ参照子8には直接の処理動作は行
なわれない。ブロツク70はブロツク72に進み、処理
ブロツク72において、位置ホルダ参照子5は解決され
たので、位置ホルダ参照子5は「CMセツト1」から除
去される。ワード「family」の中の文字「y」
は、後続する「CMセツト3」に関連する文字の処理を
容易にするために、間接的に処理されることには注意を
向けられたい。次に、処理ブロツク74において、その
CMセツトの中に他の位置ホルダ参照子が含まれている
か否かがチエツクされる。若し他の位置ホルダ参照子が
なければ、そのCMセツトは処理ブロツク76において
削除され、処理手順はブロツク78に進む。処理ブロツ
ク74において、若し他の未処理の位置ホルダ参照子が
存在するならば、処理ブロツク77に進む。この実施例
においては、ブロツク74の最初の処理は、位置ホルダ
参照子8が未だ存在していると決定するので、ブロツク
77に進む。次に、ブロツク77は、その位置ホルダ参
照子のCMセツトで決定された現在の文字を出力ストリ
ームの該当する位置に置き換える。上述の実施例におい
て、文字「f」は、位置ホルダ参照子8で参照されたテ
キスト出力ストリーム中の文字位置に置き換えられる。
この地点までにおいて、このワードが判読困難な他の文
字を含んでいると仮定した場合、文字「f」がこのワー
ドの判読困難な文字の1つの位置に置換されたので、判
読困難な他の文字は、後続の処理で、より容易に決定で
きることには注意を払う必要がある。次に、処理ブロツ
ク78は、OUTPUT_CHANGED変数を「TRUE(正しい)」に
設定し、テキスト出力ストリームに1つ、またはそれ以
上の変更が行なわれたことを表示する。
【0047】実施例のテキスト出力ストリームは下記の
ような文章になる。
【表7】
【0048】第1のCMセツトが処理されたので、順序
付けられたCMセツトのリストは下記のようになる。
【表8】順序付けられたCMセツトのリスト 1) 8 2) 9 3) 2及び7 4) 4及び6 5) 1、3及び10
【0049】次に、処理ブロツク78は図1の処理ブロ
ツク48に戻る。図1を再度参照すると、処理ブロツク
48は、既に説明したように、次のCMセツトの繰り返
し処理を開始する。第2のCMセツトの繰り返し処理の
間で、上述したように、図2のブロツク66の最初の処
理は、下記のステータスを発生する。
【0050】
【表9】
【0051】第2のCMセツト、「CMセツト2」に対
してブロツク48の処理を開始した後、処理ブロツク5
0、52、54、56、58、60、64、52、6
6、68、69、70、72、74、76及び78が上
述したように実行される。次に、ブロツク78は、CM
セツトのリストに関する他の繰り返し処理をする図1の
処理ブロツク48に戻る。「CMセツト2」の中には競
合がなく、そして、テキスト出力ストリームはワード
「have」を形成するために文字「a」で置換され
る。位置ホルダ参照子9は「CMセツト2」に対するた
だ1つの位置ホルダ参照子なので、ブロツク76におい
て、現在のCMセツトのリストからそのCMセツト、
「CMセツト2」が削除される。
【0052】実施例のテキスト出力ストリームは下記の
ような文章になる。
【表10】
【0053】第2のCMセツト、即ち「CMセツト2」
の処理が終わると、順序付けられたCMセツトのリスト
は下記のようになる。
【0054】
【表11】順序付けられたCMセツトのリスト 1) 8 3) 2及び7 4) 4及び6 5) 1、3及び10
【0055】図1の処理ブロツク48を参照して説明を
続けると、現在のCMリストにおいて、他のセツト、つ
まり「CMセツト3」が見出される。処理手順は、「C
Mセツト3」がCMリストから検索される処理ブロツク
50に進む。次に、処理手順は、位置ホルダ参照子2に
対する処理は、夫々、処理ブロツク52、54、56、
58、60及び64を通して実行される。位置ホルダ参
照子7に対する処理は、夫々、処理ブロツク52、5
4、56、58、60及び64を通して実行される。次
に、処理手順は、ブロツク52を介して図2のブロツク
66に続く。図2の処理ブロツク66を参照して説明す
ると、ブロツク66における処理を経た後、下記のステ
ータスがログされる。
【0056】
【表12】
【0057】処理ブロツク66は競合を決定する処理ブ
ロツク68に移行する。次に、ブロツク69は、競合し
ているすべてのエントリについてチエツクを行なう。競
合を持たない位置ホルダ参照子がないという事実は、処
理をブロツク70に進ませる。処理ブロツク70は、両
方の位置ホルダ参照子に対して、テキスト出力ストリー
ム中に「g」を置換する。処理ブロツク72は、そのC
Mセツトから、位置ホルダ参照子を除去する。処理ブロ
ツク74において、そのCMセツトが他の位置ホルダ参
照子を含まないことが決定されたので、ブロツク76に
おいて「CMセツト3」が削除される。次に、処理ブロ
ツク78は、変更されるテキスト出力ストリームに対し
て標識を設定する。この時点において、テキスト出力ス
トリームは下記のようになる。
【0058】
【表13】
【0059】第3のCMセツトが処理されると、順序付
けられたCMセツトのリストは下記のようになる。
【表14】順序付けられたCMセツトのリスト 1) 8 4) 4及び6 5) 1、3及び10
【0060】図1の処理ブロツク48に戻ると、現在、
他のCMセツト、つまり「CMセツト4」が現在のCM
リスト中にある。処理手順は、「CMセツト4」がリス
トから検索されるブロツク50に進む。次に、処理は、
位置ホルダ参照子4に対して、夫々、処理ブロツク5
2、54、56、58、60、62及び64を実行す
る。 処理手順は、位置ホルダ参照子6に対して、夫
々、処理ブロツク52、54、56、58、60、62
及び64を実行する。位置ホルダ参照子6は前の処理経
路によつて解決されているので、位置ホルダ参照子6の
ための処理ブロツク64では未解決の文字はないことに
は注意を喚起する必要がある。図2の処理ブロツク66
を参照して説明すると、ブロツク66の処理の後には、
下記のステータスがログされる(記号#は、1よりも大
きな数か、または1に等しい数を示唆する)。
【0061】
【表15】
【0062】処理ブロツク66は処理ブロツク68に進
み、処理ブロツク68において、位置ホルダ参照子6は
競合を持たないことが決定される。事実、未解決の文字
は全く存在しない。次に、処理ブロツク69は、未処理
の文字のないブロツク70に進む。ブロツク72におい
て、そのCMセツトから位置ホルダ参照子6を除去す
る。次に、ブロツク72はブロツク74を経てブロツク
77に進み、ブロツク77において、文字「y」が位置
ホルダ参照子4の候補文字に代替される。次に、ブロツ
ク78は、既に説明したように、図1のブロツク48に
戻る。この時点で、テキスト出力ストリームは下記のよ
うになる。
【0063】
【表16】
【0064】「CMセツト4」が処理された後には、
「順序付けられたCMセツトのリスト」は下記のように
なる。
【表17】順序付けられたCMセツトのリスト 1) 8 4) 4 5) 1、3及び10
【0065】図1のブロツク48に戻ると、現時点にお
いて、他のCMセツト、即ち「CMセツト5」が現在の
CMリスト中にある。処理手順は、「CMセツト5」が
CMリストから検索される処理ブロツク50に進む。位
置ホルダ参照子1に対して、処理は、夫々、処理ブロツ
ク52、54、56、58、60及び62を通して実行
される。位置ホルダ参照子3に対して、処理は、夫々処
理ブロツク52、54、56、58、60及び62を通
して実行される。位置ホルダ参照子3を処理している間
で、処理ブロツク64においては前の処理経路で解決さ
れた文字があることには注意を払う必要がある。次に、
図2のブロツク66の処理を通つた後に、下記のステー
タスがログされる。
【0066】
【表18】
【0067】処理ブロツク66を経た後に、処理手順は
ブロツク68に進み、処理ブロツク68において、位置
ホルダ参照子10を除いて、すべての位置ホルダ参照子
が競合することが見出される。処理ブロツク70は、位
置ホルダ参照子10に対してテキスト出力ストリーム中
に「m」を置換する。処理ブロツク72はCMセツトか
ら位置ホルダ参照子10を除去する。処理ブロツク74
において、このCMセツトが他の位置ホルダ参照子を含
んでいることが決定されるので、処理ブロツク74は処
理ブロツク77に移行する。次に、処理ブロツク78
は、テキスト出力ストリームが変更されることを示す標
識を設定する。この時点において、テキスト出力ストリ
ームは下記のようになる。
【0068】
【表19】
【0069】CMセツト中の最後の候補文字リストが処
理された後、順序付けられたCMセツトのリストは下記
のようになる。
【表20】順序付けられたCMセツトのリスト 1) 8 4) 4及び6 5) 1及び3
【0070】若しワード「family」が最初に識別
されなかつたとすれば、ワード「my」は、成功裡に識
別されなかつたであろうことには注意を向ける必要があ
る。ワード「my」は、従来の技術においては、「m
e」とか「ma」などに解釈されるであろう。ワード
「my」は、若しCMセツトが適正に順序付けられてい
ないとすれば、本発明の実施例において「mg」と解釈
されたかもしれない。
【0071】処理ブロツク78は図1のブロツク48に
移行し、処理ブロツク48において、現在のCMセツト
のリストの中のすべてのCMセツトが処理されたか否か
が決定される。CMセツトの経路の繰り返し処理の間
で、1つ、またはそれ以上の文字が置換されたので、OU
TPUT_CHANGEDフラグが「TRUE(正しい)」に設定され
る。処理ブロツク80は、現在のCMセツトのリストが
再度処理される図1の処理ブロツク46に移行する。テ
キスト出力ストリームに出力が発生されず、OUTPUT_CHA
NGEDフラグが「FALSE(誤り)」になるまで、処理ブロ
ツク46から処理ブロツク80までの処理が、上述した
ように実行される。現在のCMセツトのリストに関する
第2の経路が処理された後、順序付けられたCMセツト
のリストは、空のリストに変更される。
【0072】OUTPUT_CHANGEDフラグは、現在のCMセツ
トのリストに関する1つ、またはそれ以上の経路処理の
間で「TRUE」に留まる。第3の経路処理が完了すると、
処理ブロツク80において若しOUTPUT_CHANGEDフラグが
「TRUE」でなければ、処理ブロツク82は、処理の間で
残つている他のCMセツトがあるか否かを決定する。若
し他のCMセツトがなければ、処理ブロツク84は、後
続するアプリケーシヨンに、成功裡に完了したテキスト
出力ストリームを転送して、処理を完了する。若し1
つ、またはそれ以上のCMセツトがあれば、処理は図3
の処理ブロツク86に続く。図3の処理ブロツク86を
参照して説明を続けると、若しSTATUS2CHECK変数がCORR
ECTLY_SPELLEDの値と等しければ、そのSTATUS2CHECK変
数は新しいステータス(つまり、1_HIT)に設定され、
そして、CMセツトのリスト中の残りのすべてのCMセ
ツトは、後述するように再処理される。処理ブロツク3
2における処理において、OCR処理が候補文字リスト
中の正しい文字を与えないケースがあり得る。また、処
理ブロツク32において、判読困難な文字がタイプ・ミ
スで生じるケースがあり得る。本発明においては、スペ
ル・チエツク処理を実行する時に、少数の候補文字で、
望ましいステータスを持つCMセツトを処理することに
よつてこのような問題を取り扱つている。これは、OC
R文字分析テーブルの候補文字が、両立しない理由によ
つて誤りとされる場合であつても、テキスト的要素中の
文字の識別を可能とする。処理ブロツク86において、
若しSTATUS2CHECK変数が既に1_HITに設定されているな
らば、処理はブロツク88に進む。OUTPUT_CHANGEDが
「FALSE」にされるまで、処理されている現在のCMセ
ツトのリストが多くのタイプのステータスによつて処理
できるように、多くのタイプのステータスが図3におい
て実施されることを理解することは非常に重要な事柄で
ある。CORRECTLY_SPELLEDと1_HITとは最も好ましい例な
ので、ここで例示されている。ステータスの変化し漸減
する多くのレベルを、本発明の技術思想を逸脱しない範
囲内で適用することができる。1つ、またはそれ以上の
CMセツトが成功裡に処理されなかつたとしても、本発
明は、最終判断をする代替技術に依存する。この実施例
において、若し位置ホルダ参照子10が「CMセツト
5」の中に存在しないならば、「n」、または「m」の
いずれでも、正しく綴られたワードに対して働くので、
「CMセツト5」は推理されなかつたかも知れない。位
置ホルダ参照子10が存在しないものと仮定すると、処
理ブロツク88は、「CMセツト5」の位置ホルダ参照
子1を検索する処理ブロツク100に進むであろう。処
理ブロツク102は、候補文字中の最初の候補文字が最
も高い信頼性(優先順位において)を持つているので、
候補文字リスト中の第1の候補文字を選択する。処理ブ
ロツク104はテキスト出力ストリームの対応位置を更
新し、そして、処理は、次の未処理の位置ホルダ参照子
の処理を行なう処理ブロツク88に進む。処理ブロツク
88において、若し残りの位置ホルダ参照子のすべてが
処理されたならば、処理ブロツク108は後続するアプ
リケーシヨンにテキスト出力ストリームを与え、処理は
終了する。
【0073】走査イメージの実際の処理はCMセツトの
中に多数の位置ホルダ参照子を発生するので、文字の分
析をより正確にすることができることに注意を払うこと
は重要である。上述の実施例は、本発明の処理方法を説
明するための単純な処理方法であることは当業者であれ
ば理解できるであろう。OCR処理の間で、より不明瞭
な文字は処理されるべきより多数の候補文字リストを与
える。CMセツトの中の位置ホルダ参照子をグループ化
することは、どの文字が同じであるが未だ識別されてい
ないことを判別することができるのは注意を払う必要が
ある。この関係を持たせることによつて、他のワードに
おいて判別される同じ文字を含むワードの識別を容易に
することができる。同じワードに属するという単なる文
字関係を持たせることにより、同じワード中の他の文字
が認識されるという文字識別ができる。
【0074】また、OCR文字の分析テーブルは、処理
ブロツク32によつて既に解決された文字に対する位置
ホルダ参照子を含んでいる。このことは、判読困難な文
字を判別する経路を与えるために、既知の文字によつて
類似の候補文字を持つ文字をグループ化することを可能
にする。処理ブロツク60、62及び64の処理動作
は、既に識別された文字とは独立して動作する。
【0075】図4を参照すると、本発明の処理を行なう
光学式文字読み取りシステム200のブロツク図が示さ
れている。光学式文字読み取りシステム200はCPU
204を含むプロセツサ202及びメモリ206を含ん
でいる。プロセツサ202には出力ストリームを作成す
るスキヤナ220が接続されている。加えて、ユーザに
よりデータの入力を行なうためのキーボード216が与
えられている。パーマネント・ストレージ装置は、フロ
ツピ・デイスク装置210の形式で除去可能なストレー
ジ装置と共にハード・デイスク装置208により与えら
れている。プログラム情報及びデータは、フロツピ・デ
イスク212によつて光学式文字読み取りシステムに入
力することができる。また、OCRシステムにおいて、
処理される情報及びデータを、ユーザが目視できるデイ
スプレイ装置218が与えられる。
【0076】まとめとして、本発明の構成に関して以下
の事項を開示する。
【0077】(1)光学式文字読み取りシステムにおい
て発生されるテキスト出力ストリーム中に現われる複数
個の判読困難な文字を識別する方法において、上記複数
個の判読困難な文字を類似した文字のセツトにグループ
化するステツプと、上記類似した文字のセツトを、優先
度を持つ処理順位に順序付けするステツプと、上記判読
困難な文字の各々を候補文字リストに関連付けるステツ
プと、上記複数個の判読困難な文字の内の選択された1
つの文字を含むテキスト的要素の内の最も確度の高いテ
キスト的要素を、テキスト的要素のデイクシヨナリの調
査を介して決定するステツプと、上記デイクシヨナリに
従つて1つのステータスを生じた文字を上記判読困難な
文字の内の上記選択された1つの文字に置換するステツ
プとを含む判読困難な文字の識別方法。 (2)上記複数個の判読困難な文字を類似した文字のセ
ツトにグループ化するステツプは、同じ候補文字リスト
に関連した候補文字を選択するステツプを含む(1)に
記載の判読困難な文字の識別方法。 (3)上記複数個の判読困難な文字を類似した文字のセ
ツトにグループ化するステツプは、上記判読困難な文字
が同じ文字である確度があるか否かを決定するために上
記判読困難な文字の各々を比較した後、判読困難な文字
及び関連した候補文字リストを同じセツトに集合するこ
とを含む(1)に記載の判読困難な文字の識別方法。 (4)上記セツトの順番付けを、優先度を持つ処理順位
に順序付けするステツプは、判読するのがより困難な文
字の認識処理の前に、判読するのがより容易な文字の識
別処理を行なう順番で上記セツトを順序付けることを含
む(1)に記載の判読困難な文字の識別方法。 (5)最も確度の高いテキスト的要素を決定するステツ
プは、第1及び第2のワード中の文字の同じような特徴
を識別することによつて、スペル・チエツク処理を介し
て上記第1のワードを識別し、上記第1のワード中の文
字が発生した可能性を経て第2のワードを識別すること
を含む(1)に記載の判読困難な文字の識別方法。 (6)光学式文字読み取りシステムにおいて判読困難な
文字を識別する正確度を改善する方法において、該改善
方法は、より容易に識別可能であり、かつ第2の判読困
難な文字に関係した第1の判読困難な文字を識別するこ
とによつて第2の判読困難な文字を識別するステツプを
含むことを特徴とする改善方法。 (7)上記関係は上記第1の判読困難な文字で定義され
ることと、上記第2の判読困難な文字は本質的に同じで
あるが、未だ識別されていないこととを含む(6)に記
載の改善方法。 (8)上記関係は上記第1の判読困難な文字で定義され
ることと、上記第2の判読困難な文字は、同じワードの
ような同じテキスト的要素に属することとを含む(6)
に記載の改善方法。 (9)上記関係は上記第1の判読困難な文字で定義され
ることと、第2の判読困難な文字は異なつたテキスト的
要素に属することと、第1のテキスト的要素の識別は第
2のテキスト的要素の識別を容易にすることとを含む
(8)に記載の改善方法。 (10)上記関係は、上記テキスト的要素を識別した後
に識別される他の判読困難な文字を含むテキスト要素
に、上記第1の判読困難な文字が属することと、異なつ
たテキスト的要素中に関連した文字セツトの置換を行な
つた後に、上記他の判読困難な文字が異なつたテキスト
的要素において識別されることとを含む(6)に記載の
改善方法。 (11)判読困難な文字に対して、予め決められた処理
順序で遂行される複数の処理経路を含み、上記第2の判
読困難な文字を識別する処理経路は上記第1の判読困難
な文字を識別する処理経路とは異なつた経路であること
を含む(6)に記載の改善方法。 (12)光学式文字読み取りシステムにおいて発生され
るテキスト出力ストリーム中に現われる複数個の判読困
難な文字を識別する装置において、上記複数個の判読困
難な文字を類似した文字のセツトにグループ化する手段
と、上記類似した文字セツトを、優先度を持つ処理順位
に順序付ける手段と、上記判読困難な文字の各々を候補
文字リストに関連付ける手段と、上記複数個の判読困難
な文字の内の選択された1つの文字を含むテキスト的要
素の内の最も確度の高いテキスト的要素を、テキスト的
要素のデイクシヨナリの調査を介して決定する手段と、
上記デイクシヨナリに従つて1つのステータスを生じた
文字を上記判読困難な文字の上記選択された1つの文字
に置換する手段とを含む判読困難な文字の識別装置。 (13)上記複数個の判読困難な文字を類似した文字の
セツトにグループ化する手段は、同じ候補文字リストに
関連した候補文字を選択する手段を含む(12)に記載
の判読困難な文字の識別装置。 (14)上記複数個の判読困難な文字を類似した文字の
セツトにグループ化する手段は、上記判読困難な文字が
同じ文字である確度があるか否かを決定するために上記
判読困難な文字の各々を比較した後、判読困難な文字及
び関連した候補文字リストを同じセツトに集合する手段
を含む(12)に記載の判読困難な文字の識別装置。 (15)上記セツトの順番付けを、優先度を持つ処理順
位に順序付けする手段は、判読するのがより困難な文字
の認識処理の前に、判読するのがより容易な文字の識別
処理を行なう順番で上記セツトを順序付ける手段を含む
(12)に記載の判読困難な文字の識別装置。 (16)最も確度の高いテキスト的要素を決定する手段
は、第1及び第2のワード中の文字の同じような特徴を
識別することによつて、スペル・チエツク処理を介して
上記第1のワードを識別し、上記第1のワード中の文字
が発生した可能性を経て第2のワードを識別する手段を
含む(12)に記載の判読困難な文字の識別装置。
【0078】
【発明の効果】本発明は、光学式文字読み取り処理によ
り文字を識別する場合、光学文字読み取り装置を用いる
ユーザが特別のトレーニングを要求されることなく、従
来の技術では識別不可能であつた文字をほぼ100パー
セントの正確度で識別可能にする。
【図面の簡単な説明】
【図1】本発明の処理を説明する流れ図である。
【図2】図1の流れ図に続く本発明の処理を説明する流
れ図である。
【図3】図1の流れ図に続く本発明の処理を説明する流
れ図である。
【図4】本発明の動作が遂行される光学式文字読み取り
システムを示すブロツク図である。
【符号の説明】
200 光学式文字読み取りシステム 202 プロセツサ 204 CPU 206 メモリ 208 ハードデイスク・ストレージ装置 210 フロツピ・デイスク装置 212 フロツピ・デイスク 216 キーボード 218 デイスプレイ装置 220 スキヤナ

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】光学式文字読み取りシステムにおいて発生
    されるテキスト出力ストリーム中に現われる複数個の判
    読困難な文字を識別する方法において、 上記複数個の判読困難な文字を類似した文字のセツトに
    グループ化するステツプと、 上記類似した文字のセツトを、優先度を持つ処理順位に
    順序付けするステツプと、 上記判読困難な文字の各々を候補文字リストに関連付け
    るステツプと、 上記複数個の判読困難な文字の内の選択された1つの文
    字を含むテキスト的要素の内の最も確度の高いテキスト
    的要素を、テキスト的要素のデイクシヨナリの調査を介
    して決定するステツプと、 上記デイクシヨナリに従つて1つのステータスを生じた
    文字を上記判読困難な文字の内の上記選択された1つの
    文字に置換するステツプとを含む判読困難な文字の識別
    方法。
  2. 【請求項2】上記複数個の判読困難な文字を類似した文
    字のセツトにグループ化するステツプは、同じ候補文字
    リストに関連した候補文字を選択するステツプを含む請
    求項1に記載の判読困難な文字の識別方法。
  3. 【請求項3】上記複数個の判読困難な文字を類似した文
    字のセツトにグループ化するステツプは、上記判読困難
    な文字が同じ文字である確度があるか否かを決定するた
    めに上記判読困難な文字の各々を比較した後、判読困難
    な文字及び関連した候補文字リストを同じセツトに集合
    することを含む請求項1に記載の判読困難な文字の識別
    方法。
  4. 【請求項4】上記セツトの順番付けを、優先度を持つ処
    理順位に順序付けするステツプは、判読するのがより困
    難な文字の認識処理の前に、判読するのがより容易な文
    字の識別処理を行なう順番で上記セツトを順序付けるこ
    とを含む請求項1に記載の判読困難な文字の識別方法。
  5. 【請求項5】最も確度の高いテキスト的要素を決定する
    ステツプは、第1及び第2のワード中の文字の同じよう
    な特徴を識別することによつて、スペル・チエツク処理
    を介して上記第1のワードを識別し、上記第1のワード
    中の文字が発生した可能性を経て第2のワードを識別す
    ることを含む請求項1に記載の判読困難な文字の識別方
    法。
  6. 【請求項6】光学式文字読み取りシステムにおいて判読
    困難な文字を識別する正確度を改善する方法において、 該改善方法は、より容易に識別可能であり、かつ第2の
    判読困難な文字に関係した第1の判読困難な文字を識別
    することによつて第2の判読困難な文字を識別するステ
    ツプを含むことを特徴とする改善方法。
  7. 【請求項7】上記関係は上記第1の判読困難な文字で定
    義されることと、上記第2の判読困難な文字は本質的に
    同じであるが、未だ識別されていないこととを含む請求
    項6に記載の改善方法。
  8. 【請求項8】上記関係は上記第1の判読困難な文字で定
    義されることと、上記第2の判読困難な文字は、同じワ
    ードのような同じテキスト的要素に属することとを含む
    請求項6に記載の改善方法。
  9. 【請求項9】上記関係は上記第1の判読困難な文字で定
    義されることと、第2の判読困難な文字は異なつたテキ
    スト的要素に属することと、第1のテキスト的要素の識
    別は第2のテキスト的要素の識別を容易にすることとを
    含む請求項8に記載の改善方法。
  10. 【請求項10】上記関係は、上記テキスト的要素を識別
    した後に識別される他の判読困難な文字を含むテキスト
    要素に、上記第1の判読困難な文字が属することと、異
    なつたテキスト的要素中に関連した文字セツトの置換を
    行なつた後に、上記他の判読困難な文字が異なつたテキ
    スト的要素において識別されることとを含む請求項6に
    記載の改善方法。
  11. 【請求項11】判読困難な文字に対して、予め決められ
    た処理順序で遂行される複数の処理経路を含み、上記第
    2の判読困難な文字を識別する処理経路は上記第1の判
    読困難な文字を識別する処理経路とは異なつた経路であ
    ることを含む請求項6に記載の改善方法。
  12. 【請求項12】光学式文字読み取りシステムにおいて発
    生されるテキスト出力ストリーム中に現われる複数個の
    判読困難な文字を識別する装置において、 上記複数個の判読困難な文字を類似した文字のセツトに
    グループ化する手段と、 上記類似した文字セツトを、優先度を持つ処理順位に順
    序付ける手段と、 上記判読困難な文字の各々を候補文字リストに関連付け
    る手段と、 上記複数個の判読困難な文字の内の選択された1つの文
    字を含むテキスト的要素の内の最も確度の高いテキスト
    的要素を、テキスト的要素のデイクシヨナリの調査を介
    して決定する手段と、 上記デイクシヨナリに従つて1つのステータスを生じた
    文字を上記判読困難な文字の上記選択された1つの文字
    に置換する手段とを含む判読困難な文字の識別装置。
  13. 【請求項13】上記複数個の判読困難な文字を類似した
    文字のセツトにグループ化する手段は、同じ候補文字リ
    ストに関連した候補文字を選択する手段を含む請求項1
    2に記載の判読困難な文字の識別装置。
  14. 【請求項14】上記複数個の判読困難な文字を類似した
    文字のセツトにグループ化する手段は、上記判読困難な
    文字が同じ文字である確度があるか否かを決定するため
    に上記判読困難な文字の各々を比較した後、判読困難な
    文字及び関連した候補文字リストを同じセツトに集合す
    る手段を含む請求項12に記載の判読困難な文字の識別
    装置。
  15. 【請求項15】上記セツトの順番付けを、優先度を持つ
    処理順位に順序付けする手段は、判読するのがより困難
    な文字の認識処理の前に、判読するのがより容易な文字
    の識別処理を行なう順番で上記セツトを順序付ける手段
    を含む請求項12に記載の判読困難な文字の識別装置。
  16. 【請求項16】最も確度の高いテキスト的要素を決定す
    る手段は、第1及び第2のワード中の文字の同じような
    特徴を識別することによつて、スペル・チエツク処理を
    介して上記第1のワードを識別し、上記第1のワード中
    の文字が発生した可能性を経て第2のワードを識別する
    手段を含む請求項12に記載の判読困難な文字の識別装
    置。
JP6262120A 1993-12-10 1994-10-26 判読困難な文字の識別方法及び装置 Pending JPH07200744A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/166,200 US5465309A (en) 1993-12-10 1993-12-10 Method of and apparatus for character recognition through related spelling heuristics
US166200 1993-12-10

Publications (1)

Publication Number Publication Date
JPH07200744A true JPH07200744A (ja) 1995-08-04

Family

ID=22602223

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6262120A Pending JPH07200744A (ja) 1993-12-10 1994-10-26 判読困難な文字の識別方法及び装置

Country Status (3)

Country Link
US (1) US5465309A (ja)
EP (1) EP0657840A3 (ja)
JP (1) JPH07200744A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018163441A (ja) * 2017-03-24 2018-10-18 富士ゼロックス株式会社 画像処理装置、及びプログラム
EP4099189A1 (en) 2021-05-31 2022-12-07 Ricoh Company, Ltd. Information processing apparatus, information processing system, and computer-implemented method for information processing

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2611904B2 (ja) * 1992-10-19 1997-05-21 株式会社エイ・ティ・アール視聴覚機構研究所 文字認識装置
US5802205A (en) * 1994-09-09 1998-09-01 Motorola, Inc. Method and system for lexical processing
CA2154952A1 (en) * 1994-09-12 1996-03-13 Robert M. Ayers Method and apparatus for identifying words described in a page description language file
DE69525401T2 (de) * 1994-09-12 2002-11-21 Adobe Systems, Inc. Verfahren und Gerät zur Identifikation von Wörtern, die in einem portablen elektronischen Dokument beschrieben sind
US5812818A (en) * 1994-11-17 1998-09-22 Transfax Inc. Apparatus and method for translating facsimile text transmission
US5970170A (en) * 1995-06-07 1999-10-19 Kodak Limited Character recognition system indentification of scanned and real time handwritten characters
EP0896704A1 (en) * 1996-03-08 1999-02-17 Motorola, Inc. Method and device for handwritten character recognition
CA2326901A1 (en) 1998-04-01 1999-10-07 William Peterman System and method for searching electronic documents created with optical character recognition
US6473524B1 (en) * 1999-04-14 2002-10-29 Videk, Inc. Optical object recognition method and system
US6744938B1 (en) 2000-03-06 2004-06-01 Ncr Corporation Retail terminal utilizing an imaging scanner for product attribute identification and consumer interactive querying
US6616704B1 (en) * 2000-09-20 2003-09-09 International Business Machines Corporation Two step method for correcting spelling of a word or phrase in a document
US7027976B1 (en) * 2001-01-29 2006-04-11 Adobe Systems Incorporated Document based character ambiguity resolution
US7466875B1 (en) * 2004-03-01 2008-12-16 Amazon Technologies, Inc. Method and system for determining the legibility of text in an image
AU2007215636B2 (en) 2006-02-17 2012-04-12 Lumex As Method and system for verification of uncertainly recognized words in an OCR system
US7650035B2 (en) * 2006-09-11 2010-01-19 Google Inc. Optical character recognition based on shape clustering and multiple optical character recognition processes
US7646921B2 (en) * 2006-09-11 2010-01-12 Google Inc. High resolution replication of document based on shape clustering
US8175394B2 (en) * 2006-09-08 2012-05-08 Google Inc. Shape clustering in post optical character recognition processing
US7697758B2 (en) * 2006-09-11 2010-04-13 Google Inc. Shape clustering and cluster-level manual identification in post optical character recognition processing
US20090307003A1 (en) * 2008-05-16 2009-12-10 Daniel Benyamin Social advertisement network
US8504550B2 (en) * 2009-05-15 2013-08-06 Citizennet Inc. Social network message categorization systems and methods
US8554854B2 (en) * 2009-12-11 2013-10-08 Citizennet Inc. Systems and methods for identifying terms relevant to web pages using social network messages
US8615434B2 (en) * 2010-10-19 2013-12-24 Citizennet Inc. Systems and methods for automatically generating campaigns using advertising targeting information based upon affinity information obtained from an online social network
US8612293B2 (en) 2010-10-19 2013-12-17 Citizennet Inc. Generation of advertising targeting information based upon affinity information obtained from an online social network
US9063927B2 (en) 2011-04-06 2015-06-23 Citizennet Inc. Short message age classification
US9002892B2 (en) 2011-08-07 2015-04-07 CitizenNet, Inc. Systems and methods for trend detection using frequency analysis
US9053497B2 (en) 2012-04-27 2015-06-09 CitizenNet, Inc. Systems and methods for targeting advertising to groups with strong ties within an online social network
US9594740B1 (en) 2016-06-21 2017-03-14 International Business Machines Corporation Forms processing system
JP7225548B2 (ja) * 2018-03-22 2023-02-21 セイコーエプソン株式会社 画像処理装置、画像処理方法および画像処理プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3644898A (en) * 1970-04-30 1972-02-22 United Aircraft Corp Information association through logical functions derived from language
US4355302A (en) * 1980-09-12 1982-10-19 Bell Telephone Laboratories, Incorporated Spelled word recognizer
JPS5995682A (ja) * 1982-11-25 1984-06-01 Ricoh Co Ltd 文字認識後処理方式
US4610025A (en) * 1984-06-22 1986-09-02 Champollion Incorporated Cryptographic analysis system
US5133023A (en) * 1985-10-15 1992-07-21 The Palantir Corporation Means for resolving ambiguities in text based upon character context
JPH0682403B2 (ja) * 1986-03-24 1994-10-19 沖電気工業株式会社 光学式文字読取装置
US4991094A (en) * 1989-04-26 1991-02-05 International Business Machines Corporation Method for language-independent text tokenization using a character categorization
US5285505A (en) * 1991-03-11 1994-02-08 International Business Machines Corporation Method and apparatus for improving prototypes of similar characters in on-line handwriting recognition

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018163441A (ja) * 2017-03-24 2018-10-18 富士ゼロックス株式会社 画像処理装置、及びプログラム
EP4099189A1 (en) 2021-05-31 2022-12-07 Ricoh Company, Ltd. Information processing apparatus, information processing system, and computer-implemented method for information processing

Also Published As

Publication number Publication date
EP0657840A3 (en) 1996-01-17
EP0657840A2 (en) 1995-06-14
US5465309A (en) 1995-11-07

Similar Documents

Publication Publication Date Title
JPH07200744A (ja) 判読困難な文字の識別方法及び装置
US5428694A (en) Data processing system and method for forms definition, recognition and verification of scanned images of document forms
US4991094A (en) Method for language-independent text tokenization using a character categorization
EP0439951B1 (en) Data processing
US6721451B1 (en) Apparatus and method for reading a document image
JPS61502495A (ja) 暗号解析装置
CN111274239B (zh) 试卷结构化处理方法、装置和设备
US10963717B1 (en) Auto-correction of pattern defined strings
JPH11316800A (ja) 文字認識方法及び装置
CN107644090B (zh) 一种变更信息处理方法及装置
EP0330170B1 (en) European language processing machine with a spelling correction function
CN113168498A (zh) 语言校正系统及其方法以及系统中的语言校正模型学习方法
US6360197B1 (en) Method and apparatus for identifying erroneous characters in text
JP2000293626A (ja) 文字認識方法及び装置ならびに記憶媒体
JPH0634256B2 (ja) 接触文字切出し方法
EP2138959A1 (en) Word recognizing method and word recognizing program
JPH07152774A (ja) 文書検索方法および装置
US6094484A (en) Isomorphic pattern recognition
JP7021496B2 (ja) 情報処理装置及びプログラム
Mohapatra et al. Spell checker for OCR
JP3398729B2 (ja) キーワード自動抽出装置およびキーワード自動抽出方法
US20140169676A1 (en) Information processing apparatus, information processing method, and computer-readable medium
US20040034836A1 (en) Information partitioning apparatus, information partitioning method, information partitioning program, and recording medium on which information partitioning program has been recorded
US11206335B2 (en) Information processing apparatus, method and non-transitory computer readable medium
JP2529421B2 (ja) 文字認識装置