JPS60144886A - 文字認識装置における後処理方式 - Google Patents

文字認識装置における後処理方式

Info

Publication number
JPS60144886A
JPS60144886A JP58247820A JP24782083A JPS60144886A JP S60144886 A JPS60144886 A JP S60144886A JP 58247820 A JP58247820 A JP 58247820A JP 24782083 A JP24782083 A JP 24782083A JP S60144886 A JPS60144886 A JP S60144886A
Authority
JP
Japan
Prior art keywords
character
dictionary
post
extracted
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58247820A
Other languages
English (en)
Inventor
Koichi Ejiri
公一 江尻
Michiyoshi Tachikawa
道義 立川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP58247820A priority Critical patent/JPS60144886A/ja
Publication of JPS60144886A publication Critical patent/JPS60144886A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (技術分野) 本発明は、光学的文字読取装置などにおける後処理方式
に関する。
(従来技術) 日本文においては通常「わがち書き」をしないから、光
学的文字読取袋[(OCR)によって日本語の文章を読
取った場合における誤認文字の訂正は容易でない。
このため、従来、かな漢字変換方式に関連して開発され
た2文節最長一致法の技術を通常のOCRにおける誤認
文字の訂正の際に適用することが考えられるが、しかし
、2文節最長一致法を実施するのには長い文字数の単語
辞書を用意することが必要とされ、そのために大量の辞
書の記憶による高価格と、低速処理とが大きな欠点とな
る。
それで、上記した方法に代わる手段として、n個の文字
列の発生確率から、文字列の優位性を選択する方法が試
みられているが、この方法は英文などではかなりの効果
を示すが1日本語の文章については効果が少ない。
(目的) 本発明は、読取部で読取られ文字認識部によって抽出さ
れた候補文字列について前端から順次に文字列を小さい
順に抽出し、その抽出された文字列と単語辞書とを比較
するようにした文字認識装置における後処理方式、及び
、読取部で読取られ文字認識部によって抽出された候補
文字列について前端から順次に文字列を小さい順に抽出
し、その抽出された文字列と単語辞書とを比較するよう
にした文字認識装置における後処理方式において、複数
の候補単語に対しては、各文字の類似度から算出される
文字列の類似度の大きなものを候補単語に決定する文字
認識装置における後処理方式、すなわち、辞書の容量が
小さく、高速判定の可能な文字認識装置における後処理
方式を提供するものである。
(構成) 以下、添付図面を参照して本発明の文字認識装置におけ
る後処理方式の具体的な内容について説明する。
第1図は、本発明の文字認識装置における後処理方式の
一実施例のブロック図であって、1は読取部、2は文字
認識部、3は後処理部、4は辞書ファイルであって、読
取部1によって読取られた画像信号は、文字認識部2に
おいて各文字パターン毎に複数個の候補文字コードに対
応される。
前記した文字コードが1個の場合には、決定コードのあ
いまい性はないが、文字コードが複数個の場合には、後
処理部3において辞書ファイル4と比較することによっ
て、既知単語であるか否かを比較して、辞書にある単語
を出力する。
第2図は、本発明の文字認識装置における後処理方式の
文字列の処理手順を示した流れ図であり、この第2図中
においてCi・は1番目の候補文字のすべてを示してお
り、また、第3図は辞書の一例の内容の一部を示してい
る。
次に、第4図の(a)が読取部1で読取るべき原稿に記
載されている原文であったとし、この第4図の(a)に
示されている原文を読取部1で読取ったときに、文字認
識部2から第4図の(b)に示されている第1の候補文
字、及び、第4VAの(c)に示されている第2の候補
文字、ならびに、第4図の(d)に示されている第3の
候補文字とが得られていた場合を例にして、本発明の文
字認識装置における後処理方式について説明すると次の
とおりである。第4図のCe)は、辞書との参照の様子
を示している。
本発明の文字認識装置における後処理方式は、文字認識
部によって抽出された候補文字列について前端から順次
に文字列を小さい順に抽出し、その抽出された文字列と
単語辞書とを比較するようにし、また、複数の候補単語
に対しては、各文字の類似度から算出される文字列の類
似度の大きなものを候補単語に決定するものであるが、
今、最小単位の文字列を1として後処理が開始されると
、まず、文字列の前端の一字r記」が抽出されて、その
「記」について辞書ファイルと比較される。
今、記述している例の場合に、辞書には「記」が存在し
ていないとすると、次に、2文字の組が抽出されて、「
記憶、記憶9語億1語憶」の4つの可能性がチェックさ
れる。辞書には「記憶」だけが存在しているとすると「
記憶」が出力される。
次に、「装」が辞書と比較されるが、今、記述している
例の場合に、辞書には「装Jがないとすると、「装置」
の2文字の組が抽出され辞書と比較されて「装置」が出
力される。
次いで、「の」、r中」 「に」なとは、前記した「装
置」と同様に第1候補のみであるから、そのまま出力さ
れる。
次に、「ない、なり、はい、はり」の4つの候補単語の
可能性が試みられるが、前記の4つの候補単語のすべて
のものがとも辞書に存在していたとすると、前記した4
つの候補単語において最大類似度(例えば最小距離の和
によって決定される)を示す「ない」が、既述の直前の
決定単語の「に」との接続も可能なために選ばれる。
次いで、「クア、ファ」の2文字の組がチェックされる
が、今、記述している例の場合に、辞書には「クネ、フ
ァJがないとすると、「クアイ、ファイ」の3文字の組
が抽出されて辞書と比較される。
今、記述している例の場合に、辞書には[クアイ、ファ
イ」の3文字の組がないとすると、[クアイル、ファイ
ル」の4文字の組が抽出されて辞書と比較され、その結
果、辞書に存在している「ファイル」が出力される。同
様にしてrの」 [参照」が決定される。
次の文字「が」は、「が」が辞書に存在しており、かつ
、(名詞+接続助詞)という接続関係についても許され
るから「が」が決定される。
今、記述している例の場合に、次の文字列における「行
な」が辞書にあるとすると、これは接続指定VA5(第
3図)により「われ」が決定される(第3図の品詞VA
5は「わ行5段活用動詞」を示すコードである)。単語
辞書の飢を示す第3図において、品詞Nは名詞、Bは助
動詞、VA5は前記のようにわ行5段活用動詞であり、
また、 hl、h2・・・は各単語の発生頻度をそれぞ
れ示している。なお、品詞の接続状態テーブルは、従来
利用されているテーブルと同等であり、各品詞の接続可
能性を示すものである。
本発明の文字認識装置における後処理方式の詳細は、第
2図の流れ図中に示されているとおりである。なお、第
2図中において、nは単語のカウンタの計数値、iは文
字列の計数値、Noは最大比較文字列である。
(効果) 以上、詳細に説明したところから明らかなように1本発
明の文字認識装置における後処理方式は、読取部で読取
られ文字認識部によって抽出された候補文字列について
前端から順次に文字列を小さい順に抽出し、その抽出さ
れた文字列と単語辞書とを比較するようにした文字認識
装置における後処理方式、及び、読取部で読取られ文字
認識部によって抽出された候補文字列について前端から
順次に文字列を小さい順に抽出し、その抽出された文字
列と単語辞書とを比較するようにした文字認識装置にお
ける後処理方式において、複数の候補単語に対しては、
各文字の類似度から算出される文字列の類似度の大きな
ものを候補単語に決定するものであるから1本発明の文
字認識装置における後処理方式によれば、容量の小さな
辞書によって、高速に不確定文字を同定することができ
るのであり、本発明によれば既述の従来方式における諸
欠点を解消できる。
【図面の簡単な説明】
第1図は本発明の文字認識装置における後処理方式の一
実施例のブロック図、第2図は、本発明の文字認識装置
における後処理方式の文字列の処理手順を示した流れ図
、第3図は単語辞書の一例の内容の一部、第4図は原文
と候補文字などを示す図である。 ■・・・読取部、2・・・文字認識部、3・・・後処理
部。 4・・・辞書ファイル、

Claims (1)

  1. 【特許請求の範囲】 1、読取部で読取られ文字認識部によって抽出された候
    補文字列について前端から順次に文字列を小さい順に抽
    出し、その抽出された文字列と単語辞書とを比較するよ
    うにした文字認識装置における後処理方式 2、読取部で読取られ文字認識部によって抽出された候
    補文字列について前端から順次に文字列を小さい順に抽
    出し、その抽出された文字列と単、語辞書とを比較する
    ようにした文字認識装置における後処理方式において、
    複数の候補単語に対しては、各文字の類似度から算出さ
    れる文字列の類似度の大きなものを候補単語に決定する
    文字認識装置における後処理方式
JP58247820A 1983-12-31 1983-12-31 文字認識装置における後処理方式 Pending JPS60144886A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58247820A JPS60144886A (ja) 1983-12-31 1983-12-31 文字認識装置における後処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58247820A JPS60144886A (ja) 1983-12-31 1983-12-31 文字認識装置における後処理方式

Publications (1)

Publication Number Publication Date
JPS60144886A true JPS60144886A (ja) 1985-07-31

Family

ID=17169142

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58247820A Pending JPS60144886A (ja) 1983-12-31 1983-12-31 文字認識装置における後処理方式

Country Status (1)

Country Link
JP (1) JPS60144886A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60217490A (ja) * 1984-04-12 1985-10-31 Toshiba Corp 文字認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60217490A (ja) * 1984-04-12 1985-10-31 Toshiba Corp 文字認識装置

Similar Documents

Publication Publication Date Title
US5610812A (en) Contextual tagger utilizing deterministic finite state transducer
US5161245A (en) Pattern recognition system having inter-pattern spacing correction
US5784489A (en) Apparatus and method for syntactic signal analysis
JPH0682403B2 (ja) 光学式文字読取装置
Gu et al. Markov modeling of mandarin Chinese for decoding the phonetic sequence into Chinese characters
US6219449B1 (en) Character recognition system
JPS60144886A (ja) 文字認識装置における後処理方式
JP2681663B2 (ja) 日本文訂正候補文字抽出方法
JP3924899B2 (ja) テキスト検索装置およびテキスト検索方法
JP2939945B2 (ja) ローマ字住所認識装置
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JP2918380B2 (ja) 文字認識結果の後処理方法
JP2746345B2 (ja) 文字認識の後処理方法
JP2570784B2 (ja) 文書リーダ後処理装置
JPS60134992A (ja) 文字入力装置
JPH0546814A (ja) 文字読み取り装置
JP2917310B2 (ja) 単語照合における単語辞書検索方式
JPH01114976A (ja) 文書処理装置の辞書構造
JP3123181B2 (ja) 文字認識装置
JPH0262659A (ja) 日本文訂正候補文字抽出装置
Mostafa et al. A novel approach for detecting and correcting segmentation and recognition errors in Arabic OCR systems
JPH0614376B2 (ja) 日本文誤字自動検出装置
JPH01281561A (ja) 日本文訂正候補文字抽出方法
JP2000250905A (ja) 言語処理装置及びそのプログラム記憶媒体
JPH0540854A (ja) 文字認識結果の後処理方法