JPH07182465A

JPH07182465A - 文字認識方法

Info

Publication number: JPH07182465A
Application number: JP5323699A
Authority: JP
Inventors: Toru Hisamitsu; 徹久光; Yoshihiro Shima; 好博嶋; Katsumi Marukawa; 勝美丸川; Hiroaki Shimokawabe; 宏明下川部; Yoshihiko Nitta; 義彦新田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1993-12-22
Filing date: 1993-12-22
Publication date: 1995-07-21
Also published as: KR970007281B1; US5768451A; KR950020102A

Abstract

(57)【要約】【目的】文字認識誤りを言語的な知識を用いて補完す
る後処理付き文字認識方法においては、単語辞書の検索
による候補単語の抽出が大きなウェイトを占めるので、
候補文字群を用いて辞書検索を行う手法、及び動詞の活
用形処理のための辞書見出しを工夫することにより、候
補単語抽出の高速化を計る。【構成】 “総当たり法”と“辞書流し込み法”を組み
合わせた“混合法”を用いた単語検索を行う。また、動
詞活用語尾を後続助動詞、助詞の先頭に付加した見出し
語を持つ単語辞書を利用する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、後処理を用いて認識精
度を向上させる手段を持つ文字認識方法に係り、文字認
識装置（以下OCRと称する）を用いて一般文書を自動的
に入力する目的に好適な後処理法に関する。

【０００２】

【従来の技術】OCRを用いて文書を読み取った場合、各
文字パタンごとに複数の候補文字（各候補には、数値化
された確信度が付与される）が得られるが、最も確信度
が高い文字の正解率は通常100％ではなく、また正解が
文字候補に入らない場合もある。このような文字認識性
能の不完全性を補うため、一般文書の読み取り結果につ
いては、通常図１に示す如き構成を用いて修正、補完等
の後処理を行う。

【０００３】文献〔1〕、〔2〕、〔3〕および特開平3-1
25288「単語照合方法」を参考にその概要を述べる：〔1〕杉村利明：候補文字補完と言語処理による漢字
認識の誤り訂正処理法(電子情報通信学会論文誌D-II,Vo
l. J72-D-II, No. 7, pp.993-1000 (1989)) 〔2〕高尾哲康他：日本語文書リーダ後処理の実現と
評価(情報処理学会論文誌、Vol. 30, No. 11, pp.1394-
1401 (1989)) 〔3〕伊藤伸泰他：OCR入力された日本語文の誤り検
出と自動訂正（情報処理学会論文誌、Vol. 33, No. 5,
pp.664-670 (1992)）読み取り対象文書１０１をスキャナ１０２を用いてディ
ジタル画像化し、文字認識部１０３により、文字パタン
の切り出し及び各文字パタンごとに候補文字群（それぞ
れに確信度が付与される）が得られる。この様子を図２
に、入力文字列が“米国産のトウモロコシや…”である
場合を用いて例示した。各行が、各文字パタンに対する
確信度付きの候補文字群を表わす（正解文字を網掛け表
示により示した）。

【０００４】文字認識部１０３の出力は、文字認識後処
理部１０４にて修正、補完される。文字認識後処理部１
０４は、３つの部分から構成される。すなわち、候補文
字調整部１０４４、候補単語抽出部１０４５、候補単語
列抽出部１０４６である。候補文字調整部１０４４は、
候補文字制限処理部１０４４１、候補文字追加処理部１
０４４２からなる。候補文字制限処理部１０４４１は、
確信度があらかじめ定められた値より低い文字を候補文
字から除外する等の除外処理を、候補文字追加処理部１
０４４２は、コンフュージョンマトリックス（confusi
on matrix-文字間の誤認識確率テーブル）１０４１を用
いて、必要な場合候補文字に特定の文字を追加する処理
を行う。候補文字調整部１０４４における処理の詳細
は、例えば上記文献〔1〕に従えば実現できる。候補文
字調整部１０４４の処理を経て、一つの文字パタンごと
に複数個得られる候補文字群は候補単語抽出部１０４５
へ送られ、候補単語の辞書引き処理、照合コスト計算等
が行われる。辞書引き処理部１０４５１では、候補文字
群から生成したインデックスと辞書１０４２を用いて、
入力文に出現した可能性のある単語を抽出し、照合コス
ト計算処理部１０４５２は該候補単語と文字パタンとの
適合性の指標となる照合コストを算出し、{候補単語、
位置情報、照合コスト}の三つ組の集合（以下候補単語
ラティスと称する）を生成し、候補単語列抽出部１０４
６へ送る。

【０００５】図３に、候補単語抽出部１０４５から出力
される候補単語ラティスの模式図を示す。図中のciは、
各候補単語の照合コストであり、種々の手法で算出され
るが、例えば前述の特開平3-125288の方式を用いること
ができる。候補単語ラティスは候補単語列抽出部１０４
６へ送られ、接続検定処理部１０４６１、最尤単語列抽
出処理部１０４６２により、品詞の接続チェック、単語
の頻度、単語間接続尤度等の文法知識１０４３を用いて
最尤単語列が抽出され、端末１０５にて表示される。候
補単語列抽出部１０４６における処理の詳細は、例えば
上記文献〔3〕に従えば実現できる。

【０００６】本発明では、候補文字調整部１０４４、候
補単語列抽出部１０４６、照合コスト計算処理部１０４
５２に関しては方法を特定しないため、以下辞書引き処
理部１０４５１、辞書１０４５について従来方法の詳細
を述べる。

【０００７】・辞書引き方法辞書引き方法は大別して２種類ある。ひとつは、図４に
摸式的に示した方法で、以下では“総当たり法”と呼
ぶ。この手法は、確信度がある条件を満たす（図４の場
合、簡単のため、「最高の確信度を持つ候補文字との確
信度の差dが60以内である」としている。他に、「順位
がK位以内である」等の制約が考えられる）候補文字の
みを用いて、一定の長さL個を超えない範囲で組み合わ
せ、これをインデックスとして単語辞書を検索するもの
である。

【０００８】図４は、図２に示した例の、５文字目以降
に対応する部分に“総当たり法”を適用した場合であ
る。辞書検索の対象となるのは、図５に示したインデッ
クス群であり、図４の太線で示した正解文字列“トウモ
ロコシ”も含まれる（ここでは簡単のためL＝５と仮定
した）。

【０００９】もう一つの方法を、以下で“辞書流し込み
法”と呼ぶ。図６はこの手法を模式的に示す。辞書は、
各単語に、例えば一文字目の文字、二文字目の文字等、
特定の位置の文字をキーとしてアクセス可能な構成にす
る。m文字目から始まる候補単語を抽出するためには、
例えばm番目の文字パタンの候補文字集合のうち、確信
度が第１位の文字で始まる単語群を辞書から抽出して照
合対象単語群とし、これらと候補文字群との間の照合コ
ストを計算して候補単語ラティスを生成する。図７に、
図６の例で先頭一文字目をキーに用いる場合に照合対象
となる単語群を示した。

【００１０】・辞書について辞書検索のためのデータ構造、検索方法については、TR
IE構造、ハッシュ法等高速化のための様々な標準的手法
があるが、本発明ではこれらについては特定しないた
め、説明は割愛する。本発明は見出し語の工夫により後
処理の高速を図るものであり、特に動詞活用形の扱いに
特徴がある。従って、以下では従来の動詞活用形の処理
手法について述べる。

【００１１】従来方式において動詞活用形処理に用いる
辞書見出しには、大別して二種類ある。その一つを、以
下では“活用形展開方式”と称する。“活用形展開方
式”においては、動詞活用は図１０に示したごとく、活
用形を展開した形で見出し語に用いられる。各見出し語
には識別コードが与えられ、単語間の接続可否は、識別
コード間の接続可否を１または０で表現した接続テーブ
ルにより表現されるが、ここでは識別コード、接続テー
ブルの詳細な説明は割愛する。他の一つを、以下では
“活用語尾分離方式”と称する。“活用語尾分離方式”
においては、図１１に示したごとく、動詞活用形は語
幹、語尾に分離される。助動詞や少数の不規則動詞は、
通常活用形に展開して登録される。

【００１２】

【発明が解決しようとする課題】辞書引き、動詞活用処
理における従来方式の問題点を述べる。

【００１３】“総当たり法”の問題点は、dやLが増大す
ると、検索対象インデックス数が指数的に増大し、辞書
引き、及び後続の処理に負担がかかる点である。例え
ば、図４の例では、検索対象となるインデックス数は、
L≦５という応用上短かすぎる設定にもかかわらず、７
５０個にのぼる。

【００１４】“辞書流し込み法”は、インデックス数の
組み合わせ的爆発は起こらないが、一文字目が与えられ
た文字と一致する単語数は、辞書が100,000語程度のと
き、平均して100個を超え(上記文献〔2〕参照)、計算機
の負担はまだ大きい。

【００１５】“活用形展開方式”の問題点は、辞書見出
し数が動詞語幹のみの場合と比べて一万個以上増大する
こと、“辞書流し込み方式”を用いた場合、例えば
“分”のような動詞語幹となりうる漢字が出現するたび
に、すべての活用形の照合コストを計算しなければなら
ないという問題がある。

【００１６】“活用語尾分離方式”の問題点は、分割数
が増大するため、接続チェックの負担が増大することで
ある。

【００１７】上記文献〔2〕によれば、辞書検索、接続
チェックの手間は、後処理全体の７５％を占めるため、
大量の文書に対処するため文字認識後処理の速度を向上
させるには、上記の問題点を解決する必要がある。すな
わち、本発明で解決しようとする課題は、以下の二点で
ある１）辞書引き、候補単語抽出の効率を改善すること。

【００１８】２）活用処理の合理化により、辞書引き、
接続検定の効率を改善すること。

【００１９】

【課題を解決するための手段】本発明では、辞書引き方
法として、“総当たり法”と“辞書流し込み法”の長所
を融合した、以下で“混合法”と称する方法を用いる。
“混合法”とは、辞書を見出しの長さがL個以下の単語
辞書D１とLより大きい単語辞書D２に分割し、長さL個以
下の候補単語は候補文字を組み合わせる“総当たり法”
を用いてD１から抽出し、長さがL＋１以上の候補単語
は、D２に“辞書流し込み法”を適用して抽出する。D２
の構成は、単語の先頭L文字で検索可能にしておく（こ
れはTRIE構造などを用いて容易に実現できる）。

【００２０】また本発明では、活用形処理のための辞書
見出しとして、図１２に示したごとき見出しを持つ辞書
を用いる。すなわち、見出しとして動詞活用形の活用語
尾を該活用形に後接する助動詞語幹、助詞、句読点等の
語頭に付加した文字列を用いる。

【００２１】

【作用】“混合法”において、例えばL＝２と設定すれ
ば、“総当たり法”によって生成される長さ２以下のイ
ンデックスの数は、Lが５の場合に比べても数十分の１
に減少する。また、通常の日本語の辞書の場合、長さが
２以下の単語が過半数をしめ、さらに先頭L文字に関す
る制約を課すことにより、“辞書流し込み法”により得
られる候補単語数（長さ３以上）は、平均数個に減少す
る。このため、“混合法”では、従来方式をそれぞれ単
独で用いた場合に比べ、辞書検索と候補単語抽出の手間
を大幅に減少させることが可能である。

【００２２】従来法と同じ例を用いて具体的にこれを示
すと、図９のごとく、“混合法”による辞書検索回数＝
長さ２以下の検索対象インデックス数＝８、“辞書流し
込み法”により得られる候補単語数は２個となり、あわ
せて１０個に過ぎない。従って、“混合法”では、従来
方法に比べ、辞書引き、候補単語抽出の手間が大幅に減
少している（１／１０〜１／１００）。

【００２３】さらに、本発明における動詞活用形処理の
ための見出し語を利用すれば、動詞語幹と活用語尾、活
用語尾と助動詞（又は助詞）の接続チェックのうち、一
方が必要となくなり、後処理効率をさらに改善すること
ができる。ここで、活用語尾付加によって生じる見出し
語数は１５０個程度に過ぎないので、辞書の規模からは
無視できる。

【００２４】

【実施例】以下、図８に従い、図２の５文字目からの候
補単語を抽出する手続きを例として、“混合法”を用い
た候補単語抽出手続に関する説明を行う。なお、文字パ
タン列は十分に長いものとする。

【００２５】ステップ８０１で、文字の先頭位置pを５
にセットする。

【００２６】ステップ８０２で、“総当たり法”を用い
て生成するインデックスの長さの上限をLにセットす
る。ここではL＝２とする。確信度の低い候補文字を対
象から外して処理速度を上げるため、ステップ８０３
で、インデックス生成に用いる候補文字に関して制約を
設ける。ここでは、d＝６０とする。

【００２７】ステップ８０４１、ステップ８０４２は、
それぞれ“総当たり法”、“辞書流し込み法”により得
られる候補単語に関して、これを候補単語ラティスに登
録するか否かを判定するための照合コストC1、C2の上限
をセットする手続である。この制限は正しい可能性の低
い候補単語を早期に除外し、後処理の効率を高めるため
である。本発明では照合コスト算出法に関しては詳述し
ないが、ここでは簡単のため、「候補単語の各文字が候
補文字集合中に現われる順位−１」の和とする。文字が
候補文字中にない場合、ペナルティとして、順位−１の
代りに１０を用いることにする（但し、候補は最低でも
１０位以上としている）。

【００２８】一般に、pが文字パタン列の末尾に近く、p
から始まる候補単語が比較すべき文字パタンの末尾を超
える場合、照合を打ち切る。図２の候補文字集合を前提
とした場合、単語“トウモロコシ”の照合コストは、１
＋１＋０＋０＋０＝２である。長い単語程、認識誤りが
混入する確率が高いため、C1<C2とするのが合理的であ
る。ここでは簡単のため、C1＝１、C2＝２とする。

【００２９】ステップ８０５で、“総当たり法”のイン
デックスを生成する準備として、インデックスに用いる
文字を各位置ごとにリストするための、領域を初期化す
る。

【００３０】ステップ８０６で、位置pから始まる候補
単語と照合コストの組を記録する領域Candsを初期化す
る。

【００３１】ステップ８０７、ステップ８０８で、０≦
k≦L−１かつp+kが文字パタンの長さを超えないkについ
て、リストLkにインデックス生成の候補となる文字を最
尤候補との確信度の差により選択、登録する。この場
合、文字パタンは十分長いとしたので、０≦k≦L−１な
るkについてp+kは文字パタンの長さを超えないとしてよ
く、上記の例の場合、L0＝{ト、卜}、L1＝{ヴ、ウ、ゥ}
となる。

【００３２】ステップ８０９で、ステップ８０８で生成
したリストを用いて、長さL以下のインデックス集合を
生成する。この場合、インデックスは、図９の表９０１
に示した如く、{ト、卜、トヴ、卜ウ、トゥ、卜ヴ、ト
ウ、卜ゥ}となる。

【００３３】ステップ８１０では、この集合の各要素v
を辞書中で検索するが、この場合はすべてのvについて
辞書中に存在しないので、Candsは空のままである。

【００３４】ステップ８１１では、各vについて、先頭
の２文字がvと一致する長さ３以上の単語を検索し、照
合対象単語を求め、それらの照合コストがC２を超えな
い場合、単語照合コストと組にしてCandsに加える。

【００３５】この場合、まず照合対象単語として、図９
の表９０２に示した２語{トウシューズ、トウモロコシ}
があり、トウシューズの照合コストは３２、トウモロコ
シの照合コストは２となるから、Candsへ加えられる要
素は、（トウモロコシ、２）だけである。

【００３６】一般の場合、pが文字パタン列の末尾に近
く、pから末尾までの長さをL＋１が超えた場合、「最初
のL文字がvと一致する長さL+1以上の単語w」は存在せ
ず、候補単語ラティスには登録されない。

【００３７】辞書に関しては、基本的に図１２に示した
ごとき辞書を用いる。見出し語の長さによる辞書の分
割、高速検索のためのメモリ内への展開法等については
本発明では特定しない。また、これらはワードプロセッ
サ等で利用されている任意の既存技術を用いて実現でき
ることは自明であるため、説明は割愛する。ここでは、
見出し語の構成法について詳述する。

【００３８】動詞活用形と助動詞、動詞活用形と助詞と
の連鎖について、動詞が五段動詞である場合は各活用形
ごとに語幹と動詞活用語尾が分離できるので、分離した
活用語尾を後続する助動詞、または助詞の先頭に付加
し、新たな見出し語を生成する。形容詞、形容動詞につ
いても同様である。一段動詞については活用語尾が無い
ため手続きの対象としない。サ変名詞に後接する“す
る”などの不規則活用の動詞は、少数であるため活用形
に展開する。助動詞は、語幹−活用語尾分離方式とす
る。以上を例示すると、次のようになる。

【００３９】 “分からなかった”→“分か”＋“らな”＋“かった” “赤くなかった”→“赤”＋“くな”＋“かった” “簡単だった”→“簡単”＋“だった” “研究した”→“研究”＋“した” 等から、“らな”、“かった”、“くな”、“だっ
た”、“した”等が登録される。

【００４０】単語の識別コード、接続テーブル等に関す
る説明は割愛する。

【００４１】図８に示した実施例の変形例として、文字
列のマッチング条件を緩めて、先頭L文字が長さLのイン
デックスと完全にマッチしない場合も、辞書検索の対象
とするという方法が考えられる。この場合の手順を図１
３に示した。

【００４２】図８と図１３においては、それぞれステッ
プ８０１→ステップ１３０１、ステップ８０２→ステッ
プ１３０２、ステップ８０３→ステップ１３０３、ステ
ップ８０４１→ステップ１３０４１、ステップ８４２→
ステップ１３０４２、ステップ８０５→ステップ１３０
６、ステップ８０６→ステップ１３０７、ステップ８０
７→ステップ１３０８、ステップ８０９→ステップ１３
１０、ステップ８１０→ステップ１３１１、ステップ８
１２→ステップ１３１４が、同様の処理として対応す
る。

【００４３】以下では、本実施例の特徴について説明す
る。ステップ１３０５は、辞書検索の際のキーに用いる
文字位置をセットする。図８に示した方法との相違は、
図８では、長さがL+1以上の候補単語は、あるインデッ
クスと先頭L文字が一致しなければならなかったが、本
実施例では、先頭L文字のかわりに、１３０５で指定す
る特定位置の文字のうち、少なくても一字が、特定の条
件（ここでは確信度が一位の候補文字と一致する）を満
たす単語を１３０２における照合コストの計算対象と
し、１３１３でその中から候補単語を選択する。例え
ば、１３０５でＳ＝｛１，２｝とした場合、照合コスト
の計算対象となるのは、１文字目、または２文字目が各
位値の第一候補と一致する単語である。

【００４４】図８の説明と同様の例を用いて説明する
と、本実施例において５文字目からの単語照合対象とな
る単語は、１字目が「ト」である単語，または２字目が
「ヴ」からなる単語である。これらの単語数は、長さ３
以上のものに限定されているため通常の流し込み方に比
べて半減するが、図８に述べた方法に比べれば増加す
る。しかし、図８の例とは異なり、たとえ正解文字が候
補中に存在しなくても、正解単語を得る事ができる可能
性が生じる。例えば、「トウモロコシ」の２字目「ウ」
が、候補文字中に存在しない場合も、一字目の一致から
「トウモロコシ」を照合コスト計算対象に選びだし、候
補単語に登録し、正解を発見できる可能性がある。これ
は、図8の実施例では不可能であった。つまり、照合効
率を若干犠牲にしながらも、低品質入力に対して頑健な
システムを構成することができる。照合位置の設定法と
しては、単語の先頭からL文字以内に限る等の、様々な
方法も考えられる。

【００４５】次に、図１２に示した動詞活用形処理のた
めの見出しを持つ辞書の変形例として、活用語尾を助動
詞、助詞に付加するのみならず、より拡張して見出し語
の追加を行う方法が考えられる。その例を図１４に示し
た。本例では、終止形語尾＋句点（１４０２）、接続助
詞＋読点（１４０５）、連用形語尾＋“〜なる”の語幹
（１４０４）、さらに分割してもあまり意味の無い慣用
的なまとまり（１４０１や、１４０３）等の追加が考え
られる。このように、より長いまとまりを見出しとして
保持すれば、文字の部分的な欠落に対処する上で有利で
ある。

【００４６】なお、本願の発明がＣＰＵ、メモリ、入出
力装置よりなるコンピュータにおいて実現されることは
言うまでもなく、これを図面に表現することは省略し
た。

【００４７】録可否を決定する。

【００４８】

【発明の効果】“混合法”を用いて候補単語群を抽出す
ることにより、辞書探索の回数、辞書から得られる候補
単語の数が大幅に減少し、文字認識後処理の効率が大幅
に向上する。

【図面の簡単な説明】

【図１】後処理付きの文字認識方法の概要を示す説明
図。

【図２】後処理前の文字認識結果の例。

【図３】候補文字群と辞書を用いて生成した候補単語ラ
ティスの例。

【図４】候補文字群から候補単語を抽出するための従来
方式（“総当たり法”）の説明図。

【図５】“総当たり法”を用いて生成したインデックス
の例。

【図６】候補文字群から候補単語を抽出するための従来
方式（“辞書流し込み法”）の説明図。

【図７】“辞書流し込み法”を用いて抽出した候補単語
の例。

【図８】本願で提案する“混合方式”を説明する流れ
図。

【図９】“混合方式”を用いた場合の、インデックスと
候補単語の例。

【図１０】従来方式（“活用形展開方式”）を用いた場
合の、動詞活用形処理のための辞書見出しの例。

【図１１】従来方式（“活用語尾分離方式”）を用いた
場合の、動詞活用形処理のための辞書見出しの例。

【図１２】本願で提案する動詞活用形処理のための辞書
見出しの例。

【図１３】図８に示した“混合方式”の変形例。

【図１４】図１２に示した辞書見出しの変形例。

フロントページの続き (72)発明者下川部宏明神奈川県小田原市国府津2880番地株式会社日立製作所ストレージシステム事業部内 (72)発明者新田義彦埼玉県比企郡鳩山町赤沼2520番地株式会社日立製作所基礎研究所内

Claims

【特許請求の範囲】

【請求項１】文字列の画像を含むディジタル画像を入力
し、該文字列部分の画像を個々の文字と推定される部分
画像である文字パタンの列として認識し、各文字パタン
に対して原文字と推定される文字の集合である候補文字
群と、その要素である候補文字とを個々の候補文字に関
する確信度付きで出力すること、文字パタンに対する候補文字集合中から選択した少なく
とも一文字を含む文字列であるインデックスを用いて単
語辞書から０個以上の単語よりなる候補単語群と、その
要素である候補単語とを抽出し、該候補単語群中の指定
された候補単語をw、文字パタン列中の指定された位置
をｐとするとき、少なくともw、ｐを含む情報を用いる
数値算出手続である位置ｐからの単語照合を実行して照
合コストを算出するとともに、少なくともwとｐを含む
情報の集合である候補単語ラティスを記録すること、該候補単語ラティスから最尤候補単語列を算出するこ
と、該単語列の接続により生成される連続文字列を表示する
こと、よりなる後処理を有する後処理付き文字認識方法におい
て、文字パタン中での位置ｐからの単語照合を行う候補単語
を単語辞書から抽出する場合、定められた長さLを超え
ない候補単語は、ｐ番目以降の連続するL個以下の文字
パタンについて、先頭側の文字パタンに対する候補文字
群から順に一文字ずつ選択して生成したインデックスの
全体、またはその部分集合を単語辞書中で検索すること
により抽出し、長さがL+1以上の候補単語は、ｐ1≦・・・
≦ｐkなる自然数の集合P＝{ｐ1、・・・、ｐk}を用い、少
なくても一つのｐi∈Pについて、単語の先頭からｐi文
字目が (ｐ+ｐi)−1番目の文字パタンに対する候補文字
中の、指定された条件を満たす文字の一つと一致する単
語の全体またはその部分集合とすることを特徴とする文
字認識方法。
【請求項２】後処理付き文字認識において、位置ｐから
の単語照合を行う候補単語を単語辞書から抽出する場
合、定められた自然数Lを超えない長さの候補単語は、
ｐ番目以降の連続するL個以下の文字パタンについて、
先頭側の文字パタンに対する候補文字群から順に一文字
ずつ選択して生成したインデックス全体の集合に含まれ
る要素を単語辞書中で検索することにより抽出し、長さ
がLを超える候補単語については、ｐ番目以降の連続す
るL個の文字パタンについて、先頭側の文字パタンに対
する候補文字群から順に一文字ずつ選択して生成した長
さL個のインデックスの集合の要素の一つと、先頭L文字
が指定された条件で一致する単語の全体、または一部分
を単語辞書から抽出することを特徴とする文字認識方
法。
【請求項３】ｐk≦Lであることを特徴とする請求項１記
載の文字認識方法。
【請求項４】L≦３であることを特徴とする請求項２記
載の文字認識方法。
【請求項５】文字列の画像を含むディジタル画像を入力
し、該文字列部分の画像を個々の文字と推定される部分
画像である文字パタンの列として認識し、各文字パタン
に対して原文字と推定される文字の集合である候補文字
群と、その要素である候補文字とを個々の候補文字に関
する確信度付きで出力すること、文字パタンに対する候補文字集合中から選択した少なく
とも一文字を含む文字列であるインデックスを用いて単
語辞書から０個以上の単語よりなる候補単語群と、その
要素である候補単語とを抽出し、該候補単語群中の指定
された候補単語をw、文字パタン列中の指定された位置
をｐとするとき、少なくともw、ｐを含む情報を用いる
数値算出手続である位置ｐからの単語照合を実行して照
合コストを算出するとともに、少なくともwとｐを含む
情報の集合である候補単語ラティスを記録すること、該候補単語ラティスから最尤候補単語列を算出するこ
と、該単語列の接続により生成される連続文字列を表示する
こと、よりなる後処理を有する後処理付き文字認識方法
において、前記単語辞書として、連続して用いられる頻度の高い単
語列を、連続した文字列として見出しに持つ単語辞書を
用いることを特徴とする文字認識方法。
【請求項６】連続して用いられる頻度の高い単語列を、
連続した文字列として見出しに持つ単語辞書を用いるこ
とを特徴とする請求項１記載の文字認識方法。
【請求項７】連続して用いられる頻度の高い単語列を、
連続した文字列として見出しに持つ単語辞書を用いるこ
とを特徴とする請求項２記載の文字認識方法。
【請求項８】動詞語幹とともに、動詞活用形の活用語尾
を該活用形に後接する助動詞語幹、助詞、句読点等の語
頭に付加した文字列を見出しとして持つ単語辞書を用い
ることを特徴とする請求項５記載の文字認識方法。
【請求項９】動詞語幹とともに、動詞活用形の活用語尾
を該活用形に後接する助動詞語幹、助詞、句読点等の語
頭に付加した文字列を見出しとして持つ単語辞書を用い
ることを特徴とする請求項６記載の文字認識方法。
【請求項１０】動詞語幹とともに、動詞活用形の活用語
尾を該活用形に後接する助動詞語幹、助詞、句読点等の
語頭に付加した文字列を見出しとして持つ単語辞書を用
いることを特徴とする請求項７記載の文字認識方法。
【請求項１１】長さがL+1以上の候補単語は、少なくて
も一つのpi∈Pについて、単語の先頭からpi文字目が
(ｐ+ｐi)−1番目の文字パタンの候補文字中で最も確信
度が高い候補文字と一致する単語の全体、またはその部
分集合として抽出することを特徴とする請求項１記載の
文字認識方法。
【請求項１２】長さがLを超える候補単語については、
ｐ番目以降の連続するL個の文字パタンについて、先頭
側の文字パタンに対する候補文字群から順に一文字ずつ
選択して生成した長さLのインデックスの集合の要素の
一つと先頭L文字が完全一致するという条件を満たす単
語の全体または一部分を単語辞書から抽出することを特
徴とする請求項２記載の文字認識方法。