JPH08138000A - 文字認識方法および装置 - Google Patents

文字認識方法および装置

Info

Publication number
JPH08138000A
JPH08138000A JP6274736A JP27473694A JPH08138000A JP H08138000 A JPH08138000 A JP H08138000A JP 6274736 A JP6274736 A JP 6274736A JP 27473694 A JP27473694 A JP 27473694A JP H08138000 A JPH08138000 A JP H08138000A
Authority
JP
Japan
Prior art keywords
character
word
candidate
dictionary
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6274736A
Other languages
English (en)
Inventor
Toru Hisamitsu
徹 久光
Yoshihiro Shima
好博 嶋
Katsumi Marukawa
勝美 丸川
Hiroaki Shimokawabe
宏明 下川部
Yoshihiko Nitta
義彦 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP6274736A priority Critical patent/JPH08138000A/ja
Publication of JPH08138000A publication Critical patent/JPH08138000A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 文字認識誤りを言語的な知識を用いて補完す
る後処理付き文字認識方法においては、単語辞書の検索
による候補単語の抽出が大きなウェイトを占めるので、
候補文字群を用いて辞書検索を行う手法、及び動詞の活
用形処理のための辞書見出しを工夫することにより、候
補単語抽出の高速化を計る。また、単語照合コストの計
算法を工夫し、誤認識修正精度を向上させる。 【構成】 “候補文字主導型の辞書引き”と“辞書主導
型の辞書引き”を組み合わせた“混合法”を用いた単語
検索を行う。また、動詞活用語尾を後続助動詞、助詞の
先頭に付加した見出し語を持つ単語辞書を利用する。単
語照合コストについては、確信度が総体的に低い文字に
関する照合コストの差より、確信度が総体的に高い文字
に関する照合コストの差を重視する方法を用いる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、後処理を用いて認識精
度を向上させる手段を持つ文字認識方法および装置に係
り、文字認識装置(以下OCRと称する)を用いて一般文
書を自動的に入力する目的に好適な後処理法に関する。
【0002】
【従来の技術】OCRを用いて文書を読み取った場合、各
文字パタンごとに複数の候補文字(各候補には、数値化
された確信度が付与される)が得られるが、最も確信度
が高い文字の正解率は通常100%ではなく、また正解が
文字候補に入らない場合もある。このような文字認識性
能の不完全性を補うため、一般文書の読み取り結果につ
いては、通常図1に示す如き構成を用いて修正、補完等
の後処理を行う。
【0003】文献〔1〕、〔2〕、〔3〕および特開平0
3−125288を参考にその概要を述べる: 〔1〕
杉村 利明:候補文字補完と言語処理による漢字認識の
誤り訂正処理法(電子情報通信学会論文誌D-II,Vol. J72
-D-II, No. 7, pp.993-1000(1989)) 〔2〕 高尾 哲康 他:日本語文書リーダ後処理の実現と
評価(情報処理学会論文誌、Vol. 30, No. 11, pp.1394-
1401 (1989)) 〔3〕 伊藤 伸泰 他:OCR入力された日本語文の誤り検
出と自動訂正(情報処理学会論文誌、Vol. 33, No. 5,
pp.664-670 (1992)) 読み取り対象文書101をスキャナ102を用いてディ
ジタル画像化し、文字認識部103により、文字パタン
の切り出し及び各文字パタンごとに候補文字群(それぞ
れに確信度が付与される)が得られる。この様子を図2
(a)に、入力文字列が“米国産のトウモロコシや…”で
ある場合を用いて例示した。確信度は通常0以上1以下
の実数であるが、例では、これを0から255の正数値
にデジタイズしたものを用いている。各行が、各文字パ
タンに対する確信度付きの候補文字群を表わす(正解文
字を網掛け表示により示した)。図15は、韓国語の例
である。正解文字列を図2(a)と同じく網掛けにより示
してある(正解文字列は、“図書館へ行く”という意味
である。韓国語は分かち書きを行うので、“図書館へ”
に対応する部分と、“行く”に対応する部分のあいだに
空白がある)。
【0004】文字認識部103の出力は、文字認識後処
理部104にて修正、補完される。文字認識後処理部1
04は、3つの部分から構成される。すなわち、候補文
字調整部1044、候補単語抽出部1045、候補単語
列抽出部1046である。候補文字調整部1044は、
候補文字制限処理部10441、候補文字追加処理部1
0442からなる。候補文字制限処理部10441は、
確信度があらかじめ定められた値より低い文字を候補文
字から除外する等の除外処理を、候補文字追加処理部1
0442は、コンフュージョン マトリックス(confusi
on matrix-文字間の誤認識確率テーブル)1041を用
いて、必要な場合候補文字に特定の文字を追加する処理
を行う。候補文字調整部1044における処理の詳細
は、例えば上記文献〔1〕に従えば実現できる。図2(b)
は、図2(a)のごとき候補文字群に、候補文字制限処理
を施した結果の一例である。候補文字調整部1044の
処理を経て、一つの文字パタンごとに複数個得られる候
補文字群は候補単語抽出部1045へ送られ、候補単語
の辞書引き処理、照合コスト計算等が行われる。辞書引
き処理部10451では、候補文字群から生成したキー
と辞書1042を用いて、入力文に出現した可能性のあ
る単語を抽出し、照合コスト計算処理部10452は該
候補単語と文字パタンとの適合性の指標となる照合コス
トを算出し、{候補単語、位置情報、照合コスト}の三つ
組の集合(以下候補単語ラティスと称する)を生成し、
候補単語列抽出部1046へ送る。
【0005】図3に、図2(a)の候補文字集合を用いて
候補単語抽出部1045から出力される候補単語ラティ
スの模式図を示す。図16は、図15の候補文字集合を
用いて候補単語抽出部1045から出力される候補単語
ラティスの模式図である。図中のciは、各候補単語の照
合コストであり、種々の手法で算出されるが、例えば前
述の文献〔1〕の方式を用いることができる。候補単語
ラティスは候補単語列抽出部1046へ送られ、接続検
定処理部10461、最尤単語列抽出処理部10462
により、品詞の接続チェック、単語の頻度、単語間接続
尤度等の文法知識1043を用いて最尤単語列が抽出さ
れ、端末105にて表示される。候補単語列抽出部10
46における処理の詳細は、例えば上記文献〔3〕に従
えば実現できる。
【0006】本発明では、候補文字調整部1044に関
しては方法を特定しないため、まず、辞書引き処理部1
0451、辞書1045について従来方法の詳細を述べ
る。
【0007】・辞書引き方法 辞書引き方法は大別して2種類ある。ひとつは、図4に
摸式的に示した方法で、以下では“候補文字主導型の辞
書引き”と呼ぶ。この手法は、確信度がある条件を満た
す(図4の場合、簡単のため、「最高の確信度を持つ候
補文字との確信度の差dが60以内である」としている。
他に、「順位がK位以内である」等の制約が考えられ
る)候補文字のみを用いて、一定の長さL個を超えない
範囲で組み合わせ、これをキーとして単語辞書を検索す
るものである。
【0008】図4は、図2に示した例の、5文字目以降
に対応する部分に“候補文字主導型の辞書引き”を適用
した場合である。辞書検索の対象となるのは、図5に示
したキー群であり、図4の太線で示した正解文字列“ト
ウモロコシ”も含まれる(ここでは簡単のためL=5と
仮定した)。
【0009】もう一つの方法を、以下で“辞書主導型の
辞書引き”と呼ぶ。図6はこの手法を模式的に示す。辞
書は、各単語に、例えば一文字目の文字、二文字目の文
字等、特定の位置の文字をキーとしてアクセス可能な構
成にする。m文字目から始まる候補単語を抽出するため
には、例えばm番目の文字パタンの候補文字集合のう
ち、確信度が第1位の文字で始まる単語群を辞書から抽
出して照合対象単語群とし、これらと候補文字群との間
の照合コストを計算して候補単語ラティスを生成する。
図7に、図6の例で先頭一文字目をキーに用いる場合に
照合対象となる単語群を示した。
【0010】・辞書について 辞書検索のためのデータ構造、検索方法については、TR
IE構造、ハッシュ法等高速化のための様々な標準的手法
があるが、本発明ではこれらについては特定しないた
め、説明は割愛する。本発明は見出し語の工夫により後
処理の高速を図るものであり、特に動詞活用形の扱いに
特徴がある。従って、以下では従来の動詞活用形の処理
手法について述べる。
【0011】従来方式において動詞活用形処理に用いる
辞書見出しには、大別して二種類ある。その一つを、以
下では“活用形展開方式”と称する。“活用形展開方
式”においては、動詞活用は図10に示したごとく、活
用形を展開した形で見出し語に用いられる。各見出し語
には識別コードが与えられ、単語間の接続可否は、識別
コード間の接続可否を1または0で表現した接続テーブ
ルにより表現されるが、ここでは識別コード、接続テー
ブルの詳細な説明は割愛する。他の一つを、以下では
“活用語尾分離方式”と称する。“活用語尾分離方式”
においては、図11に示したごとく、動詞活用形は語
幹、語尾に分離される。助動詞や少数の不規則動詞は、
通常活用形に展開して登録される。
【0012】次に、照合コスト計算処理部10452、
候補単語列抽出部1046に関して説明する。
【0013】例として、図17に示した、“車体が良
い。”という文字列を認識した結果の候補文字集合を用
いて、誤認識を修正する場合を用いる。図18は、図1
7の候補文字集合から生成した候補単語ラティスを示し
ている。
【0014】候補単語ラティスの単語を、重なりなく、
しかも文頭から文末まで覆うよう組み合わせて得られる
単語列w1・…・w n に対しては、一般に、照合コストg
(w1・…・w n)と、単語の並びとしての評価値(これを
言語的コストと呼ぶ)f(w1・…・w n )が付与され
る。
【0015】gは、(数1)で表わされるように、各単
語ごとの単語照合コストc(wi)の和で定義される。
【0016】
【数1】
【0017】w=C1C2…Cmの単語照合コストc(w)は、単
語を構成する各文字の文字照合コストの和として表わさ
れる。Ciと照合されるべき候補文字群をSi={(Ci1, Vi
1), ..., (Cil, Vil,), ..., (CiN, ViN)}としたとき、
CiとSiとの照合コストをK(Ci,Si)として、c(w)は(数
2)で定義される。図18では、文献〔3〕の単語照合
コストを用いている。
【0018】
【数2】
【0019】すなわち、第m位として認識された文字に
は(m−1)を照合コストとして与え、ある語wの照合コ
ストg(w)は、それを構成する文字ごとの照合コストの和
とする方法である。以下、これを便宜上順位利用法と称
する。
【0020】一方、fとしては、図19に示した関数mを
用いて、(数3)のように定義できる。
【0021】
【数3】
【0022】ここで@は、言語的コストを計算するため
に仮想的に用いる、文頭を表わす記号。
【0023】この2種類のコストを総合的に評価するた
め、従来、適当な正数αを用いて、コスト関数 Fをαg
+fの形で定義し、実験により適当なαを定めていた。
図17、図18の例の場合、言語的コストが最低になる
単語列は、 A1=(車体、名詞) / (が、助詞1) / (良、用言語幹) /
(い、終止形活用語尾)/ (。、読点) A2=(単作、名詞) / (が、助詞1) / (良、用言語幹) /
(い、終止形活用語尾)/ (。、読点) の二つであり(文頭は省略した)、言語的コストは f(A1)
= f(A2) = 7である。一方、照合コストは、g(A1) =
4、g(A2) = 3である。
【0024】一方、照合コストが最小となる単語列は、 A3=(単作、名詞) / (か、助詞3) / (良、用言語幹) /
(い、終止形活用語尾)/ (。、読点) であり、g(A3)=2である。一方、 言語的コストは f(A3)
= 9である。
【0025】従って、この場合、例えばα=0.5とすれ
ば、F = 0.5* f + g より、F(A1)= 9, F(A2) = 8.5,
F(A3) = 10となり、最尤解はA2となり、出力される文字
列は“単作が良い”となる。
【0026】すなわち、3文字目の‘か’、5文字目の
‘ぃ’は、各々正しい文字‘が’、‘い’に置換され、
後処理効果が生じている。しかし、この場合、1文字目
の‘車’が、‘単’に誤置換置換されている。
【0027】ここで、単語照合コストとして、第m位と
して認識された文字のコストを、(第1位の文字の確信
度−第m位の文字の確信度)とし、ある語wの照合コスト
g(w)は、それを構成する文字ごとの照合コストの和とす
る方法を用いる(以下、これを便宜上確信度差分法と称
する)と、照合コストは、g(A1) = 30、g(A2) = 30、g
(A2) = 10 となり、α=0.05 とすれば、F = 0.05*f +
g より、F(A1) = 8.5,F(A2) = 8.5, F(A3) = 9.5とな
る。この手法は、順位利用法より、確信度の差を良く反
映でき、より精度の高いコスト関数となることが予想さ
れ、実際正解であるA1が、コスト最小解に含まれる。し
かし、コスト最小解は複数個(A1とA2)となり、どちら
を出力すべきかは決められない。A2を出力した場合、上
記の場合と同様、誤置換が生じる。これは、αを調整し
てもなくすことはできない。
【0028】
【発明が解決しようとする課題】
・辞書引き法について 辞書引き、動詞活用処理、照合コスト計算処理における
従来方式の問題点を述べる。
【0029】“候補文字主導型の辞書引き”の問題点
は、dやLが増大すると、検索対象キー数が指数的に増大
し、辞書引き、及び後続の処理に負担がかかる点であ
る。例えば、図4の例では、検索対象となるキー数は、
L≦5という応用上短かすぎる設定にもかかわらず、7
50個にのぼる。
【0030】“辞書主導型の辞書引き”は、キー数の組
み合わせ的爆発は起こらないが、一文字目が与えられた
文字と一致する単語数は、辞書が100,000語程度のと
き、平均して100個を超え(上記文献〔2〕参照)、計算機
の負担はまだ大きい。
【0031】・動詞活用処理について “活用形展開方式”の問題点は、辞書見出し数が動詞語
幹のみの場合と比べて一万個以上増大すること、“辞書
主導型の辞書引き”を用いた場合、例えば“分”のよう
な動詞語幹となりうる漢字が出現するたびに、すべての
活用形の照合コストを計算しなければならないという問
題がある。
【0032】“活用語尾分離方式”の問題点は、分割数
が増大するため、接続チェックの負担が増大することで
ある。
【0033】上記文献〔2〕によれば、辞書検索、接続
チェックの手間は、後処理全体の75%を占めるため、
大量の文書に対処するため文字認識後処理の速度を向上
させるには、上記の問題点を解決する必要がある。すな
わち、本発明で解決しようとする課題は、以下の二点で
ある 1)辞書引き、候補単語抽出の効率を改善すること。
【0034】2)活用処理の合理化により、辞書引き、
接続検定の効率を改善すること。
【0035】・照合コスト計算処理について 従来の方法として、2種類の単語照合コスト計算方法を
見た。順位利用法では、順位が1違い確信度の近接して
いる候補文字の対と、順位が1違い確信度が離れている
候補文字の対を、どちらもコスト1の差としてしか取り
扱えない。確信度差分法は、候補文字の確信度の差を反
映するが、まだ次の点で問題がある。すなわち、図17
の1文字目のように、確信度が総じて低い場合、確信度
の差はあまり意味が無いが、2文字目のように確信度が
総じて高い場合、確信度の差は確信度の差が総体的に低
い場合と比べて意味がある。確信度差分法は、この違い
を捕えられない点で問題があり、この結果、最小コスト
解が絞り切れない問題が生じたものと考えられる。
【0036】
【課題を解決するための手段】
・辞書引き法について 本発明では、辞書引き方法として、“候補文字主導型の
辞書引き”と“辞書主導型の辞書引き”の長所を融合し
た、以下で“混合法”と称する方法を用いる。“混合
法”とは、辞書を見出しの長さがL個以下の単語辞書D1
とLより大きい単語辞書D2に分割し、長さL個以下の候
補単語は候補文字を組み合わせる“候補文字主導型の辞
書引き”を用いてD1から抽出し、長さがL+1以上の候
補単語は、D2に“辞書主導型の辞書引き”を適用して
抽出する。D2の構成は、単語の先頭L文字で検索可能に
しておく(これはTRIE構造などを用いて容易に実現でき
る)。
【0037】・動詞活用処理について 本発明では、活用形処理のための辞書見出しとして、図
12に示したごとき見出しを持つ辞書を用いる。すなわ
ち、見出しとして動詞活用形の活用語尾を該活用形に後
接する助動詞語幹、助詞、句読点等の語頭に付加した文
字列を用いる。
【0038】・照合コスト計算処理について 本発明では、候補文字の確信度が総体的に高い場合の確
信度の差を、候補文字の確信度が総体的に高い場合の確
信度の差より重視するという考え方を用いる。これを実
現するため、文字照合コストを以下のようにする。すな
わち、単語を構成する各文字の文字照合コストの計算に
おいて、該文字をC、該文字と照合されるべき候補文字
群Sを{(C1, V1), ..., (Ci, Vi), ..., (CN, VN)}とし
たとき、CとSとの総合コストを、以下で述べる性質を持
つ関数K(C, S)を用いて計算する:K(C, S)は、C = Ci
の場合、K(C, S) = α・G1(V0, V1, Vi); C = Ci と
なるiがない場合、K(C, S) = G2(VN)、ここで、α、β
は正定数、V0は確信度の最大値、0≦VN≦…≦V1≦V0、G
1(V0, V1, Vi)は、(V0 - V1)が大きくなるにしたがって
減少し、(V1 - Vi)が大きくなるにしたがって増大する
正値関数、G2は、VNの値の単調非減少関数。
【0039】
【作用】 ・辞書引き法について “混合法”において、例えばL=2と設定すれば、“候
補文字主導型の辞書引き”によって生成される長さ2以
下のキーの数は、Lが5の場合に比べても数十分の1に
減少する。また、通常の日本語の辞書の場合、長さが2
以下の単語が過半数をしめ、さらに先頭L文字に関する
制約を課すことにより、“辞書主導型の辞書引き”によ
り得られる候補単語数(長さ3以上)は、平均数個に減
少する。このため、“混合法”では、従来方式をそれぞ
れ単独で用いた場合に比べ、辞書検索と候補単語抽出の
手間を大幅に減少させることが可能である。
【0040】従来法と同じ例を用いて具体的にこれを示
すと、図9のごとく、“混合法”による辞書検索回数=
長さ2以下の検索対象キー数=8、“辞書主導型の辞書
引き”により得られる候補単語数は2個となり、あわせ
て10個に過ぎない。従って、“混合法”では、従来方
法に比べ、辞書引き、候補単語抽出の手間が大幅に減少
している(1/10〜1/100)。
【0041】・動詞活用処理について さらに、本発明における動詞活用形処理のための見出し
語を利用すれば、動詞語幹と活用語尾、活用語尾と助動
詞(又は助詞)の接続チェックのうち、一方が必要でな
くなり、後処理効率をさらに改善することができる。こ
こで、活用語尾付加によって生じる見出し語数は150
個程度に過ぎないので、辞書の規模からは無視できる。
【0042】・照合コスト計算処理について 例えば、先の課題を解決するための手段の項で述べたK
において、β=1、G1(V0, V1, Vi)={Max{(V1 - Vsh),
0}}・(V1 - Vi)/(V0 - Vsh), Vsh = 90, V0 =255 と
すると、先の従来の技術の項で述べた単語列A1, A2 に
対し、g(A1) ≒ 20.8, g(A2) ≒ 14.8となる。gを最小
とする単語列は、 A4=(車体、名詞) / (か、助詞3) / (良、用言語幹) /
(い、終止形活用語尾)/ (。、読点) であり、 g(A4) ≒ 7.6 である。α=0.1と置くことに
より、Fの最小コスト解はA1のみである。この結果、す
べての認識誤りを正しく置換することができる。
【0043】
【実施例】
・辞書引き法について 以下、図8に従い、図2の5文字目からの候補単語を抽
出する手続きを例として、“混合法”を用いた候補単語
抽出手続に関する説明を行う。なお、文字パタン列は十
分に長いものとする。
【0044】ステップ801で、文字の先頭位置pを5
にセットする。
【0045】ステップ802で、“候補文字主導型の辞
書引き”を用いて生成するキーの長さの上限をLにセッ
トする。ここではL=2とする。確信度の低い候補文字
を対象から外して処理速度を上げるため、ステップ80
3で、キー生成に用いる候補文字に関して制約を設け
る。ここでは、d=60とする。
【0046】ステップ8041、ステップ8042は、
それぞれ“候補文字主導型の辞書引き”、“辞書主導型
の辞書引き”により得られる候補単語に関して、これを
候補単語ラティスに登録するか否かを判定するための照
合コストC1、C2の上限をセットする手続である。この制
限は正しい可能性の低い候補単語を早期に除外し、後処
理の効率を高めるためである。本発明では照合コスト算
出法に関しては詳述しないが、ここでは簡単のため、
「候補単語の各文字が候補文字集合中に現われる順位−
1」の和とする。文字が候補文字中にない場合、ペナル
ティとして、順位−1の代りに10を用いることにする
(但し、候補は最低でも10位以上としている)。
【0047】一般に、pが文字パタン列の末尾に近く、p
から始まる候補単語が比較すべき文字パタンの末尾を超
える場合、照合を打ち切る。図2の候補文字集合を前提
とした場合、単語“トウモロコシ”の照合コストは、1
+1+0+0+0=2である。長い単語程、認識誤りが
混入する確率が高いため、C1<C2とするのが合理的であ
る。ここでは簡単のため、C1=1、C2=2とする。
【0048】ステップ805で、“候補文字主導型の辞
書引き”のキーを生成する準備として、キーに用いる文
字を各位置ごとにリストするための、領域を初期化す
る。
【0049】ステップ806で、位置pから始まる候補
単語と照合コストの組を記録する領域Candsを初期化す
る。
【0050】ステップ807、ステップ808で、0≦
k≦L−1かつp+kが文字パタンの長さを超えないkについ
て、リストLkにキー生成の候補となる文字を最尤候補と
の確信度の差により選択、登録する。この場合、文字パ
タンは十分長いとしたので、0≦k≦L−1なるkについ
てp+kは文字パタンの長さを超えないとしてよく、上記
の例の場合、L0={ト、卜}、L1={ヴ、ウ、ゥ}となる。
【0051】ステップ809で、ステップ808で生成
したリストを用いて、長さL以下のキー集合を生成す
る。この場合、キーは、図9の表901に示した如く、
{ト、卜、トヴ、卜ウ、トゥ、卜ヴ、トウ、卜ゥ}とな
る。
【0052】ステップ810では、この集合の各要素v
を辞書中で検索するが、この場合はすべてのvについて
辞書中に存在しないので、Candsは空のままである。
【0053】ステップ811では、各vについて、先頭
の2文字がvと一致する長さ3以上の単語を検索し、照
合対象単語を求め、それらの照合コストがC2を超えな
い場合、単語照合コストと組にしてCandsに加える。
【0054】この場合、まず照合対象単語として、図9
の表902に示した2語{トウシューズ、トウモロコシ}
があり、トウシューズの照合コストは32、トウモロコ
シの照合コストは2となるから、Candsへ加えられる要
素は、(トウモロコシ、2)だけである。
【0055】一般の場合、pが文字パタン列の末尾に近
く、pから末尾までの長さをL+1が超えた場合、「最初
のL文字がvと一致する長さL+1以上の単語w」は存在せ
ず、候補単語ラティスには登録されない。
【0056】・動詞活用処理について 辞書に関しては、基本的に図12に示したごとき辞書を
用いる。見出し語の長さによる辞書の分割、高速検索の
ためのメモリ内への展開法等については本発明では特定
しない。また、これらはワードプロセッサ等で利用され
ている任意の既存技術を用いて実現できることは自明で
あるため、説明は割愛する。ここでは、見出し語の構成
法について詳述する。
【0057】動詞活用形と助動詞、動詞活用形と助詞と
の連鎖について、動詞が五段動詞である場合は各活用形
ごとに語幹と動詞活用語尾が分離できるので、分離した
活用語尾を後続する助動詞、または助詞の先頭に付加
し、新たな見出し語を生成する。形容詞、形容動詞につ
いても同様である。一段動詞については活用語尾が無い
ため手続きの対象としない。サ変名詞に後接する“す
る”などの不規則活用の動詞は、少数であるため活用形
に展開する。助動詞は、語幹−活用語尾分離方式とす
る。以上を例示すると、次のようになる。
【0058】 “分からなかった”→“分か”+“らな”+“かった” “赤くなかった”→“赤”+“くな”+“かった” “簡単だった”→“簡単”+“だった” “研究した”→“研究”+“した” 等から、“らな”、“かった”、“くな”、“だっ
た”、“した”等が登録される。
【0059】単語の識別コード、接続テーブル等に関す
る説明は割愛する。
【0060】図8に示した実施例の変形例として、文字
列のマッチング条件を緩めて、先頭L文字が長さLのキー
と完全にマッチしない場合も、辞書検索の対象とすると
いう方法が考えられる。この場合の手順を図13に示し
た。
【0061】図8と図13においては、それぞれステッ
プ801→ステップ1301、ステップ802→ステッ
プ1302、ステップ803→ステップ1303、ステ
ップ8041→ステップ13041、ステップ842→
ステップ13042、ステップ805→ステップ130
6、ステップ806→ステップ1307、ステップ80
7→ステップ1308、ステップ809→ステップ13
10、ステップ810→ステップ1311、ステップ8
12→ステップ1314が、同様の処理として対応す
る。
【0062】以下では、本実施例の特徴について説明す
る。ステップ1305は、辞書検索の際のキーに用いる
文字位置をセットする。図8に示した方法との相違は、
図8では、長さがL+1以上の候補単語は、あるキーと先
頭L文字が一致しなければならなかったが、本実施例で
は、先頭L文字のかわりに、1305で指定する特定位
置の文字のうち、少なくても一字が、特定の条件(ここ
では確信度が一位の候補文字と一致する)を満たす単語
を1302における照合コストの計算対象とし、131
3でその中から候補単語を選択する。例えば、1305
でS={1,2}とした場合、照合コストの計算対象と
なるのは、1文字目、または2文字目が各位値の第一候
補と一致する単語である。
【0063】図8の説明と同様の例を用いて説明する
と、本実施例において5文字目からの単語照合対象とな
る単語は、1字目が「ト」である単語,または2字目が
「ヴ」からなる単語である。これらの単語数は、長さ3
以上のものに限定されているため通常の流し込み方に比
べて半減するが、図8に述べた方法に比べれば増加す
る。しかし、図8の例とは異なり、たとえ正解文字が候
補中に存在しなくても、正解単語を得る事ができる可能
性が生じる。例えば、「トウモロコシ」の2字目「ウ」
が、候補文字中に存在しない場合も、一字目の一致から
「トウモロコシ」を照合コスト計算対象に選びだし、候
補単語に登録し、正解を発見できる可能性がある。これ
は、図8の実施例では不可能であった。つまり、照合効
率を若干犠牲にしながらも、低品質入力に対して頑健な
システムを構成することができる。照合位置の設定法と
しては、単語の先頭からL文字以内に限る等の、様々な
方法も考えられる。
【0064】次に、図12に示した動詞活用形処理のた
めの見出しを持つ辞書の変形例として、活用語尾を助動
詞、助詞に付加するのみならず、より拡張して見出し語
の追加を行う方法が考えられる。その例を図14に示し
た。本例では、終止形語尾+句点(1402)、接続助
詞+読点(1405)、連用形語尾+“〜なる”の語幹
(1404)、さらに分割してもあまり意味の無い慣用
的なまとまり(1401や、1403)等の追加が考え
られる。このように、より長いまとまりを見出しとして
保持すれば、文字の部分的な欠落に対処する上で有利で
ある。
【0065】なお、本願の発明がCPU、メモリ、入出
力装置よりなるコンピュータにおいて実現されることは
言うまでもなく、これを図面に表現することは省略し
た。
【0066】録可否を決定する。
【0067】・照合コスト計算処理について 先の、課題を解決するための手段の項においても述べた
ように、確信度の差に関する情報をよりきめ細かく利用
するためには、単語を構成する各文字の文字照合コスト
の計算において、次の計算を行う:該文字をC、該文字
と照合されるべき候補文字群Sを{(C1, V1), ..., (Ci,
Vi), ..., (CN, VN)}としたとき、CとSとの照合コスト
を、以下の関数Kを用いて計算する。
【0068】ここでK(C, S)は、C = Ci の場合、K(C,
S) = α・G1(V0, V1, Vi); C = Ciとなるiがない場
合、K(C, S) = G2(VN)、ここで、αは正定数、V0は確信
度の最大値、0≦VN≦…≦V1≦V0、G1(V0, V1, Vi)は、
(V0 - V1)が大きくなるにしたがって減少し、(V1 - Vi)
が大きくなるにしたがって増大する正値関数、G2は、VN
の値以上の値をとる単調非減少関数とする。例えば、α
=1とし、G1(V0, V1, Vi)は、(数4)で定義する。G2
は、G2(VN) = G1(V0, V1, VN) で定義する。
【0069】
【数4】
【0070】本願で用いている例の場合、確信度を0以
上255以下の正整数にデジタイズしているので、V0
= 255 である。Vsh は、第一候補の確信度がある一定
値より低い場合、確信度の差を無視するために導入した
パラメータである。
【0071】上述のKを用いると、図17の候補文字集
合と、単語‘車体’の照合コストは、(225 - 90)*(255
- 255)/(255 - 90) + (125 - 90)*(125 - 115)/(255 -
90)= 350/165 ≒ 2.12 となる。
【0072】
【発明の効果】“混合法”を用いて候補単語群を抽出す
ることにより、辞書探索の回数、辞書から得られる候補
単語の数が大幅に減少し、文字認識後処理の効率が大幅
に向上する。
【図面の簡単な説明】
【図1】誤認識後処理付きの文字認識方法の概要を示す
説明図。
【図2】(a)は候補文字集合の例(候補文字制限処理
前)。(b)は候補文字集合の例(候補文字制限処理
後)。
【図3】候補文字集合と辞書を用いて生成した候補単語
ラティスの例。
【図4】候補文字群から候補単語を抽出するための従来
方式(“候補文字主導型の辞書引き”)の説明図。
【図5】“候補文字主導型の辞書引き”を用いて生成し
たキーの例。
【図6】候補文字群から候補単語を抽出するための従来
方式(“辞書主導型の辞書引き”)の説明図。
【図7】“辞書主導型の辞書引き”を用いて抽出した候
補単語の例。
【図8】本願で提案する“混合方式”を説明する流れ
図。
【図9】“混合方式”を用いた場合の、キーと候補単語
の例。
【図10】従来方式(“活用形展開方式”)を用いた場
合の、動詞活用形処理のための辞書見出しの例。
【図11】従来方式(“活用語尾分離方式”)を用いた
場合の、動詞活用形処理のための辞書見出しの例。
【図12】本願で提案する動詞活用形処理のための辞書
見出しの例。
【図13】図8に示した“混合方式”の変形例。
【図14】図12に示した辞書見出しの変形例。
【図15】韓国語の文を認識した場合の候補文字集合の
例(候補文字制限処理前)。
【図16】図15の候補文字集合と辞書を用いて生成し
た候補単語ラティスの例。
【図17】候補文字集合の例(候補文字制限処理後)。
【図18】図17の候補文字集合と辞書を用いて生成し
た候補単語ラティスの例。
【図19】言語的コストを与える関数の定義例。
フロントページの続き (72)発明者 下川部 宏明 神奈川県小田原市国府津2880番地 株式会 社日立製作所ストレージシステム事業部内 (72)発明者 新田 義彦 埼玉県比企郡鳩山町赤沼2520番地 株式会 社日立製作所基礎研究所内

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】文字列の画像を含むディジタル画像を入力
    し、該文字列部分の画像を個々の文字と推定される部分
    画像である文字パタンの列として認識し、各文字パタン
    に対して原文字と推定される文字の集合である候補文字
    群と、その要素である候補文字とを個々の候補文字に関
    する確信度付きで出力すること、 文字パタンに対する候補文字集合中から選択した少なく
    とも一文字を含む文字列であるキーを用いて単語辞書か
    ら0個以上の単語よりなる候補単語群と、その要素であ
    る候補単語とを抽出し、該候補単語群中の指定された候
    補単語をw、文字パタン列中の指定された位置をpとす
    るとき、少なくともw、pを含む情報を用いる数値算出
    手続である位置pからの単語照合を実行して単語照合コ
    ストを算出するとともに、少なくともwとpとwの単語照
    合コストとを含む情報の集合である候補単語ラティスを
    記録すること、 該候補単語ラティスから最尤候補単語列を算出するこ
    と、 該単語列の接続により生成される連続文字列を表示する
    こと、よりなる後処理付き文字認識方法において、 文字パタン中の位置pからの単語照合を行う候補単語を
    単語辞書から抽出する場合、定められた長さLを超えな
    い候補単語は、位置p以降の連続するL個以下の文字パ
    タンについて、先頭側の文字パタンに対する候補文字群
    から順に一文字ずつ選択して生成したキーの全体、また
    はその部分集合を単語辞書中で検索することにより抽出
    し、長さがL+1以上の候補単語は、p1≦・・・≦pkなる自
    然数の集合P={p1、・・・、pk}を用い、少なくても一つ
    のpi∈Pについて、単語の先頭からpi文字目が (p+p
    i)−1番目の文字パタンに対する候補文字中の、指定さ
    れた条件を満たす文字の一つと一致する単語の全体また
    はその部分集合とすることを特徴とする文字認識方法。
  2. 【請求項2】後処理付き文字認識において、位置pから
    の単語照合を行う候補単語を単語辞書から抽出する場
    合、定められた自然数Lを超えない長さの候補単語は、
    位置p以降の連続するL個以下の文字パタンについて、
    先頭側の文字パタンに対する候補文字群から順に一文字
    ずつ選択して生成したキー全体の集合に含まれる要素を
    単語辞書中で検索することにより抽出し、長さがLを超
    える候補単語については、位置p以降の連続するL個の
    文字パタンについて、先頭側の文字パタンに対する候補
    文字群から順に一文字ずつ選択して生成した長さL個の
    キーの集合の要素の一つと、先頭L文字が指定された条
    件で一致する単語の全体、または一部分を単語辞書から
    抽出することを特徴とする文字認識方法。
  3. 【請求項3】pk≦Lであることを特徴とする請求項1記
    載の文字認識方法。
  4. 【請求項4】L=2またはL=3であることを特徴とする請求
    項2記載の文字認識方法。
  5. 【請求項5】文字列の画像を含むディジタル画像を入力
    し、該文字列部分の画像を個々の文字と推定される部分
    画像である文字パタンの列として認識し、各文字パタン
    に対して原文字と推定される文字の集合である候補文字
    群と、その要素である候補文字とを個々の候補文字に関
    する確信度付きで出力すること、 文字パタンに対する候補文字集合中から選択した少なく
    とも一文字を含む文字列であるキーを用いて単語辞書か
    ら0個以上の単語よりなる候補単語群と、その要素であ
    る候補単語とを抽出し、該候補単語群中の指定された候
    補単語をw、文字パタン列中の指定された位置をpとす
    るとき、少なくともw、pを含む情報を用いる数値算出
    手続である位置pからの単語照合を実行して照合コスト
    を算出するとともに、少なくともwとpとwの単語照合コ
    ストとを含む情報の集合である候補単語ラティスを記録
    すること、 該候補単語ラティスから最尤候補単語列を算出するこ
    と、 該単語列の接続により生成される連続文字列を表示する
    こと、よりなる後処理を有する後処理付き文字認識方法
    において、 前記単語辞書として、連続して用いられる頻度の高い単
    語列を、連続した文字列として見出しに持つ単語辞書を
    用いることを特徴とする文字認識方法。
  6. 【請求項6】連続して用いられる頻度の高い単語列を、
    連続した文字列として見出しに持つ単語辞書を用いるこ
    とを特徴とする請求項1記載の文字認識方法。
  7. 【請求項7】連続して用いられる頻度の高い単語列を、
    連続した文字列として見出しに持つ単語辞書を用いるこ
    とを特徴とする請求項2記載の文字認識方法。
  8. 【請求項8】動詞語幹とともに、動詞活用形の活用語尾
    を該活用形に後接する助動詞語幹、助詞、句読点等の語
    頭に付加した文字列を見出しとして持つ単語辞書を用い
    ることを特徴とする請求項5記載の文字認識方法。
  9. 【請求項9】動詞語幹とともに、動詞活用形の活用語尾
    を該活用形に後接する助動詞語幹、助詞、句読点等の語
    頭に付加した文字列を見出しとして持つ単語辞書を用い
    ることを特徴とする請求項6記載の文字認識方法。
  10. 【請求項10】動詞語幹とともに、動詞活用形の活用語
    尾を該活用形に後接する助動詞語幹、助詞、句読点等の
    語頭に付加した文字列を見出しとして持つ単語辞書を用
    いることを特徴とする請求項7記載の文字認識方法。
  11. 【請求項11】長さがL+1以上の候補単語は、少なくて
    も一つのpi∈Pについて、単語の先頭からpi文字目が
    (p+pi)−1番目の文字パタンの候補文字中で最も確信
    度が高い候補文字と一致する単語の全体、またはその部
    分集合として抽出することを特徴とする請求項1記載の
    文字認識方法。
  12. 【請求項12】長さがLを超える候補単語については、
    p番目以降の連続するL個の文字パタンについて、先頭
    側の文字パタンに対する候補文字群から順に一文字ずつ
    選択して生成した長さLのキーの集合の要素の一つと先
    頭L文字が完全一致するという条件を満たす単語の全体
    または一部分を単語辞書から抽出することを特徴とする
    請求項2記載の文字認識方法。
  13. 【請求項13】文字列の画像を含むディジタル画像を入
    力し、該文字列部分の画像を個々の文字と推定される部
    分画像である文字パタンの列として認識し、各文字パタ
    ンに対して原文字と推定される文字の集合である候補文
    字群と、その要素である候補文字とを個々の候補文字に
    関する確信度付きで出力すること、 文字パタンに対する候補文字集合中から選択した少なく
    とも一文字を含む文字列であるキーを用いて単語辞書か
    ら0個以上の単語よりなる候補単語群と、その要素であ
    る候補単語とを抽出し、該候補単語群中の指定された候
    補単語をw、文字パタン列中の指定された位置をpとす
    るとき、少なくともw、pを含む情報を用いる数値算出
    手続である位置pからの単語照合を実行して単語照合コ
    ストを算出するとともに、少なくともwとpとwの単語照
    合コストとを含む情報の集合である候補単語ラティスを
    記録すること、 該単語照合コスト計算の手段として、単語を構成する各
    文字と、該文字位置に対応する候補文字群の、各候補文
    字に付与された確信度を用いて、単語を構成する各文字
    ごとに文字照合コストと称する数値を算出し、該候補単
    語の文字照合コストを、単語を構成する文字おのおのの
    文字照合コストの和によって定めること、 単語間の接
    続のしやすさを示す数値情報である接続コストを記録す
    ること、 単語照合コストと接続コストの線形和を用いて、該候補
    単語ラティス中の単語の組み合わせからなる単語列に尤
    度付けし、最尤候補単語列を算出すること、 該単語列の接続により生成される連続文字列を表示する
    こと、よりなる後処理を有する文字認識方法において、 単語を構成する各文字の文字照合コストの計算におい
    て、該文字をC、該文字と照合されるべき候補文字群Sを
    {(C1, V1), ..., (Ci, Vi), ..., (CN, VN)}としたと
    き、CとSとの照合コストを、特定の性質を持つ関数 K
    (C, S)を用いて計算することを特徴とする文字認識方
    法。ここでK(C, S)は、C = Ci の場合、K(C, S) = α
    ・G1(V0, V1, Vi); C = Ciとなるiがない場合、K(C,
    S) = G2(VN)、ここで、αは正定数、V0は確信度の最大
    値、0≦VN≦…≦V1≦V0、G1(V0, V1, Vi)は、(V0 - V1)
    が大きくなるにしたがって減少し、(V1 - Vi)が大きく
    なるにしたがって増大する正値関数、G2は、VNの値の
    単調非減少関数。
  14. 【請求項14】請求項13に記載の文字認識方法であっ
    て、文字照合コストの計算に用いる関数において、α=
    1、G1(V0, V1, Vi)={Max{(V1 - Vsh),
    0}}・(V1 - Vi)/(V0- Vsh)となることを特徴とする文
    字認識方法。ここに、Vshは、0≦Vsh<V0なる定数。
  15. 【請求項15】文字列の画像を含むディジタル画像を入
    力し、該文字列部分の画像を個々の文字と推定される部
    分画像である文字パタンの列として認識し、各文字パタ
    ンに対して原文字と推定される文字の集合である候補文
    字群と、その要素である候補文字とを個々の候補文字に
    関する確信度付きで出力する手段、 文字パタンに対する候補文字集合中から選択した少なく
    とも一文字を含む文字列であるキーを用いて単語辞書か
    ら0個以上の単語よりなる候補単語群と、その要素であ
    る候補単語とを抽出する手段、 前記候補単語群中の指定された候補単語をw、文字パタ
    ン列中の指定された位置をpとするとき、少なくとも
    w、pを含む情報を用いる数値算出手続である位置pか
    らの単語照合を実行して単語照合コストを算出するとと
    もに、少なくともwとpとwの単語照合コストとを含む情
    報の集合である候補単語ラティスを記録する手段、 該候補単語ラティスから最尤候補単語列を算出する手
    段、 該単語列の接続により生成される連続文字列を表示する
    手段、よりなる後処理付き文字認識装置において、 前記候補単語を抽出する手段は、文字パタン中の位置p
    からの単語照合を行う候補単語を単語辞書から抽出する
    場合、定められた長さLを超えない候補単語は、位置p
    以降の連続するL個以下の文字パタンについて、先頭側
    の文字パタンに対する候補文字群から順に一文字ずつ選
    択して生成したキーの全体、またはその部分集合を単語
    辞書中で検索することにより抽出し、長さがL+1以上の
    候補単語は、p1≦・・・≦pkなる自然数の集合P={p1、
    ・・・、pk}を用い、少なくても一つのpi∈Pについて、
    単語の先頭からpi文字目が (p+pi)−1番目の文字パ
    タンに対する候補文字中の、指定された条件を満たす文
    字の一つと一致する単語の全体またはその部分集合とす
    ることを特徴とする文字認識装置。
JP6274736A 1994-11-09 1994-11-09 文字認識方法および装置 Pending JPH08138000A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6274736A JPH08138000A (ja) 1994-11-09 1994-11-09 文字認識方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6274736A JPH08138000A (ja) 1994-11-09 1994-11-09 文字認識方法および装置

Publications (1)

Publication Number Publication Date
JPH08138000A true JPH08138000A (ja) 1996-05-31

Family

ID=17545867

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6274736A Pending JPH08138000A (ja) 1994-11-09 1994-11-09 文字認識方法および装置

Country Status (1)

Country Link
JP (1) JPH08138000A (ja)

Similar Documents

Publication Publication Date Title
US5768451A (en) Character recognition method and apparatus
KR101201037B1 (ko) 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증
TW448381B (en) Automatic segmentation of a text
US7054803B2 (en) Extracting sentence translations from translated documents
US9875254B2 (en) Method for searching for, recognizing and locating a term in ink, and a corresponding device, program and language
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
Choudhury et al. Figure metadata extraction from digital documents
KR100999488B1 (ko) 문서 표절 탐색 방법 및 장치
JPH0797373B2 (ja) 文書フアイリングシステム
JP2004227227A (ja) 情報検索装置
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
US8411958B2 (en) Apparatus and method for handwriting recognition
JPWO2010044123A1 (ja) 検索装置、検索用索引作成装置、および検索システム
CN111177375A (zh) 一种电子文档分类方法及装置
CN115983233A (zh) 一种基于数据流匹配的电子病历查重率估计方法
Tufiş et al. DIAC+: A professional diacritics recovering system
JP4979637B2 (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
JP4900947B2 (ja) 略語抽出方法、略語抽出装置およびプログラム
US11755659B2 (en) Document search device, document search program, and document search method
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
US20230229683A1 (en) Document search device, document search system, document search program, and document search method
JPH08138000A (ja) 文字認識方法および装置
JPH11328318A (ja) 確率テーブル作成装置、確率方式言語処理装置、認識装置、及び、記録媒体
Maheswari et al. Rule based morphological variation removable stemming algorithm
Mei et al. Post-processing OCR text using web-scale corpora