JPH0728956A - 誤読修正支援方法 - Google Patents

誤読修正支援方法

Info

Publication number
JPH0728956A
JPH0728956A JP5168205A JP16820593A JPH0728956A JP H0728956 A JPH0728956 A JP H0728956A JP 5168205 A JP5168205 A JP 5168205A JP 16820593 A JP16820593 A JP 16820593A JP H0728956 A JPH0728956 A JP H0728956A
Authority
JP
Japan
Prior art keywords
word
string
candidate
column
evaluation value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5168205A
Other languages
English (en)
Inventor
Yasuo Hongo
保夫 本郷
Akiko Konno
章子 紺野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Fuji Facom Corp
Original Assignee
Fuji Electric Co Ltd
Fuji Facom Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd, Fuji Facom Corp filed Critical Fuji Electric Co Ltd
Priority to JP5168205A priority Critical patent/JPH0728956A/ja
Publication of JPH0728956A publication Critical patent/JPH0728956A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 比較的簡単な操作で正確な誤読修正を可能と
する。 【構成】 イメージスキャナ2およびOCR3により認
識された認識結果4に対し単語辞書6との照合,文法チ
ェック(7)等をして、候補文字列から妥当な単語
(列)を探索してその評価値を計算部9にて計算し、複
数の単語(列)が求まり、かつ評価値最大の単語(列)
の評価値との差が予め定められた値以下の単語(列)が
ある場合は、相違する単語(列)全体を処理部10でリ
ジェクトするとともに、その部分の候補単語(列)をフ
ァイル12に記憶しておき、エディタ13で確認,修正
するときにその中から正しいものを選択できるようにし
て操作性を向上させる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、文字認識装置(OC
R)による日本語の文書処理結果中に含まれる誤読の修
正支援方法に関する。
【0002】
【従来の技術】OCRにより認識した結果に対する誤読
の自動検出や自動修正の方法として従来は、例えば認識
結果の候補文字列を単語辞書と照合し、その照合結果の
単語の品詞を文法ルールと照らし合わせてチェックして
評価値を求め、評価値の最も高い単語列を選択し、自動
的に誤読の修正を行なう方法や、認識結果の文字列に対
して形態素解析を行なうことにより、文法的に不適切な
部分を検出するなどの手法がある。なお、これらの処理
結果は、いずれも文字単位で修正・検出されているのが
普通である。また、誤読を修正するためのエディタも、
通常のテキストエディタに候補文字の選択機能を付加し
た程度のものであり、誤読修正・検出時の処理結果が反
映されない部分もある。
【0003】
【発明が解決しようとする課題】
(1)すなわち、従来はOCRにより認識した結果に含
まれる誤読を、修正・検出した結果をエディタにより参
照し、文字毎にOCRの認識候補を表示してその候補文
字の中から正解の文字を選択するか、或いは上書きする
(候補文字中に正解が含まれていない場合)ことによ
り、正しい認識結果に対して修正を行なうようにしてい
る。しかし、これでは、以下のような場合にキー操作が
多くなり、操作性が悪くなるという問題がある。
【0004】(1−1)候補文字を開いて見ないと、候
補文字中に正解が含まれているかどうかが分からず、候
補文字中に正解が含まれていない場合は、さらに、通常
の編集モードに戻って上書きをして修正しなければなら
ない。 (1−2)単語、または文字列中に複数の誤読があり、
それぞれ候補文字中に正解が含まれている場合、複数回
候補文字を表示・選択する操作が必要となる。 (1−3)誤読が含まれている単語または文字列を自動
的に修正したが、修正した文字は本当は正解で、修正し
ていない文字の中に誤読が含まれていた場合は、修正さ
れた文字を本来の認識結果に戻し、修正されていない誤
読を修正するという二重の修正操作が必要となる。
【0005】(2)また、エディタにて誤読を修正した
り、正しい単語を選択する際に得られる情報(修正履歴
や出現頻度など)を十分に活用していないため、次のよ
うな場合は操作性が低下する。 (2−1)同じように誤読した文字の修正を何回も繰り
返すことが必要な場合。 (2−2)文書中では頻繁に出現する単語中の誤読が検
出されない場合。 (2−3)同じように誤って修正されている単語を元に
戻すことを繰り返すような場合。 したがって、この発明の課題は比較的簡単な操作で正確
な誤読修正を可能にすることにある。
【0006】
【課題を解決するための手段】かかる課題を解決するた
め、この発明では、文字認識装置による日本語の文書処
理結果中に含まれる誤読を修正するに当たり、下記
(1)〜(6)を実行することを特徴としている。 (1)前記文字認識装置の認識結果に対して、単語辞書
との単語照合,文法規則を用いた文法チェックを含む処
理により、認識結果の候補文字列中から、日本語文章と
して妥当な単語列を検索する。 (2)その探索結果として生成された各単語列に対し
て、文字認識評価,単語長,単語の出現頻度および文法
的な単語の接続関係から、各単語列の評価値を算出し、
評価値最大の単語列を誤読修正結果として出力する。 (3)或る範囲内の文字列に対して、探索結果として複
数の単語(列)の候補が存在し、かつ、評価値が2位以
下で1位との評価値の差が予め設定したしきい値以下の
候補単語(列)が存在する場合、単語(列)中の特定の
文字をリジェクトするのではなく、評価値最大の単語
(列)と前記条件を満足する単語(列)と相違する単語
(列)全体をリジェクトし、その部分について、候補単
語(列)を記憶しておく。
【0007】(4)誤読検出した結果をエディタにて確
認・修正する際に、リジェクトされた単語(列)中に誤
読が発見された場合、カーソルを含む指示手段にてその
単語(列)を指示し、さらに所定のファンクションキー
の操作またはマウスの指示により、その文字列部分の第
2位以下の候補単語(列)を表示し、その中から正しい
単語(列)を選択し、確定のためのファンクションキー
の操作またはマウスの指示により修正を行なう。 (5)誤読検出した結果をエディタにて確認・修正する
際に、被修正単語と修正単語(修正によって選択された
単語)を記憶する。 (6)この記憶した被修正単語を以降の認識結果中から
サーチし、リジェクトされていない被修正単語があった
場合、その単語を再リジェクトし、その部分の候補単語
として修正単語を格納することにより、修正結果を以後
の誤読検出に反映し、文書内容により一致した誤読検出
を行なう。
【0008】
【作用】
(1)誤読検出に当たっては、単語範囲または複数の単
語からなる単語列について、単語照合や文法規則による
チェックで得られた評価値最大の単語(列)を誤読修正
結果として出力する。こうして求められた単語(列)が
複数個ある場合は、1位の単語(列)と2位以下の単語
(列)の評価値の差を計算し、この値が予め定められた
しきい値より小さい場合は、1位の単語(列)中で前記
条件を満足する2位以下の単語(列)との相違単語
(列)全体をリジェクトし、その部分について2位以下
の単語(列)を記憶しておく。
【0009】(2)しかる後、誤読検出・修正結果をオ
ペレータがエディタにより参照して誤読検出・修正を行
なうとき、上記の方法によりリジェクトされた単語
(列)の誤読に対しては、その単語(列)の2位以下の
単語(列)を表示させ、その中に正解がある場合はその
単語(列)を選択することにより、より少ない操作で誤
読の修正を行なう。 (3)また、エディタによる修正においては、候補単語
(列)の選択によって選択された修正単語と被修正単語
とを記憶しておき、修正箇所以降の部分については被修
正単語(列)が出現した箇所をリジェクトし、修正単語
(列)を候補単語(列)に加える。
【0010】
【実施例】図1はこの発明の実施例を説明するためのブ
ロック図である。すなわち、この実施例は大きくは符号
2〜12で示す誤読検出部と、誤読修正支援部13とか
ら構成される。同図において、1は文書、2は画像入力
装置(イメージスキャナ)、3はOCRで、画像入力装
置2により文書1の文書画像がOCR3に入力される。
OCR3では文書1について文字切出,認識等の処理が
行なわれ、認識結果(候補文字)4が出力される。
【0011】単語照合部5ではこの認識結果に対し、候
補文字列と単語辞書6との照合を行ない、照合された候
補単語が文法チェック部7へと送られる。文法チェック
部7では候補単語列の中から文法ルール8と照合して、
適切な単語列を選択する。ここで、適切な単語列が1通
りしか存在しない場合は、修正・リジェクト処理部10
により、その部分について誤読のある場合は修正処理を
行ない、ない場合はそのまま認識結果を出力する。
【0012】また、或る範囲について、文法チェック部
7でチェックした結果、複数の単語候補や複数の候補単
語列が発生した場合は、それぞれに対して文字認識評価
値や単語の出現頻度、または文法的結合の強弱等を定量
化した値を用いて、評価値計算部9で総合的な評価値を
算出する。その結果、評価値が最も高い単語(単語列)
と、2位以下の単語(単語列)との評価値が設定器11
に設定されているしきい値よりも小さい場合、この単語
(単語列)全体を修正・リジェクト処理部10でリジェ
クトし、そのときの2位以下の単語(単語列)をファイ
ル12内の誤読検出・修正結果に付して出力する。この
ファイル12には誤読検出・修正された候補文字、候補
単語、候補単語列などが格納される。
【0013】13は誤読修正支援エディタであり、この
エディタ13内には、一般のエディタ機能である挿入1
8,削除19,上書20,検索21,置換22,複写2
3および移動24等の他に、OCRの誤読修正用の機能
として、リジェクトリサーチ16,候補文字選択17等
の機能が含まれている。なお、ここまでは従来の誤読修
正用エディタにもある機能であるが、この発明では以上
の他に、候補単語選択機能14および候補単語列選択機
能15が付加されている。
【0014】すなわち、候補単語選択機能14によって
単語選択をすると、修正されたもとの単語は被修正単語
バッファ25へ、また修正結果の単語は修正単語バッフ
ァ26へとそれぞれ格納され、それらをもとに、再リジ
ェクト処理部27で再リジェクト処理が行なわれ、以降
の認識結果中の被修正単語をリジェクトし、その候補単
語として、修正単語を格納する。このようにして、より
簡単な方法で修正結果を出力するようにしている。
【0015】図2は誤読検出手順を示すフローチャー
ト、図3は誤読検出のためのデータ形式を説明するため
の説明図である。図3(イ)は、或る有限の範囲の入力
文字列Iiに対するOCRの認識結果として、第1位か
ら第j位までの候補文字Mi1,Mi2,……Mijを示す。
これらの入力候補文字列を単語辞書と照合することによ
って、図3(ロ)のような候補単語列Wijを得る(図2
ステップS1,S2参照)。ここに、添字iは単語の先
頭の文字番号、添字jは第i文字から始まるj番目の単
語を示す。
【0016】次に、このようにして求めた候補単語列中
から、文法ルールによって文法的に接続可能な単語の列
を求める(同ステップS3参照)。これが、図3(ハ)
に示すPkである。このような単語列が1通りしかない
場合は、その結果P1 を誤読修正結果として出力する
(同ステップS4,S12参照)。しかし、複数の単語
列が文法的に妥当とされる場合は、単語列Pkの評価値
Vkを求める(同ステップS5参照)。この評価値算出
方法は従来と同じく、文字認識時の評価値,単語の出現
頻度,文法的な接続評価値等を使用したものである。そ
して、評価値第1位の単語列とそれ以外の単語列につい
て、評価値の差を正規化した値がしきい値VT以下であ
れば、この部分について、単語または単語列のリジェク
トを行なう(同ステップS7,S8参照)。
【0017】|V1 −V2 |<VTの場合は、図3
(ニ)のように、単語列P1 とP2 で単語T51と単語T
52が異なるので、この部分をリジェクトし、候補単語バ
ッファに対し単語T52を格納する(同ステップS9参
照)。また、|V1 −V2 |<VTの場合に、P1 では
単語T11の部分が、また、P3 では単語列T12+T31
相当するのでT11の部分をリジェクトし、図3(ホ)の
ように候補単語列バッファにT12+T31を格納する(同
ステップS9参照)。以後は、kをmまで逐次増やして
行きながら、上記の動作を繰り返す(同ステップS1
0,S11参照)。
【0018】図4は単語についての誤読検出(リジェク
ト)の具体例を説明するための説明図である。これは、
図4(イ)に示すような入力文字列Iiに対し、同図
(ロ)のようなOCRの認識結果文字列Mijが得ら
れ、単語照合・文法チェックを行なった結果、P1 ,P
2 の2通りの単語が残った例を示している。そこで、単
語列の評価値Vを、次の評価式1で求める。
【0019】 ここに、αは定数、Tu=tu1,tu2……tu1
(Tu)で、f(Tu)は単語Tuの出現頻度、r(T
u)は単語Tuの単語長である。また、p(tuv)は単
語Tuのv文字目の認識評価値、nは単語列中の単語数
を表わす。
【0020】したがって、単語列P1 ,P2 の評価値V
1 ,V2 は以下のようになる。
【0021】
【0022】したがって、|V1 −V2 |は、 となる。
【0023】そして、|V1 −V2 |<VTならば、上
記2つの単語列中の相違は、単語(入口)と単語(人
口)の部分だけなのでこの部分をリジェクトし、図4
(ハ)のように候補単語バッファに(人口)を格納す
る。図4(ホ),(ヘ)は同(ニ)の如き入力文字列を
について、上記と同様にして単語列「公園遠路上」をリ
ジェクトし、この候補単語列を候補単語列バッファに記
憶した例を示している。
【0024】ところで、単語は一般にその出現頻度によ
り、次の3種類に分類される。 (1)日本語文章全般にわたって出現頻度が極めて高い
もの(助詞,助動詞,形容名詞:もの,こと,とき
等)。 (2)日常使用される単語(普通名詞,一般的な動詞,
形容詞,形容動詞等)。 (3)一般には出現頻度が極めて低いが、文章の種類に
よって高くなる単語(固有名詞,専門用語等)。
【0025】これらのうち、(3)に属する単語の領域
においては出現頻度が0に近い単語が多く、上記評価式
1で評価値を求める際に、評価値のアンダーフローが起
き、正確な評価値が得られないことがある。また、
(1)に属する単語では、逆に出現頻度の高い単語を含
む単語列の評価値が非常に高くなってしまい、認識時の
評価値や、単語列中の単語数の影響がなくなってしまう
可能性もある。このような現象を緩和するため、評価式
1での単語出現頻度f(Tu)を、次の(2)式によっ
て補正したf’(Tu)を出現頻度として利用する。 ただし、 f’(Tu)={fUL(または1)(f(Tu)>fUL)} {f(Tu) (fUL>f(Tu)>fLL)} {fLL (Otherwise) とする。図5にこのような出現頻度の補正関数例を示
す。
【0026】図6はこの発明によってリジェクトした認
識結果を修正するための、誤読修正支援エディタ用画面
例を説明するための説明図である。図6(イ)は候補単
語選択画面例を示し、認識結果中の「入口」がリジェク
トされている。そこで、カーソルをリジェクトされた部
分まで動かし、候補単語表示キーを押すと、画面右下の
ようにこの部分に対応する候補単語を表示し、その中の
正解の単語(この場合は「人口」)を選択することによ
り、修正を行なうようにする。
【0027】このようにして修正が行なわれると、被修
正単語「入口」と修正単語「人口」がバッファに格納さ
れるので、以後はリジェクトされていない被修正単語を
サーチし、あった場合はその部分を再リジェクトする。
そして、候補単語として修正単語を記憶する。この場合
は、最下行にある「入口」をリジェクトする。この部分
の候補単語選択を図6(ロ)に示す。図6(ハ)は、単
語列がリジェクトされた場合の修正用のエディタ画面の
例である。この場合、リジェクトされた範囲に対して2
通りの候補単語列が表示されるので、その中から適当な
単語列を選択することができる。
【0028】
【発明の効果】この発明によれば、認識結果に対して単
語辞書との照合,文法チェック等により、候補文字列か
ら妥当な単語(列)を探索してその評価値を算出し、複
数の単語(列)が求まり、かつ、評価値最大の単語
(列)の評価値との差が予め定められた値以下の単語
(列)がある場合は、評価値最大の単語(列)の中で前
記条件を満足する単語(列)と相違する単語(列)全体
をリジェクトし、その部分の候補単語(列)を記憶して
おき、誤読検出した結果をエディタにて確認・修正する
ときに、その候補単語(列)の中から正しいものを選択
するようにしたので、簡単な操作で正確な修正が可能に
なるという利点が得られる。
【図面の簡単な説明】
【図1】この発明の実施例を説明するためのブロック図
である。
【図2】誤読検出手順を示すフローチャートである。
【図3】誤読検出のためのデータ形式を説明するための
説明図である。
【図4】単語と単語列に対するリジェクト処理例を説明
するための説明図である。
【図5】出現頻度の補正関数例を示すグラフである。
【図6】誤読修正エディタによる修正方法例を説明する
ための説明図である。
【符号の説明】
1…文書、2…イメージスキャナ、3…文字認識装置
(OCR)、4…認識結果、5…単語照合部、6…単語
辞書、7…文法チェック部、8…文法ルール格納部、9
…評価値計算部、10…修正・リジェクト処理部、11
…しきい値設定部、12…ファイル、13…誤読修正支
援エディタ、14…候補単語選択機能、15…候補単語
列選択機能、16…リジェクトサーチ機能、17…候補
文字選択機能、25…被修正単語バッファ、26…修正
単語バッファ、27…再リジェクト処理部、28…最終
認識結果。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 文字認識装置による日本語の文書処理結
    果中に含まれる誤読を修正するに当たり、 (1)前記文字認識装置の認識結果に対して、単語辞書
    との単語照合,文法規則を用いた文法チェックを含む処
    理により、認識結果の候補文字列中から、日本語文章と
    して妥当な単語列を検索し、 (2)その探索結果として生成された各単語列に対し
    て、文字認識評価,単語長,単語の出現頻度および文法
    的な単語の接続関係から、各単語列の評価値を算出し、
    評価値最大の単語列を誤読修正結果として出力し、 (3)或る範囲内の文字列に対して、探索結果として複
    数の単語(列)の候補が存在し、かつ、評価値が2位以
    下で1位との評価値の差が予め設定したしきい値以下の
    候補単語(列)が存在する場合、単語(列)中の特定の
    文字をリジェクトするのではなく、評価値最大の単語
    (列)と前記条件を満足する単語(列)と相違する単語
    (列)全体をリジェクトし、その部分について、候補単
    語(列)を記憶しておき、 (4)誤読検出した結果をエディタにて確認・修正する
    際に、リジェクトされた単語(列)中に誤読が発見され
    た場合、カーソルを含む指示手段にてその単語(列)を
    指示し、さらに所定のファンクションキーの操作または
    マウスの指示により、その文字列部分の第2位以下の候
    補単語(列)を表示し、その中から正しい単語(列)を
    選択し、確定のためのファンクションキーの操作または
    マウスの指示により修正を行ない、 (5)誤読検出した結果をエディタにて確認・修正する
    際に、被修正単語と修正単語(修正によって選択された
    単語)を記憶し、 (6)この記憶した被修正単語を以降の認識結果中から
    サーチし、リジェクトされていない被修正単語があった
    場合、その単語を再リジェクトし、その部分の候補単語
    として修正単語を格納することにより、修正結果を以後
    の誤読検出に反映し、文書内容により一致した誤読検出
    を行なうことを特徴とする誤読修正支援方法。
JP5168205A 1993-07-07 1993-07-07 誤読修正支援方法 Pending JPH0728956A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5168205A JPH0728956A (ja) 1993-07-07 1993-07-07 誤読修正支援方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5168205A JPH0728956A (ja) 1993-07-07 1993-07-07 誤読修正支援方法

Publications (1)

Publication Number Publication Date
JPH0728956A true JPH0728956A (ja) 1995-01-31

Family

ID=15863743

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5168205A Pending JPH0728956A (ja) 1993-07-07 1993-07-07 誤読修正支援方法

Country Status (1)

Country Link
JP (1) JPH0728956A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000073975A1 (fr) * 1999-05-31 2000-12-07 Cai Co., Ltd. Systeme de reecriture

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000073975A1 (fr) * 1999-05-31 2000-12-07 Cai Co., Ltd. Systeme de reecriture

Similar Documents

Publication Publication Date Title
US6005973A (en) Combined dictionary based and likely character string method of handwriting recognition
US5890103A (en) Method and apparatus for improved tokenization of natural language text
JP3531468B2 (ja) 文書処理装置及び方法
US7328404B2 (en) Method for predicting the readings of japanese ideographs
US20110229036A1 (en) Method and apparatus for text and error profiling of historical documents
JP2000089786A (ja) 音声認識結果の修正方法および装置
CN111368547A (zh) 基于语义解析的实体识别方法、装置、设备和存储介质
JPH11232296A (ja) 文書ファイリングシステムおよび文書ファイリング方法
JPH0728956A (ja) 誤読修正支援方法
JP4278011B2 (ja) 文書校正装置およびプログラム記憶媒体
JP3469375B2 (ja) 認識結果の確信度決定方法及び文字認識装置
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
JP4318223B2 (ja) 文書校正装置およびプログラム記憶媒体
JPH0748217B2 (ja) 文書要約装置
JP4047894B2 (ja) 文書校正装置およびプログラム記憶媒体
JP2004046388A (ja) 情報処理システムおよび文字修正方法
JPH0256086A (ja) 文字認識の後処理方法
EP0553745A2 (en) Character recognition apparatus
JPH08272813A (ja) ファイリング装置
JP3241854B2 (ja) 単語スペル自動補正装置
JP3157557B2 (ja) 文字認識装置
JP3350127B2 (ja) 文字認識装置
JP3548372B2 (ja) 文字認識装置
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JP3118880B2 (ja) 日本語文章処理装置