JPH0589281A - 誤読修正・検出方法 - Google Patents

誤読修正・検出方法

Info

Publication number
JPH0589281A
JPH0589281A JP3247708A JP24770891A JPH0589281A JP H0589281 A JPH0589281 A JP H0589281A JP 3247708 A JP3247708 A JP 3247708A JP 24770891 A JP24770891 A JP 24770891A JP H0589281 A JPH0589281 A JP H0589281A
Authority
JP
Japan
Prior art keywords
word
character
misreading
detection method
detecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3247708A
Other languages
English (en)
Inventor
Akiko Konno
章子 紺野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Fuji Facom Corp
Original Assignee
Fuji Electric Co Ltd
Fuji Facom Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd, Fuji Facom Corp filed Critical Fuji Electric Co Ltd
Priority to JP3247708A priority Critical patent/JPH0589281A/ja
Publication of JPH0589281A publication Critical patent/JPH0589281A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 誤読検出率の高い誤読検出を可能として誤読
修正作業を簡略化し、所要時間を短縮する。 【構成】 OCR2の認識結果3に未登録語検出を含む
誤読修正処理(符号4参照)をした後のデータ7に対
し、誤読検出部8にて字形類似漢字1文字体言辞書9,
字形類似文字を含む単語辞書10,低頻度片仮名連接文
字列11,かっこの字形類似文字データ12等を参照し
て、誤読または誤読を含む可能性が高いと考えられる部
分を高精度に検出できるようにする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、光学的文字認識装置
(OCR)の認識結果としての日本語文章中に含まれる
誤読部分の修正・検出方法に関する。
【0002】
【従来の技術】漢字OCRの認識結果に含まれる誤読を
修正する方式としては、従来から認識結果中の文字とそ
れに対する候補文字(認識時の評価値が高い文字)など
を用いて、その中から最適な文字列を選択する方法が種
々考案されている。しかし、実際はこのような誤読修正
方式で認識率が100%になることは少なく、誤読修正
を行なった後にも、まだ、若干の誤読が残っており、こ
のため人(オペレータ)が全体を見直して誤読を検出
し、修正を行なっているのが普通である。また、このよ
うな誤読修正を行なうことにより、一意に修正できない
誤読を或る程度検出したり、人名,地名等の固有名詞で
単語辞書内に登録されていない単語(未登録語)を検出
したりすることも可能であるが、その精度も100%と
はいえないのが現状である。
【0003】
【発明が解決しようとする課題】つまり、種々ある従来
方式には以下のような問題がある。 (1)従来は、漢字OCRの認識結果に対して上記のよ
うな誤読修正を行なったあと、さらに人が修正された認
識結果全体を見直して誤読の検出・修正を行なっている
ため修正に時間が掛かるだけでなく、オペレータの負担
も大きい。 (2)また、実際には誤読修正によって正しい認識結果
が別の文字に修正されて誤読となってしまう場合もある
ため、修正した結果を再度見直す必要もある。 (3)未登録語を検出しても、その中に誤読が含まれて
いる場合、これは自動的には修正されないので、人が後
で未登録語が正しく認識されているかどうかを確認し、
誤読を含む場合は修正をする必要がある。 (4)文章としての誤読修正処理では、文章中に平均数
%の割合で含まれる句読点,かっこ等の約物の誤読の修
正が不可能である。また、漢字OCRではかっことかっ
この字形類似文字(U V く、へ、等)の認識を誤る
場合があるので、これらを含めて後で人が修正する必要
が生じる。 したがって、この発明の課題は漢字OCRの認識結果
に、未登録語検出および誤読修正を施した後のデータに
対して誤読検出率の高い誤読検出方法を提供し、オペレ
ータが結果全体を見直さなくても、最終的な誤読修正を
簡単な方法で実現し得るようにすることにある。換言す
れば、漢字OCRの認識結果に対し高精度の日本語スペ
ルチェッカ機能を持たせることにある。
【0004】
【課題を解決するための手段】このような課題を解決す
るため、この発明では、OCRの認識結果に対し単語辞
書との照合および文法規則の適用を含む言語的処理を施
し誤読を修正する第1のステップと、単語辞書には登録
されていないが固有名詞の可能性の高い文字列を未登録
語として検出する第2のステップとを含む誤読修正・検
出方法において、前記第1,第2ステップを経て文法的
に解析された認識結果に対し、 .未登録語として検出された単語を誤読の可能性があ
るとして検出するステップを加える。 .漢字1文字体言で連続して出現する頻度の高いもの
を単語相当として単語辞書に予め記憶しておき、漢字1
文字体言または前後の単語に接続可能な単語を照合でき
なかったリジェクト文字が2文字以上連続して現れかつ
前記単語辞書にない部分を、誤読の可能性があるとして
検出するステップを加える。 .単独で出現した漢字1文字体言で他に字形が類似し
た漢字1文字体言があってそちらの文字の方の出現頻度
が極めて高い場合、その文字出現頻度の高い方の文字に
置換したことを検出するステップと、誤読し難い文字と
字形類似文字で構成される単語が2以上ある単語群のう
ちの単語が出現した場合、単語群中に、出現した単語よ
り出現頻度の極めて高い単語がある場合、その単語を出
現頻度の高い単語に置換したことを検出するステップと
を加える。 .単独で出現した片仮名を誤読の可能性が高いとして
検出するステップと、他の文字種の中に単独で出現した
英字,数字を誤読の確率が高いとして検出するステップ
とを加える。 .片仮名のうち連接する確率の極めて低い文字の組み
合わせを予め登録しておき、その片仮名の文字列が出現
した場合に誤読を含む可能性が高いとして検出するステ
ップを加える。 .同一文書内で前記第1のステップで既に修正された
平仮名が1文字単語として出現した場合、これを誤読の
可能性が高いとして検出するステップを加える。 .句読点が2個以上連続して出現したとき、その中に
誤読を含む可能性が高いとして検出するステップを加え
る。 .中に句読点をはさまず、対応するかっこの形状が異
なるとき、対応するかっこのうち認識時の評価値の高い
方の形状に統一しそれを検出するステップと、文の先頭
の英数字の後の閉じかっこ以外で、文の中に開きかっこ
なしで閉じかっこが出現したとき、閉じかっこを誤読し
ているか、対応する開きかっこをかっこ以外に誤読して
いる可能性が大きいとして閉じかっことそれに対応する
開きかっこ類似字形文字がある場合にそれを検出するス
テップと、文中に開きかっこが出現し、それに対応する
閉じかっこがないまま文が終了している場合、開きかっ
こを誤読しているか、対応する閉じかっこをかっこ以外
に誤読している可能性が大きいとして開きかっことそれ
に対応する閉じかっこの類似字形文字がある場合にそれ
を検出するステップとを加える。 のいずれかとすることを特徴としている。
【0005】
【作用】漢字OCRの認識結果に対して未登録語検出処
理を含む誤読修正処理を施した結果に上記の如き誤読検
出処理を加えることにより、修正結果中の誤読文字また
は誤読を含む可能性の高い文字列が検出できるので、オ
ペレータが修正を行なう場合も全体を見直すことなく、
検出された文字または文字列だけを見直せば良くなって
オペレータの修正に要する時間が減少し、その負担が軽
減される。
【0006】
【実施例】図1はこの発明の実施例を示すブロック図で
ある。同図において、1はOCRに入力される日本語文
書、2は漢字OCR、3は漢字OCR2による日本語文
書1の認識結果を示す。この中には、若干の誤読が含ま
れるものとする。4は認識結果3に対して誤読修正,未
登録語の検出を行なう誤読修正・未登録語検出部であ
る。ここでは、単語辞書5および文法ルール6を参照す
る。7は誤読修正・未登録語の検出を行なった後の誤読
修正結果を示す。8はこの発明による誤読検出部で、こ
こでは字形類似漢字1文字体言辞書9、字形類似文字を
含む単語辞書10、低頻度カタカナ連接文字列11およ
びかっこの字形類似文字データ12を参照する。13は
この発明により誤読または誤読文字を含む可能性が高い
部分を検出した、誤読検出結果を示す。14は修正用の
エディタであり、オペレータはここでは誤読検出された
部分だけをチェックし、誤読が含まれている場合は修正
を施すことにより、従来よりも少ない時間,少ない負担
で完全な認識結果を得ることが可能となる。最終認識結
果を符号15により示す。
【0007】図2は第1の検出方法を示すフローチャー
トである。これは、iを単語No.を更新するための引
数、wi を第i番目の単語、nを単語数として、着目す
る単語が未登録語かどうかを検出するもので、まず、引
数iを初期設定した後、ステップS1で未登録語かどう
かを判断し、未登録語でなければ(ノー:N)引数iを
更新する一方、未登録語ならば(イエス:Y)ステップ
S2でこれを検出するものである。図3に第1の検出方
法の具体例を示す。これは、認識結果に対して図2の如
き未登録語検出処理をしたところ、「特派員」という人
名に付く単語の前の文字列「勧堂義憲」は単語辞書には
ないが、人名らしいということで未登録語として抽出さ
れた例である。ところが、この未登録語の中に誤読が含
まれている場合もあり、それを自動的に修正することは
不可能である。したがって、この発明ではこの部分が正
しいかどうかをチェックできるようにするために検出す
る。なお、同一文書中に同じ未登録語が何回も出てくる
場合は、マニュアルで修正するときに、最初に出現した
未登録語に対してそれが正しいと指示すれば以後は辞書
に登録し、その文字列は単語辞書中にあるものとして扱
うので、1回のチェックで充分である。
【0008】図4は第2の検出方法を示すフローチャー
トである。これは、iを単語No.、wi を第i番目の
単語、nを単語数として、漢字1文字体言または前後の
単語に接続可能な単語を照合できなかったリジェクト文
字が2文字以上連続して現れた部分を誤読の可能性が高
いとして検出するものである。このとき、漢字1文字体
言で連続して出現する頻度の高いものを単語相当として
単語辞書に予め記憶しておき、この辞書と照合されなか
ったものを検出の対象とすることとする。すなわち、ス
テップS1,S2で第1番目の文字が漢字1文字体言か
リジェクト文字かをそれぞれ判断し、イエス(Y)なら
ばステップS3で漢字1文字体言またはリジェクト文字
の連続する数をカウントするカウンタの開始点isを記
憶した後、ステップS4〜S6で何文字続くかを調べ、
続いた文字をステップS7で検出するわけである。図5
に第2の検出方法の具体例を示す。これは、入力文字の
「公表」を認識結果では「公喪」と誤認識した例であ
る。この場合は、候補文字内に正解があればこれは当然
「公表」と修正されるが、候補文字内に正解が含まれて
いないため修正できなかった場合は、「公」と「喪」の
1文字名詞としてそれぞれ処理される。実際は、1文字
の名詞の連続はないわけではないが頻度が非常に低いの
で、ここでは、誤読を含む可能性が高いとして検出す
る。また、むだな検出を避けるために、1文字体言で連
続して出現する頻度の高いもの(例えば、「同年」,
「年率」,「新税」,「西風」等)を単語相当として単
語辞書に予め登録しておくものとする。
【0009】図6は第3の検出方法を示すフローチャー
トである。これは、iを単語No.、in を文中の単語
数として、単独で出現した漢字1文字体言で他に字形が
類似した漢字1文字体言があり、そちらの方の出現頻度
が極めて高い場合、その文字出現頻度の高い文字に置換
したことを検出するステップS1,S3と、誤読しにく
い文字と字形類似文字で構成される単語が2以上ある単
語群のうちの単語が出現した場合、単語群中に、出現し
た単語より出現頻度の極めて高い単語がある場合、その
単語を出現頻度の高い単語に置換したことを検出するス
テップS2,S3とからなっている。図7に第3の検出
方法の前者のステップに対応する具体例を示す。同図
(イ)は漢字1文字の体言「東」を、同じく漢字1文字
の体言「束」に誤読した例である。この2文字は横線が
1本あるかないかで字形が類似しており、どちらも1文
字の名詞なので誤読しても修正することは困難である。
そこで、この発明では同図(ロ)に示すように、字形が
類似した1文字体言とその出現頻度をリストアップした
データを参照し、これから「東」と「束」の出現頻度を
比較して見る。この場合、「東」の52に対し「束」は
1なので、「東」の方が非常に高頻度で出現することが
分かる。したがって、「束」を「東」に修正し、修正し
たことを検知するようにしている。
【0010】図8に第3の検出方法の後者のステップに
対応する具体例を示す。これは図7の検出方法と類似し
ているが、単語長2以上のものを対象としており、誤読
しにくい文字と字形類似文字から構成される複数の単語
が存在する場合を扱う点で異なっている。これは意味的
な処理をしなければ本当の意味での処理はできないが、
意味を取り扱うためにはデータ量,処理時間ともに増大
し、また同じ単語でも文書の内容によって別の意味を持
つ場合もあるので、実現は困難である。同図(イ)では
「現在」を「現任」に誤読しているが、「現任」もまた
名詞であるので意味を考えないと修正はできない。そこ
で、この発明では誤読しにくい文字(字形類似文字のな
い文字)と字形類似文字から構成される単語が複数ある
場合の、それぞれの単語とその出現頻度を同図(ロ)に
示すようなテーブルにして登録しておき、「現在」と
「現任」の出現頻度から「現在」を選択,修正し、確認
のためこれを検知することとする。
【0011】図9は第4の検出方法を示すフローチャー
トである。これは、iを単語No.、nを単語数とし
て、単独で出現した片仮名を誤読の可能性が高いとして
検出するステップS1,S3と、他の文字種の中に単独
で出現した英字,数字を誤読の確率が高いとして検出す
るステップS2,S3とからなっている。図10に第4
の検出方法の前者のステップに対応する具体例を示す。
ここでは、入力文字列中の「う」という平仮名を字形類
似文字の「ラ」に誤読している。この誤読が修正されな
かった場合、片仮名1文字の名詞「ラ」として認識され
るが、このように片仮名以外の文字種の中に片仮名1文
字が出現することは「ソ連」等いくつかの場合を除くと
少ないといえるので、この文字を誤読の確率が高いとし
て検出することとする。図11に第4の検出方法の後者
のステップに対応する具体例を示す。これは、認識結果
で平仮名の「ら」を数字の「5」に誤読しているため、
平仮名の中に数字が単独で出現した例である。一般文章
ではこのような場合は頻度が比較的低いので、他の文字
種中に単独で現れた英数字を誤読の可能性が高いとして
検出する。ただし、数字に助数詞(人,日,年,キロ,
グラム等)がついている場合には検出対象とはしないこ
ととする。
【0012】図12は第5の検出方法を示すフローチャ
ートである。これはiを文字No.、nを文中の文字
数、P(Ci-1 ,Ci )を文字Ci-1 ,Ci の連接確
率、PL を連接確率下限値として、ステップS1で最初
の片仮名を検出し、文字No.を更新して行きながらス
テップS2で片仮名が何文字続くかを調べ、次にステッ
プS3で続いた片仮名文字列の連接確率をその下限値P
L と比較し、PL 以下ならばその文字列を誤読を含む可
能性が高いとしてステップS4で検出するものである。
このとき、片仮名のうち連接する確率の非常に低い文字
の組み合わせを予め登録しておくものとする。図13に
第5の検出方法の具体例を示す。同図(イ)は、入力文
字列中の片仮名人名「クロマティ」の中の「ィ」(小文
字)を「イ」(大文字)に誤読した例を示す。「クロマ
ティ」という単語は未登録語であるが、特に人名を表わ
す語がついていないので、未登録語として検出できなか
った場合は、この中の誤読を検出できないときもある。
一般に、片仮名で表記される単語は外来語が主である
が、外来語では連接する頻度が非常に低い文字セットが
存在する。同図(ロ)に低頻度片仮名連接文字の例を示
す。実際は、単語中では連接しなくても、片仮名複合語
中で連接する場合もあるが、このような場合は極めて少
ない。
【0013】図14は第6の検出方法を示すフローチャ
ートである。これは、iを単語No.、wi を第i番目
の単語、nを単語数として、同一文書内で既に誤読修正
処理により修正された平仮名が、1文字単語として出現
した場合、それを誤読の可能性が高いとして検出する処
理を示している。つまり、ステップS1で平仮名1文字
単語かどうかを判断し、YならばステップS2でこれが
誤読修正処理により既に修正された平仮名かどうかを判
断し、YならばステップS3でこれを検出する。図15
に第6の検出方法の具体例を示す。同図(イ)では、
「大事な」を「大事は」に誤読しているが、正しく修正
が行なわれている。ここで、平仮名「な」を「は」に修
正したことを記憶しておき、それ以降に同図(ロ)に示
すように、認識結果中に1文字で孤立した「は」が出現
した場合は、その部分に誤読がないかを確認するために
検出を行なう。図16は第7の検出方法を示すフローチ
ャートである。これは、iを文字No.、Ciを第i番
目の文字、nを文字総数として、句読点が2個以上連続
して出現したとき、その中に誤読を含む確率が高いとし
て検出する処理を示している。すなわち、ステップS1
で句読点かどうかを判断し、YならばステップS2でそ
の出現位置を記憶した後文字No.を更新して行き、ス
テップS3で句読点でなくなったことが検出されたら、
ステップS4でそれまでの文字を誤読を含む確率が高い
ものとして検出する。図17に第7の検出方法の具体例
を示す。ここでは、入力文字列中の句点「。」がかすれ
て2個の読点「、、」に誤読されている。このような誤
読は通常の文章を対象とした言語的誤読修正では検出,
修正されないので、この発明ではこの部分を誤読として
検出し、オペレータに対して修正を要求することとす
る。
【0014】図18,図19および図20はいずれも第
8の検出方法を示すフローチャートで、紙面の都合によ
り3つの部分に分割したものである。これは、かっこ間
に(中に)句読点をはさまず、対応するかっこの形状が
異なるとき、対応するかっこのうち認識時の評価値の高
い方の形状に統一しこれを検出する第1の一連のステッ
プと、文の先頭の英数字の後の閉じかっこ以外で、文の
中に開きかっこなしで閉じかっこが出現したとき、閉じ
かっこを誤読しているか、対応する開きかっこをかっこ
以外に誤読している可能性が大きいとして閉じかっこと
それに対応する開きかっこ類似字形文字が或る場合にそ
れを検出する第2の一連のステップと、文中に開きかっ
こが出現し、それに対応する閉じかっこがないまま文が
終了している場合、開きかっこを誤読しているか、対応
する閉じかっこをかっこ以外に誤読している可能性が大
きいとして開きかっことそれに対応する閉じかっこの類
似字形文字が或る場合にそれを検出する第3の一連のス
テップとからなっている。
【0015】すなわち、図18の部分aは開きかっこ出
現により(ステップS1)、ステップS2でその位置I
(p),形状C(p)および類似度R(p)を記憶する
処理を示している。なお、これらの情報は例えば図21
の如くスタックメモリに記憶しておくものとする。pは
このスタックデータを参照するためのポインタを示す。
また、図18の部分bは文中の開きかっこに対応する閉
じかっこなしのときに、閉じかっこ類似文字を探す処理
を示している(ステップS3,S4)。図19の部分c
は英数字の後の閉じかっこ(ステップS5)は許容する
処理を示し、部分dは文中に開きかっこなしで閉じかっ
こが出現したときに(ステップS6)、開きかっこ類似
文字を探す一連の処理を示している(ステップS7,S
8)。また、図20は開きかっこと閉じかっこの形状が
異なる場合(ステップS9)に、両者の類似度を比べ
(ステップS10)、高い方の形状に統一し確認のため
に検出する処理を示している(ステップS11,S1
2)。
【0016】図22に第8の検出方法の第1の一連のス
テップに対応する具体例を示す。これは、認識結果中の
対応するかっこの片方「)」を別の種類のかっこ「〉」
に誤読した例である。この発明では、かっこの種類毎に
対応する開きかっこと閉じかっことの対応関係を見て対
応するかっこの形状が異なる場合には、対応するかっこ
の認識時の評価値を見て評価度の高い方のかっこに形状
を統一するとともに、その開きかっこと閉じかっこのペ
アを修正結果の認識のために検知する。かっこが何重に
もネスティングしており、かつ対応するかっこ形状が不
揃いな場合には、文中のかっこ全部を検出する。図23
に第8の検出方法において使用するかっことその字形類
似の文字データの例を示す。かっこは形状の異なるかっ
こに誤読する場合も多いが、かっこ以外の文字に誤読す
る場合もあり、またその逆にかっこ以外の文字をかっこ
に誤読する場合もある。そして、かっこの字形類似文字
はかっこの形状と種類(縦書,横書,開き,閉じ)によ
って字形類似文字が異なるので、図23のようなデータ
テーブルが必要になる。
【0017】図24に第8の検出方法の第2の一連のス
テップに対応する具体例を示す。これは、入力文字列中
のかっこ以外の文字「く」を開きかっこ「〈」に誤読し
たため、認識結果の文中で開きかっこだけがあって対応
する閉じかっこがなく、対応が取れない例を示す。この
場合は、 イ)開きかっこ「〈」に対応する閉じかっこをかっこ以
外の文字に誤読した。 ロ)かっこ以外の文字を開きかっこに誤読した。 という2つのケースが考えられる。しかし、「〈」に対
応するかっこ「〉」は「>(不等号)」以外に字形類似
文字がなく、この認識結果中には出現していないので、
ロ)の可能性が高いとして開きかっこ「〉」を検出す
る。図25に第8の検出方法の第3の一連のステップに
対応する具体例を示す。これは、文章中に開きかっこな
しで閉じかっこが出現している例である。この場合は、
次の3つの場合が考えられる。 イ)箇条書きの番号として文頭の1),2)…やA),
B)として出現。 ロ)開きかっこをかっこ以外の文字に誤読した。 ハ)かっこ以外の文字を閉じかっこに誤読した。 これらのうち、イ)は誤読を含まないので検出の必要は
ない。図25はロ)の例であり、入力文字列中のかっこ
の一方「(」をかっこ以外の文字「1」に誤読したた
め、文中に開きかっこなしで、閉じかっこが出現した例
を示している。このような場合にこの発明では、最初に
出てきた「)」とそれ以前の字列中にこれに対応するか
っこ「(」に字形類似した文字があれば(ここでは
「1」)、これを誤読ではないかとして検出することと
する。なお、かっこのうち、会話を表わす「」,『』に
ついては、かっこに囲まれた中に複数の文が含まれる場
合もあるので、ここでは形状対応チェックの対象とはし
ない。
【0018】図26に第9の検出方法の具体例を示す。
これは、認識結果中の「迎絡」の文字とその候補文字中
から、前後の単語に対して接続可能な単語を照合するこ
とができなかった場合を示し、この2文字を誤読を含む
可能性が高いとして検出する例で、第2の検出方法の一
部として用いられているものである。図27に第10の
検出方法の具体例を示す。同図(イ)は認識結果中の誤
読「目巳」が誤読修正処理によって「自己」に修正され
た例である。この修正は正しいので、検出により修正結
果を確認するだけであるが、同図(ロ)では認識結果中
の正しい結果「昭和」が誤って修正されている。誤読修
正においてこのようなことは本来あってはならないこと
であるが、実際には未登録語や候補文字中に正解が存在
しない場合等、正しい文字を修正してしまうことも起こ
っている。したがって、誤読修正により修正された部分
に対して、もう一度チェックすることが必要になる。図
28に第11の検出方法の具体例を示す。認識結果中の
「く」という平仮名が前記第1の検出方法によって検出
されているが、実際に誤読であるのはその前の「ね」と
いう文字である。このような場合は、この文字を含む文
字列「しねくても」全体を誤読を含む可能性の高い文字
列として検出する。
【0019】
【発明の効果】この発明によれば、漢字OCRの認識結
果中に含まれる誤読を修正する場合、認識結果全体を見
直すことなく、この発明による検出方法によって検出さ
れた部分だけをチェックするだけで誤読修正が可能とな
るため、修正時間が短縮され、オペレータの負担を軽減
し得る利点がもたらされる。
【図面の簡単な説明】
【図1】この発明の実施例を示すブロック図である。
【図2】この発明による第1の検出方法を示すフローチ
ャートである。
【図3】第1の検出方法を具体的に説明するための説明
図である。
【図4】この発明による第2の検出方法を示すフローチ
ャートである。
【図5】第2の検出方法を具体的に説明するための説明
図である。
【図6】この発明による第3の検出方法を示すフローチ
ャートである。
【図7】第3の検出方法の一部を具体的に説明するため
の説明図である。
【図8】第3の検出方法の残りの部分を具体的に説明す
るための説明図である。
【図9】この発明による第4の検出方法を示すフローチ
ャートである。
【図10】第4の検出方法の一部を具体的に説明するた
めの説明図である。
【図11】第4の検出方法の残りの部分を具体的に説明
するための説明図である。
【図12】この発明による第5の検出方法を示すフロー
チャートである。
【図13】第5の検出方法を具体的に説明するための説
明図である。
【図14】この発明による第6の検出方法を示すフロー
チャートである。
【図15】第6の検出方法を具体的に説明するための説
明図である。
【図16】この発明による第7の検出方法を示すフロー
チャートである。
【図17】第7の検出方法を具体的に説明するための説
明図である。
【図18】この発明による第8の検出方法を示すフロー
チャートの第1部分である。
【図19】この発明による第8の検出方法を示すフロー
チャートの第2部分である。
【図20】この発明による第8の検出方法を示すフロー
チャートの第3部分である。
【図21】スタックメモリの内容を説明するための説明
図である。
【図22】第8の検出方法を具体的に説明する説明図の
第1部分である。
【図23】第8の検出方法で用いられるかっこと字形類
似の文字データ例を説明するための説明図である。
【図24】第8の検出方法を具体的に説明する説明図の
第2部分である。
【図25】第8の検出方法を具体的に説明する説明図の
第3部分である。
【図26】第9の検出方法を具体的に説明するための説
明図である。
【図27】第10の検出方法を具体的に説明するための
説明図である。
【図28】第11の検出方法を具体的に説明するための
説明図である。
【符号の説明】
1 日本語文書 2 漢字OCR 3 認識結果 4 誤読修正・未登録語検出部 5 単語辞書 6 文法ルール 7 誤読修正結果 8 誤読検出部 9 字形類似漢字1文字体言辞書 10 字形類似文字を含む単語辞書 11 低頻度片仮名連接文字列 12 かっこと字形類似の文字データ 13 誤読検出結果 14 エディタ 15 最終認識結果

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 光学的文字読取装置(OCR)の認識結
    果に対し単語辞書との照合および文法規則の適用を含む
    言語的処理を施し誤読を修正する第1のステップと、単
    語辞書には登録されていないが固有名詞の可能性の高い
    文字列を未登録語として検出する第2のステップとを含
    む誤読修正・検出方法において、 前記第1,第2ステップを経て文法的に解析された認識
    結果に対し、未登録語として検出された単語を誤読の可
    能性があるとして検出するステップを含むことを特徴と
    する誤読修正・検出方法。
  2. 【請求項2】 光学的文字読取装置(OCR)の認識結
    果に対し単語辞書との照合および文法規則の適用を含む
    言語的処理を施し誤読を修正する第1のステップと、単
    語辞書には登録されていないが固有名詞の可能性の高い
    文字列を未登録語として検出する第2のステップとを含
    む誤読修正・検出方法において、 前記第1,第2ステップを経て文法的に解析された認識
    結果に対し、漢字1文字体言で連続して出現する頻度の
    高いものを単語相当として単語辞書に予め記憶してお
    き、漢字1文字体言または前後の単語に接続可能な単語
    を照合できなかったリジェクト文字が2文字以上連続し
    て現れかつ前記単語辞書にない部分を、誤読の可能性が
    あるとして検出するステップを含むことを特徴とする誤
    読修正・検出方法。
  3. 【請求項3】 光学的文字読取装置(OCR)の認識結
    果に対し単語辞書との照合および文法規則の適用を含む
    言語的処理を施し誤読を修正する第1のステップと、単
    語辞書には登録されていないが固有名詞の可能性の高い
    文字列を未登録語として検出する第2のステップとを含
    む誤読修正・検出方法において、 前記第1,第2ステップを経て文法的に解析された認識
    結果に対し、単独で出現した漢字1文字体言で他に字形
    が類似した漢字1文字体言があってそちらの文字の方の
    出現頻度が極めて高い場合、その文字出現頻度の高い方
    の文字に置換したことを検出するステップと、誤読し難
    い文字と字形類似文字で構成される単語が2以上ある単
    語群のうちの単語が出現した場合、単語群中に、出現し
    た単語より出現頻度の極めて高い単語がある場合、その
    単語を出現頻度の高い単語に置換したことを検出するス
    テップとを含むことを特徴とする誤読修正・検出方法。
  4. 【請求項4】 光学的文字読取装置(OCR)の認識結
    果に対し単語辞書との照合および文法規則の適用を含む
    言語的処理を施し誤読を修正する第1のステップと、単
    語辞書には登録されていないが固有名詞の可能性の高い
    文字列を未登録語として検出する第2のステップとを含
    む誤読修正・検出方法において、 前記第1,第2ステップを経て文法的に解析された認識
    結果に対し、単独で出現した片仮名を誤読の可能性が高
    いとして検出するステップと、他の文字種の中に単独で
    出現した英字,数字を誤読の確率が高いとして検出する
    ステップとを含むことを特徴とする誤読修正・検出方
    法。
  5. 【請求項5】 光学的文字読取装置(OCR)の認識結
    果に対し単語辞書との照合および文法規則の適用を含む
    言語的処理を施し誤読を修正する第1のステップと、単
    語辞書には登録されていないが固有名詞の可能性の高い
    文字列を未登録語として検出する第2のステップとを含
    む誤読修正・検出方法において、 前記第1,第2ステップを経て文法的に解析された認識
    結果に対し、片仮名のうち連接する確率の極めて低い文
    字の組み合わせを予め登録しておき、その片仮名の文字
    列が出現した場合に誤読を含む可能性が高いとして検出
    するステップを含むことを特徴とする誤読修正・検出方
    法。
  6. 【請求項6】 光学的文字読取装置(OCR)の認識結
    果に対し単語辞書との照合および文法規則の適用を含む
    言語的処理を施し誤読を修正する第1のステップと、単
    語辞書には登録されていないが固有名詞の可能性の高い
    文字列を未登録語として検出する第2のステップとを含
    む誤読修正・検出方法において、 前記第1,第2ステップを経て文法的に解析された認識
    結果に対し、同一文書内で前記第1のステップで既に修
    正された平仮名が1文字単語として出現した場合、これ
    を誤読の可能性が高いとして検出するステップを含むこ
    とを特徴とする誤読修正・検出方法。
  7. 【請求項7】 光学的文字読取装置(OCR)の認識結
    果に対し単語辞書との照合および文法規則の適用を含む
    言語的処理を施し誤読を修正する第1のステップと、単
    語辞書には登録されていないが固有名詞の可能性の高い
    文字列を未登録語として検出する第2のステップとを含
    む誤読修正・検出方法において、 前記第1,第2ステップを経て文法的に解析された認識
    結果に対し、句読点が2個以上連続して出現したとき、
    その中に誤読を含む可能性が高いとして検出するステッ
    プを含むことを特徴とする誤読修正・検出方法。
  8. 【請求項8】 光学的文字読取装置(OCR)の認識結
    果に対し単語辞書との照合および文法規則の適用を含む
    言語的処理を施し誤読を修正する第1のステップと、単
    語辞書には登録されていないが固有名詞の可能性の高い
    文字列を未登録語として検出する第2のステップとを含
    む誤読修正・検出方法において、 前記第1,第2ステップを経て文法的に解析された認識
    結果に対し、中に句読点をはさまず、対応するかっこの
    形状が異なるとき、対応するかっこのうち認識時の評価
    値の高い方の形状に統一しそれを検出するステップと、
    文の先頭の英数字の後の閉じかっこ以外で、文の中に開
    きかっこなしで閉じかっこが出現したとき、閉じかっこ
    を誤読しているか、対応する開きかっこをかっこ以外に
    誤読している可能性が大きいとして閉じかっことそれに
    対応する開きかっこ類似字形文字がある場合にそれを検
    出するステップと、文中に開きかっこが出現し、それに
    対応する閉じかっこがないまま文が終了している場合、
    開きかっこを誤読しているか、対応する閉じかっこをか
    っこ以外に誤読している可能性が大きいとして開きかっ
    ことそれに対応する閉じかっこの類似字形文字がある場
    合にそれを検出するステップとを含むことを特徴とする
    誤読修正・検出方法。
JP3247708A 1991-09-26 1991-09-26 誤読修正・検出方法 Pending JPH0589281A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3247708A JPH0589281A (ja) 1991-09-26 1991-09-26 誤読修正・検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3247708A JPH0589281A (ja) 1991-09-26 1991-09-26 誤読修正・検出方法

Publications (1)

Publication Number Publication Date
JPH0589281A true JPH0589281A (ja) 1993-04-09

Family

ID=17167483

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3247708A Pending JPH0589281A (ja) 1991-09-26 1991-09-26 誤読修正・検出方法

Country Status (1)

Country Link
JP (1) JPH0589281A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103312297A (zh) * 2013-06-13 2013-09-18 北京航空航天大学 一种迭代扩展增量卡尔曼滤波方法
CN103870800B (zh) * 2012-12-18 2018-12-25 富士施乐株式会社 信息处理设备和信息处理方法
JP2021018520A (ja) * 2019-07-18 2021-02-15 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870800B (zh) * 2012-12-18 2018-12-25 富士施乐株式会社 信息处理设备和信息处理方法
CN103312297A (zh) * 2013-06-13 2013-09-18 北京航空航天大学 一种迭代扩展增量卡尔曼滤波方法
JP2021018520A (ja) * 2019-07-18 2021-02-15 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
US11972208B2 (en) 2019-07-18 2024-04-30 Canon Kabushiki Kaisha Information processing device and information processing method

Similar Documents

Publication Publication Date Title
US9489371B2 (en) Detection of data in a sequence of characters
JP4652737B2 (ja) 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、
US7171350B2 (en) Method for named-entity recognition and verification
CN111639489A (zh) 中文文本纠错系统、方法、装置及计算机可读存储介质
CN113435186B (zh) 中文文本纠错系统、方法、装置及计算机可读存储介质
JPH07325828A (ja) 文法チェックシステム
EP0195779A1 (en) Cryptographic analysis system
JPH0684006A (ja) オンライン手書き文字認識方法
Zhang et al. Automatic detecting/correcting errors in Chinese text by an approximate word-matching algorithm
Pal et al. OCR error correction of an inflectional indian language using morphological parsing
JPH0211934B2 (ja)
JP2000089786A (ja) 音声認識結果の修正方法および装置
JPH0589281A (ja) 誤読修正・検出方法
WO2021196835A1 (zh) 提取时间字符串的方法、装置、计算机设备及存储介质
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
Nguyen et al. An in-depth analysis of OCR errors for unconstrained Vietnamese handwriting
JP3274014B2 (ja) 文字認識装置および文字認識方法
JP3470927B2 (ja) 自然語解析方法及び装置
Mon Spell checker for Myanmar language
JPS62251986A (ja) 誤読文字訂正処理装置
JP3548372B2 (ja) 文字認識装置
JP2939945B2 (ja) ローマ字住所認識装置
JPS63118868A (ja) 日本語文章校正装置
JPS62249269A (ja) 文書処理装置
JPH07110844A (ja) 日本語文書処理装置