JPH04211887A - 誤読文字修正方法 - Google Patents
誤読文字修正方法Info
- Publication number
- JPH04211887A JPH04211887A JP3039003A JP3900391A JPH04211887A JP H04211887 A JPH04211887 A JP H04211887A JP 3039003 A JP3039003 A JP 3039003A JP 3900391 A JP3900391 A JP 3900391A JP H04211887 A JPH04211887 A JP H04211887A
- Authority
- JP
- Japan
- Prior art keywords
- character
- misread
- characters
- correction
- misreading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 18
- 238000012937 correction Methods 0.000 claims abstract description 22
- 238000001514 detection method Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 11
- 238000012015 optical character recognition Methods 0.000 description 11
- 230000000877 morphologic effect Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【0001】
【産業上の利用分野】本発明は、光学的文字認識装置(
OCR)等により読み取られて記述された日本語文章に
おける誤読文字の修正方法に関するものである。
OCR)等により読み取られて記述された日本語文章に
おける誤読文字の修正方法に関するものである。
【0002】
【従来の技術】文字認識装置が認識対象文字を認識した
結果として1位,2位,3位の如く、確からしい順に挙
げた候補文字の中から1位のものだけを集めて生成した
文章を、修正の対象として、単語辞書,文法辞書を参照
しながら、形態素解析によって単語に分割した後、文法
的に矛盾したところを調べて誤読文字の検出,修正を行
なう技術は従来から一般に知られている。
結果として1位,2位,3位の如く、確からしい順に挙
げた候補文字の中から1位のものだけを集めて生成した
文章を、修正の対象として、単語辞書,文法辞書を参照
しながら、形態素解析によって単語に分割した後、文法
的に矛盾したところを調べて誤読文字の検出,修正を行
なう技術は従来から一般に知られている。
【0003】
【発明が解決しようとする課題】しかし、かかる従来技
術においては、誤読文字でありながら、文法的には矛盾
を生じないためにその検出が不可能であるという場合が
存在した。具体的に述べると、誤読文字を含む部分が1
文字の名詞に分解されてしまうという場合である。1文
字名詞の連続は、文法的には許容されているので、文法
的な吟味によっては、かかる場合の誤読は検出されず、
修正されない。
術においては、誤読文字でありながら、文法的には矛盾
を生じないためにその検出が不可能であるという場合が
存在した。具体的に述べると、誤読文字を含む部分が1
文字の名詞に分解されてしまうという場合である。1文
字名詞の連続は、文法的には許容されているので、文法
的な吟味によっては、かかる場合の誤読は検出されず、
修正されない。
【0004】具体例を挙げて、以下に説明する。いま、
「都合」という2文字からなる部分が、誤読によって「
都台」と認識されたとする。すると、この「都台」とい
う部分は、形態素解析により、「都」と「台」という2
つの1文字名詞に分解される。しかし、文法的には、こ
のように2つの1文字名詞が連続していても、オカシイ
ということにはならないので、誤読は検出されない。 しかし実際上は、2つの1文字名詞が連続した場合、そ
れが誤読により発生する場合が相当多くあり、一方、2
つの1文字名詞が連続しても、それはそれで正しいとい
う場合もかなりあり、一概には決めることができない。 このことは、1文字名詞に限らず、1文字動詞語幹につ
いても当てはまる。例えば、「企業」という2文字から
成る部分が、誤読によって「企栄」と認識されたとする
。そこで、「企栄」を形態素解析すると「企」と「栄」
となり、「栄」は「栄える」の語幹(1文字動詞語幹)
である。このような場合も、文法的には誤読を検出でき
ないが、実際には誤読により発生する場合が相当多いと
いうわけである。
「都合」という2文字からなる部分が、誤読によって「
都台」と認識されたとする。すると、この「都台」とい
う部分は、形態素解析により、「都」と「台」という2
つの1文字名詞に分解される。しかし、文法的には、こ
のように2つの1文字名詞が連続していても、オカシイ
ということにはならないので、誤読は検出されない。 しかし実際上は、2つの1文字名詞が連続した場合、そ
れが誤読により発生する場合が相当多くあり、一方、2
つの1文字名詞が連続しても、それはそれで正しいとい
う場合もかなりあり、一概には決めることができない。 このことは、1文字名詞に限らず、1文字動詞語幹につ
いても当てはまる。例えば、「企業」という2文字から
成る部分が、誤読によって「企栄」と認識されたとする
。そこで、「企栄」を形態素解析すると「企」と「栄」
となり、「栄」は「栄える」の語幹(1文字動詞語幹)
である。このような場合も、文法的には誤読を検出でき
ないが、実際には誤読により発生する場合が相当多いと
いうわけである。
【0005】したがって、本発明の第1の課題は、この
ように文法的にはチェックできないが、実際には誤読に
より発生する場合の多い1文字名詞や1文字動詞語幹の
連続する部分を検出して、それが誤読によるものか否か
を調べ、誤読によるものであればそれを修正することが
できる誤読文字修正方法を提供すことにある。また、形
態素解析を行なうための単語辞書や文法辞書には多くの
メモリ容量が必要となり、ハードウエアに負担がかかる
。さらに、単語辞書や文法辞書を参照しながら形態素解
析によって単語に分割する場合、第1候補だけでなく下
位候補についても単語の可能性を調べるので、多くの処
理時間がかかる。したがって、本発明の第2の課題は、
形態素解析によって単語を分割することなく、誤読文字
を判定して修正文字に入れ替えることのできる誤読文字
修正方法を提供することにある。
ように文法的にはチェックできないが、実際には誤読に
より発生する場合の多い1文字名詞や1文字動詞語幹の
連続する部分を検出して、それが誤読によるものか否か
を調べ、誤読によるものであればそれを修正することが
できる誤読文字修正方法を提供すことにある。また、形
態素解析を行なうための単語辞書や文法辞書には多くの
メモリ容量が必要となり、ハードウエアに負担がかかる
。さらに、単語辞書や文法辞書を参照しながら形態素解
析によって単語に分割する場合、第1候補だけでなく下
位候補についても単語の可能性を調べるので、多くの処
理時間がかかる。したがって、本発明の第2の課題は、
形態素解析によって単語を分割することなく、誤読文字
を判定して修正文字に入れ替えることのできる誤読文字
修正方法を提供することにある。
【0006】
【課題を解決するための手段】このような第1課題を解
決するために、本発明では、文字認識装置が認識対象文
字を認識した結果として、1位,2位,3位の如く、確
からしい順に挙げた候補文字の中から1位のものだけを
集めて生成した文章を、修正の対象として、その中に含
まれている誤読文字を検出して修正する誤読文字修正方
法において、予め作成してある文字連接確率表を参照し
て、1文字名詞または1文字動詞語幹が少なくとも2個
、連続している部分における誤読の有無を調べ、有りな
らそこを修正することを特徴とする。
決するために、本発明では、文字認識装置が認識対象文
字を認識した結果として、1位,2位,3位の如く、確
からしい順に挙げた候補文字の中から1位のものだけを
集めて生成した文章を、修正の対象として、その中に含
まれている誤読文字を検出して修正する誤読文字修正方
法において、予め作成してある文字連接確率表を参照し
て、1文字名詞または1文字動詞語幹が少なくとも2個
、連続している部分における誤読の有無を調べ、有りな
らそこを修正することを特徴とする。
【0007】また、第2課題を解決するために、本発明
では、文字認識装置が認識した結果として得られた文章
を修正の対象として、その中に含まれている誤読文字を
検出して修正する誤読文字修正方法において、文字が誤
読対象文字か否かを誤読テーブルを参照して検出し、誤
読対象文字の場合にはその前後の文字が正解を示す連接
データテーブルを用いて誤読の有無を調べ、有りならそ
こを修正することを特徴とする。
では、文字認識装置が認識した結果として得られた文章
を修正の対象として、その中に含まれている誤読文字を
検出して修正する誤読文字修正方法において、文字が誤
読対象文字か否かを誤読テーブルを参照して検出し、誤
読対象文字の場合にはその前後の文字が正解を示す連接
データテーブルを用いて誤読の有無を調べ、有りならそ
こを修正することを特徴とする。
【0008】
【作用】文字連接確率表というのは、予め1文字名詞ま
たは1文字動詞語幹の全てについて、それらが誤読の無
い正しい文章において、互いに隣り合って現れる確率(
連接確率)を実際に調べて表にしたものである。図4は
かかる文字連接確率表の一例を説明するための説明図で
ある。これは、「前」とある欄の一つに「大」という文
字があり、「後」とある欄の一つに「会」という文字が
あるが、これらの両文字が隣り合って現れる確率は「0
.35」であること、また、「前」とある欄の一つに「
第」という文字があり、「後」とある欄の一つに「屋」
という文字があるが、これらの両文字が隣り合って現れ
る確率は「0」であること、などを示している。
たは1文字動詞語幹の全てについて、それらが誤読の無
い正しい文章において、互いに隣り合って現れる確率(
連接確率)を実際に調べて表にしたものである。図4は
かかる文字連接確率表の一例を説明するための説明図で
ある。これは、「前」とある欄の一つに「大」という文
字があり、「後」とある欄の一つに「会」という文字が
あるが、これらの両文字が隣り合って現れる確率は「0
.35」であること、また、「前」とある欄の一つに「
第」という文字があり、「後」とある欄の一つに「屋」
という文字があるが、これらの両文字が隣り合って現れ
る確率は「0」であること、などを示している。
【0009】したがって、このような文字連接確率表を
誤読のない正しい文章を対象として予め作成しておき、
修正対象の文章を単語辞書,文法辞書を参照して単語に
切り出した後、切り出された単語を調べて1文字名詞ま
たは1文字動詞語幹が少なくとも2個、連続している部
分を検出し、その検出された部分について、文字連接確
率表を参照して得た文字連接確率が或る一定値以下であ
れば、その検出された部分は誤読であると判断できるの
で、その部分を抽出して修正する。
誤読のない正しい文章を対象として予め作成しておき、
修正対象の文章を単語辞書,文法辞書を参照して単語に
切り出した後、切り出された単語を調べて1文字名詞ま
たは1文字動詞語幹が少なくとも2個、連続している部
分を検出し、その検出された部分について、文字連接確
率表を参照して得た文字連接確率が或る一定値以下であ
れば、その検出された部分は誤読であると判断できるの
で、その部分を抽出して修正する。
【0010】連接データテーブルというのは、予め単語
辞書や読取サンプルから得られた文字の前後の連接デー
タと、類似文字に対する文字連接の排他性により作成さ
れた確実に他の文字と分離できるデータテーブルである
。この連接データテーブルを用いて前後の文字を調べ、
修正文字の前後連接データと一致した場合に誤読文字と
判定し、修正文字に入れ替えることで誤読文字を修正す
る。
辞書や読取サンプルから得られた文字の前後の連接デー
タと、類似文字に対する文字連接の排他性により作成さ
れた確実に他の文字と分離できるデータテーブルである
。この連接データテーブルを用いて前後の文字を調べ、
修正文字の前後連接データと一致した場合に誤読文字と
判定し、修正文字に入れ替えることで誤読文字を修正す
る。
【0011】
【実施例】図1は本発明の一実施例としての誤読文字修
正方法を示すフローチャートである。同図のステップ■
において、文字認識装置(OCR)が認識対象文字を認
識した結果として、1位,2位,3位の如く確からしい
順に挙げた候補文字の中から1位のものだけを集めて生
成した文章を修正の対象として、該修正対象の文章を単
語辞書D1,文法辞書D2を参照して単語に分割して切
り出す。次に、ステップ■において、その切り出された
単語を調べて1文字名詞または1文字動詞語幹が少なく
とも2個、連続している部分を検出して抽出する。次い
でステップ■において、抽出された検出部分について予
め作成してある文字連接確率表D3を参照して文字連接
確率を求め、それが或る一定値以下であるか否かを検定
する。
正方法を示すフローチャートである。同図のステップ■
において、文字認識装置(OCR)が認識対象文字を認
識した結果として、1位,2位,3位の如く確からしい
順に挙げた候補文字の中から1位のものだけを集めて生
成した文章を修正の対象として、該修正対象の文章を単
語辞書D1,文法辞書D2を参照して単語に分割して切
り出す。次に、ステップ■において、その切り出された
単語を調べて1文字名詞または1文字動詞語幹が少なく
とも2個、連続している部分を検出して抽出する。次い
でステップ■において、抽出された検出部分について予
め作成してある文字連接確率表D3を参照して文字連接
確率を求め、それが或る一定値以下であるか否かを検定
する。
【0012】一定値以下であれば、誤読箇所と判定され
るわけであるからステップ■へ進み、抽出されたその検
出部分を構成する少なくとも2個の単語の各々について
、前記第1位の候補文字だけでなく、2位,3位の如き
下位の候補文字をも勘案して各種の組み合わせを作成す
る。次に、ステップ■へ進み、その各種の組み合わせを
単語辞書D1,文法辞書D2を参照しながら吟味し、矛
盾を生じないかどうかを検定する。そして、ステップ■
において修正を行なう。
るわけであるからステップ■へ進み、抽出されたその検
出部分を構成する少なくとも2個の単語の各々について
、前記第1位の候補文字だけでなく、2位,3位の如き
下位の候補文字をも勘案して各種の組み合わせを作成す
る。次に、ステップ■へ進み、その各種の組み合わせを
単語辞書D1,文法辞書D2を参照しながら吟味し、矛
盾を生じないかどうかを検定する。そして、ステップ■
において修正を行なう。
【0013】図2は本発明にかかる誤読文字修正方法を
実行するハードウエアの構成例を示す概要図でる。同図
において、1は読み取り対象の画像を走査するスキャナ
、2はOCR(光学文字認識装置)、3はディスプレイ
、4はパソコン本体、5はキーボードである。本発明に
かかる誤読文字修正方法を実行するプログラムは、パソ
コン本体4内のメモリに格納されており、スキャナ1,
OCR2を介してパソコン本体4に取り込まれた日本語
文章について、誤読文字修正が行なわれ、結果がディス
プレイ3に表示されるようになっている。
実行するハードウエアの構成例を示す概要図でる。同図
において、1は読み取り対象の画像を走査するスキャナ
、2はOCR(光学文字認識装置)、3はディスプレイ
、4はパソコン本体、5はキーボードである。本発明に
かかる誤読文字修正方法を実行するプログラムは、パソ
コン本体4内のメモリに格納されており、スキャナ1,
OCR2を介してパソコン本体4に取り込まれた日本語
文章について、誤読文字修正が行なわれ、結果がディス
プレイ3に表示されるようになっている。
【0014】図3は誤読文字修正の具体例を示す説明図
である。図3の(a)は、正しい入力文字列は「看護婦
の都合により」という文章であったのに、OCRによる
認識結果は、その第1順位,第2順位,第3順位がそれ
ぞれ図示の如く、誤りを含んだものであったことを示し
ている。図3の(b)は、第1順位の認識結果を形態素
解析によって単語に分割したところ、1文字名詞の連続
部分が検出されたことを示している。図3の(c)は、
その1文字名詞の連続部分が文字連接確率表の参照によ
り誤読箇所と判定された場合、1位だけでなく2位,3
位の候補文字との組み合わせを考慮し、検定を行うこと
を示している。図3の(d)は修正結果を示しており、
修正により、入力文字列と同じ正しい結果が得られたこ
とを示している。以上では、文字連接確率表を用いるよ
うにしたが、次のようにすることもできる。
である。図3の(a)は、正しい入力文字列は「看護婦
の都合により」という文章であったのに、OCRによる
認識結果は、その第1順位,第2順位,第3順位がそれ
ぞれ図示の如く、誤りを含んだものであったことを示し
ている。図3の(b)は、第1順位の認識結果を形態素
解析によって単語に分割したところ、1文字名詞の連続
部分が検出されたことを示している。図3の(c)は、
その1文字名詞の連続部分が文字連接確率表の参照によ
り誤読箇所と判定された場合、1位だけでなく2位,3
位の候補文字との組み合わせを考慮し、検定を行うこと
を示している。図3の(d)は修正結果を示しており、
修正により、入力文字列と同じ正しい結果が得られたこ
とを示している。以上では、文字連接確率表を用いるよ
うにしたが、次のようにすることもできる。
【0015】図5は本発明の他の実施例を説明するため
のフローチャートである。まず、同図のステップ■にお
いて、文字認識装置(OCR)が認識した結果として得
られた文章を修正の対象として、該修正対象の文章から
個々の文字を抽出する。次に、ステップ■において誤読
文字テーブルT0を参照し、着目文字が誤読対象文字か
否かを判断する。誤読文字テーブルT0は認識評価によ
り予め作成しておくものとする。その結果、着目文字が
誤読対象文字に該当する場合は、誤読対象文字が正解で
あることを示す前後連接データテーブルT1を参照して
、着目文字の前後の文字データがテーブルT1の文字デ
ータと一致するか否かを判断する(ステップ■)。その
結果、一致しないときは着目文字を修正文字として、そ
の前後の文字が修正文字の連接データテーブルT2,T
3の中にあれば着目文字は誤読と判定し、着目文字を修
正文字に入れ換える(■,■)。なお、かかる動作は修
正対象の文章が終わるまで続けられる。
のフローチャートである。まず、同図のステップ■にお
いて、文字認識装置(OCR)が認識した結果として得
られた文章を修正の対象として、該修正対象の文章から
個々の文字を抽出する。次に、ステップ■において誤読
文字テーブルT0を参照し、着目文字が誤読対象文字か
否かを判断する。誤読文字テーブルT0は認識評価によ
り予め作成しておくものとする。その結果、着目文字が
誤読対象文字に該当する場合は、誤読対象文字が正解で
あることを示す前後連接データテーブルT1を参照して
、着目文字の前後の文字データがテーブルT1の文字デ
ータと一致するか否かを判断する(ステップ■)。その
結果、一致しないときは着目文字を修正文字として、そ
の前後の文字が修正文字の連接データテーブルT2,T
3の中にあれば着目文字は誤読と判定し、着目文字を修
正文字に入れ換える(■,■)。なお、かかる動作は修
正対象の文章が終わるまで続けられる。
【0016】図6は類似文字が3文字の場合の連接デー
タテーブルを示すものであり、誤読対象文字が正解であ
ることを示す前後連接データテーブルT1および修正文
字の連接データテーブルT2,T3から構成されている
。同図(イ)がデータテーブルT1、同(ロ),(ハ)
がそれぞれデータテーブルT2,T3を示す。図6に示
すテーブルが誤読対象文字の数だけ予め作成されている
。
タテーブルを示すものであり、誤読対象文字が正解であ
ることを示す前後連接データテーブルT1および修正文
字の連接データテーブルT2,T3から構成されている
。同図(イ)がデータテーブルT1、同(ロ),(ハ)
がそれぞれデータテーブルT2,T3を示す。図6に示
すテーブルが誤読対象文字の数だけ予め作成されている
。
【0017】これは、例えば図7に示すように“目”が
誤読対象文字であれば、その前接データは“盲”,“丁
”,“項”,“面”などであり、“自”が第1の修正文
字ならば、その前接データは“不”,“独”,“方”,
“悠”などであり、“月”が第2の修正文字ならば、そ
の前接データは“今”,“先”,“来”,“毎”などで
あることを示している。つまり、A1は“目”独自の前
接データ、A2は“自”独自の前接データ、A3は“月
”独自の前接データ、A4〜A7は各文字間に共通の前
接データであり、前の文字が“盲”の場合は次には“目
”しか接続しないことを示している。このように、上記
各テーブルは類似文字に対する文字連接の排他性を利用
して予め作成される。なお、上記では前接データだけを
説明したが、後接データについても同様に、文字連接の
排他性を利用して各々完全に独立した後接データとして
得ることができる。
誤読対象文字であれば、その前接データは“盲”,“丁
”,“項”,“面”などであり、“自”が第1の修正文
字ならば、その前接データは“不”,“独”,“方”,
“悠”などであり、“月”が第2の修正文字ならば、そ
の前接データは“今”,“先”,“来”,“毎”などで
あることを示している。つまり、A1は“目”独自の前
接データ、A2は“自”独自の前接データ、A3は“月
”独自の前接データ、A4〜A7は各文字間に共通の前
接データであり、前の文字が“盲”の場合は次には“目
”しか接続しないことを示している。このように、上記
各テーブルは類似文字に対する文字連接の排他性を利用
して予め作成される。なお、上記では前接データだけを
説明したが、後接データについても同様に、文字連接の
排他性を利用して各々完全に独立した後接データとして
得ることができる。
【0018】図8に、具体例を示す。これは、同図(イ
)の入力文字列「…独自の…」に対し、認識結果が「独
目の」となったので、“目”が誤読対象文字であり、前
接文字は“独”であることを示しており、このような場
合でも本発明の第2の方法によれば、前接文字“独”は
修正文字“自”の前接文字データと一致するので、“目
”を“自”に置き替え、同図(ハ)のように「…独自の
…」と誤読文字修正が行われることになる。
)の入力文字列「…独自の…」に対し、認識結果が「独
目の」となったので、“目”が誤読対象文字であり、前
接文字は“独”であることを示しており、このような場
合でも本発明の第2の方法によれば、前接文字“独”は
修正文字“自”の前接文字データと一致するので、“目
”を“自”に置き替え、同図(ハ)のように「…独自の
…」と誤読文字修正が行われることになる。
【0019】
【発明の効果】本発明によれば、文法的にはチェックで
きないが、実際には誤読により発生する場合の多い1文
字名詞や1文字動詞語幹の連続する部分を検出して、そ
れが誤読によるものか否かを調べ、誤読によるものであ
れば、それを修正できるので、従来より一段と文字認識
の精度向上を図れるという利点が得られる。また、認識
評価により得られた誤読文字テーブルを用いて誤読対象
文字を検出し、その文字についてのみ誤読修正処理を行
うようにすれば、より高速な処理が可能となる。さらに
、予め単語辞書や読取サンプルから得られた文字の前後
の連接データと、類似文字に対する文字連接の排他性か
ら作成された修正文字データテーブルは確実に他の文字
との分離が可能であり、単語辞書や文法辞書に比べてか
なり少ないメモリ容量で実現することができる。そして
、この修正文字データテーブルにより前後の文字を調べ
、修正文字の前後連接データと一致した場合のみ誤読文
字と判定し、修正文字と入れ替えることにより、文字を
精度良く、しかも高速に修正することができる。
きないが、実際には誤読により発生する場合の多い1文
字名詞や1文字動詞語幹の連続する部分を検出して、そ
れが誤読によるものか否かを調べ、誤読によるものであ
れば、それを修正できるので、従来より一段と文字認識
の精度向上を図れるという利点が得られる。また、認識
評価により得られた誤読文字テーブルを用いて誤読対象
文字を検出し、その文字についてのみ誤読修正処理を行
うようにすれば、より高速な処理が可能となる。さらに
、予め単語辞書や読取サンプルから得られた文字の前後
の連接データと、類似文字に対する文字連接の排他性か
ら作成された修正文字データテーブルは確実に他の文字
との分離が可能であり、単語辞書や文法辞書に比べてか
なり少ないメモリ容量で実現することができる。そして
、この修正文字データテーブルにより前後の文字を調べ
、修正文字の前後連接データと一致した場合のみ誤読文
字と判定し、修正文字と入れ替えることにより、文字を
精度良く、しかも高速に修正することができる。
【図1】本発明の1実施例を説明するためのフローチャ
ートである。
ートである。
【図2】本発明を実施するためのハードウエア構成例を
示すブロック図である。
示すブロック図である。
【図3】誤読修正文字の具体例を説明するための説明図
である。
である。
【図4】文字連接確率表を説明するための説明図である
。
。
【図5】本発明の他の実施例を説明するためのフローチ
ャートである。
ャートである。
【図6】修正文字データテーブルを説明するための説明
図である。
図である。
【図7】文字連接の排他性を説明するための説明図であ
る。
る。
【図8】本発明の第2の方法を具体的に説明するための
説明図である。
説明図である。
1 スキャナ
2 OCR(光学的文字認識装置)
3 ディスプレイ
4 パソコン本体
5 キーボード
Claims (2)
- 【請求項1】 文字認識装置が認識対象文字を認識し
た結果として、1位,2位,3位の如く、確からしい順
に挙げた候補文字の中から1位のものだけを集めて生成
した文章を、修正の対象として、その中に含まれている
誤読文字を検出して修正する誤読文字修正方法において
、前記修正対象の文章を単語辞書,文法辞書を参照して
単語に切り出す第1の段階と、切り出された単語を調べ
て1文字名詞または1文字動詞語幹が少なくとも2個、
連続している部分を検出する第2の段階と、検出された
部分について、予め作成してある文字連接確率表を参照
して得た文字連接確率が或る一定値以下であれば、その
検出された部分は誤読であると判断して抽出する第3の
段階と、抽出されたその検出部分を構成する少なくとも
2個の単語の各々について、前記1位の候補文字だけで
なく、2位,3位の如き下位の候補文字をも勘案して各
種の組み合わせを吟味し、文法辞書を参照して矛盾を生
じない1つの組み合わせを選択して抽出された検出部分
に代えて修正を行なう第4の段階と、を含んでなること
を特徴とする誤読文字修正方法。 - 【請求項2】 文字認識装置が認識した結果として得
られた文章を修正の対象として、その中に含まれている
誤読文字を検出して修正する誤読文字修正方法において
、前記修正対象の文章から個々の文字を抽出する第1の
段階と、個々の文字が誤読対象文字か否かを誤読文字テ
ーブルを参照して検出する第2の段階と、着目文字が誤
読対象文字のときはその前後の文字が正解を示す連接デ
ータテーブル中にあるか否かを調べる第3の段階と、着
目文字の前後の文字が正解を示す連接データテーブル中
にないときは前記着目文字を修正文字としてその前後の
文字が修正文字の連接データテーブル中にあれば着目文
字は誤読と判定し着目文字を修正文字に入れ換える第4
の段階と、を含んでなることを特徴とする誤読文字修正
方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2-57994 | 1990-03-12 | ||
JP5799490 | 1990-03-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04211887A true JPH04211887A (ja) | 1992-08-03 |
JP2902138B2 JP2902138B2 (ja) | 1999-06-07 |
Family
ID=13071561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3039003A Expired - Fee Related JP2902138B2 (ja) | 1990-03-12 | 1991-02-12 | 誤読文字修正方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2902138B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013047812A1 (ja) | 2011-09-30 | 2013-04-04 | 新日鐵住金株式会社 | 高強度溶融亜鉛めっき鋼板 |
-
1991
- 1991-02-12 JP JP3039003A patent/JP2902138B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013047812A1 (ja) | 2011-09-30 | 2013-04-04 | 新日鐵住金株式会社 | 高強度溶融亜鉛めっき鋼板 |
KR20140061457A (ko) | 2011-09-30 | 2014-05-21 | 신닛테츠스미킨 카부시키카이샤 | 고강도 용융 아연 도금 강판 |
Also Published As
Publication number | Publication date |
---|---|
JP2902138B2 (ja) | 1999-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100961717B1 (ko) | 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치 | |
KR20140021838A (ko) | 문법 오류 검출 방법 및 이를 위한 오류검출장치 | |
CN116360794A (zh) | 数据库语言解析方法、装置、计算机设备及存储介质 | |
JPH04211887A (ja) | 誤読文字修正方法 | |
JP3326646B2 (ja) | 機械翻訳システム用辞書・ルール学習装置 | |
KR101747924B1 (ko) | 한국어 철자 검사 방법 및 이를 실행하는 장치 | |
KR100420474B1 (ko) | 부분문틀을 이용한 장문 번역 장치 및 그 방법 | |
KR102604758B1 (ko) | 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법 | |
JP3783053B2 (ja) | 負の例予測処理方法、処理プログラムおよび処理装置、負の例予測処理を用いた日本語表記誤り検出処理プログラムおよび処理装置、ならびに負の例予測処理を用いた外の関係検出処理プログラムおよび処理装置 | |
JP3935374B2 (ja) | 辞書構築支援方法、装置及びプログラム | |
EP0314503A2 (en) | Dictionary structure for document processing apparatus | |
JPS63118868A (ja) | 日本語文章校正装置 | |
JPS63163956A (ja) | 文書作成・校正支援装置 | |
JP2895137B2 (ja) | 日本文誤り自動検出および訂正装置 | |
JPH08305698A (ja) | 自然語解析方法及び装置 | |
JPH03156589A (ja) | 誤読文字の検出,修正方法 | |
KR20240074344A (ko) | 대표어를 기반으로 하는 자동번역기의 한문고어 번역품질 측정방법 | |
JP5937496B2 (ja) | 読み仮名誤り検出装置、方法並びにプログラム | |
JP2994539B2 (ja) | 機械翻訳装置 | |
JPH01292569A (ja) | 日本文誤り自動検定装置 | |
JPH01281561A (ja) | 日本文訂正候補文字抽出方法 | |
JPS62285189A (ja) | 文字認識後処理方式 | |
JPH0262659A (ja) | 日本文訂正候補文字抽出装置 | |
JPH0673134B2 (ja) | 機械翻訳システム | |
JP2003296323A (ja) | 形態素解析装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080319 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090319 Year of fee payment: 10 |
|
LAPS | Cancellation because of no payment of annual fees |