JP2902138B2 - 誤読文字修正方法 - Google Patents

誤読文字修正方法

Info

Publication number
JP2902138B2
JP2902138B2 JP3039003A JP3900391A JP2902138B2 JP 2902138 B2 JP2902138 B2 JP 2902138B2 JP 3039003 A JP3039003 A JP 3039003A JP 3900391 A JP3900391 A JP 3900391A JP 2902138 B2 JP2902138 B2 JP 2902138B2
Authority
JP
Japan
Prior art keywords
character
misread
characters
correction
corrected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3039003A
Other languages
English (en)
Other versions
JPH04211887A (ja
Inventor
一郎 小倉
章子 紺野
伸二 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Efu Efu Shii Kk
Fuji Electric Co Ltd
Original Assignee
Efu Efu Shii Kk
Fuji Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Efu Efu Shii Kk, Fuji Electric Co Ltd filed Critical Efu Efu Shii Kk
Publication of JPH04211887A publication Critical patent/JPH04211887A/ja
Application granted granted Critical
Publication of JP2902138B2 publication Critical patent/JP2902138B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、光学的文字認識装置
(OCR)等により読み取られて記述された日本語文章
における誤読文字の修正方法に関するものである。
【0002】
【従来の技術】文字認識装置が認識対象文字を認識した
結果として1位,2位,3位の如く、確からしい順に挙
げた候補文字の中から1位のものだけを集めて生成した
文章を、修正の対象として、単語辞書,文法辞書を参照
しながら、形態素解析によって単語に分割した後、文法
的に矛盾したところを調べて誤読文字の検出,修正を行
なう技術は従来から一般に知られている。
【0003】
【発明が解決しようとする課題】しかし、かかる従来技
術においては、誤読文字でありながら、文法的には矛盾
を生じないためにその検出が不可能であるという場合が
存在した。具体的に述べると、誤読文字を含む部分が1
文字の名詞に分解されてしまうという場合である。1文
字名詞の連続は、文法的には許容されているので、文法
的な吟味によっては、かかる場合の誤読は検出されず、
修正されない。
【0004】具体例を挙げて、以下に説明する。いま、
「都合」という2文字からなる部分が、誤読によって
「都台」と認識されたとする。すると、この「都台」と
いう部分は、形態素解析により、「都」と「台」という
2つの1文字名詞に分解される。しかし、文法的には、
このように2つの1文字名詞が連続していても、オカシ
イということにはならないので、誤読は検出されない。
しかし実際上は、2つの1文字名詞が連続した場合、そ
れが誤読により発生する場合が相当多くあり、一方、2
つの1文字名詞が連続しても、それはそれで正しいとい
う場合もかなりあり、一概には決めることができない。
このことは、1文字名詞に限らず、1文字動詞語幹につ
いても当てはまる。例えば、「企業」という2文字から
成る部分が、誤読によって「企栄」と認識されたとす
る。そこで、「企栄」を形態素解析すると「企」と
「栄」となり、「栄」は「栄える」の語幹(1文字動詞
語幹)である。このような場合も、文法的には誤読を検
出できないが、実際には誤読により発生する場合が相当
多いというわけである。
【0005】したがって、本発明の第1の課題は、この
ように文法的にはチェックできないが、実際には誤読に
より発生する場合の多い1文字名詞や1文字動詞語幹の
連続する部分を検出して、それが誤読によるものか否か
を調べ、誤読によるものであればそれを修正することが
できる誤読文字修正方法を提供すことにある。また、形
態素解析を行なうための単語辞書や文法辞書には多くの
メモリ容量が必要となり、ハードウエアに負担がかか
る。さらに、単語辞書や文法辞書を参照しながら形態素
解析によって単語に分割する場合、第1候補だけでなく
下位候補についても単語の可能性を調べるので、多くの
処理時間がかかる。したがって、本発明の第2の課題
は、形態素解析によって単語を分割することなく、誤読
文字を判定して修正文字に入れ替えることのできる誤読
文字修正方法を提供することにある。
【0006】
【課題を解決するための手段】このような第1課題を解
決するために、本発明では、文字認識装置が認識対象文
字を認識した結果として、1位,2位,3位の如く、確
からしい順に挙げた候補文字の中から1位のものだけを
集めて生成した文章を、修正の対象として、その中に含
まれている誤読文字を検出して修正する誤読文字修正方
法において、予め作成してある文字連接確率表を参照し
て、1文字名詞または1文字動詞語幹が少なくとも2
個、連続している部分における誤読の有無を調べ、有り
ならそこを修正することを特徴とする。
【0007】また、第2課題を解決するために、本発明
では、文字認識装置が認識した結果として得られた文章
を修正の対象として、その中に含まれている誤読文字を
検出して修正する誤読文字修正方法において、文字が誤
読対象文字か否かを誤読テーブルを参照して検出し、誤
読対象文字の場合にはその前後の文字が正解を示す連接
データテーブルを用いて誤読の有無を調べ、有りならそ
こを修正することを特徴とする。
【0008】
【作用】文字連接確率表というのは、予め1文字名詞ま
たは1文字動詞語幹の全てについて、それらが誤読の無
い正しい文章において、互いに隣り合って現れる確率
(連接確率)を実際に調べて表にしたものである。図4
はかかる文字連接確率表の一例を説明するための説明図
である。これは、「前」とある欄の一つに「大」という
文字があり、「後」とある欄の一つに「会」という文字
があるが、これらの両文字が隣り合って現れる確率は
「0.35」であること、また、「前」とある欄の一つ
に「第」という文字があり、「後」とある欄の一つに
「屋」という文字があるが、これらの両文字が隣り合っ
て現れる確率は「0」であること、などを示している。
【0009】したがって、このような文字連接確率表を
誤読のない正しい文章を対象として予め作成しておき、
修正対象の文章を単語辞書,文法辞書を参照して単語に
切り出した後、切り出された単語を調べて1文字名詞ま
たは1文字動詞語幹が少なくとも2個、連続している部
分を検出し、その検出された部分について、文字連接確
率表を参照して得た文字連接確率が或る一定値以下であ
れば、その検出された部分は誤読であると判断できるの
で、その部分を抽出して修正する。
【0010】連接データテーブルというのは、予め単語
辞書や読取サンプルから得られた文字の前後の連接デー
タと、類似文字に対する文字連接の排他性により作成さ
れた確実に他の文字と分離できるデータテーブルであ
る。この連接データテーブルを用いて前後の文字を調
べ、修正文字の前後連接データと一致した場合に誤読文
字と判定し、修正文字に入れ替えることで誤読文字を修
正する。
【0011】
【実施例】図1は本発明の一実施例としての誤読文字修
正方法を示すフローチャートである。同図のステップ
において、文字認識装置(OCR)が認識対象文字を認
識した結果として、1位,2位,3位の如く確からしい
順に挙げた候補文字の中から1位のものだけを集めて生
成した文章を修正の対象として、該修正対象の文章を単
語辞書D1,文法辞書D2を参照して単語に分割して切
り出す。次に、ステップにおいて、その切り出された
単語を調べて1文字名詞または1文字動詞語幹が少なく
とも2個、連続している部分を検出して抽出する。次い
でステップにおいて、抽出された検出部分について予
め作成してある文字連接確率表D3を参照して文字連接
確率を求め、それが或る一定値以下であるか否かを検定
する。
【0012】一定値以下であれば、誤読箇所と判定され
るわけであるからステップへ進み、抽出されたその検
出部分を構成する少なくとも2個の単語の各々につい
て、前記第1位の候補文字だけでなく、2位,3位の如
き下位の候補文字をも勘案して各種の組み合わせを作成
する。次に、ステップへ進み、その各種の組み合わせ
を単語辞書D1,文法辞書D2を参照しながら吟味し、
矛盾を生じないかどうかを検定する。そして、ステップ
において修正を行なう。
【0013】図2は本発明にかかる誤読文字修正方法を
実行するハードウエアの構成例を示す概要図でる。同図
において、1は読み取り対象の画像を走査するスキャ
ナ、2はOCR(光学文字認識装置)、3はディスプレ
イ、4はパソコン本体、5はキーボードである。本発明
にかかる誤読文字修正方法を実行するプログラムは、パ
ソコン本体4内のメモリに格納されており、スキャナ
1,OCR2を介してパソコン本体4に取り込まれた日
本語文章について、誤読文字修正が行なわれ、結果がデ
ィスプレイ3に表示されるようになっている。
【0014】図3は誤読文字修正の具体例を示す説明図
である。図3の(a)は、正しい入力文字列は「看護婦
の都合により」という文章であったのに、OCRによる
認識結果は、その第1順位,第2順位,第3順位がそれ
ぞれ図示の如く、誤りを含んだものであったことを示し
ている。図3の(b)は、第1順位の認識結果を形態素
解析によって単語に分割したところ、1文字名詞の連続
部分が検出されたことを示している。図3の(c)は、
その1文字名詞の連続部分が文字連接確率表の参照によ
り誤読箇所と判定された場合、1位だけでなく2位,3
位の候補文字との組み合わせを考慮し、検定を行うこと
を示している。図3の(d)は修正結果を示しており、
修正により、入力文字列と同じ正しい結果が得られたこ
とを示している。以上では、文字連接確率表を用いるよ
うにしたが、次のようにすることもできる。
【0015】図5は本発明の他の実施例を説明するため
のフローチャートである。まず、同図のステップにお
いて、文字認識装置(OCR)が認識した結果として得
られた文章を修正の対象として、該修正対象の文章から
個々の文字を抽出する。次に、ステップにおいて誤読
文字テーブルT0を参照し、着目文字が誤読対象文字か
否かを判断する。誤読文字テーブルT0は認識評価によ
り予め作成しておくものとする。その結果、着目文字が
誤読対象文字に該当する場合は、誤読対象文字が正解で
あることを示す前後連接データテーブルT1を参照し
て、着目文字の前後の文字データがテーブルT1の文字
データと一致するか否かを判断する(ステップ)。そ
の結果、一致しないときは着目文字を修正文字として、
その前後の文字が修正文字の連接データテーブルT2,
T3の中にあれば着目文字は誤読と判定し、着目文字を
修正文字に入れ換える(,)。なお、かかる動作は
修正対象の文章が終わるまで続けられる。
【0016】図6は類似文字が3文字の場合の連接デー
タテーブルを示すものであり、誤読対象文字が正解であ
ることを示す前後連接データテーブルT1および修正文
字の連接データテーブルT2,T3から構成されてい
る。同図(イ)がデータテーブルT1、同(ロ),
(ハ)がそれぞれデータテーブルT2,T3を示す。図
6に示すテーブルが誤読対象文字の数だけ予め作成され
ている。
【0017】これは、例えば図7に示すように“目”が
誤読対象文字であれば、その前接データは“盲”,
“丁”,“項”,“面”などであり、“自”が第1の修
正文字ならば、その前接データは“不”,“独”,
“方”,“悠”などであり、“月”が第2の修正文字な
らば、その前接データは“今”,“先”,“来”,
“毎”などであることを示している。つまり、A1は
“目”独自の前接データ、A2は“自”独自の前接デー
タ、A3は“月”独自の前接データ、A4〜A7は各文
字間に共通の前接データであり、前の文字が“盲”の場
合は次には“目”しか接続しないことを示している。こ
のように、上記各テーブルは類似文字に対する文字連接
の排他性を利用して予め作成される。なお、上記では前
接データだけを説明したが、後接データについても同様
に、文字連接の排他性を利用して各々完全に独立した後
接データとして得ることができる。
【0018】図8に、具体例を示す。これは、同図
(イ)の入力文字列「…独自の…」に対し、認識結果が
「独目の」となったので、“目”が誤読対象文字であ
り、前接文字は“独”であることを示しており、このよ
うな場合でも本発明の第2の方法によれば、前接文字
“独”は修正文字“自”の前接文字データと一致するの
で、“目”を“自”に置き替え、同図(ハ)のように
「…独の…」と誤読文字修正が行われることになる。
【0019】
【発明の効果】本発明によれば、文法的にはチェックで
きないが、実際には誤読により発生する場合の多い1文
字名詞や1文字動詞語幹の連続する部分を検出して、そ
れが誤読によるものか否かを調べ、誤読によるものであ
れば、それを修正できるので、従来より一段と文字認識
の精度向上を図れるという利点が得られる。また、認識
評価により得られた誤読文字テーブルを用いて誤読対象
文字を検出し、その文字についてのみ誤読修正処理を行
うようにすれば、より高速な処理が可能となる。さら
に、予め単語辞書や読取サンプルから得られた文字の前
後の連接データと、類似文字に対する文字連接の排他性
から作成された修正文字データテーブルは確実に他の文
字との分離が可能であり、単語辞書や文法辞書に比べて
かなり少ないメモリ容量で実現することができる。そし
て、この修正文字データテーブルにより前後の文字を調
べ、修正文字の前後連接データと一致した場合のみ誤読
文字と判定し、修正文字と入れ替えることにより、文字
を精度良く、しかも高速に修正することができる。
【図面の簡単な説明】
【図1】本発明の1実施例を説明するためのフローチャ
ートである。
【図2】本発明を実施するためのハードウエア構成例を
示すブロック図である。
【図3】誤読修正文字の具体例を説明するための説明図
である。
【図4】文字連接確率表を説明するための説明図であ
る。
【図5】本発明の他の実施例を説明するためのフローチ
ャートである。
【図6】修正文字データテーブルを説明するための説明
図である。
【図7】文字連接の排他性を説明するための説明図であ
る。
【図8】本発明の第2の方法を具体的に説明するための
説明図である。
【符号の説明】
1 スキャナ 2 OCR(光学的文字認識装置) 3 ディスプレイ 4 パソコン本体 5 キーボード
フロントページの続き (72)発明者 松井 伸二 東京都日野市富士町1番地 富士ファコ ム制御株式会社内 (56)参考文献 特開 平3−156589(JP,A) 特開 昭64−41965(JP,A) (58)調査した分野(Int.Cl.6,DB名) G06F 9/72

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 文字認識装置が認識対象文字を認識した
    結果として、1位,2位,3位の如く、確からしい順に
    挙げた候補文字の中から1位のものだけを集めて生成し
    た文章を、修正の対象として、その中に含まれている誤
    読文字を検出して修正する誤読文字修正方法において、
    前記修正対象の文章を単語辞書,文法辞書を参照して単
    語に切り出す第1の段階と、切り出された単語を調べて
    1文字名詞または1文字動詞語幹が少なくとも2個、連
    続している部分を検出する第2の段階と、検出された部
    分について、予め作成してある文字連接確率表を参照し
    て得た文字連接確率が或る一定値以下であれば、その検
    出された部分は誤読であると判断して抽出する第3の段
    階と、抽出されたその検出部分を構成する少なくとも2
    個の単語の各々について、前記1位の候補文字だけでな
    く、2位,3位の如き下位の候補文字をも勘案して各種
    の組み合わせを吟味し、文法辞書を参照して矛盾を生じ
    ない1つの組み合わせを選択して抽出された検出部分に
    代えて修正を行なう第4の段階と、を含んでなることを
    特徴とする誤読文字修正方法。
  2. 【請求項2】 文字認識装置が認識した結果として得ら
    れた文章を修正の対象として、その中に含まれている誤
    読文字を検出して修正する誤読文字修正方法において、
    前記修正対象の文章から個々の文字を抽出する第1の段
    階と、個々の文字が誤読対象文字か否かを誤読文字テー
    ブルを参照して検出する第2の段階と、着目文字が誤読
    対象文字のときはその前後の文字が正解を示す連接デー
    タテーブル中にあるか否かを調べる第3の段階と、着目
    文字の前後の文字が正解を示す連接データテーブル中に
    ないときは前記着目文字を修正文字としてその前後の文
    字が修正文字の連接データテーブル中にあれば着目文字
    は誤読と判定し着目文字を修正文字に入れ換える第4の
    段階と、を含んでなることを特徴とする誤読文字修正方
    法。
JP3039003A 1990-03-12 1991-02-12 誤読文字修正方法 Expired - Fee Related JP2902138B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2-57994 1990-03-12
JP5799490 1990-03-12

Publications (2)

Publication Number Publication Date
JPH04211887A JPH04211887A (ja) 1992-08-03
JP2902138B2 true JP2902138B2 (ja) 1999-06-07

Family

ID=13071561

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3039003A Expired - Fee Related JP2902138B2 (ja) 1990-03-12 1991-02-12 誤読文字修正方法

Country Status (1)

Country Link
JP (1) JP2902138B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX356543B (es) 2011-09-30 2018-06-01 Nippon Steel & Sumitomo Metal Corp Lámina de acero galvanizada por inmersión en caliente, de alta resistencia.

Also Published As

Publication number Publication date
JPH04211887A (ja) 1992-08-03

Similar Documents

Publication Publication Date Title
US5956739A (en) System for text correction adaptive to the text being corrected
US5161245A (en) Pattern recognition system having inter-pattern spacing correction
US20060285746A1 (en) Computer assisted document analysis
JP2000089786A (ja) 音声認識結果の修正方法および装置
JP2902138B2 (ja) 誤読文字修正方法
KR101747924B1 (ko) 한국어 철자 검사 방법 및 이를 실행하는 장치
WO2007041328A1 (en) Detecting segmentation errors in an annotated corpus
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
JP2908460B2 (ja) 誤認識修正方法及び装置
JP3455643B2 (ja) 文字認識装置における学習辞書の更新方法及び文字認識装置
JP3935374B2 (ja) 辞書構築支援方法、装置及びプログラム
WO2022059556A1 (ja) 文書検索装置
JP4318223B2 (ja) 文書校正装置およびプログラム記憶媒体
JP3856515B2 (ja) 文書校正装置
JP3783053B2 (ja) 負の例予測処理方法、処理プログラムおよび処理装置、負の例予測処理を用いた日本語表記誤り検出処理プログラムおよび処理装置、ならびに負の例予測処理を用いた外の関係検出処理プログラムおよび処理装置
JP3109187B2 (ja) 形態素解析方式
JP2595047B2 (ja) 日本文誤り自動検定・訂正装置
JPH087046A (ja) 文書認識装置
JP3390567B2 (ja) 誤字訂正装置
JPS63163956A (ja) 文書作成・校正支援装置
JPH08305698A (ja) 自然語解析方法及び装置
JPH03156589A (ja) 誤読文字の検出,修正方法
JPH08153101A (ja) 日本語文の校正方法
JP2894736B2 (ja) 文章検査方法
JPH10240736A (ja) 形態素解析装置

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080319

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090319

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees