JP2902138B2

JP2902138B2 - 誤読文字修正方法

Info

Publication number: JP2902138B2
Application number: JP3039003A
Authority: JP
Inventors: 一郎小倉; 章子紺野; 伸二松井
Original assignee: Efu Efu Shii Kk; Fuji Electric Co Ltd
Current assignee: Efu Efu Shii Kk; Fuji Electric Co Ltd
Priority date: 1990-03-12
Filing date: 1991-02-12
Publication date: 1999-06-07
Anticipated expiration: 2014-06-07
Also published as: JPH04211887A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、光学的文字認識装置
（ＯＣＲ）等により読み取られて記述された日本語文章
における誤読文字の修正方法に関するものである。

【０００２】

【従来の技術】文字認識装置が認識対象文字を認識した
結果として１位，２位，３位の如く、確からしい順に挙
げた候補文字の中から１位のものだけを集めて生成した
文章を、修正の対象として、単語辞書，文法辞書を参照
しながら、形態素解析によって単語に分割した後、文法
的に矛盾したところを調べて誤読文字の検出，修正を行
なう技術は従来から一般に知られている。

【０００３】

【発明が解決しようとする課題】しかし、かかる従来技
術においては、誤読文字でありながら、文法的には矛盾
を生じないためにその検出が不可能であるという場合が
存在した。具体的に述べると、誤読文字を含む部分が１
文字の名詞に分解されてしまうという場合である。１文
字名詞の連続は、文法的には許容されているので、文法
的な吟味によっては、かかる場合の誤読は検出されず、
修正されない。

【０００４】具体例を挙げて、以下に説明する。いま、
「都合」という２文字からなる部分が、誤読によって
「都台」と認識されたとする。すると、この「都台」と
いう部分は、形態素解析により、「都」と「台」という
２つの１文字名詞に分解される。しかし、文法的には、
このように２つの１文字名詞が連続していても、オカシ
イということにはならないので、誤読は検出されない。
しかし実際上は、２つの１文字名詞が連続した場合、そ
れが誤読により発生する場合が相当多くあり、一方、２
つの１文字名詞が連続しても、それはそれで正しいとい
う場合もかなりあり、一概には決めることができない。
このことは、１文字名詞に限らず、１文字動詞語幹につ
いても当てはまる。例えば、「企業」という２文字から
成る部分が、誤読によって「企栄」と認識されたとす
る。そこで、「企栄」を形態素解析すると「企」と
「栄」となり、「栄」は「栄える」の語幹（１文字動詞
語幹）である。このような場合も、文法的には誤読を検
出できないが、実際には誤読により発生する場合が相当
多いというわけである。

【０００５】したがって、本発明の第１の課題は、この
ように文法的にはチェックできないが、実際には誤読に
より発生する場合の多い１文字名詞や１文字動詞語幹の
連続する部分を検出して、それが誤読によるものか否か
を調べ、誤読によるものであればそれを修正することが
できる誤読文字修正方法を提供すことにある。また、形
態素解析を行なうための単語辞書や文法辞書には多くの
メモリ容量が必要となり、ハードウエアに負担がかか
る。さらに、単語辞書や文法辞書を参照しながら形態素
解析によって単語に分割する場合、第１候補だけでなく
下位候補についても単語の可能性を調べるので、多くの
処理時間がかかる。したがって、本発明の第２の課題
は、形態素解析によって単語を分割することなく、誤読
文字を判定して修正文字に入れ替えることのできる誤読
文字修正方法を提供することにある。

【０００６】

【課題を解決するための手段】このような第１課題を解
決するために、本発明では、文字認識装置が認識対象文
字を認識した結果として、１位，２位，３位の如く、確
からしい順に挙げた候補文字の中から１位のものだけを
集めて生成した文章を、修正の対象として、その中に含
まれている誤読文字を検出して修正する誤読文字修正方
法において、予め作成してある文字連接確率表を参照し
て、１文字名詞または１文字動詞語幹が少なくとも２
個、連続している部分における誤読の有無を調べ、有り
ならそこを修正することを特徴とする。

【０００７】また、第２課題を解決するために、本発明
では、文字認識装置が認識した結果として得られた文章
を修正の対象として、その中に含まれている誤読文字を
検出して修正する誤読文字修正方法において、文字が誤
読対象文字か否かを誤読テーブルを参照して検出し、誤
読対象文字の場合にはその前後の文字が正解を示す連接
データテーブルを用いて誤読の有無を調べ、有りならそ
こを修正することを特徴とする。

【０００８】

【作用】文字連接確率表というのは、予め１文字名詞ま
たは１文字動詞語幹の全てについて、それらが誤読の無
い正しい文章において、互いに隣り合って現れる確率
（連接確率）を実際に調べて表にしたものである。図４
はかかる文字連接確率表の一例を説明するための説明図
である。これは、「前」とある欄の一つに「大」という
文字があり、「後」とある欄の一つに「会」という文字
があるが、これらの両文字が隣り合って現れる確率は
「０．３５」であること、また、「前」とある欄の一つ
に「第」という文字があり、「後」とある欄の一つに
「屋」という文字があるが、これらの両文字が隣り合っ
て現れる確率は「０」であること、などを示している。

【０００９】したがって、このような文字連接確率表を
誤読のない正しい文章を対象として予め作成しておき、
修正対象の文章を単語辞書，文法辞書を参照して単語に
切り出した後、切り出された単語を調べて１文字名詞ま
たは１文字動詞語幹が少なくとも２個、連続している部
分を検出し、その検出された部分について、文字連接確
率表を参照して得た文字連接確率が或る一定値以下であ
れば、その検出された部分は誤読であると判断できるの
で、その部分を抽出して修正する。

【００１０】連接データテーブルというのは、予め単語
辞書や読取サンプルから得られた文字の前後の連接デー
タと、類似文字に対する文字連接の排他性により作成さ
れた確実に他の文字と分離できるデータテーブルであ
る。この連接データテーブルを用いて前後の文字を調
べ、修正文字の前後連接データと一致した場合に誤読文
字と判定し、修正文字に入れ替えることで誤読文字を修
正する。

【００１１】

【実施例】図１は本発明の一実施例としての誤読文字修
正方法を示すフローチャートである。同図のステップ
において、文字認識装置（ＯＣＲ）が認識対象文字を認
識した結果として、１位，２位，３位の如く確からしい
順に挙げた候補文字の中から１位のものだけを集めて生
成した文章を修正の対象として、該修正対象の文章を単
語辞書Ｄ１，文法辞書Ｄ２を参照して単語に分割して切
り出す。次に、ステップにおいて、その切り出された
単語を調べて１文字名詞または１文字動詞語幹が少なく
とも２個、連続している部分を検出して抽出する。次い
でステップにおいて、抽出された検出部分について予
め作成してある文字連接確率表Ｄ３を参照して文字連接
確率を求め、それが或る一定値以下であるか否かを検定
する。

【００１２】一定値以下であれば、誤読箇所と判定され
るわけであるからステップへ進み、抽出されたその検
出部分を構成する少なくとも２個の単語の各々につい
て、前記第１位の候補文字だけでなく、２位，３位の如
き下位の候補文字をも勘案して各種の組み合わせを作成
する。次に、ステップへ進み、その各種の組み合わせ
を単語辞書Ｄ１，文法辞書Ｄ２を参照しながら吟味し、
矛盾を生じないかどうかを検定する。そして、ステップ
において修正を行なう。

【００１３】図２は本発明にかかる誤読文字修正方法を
実行するハードウエアの構成例を示す概要図でる。同図
において、１は読み取り対象の画像を走査するスキャ
ナ、２はＯＣＲ（光学文字認識装置）、３はディスプレ
イ、４はパソコン本体、５はキーボードである。本発明
にかかる誤読文字修正方法を実行するプログラムは、パ
ソコン本体４内のメモリに格納されており、スキャナ
１，ＯＣＲ２を介してパソコン本体４に取り込まれた日
本語文章について、誤読文字修正が行なわれ、結果がデ
ィスプレイ３に表示されるようになっている。

【００１４】図３は誤読文字修正の具体例を示す説明図
である。図３の（ａ）は、正しい入力文字列は「看護婦
の都合により」という文章であったのに、ＯＣＲによる
認識結果は、その第１順位，第２順位，第３順位がそれ
ぞれ図示の如く、誤りを含んだものであったことを示し
ている。図３の（ｂ）は、第１順位の認識結果を形態素
解析によって単語に分割したところ、１文字名詞の連続
部分が検出されたことを示している。図３の（ｃ）は、
その１文字名詞の連続部分が文字連接確率表の参照によ
り誤読箇所と判定された場合、１位だけでなく２位，３
位の候補文字との組み合わせを考慮し、検定を行うこと
を示している。図３の（ｄ）は修正結果を示しており、
修正により、入力文字列と同じ正しい結果が得られたこ
とを示している。以上では、文字連接確率表を用いるよ
うにしたが、次のようにすることもできる。

【００１５】図５は本発明の他の実施例を説明するため
のフローチャートである。まず、同図のステップにお
いて、文字認識装置（ＯＣＲ）が認識した結果として得
られた文章を修正の対象として、該修正対象の文章から
個々の文字を抽出する。次に、ステップにおいて誤読
文字テーブルＴ０を参照し、着目文字が誤読対象文字か
否かを判断する。誤読文字テーブルＴ０は認識評価によ
り予め作成しておくものとする。その結果、着目文字が
誤読対象文字に該当する場合は、誤読対象文字が正解で
あることを示す前後連接データテーブルＴ１を参照し
て、着目文字の前後の文字データがテーブルＴ１の文字
データと一致するか否かを判断する（ステップ）。そ
の結果、一致しないときは着目文字を修正文字として、
その前後の文字が修正文字の連接データテーブルＴ２，
Ｔ３の中にあれば着目文字は誤読と判定し、着目文字を
修正文字に入れ換える（，）。なお、かかる動作は
修正対象の文章が終わるまで続けられる。

【００１６】図６は類似文字が３文字の場合の連接デー
タテーブルを示すものであり、誤読対象文字が正解であ
ることを示す前後連接データテーブルＴ１および修正文
字の連接データテーブルＴ２，Ｔ３から構成されてい
る。同図（イ）がデータテーブルＴ１、同（ロ），
（ハ）がそれぞれデータテーブルＴ２，Ｔ３を示す。図
６に示すテーブルが誤読対象文字の数だけ予め作成され
ている。

【００１７】これは、例えば図７に示すように“目”が
誤読対象文字であれば、その前接データは“盲”，
“丁”，“項”，“面”などであり、“自”が第１の修
正文字ならば、その前接データは“不”，“独”，
“方”，“悠”などであり、“月”が第２の修正文字な
らば、その前接データは“今”，“先”，“来”，
“毎”などであることを示している。つまり、Ａ１は
“目”独自の前接データ、Ａ２は“自”独自の前接デー
タ、Ａ３は“月”独自の前接データ、Ａ４〜Ａ７は各文
字間に共通の前接データであり、前の文字が“盲”の場
合は次には“目”しか接続しないことを示している。こ
のように、上記各テーブルは類似文字に対する文字連接
の排他性を利用して予め作成される。なお、上記では前
接データだけを説明したが、後接データについても同様
に、文字連接の排他性を利用して各々完全に独立した後
接データとして得ることができる。

【００１８】図８に、具体例を示す。これは、同図
（イ）の入力文字列「…独自の…」に対し、認識結果が
「独目の」となったので、“目”が誤読対象文字であ
り、前接文字は“独”であることを示しており、このよ
うな場合でも本発明の第２の方法によれば、前接文字
“独”は修正文字“自”の前接文字データと一致するの
で、“目”を“自”に置き替え、同図（ハ）のように
「…独自の…」と誤読文字修正が行われることになる。

【００１９】

【発明の効果】本発明によれば、文法的にはチェックで
きないが、実際には誤読により発生する場合の多い１文
字名詞や１文字動詞語幹の連続する部分を検出して、そ
れが誤読によるものか否かを調べ、誤読によるものであ
れば、それを修正できるので、従来より一段と文字認識
の精度向上を図れるという利点が得られる。また、認識
評価により得られた誤読文字テーブルを用いて誤読対象
文字を検出し、その文字についてのみ誤読修正処理を行
うようにすれば、より高速な処理が可能となる。さら
に、予め単語辞書や読取サンプルから得られた文字の前
後の連接データと、類似文字に対する文字連接の排他性
から作成された修正文字データテーブルは確実に他の文
字との分離が可能であり、単語辞書や文法辞書に比べて
かなり少ないメモリ容量で実現することができる。そし
て、この修正文字データテーブルにより前後の文字を調
べ、修正文字の前後連接データと一致した場合のみ誤読
文字と判定し、修正文字と入れ替えることにより、文字
を精度良く、しかも高速に修正することができる。

【図面の簡単な説明】

【図１】本発明の１実施例を説明するためのフローチャ
ートである。

【図２】本発明を実施するためのハードウエア構成例を
示すブロック図である。

【図３】誤読修正文字の具体例を説明するための説明図
である。

【図４】文字連接確率表を説明するための説明図であ
る。

【図５】本発明の他の実施例を説明するためのフローチ
ャートである。

【図６】修正文字データテーブルを説明するための説明
図である。

【図７】文字連接の排他性を説明するための説明図であ
る。

【図８】本発明の第２の方法を具体的に説明するための
説明図である。

【符号の説明】

１スキャナ２ＯＣＲ（光学的文字認識装置）３ディスプレイ４パソコン本体５キーボード

フロントページの続き (72)発明者松井伸二東京都日野市富士町１番地富士ファコム制御株式会社内 (56)参考文献特開平３−156589（ＪＰ，Ａ) 特開昭64−41965（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06F 9/72

Claims

(57)【特許請求の範囲】

【請求項１】文字認識装置が認識対象文字を認識した
結果として、１位，２位，３位の如く、確からしい順に
挙げた候補文字の中から１位のものだけを集めて生成し
た文章を、修正の対象として、その中に含まれている誤
読文字を検出して修正する誤読文字修正方法において、
前記修正対象の文章を単語辞書，文法辞書を参照して単
語に切り出す第１の段階と、切り出された単語を調べて
１文字名詞または１文字動詞語幹が少なくとも２個、連
続している部分を検出する第２の段階と、検出された部
分について、予め作成してある文字連接確率表を参照し
て得た文字連接確率が或る一定値以下であれば、その検
出された部分は誤読であると判断して抽出する第３の段
階と、抽出されたその検出部分を構成する少なくとも２
個の単語の各々について、前記１位の候補文字だけでな
く、２位，３位の如き下位の候補文字をも勘案して各種
の組み合わせを吟味し、文法辞書を参照して矛盾を生じ
ない１つの組み合わせを選択して抽出された検出部分に
代えて修正を行なう第４の段階と、を含んでなることを
特徴とする誤読文字修正方法。
【請求項２】文字認識装置が認識した結果として得ら
れた文章を修正の対象として、その中に含まれている誤
読文字を検出して修正する誤読文字修正方法において、
前記修正対象の文章から個々の文字を抽出する第１の段
階と、個々の文字が誤読対象文字か否かを誤読文字テー
ブルを参照して検出する第２の段階と、着目文字が誤読
対象文字のときはその前後の文字が正解を示す連接デー
タテーブル中にあるか否かを調べる第３の段階と、着目
文字の前後の文字が正解を示す連接データテーブル中に
ないときは前記着目文字を修正文字としてその前後の文
字が修正文字の連接データテーブル中にあれば着目文字
は誤読と判定し着目文字を修正文字に入れ換える第４の
段階と、を含んでなることを特徴とする誤読文字修正方
法。