JP5252487B2

JP5252487B2 - 情報処理装置、その制御方法、制御プログラム、および記録媒体

Info

Publication number: JP5252487B2
Application number: JP2008177060A
Authority: JP
Inventors: 千絵木内; 至幸小山
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2008-07-07
Filing date: 2008-07-07
Publication date: 2013-07-31
Anticipated expiration: 2028-07-07
Also published as: JP2010015502A

Description

本発明は、光学式文字読取（ＯＣＲ）で文章などの原稿を読み取り、文字認識を行い文字出力する情報処理装置に関し、特に認識結果の誤りを訂正するワードコレクト処理に関するものである。

従来から、光学式文字認識の分野では、言語処理を用いた後処理を行うことで文字認識誤りを訂正し、認識精度を向上させるワードコレクト技術が知られている。

多くの単語を格納した単語辞書を用意しておき，認識結果の候補文字によって構成される文字列（認識単語）がその辞書に含まれる単語と一致するか否かを判定し、一致した場合にはその単語を正しいと見なし、正解として置き換える方法が一般的に知られている。

しかしながら、上記のように単純に単語辞書に存在する単語で認識結果を置き換える方法では、正しい認識結果であっても単語が辞書に存在しなければ、誤った認識結果であると判断されて誤った置き換え（誤コレクト）をしてしまう可能性がある。

このような誤コレクトによる認識率低下を防ぐために認識した候補文字から単語を形成し、類似する（もしくはマッチする）単語を単語辞書から探索し、認識単語との類似度を計算することで認識結果を出力するか、あるいは単語辞書の単語を出力するかを判定する方法が知られている（例えば特許文献１）。

また、認識結果の誤りパターンを予め覚えさせた辞書を保持しておき、その辞書と照合して一致する認識単語は誤りであると判断し、単語辞書の単語と置き換える方法なども提案されている（例えば特許文献２）。

なお、上記に示される方法としては、いずれも文字列内の単語ごとにワードコレクト処理を行うかどうかを判定する場合が示されている。

一方、近年の文字認識では、複数の言語を認識する場面が多くなってきている。
これに対応するために、それぞれの言語を認識するための文字認識辞書および単語辞書を持つことが多く、このような場合、言語判定を行って、認識対象言語を判定してから文字認識を行うことになる。

認識対象言語の判定は、ユーザが言語を指定するか、あるいは自動で言語を判定して認識するかの二つの方法がある。

特許文献３には、文字認識において自動言語判定の技術として、言語ごとの単語辞書を準備しておき、入力された原稿をイメージスキャナなどで読み取り、単語辞書に存在する単語が原稿１枚中にいくつあったかの適合率により、その原稿の言語を判定する技術が示されている。

これはつまり、単語辞書と適合した単語の数が多い単語辞書を構成する言語を、原稿文字の言語だと考えるという方式である。したがって、特許文献３には、原稿を構成する文字の言語が１言語であることを前提としていることが明言されている。

すなわち、言語を特定して、単語辞書と適合した単語の数が多い場合には、ワードコレクト処理を行い、少ない場合には、ワードコレクト処理を行なわない構成とすれば、誤コレクトを防ぐことが可能であると考えられる。
特開平１０−１３４１５０号公報特開平２−２９７２６３号公報特開平６−１５００６１号公報

しかしながら、例えば、図２８に示した入力原稿Ｐ１の表のように、あるセルは固有名詞の単語のみだが、あるセルは文を記載しているような場合、原稿１枚中の全単語から算出された単語の適合率によりワードコレクト処理を実行すると判断した場合、あるセルの認識率は上がるが、あるセルの認識率は下がる結果となってしまい、認識率向上にはつながらないという問題がある。

例えば、固有名詞が多く記載されているような原稿では、認識結果が正解であるような場合であっても、固有名詞は単語辞書に登録されていない場合が多く、誤った単語にコレクトする誤コレクトが起こり、認識率が低下してしまう可能性がある。

本発明は、上記のような問題を解決するためになされたものであって、認識率の高いワードコレクト処理を実行することが可能な情報処理装置、その制御方法、制御プログラム、および記録媒体を提供することを目的とする。

本発明に係る情報処理装置は、文字列が記載された媒体の画像情報をもとに文字認識辞書を利用して認識した文字列中の誤りを、単語辞書を照合して訂正する情報処理装置であって、画像内の文字列の中から認識対象とする文字列を文字列に含まれる文字の特徴あるいは、画像内の文字列のレイアウトの特徴から一定範囲に切り出す範囲区切り手段と、範囲区切り手段で切り出された認識対象範囲の認識された文字列中の全単語数と単語辞書との照合に成功した単語の数の比から単語一致度を算出する単語一致度算出手段と、単語一致度算出手段により算出された一定範囲の文字列の単語一致度に基づいて誤った認識文字を訂正するかどうかを判定する誤認識訂正判定手段とを備える。

好ましくは、誤認識訂正判定手段は、一定範囲の文字列の単語一致度αが、α≧０．５の場合は誤った認識文字の訂正を行う。

好ましくは、誤認識訂正判定手段は、一定範囲の文字列の単語一致度αが、α＜０．５の場合は誤った認識文字の訂正を行わず、誤認識の標識をつけて結果を返す。

好ましくは、画像情報に含まれる文字列には、少なくとも１つの言語が含まれる。
特に、認識した文字列中に複数の言語が含まれている場合、複数の言語の単語辞書を利用して認識した文字列中の誤りの訂正を行う。

好ましくは、範囲区切り手段は、画像内の文字列の中から認識対象とする文字列を画像情報に含まれるレイアウト情報に基づいて一定範囲に切り出す。

好ましくは、範囲区切り手段は、画像内の文字列の中から認識対象とする文字列を文字列の中の特定の文字を利用して一定範囲に切り出す。

好ましくは、誤認識訂正判定手段は、一定範囲の文字列の単語一致度が所定値以上の場合には、誤った認識文字に対し、一致の取れない部分を候補文字列に置き換え、置き換えた文字列が単語辞書と一致する場合に、当該文字列の訂正を行う。

本発明に係る情報処理装置の制御方法は、文字列が記載された媒体の画像情報をもとに文字認識辞書を利用して認識した文字列中の誤りを、単語辞書を照合して訂正する情報処理装置の制御方法であって、画像内の文字列の中から認識対象とする文字列を文字列に含まれる文字の特徴あるいは、画像内の文字列のレイアウトの特徴から一定範囲に切り出すステップと、一定範囲に切り出された認識対象範囲の認識された文字列中の全単語と単語辞書との照合に成功した単語の数の比から単語一致度を算出するステップと、算出された一定範囲の文字列の単語一致度に基づいて誤った認識文字を訂正するかどうかを判定するステップとを備える。

本発明に係る情報処理装置の制御プログラムは、文字列が記載された媒体の画像情報をもとに文字認識辞書を利用して認識した文字列中の誤りを、単語辞書を照合して訂正する情報処理装置を備えるコンピュータに実行させるための制御プログラムであって、画像内の文字列の中から認識対象とする文字列を文字列に含まれる文字の特徴あるいは、画像内の文字列のレイアウトの特徴から一定範囲に切り出すステップと、一定範囲に切り出された認識対象範囲の認識された文字列中の全単語と単語辞書との照合に成功した単語の数の比から単語一致度を算出するステップと、算出された一定範囲の文字列の単語一致度に基づいて誤った認識文字を訂正するかどうかを判定するステップとを備える。

本発明に係る記録媒体は、上記の制御プログラムを記録したコンピュータ読取り可能な記録媒体である。

本発明に係る情報処理装置、その制御方法、制御プログラムは、画像内の文字列の中から認識対象とする文字列を文字列に含まれる文字の特徴あるいは、画像内の文字列のレイアウトの特徴から一定範囲に切り出し、切り出された認識対象範囲の認識された文字列中の全単語数と単語辞書との照合に成功した単語の数の比から単語一致度を算出し、算出された一定範囲の文字列の単語一致度に基づいて誤った認識文字を訂正するかどうかを判定する。

当該方式により、一定範囲内で認識文字を訂正するかどうかの判定をするため、各範囲において、適切なワードコレクト処理を行うことが可能であり、認識率の高いワードコレクト処理を実行することができる。

以下に図面を参照しつつ、本発明の実施の形態について説明する。以下の説明においては同一の部品および構成要素には同一の符号を付してある。それらの名称および機能も同一であるものとする。

（実施の形態１）
図１は、本発明の実施の形態１に従う情報処理システムの概略構成図である。

本例においては、文章の印刷された原稿を入力として文字認識を行い、文章の認識結果をワードコレクトするかどうかを判定する情報処理装置の例を示す。

図１を参照して、本発明の実施の形態１に従う情報処理システムは、入力装置２と、出力装置１５と、入力装置２および出力装置１５と接続された情報処理装置１とを含む。

入力装置２は、スキャナ等の画像読取装置から画像を読み取り、情報処理装置１へ画像データを送る。

出力装置１５は、表示装置等で構成され、画像データについて、情報処理装置１で認識した文字列結果およびワードコレクト処理した文字列結果等を出力表示する。

情報処理装置１は、入力装置２および出力装置１５との間でデータの入出力制御処理を実行するための入出力制御部２０と、情報処理装置１に含まれる各機能ブロック全体を制御するための制御部３と、画像データに含まれる文字データを認識するために参照される文字認識辞書４と、文字認識辞書４を用いて文字認識する文字認識部５と、文字認識された文字データに対してワードコレクト処理を実行するためのワードコレクト処理部１４と、ワードコレクト処理において参照される単語辞書１３と、入力装置２により入力された画像データを格納するためのメモリ２５とを含む。

入出力制御部２０は、制御部３の指示に従い入力装置２により入力された画像データをメモリ２５に格納するものとする。

メモリ２５には、ワードコレクト処理された処理結果が格納されるものとし、制御部３の指示に従い、処理結果が読み出されて入出力制御部２０により出力装置１５に出力されるものとする。

ワードコレクト処理部１４は、文字データとして文字認識された文章や文、文字列などをある一定範囲で区切る範囲区切り部６と、範囲区切り部６により区切られた一定範囲内の文字列中の単語を取得する単語取得部７と、単語取得部７により取得された全単語数を計数し、記憶しておく単語数カウント部８と、単語取得部７により取得された全単語を単語辞書１３と照合し、単語辞書１３に含まれる単語がいくつあるのかを計数し、記憶しておく単語照合部９と、単語数カウント部８で記憶している一定範囲内の文字列中に存在する全単語数と単語照合部９で記憶している一定範囲内の文字列中の単語のうち単語辞書１３に含まれる単語数とに基づいて、一定範囲内の文字列中の単語一致度を算出する単語一致度算出部１０と、単語一致度算出部１０で算出された単語一致度から、範囲区切り部６により区切られた一定範囲内の文字列中の単語に対してワードコレクト処理を実行するかどうかを判定する文字列訂正判定部１１と、文字列訂正判定部１１の判定結果に基づいて、範囲区切り部６により区切られた一定範囲内の文字列中の単語に対して単語辞書１３と照合しない単語に対してワードコレクト処理を実行する文字列訂正部１２とを含む。

図２は、本発明の実施の形態１に従う情報処理装置１におけるワードコレクト処理を説明するフロー図である。

まず、最初に文字認識処理を実行する（ステップＳ５０１）。具体的には、入力装置２で読み取られ、メモリ２５に格納された画像データに対して、文字認識部５により文字認識辞書４を参照して文字データにする処理が実行される。

なお、本例においては、一例として図２８で示された表を入力装置２で読み取った画像データに対してワードコレクト処理を実行する場合について説明する。

図３は、図２８で示された表を入力装置２で読み取った画像データに対して文字認識部５により文字データとして認識された状態を説明する図である。

なお、文字認識部５は、ＯＣＲ（Optical Character Recognition）を使用する。ここで、文字認識は１行ごとに行い、文字認識部５での出力は入力原稿画像ごととする。

なお、説明を簡易にするために、図３を参照して、文字認識結果（文字データ）の認識誤りの単語に下線「＿」を示している。

また、実際には、罫線は文字認識結果として得られているわけではないが、レイアウト情報として文字認識処理から得られるものとする。

再び、図２を参照して、文字認識部５により得られた認識誤りを含んだ文字認識結果を一定範囲に区切る処理を実行する（ステップＳ５０２）。具体的には、範囲区切り部６により一定範囲に区切る処理を実行する。

その方式について以下に説明する。
「入力原稿画像のレイアウトごとに範囲を区切る方式」
図４は、図３の文字認識結果に対して表の１セルを１つのレイアウトとして範囲を区切った場合を説明する図である。

具体的には、範囲区切り部６は、上述した罫線についてのレイアウト情報に基づいてレイアウトを区切る。

図４においては、罫線についてのレイアウト情報に基づいて区切られた範囲Ｆ７０１〜Ｆ７０８が一例として示されている。

なお、レイアウトの区切り方は、これに限られず、例えば、図５に示されるように、図３の文字認識結果の表において、第一列は固有名詞の単語、第二列は文章（文）といったように、表の一列は同じ要素が記載されていることを利用して、表の一列を一つのレイアウトとして一定範囲に区切る場合の方式が示されている。この要素としては、固有名詞などに限らず、第ｎ列の各セルの単語が全てｍ個未満なら同要素とみなすなどの条件を付加することも可能である（ｎ，ｍは０以上の任意の整数）。

ここでは、一例として固有名詞が記載された列について、１つの区切られた範囲Ｆ８０１として示され、文章（文）として記載された列についても１つの区切られた範囲Ｆ８０２として示されている。

本例においては、一例として図４に示されたように表の１セルを一つのレイアウトとして範囲を区切られた場合について以下に説明する。

再び図２を参照して、次に、範囲区切り部６により区切られた一定範囲内の文字列を単語に区切る処理を実行する（ステップＳ５０３）。

具体的には、単語取得部７において、区切られた一定範囲内の文字列から単語を取得する処理を実行する。

図６は、図４で説明した区切られた範囲Ｆ７０１〜Ｆ７０８のそれぞれの一定範囲において、単語を取得する処理を説明する図である。

図６（ａ）〜（ｄ）において、それぞれ固有名詞の単語が単語リストとして取得された場合が示されている。一例として、図６（ａ）〜（ｄ）において、取得単語リストＦ１２０１〜Ｆ１２０４にそれぞれ対応して、「Ｊｏｈｎ」、「Ｍａｒｙ」、「Ｒｏｙ」、「Ｖｅｒｉｓａ」が取得された場合が示されている。

また、図６（ｅ）〜（ｈ）において、文章中の単語が単語リストとして取得された場合が示されている。

一例として、図６（ｅ）において、「Ｐｒｅｐｏｒｅ」、「ｆｏｒ」、「ｍｙ」、「ｄｏｃｕｍｅｎｔ」で構成される取得単語リストＦ１２０５が示されている。

図６（ｆ）において、「Ｇｏ」、「ｔｏ」、「ＢＧＴ」、「ｏｆｆｉｃｅ」、「ｗｉｔｈ」、「ｍｅ」で構成される取得単語リストＦ１２０６が示されている。

図６（ｇ）において、「Ｐｒｅｐａｒｅ」、「ｆｏｒ」、「ｏｕｎ」、「ｂｕｓ」、「ｔｌｃｋｅｔｓ」で構成される取得単語リストＦ１２０７が示されている。

図６（ｈ）において、「Ｖａｃ８ｔｉｏｎ」、「ｆｏｒ」、「ｔｈｒｅｅ」、「ｗｅｅｋｓ」で構成される取得単語リストＦ１２０８が示されている。

単語を取得する方法としては、英文の場合は単語ごとに空白で区切られていることから、その空白を利用して抜きだしても良いし、いわゆる形態素解析といった言語処理を用いて区切って単語を取得することも可能である。

日本語の場合は、単語ごとの空白はないため形態素解析を用いるか、あるいは単語辞書を使った単語の最長一致法等を用いることにより単語ごとに区切って単語を取得することが可能である。このような単語に区切る処理は周知の技術を使用すれば良く、ここでは詳細には説明しない。

再び、図２を参照して、次に、文字列内の単語の数をカウントする（ステップＳ５０４）。

具体的には、ステップＳ５０３において、取得された単語の数を単語数カウント部８によって一定範囲ごとに計数する。

図７は、図６で説明した取得した単語リストに従って、単語数カウント部８によってカウントした場合を説明する図である。

図７（ａ）〜（ｈ）を参照して、取得単語リストＦ１２０１〜Ｆ１２０８に対して単語数カウント部８によりカウントした単語数がそれぞれ示されている。取得単語リストＦ１２０１〜Ｆ１２０８にそれぞれ対応して、「１」、「１」、「１」、「１」、「４」、「６」、「５」、「４」の結果が示されている。

再び、図２を参照して、次に、辞書と一致する単語数をカウントする（ステップＳ５０５）。

具体的には、単語取得部８で得られた全単語について、単語照合部９において、単語辞書１３を参照して、単語辞書１３に含まれる単語の数をカウントする。

図８は、図６で説明した取得した単語リストに従って、単語辞書１３と照合する場合を説明する図である。

図８（ａ）、（ｂ）は、取得単語リストＦ１２０４，Ｆ１２０８をそれぞれ示している。

図８（ｃ）は、単語辞書１３に含まれる単語リストが一例として示されている。なお、単語辞書は照合に必要な部分だけを示しており、実際には多数の単語が単語辞書１３に登録されている。

単語照合部９は、取得単語リストＦ１２０４，Ｆ１２０８にそれぞれ従って、単語辞書１３に含まれる単語リストの中から一致する単語の数をカウントする。

取得単語リストＦ１２０４の単語を単語辞書１３と照合する。
取得単語リストＦ１２０４の取得単語は「Ｖｅｒｓｉａｎ」のみである。単語辞書１３に登録されていれば、一致する単語の数（単語一致カウント数）をカウントアップする。初期値は「０」である。取得単語「Ｖｅｒｓｉａｎ」は単語辞書１３に登録されていないため、カウントはされず、単語一致カウント数は「０」となる。

そして、取得単語リストＦ１２０４において、取得された全単語数と、単語一致カウント数は記憶されるものとする。

一方、取得単語リストＦ１２０８の取得単語は、「Ｖａｃ８ｔｉｏｎ」、「ｆｏｒ」、「ｔｈｒｅｅ」、「ｗｅｅｋｓ」である。単語辞書１３に登録されていれば、上述したように単語一致カウント数をカウントアップする。取得単語リストＦ１２０８における１つ目の単語「Vac8tion」が単語辞書１３に登録されていれば、単語一致カウントは１となる。ここでは、英文字の大文字小文字の区別は行わず、単語の文字数とスペルが完全に一致していた場合はカウントを行う構成にする。しかし、単語辞書１３に「Vac8tion」および「vac8tion」は存在しないため、カウントされない。

さらに、取得単語リストＦ１２０８中の「ｆｏｒ」、「ｔｈｒｅｅ」、「ｗｅｅｋｓ」についても同様に処理を行うと、これらは全て図８（ｃ）の単語辞書１３中に含まれるので単語一致カウントは「３」となる。

図９は、取得単語リストＦ１２０４，Ｆ１２０８に含まれる全単語数および単語辞書と一致した単語数を説明する図である。

ここでは、図８（ａ）、（ｂ）で説明した取得単語リストＦ１２０４，Ｆ１２０８について説明する。

図９を参照して、取得単語リストＦ１２０４の全単語数は「１」であり、単語辞書と一致した単語数は「０」であることが示されている。また、取得単語リストＦ１２０８の全単語数は「４」であり、単語辞書と一致した単語数は「３」であることが示されている。

なお、上述したように全単語数は、単語数カウント部８で取得されたものであり、単語辞書と一致した単語数は、単語照合部９で取得したものである。

再び、図２を参照して、次に、単語一致度を算出する（ステップＳ５０６）。
具体的には、単語一致度算出部１０において、上述した単語数カウント部８でカウントした全単語数と、単語照合部９で照合して単語辞書と一致した単語数とに基づいて、単語一致度αを算出する。

本例においては、一例として、ここでは、区切られた範囲に含まれる単語について、単語辞書１３に含まれる単語数（単語一致カウント）を全単語数で割った値を単語一致度αとする。

図１０は、取得単語リストＦ１２０４，Ｆ１２０８における算出した単語一致度を説明する図である。

図１０を参照して、取得単語リストＦ１２０４における単語一致度αは「０」として示される。

一方、取得単語リストＦ１２０８における単語一致度αは、「０．７５」として示される。

次に、再び、図２を参照して、単語一致度αが予め定められた所定値以上であるかどうかを判断する（ステップＳ５０７）。具体的には、文字列訂正判定部１１で単語一致度αを判定し、各一定範囲内の文字列のワードコレクトを行うかどうかを判定する。

そして、所定値以上であれば再度、単語辞書と照合し、ワードコレクト処理を実行する（ステップＳ５０８）。

具体的には、文字列訂正判定部１１で単語一致度αが所定値以上であると判断した場合には、文字列訂正部１２において、再度、単語辞書と照合し、ワードコレクト処理を実行する。

一方、所定値未満であればワードコレクト処理を実行せずに第一候補文字列を正解とする（ステップＳ５０９）。

具体的には、文字列訂正判定部１１で単語一致度αを判定し、各一定範囲内の文字列のワードコレクトを行うかどうかを判定する。

本例においては、一例として所定値を「０．５」とする。すなわち、全単語中の半数が単語辞書１３に含まれている割合とする。

すなわち、単語一致度αと文字列訂正処理の判定条件との関係は、以下のようになる。
α≧０．５の場合には、文字列訂正（ワードコレクト）処理を実行する。

α＜０．５の場合には、文字列訂正（ワードコレクト）処理を実行しない。
上述したように取得単語リストＦ１２０４の単語一致度は「０」なので、文字列訂正判定部１１はワードコレクト処理を行わないと判断し、上述したステップＳ５０９の処理に進む。

すなわち、取得単語リストＦ１２０４の「Ｖｅｒｓｉａｎ」という単語は、文字列訂正部１２においてワードコレクト処理は実行されずにそのまま文字列として出力される（ステップＳ５１０）。

一方、取得単語リストＦ１２０８の単語一致度は「０．７５」なので、文字列訂正判定部１１はワードコレクト処理を実行すると判断し、上述したステップＳ５０８の処理に進む。

ステップＳ５０８においては、上述したように、文字列訂正部１２において、取得単語リストに含まれる単語について、再度、単語辞書と照合し、一定範囲内においてワードコレクト処理を実行する。この場合、単語辞書１３と照合し、完全に一致した単語についてはワードコレクト処理は実行しない。

図１１は、取得単語リストＦ１２０８に対する文字列訂正部１２におけるワードコレクト処理について説明する図である。

図１１（ａ）を参照して、取得単語リストＦ１２０８中の単語「Ｖａｃ８ｔｉｏｎ」に対してワードコレクト処理を実行する場合について説明する。

図１１（ｂ）を参照して、ここでは、まず、入力画像データである文字列「Ｖａｃａｔｉｏｎ」に対してＯＣＲを使用した場合における文字候補の一覧が示されている。

文字認識部５は、文字認識として、各文字の画像データの画素分布などに基づいて、文字認識辞書４を参照して、各文字に類似の文字候補を割り当てる。

本例においては、文字列「Ｖａｃａｔｉｏｎ」の入力画像データに基づいて、各文字について、類似の文字候補（第一候補）を割り当てた結果、「Ｖａｃ８ｔｉｏｎ」として認識されたものである。文字候補の割り当ては、各文字の画像データの画素分布などに基づいて、文字らしい確率（類似度）の高い文字候補の中から割り当てられるものとする。

例えば、「Ｖ」の文字の画像データについては、４つの文字候補がある中で、大文字「Ｖ」が入力画像に対して類似度が高いとして割り当てられた場合が示されている。「ａ」、「ｃ」、「ａ」、「ｔ」、「ｉ」、「ｏ」、「ｎ」の文字の画像データについても同様に、各画像データの画素分布などに基づいて、類似度の高い文字候補が割り当てられる。

文字列訂正部１２に入力された文字列は、図１１（ｂ）における各文字の第一候補の文字列である。第一候補の文字列に対して、単語辞書１３を参照した場合、単語辞書１３には、単語が存在しない。

そこで、第一文字目の第一候補「Ｖ」を第二候補「ｖ」に置き換えると「ｖａｃ８ｔｉｏｎ」という単語が生成されるが、図８（ｃ）に示す単語辞書１３には単語が存在しない。

この状態で、「ｖａｃ８ｔｉｏｎ」の「ｖａｃ」までは一致している単語が単語辞書１３に存在していれば、第四文字目の第一候補「８」を次の第二候補の「ａ」に変更してみる。すると、文字列は「ｖａｃａｔｉｏｎ」となり、単語辞書１３に存在するのでこの単語を訂正単語候補として抽出する。

同様の処理を全文字候補に対して行っても、単語辞書１３に登録されている単語が他に見つからないので、「ｖａｃａｔｉｏｎ」が正しい文字列だとして確定する。

ここで、文字認識においては同形文字の認識間違いが非常に多い。
そこで、英語の場合は、文頭は大文字であるという条件をつけておき、「ｖａｃａｔｉｏｎ」は文頭の単語であったため、第一文字目の「Ｖ」を「ｖ」に置き換えた処理を元にもどし、「Ｖａｃａｔｉｏｎ」を正解単語と見なす。

図１１（ｃ）においては、上記の処理によりワードＦ１１０１である「Ｖａｃ８ｔｉｏｎ」の訂正単語候補として「Ｖａｃａｔｉｏｎ」が示されている。

他の取得単語リストＦ１２０８の単語「ｆｏｒ」「ｔｈｒｅｅ」「ｗｅｅｋｓ」については、単語辞書１３に存在しているため、ワードコレクト処理は行わない。

なお、ここでは、文字候補から単語を生成し、ワードコレクト処理を行っているが、他の方法として文字数が一致して類似度の合計値が一番大きい文字列を正しいとみなす方法とすることも可能である。なお、本発明においては、特にワードコレクト処理の方式を限定する必要は無く、周知の方法を採用することが可能である。

そして、ステップＳ５１０において、最終的にワードコレクト処理を行った、あるいは行わなかった文字列を出力する。

入出力制御部２０は、出力された文字列を出力装置１５に出力し、出力装置１５において表示する。

一方、従来の方式として、入力原稿中の全範囲に対する単語一致度に基づいてワードコレクト処理を実行する場合について説明する。

再び、図３を参照して、入力原稿中の全範囲に含まれる単語数のうち単語辞書１３に存在する単語がいくつあるかをカウントした場合、原稿の全単語数は「２３」である。そして、単語辞書１３と一致した単語数は「１４」である。

ワードコレクト処理を実行する場合の判定基準として所定値を０．５とする。
単語一致度αは、原稿の全単語数に対する単語辞書と一致した単語数の割合であるため１４／２３＝０．６０（小数点以下３位切り捨て）となる。

したがって、入力原稿中の全範囲に対してワードコレクト処理すると判定されることになる。

図１２は、本発明の実施の形態に従う方式および従来の方式を使用した場合のワードコレクト処理結果を説明する図である。

図１２（ａ）は、本発明の実施の形態に従う方式を使用した場合のワードコレクト処理結果である。一方、図１２（ｂ）は、従来の方式を使用した場合のワードコレクト処理結果である。

図１２（ａ）においては、区切られた範囲Ｆ７０１〜Ｆ７０４に含まれる固有名詞については、ワードコレクト処理が実行されないため図３で示された認識結果と同じ単語が出力される。

したがって、図２６で説明した固有名詞である「Ｒａｙ」について認識誤りとして「Ｒｏｙ」となったワードについてはそのまま認識誤りとして存在する。

一方、区切られた範囲Ｆ７０５〜Ｆ７０８に含まれる文章（文）については、ワードコレクト処理が実行され、「Ｐｒｅｐｏｒｅ」、「ｏｕｎ」、「ｔｌｃｋｅｔｓ」、「Ｖａｃ８ｔｉｏｎ」の認識誤りについてワードコレクト処理が実行されて、適切なワード「Ｐｒｅｐａｒｅ」、「ｏｕｒ」、「ｔｉｃｋｅｔｓ」、「Ｖａｃａｔｉｏｎ」と訂正された場合が示されている。

図１２（ｂ）においては、全範囲に含まれる単語について、ワードコレクト処理が実行されるため単語辞書１３に一致しなかった全ての単語に対してワードコレクト処理が実行される。

したがって、図３で説明した固有名詞に対してもワードコレクト処理を実行してしまうことになり、「Ｍａｒｙ」、「Ｖｅｒｓｉａｎ」など正解のワードに対しても単語辞書に登録されていないためワードコレクト処理を実行して、単語辞書１３に含まれる「Ｍａｎｙ」、「Ｖｅｒｓｉｏｎ」にそれぞれ訂正してしまう場合が示されている。

すなわち、図３の入力原稿Ｐ１の認識結果として、認識誤りであった単語数は「５」であるのに対して、本願方式に従うワードコレクト処理を用いれば最終的な認識誤りは「１」となり、認識率が高いことが分かる。

一方、従来の方式に従うワードコレクト処理を用いれば、最終的な認識誤りは「３」であり、誤コレクトにより認識率の向上は低いことが分かる。

それゆえ、本発明の実施の形態に従う情報処理装置に従えば、適切なワードコレクト処理の判定を実行し、従来方式よりも、認識率が高いワードコレクト処理を実現することができる。

なお、本例においては、一例として、文字列訂正処理の判定条件としている所定値として「０．５」を一例として設定した場合について説明しているが、「０．５未満」に設定すればワードコレクト処理の判定条件は緩くなるが、誤コレクトが増え、「０．５以上」に設定すれば誤コレクトは減少するがワードコレクト処理の判定条件が厳しくなるので、正しくコレクトできる可能性のある単語を正しく訂正できない可能性がある。

図１３は、誤コレクトの確率と所定値との関係を説明する図である。
図１３を参照して、この図に示したグラフは、誤コレクトの確率と判定値との関係を説明するための実験結果である。

固有名詞を含まない英単語辞書中の全単語に対して、固有名詞（ここでは人の名前）２００００件がどれぐらい英単語辞書に一致するか、すなわち固有名詞が英単語辞書に存在しないにも関わらず、一致してしまい誤コレクトになる確率を求めている。

実験では、英単語辞書６３６６５件に対して、２００００件の固有名詞を照合したところ、２３２８件（約１１％）が英単語辞書の単語と一致した。

実際の文章では、この英単語辞書に存在する単語を無作為にn個の単語を選び出しているのと同じである。

ここで、二項分布より固有名詞に一致する単語を１１％含んでいる母集団から、ｎ個の単語を抽出した場合、ｋ個の固有名詞に一致する単語が存在する確率を、ｎ別にグラフ化したのが図１３である。

横軸が所定値、縦軸を誤コレクトの確率（ｋ個の固有名詞に一致する単語が存在する確率）で表している。この図より、ｎが大きくなれば所定値が小さくても誤コレクト率は「０」に近くなる。

しかし、当該図１３を参照すれば、ｎは様々であるので、所定値を「０．５」にしておけば、ほとんどのｎにおいて、誤コレクトの確率が低くなると考えられる。

また、上記においては、単語一致度について、一例として、ここでは、区切られた範囲に含まれる単語について、単語辞書１３に含まれる単語数（単語一致カウント）を全単語数で割った値を単語一致度αとする場合について説明したが、特にこれに限られず、単語一致度αを単語辞書１３と一致した単語数とすることも可能である。

例えば、再び図９を参照して、取得単語リストＦ１２０４における単語一致度αは「０」、取得単語リフトＦ１２０８における単語一致度αは「３」とすることが可能である。

そして、当該単語一致度αを単語辞書と一致した単語数とした場合は、全単語数から単語辞書と一致した単語数を引いた数を「未知語数」とする。

そして、「未知語数」と「単語辞書と一致した単語数（一致単語数）」との数の大小比較に基づいてワードコレクト処理を実行するか否かを判定する。

例えば、取得単語リストＦ１２０４については、全単語数が「１」であり、単語辞書と一致した単語数が「０」である。

したがって、「未知語数」は、「１」として示される。
「未知語数」と「単語辞書と一致した単語数」とを比較した場合、「未知語数」＞「一致単語数（α）」となるためワードコレクト処理を行わないと判定する。

一方、取得単語リストＦ１２０８については、全単語数が「４」であり、単語辞書と一致した単語数が「３」である。

したがって、「未知語数」は「１」として示される。
「未知語数」と「単語辞書と一致した単語数」とを比較した場合、「未知語数」＜「一致単語数（α）」となるためワードコレクト処理を行うと判定する。

当該方式により、上述したのと同様のワードコレクト処理を実行することが可能である。

（実施の形態２）
上記の実施の形態１においては、罫線で区切られた範囲（セル）を一定範囲として、ワードコレクト処理を実行する場合について説明した。

本発明の実施の形態２においては、図１４に示すような複数の段落に分けられた入力原稿に対するワードコレクト処理について説明する。

図１４を参照して、ここでは、主に３つの段落に分けられた英文が記載されている場合が示されている。

再び、図２を参照して、まず、ステップＳ５０１において、文字認識処理を実行する。具体的には、文字認識部５は、ＯＣＲを使用して文字認識結果（文字データ）を出力する。

図１５は、図１４で示された表を入力装置２で読み取った画像データに対して文字認識部５により文字データとして認識された状態を説明する図である。

なお、説明を簡易にするために、図１５を参照して、文字認識結果（文字データ）の認識誤りの単語に下線「＿」を示している。

次に、上述したように文字認識部５により得られた認識誤りを含んだ文字認識結果を一定範囲に区切る処理を実行する（ステップＳ５０２）。具体的には、範囲区切り部６により一定範囲に区切る処理を実行する。

具体的には、範囲区切り部６は、レイアウトごとに範囲を区切る。
図１６は、入力原稿画像の段落毎に範囲を区切った場合を説明する図である。

図１６に示されるように３つの段落のそれぞれに対応して範囲が区切られていることが示されている。

ここでは、段落毎に範囲を区切る方法として、レイアウト情報を利用した場合について考える。ここで示されるように、互いの段落の間に文字がまったく書かれていない空白部分（セパレータ）が存在する。

文字認識処理では、文字がまったく書かれていない白いセパレータ部分のレイアウト情報を検知しておき、検知結果に基づいて、文字認識結果を一定範囲に区切ることが可能である。このような構成とすれば、図１５に得られている認識結果は、黒枠ごとに区切られる。この処理を、範囲区切り部６において行う。

本例においては、段落ごとに区切られた範囲Ｆ１６０１〜Ｆ１６０３がそれぞれ示されている。

そして、本例においては、さらにその範囲を一定範囲に区切ることとする。
その方式について以下に説明する。

「入力原稿画像の特定の記号毎に範囲を区切る方式」
具体的には、範囲区切り部６は、「？」や「．」といった特定の記号に基づいて一定範囲に区切る。

図１７は、特定の記号に基づいて範囲を区切った場合を説明する図である。
図１７（ａ）は、図１６で段落ごとに３つの一定範囲を区切った場合に、区切られた範囲Ｆ１６０１を特定した図である。

図１７（ｂ）は、図１７（ａ）で特定した区切られた範囲Ｆ１６０１について、さらに、範囲分けを詳細にする場合を説明する図である。

具体的には、「？」や「．」といった特定の記号に基づいて一定範囲に区切ることとする。

ここでは、区切られた範囲Ｆ１６０１について、「Write comprete and occurate language documentation and delirer compe11ing. High quality examples for "mission critical" proiect which is directly tied to a software release expedted to deliver hundreds of milllon in revenue.」という英文を「．」の記号に基づいて「Write comprete and occurate language documentation and delirer compe11ing.」である区切られた範囲Ｆ１７０１と、「High quality examples for "mission critical" proiect which is directly tied to a software release expedted to deliver hundreds of milllon in revenue.」である区切られた範囲Ｆ１７０２とに区切った場合が示されている。

なお、ここでは、「．」といった特定の記号で一定範囲に区切る場合について説明したが、「．」の他に「？」、「！」の特定の記号や、日本語の文章などの場合には、句読点の記号である「、」、「。」といった特定の記号で一定範囲に区切ることも可能である。

具体的には、上述したように単語取得部７において、区切られた一定範囲内の文字列から単語を取得する処理を実行する。

図１８は、図１７で説明した区切られた範囲Ｆ１７０１，Ｆ１７０２のそれぞれの一定範囲において、単語を取得する処理を説明する図である。

図１８（ａ）において、「Ｗｒｉｔｅ」、「ｃｏｍｐｌｅｔｅ」、「ａｎｄ」、「ｏｃｃｕｒａｔｅ」、「ｌａｎｇｕａｇｅ」、「ｄｏｃｕｍｅｎｔａｔｉｏｎ」、「ａｎｄ」、「ｄｅｌｉｒｅｒ」、「ｃｏｍｐｅ１１ｉｎｇ」で構成される単語取得リストＦ１８０１が示されている。

また、図１８（ｂ）において、「Ｈｉｇｈ」、「ｑｕａｌｉｔｙ」、「ｅｘａｍｐｌｅｓ」、「ｆｏｒ」、「ｍｉｓｓｉｏｎ」、「ｃｒｉｔｉｃａｌ」、「ｐｒｏｉｅｃｔ」、「ｗｈｉｃｈ」、「ｉｓ」、「ｄｉｒｅｃｔｌｙ」、「ｔｉｅｄ」、「ｔｏ」、「ａ」、「ｓｏｆｔｗａｒｅ」、「ｒｅｌｅａｓｅ」、「ｅｘｐｅｄｔｅｄ」、「ｔｏ」、「ｄｅｌｉｖｅｒ」、「ｈｕｎｄｒｅｄｓ」、「ｏｆ」、「ｍｉｌｌｏｎ」、「ｉｎ」、「ｒｅｖｅｎｕｅ」で構成される取得単語リストＦ１８０２が示されている。

なお、「"」の記号が二つ有るが、これらは単語として含まれないものとするが、「"」の記号を単語として含めることも可能である。

図１９は、図１８で説明した取得した単語リストに従って、単語数カウント部８によってカウントした場合を説明する図である。

図１９（ａ），（ｂ）を参照して、取得単語リストＦ１８０１，Ｆ１８０２に対して単語数カウント部８によりカウントした単語数がそれぞれ示されている。取得単語リストＦ１８０１，Ｆ１８０２にそれぞれ対応して、「９」、「２３」の結果が示されている。

図２０は、図１８で説明した取得した単語リストに従って、単語辞書１３と照合する場合を説明する図である。

図２０（ａ）は、取得単語リストＦ１８０１を示している。
図２０（ｂ）は、単語辞書１３に含まれる単語リストが一例として示されている。なお、単語辞書は照合に必要な部分だけを示しており、実際には多数の単語が単語辞書１３に登録されている。

単語照合部９は、取得単語リストＦ１８０１に従って、単語辞書１３に含まれる単語リストの中から一致する単語の数をカウントする。

取得単語リストＦ１８０１の単語を単語辞書１３と照合する。
取得単語リストＦ１８０１の取得単語は、「Ｗｒｉｔｅ」、「ｃｏｍｐｌｅｔｅ」、「ａｎｄ」、「ｏｃｃｕｒａｔｅ」、「ｌａｎｇｕａｇｅ」、「ｄｏｃｕｍｅｎｔａｔｉｏｎ」、「ａｎｄ」、「ｄｅｌｉｒｅｒ」、「ｃｏｍｐｅ１１ｉｎｇ」である。単語辞書１３に登録されていれば、上述したように単語一致カウント数をカウントアップする。取得単語リストＦ１８０１における１つ目の単語「Ｗｒｉｔｅ」が単語辞書１３に登録されていれば、単語一致カウントは１となる。ここでは、英文字の大文字小文字の区別は行わず、単語の文字数とスペルが完全に一致していた場合はカウントを行う構成にする。

さらに、取得単語リストＦ１８０１中の「ｃｏｍｐｌｅｔｅ」、「ａｎｄ」、「ｏｃｃｕｒａｔｅ」、「ｌａｎｇｕａｇｅ」、「ｄｏｃｕｍｅｎｔａｔｉｏｎ」、「ａｎｄ」、「ｄｅｌｉｒｅｒ」、「ｃｏｍｐｅ１１ｉｎｇ」についても同様に処理を行うと、単語一致カウントは「６」となる。

なお、ここでは、取得単語リストＦ１８０１について説明したが、取得単語リストＦ１８０２についても同様に処理される。

図２１は、取得単語リストＦ１８０１に含まれる全単語数および単語辞書と一致した単語数を説明する図である。

ここでは、図１８（ａ）で説明した取得単語リストＦ１８０１について説明する。
図２１を参照して、取得単語リストＦ１８０１の全単語数は「９」であり、単語辞書と一致した単語数は「６」であることが示されている。

図２２は、取得単語リストＦ１８０１に対する算出した単語一致度を説明する図である。

図２２を参照して、取得単語リストＦ１８０１における単語一致度αは「０．６６」として示される。

本例においては、一例として所定値を「０．５」とする。すなわち、全単語中の半数が単語辞書１３に含まれている割合とする。
すなわち、単語一致度αと文字列訂正処理の判定条件との関係は、以下のようになる。

α≧０．５の場合には、文字列訂正（ワードコレクト）処理を実行する。
α＜０．５の場合には、文字列訂正（ワードコレクト）処理を実行しない。

上述したように取得単語リストＦ１８０１の単語一致度は「０．６６」なので、文字列訂正判定部１１はワードコレクト処理を実行すると判断し、上述したステップＳ５０８の処理に進む。

図２３は、取得単語リストＦ１８０１に対する文字列訂正部１２におけるワードコレクト処理について説明する図である。

図２３（ａ）を参照して、本例においては、取得単語リストＦ１８０１中の単語「ｏｃｃｕｒａｔｅ」に対してワードコレクト処理を実行する場合について説明する。

図２３（ｂ）は、単語辞書１３の別の例を説明する図である。単語辞書１３に含まれる単語リストが一例として示されている。なお、単語辞書は照合に必要な部分だけを示しており、実際には多数の単語が単語辞書１３に登録されている。

図２３（ｃ）を参照して、ここでは、まず、入力画像データである文字列「ａｃｃｕｒａｔｅ」に対してＯＣＲを使用した場合における文字候補の一覧が示されている。

本例においては、文字列「ａｃｃｕｒａｔｅ」の入力画像データに基づいて、各文字について、類似の文字候補（第一候補）を割り当てた結果、「ｏｃｃｕｒａｔｅ」として認識されたものでる。文字候補の割り当ては、各文字の画像データの画素分布などに基づいて、文字らしい確率（類似度）の高い文字候補の中から割り当てるものとする。

例えば、「ａ」の文字の画像データについては、５つの文字候補がある中で「ｏ」の文字候補の類似度が高いとして割り当てられた場合が示されている。「ｃ」、「ｃ」、「ｕ」、「ｒ」、「ａ」、「ｔ」、「ｅ」の文字の画像データについても同様に、各画像データの画素分布などに基づいて、類似度の高い文字候補が割り当てられる。

文字列訂正部１２に入力された文字列は、図２３（ｃ）における各文字の第一候補の文字列である。第一候補の文字列に対して、図２３（ｂ）に示されるような単語辞書１３を参照した場合、単語辞書１３には、「ｏｃｃｕｒａｔｅ」という単語が存在しない。そこで、第一文字目の第一候補「ｏ」を第二候補「ａ」に置き換える。すると、文字列は、「ａｃｃｕｒａｔｅ」という単語となり、単語辞書１３に存在するのでこの単語を訂正単語候補として抽出する。

同様の処理を全文字候補に対して行っても、単語辞書１３に登録されている単語が見つからないので、「ａｃｃｕｒａｔｅ」が正しい文字列だとして確定する。

他の「ｄｅｌｉｒｅｒ」、「ｃｏｍｐｅ１１ｉｎｇ」についても上記と同様の方式により、候補文字から単語を生成し、ワードコレクト処理を実行する。

同様の方式により、「ｄｅｌｉｒｅｒ」は、「ｄｅｌｉｖｅｒ」、「ｃｏｍｐｅ１１ｉｎｇ」は、「ｃｏｍｐｅｌｌｉｎｇ」が訂正単語候補として抽出される。

他の取得単語リストＦ１８０１の単語「Ｗｒｉｔｅ」、「ｃｏｍｐｌｅｔｅ」、「ａｎｄ」、「ｌａｎｇｕａｇｅ」、「ｄｏｃｕｍｅｎｔａｔｉｏｎ」、「ａｎｄ」については、単語辞書１３に存在しているため、ワードコレクト処理は行わない。

ここで、単語「Ｗｒｉｔｅ」は、単語辞書１３に存在している「ｗｒｉｔｅ」と一致しているものとして説明したが、文字認識においては、同形文字の認識間違いが非常に多い。この単語「Ｗｒｉｔｅ」は、図１５の入力原稿より、文頭の単語であったため、第一文字目の「Ｗ」の大文字は正しいのでワードコレクト処理は行なわない。また、他にも会社名などで、「ＡＢＣ」のように全文字大文字の場合もワードコレクト処理を行なわないこととしている。

一方、従来の方式として、入力原稿中の全範囲に対する単語一致度に基づいてワードコレクト処理を実行した場合には、実施の形態１でも説明したように全範囲一律にワードコレクト処理を実行するあるいは実行しないを判定してしまうため、誤コレクトが生じる可能性が高く、認識率の向上は低くなる。

それゆえ、本発明の実施の形態に従う情報処理装置に従えば、適切なワードコレクト処理の判定を実行し、従来方式よりも、識率率が高いワードコレクト処理を実現することができる。

例えば、再び図２１を参照して、取得単語リストＦ１８０１における単語一致度αは「６」とすることが可能である。

例えば、取得単語リストＦ１８０１については、全単語数が「９」であり、単語辞書と一致した単語数が「６」である。

したがって、「未知語数」は、「３」として示される。
「未知語数」と「単語辞書と一致した単語数」とを比較した場合、「未知語数」＜「一致単語数（α）」となるためワードコレクト処理を行うと判定する。

（実施の形態３）
上記の実施の形態１および２においては、１つの原稿に１つの言語、例えば、英語で記載された場合の例について説明した。

本発明の実施の形態３においては、図２４に示されるような１つの原稿に複数の言語、例えば、英語とドイツ語とで記載された原稿に対してワードコレクト処理を実行する場合について説明する。具体的には、例えば、取り扱い説明書等では、１つの原稿に複数の言語で文章が構成される場合が挙げられる。

なお、ここでは、単語辞書１３は英語単語のみを保持しているものとする。
上述したように、まず、図２のステップＳ５０１において、文字認識処理を実行する。そして、、文字認識部５により得られた認識誤りを含んだ文字認識結果を一定範囲に区切る処理を実行する（ステップＳ５０２）。具体的には、範囲区切り部６により一定範囲に区切る処理を実行する。

図２５は、文字認識処理により認識された文字データを段落毎の範囲に区切った場合を説明する図である。

図２５を参照して、ここでは、２つの段落にそれぞれ対応して範囲が区切られていることが示されている。具体的には、上述したように範囲を区切る方法として、レイアウト情報を利用した場合について考える。二つの段落の間に文字がまったく書かれていない空白部分（セパレータ）が存在する。文字認識処理では、そのレイアウト情報を感知しておき、覚えておく構成とする。このような構成とすることにより、認識結果は、黒枠ごとに区切られる。

本例においては、段落ごとに区切られた範囲Ｆ２７０１，Ｆ２７０２がそれぞれ示されている。

なお、説明を簡易にするために、文字認識結果（文字データ）の認識誤りの単語に下線「＿」を示している。

区切られた範囲Ｆ２７０１は、実施の形態２で説明した段落ごとに区切られた範囲Ｆ１６０１と同一である。

そして、実施の形態２で説明したのと同様に区切られた範囲Ｆ２７０１において、ワードコレクト処理を実行するか否かが判定されて、実施の形態２で説明したのと同様のワードコレクト処理を実行することが可能である。

次に、区切られた範囲Ｆ２７０２に着目して説明する。
再び図２を参照して、範囲区切り部６により区切られた一定範囲内の文字列を単語に区切る処理を実行する（ステップＳ５０３）。

図２６は、図２５で説明した区切られた範囲Ｆ２７０２の一定範囲において、単語を取得する処理を説明する図である。

図２６において、「Ｓｃｈｒｅｉｂｅｎ」、「Ｓｉｅ」、「ｖｅｒｖｏｌｌｓｔａｎｄｉｇｅｎ」、「Ｓｉｅ」、「ａｎｄ」、「ｂｇｅｎａｕｅ」、「Ｓｐｒａｃｈｄｏｋｕｍｅｎｔａｔｉｏｎ」、「ｕｎｄ」、「ｌｉｅｆｅｒｎ」、「Ｓｉｅ」、「ｚｗｉｎｇｅｎｄｅ」、「Ｈｏｈｅ」、「Ｑｕａｌｉｔａｔｓｂｅｉｓｐｉｅｌｅ」、「ｆａｒ」、「Ｍｉｓｓｉｏｎ」、「ｄｅｖ」、「ｋｒｉｔｉｓｃｈｅｓ」、「Ｐｒｏｊｅｋｔ」、「ｄａｓ」、「ｄｉｒｅｋｔ」、「ａｎ」、「ｅｉｎｅ」、「Ｓｏｆｔｗａｒｅｆｒｅｉｌａｓｓｕｎｇ」、「ｇｅｂｕｎｄｅｎ」、「ｗｌｒｄ」、「ｄａｓ」、「ｅｒｗａｒｔｅｔ」、「ｗｉｒｄ」、「Ｈｕｎｄｅｒｔｅ」、「ｖｏｎ」、「Ｍｉｌｌｉｏｎ」、「ｉｎ」、「Ｅｉｎｎａｈｍｅｎ」、「ｚｕ」、「ｌｉｅｆｅｒｎ」で構成される取得単語リストＦ２６０１が示されている。

次に、辞書と一致する単語数をカウントする（ステップＳ５０５）。
具体的には、単語取得部８で得られた全単語について、単語照合部９において、単語辞書１３を参照して、単語辞書１３に含まれる単語の数をカウントする。例えば、「ａｎｄ」や「ｆａｒ」といった単語は英語にも存在する単語であるため、英語の単語辞書とは一致する。

図２７は、取得単語リストＦ２６０１に含まれる全単語数および単語辞書と一致した単語数を説明する図である。

図２７を参照して、取得単語リストＦ２６０１の全単語数は「３５」であり、単語辞書と一致した単語数は「６」であることが示されている。なお、単語辞書１３は、英語単語のみを保持している。

再び、図２を参照して、次に、単語一致度を算出する（ステップＳ５０６）。具体的には、単語一致度算出部１０において、上述した単語数カウント部８でカウントした全単語数と、単語照合部９で照合して単語辞書と一致した単語数とに基づいて、単語一致度αを算出する。

取得単語リストＦ２６０１における、単語一致度αは、「６」／「３５」＝「０．１７」となる。

上述したように取得単語リストＦ２６０１の単語一致度は「０．１７」なので、文字列訂正判定部１１はワードコレクト処理を実行しないと判断し、上述したステップＳ５０９の処理に進む。

すなわち、取得単語リストＦ２６０１の単語は、文字列訂正部１２においてワードコレクト処理は実行されずにそのまま文字列として出力される（ステップＳ５１０）。

従来の方法では、英単語辞書のみを保持した場合に、単語ごとにワードコレクト処理を行うため、例えば、取得単語リストＦ２６０１に含まれる「ｕｎｄ」は、「ａｎｄ」に、「Ｐｒｏｊｅｋｔ」は「ｐｒｏｊｅｃｔ」という英単語に誤コレクトしてしまう。

また、他にも、候補文字に英単語を構成する文字があった場合には、それぞれの単語を誤コレクトしてしまう。

仮に１枚の原稿の全単語数と単語辞書に一致する単語数を用いてワードコレクトを行うかどうかを判定する場合には、英語の単語辞書のみを保持している場合、図２５で示した区切られた範囲Ｆ２７０１の範囲は単語辞書１３と一致する単語が多いが、区切られた範囲Ｆ２７０２の範囲は単語辞書１３と一致する単語が少ないため、全体としてワードコレクト処理を行わないと判定されてしまうため、誤りが訂正できない。

これは、ドイツ語の単語辞書のみを保持している場合も同じであり、図２５に示した全範囲では、ドイツ語の単語辞書に一致する単語が少なくなってしまい、誤りが訂正できない。

逆に、原稿全体としてワードコレクトを行うと判定された場合には、図２５に示されるような場合には、区切られた範囲Ｆ２７０１ではワードコレクト処理を正しく行うことができるが、区切られた範囲Ｆ２７０２ではドイツ語の単語を英単語と置き換えてしまうため誤コレクトが増え、最終的に認識率が向上しない。

本実施の形態に従う発明では、区切られた範囲ごとにワードコレクト処理を行うため、英語の単語辞書を保持している場合は、区切られた範囲Ｆ２７０１については、ワードコレクト処理を行い、区切られた範囲Ｆ２７０２については、ワードコレクト処理を行わない構成とすることが可能であり、区切られた範囲Ｆ２７０２の文字列の誤コレクトを防ぐことができる。

また、ドイツ語の単語辞書を保持していた場合でも同様であり、図２５の区切られた範囲Ｆ２７０１に対しては、ワードコレクト処理を行わず、区切られた範囲Ｆ２７０２の範囲のみワードコレクト処理を行う構成となり、誤コレクトによる認識率の低下を防ぐことができる。

なお、本例においては、単語辞書として、英単語のみを保持する構成について説明したが、英語およびドイツ語をともに保持する構成として、区切られた範囲Ｆ２７０１については、英語の単語辞書を用いてワードコレクト処理を実行し、区切られた範囲Ｆ２７０２については、ドイツ語の単語辞書を用いてワードコレクト処理を実行することも可能である。

なお、本発明にかかる情報処理装置を制御するコントローラについて、コンピュータを機能させて、上述のフローで説明したような制御を実行させるプログラムを提供することもできる。このようなプログラムは、コンピュータに付属するフレキシブルディスク、ＣＤ−ＲＯＭ（Compact Disk-Read Only Memory）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）およびメモリカードなどのコンピュータ読取り可能な記録媒体にて記録させて、プログラム製品として提供することもできる。あるいは、コンピュータに内蔵するハードディスクなどの記録媒体にて記録させて、プログラムを提供することもできる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。

なお、本発明にかかるプログラムは、コンピュータのオペレーションシステム（ＯＳ）の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずＯＳと協働して処理が実行される。このようなモジュールを含まないプログラムも、本発明にかかるプログラムに含まれ得る。

また、本発明にかかるプログラムは他のプログラムの一部に組込まれて提供されるものであってもよい。その場合にも、プログラム自体には上記他のプログラムに含まれるモジュールが含まれず、他のプログラムと協働して処理が実行される。このような他のプログラムに組込まれたプログラムも、本発明にかかるプログラムに含まれ得る。

提供されるプログラム製品は、ハードディスクなどのプログラム格納部にインストールされて実行される。なお、プログラム製品は、プログラム自体と、プログラムが記録された記録媒体とを含む。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

本発明の実施の形態１に従う情報処理システムの概略構成図である。本発明の実施の形態１に従う情報処理装置１におけるワードコレクト処理を説明するフロー図である。図２８で示された表を入力装置２で読み取った画像データに対して文字認識部５により文字データとして認識された状態を説明する図である。図３の文字認識結果に対して表の１セルを１つのレイアウトとして範囲を区切った場合を説明する図である。表の一列は同じ要素が記載されていることを利用して、表の一列を一つのレイアウトとして一定範囲に区切る場合の方式を説明する図である。図４で説明した区切られた範囲Ｆ７０１〜Ｆ７０８のそれぞれの一定範囲において、単語を取得する処理を説明する図である。図６で説明した取得した単語リストに従って、単語数カウント部８によってカウントした場合を説明する図である。図６で説明した取得した単語リストに従って、単語辞書１３と照合する場合を説明する図である。取得単語リストＦ１２０４，Ｆ１２０８に含まれる全単語数および単語辞書と一致した単語数を説明する図である。取得単語リストＦ１２０４，Ｆ１２０８における算出した単語一致度を説明する図である。取得単語リストＦ１２０８に対する文字列訂正部１２におけるワードコレクト処理について説明する図である。本発明の実施の形態に従う方式および従来の方式を使用した場合のワードコレクト処理結果を説明する図である。誤コレクトの確率と所定値との関係を説明する図である。複数の段落に分けられた入力原稿Ｐ２を説明する図である。図１４で示された表を入力装置２で読み取った画像データに対して文字認識部５により文字データとして認識された状態を説明する図である。入力原稿画像の段落毎に範囲を区切った場合を説明する図である。特定の記号に基づいて範囲を区切った場合を説明する図である。図１７で説明した区切られた範囲Ｆ１７０１，Ｆ１７０２のそれぞれの一定範囲において、単語を取得する処理を説明する図である。図１８で説明した取得した単語リストに従って、単語数カウント部８によってカウントした場合を説明する図である。図１８で説明した取得した単語リストに従って、単語辞書１３と照合する場合を説明する図である。取得単語リストＦ１８０１に含まれる全単語数および単語辞書と一致した単語数を説明する図である。取得単語リストＦ１８０１に対する算出した単語一致度を説明する図である。取得単語リストＦ１８０１に対する文字列訂正部１２におけるワードコレクト処理について説明する図である。１つの原稿に複数の言語で記載された入力原稿Ｐ３を説明する図である。文字認識処理により認識された文字データを段落毎の範囲に区切った場合を説明する図である。図２５で説明した区切られた範囲Ｆ２７０２の一定範囲において、単語を取得する処理を説明する図である。取得単語リストＦ２６０１に含まれる全単語数および単語辞書と一致した単語数を説明する図である。入力原稿Ｐ１の表を説明する図である。

符号の説明

１情報処理装置、２入力装置、３制御部、４文字認識辞書、５文字認識部、６範囲区切り部、７単語取得部、８単語カウント数、９単語照合部、１０単語一致度算出度、１１文字列訂正判定部、１２文字列訂正部、１３単語辞書、１４ワードコレクト処理部、１５出力装置、２０入出力制御部。

Claims

文字列が記載された媒体の画像情報をもとに文字認識辞書を利用して認識した文字列中の誤りを、単語辞書を照合して訂正する情報処理装置であって、
画像内の文字列の中から認識対象とする文字列を文字列に含まれる文字の特徴あるいは、画像内の文字列のレイアウトの特徴から一定範囲に切り出す範囲区切り手段と、
前記範囲区切り手段で切り出された認識対象範囲の認識された文字列中の全単語数と単語辞書との照合に成功した単語の数の比から単語一致度を算出する単語一致度算出手段と、
前記単語一致度算出手段により算出された一定範囲の文字列の単語一致度に基づいて誤った認識文字を訂正するかどうかを判定する誤認識訂正判定手段とを備える、情報処理装置。
前記誤認識訂正判定手段は、
前記一定範囲の文字列の単語一致度αが、
α≧０．５
の場合は誤った認識文字の訂正を行う、請求項１に記載の情報処理装置。
前記誤認識訂正判定手段は、
前記一定範囲の文字列の単語一致度αが、
α＜０．５
の場合は誤った認識文字の訂正を行わず、誤認識の標識をつけて結果を返す、請求項１に記載の情報処理装置。
前記画像情報に含まれる文字列には、少なくとも１つの言語が含まれる、請求項１または２に記載の情報処理装置。
前記認識した文字列中に複数の言語が含まれている場合、複数の言語の単語辞書を利用して認識した文字列中の誤りの訂正を行う、請求項４に記載の情報処理装置。
前記範囲区切り手段は、画像内の文字列の中から認識対象とする文字列を前記画像情報に含まれるレイアウト情報に基づいて一定範囲に切り出す、請求項１〜５のいずれかに記載の情報処理装置。
前記範囲区切り手段は、画像内の文字列の中から認識対象とする文字列を前記文字列の中の特定の文字を利用して一定範囲に切り出す、請求項１〜５のいずれかに記載の情報処理装置。
前記誤認識訂正判定手段は、前記一定範囲の文字列の単語一致度が所定値以上の場合には、誤った認識文字に対し、一致の取れない部分を候補文字列に置き換え、置き換えた文字列が単語辞書と一致する場合に、当該文字列の訂正を行う、請求項１に記載の情報処理装置。
文字列が記載された媒体の画像情報をもとに文字認識辞書を利用して認識した文字列中の誤りを、単語辞書を照合して訂正する情報処理装置の制御方法であって、
画像内の文字列の中から認識対象とする文字列を文字列に含まれる文字の特徴あるいは、画像内の文字列のレイアウトの特徴から一定範囲に切り出すステップと、
一定範囲に切り出された認識対象範囲の認識された文字列中の全単語と単語辞書との照合に成功した単語の数の比から単語一致度を算出するステップと、
算出された一定範囲の文字列の単語一致度に基づいて誤った認識文字を訂正するかどうかを判定するステップとを備える、情報処理装置の制御方法。
文字列が記載された媒体の画像情報をもとに文字認識辞書を利用して認識した文字列中の誤りを、単語辞書を照合して訂正する情報処理装置を備えるコンピュータに実行させるための制御プログラムであって、
画像内の文字列の中から認識対象とする文字列を文字列に含まれる文字の特徴あるいは、画像内の文字列のレイアウトの特徴から一定範囲に切り出すステップと、
一定範囲に切り出された認識対象範囲の認識された文字列中の全単語と単語辞書との照合に成功した単語の数の比から単語一致度を算出するステップと、
算出された一定範囲の文字列の単語一致度に基づいて誤った認識文字を訂正するかどうかを判定するステップとを備える、情報処理装置の制御プログラム。
請求項１０に記載の制御プログラムを記録したコンピュータ読取り可能な記録媒体。