JP2010015502A - Information processing apparatus, control method and control program therefor, and recording medium - Google Patents

Information processing apparatus, control method and control program therefor, and recording medium Download PDF

Info

Publication number
JP2010015502A
JP2010015502A JP2008177060A JP2008177060A JP2010015502A JP 2010015502 A JP2010015502 A JP 2010015502A JP 2008177060 A JP2008177060 A JP 2008177060A JP 2008177060 A JP2008177060 A JP 2008177060A JP 2010015502 A JP2010015502 A JP 2010015502A
Authority
JP
Japan
Prior art keywords
word
character string
character
words
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008177060A
Other languages
Japanese (ja)
Other versions
JP5252487B2 (en
Inventor
Chie Kiuchi
千絵 木内
Chikayuki Koyama
至幸 小山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2008177060A priority Critical patent/JP5252487B2/en
Publication of JP2010015502A publication Critical patent/JP2010015502A/en
Application granted granted Critical
Publication of JP5252487B2 publication Critical patent/JP5252487B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide an information processing apparatus which can perform word correction with high recognition rate. <P>SOLUTION: A character recognition process is performed (step S501). Next, character regions are extracted (step S502). A character string is divided into words (step S503). Next, the number of words is counted within the character string (step S504). Next, the number of words corresponding to dictionary is counted (step S505). Next, word coincidence degree is calculated (step S506). Next, determination is done whether the word coincidence degree is equal to or exceeds a predetermined value or not (step S507). If the word coincidence degree is equal to or exceeds a predetermined value, word correction is performed, referring to the word dictionary again (step S508). Otherwise, if the word coincidence degree is below the predetermined value, the first candidate character string is outputted as a correct result, without performing word correction (step S509). Then, the character string is outputted (step S510). <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、光学式文字読取(OCR)で文章などの原稿を読み取り、文字認識を行い文字出力する情報処理装置に関し、特に認識結果の誤りを訂正するワードコレクト処理に関するものである。   The present invention relates to an information processing apparatus that reads a manuscript such as a sentence by optical character reading (OCR), recognizes characters, and outputs characters, and particularly relates to a word collect process that corrects an error in a recognition result.

従来から、光学式文字認識の分野では、言語処理を用いた後処理を行うことで文字認識誤りを訂正し、認識精度を向上させるワードコレクト技術が知られている。   2. Description of the Related Art Conventionally, in the field of optical character recognition, a word collect technique for correcting a character recognition error by performing post-processing using language processing and improving recognition accuracy is known.

多くの単語を格納した単語辞書を用意しておき,認識結果の候補文字によって構成される文字列(認識単語)がその辞書に含まれる単語と一致するか否かを判定し、一致した場合にはその単語を正しいと見なし、正解として置き換える方法が一般的に知られている。   If a word dictionary storing many words is prepared, it is determined whether or not a character string (recognized word) composed of candidate characters of the recognition result matches a word included in the dictionary. It is generally known how to consider the word as correct and replace it as the correct answer.

しかしながら、上記のように単純に単語辞書に存在する単語で認識結果を置き換える方法では、正しい認識結果であっても単語が辞書に存在しなければ、誤った認識結果であると判断されて誤った置き換え(誤コレクト)をしてしまう可能性がある。   However, in the method of simply replacing the recognition result with a word existing in the word dictionary as described above, even if the recognition result is correct, if the word does not exist in the dictionary, it is determined that the recognition result is incorrect and the result is incorrect. There is a possibility of replacement (incorrect collection).

このような誤コレクトによる認識率低下を防ぐために認識した候補文字から単語を形成し、類似する(もしくはマッチする)単語を単語辞書から探索し、認識単語との類似度を計算することで認識結果を出力するか、あるいは単語辞書の単語を出力するかを判定する方法が知られている(例えば特許文献1)。   In order to prevent recognition rate decline due to such incorrect correction, a word is formed from recognized candidate characters, a similar (or matching) word is searched from a word dictionary, and a recognition result is calculated by calculating a similarity to the recognized word A method for determining whether to output a word or a word in a word dictionary is known (for example, Patent Document 1).

また、認識結果の誤りパターンを予め覚えさせた辞書を保持しておき、その辞書と照合して一致する認識単語は誤りであると判断し、単語辞書の単語と置き換える方法なども提案されている(例えば特許文献2)。   In addition, a method has been proposed in which a dictionary in which an error pattern of recognition results is stored in advance is stored, a recognized word that matches the dictionary is determined to be an error, and is replaced with a word in the word dictionary. (For example, patent document 2).

なお、上記に示される方法としては、いずれも文字列内の単語ごとにワードコレクト処理を行うかどうかを判定する場合が示されている。   In addition, as the method shown above, the case where it is determined whether or not the word collect processing is performed for each word in the character string is shown.

一方、近年の文字認識では、複数の言語を認識する場面が多くなってきている。
これに対応するために、それぞれの言語を認識するための文字認識辞書および単語辞書を持つことが多く、このような場合、言語判定を行って、認識対象言語を判定してから文字認識を行うことになる。
On the other hand, in recent character recognition, there are many scenes where a plurality of languages are recognized.
In order to cope with this, there are many character recognition dictionaries and word dictionaries for recognizing each language. In such a case, language recognition is performed and character recognition is performed after determining the recognition target language. It will be.

認識対象言語の判定は、ユーザが言語を指定するか、あるいは自動で言語を判定して認識するかの二つの方法がある。   There are two methods for determining the recognition target language: the user designates the language or the language is automatically determined and recognized.

特許文献3には、文字認識において自動言語判定の技術として、言語ごとの単語辞書を準備しておき、入力された原稿をイメージスキャナなどで読み取り、単語辞書に存在する単語が原稿1枚中にいくつあったかの適合率により、その原稿の言語を判定する技術が示されている。   In Patent Document 3, as a technique for automatic language determination in character recognition, a word dictionary for each language is prepared, an input original is read by an image scanner or the like, and words existing in the word dictionary are included in one original. A technique for determining the language of the manuscript based on the number of matching rates is shown.

これはつまり、単語辞書と適合した単語の数が多い単語辞書を構成する言語を、原稿文字の言語だと考えるという方式である。したがって、特許文献3には、原稿を構成する文字の言語が1言語であることを前提としていることが明言されている。   In other words, this is a method in which a language that constitutes a word dictionary having a large number of words that match the word dictionary is regarded as a language of manuscript characters. Therefore, Patent Document 3 clearly states that the language of characters constituting the document is assumed to be one language.

すなわち、言語を特定して、単語辞書と適合した単語の数が多い場合には、ワードコレクト処理を行い、少ない場合には、ワードコレクト処理を行なわない構成とすれば、誤コレクトを防ぐことが可能であると考えられる。
特開平10−134150号公報 特開平2−297263号公報 特開平6−150061号公報
In other words, if a language is specified and the number of words that match the word dictionary is large, word correction processing is performed, and if it is small, word collection processing is not performed to prevent erroneous correction. It is considered possible.
JP 10-134150 A JP-A-2-297263 JP-A-6-150061

しかしながら、例えば、図28に示した入力原稿P1の表のように、あるセルは固有名詞の単語のみだが、あるセルは文を記載しているような場合、原稿1枚中の全単語から算出された単語の適合率によりワードコレクト処理を実行すると判断した場合、あるセルの認識率は上がるが、あるセルの認識率は下がる結果となってしまい、認識率向上にはつながらないという問題がある。   However, for example, as shown in the table of the input document P1 shown in FIG. 28, when a certain cell includes only a proper noun word but a certain cell describes a sentence, it is calculated from all the words in one document. When it is determined that the word correct process is executed based on the matching rate of the selected word, the recognition rate of a certain cell is increased, but the recognition rate of a certain cell is decreased, and there is a problem that the recognition rate is not improved.

例えば、固有名詞が多く記載されているような原稿では、認識結果が正解であるような場合であっても、固有名詞は単語辞書に登録されていない場合が多く、誤った単語にコレクトする誤コレクトが起こり、認識率が低下してしまう可能性がある。   For example, in a manuscript where many proper nouns are written, even if the recognition result is correct, proper nouns are often not registered in the word dictionary, and errors are collected in the wrong word. Collecting may occur and the recognition rate may decrease.

本発明は、上記のような問題を解決するためになされたものであって、認識率の高いワードコレクト処理を実行することが可能な情報処理装置、その制御方法、制御プログラム、および記録媒体を提供することを目的とする。   The present invention has been made to solve the above-described problems, and provides an information processing apparatus capable of executing word collection processing with a high recognition rate, a control method thereof, a control program, and a recording medium. The purpose is to provide.

本発明に係る情報処理装置は、文字列が記載された媒体の画像情報をもとに文字認識辞書を利用して認識した文字列中の誤りを、単語辞書を照合して訂正する情報処理装置であって、画像内の文字列の中から認識対象とする文字列を文字列に含まれる文字の特徴あるいは、画像内の文字列のレイアウトの特徴から一定範囲に切り出す範囲区切り手段と、範囲区切り手段で切り出された認識対象範囲の認識された文字列中の全単語数と単語辞書との照合に成功した単語の数の比から単語一致度を算出する単語一致度算出手段と、単語一致度算出手段により算出された一定範囲の文字列の単語一致度に基づいて誤った認識文字を訂正するかどうかを判定する誤認識訂正判定手段とを備える。   An information processing apparatus according to the present invention corrects an error in a character string recognized using a character recognition dictionary based on image information of a medium in which the character string is described, by collating the word dictionary. A range delimiter that extracts a character string to be recognized from a character string in the image from a character characteristic included in the character string or a character string layout characteristic in the image to a certain range, and a range delimiter A word matching degree calculating means for calculating a word matching degree from a ratio of the total number of words in the recognized character string in the recognition target range clipped by the means and the number of words successfully matched with the word dictionary, and a word matching degree Erroneous recognition correction determination means for determining whether or not to correct an erroneously recognized character based on the word matching degree of the character string within a certain range calculated by the calculation means.

好ましくは、誤認識訂正判定手段は、一定範囲の文字列の単語一致度αが、α≧0.5の場合は誤った認識文字の訂正を行う。   Preferably, the erroneous recognition correction determination unit corrects an erroneously recognized character when the word matching degree α of the character string in a certain range is α ≧ 0.5.

好ましくは、誤認識訂正判定手段は、一定範囲の文字列の単語一致度αが、α<0.5の場合は誤った認識文字の訂正を行わず、誤認識の標識をつけて結果を返す。   Preferably, the misrecognition correction determination unit does not correct the erroneously recognized character when the word matching degree α of the character string in a certain range is α <0.5, and returns a result with a misrecognition mark. .

好ましくは、画像情報に含まれる文字列には、少なくとも1つの言語が含まれる。
特に、認識した文字列中に複数の言語が含まれている場合、複数の言語の単語辞書を利用して認識した文字列中の誤りの訂正を行う。
Preferably, the character string included in the image information includes at least one language.
In particular, when a plurality of languages are included in the recognized character string, an error in the recognized character string is corrected using a word dictionary of a plurality of languages.

好ましくは、範囲区切り手段は、画像内の文字列の中から認識対象とする文字列を画像情報に含まれるレイアウト情報に基づいて一定範囲に切り出す。   Preferably, the range delimiter cuts out a character string to be recognized from a character string in the image into a certain range based on layout information included in the image information.

好ましくは、範囲区切り手段は、画像内の文字列の中から認識対象とする文字列を文字列の中の特定の文字を利用して一定範囲に切り出す。   Preferably, the range delimiter cuts out a character string to be recognized from a character string in the image into a certain range using a specific character in the character string.

好ましくは、誤認識訂正判定手段は、一定範囲の文字列の単語一致度が所定値以上の場合には、誤った認識文字に対し、一致の取れない部分を候補文字列に置き換え、置き換えた文字列が単語辞書と一致する場合に、当該文字列の訂正を行う。   Preferably, the misrecognition correction determination unit replaces a portion that cannot be matched with a candidate character string with respect to an erroneously recognized character when the word matching degree of the character string in a certain range is equal to or greater than a predetermined value, If the string matches the word dictionary, the character string is corrected.

本発明に係る情報処理装置の制御方法は、文字列が記載された媒体の画像情報をもとに文字認識辞書を利用して認識した文字列中の誤りを、単語辞書を照合して訂正する情報処理装置の制御方法であって、画像内の文字列の中から認識対象とする文字列を文字列に含まれる文字の特徴あるいは、画像内の文字列のレイアウトの特徴から一定範囲に切り出すステップと、一定範囲に切り出された認識対象範囲の認識された文字列中の全単語と単語辞書との照合に成功した単語の数の比から単語一致度を算出するステップと、算出された一定範囲の文字列の単語一致度に基づいて誤った認識文字を訂正するかどうかを判定するステップとを備える。   The control method of the information processing apparatus according to the present invention corrects an error in a character string recognized using a character recognition dictionary based on image information of a medium on which the character string is described, by collating the word dictionary. A method for controlling an information processing apparatus, wherein a character string to be recognized is extracted from a character string in an image from a character feature included in the character string or a character string layout feature in the image to a certain range. A step of calculating a word matching degree from a ratio of the number of words successfully matched with all words in the recognized character string in the recognized character string in the recognition target range cut into the fixed range, and the calculated fixed range Determining whether to correct an erroneously recognized character based on the word matching degree of the character string.

本発明に係る情報処理装置の制御プログラムは、文字列が記載された媒体の画像情報をもとに文字認識辞書を利用して認識した文字列中の誤りを、単語辞書を照合して訂正する情報処理装置を備えるコンピュータに実行させるための制御プログラムであって、画像内の文字列の中から認識対象とする文字列を文字列に含まれる文字の特徴あるいは、画像内の文字列のレイアウトの特徴から一定範囲に切り出すステップと、一定範囲に切り出された認識対象範囲の認識された文字列中の全単語と単語辞書との照合に成功した単語の数の比から単語一致度を算出するステップと、算出された一定範囲の文字列の単語一致度に基づいて誤った認識文字を訂正するかどうかを判定するステップとを備える。   A control program for an information processing apparatus according to the present invention corrects an error in a character string recognized using a character recognition dictionary based on image information of a medium on which the character string is described, by collating a word dictionary. A control program for causing a computer including an information processing device to execute a character string included in a character string or a layout of a character string in an image. A step of cutting out from a feature into a certain range, and a step of calculating a word matching degree from a ratio of the number of words successfully matched with all words in the recognized character string in the recognition target range cut out into the certain range and the word dictionary And a step of determining whether or not to correct an erroneously recognized character based on the word matching degree of the calculated character string in a certain range.

本発明に係る記録媒体は、上記の制御プログラムを記録したコンピュータ読取り可能な記録媒体である。   A recording medium according to the present invention is a computer-readable recording medium on which the control program is recorded.

本発明に係る情報処理装置、その制御方法、制御プログラムは、画像内の文字列の中から認識対象とする文字列を文字列に含まれる文字の特徴あるいは、画像内の文字列のレイアウトの特徴から一定範囲に切り出し、切り出された認識対象範囲の認識された文字列中の全単語数と単語辞書との照合に成功した単語の数の比から単語一致度を算出し、算出された一定範囲の文字列の単語一致度に基づいて誤った認識文字を訂正するかどうかを判定する。   An information processing apparatus, a control method thereof, and a control program according to the present invention include a character feature included in a character string that is a character string to be recognized from a character string in an image or a layout feature of a character string in an image. The word matching degree is calculated from the ratio of the total number of words in the recognized character string of the recognized recognition range of the extracted recognition target range and the number of words successfully matched with the word dictionary, and the calculated fixed range It is determined whether or not to correct an erroneously recognized character based on the word matching degree of the character string.

当該方式により、一定範囲内で認識文字を訂正するかどうかの判定をするため、各範囲において、適切なワードコレクト処理を行うことが可能であり、認識率の高いワードコレクト処理を実行することができる。   With this method, it is possible to determine whether or not to correct the recognized character within a certain range, so it is possible to perform appropriate word collect processing in each range, and execute word collect processing with a high recognition rate. it can.

以下に図面を参照しつつ、本発明の実施の形態について説明する。以下の説明においては同一の部品および構成要素には同一の符号を付してある。それらの名称および機能も同一であるものとする。   Embodiments of the present invention will be described below with reference to the drawings. In the following description, the same parts and components are denoted by the same reference numerals. Their names and functions are also the same.

(実施の形態1)
図1は、本発明の実施の形態1に従う情報処理システムの概略構成図である。
(Embodiment 1)
FIG. 1 is a schematic configuration diagram of an information processing system according to the first embodiment of the present invention.

本例においては、文章の印刷された原稿を入力として文字認識を行い、文章の認識結果をワードコレクトするかどうかを判定する情報処理装置の例を示す。   In this example, an example of an information processing apparatus that performs character recognition using a document on which a document is printed as input and determines whether or not to perform word correction on the recognition result of the document is shown.

図1を参照して、本発明の実施の形態1に従う情報処理システムは、入力装置2と、出力装置15と、入力装置2および出力装置15と接続された情報処理装置1とを含む。   Referring to FIG. 1, the information processing system according to the first embodiment of the present invention includes an input device 2, an output device 15, and an information processing device 1 connected to the input device 2 and the output device 15.

入力装置2は、スキャナ等の画像読取装置から画像を読み取り、情報処理装置1へ画像データを送る。   The input device 2 reads an image from an image reading device such as a scanner and sends the image data to the information processing device 1.

出力装置15は、表示装置等で構成され、画像データについて、情報処理装置1で認識した文字列結果およびワードコレクト処理した文字列結果等を出力表示する。   The output device 15 is configured by a display device or the like, and outputs and displays the character string result recognized by the information processing device 1 and the character string result subjected to the word collect processing for the image data.

情報処理装置1は、入力装置2および出力装置15との間でデータの入出力制御処理を実行するための入出力制御部20と、情報処理装置1に含まれる各機能ブロック全体を制御するための制御部3と、画像データに含まれる文字データを認識するために参照される文字認識辞書4と、文字認識辞書4を用いて文字認識する文字認識部5と、文字認識された文字データに対してワードコレクト処理を実行するためのワードコレクト処理部14と、ワードコレクト処理において参照される単語辞書13と、入力装置2により入力された画像データを格納するためのメモリ25とを含む。   The information processing device 1 controls the entire input / output control unit 20 for executing data input / output control processing between the input device 2 and the output device 15 and the entire functional blocks included in the information processing device 1. A control unit 3, a character recognition dictionary 4 that is referred to for recognizing character data included in image data, a character recognition unit 5 that recognizes characters using the character recognition dictionary 4, and character data that has been character-recognized. On the other hand, it includes a word correct processing unit 14 for executing word correct processing, a word dictionary 13 referred to in the word correct processing, and a memory 25 for storing image data input by the input device 2.

入出力制御部20は、制御部3の指示に従い入力装置2により入力された画像データをメモリ25に格納するものとする。   The input / output control unit 20 stores the image data input by the input device 2 in the memory 25 in accordance with an instruction from the control unit 3.

メモリ25には、ワードコレクト処理された処理結果が格納されるものとし、制御部3の指示に従い、処理結果が読み出されて入出力制御部20により出力装置15に出力されるものとする。   It is assumed that the memory 25 stores the processing result that has been subjected to the word collect processing, and the processing result is read out and output to the output device 15 by the input / output control unit 20 in accordance with an instruction from the control unit 3.

ワードコレクト処理部14は、文字データとして文字認識された文章や文、文字列などをある一定範囲で区切る範囲区切り部6と、範囲区切り部6により区切られた一定範囲内の文字列中の単語を取得する単語取得部7と、単語取得部7により取得された全単語数を計数し、記憶しておく単語数カウント部8と、単語取得部7により取得された全単語を単語辞書13と照合し、単語辞書13に含まれる単語がいくつあるのかを計数し、記憶しておく単語照合部9と、単語数カウント部8で記憶している一定範囲内の文字列中に存在する全単語数と単語照合部9で記憶している一定範囲内の文字列中の単語のうち単語辞書13に含まれる単語数とに基づいて、一定範囲内の文字列中の単語一致度を算出する単語一致度算出部10と、単語一致度算出部10で算出された単語一致度から、範囲区切り部6により区切られた一定範囲内の文字列中の単語に対してワードコレクト処理を実行するかどうかを判定する文字列訂正判定部11と、文字列訂正判定部11の判定結果に基づいて、範囲区切り部6により区切られた一定範囲内の文字列中の単語に対して単語辞書13と照合しない単語に対してワードコレクト処理を実行する文字列訂正部12とを含む。   The word collect processing unit 14 includes a range delimiter 6 that delimits sentences, sentences, character strings, and the like that have been character-recognized as character data within a certain range, and words in the character string within the certain range delimited by the range delimiter 6 The word acquisition unit 7 for acquiring the word, the total number of words acquired by the word acquisition unit 7 are counted and stored, the word count unit 8 for storing, and the word dictionary 13 for all the words acquired by the word acquisition unit 7 Collate and count how many words are included in the word dictionary 13, and store all the words present in the character string within a certain range stored in the word collating unit 9 and the word number counting unit 8 A word for calculating a word matching degree in a character string within a certain range based on the number and the number of words contained in the word dictionary 13 among words in the character string within a certain range stored in the word matching unit 9 Matching degree calculation unit 10 and word matching degree A character string correction determination unit 11 for determining whether or not to execute word correction processing on words in a character string within a certain range delimited by the range delimiter 6 from the word matching degree calculated by the output unit 10; Based on the determination result of the character string correction determination unit 11, word correction processing is executed for words that are not matched with the word dictionary 13 for words in the character string within a certain range delimited by the range delimiter unit 6. And a character string correction unit 12.

図2は、本発明の実施の形態1に従う情報処理装置1におけるワードコレクト処理を説明するフロー図である。   FIG. 2 is a flowchart illustrating word collect processing in information processing apparatus 1 according to the first embodiment of the present invention.

まず、最初に文字認識処理を実行する(ステップS501)。具体的には、入力装置2で読み取られ、メモリ25に格納された画像データに対して、文字認識部5により文字認識辞書4を参照して文字データにする処理が実行される。   First, character recognition processing is first executed (step S501). Specifically, the character recognition unit 5 refers to the character recognition dictionary 4 and performs processing for converting the image data read by the input device 2 and stored in the memory 25 into character data.

なお、本例においては、一例として図28で示された表を入力装置2で読み取った画像データに対してワードコレクト処理を実行する場合について説明する。   In this example, a case where word correction processing is executed on image data obtained by reading the table shown in FIG.

図3は、図28で示された表を入力装置2で読み取った画像データに対して文字認識部5により文字データとして認識された状態を説明する図である。   FIG. 3 is a diagram for explaining a state in which image data obtained by reading the table shown in FIG. 28 with the input device 2 is recognized as character data by the character recognition unit 5.

なお、文字認識部5は、OCR(Optical Character Recognition)を使用する。ここで、文字認識は1行ごとに行い、文字認識部5での出力は入力原稿画像ごととする。   The character recognition unit 5 uses OCR (Optical Character Recognition). Here, character recognition is performed for each line, and output by the character recognition unit 5 is performed for each input document image.

なお、説明を簡易にするために、図3を参照して、文字認識結果(文字データ)の認識誤りの単語に下線「_」を示している。   In order to simplify the description, with reference to FIG. 3, the underlined “_” is shown in the word of the recognition error in the character recognition result (character data).

また、実際には、罫線は文字認識結果として得られているわけではないが、レイアウト情報として文字認識処理から得られるものとする。   Actually, the ruled line is not obtained as a character recognition result, but is assumed to be obtained from the character recognition process as layout information.

再び、図2を参照して、文字認識部5により得られた認識誤りを含んだ文字認識結果を一定範囲に区切る処理を実行する(ステップS502)。具体的には、範囲区切り部6により一定範囲に区切る処理を実行する。   Referring to FIG. 2 again, the process of dividing the character recognition result including the recognition error obtained by the character recognition unit 5 into a certain range is executed (step S502). Specifically, a process of dividing into a certain range by the range delimiter 6 is executed.

その方式について以下に説明する。
「入力原稿画像のレイアウトごとに範囲を区切る方式」
図4は、図3の文字認識結果に対して表の1セルを1つのレイアウトとして範囲を区切った場合を説明する図である。
This method will be described below.
"Method to separate the range for each input document image layout"
FIG. 4 is a diagram for explaining a case where the range is divided with one cell of the table as one layout for the character recognition result of FIG.

具体的には、範囲区切り部6は、上述した罫線についてのレイアウト情報に基づいてレイアウトを区切る。   Specifically, the range delimiter 6 delimits the layout based on the layout information about the ruled lines described above.

図4においては、罫線についてのレイアウト情報に基づいて区切られた範囲F701〜F708が一例として示されている。   In FIG. 4, ranges F <b> 701 to F <b> 708 divided based on layout information about ruled lines are shown as an example.

なお、レイアウトの区切り方は、これに限られず、例えば、図5に示されるように、図3の文字認識結果の表において、第一列は固有名詞の単語、第二列は文章(文)といったように、表の一列は同じ要素が記載されていることを利用して、表の一列を一つのレイアウトとして一定範囲に区切る場合の方式が示されている。この要素としては、固有名詞などに限らず、第n列の各セルの単語が全てm個未満なら同要素とみなすなどの条件を付加することも可能である(n,mは0以上の任意の整数)。   For example, as shown in FIG. 5, in the table of character recognition results in FIG. 3, the first column is a proper noun word, and the second column is a sentence (sentence). As described above, there is shown a system in which one column of a table is divided into a certain range by using the fact that the same element is described in one column of the table. This element is not limited to a proper noun, but it is also possible to add a condition such that if all the words in each cell in the n-th column are less than m, the element is regarded as the same element (n and m are 0 or more arbitrary values) Integer).

ここでは、一例として固有名詞が記載された列について、1つの区切られた範囲F801として示され、文章(文)として記載された列についても1つの区切られた範囲F802として示されている。   Here, as an example, a column in which proper nouns are described is shown as one delimited range F801, and a column described as a sentence (sentence) is also shown as one delimited range F802.

本例においては、一例として図4に示されたように表の1セルを一つのレイアウトとして範囲を区切られた場合について以下に説明する。   In this example, a case will be described below in which the range is divided by using one cell of the table as one layout as shown in FIG. 4 as an example.

再び図2を参照して、次に、範囲区切り部6により区切られた一定範囲内の文字列を単語に区切る処理を実行する(ステップS503)。   Referring to FIG. 2 again, next, a process of dividing a character string within a certain range delimited by the range delimiter 6 into words is executed (step S503).

具体的には、単語取得部7において、区切られた一定範囲内の文字列から単語を取得する処理を実行する。   Specifically, the word acquisition unit 7 executes a process of acquiring a word from a character string within a certain fixed range.

図6は、図4で説明した区切られた範囲F701〜F708のそれぞれの一定範囲において、単語を取得する処理を説明する図である。   FIG. 6 is a diagram illustrating a process of acquiring words in each of the fixed ranges F701 to F708 described with reference to FIG.

図6(a)〜(d)において、それぞれ固有名詞の単語が単語リストとして取得された場合が示されている。一例として、図6(a)〜(d)において、取得単語リストF1201〜F1204にそれぞれ対応して、「John」、「Mary」、「Roy」、「Verisa」が取得された場合が示されている。   FIGS. 6A to 6D show cases where the proper noun words are acquired as a word list. As an example, FIGS. 6A to 6D show cases where “John”, “Mary”, “Roy”, and “Verisa” are acquired corresponding to the acquired word lists F1201 to F1204, respectively. Yes.

また、図6(e)〜(h)において、文章中の単語が単語リストとして取得された場合が示されている。   FIGS. 6E to 6H show a case where words in a sentence are acquired as a word list.

一例として、図6(e)において、「Prepore」、「for」、「my」、「document」で構成される取得単語リストF1205が示されている。   As an example, in FIG. 6E, an acquired word list F1205 including “Prepore”, “for”, “my”, and “document” is shown.

図6(f)において、「Go」、「to」、「BGT」、「office」、「with」、「me」で構成される取得単語リストF1206が示されている。   In FIG. 6F, an acquired word list F1206 including “Go”, “to”, “BGT”, “office”, “with”, and “me” is shown.

図6(g)において、「Prepare」、「for」、「oun」、「bus」、「tlckets」で構成される取得単語リストF1207が示されている。   In FIG. 6G, an acquired word list F1207 including “Prepare”, “for”, “own”, “bus”, and “tlkets” is shown.

図6(h)において、「Vac8tion」、「for」、「three」、「weeks」で構成される取得単語リストF1208が示されている。   In FIG. 6H, an acquired word list F1208 including “Vac8tion”, “for”, “three”, and “weeks” is shown.

単語を取得する方法としては、英文の場合は単語ごとに空白で区切られていることから、その空白を利用して抜きだしても良いし、いわゆる形態素解析といった言語処理を用いて区切って単語を取得することも可能である。   As for the method of acquiring words, in the case of English, each word is separated by a space, so it may be extracted using the space, or the word may be separated using a language process such as so-called morphological analysis. It is also possible to obtain.

日本語の場合は、単語ごとの空白はないため形態素解析を用いるか、あるいは単語辞書を使った単語の最長一致法等を用いることにより単語ごとに区切って単語を取得することが可能である。このような単語に区切る処理は周知の技術を使用すれば良く、ここでは詳細には説明しない。   In the case of Japanese, since there is no space for each word, it is possible to obtain words by dividing them into words by using morphological analysis or by using the longest word matching method using a word dictionary. Such a process of dividing into words may be performed using a well-known technique and will not be described in detail here.

再び、図2を参照して、次に、文字列内の単語の数をカウントする(ステップS504)。   Referring to FIG. 2 again, next, the number of words in the character string is counted (step S504).

具体的には、ステップS503において、取得された単語の数を単語数カウント部8によって一定範囲ごとに計数する。   Specifically, in step S503, the number of acquired words is counted for each fixed range by the word number counting unit 8.

図7は、図6で説明した取得した単語リストに従って、単語数カウント部8によってカウントした場合を説明する図である。   FIG. 7 is a diagram illustrating a case where the word count unit 8 counts according to the acquired word list described with reference to FIG.

図7(a)〜(h)を参照して、取得単語リストF1201〜F1208に対して単語数カウント部8によりカウントした単語数がそれぞれ示されている。取得単語リストF1201〜F1208にそれぞれ対応して、「1」、「1」、「1」、「1」、「4」、「6」、「5」、「4」の結果が示されている。   With reference to FIGS. 7A to 7H, the number of words counted by the word number counting unit 8 for the acquired word lists F1201 to F1208 is shown. The results of “1”, “1”, “1”, “1”, “4”, “6”, “5”, “4” are shown corresponding to the acquired word lists F1201 to F1208, respectively. .

再び、図2を参照して、次に、辞書と一致する単語数をカウントする(ステップS505)。   Referring again to FIG. 2, next, the number of words that match the dictionary is counted (step S505).

具体的には、単語取得部8で得られた全単語について、単語照合部9において、単語辞書13を参照して、単語辞書13に含まれる単語の数をカウントする。   Specifically, for all words obtained by the word acquisition unit 8, the word collating unit 9 refers to the word dictionary 13 and counts the number of words included in the word dictionary 13.

図8は、図6で説明した取得した単語リストに従って、単語辞書13と照合する場合を説明する図である。   FIG. 8 is a diagram for explaining a case of collating with the word dictionary 13 according to the acquired word list described with reference to FIG.

図8(a)、(b)は、取得単語リストF1204,F1208をそれぞれ示している。   FIGS. 8A and 8B show acquired word lists F1204 and F1208, respectively.

図8(c)は、単語辞書13に含まれる単語リストが一例として示されている。なお、単語辞書は照合に必要な部分だけを示しており、実際には多数の単語が単語辞書13に登録されている。   FIG. 8C shows a word list included in the word dictionary 13 as an example. Note that the word dictionary shows only the part necessary for collation, and a large number of words are actually registered in the word dictionary 13.

単語照合部9は、取得単語リストF1204,F1208にそれぞれ従って、単語辞書13に含まれる単語リストの中から一致する単語の数をカウントする。   The word matching unit 9 counts the number of matching words from the word list included in the word dictionary 13 according to the acquired word lists F1204 and F1208, respectively.

取得単語リストF1204の単語を単語辞書13と照合する。
取得単語リストF1204の取得単語は「Versian」のみである。単語辞書13に登録されていれば、一致する単語の数(単語一致カウント数)をカウントアップする。初期値は「0」である。取得単語「Versian」は単語辞書13に登録されていないため、カウントはされず、単語一致カウント数は「0」となる。
The words in the acquired word list F1204 are collated with the word dictionary 13.
The acquired word in the acquired word list F1204 is only “Versian”. If it is registered in the word dictionary 13, the number of matching words (word match count number) is counted up. The initial value is “0”. Since the acquired word “Versian” is not registered in the word dictionary 13, it is not counted, and the word match count number is “0”.

そして、取得単語リストF1204において、取得された全単語数と、単語一致カウント数は記憶されるものとする。   In the acquired word list F1204, the acquired total number of words and the word match count number are stored.

一方、取得単語リストF1208の取得単語は、「Vac8tion」、「for」、「three」、「weeks」である。単語辞書13に登録されていれば、上述したように単語一致カウント数をカウントアップする。取得単語リストF1208における1つ目の単語「Vac8tion」が単語辞書13に登録されていれば、単語一致カウントは1となる。ここでは、英文字の大文字小文字の区別は行わず、単語の文字数とスペルが完全に一致していた場合はカウントを行う構成にする。しかし、単語辞書13に「Vac8tion」および「vac8tion」は存在しないため、カウントされない。   On the other hand, the acquired words in the acquired word list F1208 are “Vac8tion”, “for”, “three”, and “weeks”. If registered in the word dictionary 13, the word match count is counted up as described above. If the first word “Vac8tion” in the acquired word list F1208 is registered in the word dictionary 13, the word match count is 1. Here, the uppercase and lowercase letters of the English characters are not distinguished, and the count is performed when the number of characters in the word and the spelling completely match. However, since “Vac8tion” and “vac8tion” do not exist in the word dictionary 13, they are not counted.

さらに、取得単語リストF1208中の「for」、「three」、「weeks」についても同様に処理を行うと、これらは全て図8(c)の単語辞書13中に含まれるので単語一致カウントは「3」となる。   Further, if “for”, “three”, and “weeks” in the acquired word list F1208 are processed in the same manner, they are all included in the word dictionary 13 of FIG. 3 ”.

図9は、取得単語リストF1204,F1208に含まれる全単語数および単語辞書と一致した単語数を説明する図である。   FIG. 9 is a diagram for explaining the total number of words included in the acquired word lists F1204 and F1208 and the number of words that match the word dictionary.

ここでは、図8(a)、(b)で説明した取得単語リストF1204,F1208について説明する。   Here, the acquired word lists F1204 and F1208 described with reference to FIGS. 8A and 8B will be described.

図9を参照して、取得単語リストF1204の全単語数は「1」であり、単語辞書と一致した単語数は「0」であることが示されている。また、取得単語リストF1208の全単語数は「4」であり、単語辞書と一致した単語数は「3」であることが示されている。   Referring to FIG. 9, the total number of words in the acquired word list F1204 is “1”, and the number of words that match the word dictionary is “0”. Also, the total number of words in the acquired word list F1208 is “4”, and the number of words that match the word dictionary is “3”.

なお、上述したように全単語数は、単語数カウント部8で取得されたものであり、単語辞書と一致した単語数は、単語照合部9で取得したものである。   As described above, the total number of words is acquired by the word number counting unit 8, and the number of words that matches the word dictionary is acquired by the word matching unit 9.

再び、図2を参照して、次に、単語一致度を算出する(ステップS506)。
具体的には、単語一致度算出部10において、上述した単語数カウント部8でカウントした全単語数と、単語照合部9で照合して単語辞書と一致した単語数とに基づいて、単語一致度αを算出する。
Referring to FIG. 2 again, next, the word matching degree is calculated (step S506).
Specifically, in the word matching degree calculation unit 10, word matching is performed based on the total number of words counted by the word number counting unit 8 and the number of words matched by the word matching unit 9 and matched with the word dictionary. The degree α is calculated.

本例においては、一例として、ここでは、区切られた範囲に含まれる単語について、単語辞書13に含まれる単語数(単語一致カウント)を全単語数で割った値を単語一致度αとする。   In this example, as an example, here, for a word included in a delimited range, a value obtained by dividing the number of words (word match count) included in the word dictionary 13 by the total number of words is defined as the word match degree α.

図10は、取得単語リストF1204,F1208における算出した単語一致度を説明する図である。   FIG. 10 is a diagram for explaining the calculated word matching degrees in the acquired word lists F1204 and F1208.

図10を参照して、取得単語リストF1204における単語一致度αは「0」として示される。   Referring to FIG. 10, the word matching degree α in the acquired word list F1204 is indicated as “0”.

一方、取得単語リストF1208における単語一致度αは、「0.75」として示される。   On the other hand, the word matching degree α in the acquired word list F1208 is indicated as “0.75”.

次に、再び、図2を参照して、単語一致度αが予め定められた所定値以上であるかどうかを判断する(ステップS507)。具体的には、文字列訂正判定部11で単語一致度αを判定し、各一定範囲内の文字列のワードコレクトを行うかどうかを判定する。   Next, referring again to FIG. 2, it is determined whether or not the word matching degree α is equal to or greater than a predetermined value (step S507). Specifically, the character string correction determination unit 11 determines the word matching degree α, and determines whether or not to perform word correction on the character string within each fixed range.

そして、所定値以上であれば再度、単語辞書と照合し、ワードコレクト処理を実行する(ステップS508)。   If it is equal to or greater than the predetermined value, it is again checked against the word dictionary and a word collect process is executed (step S508).

具体的には、文字列訂正判定部11で単語一致度αが所定値以上であると判断した場合には、文字列訂正部12において、再度、単語辞書と照合し、ワードコレクト処理を実行する。   Specifically, when the character string correction determination unit 11 determines that the word matching degree α is equal to or greater than a predetermined value, the character string correction unit 12 checks again with the word dictionary and executes word correction processing. .

一方、所定値未満であればワードコレクト処理を実行せずに第一候補文字列を正解とする(ステップS509)。   On the other hand, if it is less than the predetermined value, the first candidate character string is made correct without executing the word collect process (step S509).

具体的には、文字列訂正判定部11で単語一致度αを判定し、各一定範囲内の文字列のワードコレクトを行うかどうかを判定する。   Specifically, the character string correction determination unit 11 determines the word matching degree α, and determines whether or not to perform word correction on the character string within each fixed range.

本例においては、一例として所定値を「0.5」とする。すなわち、全単語中の半数が単語辞書13に含まれている割合とする。   In this example, the predetermined value is set to “0.5” as an example. That is, a ratio in which half of all words are included in the word dictionary 13 is used.

すなわち、単語一致度αと文字列訂正処理の判定条件との関係は、以下のようになる。
α≧0.5の場合には、文字列訂正(ワードコレクト)処理を実行する。
That is, the relationship between the word matching degree α and the determination condition for the character string correction process is as follows.
If α ≧ 0.5, a character string correction (word correct) process is executed.

α<0.5の場合には、文字列訂正(ワードコレクト)処理を実行しない。
上述したように取得単語リストF1204の単語一致度は「0」なので、文字列訂正判定部11はワードコレクト処理を行わないと判断し、上述したステップS509の処理に進む。
When α <0.5, the character string correction (word correct) process is not executed.
As described above, since the word match degree of the acquired word list F1204 is “0”, the character string correction determination unit 11 determines not to perform the word collect process, and proceeds to the process of step S509 described above.

すなわち、取得単語リストF1204の「Versian」という単語は、文字列訂正部12においてワードコレクト処理は実行されずにそのまま文字列として出力される(ステップS510)。   That is, the word “Versian” in the acquired word list F1204 is output as it is as a character string without being subjected to the word correction processing in the character string correction unit 12 (step S510).

一方、取得単語リストF1208の単語一致度は「0.75」なので、文字列訂正判定部11はワードコレクト処理を実行すると判断し、上述したステップS508の処理に進む。   On the other hand, since the word matching degree of the acquired word list F1208 is “0.75”, the character string correction determination unit 11 determines to execute the word collect process, and proceeds to the process of step S508 described above.

ステップS508においては、上述したように、文字列訂正部12において、取得単語リストに含まれる単語について、再度、単語辞書と照合し、一定範囲内においてワードコレクト処理を実行する。この場合、単語辞書13と照合し、完全に一致した単語についてはワードコレクト処理は実行しない。   In step S508, as described above, in the character string correction unit 12, the words included in the acquired word list are checked again with the word dictionary, and word correction processing is executed within a certain range. In this case, the word dictionary 13 is collated, and the word correct process is not executed for the completely matched word.

図11は、取得単語リストF1208に対する文字列訂正部12におけるワードコレクト処理について説明する図である。   FIG. 11 is a diagram for explaining word collect processing in the character string correction unit 12 for the acquired word list F1208.

図11(a)を参照して、取得単語リストF1208中の単語「Vac8tion」に対してワードコレクト処理を実行する場合について説明する。   With reference to FIG. 11A, a case where the word collect process is executed on the word “Vac8tion” in the acquired word list F1208 will be described.

図11(b)を参照して、ここでは、まず、入力画像データである文字列「Vacation」に対してOCRを使用した場合における文字候補の一覧が示されている。   Referring to FIG. 11B, here, a list of character candidates when an OCR is used for a character string “Vacation” that is input image data is shown first.

文字認識部5は、文字認識として、各文字の画像データの画素分布などに基づいて、文字認識辞書4を参照して、各文字に類似の文字候補を割り当てる。   As the character recognition, the character recognition unit 5 refers to the character recognition dictionary 4 based on the pixel distribution of the image data of each character and assigns similar character candidates to each character.

本例においては、文字列「Vacation」の入力画像データに基づいて、各文字について、類似の文字候補(第一候補)を割り当てた結果、「Vac8tion」として認識されたものである。文字候補の割り当ては、各文字の画像データの画素分布などに基づいて、文字らしい確率(類似度)の高い文字候補の中から割り当てられるものとする。   In this example, as a result of assigning a similar character candidate (first candidate) to each character based on the input image data of the character string “Vacation”, it is recognized as “Vac8tion”. Character candidates are assigned from among character candidates having a high probability (similarity) that are likely to be characters based on the pixel distribution of image data of each character.

例えば、「V」の文字の画像データについては、4つの文字候補がある中で、大文字「V」が入力画像に対して類似度が高いとして割り当てられた場合が示されている。「a」、「c」、「a」、「t」、「i」、「o」、「n」の文字の画像データについても同様に、各画像データの画素分布などに基づいて、類似度の高い文字候補が割り当てられる。   For example, for the image data of the character “V”, a case is shown in which there are four character candidates and the capital letter “V” is assigned with a high similarity to the input image. Similarly for the image data of the characters “a”, “c”, “a”, “t”, “i”, “o”, “n”, based on the pixel distribution of each image data, etc. A character candidate with a high value is assigned.

文字列訂正部12に入力された文字列は、図11(b)における各文字の第一候補の文字列である。第一候補の文字列に対して、単語辞書13を参照した場合、単語辞書13には、単語が存在しない。   The character string input to the character string correction unit 12 is the first candidate character string of each character in FIG. When the word dictionary 13 is referred to the first candidate character string, the word dictionary 13 has no word.

そこで、第一文字目の第一候補「V」を第二候補「v」に置き換えると「vac8tion」という単語が生成されるが、図8(c)に示す単語辞書13には単語が存在しない。   Therefore, when the first candidate “V” of the first character is replaced with the second candidate “v”, the word “vac8tion” is generated, but no word exists in the word dictionary 13 shown in FIG.

この状態で、「vac8tion」の「vac」までは一致している単語が単語辞書13に存在していれば、第四文字目の第一候補「8」を次の第二候補の「a」に変更してみる。すると、文字列は「vacation」となり、単語辞書13に存在するのでこの単語を訂正単語候補として抽出する。   In this state, if there is a matching word in the word dictionary 13 until “vac” of “vac8tion”, the fourth candidate first candidate “8” is set as the next second candidate “a”. Try changing to. Then, since the character string becomes “vacation” and exists in the word dictionary 13, this word is extracted as a correction word candidate.

同様の処理を全文字候補に対して行っても、単語辞書13に登録されている単語が他に見つからないので、「vacation」が正しい文字列だとして確定する。   Even if the same processing is performed for all character candidates, no other word registered in the word dictionary 13 is found, so that “vacation” is determined to be a correct character string.

ここで、文字認識においては同形文字の認識間違いが非常に多い。
そこで、英語の場合は、文頭は大文字であるという条件をつけておき、「vacation」は文頭の単語であったため、第一文字目の「V」を「v」に置き換えた処理を元にもどし、「Vacation」を正解単語と見なす。
Here, in character recognition, there are many recognition errors of isomorphic characters.
Therefore, in the case of English, the condition that the sentence head is capitalized, and “vacation” is the word at the beginning of the sentence. Therefore, the process of replacing the first character “V” with “v” is restored, “Vacation” is regarded as a correct word.

図11(c)においては、上記の処理によりワードF1101である「Vac8tion」の訂正単語候補として「Vacation」が示されている。   In FIG. 11C, “Vacation” is shown as a correction word candidate of “Vac8tion” that is the word F1101 by the above processing.

他の取得単語リストF1208の単語「for」「three」「weeks」については、単語辞書13に存在しているため、ワードコレクト処理は行わない。   Since the words “for”, “three”, and “weeks” in the other acquired word list F1208 exist in the word dictionary 13, the word collect process is not performed.

なお、ここでは、文字候補から単語を生成し、ワードコレクト処理を行っているが、他の方法として文字数が一致して類似度の合計値が一番大きい文字列を正しいとみなす方法とすることも可能である。なお、本発明においては、特にワードコレクト処理の方式を限定する必要は無く、周知の方法を採用することが可能である。   In this example, a word is generated from a character candidate and word correction processing is performed. However, as another method, a method is considered in which a character string having the same number of characters and having the largest similarity is regarded as correct. Is also possible. In the present invention, it is not necessary to limit the method of the word collect process, and a well-known method can be adopted.

そして、ステップS510において、最終的にワードコレクト処理を行った、あるいは行わなかった文字列を出力する。   In step S510, a character string that has been or has not been subjected to word correct processing is output.

入出力制御部20は、出力された文字列を出力装置15に出力し、出力装置15において表示する。   The input / output control unit 20 outputs the output character string to the output device 15 and displays it on the output device 15.

一方、従来の方式として、入力原稿中の全範囲に対する単語一致度に基づいてワードコレクト処理を実行する場合について説明する。   On the other hand, as a conventional method, a case will be described in which word collect processing is executed based on the word matching degree for the entire range in the input document.

再び、図3を参照して、入力原稿中の全範囲に含まれる単語数のうち単語辞書13に存在する単語がいくつあるかをカウントした場合、原稿の全単語数は「23」である。そして、単語辞書13と一致した単語数は「14」である。   Referring to FIG. 3 again, when the number of words existing in word dictionary 13 among the number of words included in the entire range in the input document is counted, the total number of words in the document is “23”. The number of words that match the word dictionary 13 is “14”.

ワードコレクト処理を実行する場合の判定基準として所定値を0.5とする。
単語一致度αは、原稿の全単語数に対する単語辞書と一致した単語数の割合であるため14/23=0.60(小数点以下3位切り捨て)となる。
A predetermined value is set to 0.5 as a criterion for executing the word correct process.
The word matching degree α is 14/23 = 0.60 (truncated to the third decimal place) because it is the ratio of the number of words matched with the word dictionary to the total number of words in the document.

したがって、入力原稿中の全範囲に対してワードコレクト処理すると判定されることになる。   Therefore, it is determined that word correction processing is performed on the entire range in the input document.

図12は、本発明の実施の形態に従う方式および従来の方式を使用した場合のワードコレクト処理結果を説明する図である。   FIG. 12 is a diagram for explaining the result of word collect processing when the method according to the embodiment of the present invention and the conventional method are used.

図12(a)は、本発明の実施の形態に従う方式を使用した場合のワードコレクト処理結果である。一方、図12(b)は、従来の方式を使用した場合のワードコレクト処理結果である。   FIG. 12A shows a result of word collect processing when the method according to the embodiment of the present invention is used. On the other hand, FIG. 12B shows the result of word collect processing when the conventional method is used.

図12(a)においては、区切られた範囲F701〜F704に含まれる固有名詞については、ワードコレクト処理が実行されないため図3で示された認識結果と同じ単語が出力される。   In FIG. 12A, for the proper nouns included in the divided ranges F701 to F704, the same word as the recognition result shown in FIG. 3 is output because the word collect processing is not executed.

したがって、図26で説明した固有名詞である「Ray」について認識誤りとして「Roy」となったワードについてはそのまま認識誤りとして存在する。   Therefore, the word that has become “Roy” as a recognition error for “Ray”, which is the proper noun described in FIG. 26, still exists as a recognition error.

一方、区切られた範囲F705〜F708に含まれる文章(文)については、ワードコレクト処理が実行され、「Prepore」、「oun」、「tlckets」、「Vac8tion」の認識誤りについてワードコレクト処理が実行されて、適切なワード「Prepare」、「our」、「tickets」、「Vacation」と訂正された場合が示されている。   On the other hand, word correction processing is executed for sentences (sentences) included in the divided ranges F705 to F708, and word correction processing is executed for recognition errors of “Prepore”, “own”, “tlcckets”, and “Vac8tion”. Then, the case where the appropriate words “Prepare”, “our”, “tickets”, and “Vacation” are corrected is shown.

図12(b)においては、全範囲に含まれる単語について、ワードコレクト処理が実行されるため単語辞書13に一致しなかった全ての単語に対してワードコレクト処理が実行される。   In FIG. 12B, the word collect process is executed for all words that do not match the word dictionary 13 because the word collect process is executed for the words included in the entire range.

したがって、図3で説明した固有名詞に対してもワードコレクト処理を実行してしまうことになり、「Mary」、「Versian」など正解のワードに対しても単語辞書に登録されていないためワードコレクト処理を実行して、単語辞書13に含まれる「Many」、「Version」にそれぞれ訂正してしまう場合が示されている。   Accordingly, the word correct process is executed even for the proper nouns described in FIG. 3, and correct words such as “Mary” and “Versian” are not registered in the word dictionary, so that word correct is performed. In this example, the process is executed to correct “Many” and “Version” included in the word dictionary 13.

すなわち、図3の入力原稿P1の認識結果として、認識誤りであった単語数は「5」であるのに対して、本願方式に従うワードコレクト処理を用いれば最終的な認識誤りは「1」となり、認識率が高いことが分かる。   That is, as the recognition result of the input document P1 in FIG. 3, the number of words that were erroneously recognized is “5”, but the final recognition error becomes “1” when the word correct processing according to the present application method is used. It can be seen that the recognition rate is high.

一方、従来の方式に従うワードコレクト処理を用いれば、最終的な認識誤りは「3」であり、誤コレクトにより認識率の向上は低いことが分かる。   On the other hand, if the word correction processing according to the conventional method is used, the final recognition error is “3”, and it is understood that the improvement of the recognition rate is low due to the erroneous correction.

それゆえ、本発明の実施の形態に従う情報処理装置に従えば、適切なワードコレクト処理の判定を実行し、従来方式よりも、認識率が高いワードコレクト処理を実現することができる。   Therefore, according to the information processing apparatus according to the embodiment of the present invention, it is possible to execute determination of appropriate word collection processing and realize word collection processing with a higher recognition rate than the conventional method.

なお、本例においては、一例として、文字列訂正処理の判定条件としている所定値として「0.5」を一例として設定した場合について説明しているが、「0.5未満」に設定すればワードコレクト処理の判定条件は緩くなるが、誤コレクトが増え、「0.5以上」に設定すれば誤コレクトは減少するがワードコレクト処理の判定条件が厳しくなるので、正しくコレクトできる可能性のある単語を正しく訂正できない可能性がある。   In this example, the case where “0.5” is set as an example as the predetermined value as the determination condition for the character string correction processing is described as an example. Although the judgment conditions for word correct processing are relaxed, the number of miscorrections increases, and if set to "0.5 or more", the correct correction is reduced, but the correct conditions for word collect processing are stricter. Words may not be corrected correctly.

図13は、誤コレクトの確率と所定値との関係を説明する図である。
図13を参照して、この図に示したグラフは、誤コレクトの確率と判定値との関係を説明するための実験結果である。
FIG. 13 is a diagram for explaining the relationship between the probability of erroneous correction and a predetermined value.
Referring to FIG. 13, the graph shown in this figure is an experimental result for explaining the relationship between the probability of erroneous correction and the determination value.

固有名詞を含まない英単語辞書中の全単語に対して、固有名詞(ここでは人の名前)20000件がどれぐらい英単語辞書に一致するか、すなわち固有名詞が英単語辞書に存在しないにも関わらず、一致してしまい誤コレクトになる確率を求めている。   For all words in the English word dictionary that do not contain proper nouns, how many 20,000 proper nouns (here, human names) match the English word dictionary, that is, no proper nouns exist in the English word dictionary. Regardless, we are looking for the probability of matching and false correction.

実験では、英単語辞書63665件に対して、20000件の固有名詞を照合したところ、2328件(約11%)が英単語辞書の単語と一致した。   In the experiment, when 20000 proper nouns were checked against 63665 English word dictionaries, 2328 (about 11%) matched words in the English word dictionary.

実際の文章では、この英単語辞書に存在する単語を無作為にn個の単語を選び出しているのと同じである。   In the actual sentence, it is the same as selecting n words at random from the words in this English word dictionary.

ここで、二項分布より固有名詞に一致する単語を11%含んでいる母集団から、n個の単語を抽出した場合、k個の固有名詞に一致する単語が存在する確率を、n別にグラフ化したのが図13である。   Here, when n words are extracted from a population including 11% of words that match proper nouns from the binomial distribution, the probability that there are words that match k proper nouns is graphed by n. FIG. 13 shows the result.

横軸が所定値、縦軸を誤コレクトの確率(k個の固有名詞に一致する単語が存在する確率)で表している。この図より、nが大きくなれば所定値が小さくても誤コレクト率は「0」に近くなる。   The abscissa represents a predetermined value, and the ordinate represents the probability of miscorrection (the probability that a word matching k proper nouns exists). From this figure, if n is large, the error correction rate is close to “0” even if the predetermined value is small.

しかし、当該図13を参照すれば、nは様々であるので、所定値を「0.5」にしておけば、ほとんどのnにおいて、誤コレクトの確率が低くなると考えられる。   However, referring to FIG. 13, since n varies, if the predetermined value is set to “0.5”, it is considered that the probability of erroneous correction is reduced in most n.

また、上記においては、単語一致度について、一例として、ここでは、区切られた範囲に含まれる単語について、単語辞書13に含まれる単語数(単語一致カウント)を全単語数で割った値を単語一致度αとする場合について説明したが、特にこれに限られず、単語一致度αを単語辞書13と一致した単語数とすることも可能である。   In the above, as an example of the word matching degree, here, for words included in the delimited range, a value obtained by dividing the number of words (word matching count) included in the word dictionary 13 by the total number of words Although the case where the coincidence degree α is described has been described, the present invention is not particularly limited thereto, and the word coincidence degree α may be the number of words that matches the word dictionary 13.

例えば、再び図9を参照して、取得単語リストF1204における単語一致度αは「0」、取得単語リフトF1208における単語一致度αは「3」とすることが可能である。   For example, referring to FIG. 9 again, the word matching degree α in the acquired word list F1204 can be “0”, and the word matching degree α in the acquired word lift F1208 can be “3”.

そして、当該単語一致度αを単語辞書と一致した単語数とした場合は、全単語数から単語辞書と一致した単語数を引いた数を「未知語数」とする。   When the word matching degree α is the number of words that matches the word dictionary, the number obtained by subtracting the number of words that matches the word dictionary from the total number of words is defined as the “number of unknown words”.

そして、「未知語数」と「単語辞書と一致した単語数(一致単語数)」との数の大小比較に基づいてワードコレクト処理を実行するか否かを判定する。   Then, it is determined whether or not to execute the word collect process based on a comparison of the numbers of “the number of unknown words” and “the number of words matched with the word dictionary (number of matched words)”.

例えば、取得単語リストF1204については、全単語数が「1」であり、単語辞書と一致した単語数が「0」である。   For example, in the acquired word list F1204, the total number of words is “1”, and the number of words that match the word dictionary is “0”.

したがって、「未知語数」は、「1」として示される。
「未知語数」と「単語辞書と一致した単語数」とを比較した場合、「未知語数」>「一致単語数(α)」となるためワードコレクト処理を行わないと判定する。
Therefore, “the number of unknown words” is indicated as “1”.
When “the number of unknown words” is compared with “the number of words matched with the word dictionary”, “number of unknown words”> “number of matched words (α)” is satisfied, so that it is determined that the word collect processing is not performed.

一方、取得単語リストF1208については、全単語数が「4」であり、単語辞書と一致した単語数が「3」である。   On the other hand, in the acquired word list F1208, the total number of words is “4”, and the number of words that match the word dictionary is “3”.

したがって、「未知語数」は「1」として示される。
「未知語数」と「単語辞書と一致した単語数」とを比較した場合、「未知語数」<「一致単語数(α)」となるためワードコレクト処理を行うと判定する。
Therefore, the “number of unknown words” is indicated as “1”.
When “the number of unknown words” is compared with “the number of words matched with the word dictionary”, it is determined that the word collect process is performed because “the number of unknown words” <“the number of matched words (α)”.

当該方式により、上述したのと同様のワードコレクト処理を実行することが可能である。   By this method, it is possible to execute the same word collect processing as described above.

(実施の形態2)
上記の実施の形態1においては、罫線で区切られた範囲(セル)を一定範囲として、ワードコレクト処理を実行する場合について説明した。
(Embodiment 2)
In the first embodiment, the case where the word collect process is executed with the range (cells) delimited by the ruled lines as a fixed range has been described.

本発明の実施の形態2においては、図14に示すような複数の段落に分けられた入力原稿に対するワードコレクト処理について説明する。   In the second embodiment of the present invention, word correction processing for an input document divided into a plurality of paragraphs as shown in FIG. 14 will be described.

図14を参照して、ここでは、主に3つの段落に分けられた英文が記載されている場合が示されている。   Referring to FIG. 14, here, a case where English sentences mainly divided into three paragraphs are described is shown.

再び、図2を参照して、まず、ステップS501において、文字認識処理を実行する。具体的には、文字認識部5は、OCRを使用して文字認識結果(文字データ)を出力する。   Referring to FIG. 2 again, first, in step S501, character recognition processing is executed. Specifically, the character recognition unit 5 outputs a character recognition result (character data) using OCR.

図15は、図14で示された表を入力装置2で読み取った画像データに対して文字認識部5により文字データとして認識された状態を説明する図である。   FIG. 15 is a diagram for explaining a state in which the image data obtained by reading the table shown in FIG. 14 with the input device 2 is recognized as character data by the character recognition unit 5.

なお、説明を簡易にするために、図15を参照して、文字認識結果(文字データ)の認識誤りの単語に下線「_」を示している。   In order to simplify the description, with reference to FIG. 15, the underlined “_” is shown in the recognition error word of the character recognition result (character data).

次に、上述したように文字認識部5により得られた認識誤りを含んだ文字認識結果を一定範囲に区切る処理を実行する(ステップS502)。具体的には、範囲区切り部6により一定範囲に区切る処理を実行する。   Next, as described above, a process of dividing the character recognition result including the recognition error obtained by the character recognition unit 5 into a certain range is executed (step S502). Specifically, a process of dividing into a certain range by the range delimiter 6 is executed.

具体的には、範囲区切り部6は、レイアウトごとに範囲を区切る。
図16は、入力原稿画像の段落毎に範囲を区切った場合を説明する図である。
Specifically, the range delimiter 6 divides the range for each layout.
FIG. 16 is a diagram illustrating a case where the range is divided for each paragraph of the input document image.

図16に示されるように3つの段落のそれぞれに対応して範囲が区切られていることが示されている。   As shown in FIG. 16, it is shown that the range is divided corresponding to each of the three paragraphs.

ここでは、段落毎に範囲を区切る方法として、レイアウト情報を利用した場合について考える。ここで示されるように、互いの段落の間に文字がまったく書かれていない空白部分(セパレータ)が存在する。   Here, a case where layout information is used as a method of dividing a range for each paragraph is considered. As shown here, there is a blank portion (separator) between which no character is written between the paragraphs.

文字認識処理では、文字がまったく書かれていない白いセパレータ部分のレイアウト情報を検知しておき、検知結果に基づいて、文字認識結果を一定範囲に区切ることが可能である。このような構成とすれば、図15に得られている認識結果は、黒枠ごとに区切られる。この処理を、範囲区切り部6において行う。   In the character recognition process, it is possible to detect the layout information of the white separator portion where no characters are written, and to divide the character recognition result into a certain range based on the detection result. With such a configuration, the recognition result obtained in FIG. 15 is divided for each black frame. This process is performed in the range delimiter 6.

本例においては、段落ごとに区切られた範囲F1601〜F1603がそれぞれ示されている。   In this example, ranges F1601 to F1603 divided for each paragraph are shown.

そして、本例においては、さらにその範囲を一定範囲に区切ることとする。
その方式について以下に説明する。
In this example, the range is further divided into a certain range.
This method will be described below.

「入力原稿画像の特定の記号毎に範囲を区切る方式」
具体的には、範囲区切り部6は、「?」や「.」といった特定の記号に基づいて一定範囲に区切る。
"A method that separates the range for each specific symbol in the input document image"
Specifically, the range delimiter 6 divides into a certain range based on specific symbols such as “?” And “.”.

図17は、特定の記号に基づいて範囲を区切った場合を説明する図である。
図17(a)は、図16で段落ごとに3つの一定範囲を区切った場合に、区切られた範囲F1601を特定した図である。
FIG. 17 is a diagram illustrating a case where a range is divided based on a specific symbol.
FIG. 17A is a diagram in which a delimited range F1601 is specified when three fixed ranges are divided for each paragraph in FIG.

図17(b)は、図17(a)で特定した区切られた範囲F1601について、さらに、範囲分けを詳細にする場合を説明する図である。   FIG. 17B is a diagram for explaining a case where the range division is further detailed for the divided range F1601 specified in FIG.

具体的には、「?」や「.」といった特定の記号に基づいて一定範囲に区切ることとする。   More specifically, it is divided into a certain range based on specific symbols such as “?” And “.”.

ここでは、区切られた範囲F1601について、「Write comprete and occurate language documentation and delirer compe11ing. High quality examples for "mission critical" proiect which is directly tied to a software release expedted to deliver hundreds of milllon in revenue.」という英文を「.」の記号に基づいて「Write comprete and occurate language documentation and delirer compe11ing.」である区切られた範囲F1701と、「High quality examples for "mission critical" proiect which is directly tied to a software release expedted to deliver hundreds of milllon in revenue.」である区切られた範囲F1702とに区切った場合が示されている。   Here, for the delimited range F1601, "Write comprete and occurate language documentation and delirer compe11ing. High quality examples for" mission critical "proiect which is directly tied to a software release expedted to deliver hundreds of milllon in revenue." Based on the symbol “.” And a delimited range F1701 which is “Write comprete and occurate language documentation and delirer compe11ing.” And “High quality examples for“ mission critical ”proiect which is directly tied to a software release expedted to A case where the data is divided into a divided range F1702 which is “deliver hundreds of milllon in revenue” is shown.

なお、ここでは、「.」といった特定の記号で一定範囲に区切る場合について説明したが、「.」の他に「?」、「!」の特定の記号や、日本語の文章などの場合には、句読点の記号である「、」、「。」といった特定の記号で一定範囲に区切ることも可能である。   In addition, although the case where a specific symbol such as “.” Is used to delimit a certain range has been described here, in addition to “.”, A specific symbol such as “?” Or “!”, Or a Japanese sentence, etc. Can be divided into a certain range by specific symbols such as “,” and “.” Which are punctuation marks.

再び図2を参照して、次に、範囲区切り部6により区切られた一定範囲内の文字列を単語に区切る処理を実行する(ステップS503)。   Referring to FIG. 2 again, next, a process of dividing a character string within a certain range delimited by the range delimiter 6 into words is executed (step S503).

具体的には、上述したように単語取得部7において、区切られた一定範囲内の文字列から単語を取得する処理を実行する。   Specifically, as described above, the word acquisition unit 7 executes a process of acquiring a word from a character string within a delimited range.

図18は、図17で説明した区切られた範囲F1701,F1702のそれぞれの一定範囲において、単語を取得する処理を説明する図である。   FIG. 18 is a diagram for describing processing for acquiring words in each of the delimited ranges F1701 and F1702 described with reference to FIG.

図18(a)において、「Write」、「complete」、「and」、「occurate」、「language」、「documentation」、「and」、「delirer」、「compe11ing」で構成される単語取得リストF1801が示されている。   In FIG. 18A, a word acquisition list F1801 composed of “Write”, “complete”, “and”, “occurate”, “language”, “documentation”, “and”, “delier”, and “comp11ing”. It is shown.

また、図18(b)において、「High」、「quality」、「examples」、「for」、「mission」、「critical」、「proiect」、「which」、「is」、「directly」、「tied」、「to」、「a」、「software」、「release」、「expedted」、「to」、「deliver」、「hundreds」、「of」、「millon」、「in」、「revenue」で構成される取得単語リストF1802が示されている。   In FIG. 18B, “High”, “quality”, “examples”, “for”, “mission”, “critical”, “protect”, “which”, “is”, “directly”, “ tied, "to", "a", "software", "release", "expedted", "to", "deliver", "hundreds", "of", "millon", "in", "revenue" An acquired word list F1802 composed of

なお、「"」の記号が二つ有るが、これらは単語として含まれないものとするが、「"」の記号を単語として含めることも可能である。   Note that there are two "" "symbols, but these are not included as words, but the" "" symbol can also be included as a word.

単語を取得する方法としては、英文の場合は単語ごとに空白で区切られていることから、その空白を利用して抜きだしても良いし、いわゆる形態素解析といった言語処理を用いて区切って単語を取得することも可能である。   As for the method of acquiring words, in the case of English, each word is separated by a space, so it may be extracted using the space, or the word may be separated using a language process such as so-called morphological analysis. It is also possible to obtain.

日本語の場合は、単語ごとの空白はないため形態素解析を用いるか、あるいは単語辞書を使った単語の最長一致法等を用いることにより単語ごとに区切って単語を取得することが可能である。このような単語に区切る処理は周知の技術を使用すれば良く、ここでは詳細には説明しない。   In the case of Japanese, since there is no space for each word, it is possible to obtain words by dividing them into words by using morphological analysis or by using the longest word matching method using a word dictionary. Such a process of dividing into words may be performed using a well-known technique and will not be described in detail here.

再び、図2を参照して、次に、文字列内の単語の数をカウントする(ステップS504)。   Referring to FIG. 2 again, next, the number of words in the character string is counted (step S504).

具体的には、ステップS503において、取得された単語の数を単語数カウント部8によって一定範囲ごとに計数する。   Specifically, in step S503, the number of acquired words is counted for each fixed range by the word number counting unit 8.

図19は、図18で説明した取得した単語リストに従って、単語数カウント部8によってカウントした場合を説明する図である。   FIG. 19 is a diagram illustrating a case where the word count unit 8 counts according to the acquired word list described with reference to FIG.

図19(a),(b)を参照して、取得単語リストF1801,F1802に対して単語数カウント部8によりカウントした単語数がそれぞれ示されている。取得単語リストF1801,F1802にそれぞれ対応して、「9」、「23」の結果が示されている。   Referring to FIGS. 19A and 19B, the word counts counted by the word count counting unit 8 for the acquired word lists F1801 and F1802 are shown. The results of “9” and “23” are shown corresponding to the acquired word lists F1801 and F1802, respectively.

再び、図2を参照して、次に、辞書と一致する単語数をカウントする(ステップS505)。   Referring again to FIG. 2, next, the number of words that match the dictionary is counted (step S505).

具体的には、単語取得部8で得られた全単語について、単語照合部9において、単語辞書13を参照して、単語辞書13に含まれる単語の数をカウントする。   Specifically, for all words obtained by the word acquisition unit 8, the word collating unit 9 refers to the word dictionary 13 and counts the number of words included in the word dictionary 13.

図20は、図18で説明した取得した単語リストに従って、単語辞書13と照合する場合を説明する図である。   FIG. 20 is a diagram illustrating a case where the word dictionary 13 is checked according to the acquired word list described with reference to FIG.

図20(a)は、取得単語リストF1801を示している。
図20(b)は、単語辞書13に含まれる単語リストが一例として示されている。なお、単語辞書は照合に必要な部分だけを示しており、実際には多数の単語が単語辞書13に登録されている。
FIG. 20A shows an acquired word list F1801.
FIG. 20B shows an example of a word list included in the word dictionary 13. Note that the word dictionary shows only the part necessary for collation, and a large number of words are actually registered in the word dictionary 13.

単語照合部9は、取得単語リストF1801に従って、単語辞書13に含まれる単語リストの中から一致する単語の数をカウントする。   The word matching unit 9 counts the number of matching words from the word list included in the word dictionary 13 according to the acquired word list F1801.

取得単語リストF1801の単語を単語辞書13と照合する。
取得単語リストF1801の取得単語は、「Write」、「complete」、「and」、「occurate」、「language」、「documentation」、「and」、「delirer」、「compe11ing」である。単語辞書13に登録されていれば、上述したように単語一致カウント数をカウントアップする。取得単語リストF1801における1つ目の単語「Write」が単語辞書13に登録されていれば、単語一致カウントは1となる。ここでは、英文字の大文字小文字の区別は行わず、単語の文字数とスペルが完全に一致していた場合はカウントを行う構成にする。
The words in the acquired word list F1801 are collated with the word dictionary 13.
The acquired words in the acquired word list F1801 are “Write”, “complete”, “and”, “occurate”, “language”, “documentation”, “and”, “delier”, and “comp11ing”. If registered in the word dictionary 13, the word match count is counted up as described above. If the first word “Write” in the acquired word list F1801 is registered in the word dictionary 13, the word match count is one. Here, the uppercase and lowercase letters of the English characters are not distinguished, and the count is performed when the number of characters in the word and the spelling completely match.

さらに、取得単語リストF1801中の「complete」、「and」、「occurate」、「language」、「documentation」、「and」、「delirer」、「compe11ing」についても同様に処理を行うと、単語一致カウントは「6」となる。   Further, if the same processing is performed for “complete”, “and”, “occurate”, “language”, “documentation”, “and”, “delier”, and “comp11ing” in the acquired word list F1801, word matching is performed. The count is “6”.

なお、ここでは、取得単語リストF1801について説明したが、取得単語リストF1802についても同様に処理される。   Although the acquired word list F1801 has been described here, the acquired word list F1802 is processed in the same manner.

図21は、取得単語リストF1801に含まれる全単語数および単語辞書と一致した単語数を説明する図である。   FIG. 21 is a diagram illustrating the total number of words included in the acquired word list F1801 and the number of words that match the word dictionary.

ここでは、図18(a)で説明した取得単語リストF1801について説明する。
図21を参照して、取得単語リストF1801の全単語数は「9」であり、単語辞書と一致した単語数は「6」であることが示されている。
Here, the acquired word list F1801 described with reference to FIG.
Referring to FIG. 21, the total number of words in acquired word list F1801 is “9”, and the number of words that match the word dictionary is “6”.

なお、上述したように全単語数は、単語数カウント部8で取得されたものであり、単語辞書と一致した単語数は、単語照合部9で取得したものである。   As described above, the total number of words is acquired by the word number counting unit 8, and the number of words that matches the word dictionary is acquired by the word matching unit 9.

再び、図2を参照して、次に、単語一致度を算出する(ステップS506)。
具体的には、単語一致度算出部10において、上述した単語数カウント部8でカウントした全単語数と、単語照合部9で照合して単語辞書と一致した単語数とに基づいて、単語一致度αを算出する。
Referring to FIG. 2 again, next, the word matching degree is calculated (step S506).
Specifically, in the word matching degree calculation unit 10, word matching is performed based on the total number of words counted by the word number counting unit 8 and the number of words matched by the word matching unit 9 and matched with the word dictionary. The degree α is calculated.

本例においては、一例として、ここでは、区切られた範囲に含まれる単語について、単語辞書13に含まれる単語数(単語一致カウント)を全単語数で割った値を単語一致度αとする。   In this example, as an example, here, for a word included in a delimited range, a value obtained by dividing the number of words (word match count) included in the word dictionary 13 by the total number of words is defined as the word match degree α.

図22は、取得単語リストF1801に対する算出した単語一致度を説明する図である。   FIG. 22 is a diagram for explaining the calculated word matching degree for the acquired word list F1801.

図22を参照して、取得単語リストF1801における単語一致度αは「0.66」として示される。   Referring to FIG. 22, word matching degree α in acquired word list F1801 is shown as “0.66”.

次に、再び、図2を参照して、単語一致度αが予め定められた所定値以上であるかどうかを判断する(ステップS507)。具体的には、文字列訂正判定部11で単語一致度αを判定し、各一定範囲内の文字列のワードコレクトを行うかどうかを判定する。   Next, referring again to FIG. 2, it is determined whether or not the word matching degree α is equal to or greater than a predetermined value (step S507). Specifically, the character string correction determination unit 11 determines the word matching degree α, and determines whether or not to perform word correction on the character string within each fixed range.

そして、所定値以上であれば再度、単語辞書と照合し、ワードコレクト処理を実行する(ステップS508)。   If it is equal to or greater than the predetermined value, it is again checked against the word dictionary and a word collect process is executed (step S508).

具体的には、文字列訂正判定部11で単語一致度αが所定値以上であると判断した場合には、文字列訂正部12において、再度、単語辞書と照合し、ワードコレクト処理を実行する。   Specifically, when the character string correction determination unit 11 determines that the word matching degree α is equal to or greater than a predetermined value, the character string correction unit 12 checks again with the word dictionary and executes word correction processing. .

一方、所定値未満であればワードコレクト処理を実行せずに第一候補文字列を正解とする(ステップS509)。   On the other hand, if it is less than the predetermined value, the first candidate character string is made correct without executing the word collect process (step S509).

具体的には、文字列訂正判定部11で単語一致度αを判定し、各一定範囲内の文字列のワードコレクトを行うかどうかを判定する。   Specifically, the character string correction determination unit 11 determines the word matching degree α, and determines whether or not to perform word correction on the character string within each fixed range.

本例においては、一例として所定値を「0.5」とする。すなわち、全単語中の半数が単語辞書13に含まれている割合とする。
すなわち、単語一致度αと文字列訂正処理の判定条件との関係は、以下のようになる。
In this example, the predetermined value is set to “0.5” as an example. That is, a ratio in which half of all words are included in the word dictionary 13 is used.
That is, the relationship between the word matching degree α and the determination condition for the character string correction process is as follows.

α≧0.5の場合には、文字列訂正(ワードコレクト)処理を実行する。
α<0.5の場合には、文字列訂正(ワードコレクト)処理を実行しない。
If α ≧ 0.5, a character string correction (word correct) process is executed.
When α <0.5, the character string correction (word correct) process is not executed.

上述したように取得単語リストF1801の単語一致度は「0.66」なので、文字列訂正判定部11はワードコレクト処理を実行すると判断し、上述したステップS508の処理に進む。   As described above, since the word matching degree of the acquired word list F1801 is “0.66”, the character string correction determination unit 11 determines to execute the word collect process, and proceeds to the process of step S508 described above.

ステップS508においては、上述したように、文字列訂正部12において、取得単語リストに含まれる単語について、再度、単語辞書と照合し、一定範囲内においてワードコレクト処理を実行する。この場合、単語辞書13と照合し、完全に一致した単語についてはワードコレクト処理は実行しない。   In step S508, as described above, in the character string correction unit 12, the words included in the acquired word list are checked again with the word dictionary, and word correction processing is executed within a certain range. In this case, the word dictionary 13 is collated, and the word correct process is not executed for the completely matched word.

図23は、取得単語リストF1801に対する文字列訂正部12におけるワードコレクト処理について説明する図である。   FIG. 23 is a diagram for describing word collect processing in the character string correction unit 12 for the acquired word list F1801.

図23(a)を参照して、本例においては、取得単語リストF1801中の単語「occurate」に対してワードコレクト処理を実行する場合について説明する。   With reference to FIG. 23A, in this example, a case will be described in which a word collect process is performed on the word “occurate” in the acquired word list F1801.

図23(b)は、単語辞書13の別の例を説明する図である。単語辞書13に含まれる単語リストが一例として示されている。なお、単語辞書は照合に必要な部分だけを示しており、実際には多数の単語が単語辞書13に登録されている。   FIG. 23B is a diagram for explaining another example of the word dictionary 13. A word list included in the word dictionary 13 is shown as an example. Note that the word dictionary shows only the part necessary for collation, and a large number of words are actually registered in the word dictionary 13.

図23(c)を参照して、ここでは、まず、入力画像データである文字列「accurate」に対してOCRを使用した場合における文字候補の一覧が示されている。   Referring to FIG. 23C, here, first, a list of character candidates in the case where OCR is used for the character string “accurate” that is input image data is shown.

文字認識部5は、文字認識として、各文字の画像データの画素分布などに基づいて、文字認識辞書4を参照して、各文字に類似の文字候補を割り当てる。   As the character recognition, the character recognition unit 5 refers to the character recognition dictionary 4 based on the pixel distribution of the image data of each character and assigns similar character candidates to each character.

本例においては、文字列「accurate」の入力画像データに基づいて、各文字について、類似の文字候補(第一候補)を割り当てた結果、「occurate」として認識されたものでる。文字候補の割り当ては、各文字の画像データの画素分布などに基づいて、文字らしい確率(類似度)の高い文字候補の中から割り当てるものとする。   In this example, as a result of assigning similar character candidates (first candidates) for each character based on the input image data of the character string “accurate”, it is recognized as “occurate”. Character candidates are assigned from among character candidates having a high probability (similarity) that are likely to be characters based on the pixel distribution of image data of each character.

例えば、「a」の文字の画像データについては、5つの文字候補がある中で「o」の文字候補の類似度が高いとして割り当てられた場合が示されている。「c」、「c」、「u」、「r」、「a」、「t」、「e」の文字の画像データについても同様に、各画像データの画素分布などに基づいて、類似度の高い文字候補が割り当てられる。   For example, for the image data of the character “a”, a case is shown in which there are five character candidates and the character candidate “o” is assigned with high similarity. Similarly for the image data of the characters “c”, “c”, “u”, “r”, “a”, “t”, “e”, the degree of similarity is based on the pixel distribution of each image data. A character candidate with a high value is assigned.

文字列訂正部12に入力された文字列は、図23(c)における各文字の第一候補の文字列である。第一候補の文字列に対して、図23(b)に示されるような単語辞書13を参照した場合、単語辞書13には、「occurate」という単語が存在しない。そこで、第一文字目の第一候補「o」を第二候補「a」に置き換える。すると、文字列は、「accurate」という単語となり、単語辞書13に存在するのでこの単語を訂正単語候補として抽出する。   The character string input to the character string correction unit 12 is the first candidate character string of each character in FIG. When the word dictionary 13 as shown in FIG. 23B is referred to for the first candidate character string, the word dictionary 13 does not include the word “occurate”. Therefore, the first candidate “o” of the first character is replaced with the second candidate “a”. Then, the character string becomes the word “accumulate” and exists in the word dictionary 13, so this word is extracted as a correction word candidate.

同様の処理を全文字候補に対して行っても、単語辞書13に登録されている単語が見つからないので、「accurate」が正しい文字列だとして確定する。   Even if the same processing is performed on all character candidates, a word registered in the word dictionary 13 is not found, so “accurate” is determined to be a correct character string.

他の「delirer」、「compe11ing」についても上記と同様の方式により、候補文字から単語を生成し、ワードコレクト処理を実行する。   For the other “delier” and “comp11ing”, a word is generated from the candidate character by the same method as described above, and the word collect process is executed.

同様の方式により、「delirer」は、「deliver」、「compe11ing」は、「compelling」が訂正単語候補として抽出される。   In the same manner, “delier” is extracted as “deliver”, and “comp11ing” is extracted as “compelling” as correction word candidates.

他の取得単語リストF1801の単語「Write」、「complete」、「and」、「language」、「documentation」、「and」については、単語辞書13に存在しているため、ワードコレクト処理は行わない。   Since the words “Write”, “complete”, “and”, “language”, “documentation”, and “and” in the other acquired word list F1801 exist in the word dictionary 13, the word collect processing is not performed. .

ここで、単語「Write」は、単語辞書13に存在している「write」と一致しているものとして説明したが、文字認識においては、同形文字の認識間違いが非常に多い。この単語「Write」は、図15の入力原稿より、文頭の単語であったため、第一文字目の「W」の大文字は正しいのでワードコレクト処理は行なわない。また、他にも会社名などで、「ABC」のように全文字大文字の場合もワードコレクト処理を行なわないこととしている。   Here, it has been described that the word “Write” matches “write” existing in the word dictionary 13, but in character recognition, recognition errors of isomorphic characters are very many. Since the word “Write” is a word at the beginning of the sentence from the input manuscript of FIG. 15, the uppercase letter “W” of the first character is correct, so the word collect processing is not performed. In addition, word correct processing is not performed even when the company name or the like is all uppercase letters such as “ABC”.

なお、ここでは、文字候補から単語を生成し、ワードコレクト処理を行っているが、他の方法として文字数が一致して類似度の合計値が一番大きい文字列を正しいとみなす方法とすることも可能である。なお、本発明においては、特にワードコレクト処理の方式を限定する必要は無く、周知の方法を採用することが可能である。   In this example, a word is generated from a character candidate and word correction processing is performed. However, as another method, a method is considered in which a character string having the same number of characters and having the largest similarity is regarded as correct. Is also possible. In the present invention, it is not necessary to limit the method of the word collect process, and a well-known method can be adopted.

そして、ステップS510において、最終的にワードコレクト処理を行った、あるいは行わなかった文字列を出力する。   In step S510, a character string that has been or has not been subjected to word correct processing is output.

入出力制御部20は、出力された文字列を出力装置15に出力し、出力装置15において表示する。   The input / output control unit 20 outputs the output character string to the output device 15 and displays it on the output device 15.

一方、従来の方式として、入力原稿中の全範囲に対する単語一致度に基づいてワードコレクト処理を実行した場合には、実施の形態1でも説明したように全範囲一律にワードコレクト処理を実行するあるいは実行しないを判定してしまうため、誤コレクトが生じる可能性が高く、認識率の向上は低くなる。   On the other hand, as a conventional method, when the word collect process is executed based on the word matching degree with respect to the entire range in the input document, the entire range is uniformly executed as described in the first embodiment. Since it is determined not to execute, there is a high possibility of erroneous correction, and the improvement of the recognition rate is low.

それゆえ、本発明の実施の形態に従う情報処理装置に従えば、適切なワードコレクト処理の判定を実行し、従来方式よりも、識率率が高いワードコレクト処理を実現することができる。   Therefore, according to the information processing apparatus according to the embodiment of the present invention, it is possible to execute appropriate word collection processing determination and realize word collection processing with a higher recognition rate than the conventional method.

また、上記においては、単語一致度について、一例として、ここでは、区切られた範囲に含まれる単語について、単語辞書13に含まれる単語数(単語一致カウント)を全単語数で割った値を単語一致度αとする場合について説明したが、特にこれに限られず、単語一致度αを単語辞書13と一致した単語数とすることも可能である。   In the above, as an example of the word matching degree, here, for words included in the delimited range, a value obtained by dividing the number of words (word matching count) included in the word dictionary 13 by the total number of words Although the case where the coincidence degree α is described has been described, the present invention is not particularly limited thereto, and the word coincidence degree α may be the number of words that matches the word dictionary 13.

例えば、再び図21を参照して、取得単語リストF1801における単語一致度αは「6」とすることが可能である。   For example, referring to FIG. 21 again, the word matching degree α in the acquired word list F1801 can be set to “6”.

そして、当該単語一致度αを単語辞書と一致した単語数とした場合は、全単語数から単語辞書と一致した単語数を引いた数を「未知語数」とする。   When the word matching degree α is the number of words that matches the word dictionary, the number obtained by subtracting the number of words that matches the word dictionary from the total number of words is defined as the “number of unknown words”.

そして、「未知語数」と「単語辞書と一致した単語数(一致単語数)」との数の大小比較に基づいてワードコレクト処理を実行するか否かを判定する。   Then, it is determined whether or not to execute the word collect process based on a comparison of the numbers of “the number of unknown words” and “the number of words matched with the word dictionary (number of matched words)”.

例えば、取得単語リストF1801については、全単語数が「9」であり、単語辞書と一致した単語数が「6」である。   For example, in the acquired word list F1801, the total number of words is “9”, and the number of words that match the word dictionary is “6”.

したがって、「未知語数」は、「3」として示される。
「未知語数」と「単語辞書と一致した単語数」とを比較した場合、「未知語数」<「一致単語数(α)」となるためワードコレクト処理を行うと判定する。
Therefore, “the number of unknown words” is indicated as “3”.
When “the number of unknown words” is compared with “the number of words matched with the word dictionary”, it is determined that the word collect process is performed because “the number of unknown words” <“the number of matched words (α)”.

当該方式により、上述したのと同様のワードコレクト処理を実行することが可能である。   By this method, it is possible to execute the same word collect processing as described above.

(実施の形態3)
上記の実施の形態1および2においては、1つの原稿に1つの言語、例えば、英語で記載された場合の例について説明した。
(Embodiment 3)
In the first and second embodiments described above, an example in which one document is described in one language, for example, English, has been described.

本発明の実施の形態3においては、図24に示されるような1つの原稿に複数の言語、例えば、英語とドイツ語とで記載された原稿に対してワードコレクト処理を実行する場合について説明する。具体的には、例えば、取り扱い説明書等では、1つの原稿に複数の言語で文章が構成される場合が挙げられる。   In the third embodiment of the present invention, a case will be described in which word collect processing is executed on a document described in a plurality of languages, for example, English and German, as shown in FIG. . Specifically, for example, in an instruction manual or the like, there is a case where sentences are configured in a plurality of languages on one manuscript.

なお、ここでは、単語辞書13は英語単語のみを保持しているものとする。
上述したように、まず、図2のステップS501において、文字認識処理を実行する。そして、、文字認識部5により得られた認識誤りを含んだ文字認識結果を一定範囲に区切る処理を実行する(ステップS502)。具体的には、範囲区切り部6により一定範囲に区切る処理を実行する。
Here, it is assumed that the word dictionary 13 holds only English words.
As described above, first, in step S501 of FIG. 2, character recognition processing is executed. And the process which divides the character recognition result containing the recognition error obtained by the character recognition part 5 into a fixed range is performed (step S502). Specifically, a process of dividing into a certain range by the range delimiter 6 is executed.

図25は、文字認識処理により認識された文字データを段落毎の範囲に区切った場合を説明する図である。   FIG. 25 is a diagram for explaining a case where character data recognized by the character recognition processing is divided into ranges for each paragraph.

図25を参照して、ここでは、2つの段落にそれぞれ対応して範囲が区切られていることが示されている。具体的には、上述したように範囲を区切る方法として、レイアウト情報を利用した場合について考える。二つの段落の間に文字がまったく書かれていない空白部分(セパレータ)が存在する。文字認識処理では、そのレイアウト情報を感知しておき、覚えておく構成とする。このような構成とすることにより、認識結果は、黒枠ごとに区切られる。   Referring to FIG. 25, here, it is shown that ranges are divided corresponding to two paragraphs. Specifically, consider the case where layout information is used as a method of dividing a range as described above. There is a blank space (separator) between the two paragraphs where no characters are written. In the character recognition process, the layout information is sensed and memorized. With such a configuration, the recognition result is divided for each black frame.

本例においては、段落ごとに区切られた範囲F2701,F2702がそれぞれ示されている。   In this example, ranges F2701 and F2702 divided for each paragraph are shown.

なお、説明を簡易にするために、文字認識結果(文字データ)の認識誤りの単語に下線「_」を示している。   In order to simplify the explanation, the underlined “_” is shown in the word of the recognition error in the character recognition result (character data).

区切られた範囲F2701は、実施の形態2で説明した段落ごとに区切られた範囲F1601と同一である。   The delimited range F2701 is the same as the range F1601 delimited for each paragraph described in the second embodiment.

そして、実施の形態2で説明したのと同様に区切られた範囲F2701において、ワードコレクト処理を実行するか否かが判定されて、実施の形態2で説明したのと同様のワードコレクト処理を実行することが可能である。   Then, it is determined whether or not to execute the word collect process in the range F2701 divided in the same manner as described in the second embodiment, and the same word collect process as described in the second embodiment is executed. Is possible.

次に、区切られた範囲F2702に着目して説明する。
再び図2を参照して、範囲区切り部6により区切られた一定範囲内の文字列を単語に区切る処理を実行する(ステップS503)。
Next, a description will be given focusing on the divided range F2702.
Referring to FIG. 2 again, a process of dividing a character string within a certain range delimited by range delimiter 6 into words is executed (step S503).

具体的には、上述したように単語取得部7において、区切られた一定範囲内の文字列から単語を取得する処理を実行する。   Specifically, as described above, the word acquisition unit 7 executes a process of acquiring a word from a character string within a delimited range.

図26は、図25で説明した区切られた範囲F2702の一定範囲において、単語を取得する処理を説明する図である。   FIG. 26 is a diagram illustrating a process of acquiring words in a certain range of the delimited range F2702 described in FIG.

図26において、「Schreiben」、「Sie」、「vervollstandigen」、「Sie」、「and」、「bgenaue」、「Sprachdokumentation」、「und」、「liefern」、「Sie」、「zwingende」、「Hohe」、「Qualitatsbeispiele」、「far」、「Mission」、「dev」、「kritisches」、「Projekt」、「das」、「direkt」、「an」、「eine」、「Softwarefreilassung」、「gebunden」、「wlrd」、「das」、「erwartet」、「wird」、「Hunderte」、「von」、「Million」、「in」、「Einnahmen」、「zu」、「liefern」で構成される取得単語リストF2601が示されている。   In FIG. 26, “Schreiben”, “Sie”, “ververstandigen”, “Sie”, “and”, “bgenaue”, “Scratch documentation”, “und”, “liefern”, “Sie”, “zwingend”, “Hohe”. ”,“ Qualitatives beispiele ”,“ far ”,“ Mission ”,“ dev ”,“ kritisches ”,“ Projekt ”,“ das ”,“ direkt ”,“ an ”,“ eine ”,“ Softwarereflungsung ”,“ gebund ” “Wlrd”, “das”, “erwartet”, “wird”, “Hunderte”, “von”, “Million”, “in”, “Einnahmen”, “z” "Get the word list F2601 consists of" liefern "are shown.

単語を取得する方法としては、英文の場合は単語ごとに空白で区切られていることから、その空白を利用して抜きだしても良いし、いわゆる形態素解析といった言語処理を用いて区切って単語を取得することも可能である。   As for the method of acquiring words, in the case of English, each word is separated by a space, so it may be extracted using the space, or the word may be separated using a language process such as so-called morphological analysis. It is also possible to obtain.

再び、図2を参照して、次に、文字列内の単語の数をカウントする(ステップS504)。   Referring to FIG. 2 again, next, the number of words in the character string is counted (step S504).

具体的には、ステップS503において、取得された単語の数を単語数カウント部8によって一定範囲ごとに計数する。   Specifically, in step S503, the number of acquired words is counted for each fixed range by the word number counting unit 8.

次に、辞書と一致する単語数をカウントする(ステップS505)。
具体的には、単語取得部8で得られた全単語について、単語照合部9において、単語辞書13を参照して、単語辞書13に含まれる単語の数をカウントする。例えば、「and」や「far」といった単語は英語にも存在する単語であるため、英語の単語辞書とは一致する。
Next, the number of words that match the dictionary is counted (step S505).
Specifically, for all words obtained by the word acquisition unit 8, the word collating unit 9 refers to the word dictionary 13 and counts the number of words included in the word dictionary 13. For example, words such as “and” and “far” are words that also exist in English, and therefore match the English word dictionary.

図27は、取得単語リストF2601に含まれる全単語数および単語辞書と一致した単語数を説明する図である。   FIG. 27 is a diagram illustrating the total number of words included in the acquired word list F2601 and the number of words that match the word dictionary.

図27を参照して、取得単語リストF2601の全単語数は「35」であり、単語辞書と一致した単語数は「6」であることが示されている。なお、単語辞書13は、英語単語のみを保持している。   Referring to FIG. 27, the total number of words in the acquired word list F2601 is “35”, and the number of words that match the word dictionary is “6”. Note that the word dictionary 13 holds only English words.

なお、上述したように全単語数は、単語数カウント部8で取得されたものであり、単語辞書と一致した単語数は、単語照合部9で取得したものである。   As described above, the total number of words is acquired by the word number counting unit 8, and the number of words that matches the word dictionary is acquired by the word matching unit 9.

再び、図2を参照して、次に、単語一致度を算出する(ステップS506)。具体的には、単語一致度算出部10において、上述した単語数カウント部8でカウントした全単語数と、単語照合部9で照合して単語辞書と一致した単語数とに基づいて、単語一致度αを算出する。   Referring to FIG. 2 again, next, the word matching degree is calculated (step S506). Specifically, in the word matching degree calculation unit 10, word matching is performed based on the total number of words counted by the word number counting unit 8 and the number of words matched by the word matching unit 9 and matched with the word dictionary. The degree α is calculated.

本例においては、一例として、ここでは、区切られた範囲に含まれる単語について、単語辞書13に含まれる単語数(単語一致カウント)を全単語数で割った値を単語一致度αとする。   In this example, as an example, here, for a word included in a delimited range, a value obtained by dividing the number of words (word match count) included in the word dictionary 13 by the total number of words is defined as the word match degree α.

取得単語リストF2601における、単語一致度αは、「6」/「35」=「0.17」となる。   The word matching degree α in the acquired word list F2601 is “6” / “35” = “0.17”.

次に、再び、図2を参照して、単語一致度αが予め定められた所定値以上であるかどうかを判断する(ステップS507)。具体的には、文字列訂正判定部11で単語一致度αを判定し、各一定範囲内の文字列のワードコレクトを行うかどうかを判定する。   Next, referring again to FIG. 2, it is determined whether or not the word matching degree α is equal to or greater than a predetermined value (step S507). Specifically, the character string correction determination unit 11 determines the word matching degree α, and determines whether or not to perform word correction on the character string within each fixed range.

そして、所定値以上であれば再度、単語辞書と照合し、ワードコレクト処理を実行する(ステップS508)。   If it is equal to or greater than the predetermined value, it is again checked against the word dictionary and a word collect process is executed (step S508).

具体的には、文字列訂正判定部11で単語一致度αが所定値以上であると判断した場合には、文字列訂正部12において、再度、単語辞書と照合し、ワードコレクト処理を実行する。   Specifically, when the character string correction determination unit 11 determines that the word matching degree α is equal to or greater than a predetermined value, the character string correction unit 12 checks again with the word dictionary and executes word correction processing. .

一方、所定値未満であればワードコレクト処理を実行せずに第一候補文字列を正解とする(ステップS509)。   On the other hand, if it is less than the predetermined value, the first candidate character string is made correct without executing the word collect process (step S509).

具体的には、文字列訂正判定部11で単語一致度αを判定し、各一定範囲内の文字列のワードコレクトを行うかどうかを判定する。   Specifically, the character string correction determination unit 11 determines the word matching degree α, and determines whether or not to perform word correction on the character string within each fixed range.

本例においては、一例として所定値を「0.5」とする。すなわち、全単語中の半数が単語辞書13に含まれている割合とする。   In this example, the predetermined value is set to “0.5” as an example. That is, a ratio in which half of all words are included in the word dictionary 13 is used.

上述したように取得単語リストF2601の単語一致度は「0.17」なので、文字列訂正判定部11はワードコレクト処理を実行しないと判断し、上述したステップS509の処理に進む。   As described above, since the word matching degree of the acquired word list F2601 is “0.17”, the character string correction determination unit 11 determines not to execute the word collect process, and proceeds to the process of step S509 described above.

すなわち、取得単語リストF2601の単語は、文字列訂正部12においてワードコレクト処理は実行されずにそのまま文字列として出力される(ステップS510)。   That is, the words in the acquired word list F2601 are output as they are as character strings without being subjected to word correction processing in the character string correction unit 12 (step S510).

従来の方法では、英単語辞書のみを保持した場合に、単語ごとにワードコレクト処理を行うため、例えば、取得単語リストF2601に含まれる「und」は、「and」に、「Projekt」は「project」という英単語に誤コレクトしてしまう。   In the conventional method, when only the English word dictionary is stored, word collection processing is performed for each word. For example, “und” included in the acquired word list F2601 is “and”, and “Project” is “project”. "Is mistakenly collected to the English word.

また、他にも、候補文字に英単語を構成する文字があった場合には、それぞれの単語を誤コレクトしてしまう。   In addition, if there are other characters constituting an English word among the candidate characters, each word is erroneously collected.

仮に1枚の原稿の全単語数と単語辞書に一致する単語数を用いてワードコレクトを行うかどうかを判定する場合には、英語の単語辞書のみを保持している場合、図25で示した区切られた範囲F2701の範囲は単語辞書13と一致する単語が多いが、区切られた範囲F2702の範囲は単語辞書13と一致する単語が少ないため、全体としてワードコレクト処理を行わないと判定されてしまうため、誤りが訂正できない。   If it is determined whether or not to perform word correction using the total number of words in one document and the number of words that matches the word dictionary, the case where only the English word dictionary is held is shown in FIG. The delimited range F2701 has many words that match the word dictionary 13, but the delimited range F2702 has few words that match the word dictionary 13, so it is determined that the word collect process is not performed as a whole. Therefore, the error cannot be corrected.

これは、ドイツ語の単語辞書のみを保持している場合も同じであり、図25に示した全範囲では、ドイツ語の単語辞書に一致する単語が少なくなってしまい、誤りが訂正できない。   This is the same when only the German word dictionary is held, and in the entire range shown in FIG. 25, the number of words matching the German word dictionary decreases, and the error cannot be corrected.

逆に、原稿全体としてワードコレクトを行うと判定された場合には、図25に示されるような場合には、区切られた範囲F2701ではワードコレクト処理を正しく行うことができるが、区切られた範囲F2702ではドイツ語の単語を英単語と置き換えてしまうため誤コレクトが増え、最終的に認識率が向上しない。   On the other hand, if it is determined that word correction is to be performed for the entire document, in the case shown in FIG. 25, the word collection processing can be performed correctly in the delimited range F2701, but the delimited range is as follows. In F2702, a German word is replaced with an English word, so the number of miscorrections increases, and the recognition rate does not eventually improve.

本実施の形態に従う発明では、区切られた範囲ごとにワードコレクト処理を行うため、英語の単語辞書を保持している場合は、区切られた範囲F2701については、ワードコレクト処理を行い、区切られた範囲F2702については、ワードコレクト処理を行わない構成とすることが可能であり、区切られた範囲F2702の文字列の誤コレクトを防ぐことができる。   In the invention according to the present embodiment, since word collection processing is performed for each divided range, when an English word dictionary is held, word collection processing is performed for the divided range F2701, and The range F2702 can be configured not to perform word collection processing, and erroneous collection of character strings in the divided range F2702 can be prevented.

また、ドイツ語の単語辞書を保持していた場合でも同様であり、図25の区切られた範囲F2701に対しては、ワードコレクト処理を行わず、区切られた範囲F2702の範囲のみワードコレクト処理を行う構成となり、誤コレクトによる認識率の低下を防ぐことができる。   The same applies to the case where a German word dictionary is held, and word collection processing is not performed on the delimited range F2701 in FIG. 25, and only word collection processing of the delimited range F2702 is performed. Therefore, it is possible to prevent the recognition rate from being lowered due to erroneous collection.

なお、本例においては、単語辞書として、英単語のみを保持する構成について説明したが、英語およびドイツ語をともに保持する構成として、区切られた範囲F2701については、英語の単語辞書を用いてワードコレクト処理を実行し、区切られた範囲F2702については、ドイツ語の単語辞書を用いてワードコレクト処理を実行することも可能である。   In addition, in this example, although the structure which hold | maintains only an English word was demonstrated as a word dictionary, as a structure which hold | maintains both English and German, about the division | segmentation range F2701, it uses an English word dictionary. It is also possible to execute the collect process and execute the word collect process for the delimited range F2702 using a German word dictionary.

なお、本発明にかかる情報処理装置を制御するコントローラについて、コンピュータを機能させて、上述のフローで説明したような制御を実行させるプログラムを提供することもできる。このようなプログラムは、コンピュータに付属するフレキシブルディスク、CD−ROM(Compact Disk-Read Only Memory)、ROM(Read Only Memory)、RAM(Random Access Memory)およびメモリカードなどのコンピュータ読取り可能な記録媒体にて記録させて、プログラム製品として提供することもできる。あるいは、コンピュータに内蔵するハードディスクなどの記録媒体にて記録させて、プログラムを提供することもできる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。   In addition, about the controller which controls the information processing apparatus concerning this invention, a computer can be functioned and the program which performs control as demonstrated in the above-mentioned flow can also be provided. Such a program is stored in a computer-readable recording medium such as a flexible disk attached to the computer, a CD-ROM (Compact Disk-Read Only Memory), a ROM (Read Only Memory), a RAM (Random Access Memory), and a memory card. And can be provided as a program product. Alternatively, the program can be provided by being recorded on a recording medium such as a hard disk built in the computer. A program can also be provided by downloading via a network.

なお、本発明にかかるプログラムは、コンピュータのオペレーションシステム(OS)の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずOSと協働して処理が実行される。このようなモジュールを含まないプログラムも、本発明にかかるプログラムに含まれ得る。   The program according to the present invention is a program module that is provided as a part of a computer operating system (OS) and calls necessary modules in a predetermined arrangement at a predetermined timing to execute processing. Also good. In that case, the program itself does not include the module, and the process is executed in cooperation with the OS. A program that does not include such a module can also be included in the program according to the present invention.

また、本発明にかかるプログラムは他のプログラムの一部に組込まれて提供されるものであってもよい。その場合にも、プログラム自体には上記他のプログラムに含まれるモジュールが含まれず、他のプログラムと協働して処理が実行される。このような他のプログラムに組込まれたプログラムも、本発明にかかるプログラムに含まれ得る。   The program according to the present invention may be provided by being incorporated in a part of another program. Even in this case, the program itself does not include the module included in the other program, and the process is executed in cooperation with the other program. Such a program incorporated in another program can also be included in the program according to the present invention.

提供されるプログラム製品は、ハードディスクなどのプログラム格納部にインストールされて実行される。なお、プログラム製品は、プログラム自体と、プログラムが記録された記録媒体とを含む。   The provided program product is installed in a program storage unit such as a hard disk and executed. The program product includes the program itself and a recording medium on which the program is recorded.

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。   The embodiment disclosed this time should be considered as illustrative in all points and not restrictive. The scope of the present invention is defined by the terms of the claims, rather than the description above, and is intended to include any modifications within the scope and meaning equivalent to the terms of the claims.

本発明の実施の形態1に従う情報処理システムの概略構成図である。It is a schematic block diagram of the information processing system according to Embodiment 1 of the present invention. 本発明の実施の形態1に従う情報処理装置1におけるワードコレクト処理を説明するフロー図である。It is a flowchart explaining the word correct process in the information processing apparatus 1 according to Embodiment 1 of this invention. 図28で示された表を入力装置2で読み取った画像データに対して文字認識部5により文字データとして認識された状態を説明する図である。It is a figure explaining the state by which the character recognition part 5 was recognized as character data with respect to the image data which read the table | surface shown in FIG. 図3の文字認識結果に対して表の1セルを1つのレイアウトとして範囲を区切った場合を説明する図である。It is a figure explaining the case where the range is divided | segmented into 1 layout of 1 cell of the table | surface with respect to the character recognition result of FIG. 表の一列は同じ要素が記載されていることを利用して、表の一列を一つのレイアウトとして一定範囲に区切る場合の方式を説明する図である。It is a figure explaining the system in the case of dividing | segmenting the table | surface row | line into a fixed range as one layout using the fact that the same row | line | column describes the same element. 図4で説明した区切られた範囲F701〜F708のそれぞれの一定範囲において、単語を取得する処理を説明する図である。It is a figure explaining the process which acquires a word in each fixed range of the range F701-F708 divided in FIG. 図6で説明した取得した単語リストに従って、単語数カウント部8によってカウントした場合を説明する図である。It is a figure explaining the case where it counts by the word number counting part 8 according to the acquired word list demonstrated in FIG. 図6で説明した取得した単語リストに従って、単語辞書13と照合する場合を説明する図である。It is a figure explaining the case where it collates with the word dictionary 13 according to the acquired word list demonstrated in FIG. 取得単語リストF1204,F1208に含まれる全単語数および単語辞書と一致した単語数を説明する図である。It is a figure explaining the total number of words contained in acquisition word list F1204, F1208, and the number of words matched with the word dictionary. 取得単語リストF1204,F1208における算出した単語一致度を説明する図である。It is a figure explaining the word matching degree computed in acquisition word list F1204 and F1208. 取得単語リストF1208に対する文字列訂正部12におけるワードコレクト処理について説明する図である。It is a figure explaining the word correct process in the character string correction part 12 with respect to the acquisition word list F1208. 本発明の実施の形態に従う方式および従来の方式を使用した場合のワードコレクト処理結果を説明する図である。It is a figure explaining the word correct process result at the time of using the system according to embodiment of this invention, and the conventional system. 誤コレクトの確率と所定値との関係を説明する図である。It is a figure explaining the relationship between the probability of an incorrect correction, and a predetermined value. 複数の段落に分けられた入力原稿P2を説明する図である。It is a figure explaining the input original P2 divided into several paragraphs. 図14で示された表を入力装置2で読み取った画像データに対して文字認識部5により文字データとして認識された状態を説明する図である。FIG. 15 is a diagram for explaining a state where image data obtained by reading the table shown in FIG. 14 with the input device 2 is recognized as character data by the character recognition unit 5. 入力原稿画像の段落毎に範囲を区切った場合を説明する図である。It is a figure explaining the case where the range is divided | segmented for every paragraph of the input original image. 特定の記号に基づいて範囲を区切った場合を説明する図である。It is a figure explaining the case where the range is divided | segmented based on the specific symbol. 図17で説明した区切られた範囲F1701,F1702のそれぞれの一定範囲において、単語を取得する処理を説明する図である。It is a figure explaining the process which acquires a word in each fixed range of each of the range F1701 and F1702 which were demonstrated in FIG. 図18で説明した取得した単語リストに従って、単語数カウント部8によってカウントした場合を説明する図である。It is a figure explaining the case where it counts by the word number counting part 8 according to the acquired word list demonstrated in FIG. 図18で説明した取得した単語リストに従って、単語辞書13と照合する場合を説明する図である。It is a figure explaining the case where it collates with the word dictionary 13 according to the acquired word list demonstrated in FIG. 取得単語リストF1801に含まれる全単語数および単語辞書と一致した単語数を説明する図である。It is a figure explaining the number of words which matched the number of all the words contained in the acquisition word list F1801, and a word dictionary. 取得単語リストF1801に対する算出した単語一致度を説明する図である。It is a figure explaining the calculated word matching degree with respect to the acquisition word list F1801. 取得単語リストF1801に対する文字列訂正部12におけるワードコレクト処理について説明する図である。It is a figure explaining the word correct process in the character string correction part 12 with respect to the acquisition word list F1801. 1つの原稿に複数の言語で記載された入力原稿P3を説明する図である。It is a figure explaining the input original P3 described in several languages on one original. 文字認識処理により認識された文字データを段落毎の範囲に区切った場合を説明する図である。It is a figure explaining the case where the character data recognized by the character recognition process are divided | segmented into the range for every paragraph. 図25で説明した区切られた範囲F2702の一定範囲において、単語を取得する処理を説明する図である。It is a figure explaining the process which acquires a word in the fixed range of the demarcated range F2702 demonstrated in FIG. 取得単語リストF2601に含まれる全単語数および単語辞書と一致した単語数を説明する図である。It is a figure explaining the number of words which matched the number of all the words contained in the acquisition word list F2601, and a word dictionary. 入力原稿P1の表を説明する図である。It is a figure explaining the table | surface of the input original P1.

符号の説明Explanation of symbols

1 情報処理装置、2 入力装置、3 制御部、4 文字認識辞書、5 文字認識部、6 範囲区切り部、7 単語取得部、8 単語カウント数、9 単語照合部、10 単語一致度算出度、11 文字列訂正判定部、12 文字列訂正部、13 単語辞書、14 ワードコレクト処理部、15 出力装置、20 入出力制御部。   DESCRIPTION OF SYMBOLS 1 Information processing apparatus, 2 input devices, 3 control part, 4 character recognition dictionary, 5 character recognition part, 6 range delimiter part, 7 word acquisition part, 8 word count number, 9 word collation part, 10 word matching degree calculation degree, 11 character string correction determination unit, 12 character string correction unit, 13 word dictionary, 14 word collect processing unit, 15 output device, 20 input / output control unit.

Claims (11)

文字列が記載された媒体の画像情報をもとに文字認識辞書を利用して認識した文字列中の誤りを、単語辞書を照合して訂正する情報処理装置であって、
画像内の文字列の中から認識対象とする文字列を文字列に含まれる文字の特徴あるいは、画像内の文字列のレイアウトの特徴から一定範囲に切り出す範囲区切り手段と、
前記範囲区切り手段で切り出された認識対象範囲の認識された文字列中の全単語数と単語辞書との照合に成功した単語の数の比から単語一致度を算出する単語一致度算出手段と、
前記単語一致度算出手段により算出された一定範囲の文字列の単語一致度に基づいて誤った認識文字を訂正するかどうかを判定する誤認識訂正判定手段とを備える、情報処理装置。
An information processing apparatus that corrects an error in a character string recognized by using a character recognition dictionary based on image information of a medium in which the character string is described, by comparing a word dictionary,
A range delimiter that cuts out a character string to be recognized from a character string in the image from a character feature included in the character string or a layout feature of the character string in the image into a certain range;
A word matching degree calculating means for calculating a word matching degree from a ratio of the total number of words in the recognized character string of the recognition target range cut out by the range dividing means and the number of words successfully matched with the word dictionary;
An information processing apparatus comprising: a misrecognition correction determination unit that determines whether to correct an erroneously recognized character based on a word matching degree of a character string within a certain range calculated by the word matching degree calculation unit.
前記誤認識訂正判定手段は、
前記一定範囲の文字列の単語一致度αが、
α≧0.5
の場合は誤った認識文字の訂正を行う、請求項1に記載の情報処理装置。
The erroneous recognition correction determination means is
The word matching degree α of the certain range of character strings is
α ≧ 0.5
The information processing apparatus according to claim 1, wherein an erroneous recognition character is corrected.
前記誤認識訂正判定手段は、
前記一定範囲の文字列の単語一致度αが、
α<0.5
の場合は誤った認識文字の訂正を行わず、誤認識の標識をつけて結果を返す、請求項1に記載の情報処理装置。
The erroneous recognition correction determination means is
The word matching degree α of the certain range of character strings is
α <0.5
The information processing apparatus according to claim 1, wherein in the case of (2), an erroneous recognition character is not corrected, and a result is returned with a recognition error mark.
前記画像情報に含まれる文字列には、少なくとも1つの言語が含まれる、請求項1または2に記載の情報処理装置。   The information processing apparatus according to claim 1, wherein the character string included in the image information includes at least one language. 前記認識した文字列中に複数の言語が含まれている場合、複数の言語の単語辞書を利用して認識した文字列中の誤りの訂正を行う、請求項4に記載の情報処理装置。   The information processing apparatus according to claim 4, wherein when a plurality of languages are included in the recognized character string, an error in the recognized character string is corrected using a word dictionary of a plurality of languages. 前記範囲区切り手段は、画像内の文字列の中から認識対象とする文字列を前記画像情報に含まれるレイアウト情報に基づいて一定範囲に切り出す、請求項1〜5のいずれかに記載の情報処理装置。   The information processing according to any one of claims 1 to 5, wherein the range delimiter cuts out a character string to be recognized from character strings in an image into a certain range based on layout information included in the image information. apparatus. 前記範囲区切り手段は、画像内の文字列の中から認識対象とする文字列を前記文字列の中の特定の文字を利用して一定範囲に切り出す、請求項1〜5のいずれかに記載の情報処理装置。   The range delimiter means cuts out a character string to be recognized from a character string in an image into a certain range using a specific character in the character string. Information processing device. 前記誤認識訂正判定手段は、前記一定範囲の文字列の単語一致度が所定値以上の場合には、誤った認識文字に対し、一致の取れない部分を候補文字列に置き換え、置き換えた文字列が単語辞書と一致する場合に、当該文字列の訂正を行う、請求項1に記載の情報処理装置。   When the word matching degree of the character string in the certain range is equal to or greater than a predetermined value, the erroneous recognition correction determination means replaces a portion that cannot be matched with a candidate character string with respect to an erroneously recognized character, The information processing apparatus according to claim 1, wherein when the character string matches the word dictionary, the character string is corrected. 文字列が記載された媒体の画像情報をもとに文字認識辞書を利用して認識した文字列中の誤りを、単語辞書を照合して訂正する情報処理装置の制御方法であって、
画像内の文字列の中から認識対象とする文字列を文字列に含まれる文字の特徴あるいは、画像内の文字列のレイアウトの特徴から一定範囲に切り出すステップと、
一定範囲に切り出された認識対象範囲の認識された文字列中の全単語と単語辞書との照合に成功した単語の数の比から単語一致度を算出するステップと、
算出された一定範囲の文字列の単語一致度に基づいて誤った認識文字を訂正するかどうかを判定するステップとを備える、情報処理装置の制御方法。
A control method for an information processing apparatus for correcting an error in a character string recognized by using a character recognition dictionary based on image information of a medium in which the character string is described, by comparing a word dictionary,
Cutting out a character string to be recognized from a character string in the image from a character feature included in the character string or a layout feature of the character string in the image to a certain range;
Calculating a word matching degree from the ratio of the number of words successfully matched with all words in the recognized character string in the recognition target range cut into a certain range;
And a step of determining whether or not to correct an erroneously recognized character based on the calculated word matching degree of a certain range of character string.
文字列が記載された媒体の画像情報をもとに文字認識辞書を利用して認識した文字列中の誤りを、単語辞書を照合して訂正する情報処理装置を備えるコンピュータに実行させるための制御プログラムであって、
画像内の文字列の中から認識対象とする文字列を文字列に含まれる文字の特徴あるいは、画像内の文字列のレイアウトの特徴から一定範囲に切り出すステップと、
一定範囲に切り出された認識対象範囲の認識された文字列中の全単語と単語辞書との照合に成功した単語の数の比から単語一致度を算出するステップと、
算出された一定範囲の文字列の単語一致度に基づいて誤った認識文字を訂正するかどうかを判定するステップとを備える、情報処理装置の制御プログラム。
Control for causing a computer equipped with an information processing apparatus to check and correct an error in a character string recognized by using a character recognition dictionary based on image information of a medium in which the character string is described, by checking the word dictionary A program,
Cutting out a character string to be recognized from a character string in the image from a character feature included in the character string or a layout feature of the character string in the image to a certain range;
Calculating a word matching degree from the ratio of the number of words successfully matched with all words in the recognized character string in the recognition target range cut into a certain range;
And a step of determining whether or not to correct an erroneously recognized character based on the calculated word matching degree of a certain range of character string.
請求項10に記載の制御プログラムを記録したコンピュータ読取り可能な記録媒体。   The computer-readable recording medium which recorded the control program of Claim 10.
JP2008177060A 2008-07-07 2008-07-07 Information processing apparatus, control method thereof, control program, and recording medium Expired - Fee Related JP5252487B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008177060A JP5252487B2 (en) 2008-07-07 2008-07-07 Information processing apparatus, control method thereof, control program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008177060A JP5252487B2 (en) 2008-07-07 2008-07-07 Information processing apparatus, control method thereof, control program, and recording medium

Publications (2)

Publication Number Publication Date
JP2010015502A true JP2010015502A (en) 2010-01-21
JP5252487B2 JP5252487B2 (en) 2013-07-31

Family

ID=41701550

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008177060A Expired - Fee Related JP5252487B2 (en) 2008-07-07 2008-07-07 Information processing apparatus, control method thereof, control program, and recording medium

Country Status (1)

Country Link
JP (1) JP5252487B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014067303A (en) * 2012-09-26 2014-04-17 Toshiba Corp Character recognition device and method and program

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01311390A (en) * 1988-06-10 1989-12-15 Toshiba Corp Character substitution control system
JPH06150061A (en) * 1992-11-04 1994-05-31 Sharp Corp Document recognizing device
JPH06195521A (en) * 1992-12-25 1994-07-15 Matsushita Electric Ind Co Ltd Character recognizing method
JPH0728944A (en) * 1993-02-19 1995-01-31 Matsushita Electric Ind Co Ltd English character recognition device
JPH07175813A (en) * 1993-10-27 1995-07-14 Ricoh Co Ltd Composite communication processor

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01311390A (en) * 1988-06-10 1989-12-15 Toshiba Corp Character substitution control system
JPH06150061A (en) * 1992-11-04 1994-05-31 Sharp Corp Document recognizing device
JPH06195521A (en) * 1992-12-25 1994-07-15 Matsushita Electric Ind Co Ltd Character recognizing method
JPH0728944A (en) * 1993-02-19 1995-01-31 Matsushita Electric Ind Co Ltd English character recognition device
JPH07175813A (en) * 1993-10-27 1995-07-14 Ricoh Co Ltd Composite communication processor

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014067303A (en) * 2012-09-26 2014-04-17 Toshiba Corp Character recognition device and method and program
CN104685514A (en) * 2012-09-26 2015-06-03 株式会社东芝 Character recognition apparatus, method and program

Also Published As

Publication number Publication date
JP5252487B2 (en) 2013-07-31

Similar Documents

Publication Publication Date Title
EP1016033B1 (en) Automatic language identification system for multilingual optical character recognition
JP3664550B2 (en) Document retrieval method and apparatus
US5161245A (en) Pattern recognition system having inter-pattern spacing correction
US6154579A (en) Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
KR100578188B1 (en) Character recognition apparatus and method
KR100412317B1 (en) Character recognizing/correcting system
JPH07200744A (en) Method and apparatus for discrimination of hard-to-decipher character
US10963717B1 (en) Auto-correction of pattern defined strings
JPH0634256B2 (en) Contact character cutting method
KR101016544B1 (en) Word recognition method and recording medium
JP5252487B2 (en) Information processing apparatus, control method thereof, control program, and recording medium
US7130487B1 (en) Searching method, searching device, and recorded medium
CN106250354B (en) Information processing apparatus, information processing method, and program for processing document
US20210019554A1 (en) Information processing device and information processing method
Mohapatra et al. Spell checker for OCR
JP6007720B2 (en) Information processing apparatus and information processing program
JP4263928B2 (en) Character recognition device, character recognition method, character recognition program, and recording medium
US20140169676A1 (en) Information processing apparatus, information processing method, and computer-readable medium
JP3157557B2 (en) Character recognition device
KR101663521B1 (en) Method and program for proofreading word spacing
JP2939945B2 (en) Roman character address recognition device
KR101629726B1 (en) Method and program for proofreading word spacing
JPH03156589A (en) Method for detecting and correcting erroneously read character
JP4141217B2 (en) Character recognition method, program used for executing the method, and character recognition apparatus
JPH02103690A (en) Character reading device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100826

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121009

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130410

R150 Certificate of patent or registration of utility model

Ref document number: 5252487

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160426

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees