JP2011018108A - Device and program for correction of recognized character string - Google Patents
Device and program for correction of recognized character string Download PDFInfo
- Publication number
- JP2011018108A JP2011018108A JP2009160631A JP2009160631A JP2011018108A JP 2011018108 A JP2011018108 A JP 2011018108A JP 2009160631 A JP2009160631 A JP 2009160631A JP 2009160631 A JP2009160631 A JP 2009160631A JP 2011018108 A JP2011018108 A JP 2011018108A
- Authority
- JP
- Japan
- Prior art keywords
- information
- character string
- character
- recognized
- correction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
Description
本発明は、イメージ化された書類から文字認識される際に誤認識された文字列を、正確な文字列に補正する認識文字列補正装置および認識文字列補正用プログラムに関する。 The present invention relates to a recognized character string correcting apparatus and a recognized character string correcting program for correcting a character string that is erroneously recognized when characters are recognized from an imaged document into an accurate character string.
従来、イメージ化された書類からコンピュータで文字を認識する技術として、OCRやテキストリーダーなどの装置を利用したものが知られている。これらの装置の機能はソフトウェアに搭載されて市販されているものもあり、新聞記事、各種明細書、著書等のテキスト化に広く活用されている。 2. Description of the Related Art Conventionally, as a technique for recognizing characters from an imaged document by a computer, a technique using an apparatus such as an OCR or a text reader is known. Some of the functions of these devices are commercially available in software, and are widely used to convert newspaper articles, various specifications, books, etc. into text.
ところで、これらの技術を利用した文字認識処理では文字が誤認識される場合もあり、これを正しく補正する処理が必要になる。 By the way, in the character recognition process using these techniques, a character may be erroneously recognized, and it is necessary to correct it.
認識された文字を補正する技術として、特許文献1および特許文献2に記載の技術がある。
As a technique for correcting a recognized character, there are techniques described in
特許文献1には、誤認識の可能性が高い類似文字の部分集合をより少ない文字で代表させる縮約によって作成された文字コード体系に対応する辞書を用いて、対象となる用語を照合して単文字レベルでの誤りを補正する技術が記載されている。
また、特許文献2には、用語単位で文字を認識して用語辞書との照合によって用語候補の確からしさを示す得点とともに用語候補を出力し、用語辞書中に含まれる各用語についてその他の用語との類似度から各用語の識別度を求めこれらを集約した用語識別度テーブルを用い、各用語候補に対する用語識別度の大小に応じた用語得点の補正を行うことにより正解率の高い用語候補から順に示すことができる技術が記載されている。
In
上記の特許文献1または特許文献2に記載の技術を利用することにより、誤認識された文字列を正確な文字列に補正できる可能性は高まるが、限定された分野の書類において利用する場合、例えば使用される文字列が限定的な帳票や請求書などの文字認識に利用する場合には、より精度の高い補正を行うことが望まれていた。特に、コンピュータでの識別が困難とされる「ソ」と「ン」、「ツ」と「シ」などを正確に区別して補正を行うことが望まれていた。
By using the technique described in
従って本発明の目的は、イメージ化された書類から認識された文字列を、高い精度で補正することが可能な認識文字列補正装置および認識文字列補正用プログラムを提供することである。 Accordingly, an object of the present invention is to provide a recognized character string correction device and a recognized character string correction program capable of correcting a character string recognized from an imaged document with high accuracy.
上記課題を解決するための本発明の認識文字列補正装置は、イメージ画像情報による文書を解析することにより認識された認識文字列情報の、誤認識された文字を補正する認識文字列補正装置において、予め設定された、前記文書に使用する正規の文字列情報と、文字の類似パターンごとの、該当する文字情報群およびこの文字情報群の中から選択された一の代表文字情報で構成された類似パターン情報とを記憶する補正情報記憶部と、前記認識文字列情報を取得する認識文字列情報取得部と、前記認識文字列情報取得部で取得された認識文字列情報を構成する文字情報のうち、前記補正情報記憶部に記憶されたいずれかの類似パターンの文字情報群内にある文字情報を、当該類似パターンの代表文字情報に変換する認識文字列変換部と、前記補正情報記憶部に記憶された正規の文字列情報を構成する文字情報のうち、いずれかの前記類似パターンの文字情報群内にある文字情報を、当該類似パターンの代表文字情報に変換した文字列情報と、前記認識文字列変換部で前記認識文字列情報が変換された文字列情報とを比較する文字列比較部と、前記文字列比較部で比較された結果、前記正規の文字列情報が変換された文字列情報と前記認識文字列情報が変換された文字列情報とが同一であったときには、前記認識文字列情報取得部で取得された認識文字列情報を、前記補正情報記憶部に記憶された前記正規の文字列情報に置き換えることで補正する文字列補正部とを備えることを特徴とする。 A recognition character string correction apparatus according to the present invention for solving the above problems is a recognition character string correction apparatus that corrects misrecognized characters in recognition character string information recognized by analyzing a document based on image image information. , Which is composed of preset character string information used for the document, corresponding character information group for each character similar pattern, and one representative character information selected from the character information group Correction information storage unit for storing similar pattern information, recognized character string information acquisition unit for acquiring the recognized character string information, and character information constituting the recognized character string information acquired by the recognized character string information acquisition unit Among them, a character string conversion unit that converts character information in a character information group of any similar pattern stored in the correction information storage unit into representative character information of the similar pattern; A character string obtained by converting character information in the character information group of any one of the similar patterns from character information constituting regular character string information stored in the correction information storage unit into representative character information of the similar pattern The character string comparison unit that compares the information with the character string information obtained by converting the recognized character string information by the recognized character string conversion unit, and as a result of comparison by the character string comparison unit, the regular character string information is When the converted character string information and the character string information obtained by converting the recognized character string information are the same, the recognized character string information acquired by the recognized character string information acquisition unit is stored in the correction information storage unit. And a character string correction unit that corrects the data by replacing with the stored regular character string information.
この認識文字列補正装置の前記認識文字列変換部ではさらに、前記認識文字列情報を構成する文字情報に小文字が含まれるときには、当該小文字を大文字に変換し、前記文字列比較部では前記補正情報記憶部に記憶された正規の文字列情報を構成する文字情報のうち、いずれかの前記類似パターンの文字情報群内にある文字情報を、当該類似パターンの代表文字情報に変換するとともに当該文字情報に小文字が含まれるときには当該小文字を大文字に変換した文字列情報と、前記認識文字列変換部で前記認識文字列情報が変換された文字列情報とを比較するようにしてもよい。 In the recognized character string converting unit of the recognized character string correcting device, when the character information constituting the recognized character string information includes lowercase characters, the lowercase characters are converted into uppercase characters, and the character string comparing unit converts the correction information. Among the character information constituting the regular character string information stored in the storage unit, the character information in the character information group of any one of the similar patterns is converted into the representative character information of the similar pattern and the character information When the character string includes lowercase letters, the character string information obtained by converting the lowercase letters into uppercase letters may be compared with the character string information obtained by converting the recognized character string information by the recognized character string conversion unit.
また、この認識文字列補正装置の前記補正情報記憶部は、前記正規の文字列情報を構成する文字情報のうち、いずれかの前記類似パターンの文字情報群内にある文字情報を、当該類似パターンの代表文字情報に変換した正規変換文字列情報をさらに記憶し、前記文字列比較部は、前記補正情報記憶部に記憶された正規変換文字列情報と、前記認識文字列変換部で前記認識文字列情報が変換された文字列情報とを比較するようにしてもよい。 Further, the correction information storage unit of the recognized character string correction device converts character information included in the character information group of any one of the similar patterns from the character information constituting the regular character string information. The character string comparison unit further stores the normal conversion character string information converted into the representative character information, and the character string comparison unit stores the normal conversion character string information stored in the correction information storage unit and the recognized character string conversion unit. You may make it compare with the character string information into which column information was converted.
また、本発明の認識文字列補正用プログラムは、イメージ画像情報による文書を解析することにより認識された認識文字列情報の、誤認識された文字を補正する認識文字列補正装置に、予め設定された、前記文書に使用する正規の文字列情報と、文字の類似パターンごとの、該当する文字情報群およびこの文字情報群の中から選択された一の代表文字情報で構成された類似パターン情報とを記憶する機能と、前記認識文字列情報を取得する機能と、取得された認識文字列情報を構成する文字情報のうち、記憶されたいずれかの類似パターンの文字情報群内にある文字情報を、当該類似パターンの代表文字情報に変換する機能と、記憶された正規の文字列情報を構成する文字情報のうち、いずれかの前記類似パターンの文字情報群内にある文字情報を、当該類似パターンの代表文字情報に変換した文字列情報と、前記認識文字列情報が変換された文字列情報とを比較する機能と、比較された結果、前記正規の文字列情報が変換された文字列情報と前記認識文字列情報が変換された文字列情報とが同一であったときには、前記取得された認識文字列情報を、前記正規の文字列情報に置き換えることで補正する機能とを実行させることを特徴とする。 The recognition character string correction program of the present invention is set in advance in a recognized character string correction device that corrects misrecognized characters in recognized character string information recognized by analyzing a document based on image image information. In addition, regular character string information used for the document, corresponding character information group for each character similar pattern, and similar pattern information composed of one representative character information selected from the character information group, The character information in the character information group of any one of the stored similar patterns among the character information constituting the acquired recognized character string information. Characters in the character information group of any one of the similar patterns among the function of converting to the representative character information of the similar pattern and the character information constituting the stored regular character string information A function for comparing the character string information obtained by converting the information into the representative character information of the similar pattern and the character string information obtained by converting the recognized character string information, and as a result of the comparison, the regular character string information is converted. When the obtained character string information is the same as the character string information obtained by converting the recognized character string information, a function of correcting the acquired recognized character string information by replacing it with the regular character string information; Is executed.
本発明の認識文字列補正装置および認識文字列補正用プログラムによれば、イメージ化された書類から認識された文字列を、高い精度で補正することができる。 According to the recognized character string correcting apparatus and the recognized character string correcting program of the present invention, the character string recognized from the imaged document can be corrected with high accuracy.
本発明の認識文字列補正装置を利用した文字認識システムの一実施形態について、図面を参照して説明する。 An embodiment of a character recognition system using a recognized character string correction apparatus of the present invention will be described with reference to the drawings.
〈一実施形態による文字認識システムの構成〉
本実施形態の文字認識システム1は、印刷された書類から文字を認識してテキストファイルを生成するものであり、図1に示すように、画像読取装置10と、文字認識装置20と、認識文字列補正装置30とを有する。
<Configuration of Character Recognition System According to One Embodiment>
A
画像読取装置10はスキャナ等であり、テキストファイル生成対象の書類をイメージ画像データとして読み取る読取制御部11と、読み取ったイメージ画像データを記憶するイメージ画像データ記憶部12とを有する。
The
文字認識装置20はOCR等であり、画像読取装置10のイメージ画像データ記憶部12に記憶されたイメージ画像データを解析して文字情報を認識する文字認識制御部21と、認識された文字情報で構成された文字列情報である認識文字列情報を記憶する認識文字列情報記憶部22とを有する。
The
認識文字列補正装置30は、補正情報記憶部31と、認識文字列情報取得部32と、認識文字列変換部33と、正規文字列変換部34と、文字列比較部35と、文字列補正部36と、テキストファイル生成部37と、テキストファイル記憶部38とを有する。
The recognized character
補正情報記憶部31は、予め設定された当該文書に使用する正規の文字列情報と、文字の類似パターンごとの、該当する文字情報群およびこの文字情報群の中から選択された一の代表文字情報で構成された類似パターン情報とを記憶する。
The correction
認識文字列情報取得部32は、文字認識装置20の認識文字列情報記憶部22に記憶された認識文字列情報を取得する。
The recognized character string
認識文字列変換部33は、認識文字列情報取得部32で取得された認識文字列情報を構成する各文字情報が、補正情報記憶部31に記憶されたいずれかの類似パターンの文字情報群内にあるか否かをそれぞれ判断し、いずれかの類似パターンの文字情報群内にあった文字情報を、当該類似パターンの代表文字情報に変換する。
In the character information group of any similar pattern in which each character information constituting the recognized character string information acquired by the recognized character string
正規文字列変換部34は、補正情報記憶部31に記憶された正規の文字列情報を構成する各文字情報が、いずれかの類似パターンの文字情報群内にあるか否かをそれぞれ判断し、いずれかの類似パターンの文字情報群内にあった文字情報を、当該類似パターンの代表文字情報に変換する。
The regular character
文字列比較部35は、認識文字列変換部33で認識文字列情報が変換された文字列情報と、正規文字列変換部34で正規文字列情報が変換された文字列情報とが同一であるか否かを比較する。
In the character
文字列補正部36は、文字列比較部35で比較された結果、認識文字列情報が変換された文字列情報と正規文字列情報が変換された文字列情報とが同一であったときには、認識文字列情報取得部32で取得された認識文字列情報を、補正情報記憶部31に記憶された該当する正規の文字列情報に置き換えることで補正する。
When the character string information converted from the recognized character string information and the character string information converted from the regular character string information are the same as a result of the comparison by the character
テキストファイル生成部37は、文字列補正部36で補正された文字列情報で構成されたテキストファイルを生成する。
The text
テキストファイル記憶部38は、テキストファイル生成部37で生成されたテキストファイルを記憶する。
The text
〈一実施形態による文字認識システムの動作〉
次に、本実施形態による文字認識システム1において、印刷された書類Xからテキストファイルを生成し記憶する場合の処理について説明する。
<Operation of Character Recognition System According to One Embodiment>
Next, a process when a text file is generated and stored from the printed document X in the
まず、テキストファイル生成対象の印刷された書類である書類Xが画像読取装置10の読取制御部11によりイメージ画像データとして読み取られ、イメージ画像データ記憶部12に記憶される。
First, a document X, which is a printed document to be generated as a text file, is read as image image data by the
次に、文字認識装置20の文字認識制御部21により、イメージ画像データ記憶部12に記憶されたイメージ画像データが解析されて文字情報が認識される。認識された文字情報で構成された文字列情報は、認識文字列情報記憶部22に記憶される。
Next, the character
次に、認識文字列補正装置30において、認識された文字列情報の誤認識された文字を補正する処理が行われる。この誤認識された文字の補正処理について、図2のフローチャートを参照して説明する。
Next, in the recognized character
この認識文字列補正装置30の補正情報記憶部31には、予め設定された、当該書類に使用する正規の文字列情報と、文字の類似パターンごとの、該当する文字情報群およびこの文字情報群の中から選択された一の代表文字情報で構成された類似パターン情報とが記憶されている。
In the correction
当該書類に使用する正規の文字列情報の一例を、図3に示す。本実施形態においては、当該書類に使用する正規の文字列情報として「ソフトウェア」、「ソリューション1」、「ミドルウェア」が格納されている。
An example of regular character string information used for the document is shown in FIG. In the present embodiment, “software”, “
また、文字の類似パターンごとの、該当する文字情報群およびこの文字情報群の中から選択された一の代表文字情報で構成された類似パターン情報の一例を、図4に示す。この類似パターンはコンピュータでの識別を苦手とする類似文字に注目して生成されたものであり、本実施形態においては類似パターン情報として、類似パターンA〜Gの7つのパターンにそれぞれ該当する文字情報群と、それぞれの文字情報群の中から選択された一の代表文字情報が格納されている。 FIG. 4 shows an example of similar pattern information composed of a corresponding character information group and one representative character information selected from the character information group for each similar pattern of characters. This similar pattern is generated by paying attention to similar characters that are difficult to identify with a computer. In the present embodiment, as similar pattern information, character information corresponding to each of the seven patterns of similar patterns A to G, respectively. A group and one representative character information selected from each character information group are stored.
例えば図4では、類似する文字情報である「ソ」と「ン」とが類似パターンAの文字情報群として格納され、これらの文字情報群の中の代表文字情報として「ン」が選択されて格納されている。また、類似する文字情報である「ツ」と「シ」とが類似パターンBの文字情報群として格納され、これらの文字情報群の中の代表文字情報として「シ」が選択されて格納されている。また、類似する文字情報である「ー」と「―」とが類似パターンCの文字情報群として格納され、これらの文字情報群の中の代表文字情報として「―」が選択されて格納されている。また、類似する文字情報である「1」と「I」と「|」と「!」とが類似パターンDの文字情報群として格納され、これらの文字情報群の中の代表文字情報として「1」が選択されて格納されている。また、類似する文字情報である「;」と「:」とが類似パターンEの文字情報群として格納され、これらの文字情報群の中の代表文字情報として「:」が選択されて格納されている。また、類似する文字情報である「.」と「,」と「。」とが類似パターンFの文字情報群として格納され、これらの文字情報群の中の代表文字情報として「.」が選択されて格納されている。また、類似する文字情報である「+」と「十」とが類似パターンGの文字情報群として格納され、これらの文字情報群の中の代表文字情報として「+」が選択されて格納されている。 For example, in FIG. 4, “SO” and “N” which are similar character information are stored as the character information group of the similar pattern A, and “N” is selected as the representative character information in these character information groups. Stored. Also, similar character information “tsu” and “shi” are stored as the character information group of the similar pattern B, and “shi” is selected and stored as representative character information in these character information groups. Yes. Also, “—” and “—” that are similar character information are stored as character information groups of the similar pattern C, and “—” is selected and stored as representative character information in these character information groups. Yes. Also, similar character information “1”, “I”, “|”, and “!” Are stored as character information groups of the similar pattern D, and “1” is represented as representative character information in these character information groups. "Is selected and stored. Also, similar character information “;” and “:” are stored as character information groups of the similar pattern E, and “:” is selected and stored as representative character information in these character information groups. Yes. Further, similar character information “.”, “,” And “.” Are stored as character information groups of the similar pattern F, and “.” Is selected as representative character information in these character information groups. Stored. Further, similar character information “+” and “ten” are stored as the character information group of the similar pattern G, and “+” is selected and stored as the representative character information in these character information groups. Yes.
これらの正規の文字列情報および類似パターン情報が補正情報記憶部31に記憶されている状態で、誤認識された文字を補正する処理が開始されると、まず認識文字列情報取得部32において文字認識装置20の認識文字列情報記憶部22に記憶された認識文字列情報が取得される(S1)。ここでは、認識文字列情報として「ンリュ−ツョソI」が取得されたものとする。
When a process for correcting a misrecognized character is started in a state in which these regular character string information and similar pattern information are stored in the correction
次に、認識文字列変換部33において、認識文字列情報取得部32で取得された認識文字列情報「ンリュ−ツョソI」を構成する各文字情報「ン」、「リ」、「ュ」、「−」、「ツ」、「ョ」、「ソ」、「I」が、補正情報記憶部31に記憶されたいずれかの類似パターンの文字情報群内にあるか否かがそれぞれ判断され、いずれかの類似パターンの文字情報群内にあった文字情報が、図5の51に示すように該当する類似パターンの代表文字情報に変換される(S2)。
Next, in the recognized character
ここでは、まず文字情報「ン」が類似パターンAの文字情報群にあると判断され、この文字情報「ン」が類似パターンAの代表文字情報「ン」に変換される。ここでは、判断対象の文字情報と変換する代表文字情報とが同じであるため実際には文字情報は変わらない。 Here, it is first determined that the character information “n” is in the character information group of the similar pattern A, and this character information “n” is converted into the representative character information “n” of the similar pattern A. Here, since the character information to be determined and the representative character information to be converted are the same, the character information does not actually change.
また、文字情報「−」が類似パターンCの文字情報群にあると判断され、この文字情報「−」が類似パターンCの代表文字情報「−」に変換される。ここでも、判断対象の文字情報と変換する代表文字情報とが同じであるため実際には文字情報は変わらない。 Further, it is determined that the character information “-” is in the character information group of the similar pattern C, and this character information “-” is converted into the representative character information “-” of the similar pattern C. Again, since the character information to be determined and the representative character information to be converted are the same, the character information does not actually change.
また、文字情報「ツ」が類似パターンBの文字情報群にあると判断され、この文字情報「ツ」が類似パターンBの代表文字情報「シ」に変換される。 Further, it is determined that the character information “TSU” is in the character information group of the similar pattern B, and this character information “TSU” is converted into the representative character information “SH” of the similar pattern B.
また、文字情報「ソ」が類似パターンAの文字情報群にあると判断され、この文字情報「ソ」が類似パターンAの代表文字情報「ン」に変換される。 Further, it is determined that the character information “SO” is in the character information group of the similar pattern A, and this character information “SO” is converted into the representative character information “N” of the similar pattern A.
また、文字情報「I」が類似パターンDの文字情報群にあると判断され、この文字情報「I」が類似パターンDの代表文字情報「1」に変換される。 Further, it is determined that the character information “I” is in the character information group of the similar pattern D, and this character information “I” is converted into the representative character information “1” of the similar pattern D.
このようにして各文字情報が変換されることにより、認識文字列情報「ンリュ−ツョソI」が、「ンリュ−ション1」に変換される。
By converting each piece of character information in this way, the recognized character string information “Narutsuso I” is converted to “
次に、正規文字列変換部34において、補正情報記憶部31に記憶された正規の文字列情報を構成する各文字情報が、いずれかの類似パターンの文字情報群内にあるか否かがそれぞれ判断され、いずれかの類似パターンの文字情報群内にあった文字情報が、該当する類似パターンの代表文字情報に変換される(S3)。
Next, in the regular character
ここではまず、図3のように格納されている正規の文字列情報のうち、1番目の文字列情報「ソフトウェア」を構成する各文字情報「ソ」、「フ」、「ト」、「ウ」、「ェ」、「ア」が、補正情報記憶部31に記憶されたいずれかの類似パターンの文字情報群内にあるか否かがそれぞれ判断される。
Here, first, among the regular character string information stored as shown in FIG. 3, each character information “So”, “F”, “G”, “W” constituting the first character string information “software” is displayed. It is determined whether or not “”, “e”, and “a” are in the character information group of any similar pattern stored in the correction
上述した認識文字列情報の場合と同様に各文字情報について判断された結果、1番目の正規の文字列情報「ソフトウェア」が「ンフトウェア」に変換される。 As in the case of the recognized character string information described above, as a result of determination for each character information, the first regular character string information “software” is converted to “software”.
次に、文字列比較部35において、ステップS2で認識文字列情報が変換された文字列情報と、ステップS3で1番目の正規の文字列情報が変換された文字列情報とが同一であるか否かが比較される(S4)。
Next, in the character
比較された結果、ここではステップS2で変換された文字列情報「ンリュ−ション1」と、ステップS3で変換された文字列情報「ンフトウェア」とは同一ではなく(S5の「NO」)、次の2番目の正規の文字列情報に移動して処理が継続される(S6)。
As a result of the comparison, the character string information “
ステップS3に戻り、正規文字列変換部34において、2番目の正規の文字列情報「ソリューション1」を構成する各文字情報「ソ」、「リ」、「ュ」、「ー」、「シ」、「ョ」、「ン」、「1」が、補正情報記憶部31に記憶されたいずれかの類似パターンの文字情報群内にあるか否かがそれぞれ判断される。
Returning to step S3, the character
上述した認識文字列情報と同様に各文字情報について判断された結果、図5の52に示すように、2番目の正規の文字列情報「ソリューション1」が「ンリュ−ション1」に変換される。
As a result of the determination for each character information in the same manner as the recognized character string information described above, the second regular character string information “
次に、文字列比較部35において、ステップS2で認識文字列情報が変換された文字列情報と、ステップS3で2番目の正規の文字列情報が変換された文字列情報とが同一であるか否かが比較される(S4)。
Next, in the character
比較された結果、ここではステップS2で変換された文字列情報「ンリュ−ション1」と、ステップS3で変換された文字列情報「ンリュ−ション1」とが同一であると判断される(S5の「YES」)。
As a result of the comparison, it is determined here that the character string information “
ステップS2で変換された文字列情報とステップS3で変換された文字列情報とが同一であると判断されると、文字列補正部36において図5の53に示すように、認識文字列情報取得部32で取得された認識文字列情報「ンリュ−ツョソI」を、該当する2番目の正規の文字列情報「ソリューション1」に置き換えることで補正される(S7)。
If it is determined that the character string information converted in step S2 is the same as the character string information converted in step S3, the character
そして、文字列補正部36で補正された文字列情報で構成されたテキストファイルがテキストファイル生成部37で生成され(S8)、テキストファイル記憶部38に記憶される(S9)。
Then, a text file composed of the character string information corrected by the character
以上の本実施形態によれば、使用する文字情報がある程度決まっている限定された分野の書類において、印刷された書類から認識された文字列を、高い精度で補正して正確なテキストファイルを生成することが可能になる。 According to the above embodiment, in a limited field document in which character information to be used is determined to some extent, a character string recognized from a printed document is corrected with high accuracy to generate an accurate text file. It becomes possible to do.
なお、上記は本発明の最良の実施の形態によって記載したが、この開示の一部をなす論述および図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例および運用技術が明らかとなる。 Although the above has been described based on the best mode of the present invention, it should not be understood that the description and the drawings, which form a part of this disclosure, limit the present invention. From this disclosure, various alternative embodiments, examples, and operational techniques will be apparent to those skilled in the art.
例えば、本実施形態においては、文字列比較部35において比較処理を行う際に、補正処理の都度、各正規の文字列情報を順次変換して比較する場合について説明したが、各正規の文字列情報を類似パターン情報に基づいて変換した文字列情報を予め補正情報記憶部31に記憶させておき、比較処理に利用するようにしてもよい。
For example, in the present embodiment, a case has been described in which each regular character string information is sequentially converted and compared each time correction processing is performed in the character
また、図4のように記憶した類似パターン情報に基づいて認識文字列変換部33および正規文字列変換部34で変換処理を行う場合に、例えば「ツ」と「ッ」などのように大文字と小文字とある文字については大文字に統一して変換処理を行うようにすることで、類似パターン情報に格納する情報量を減らすことができるとともに、大きさが誤認識された場合にも正確に補正することができ、補正の精度を向上させることができる。
In addition, when the recognition character
本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。従って、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。 It goes without saying that the present invention includes various embodiments not described herein. Accordingly, the technical scope of the present invention is defined only by the invention specifying matters according to the scope of claims reasonable from the above description.
1…文字認識システム
10…画像読取装置
11…読取制御部
12…イメージ画像データ記憶部
20…文字認識装置
21…文字認識制御部
22…認識文字列情報記憶部
30…認識文字列補正装置
31…補正情報記憶部
32…認識文字列情報取得部
33…認識文字列変換部
34…正規文字列変換部
35…文字列比較部
36…文字列補正部
37…テキストファイル生成部
38…テキストファイル記憶部
DESCRIPTION OF
Claims (4)
予め設定された、前記文書に使用する正規の文字列情報と、文字の類似パターンごとの、該当する文字情報群およびこの文字情報群の中から選択された一の代表文字情報で構成された類似パターン情報とを記憶する補正情報記憶部と、
前記認識文字列情報を取得する認識文字列情報取得部と、
前記認識文字列情報取得部で取得された認識文字列情報を構成する文字情報のうち、前記補正情報記憶部に記憶されたいずれかの類似パターンの文字情報群内にある文字情報を、当該類似パターンの代表文字情報に変換する認識文字列変換部と、
前記補正情報記憶部に記憶された正規の文字列情報を構成する文字情報のうち、いずれかの前記類似パターンの文字情報群内にある文字情報を、当該類似パターンの代表文字情報に変換した文字列情報と、前記認識文字列変換部で前記認識文字列情報が変換された文字列情報とを比較する文字列比較部と、
前記文字列比較部で比較された結果、前記正規の文字列情報が変換された文字列情報と前記認識文字列情報が変換された文字列情報とが同一であったときには、前記認識文字列情報取得部で取得された認識文字列情報を、前記補正情報記憶部に記憶された前記正規の文字列情報に置き換えることで補正する文字列補正部と、
を備えることを特徴とする認識文字列補正装置。 In a recognized character string correction device that corrects misrecognized characters in recognized character string information recognized by analyzing a document based on image image information,
Pre-set regular character string information used for the document, corresponding character information group for each character similar pattern, and similarity composed of one representative character information selected from this character information group A correction information storage unit for storing pattern information;
A recognized character string information acquisition unit for acquiring the recognized character string information;
Among the character information constituting the recognized character string information acquired by the recognized character string information acquiring unit, character information in the character information group of any similar pattern stored in the correction information storage unit A recognized character string conversion unit for converting into representative character information of a pattern;
Character information that is included in the character information group of any one of the similar patterns out of character information that constitutes regular character string information stored in the correction information storage unit, and is converted into representative character information of the similar pattern A character string comparison unit that compares column information with character string information obtained by converting the recognized character string information by the recognized character string conversion unit;
When the character string information converted from the regular character string information and the character string information converted from the recognized character string information are the same as a result of the comparison by the character string comparison unit, the recognized character string information A character string correction unit that corrects the recognized character string information acquired by the acquisition unit by replacing it with the regular character string information stored in the correction information storage unit;
A recognition character string correction apparatus comprising:
前記文字列比較部では前記補正情報記憶部に記憶された正規の文字列情報を構成する文字情報のうち、いずれかの前記類似パターンの文字情報群内にある文字情報を、当該類似パターンの代表文字情報に変換するとともに当該文字情報に小文字が含まれるときには当該小文字を大文字に変換した文字列情報と、前記認識文字列変換部で前記認識文字列情報が変換された文字列情報とを比較する
ことを特徴とする請求項1に記載の認識文字列補正装置。 Further, in the recognized character string conversion unit, when lowercase letters are included in the character information constituting the recognized character string information, the lowercase letters are converted into uppercase letters,
In the character string comparison unit, the character information included in the character information group of any one of the similar patterns among the character information constituting the regular character string information stored in the correction information storage unit. When the character information includes lower case characters, the character string information obtained by converting the lower case characters to upper case is compared with the character string information obtained by converting the recognized character string information by the recognized character string conversion unit. The recognition character string correction device according to claim 1, wherein
前記文字列比較部は、前記補正情報記憶部に記憶された正規変換文字列情報と、前記認識文字列変換部で前記認識文字列情報が変換された文字列情報とを比較する
ことを特徴とする請求項1または2に記載の認識文字列補正装置。 The correction information storage unit converts the character information included in the character information group of any one of the similar patterns from the character information constituting the regular character string information into the representative character information of the similar pattern. Store more string information,
The character string comparison unit compares the normal conversion character string information stored in the correction information storage unit with the character string information obtained by converting the recognition character string information in the recognition character string conversion unit. The recognition character string correction device according to claim 1 or 2.
予め設定された、前記文書に使用する正規の文字列情報と、文字の類似パターンごとの、該当する文字情報群およびこの文字情報群の中から選択された一の代表文字情報で構成された類似パターン情報とを記憶する機能と、
前記認識文字列情報を取得する機能と、
取得された認識文字列情報を構成する文字情報のうち、いずれかの前記類似パターンの文字情報群内にある文字情報を、当該類似パターンの代表文字情報に変換する機能と、
記憶された正規の文字列情報を構成する文字情報のうち、いずれかの前記類似パターンの文字情報群内にある文字情報を、当該類似パターンの代表文字情報に変換した文字列情報と、前記認識文字列情報が変換された文字列情報とを比較する機能と、
比較された結果、前記正規の文字列情報が変換された文字列情報と前記認識文字列情報が変換された文字列情報とが同一であったときには、前記取得された認識文字列情報を、前記正規の文字列情報に置き換えることで補正する機能と、
を実行させる認識文字列補正用プログラム。 To a recognized character string correction device that corrects misrecognized characters in recognized character string information recognized by analyzing a document based on image image information,
Pre-set regular character string information used for the document, corresponding character information group for each character similar pattern, and similarity composed of one representative character information selected from this character information group A function for storing pattern information;
A function of acquiring the recognized character string information;
A function of converting character information in the character information group of any one of the similar patterns out of the character information constituting the acquired recognized character string information into representative character information of the similar pattern;
Character information in the character information group of any one of the similar patterns out of character information constituting the stored regular character string information, character string information converted into representative character information of the similar pattern, and the recognition A function for comparing the character string information with the converted character string information;
As a result of the comparison, when the character string information converted from the regular character string information is the same as the character string information converted from the recognized character string information, the acquired recognized character string information is A function to correct by replacing with regular character string information,
Recognition character string correction program that executes
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009160631A JP2011018108A (en) | 2009-07-07 | 2009-07-07 | Device and program for correction of recognized character string |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009160631A JP2011018108A (en) | 2009-07-07 | 2009-07-07 | Device and program for correction of recognized character string |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011018108A true JP2011018108A (en) | 2011-01-27 |
Family
ID=43595873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009160631A Pending JP2011018108A (en) | 2009-07-07 | 2009-07-07 | Device and program for correction of recognized character string |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011018108A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101779165B1 (en) * | 2015-12-14 | 2017-09-15 | 주식회사 씨코소프트 | A system for scannig document |
US10410080B2 (en) | 2017-07-03 | 2019-09-10 | Fanuc Corporation | NC-program conversion device |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0652366A (en) * | 1992-07-30 | 1994-02-25 | Oki Electric Ind Co Ltd | Post-processing method for character recognition result |
-
2009
- 2009-07-07 JP JP2009160631A patent/JP2011018108A/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0652366A (en) * | 1992-07-30 | 1994-02-25 | Oki Electric Ind Co Ltd | Post-processing method for character recognition result |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101779165B1 (en) * | 2015-12-14 | 2017-09-15 | 주식회사 씨코소프트 | A system for scannig document |
US10410080B2 (en) | 2017-07-03 | 2019-09-10 | Fanuc Corporation | NC-program conversion device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5647919B2 (en) | Character recognition device, character recognition method, character recognition system, and character recognition program | |
US10963717B1 (en) | Auto-correction of pattern defined strings | |
US5265171A (en) | Optical character reading apparatus for performing spelling check | |
JP5154886B2 (en) | Music score recognition apparatus and computer program | |
KR101016544B1 (en) | Word recognition method and recording medium | |
CN111052221A (en) | Chord information extraction device, chord information extraction method, and chord information extraction program | |
US8731298B2 (en) | Character recognition apparatus, character recognition method, and computer readable medium storing program | |
CN114494679A (en) | Double-layer PDF generation and correction method and device | |
JP2011018108A (en) | Device and program for correction of recognized character string | |
US6668085B1 (en) | Character matching process for text converted from images | |
JP2012043385A (en) | Character recognition device and character recognition method | |
US11972208B2 (en) | Information processing device and information processing method | |
KR20160053544A (en) | Method for extracting candidate character | |
CN114677689A (en) | Character and image recognition error correction method and electronic equipment | |
JP2006350663A (en) | Document reading system | |
JP2022012017A (en) | Information processing device, information processing method, and computer program | |
JP2013105344A (en) | Business form processing system and business form processing method | |
CN111091120A (en) | Dictation correction method and electronic equipment | |
JP2000090193A (en) | Character recognition device and item classifying method | |
Balasooriya | Improving and Measuring OCR Accuracy for Sinhala with Tesseract OCR Engine | |
JP2001283156A (en) | Device and method for recognizing address and computer readable recording medium stored with program for allowing computer to execute the same method | |
JP2011018109A (en) | Device and program for correction of recognized character string corr | |
JP2004272396A (en) | Character recognition device, character recognition method, character recognition program and recording medium | |
JPH05120494A (en) | Character recognizing method and its device | |
JP2021149531A (en) | Information processor, correction candidate display method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130515 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130521 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140107 |