JP2010140204A - Character recognition device, character recognition method, character recognition program, and recording medium - Google Patents

Character recognition device, character recognition method, character recognition program, and recording medium Download PDF

Info

Publication number
JP2010140204A
JP2010140204A JP2008315066A JP2008315066A JP2010140204A JP 2010140204 A JP2010140204 A JP 2010140204A JP 2008315066 A JP2008315066 A JP 2008315066A JP 2008315066 A JP2008315066 A JP 2008315066A JP 2010140204 A JP2010140204 A JP 2010140204A
Authority
JP
Japan
Prior art keywords
character string
item
character
classified
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008315066A
Other languages
Japanese (ja)
Inventor
Hitoshi Shimizu
清水  仁
Mitsuhiro Toya
充宏 斗谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2008315066A priority Critical patent/JP2010140204A/en
Publication of JP2010140204A publication Critical patent/JP2010140204A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a character recognition device, a character recognition method, a character recognition program and a recording medium for improving the precision of character recognition by preventing a recognized character string from being inappropriately replaced with a character string in a dictionary. <P>SOLUTION: A character recognition part 12 recognizes a character string included in a recognition object document 10. A similarity calculation part 15 calculates similarity between a character string in an itemized correction dictionary 14 and classified character strings classified by an item classification part 13, and determines a similar character string showing the maximum value of similarity. A threshold calculation part 17 calculates a threshold showing a degree of whether or not there is high possibility that the character string included in the recognition object document 10 exists in the itemized correction dictionary based on the update dates and recognition dates of the same classification items. A correction control part 18 compares the maximum value of similarity with the threshold, and when the maximum value of similarity is equal to or more than the threshold, the classified character strings are replaced with the similar character strings, and when the maximum value of similarity is less than the threshold, the classified character strings are not replaced with the similar character strings. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、文字列を含む画像から文字認識を行う文字認識装置、文字認識方法、文字認識プログラムおよび記録媒体に関し、より詳細には、文字列を含む画像から文字認識を行う際、認識した文字列を修正するか否かを判定し、不必要な修正を行わないことによって、文字認識の精度を向上させる文字認識装置、文字認識方法、文字認識プログラムおよび記録媒体に関する。   The present invention relates to a character recognition device, a character recognition method, a character recognition program, and a recording medium that perform character recognition from an image including a character string, and more particularly, to a character that is recognized when character recognition is performed from an image including a character string. The present invention relates to a character recognition device, a character recognition method, a character recognition program, and a recording medium that improve character recognition accuracy by determining whether or not to correct a column and not performing unnecessary correction.

パーソナルコンピュータ(Personal Computer:略称「PC」)および携帯電話機などの電子機器には、光学式文字読取装置(Optical Character Reader:略称「OCR」)などの文字認識装置を搭載するものがある。文字認識装置は、たとえばカメラまたはイメージスキャナなどによって、認識対象である文書の画像データを取得する。画像データに含まれる文字列と、予め保持している文字データベース中の文字列とのパターンマッチングを行うことによって、画像データに含まれる文字列を探索し、最終的に文字コードの形で認識結果として出力する。   Some electronic devices such as a personal computer (abbreviation “PC”) and a cellular phone are equipped with a character recognition device such as an optical character reader (abbreviation “OCR”). The character recognition device acquires image data of a document to be recognized by, for example, a camera or an image scanner. By performing pattern matching between the character string included in the image data and the character string in the character database stored in advance, the character string included in the image data is searched, and finally the recognition result in the form of the character code Output as.

文字認識装置によって文字認識を行う際、たとえば取得した画像データが示す画像の状態が悪い、または文字データベースとのパターンマッチングが適切に行われないなどの原因によって、出力される文字認識の結果に誤りが生じることがある。文字認識装置は、文字認識の誤りを修正するために、正しい文字列を収録した辞書を予め用意しておき、認識される文字列が辞書に存在しない文字列である場合には、認識結果の文字列を修正する。文字認識装置は、認識される文字列と辞書中の文字列とを比較して類似する文字列を検索して、認識される文字列を辞書中の文字列に置き換える。   When character recognition is performed by a character recognition device, the output character recognition result may be incorrect due to, for example, the poor image state indicated by the acquired image data, or pattern matching with the character database not being performed properly. May occur. In order to correct an error in character recognition, the character recognition device prepares a dictionary containing a correct character string in advance, and if the recognized character string is a character string that does not exist in the dictionary, the recognition result Correct the string. The character recognition device compares the recognized character string with the character string in the dictionary to search for a similar character string, and replaces the recognized character string with the character string in the dictionary.

特許文献1に記載される文字認識装置では、長音およびハイフンについての誤りパターンと正解パターンとを予め辞書に登録しておき、認識結果である文字列が誤りパターンに該当する場合に、認識結果である文字列を正解パターンに基づいて修正する。文字認識装置が文字列を誤って修正した場合は、ユーザが新たに誤りパターンと正解パターンとしての組を辞書に登録することによって、同様の誤修正が再度行われることを防止することができる。   In the character recognition device described in Patent Document 1, error patterns and correct answer patterns for long tones and hyphens are registered in a dictionary in advance, and when a character string that is a recognition result corresponds to an error pattern, A character string is corrected based on the correct answer pattern. When the character recognition device corrects the character string by mistake, it is possible to prevent the same erroneous correction from being performed again by the user newly registering a set of error patterns and correct patterns in the dictionary.

特許文献2に記載される文字認識装置では、認識された文字列を単語ごとに切り出してスペルのチェックを行う。スペルのチェックによって単語が誤っていると判明した場合には、認識を誤る誤りやすさの度合いを文字単位でパターン化したデータベースを参照し、誤った単語の文字を修正し、再度スペルチェックを行って正しい単語であると確認されると、修正される単語の候補に決定する。単語の候補が複数ある場合は、ユーザの選択によって最終的に修正される単語が決定される。   In the character recognition device described in Patent Document 2, the recognized character string is cut out for each word and the spelling is checked. If the spelling check reveals that the word is incorrect, refer to the database in which the degree of misrecognition error is patterned on a character-by-character basis, correct the character in the incorrect word, and check the spelling again. If the correct word is confirmed, it is determined as a candidate word to be corrected. When there are a plurality of word candidates, the word to be finally corrected is determined by the user's selection.

特許文献3に記載される文字認識処理方法では、認識された文字列から単語部分を取り出し、取り出された単語部分と一致度の高い少なくとも1つの単語を、単語辞書中の単語から候補として選択する。選択される各単語について文書内で出現する頻度を計算して、候補の単語のうち頻度の値が最も高い単語に修正する。また、各単語に関連する他の単語の情報を単語辞書中に登録しておき、単語そのものの頻度だけでなく、関連する単語の頻度も考慮して修正を行うことができる。   In the character recognition processing method described in Patent Literature 3, a word part is extracted from a recognized character string, and at least one word having a high degree of coincidence with the extracted word part is selected as a candidate from words in the word dictionary. . For each selected word, the frequency of occurrence in the document is calculated, and the candidate word is corrected to the word with the highest frequency value. In addition, information on other words related to each word can be registered in the word dictionary, and correction can be performed in consideration of not only the frequency of the word itself but also the frequency of the related word.

特開平4−268986号公報JP-A-4-268986 特開平5−298495号公報JP-A-5-298495 特開平9−44606号公報JP-A-9-44606

特許文献1〜3に記載される文字認識装置および文字認識処理方法では、辞書中に正しい文字列が存在する場合、すなわち人間が見た際に画像に含まれると認識することができる文字列と辞書中の文字列とが一致する場合には、文字認識の結果を正しく修正することができる。   In the character recognition device and the character recognition processing method described in Patent Literatures 1 to 3, when a correct character string exists in the dictionary, that is, a character string that can be recognized as being included in an image when viewed by a human being, If the character string in the dictionary matches, the character recognition result can be corrected correctly.

しかし、辞書中に正しい文字列が存在しない場合、すなわち人間が見た際に画像に含まれると認識することができる文字列が辞書中に存在しない場合には、辞書を参照しても文字認識の結果を正しく修正することは不可能である。また、文字認識では画像データに含まれる文字列が正しく認識されているにも関わらず、正しい文字列が存在しない辞書を参照して類似する文字列を探し、不適切な修正をすることによって、誤った認識結果を出力することもある。   However, if the correct character string does not exist in the dictionary, that is, if there is no character string in the dictionary that can be recognized as being included in the image when viewed by humans, character recognition is possible even if the dictionary is referenced. It is impossible to correct the result of. Also, in character recognition, even though the character string included in the image data is correctly recognized, look for a similar character string by referring to a dictionary where the correct character string does not exist, An incorrect recognition result may be output.

認識対象とする文書の種類によっては、辞書中に存在しない新しい文字列が含まれることがある。たとえば、認識対象とする文書が名刺である場合、住所、郵便番号、会社名およびURL(Uniform Resource Locator)などを表す文字列が記載されている。住所および郵便番号は、市町村の合併などによって新たな文字列に変更されることがあり、会社名およびURLは、会社の合併または社名変更などによって新たな文字列に変更されることがある。新語および造語などの新たな文字列が、新聞および雑誌などの媒体に現れることも考えられる。   Depending on the type of document to be recognized, a new character string that does not exist in the dictionary may be included. For example, when the document to be recognized is a business card, a character string representing an address, a zip code, a company name, a URL (Uniform Resource Locator), and the like is described. The address and postal code may be changed to a new character string by a merger of municipalities, and the company name and URL may be changed to a new character string by a merger of companies or a change of company name. It is also conceivable that new character strings such as new words and coined words appear in media such as newspapers and magazines.

あらゆる文字列を辞書に登録するとデータの量が大きくなり、探索および照合に時間がかかるので実用上の問題が生じる。辞書を修正して新しい文字列を登録する方法は、修正後に新しい単語および文字列が現れることもあるので、辞書の修正が適宜行われるとは限らず常に有効な方法とはならない。   When any character string is registered in the dictionary, the amount of data increases, and searching and matching takes time, which causes a practical problem. The method of correcting a dictionary and registering a new character string may not always be effective because the word is not corrected as appropriate because new words and character strings may appear after the correction.

このように、辞書が作成されてから一定期間が経過すると、辞書に存在しない新たな文字列が現れて、認識対象である文書中に含まれることがある。辞書中に正しい文字列が存在するか否かを推測することは困難であるので、文字認識が正しく行われ、かつ認識される文字列と同一の文字列が辞書中に存在しない場合、認識される文字列が辞書中の不適切な文字列に置き換えられてしまう。   As described above, when a certain period of time elapses after the dictionary is created, a new character string that does not exist in the dictionary may appear and be included in the document to be recognized. Since it is difficult to guess whether a correct character string exists in the dictionary, character recognition is performed correctly, and if the same character string as the recognized character string does not exist in the dictionary, it is recognized. Will be replaced with an inappropriate string in the dictionary.

本発明の目的は、認識される文字列を辞書中の文字列に不適切に置き換えることを防止して、文字認識の精度を向上することができる文字認識装置、文字認識方法、文字認識プログラムおよび記録媒体を提供することである。   An object of the present invention is to prevent a character string to be recognized from being inappropriately replaced with a character string in a dictionary and improve the accuracy of character recognition, a character recognition method, a character recognition program, and It is to provide a recording medium.

本発明は、予め設定される項目ごとに分類される文字列を含む修正辞書を表す修正辞書情報を、各項目が更新された日付を表す更新日付情報と関連付けて記憶する記憶手段と、
認識対象である文字列が含まれる画像を表す画像データから文字列を認識する認識手段と、
前記認識手段によって認識される文字列を、前記予め設定される項目のうちのいずれかに分類する分類手段と、
前記記憶手段によって記憶される修正辞書情報が示す修正辞書の項目のうち、前記分類手段によって分類される分類済文字列が分類される項目と同じ項目である同一分類項目の各文字列について、前記分類済文字列と類似する度合を示す類似度を算出し、算出された類似度の値のうち最大値を示す文字列を類似文字列として決定する類似度算出手段と、
前記認識手段によって文字列が認識される日付である認識日付と、前記同一分類項目に関連付けられる更新日付情報が示す更新日付とに基づいて、前記画像中に含まれる文字列が前記修正辞書中に存在する可能性が高いか否かの度合いを示す閾値を算出する閾値算出手段と、
前記類似度算出手段で算出される類似度の最大値と、前記閾値算出手段で算出される閾値とに応じて、前記分類済文字列を前記類似文字列に置き換えるか否かを制御する置換手段とを含むことを特徴とする文字認識装置である。
The present invention relates to storage means for storing correction dictionary information representing a correction dictionary including a character string classified for each preset item in association with update date information representing a date when each item is updated, and
Recognizing means for recognizing a character string from image data representing an image including a character string to be recognized;
Classifying means for classifying the character string recognized by the recognition means into any of the preset items;
Among the correction dictionary items indicated by the correction dictionary information stored by the storage unit, for each character string of the same classification item that is the same item as the item into which the classified character string classified by the classification unit is classified, A similarity calculating means for calculating a similarity indicating a degree similar to the classified character string, and determining a character string indicating the maximum value among the calculated similarity values as a similar character string;
Based on a recognition date that is a date when the character string is recognized by the recognition unit and an update date indicated by update date information associated with the same classification item, the character string included in the image is stored in the correction dictionary. A threshold value calculation means for calculating a threshold value indicating a degree of whether or not there is a high possibility of existence;
Replacement means for controlling whether or not to replace the classified character string with the similar character string according to the maximum value of the similarity calculated by the similarity calculation means and the threshold value calculated by the threshold value calculation means Is a character recognition apparatus characterized by including.

また本発明は、コンピュータを、
予め設定される項目ごとに分類される文字列を含む修正辞書を表す修正辞書情報を、各項目が更新された日付を表す更新日付情報と関連付けて記憶する記憶手段と、
認識対象である文字列が含まれる画像を表す画像データから文字列を認識する認識手段と、
前記認識手段によって認識される文字列を、前記予め設定される項目のうちのいずれかに分類する分類手段と、
前記記憶手段によって記憶される修正辞書情報が示す修正辞書の項目のうち、前記分類手段によって分類される分類済文字列が分類される項目と同じ項目である同一分類項目の各文字列について、前記分類済文字列と類似する度合を示す類似度を算出し、算出された類似度の値のうち最大値を示す文字列を類似文字列として決定する類似度算出手段と、
前記認識手段によって文字列が認識される日付である認識日付と、前記同一分類項目に関連付けられる更新日付情報が示す更新日付とに基づいて、前記画像中に含まれる文字列が前記修正辞書中に存在する可能性が高いか否かの度合いを示す閾値を算出する閾値算出手段と、
前記類似度算出手段で算出される類似度の最大値と、前記閾値算出手段で算出される閾値とに応じて、前記分類済文字列を前記類似文字列に置き換えるか否かを制御する置換手段として機能させるための文字認識プログラムである。
The present invention also provides a computer,
Storage means for storing correction dictionary information representing a correction dictionary including character strings classified for each preset item in association with update date information representing a date when each item was updated;
Recognizing means for recognizing a character string from image data representing an image including a character string to be recognized;
Classifying means for classifying the character string recognized by the recognition means into any of the preset items;
Among the correction dictionary items indicated by the correction dictionary information stored by the storage unit, for each character string of the same classification item that is the same item as the item into which the classified character string classified by the classification unit is classified, A similarity calculating means for calculating a similarity indicating a degree similar to the classified character string, and determining a character string indicating the maximum value among the calculated similarity values as a similar character string;
Based on a recognition date that is a date when the character string is recognized by the recognition unit and an update date indicated by update date information associated with the same classification item, the character string included in the image is stored in the correction dictionary. A threshold value calculation means for calculating a threshold value indicating a degree of whether or not there is a high possibility of existence;
Replacement means for controlling whether or not to replace the classified character string with the similar character string according to the maximum value of the similarity calculated by the similarity calculation means and the threshold value calculated by the threshold value calculation means Is a character recognition program for functioning as

また本発明は、前記文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体である。   The present invention is also a computer-readable recording medium on which the character recognition program is recorded.

また本発明は、認識対象である文字列が含まれる画像を表す画像データから文字列を認識する認識ステップと、
前記認識ステップによって認識される文字列を、予め設定される項目のうちのいずれかに分類する分類ステップと、
前記予め設定される項目ごとに分類される文字列を含む修正辞書を表す修正辞書情報を、各項目が更新された日付を表す更新日付情報と関連付けて記憶する記憶手段によって記憶される修正辞書情報が示す修正辞書の項目のうち、前記分類ステップによって分類される分類済文字列が分類される項目と同じ項目である同一分類項目の各文字列について、前記分類済文字列と類似する度合を示す類似度を算出し、算出された類似度の値のうち最大値を示す文字列を類似文字列として決定する類似度算出ステップと、
前記認識ステップによって文字列が認識される日付である認識日付と、前記同一分類項目に関連付けられる更新日付情報が示す更新日付とに基づいて、前記画像中に含まれる文字列が前記修正辞書中に存在する可能性が高いか否かの度合いを示す閾値を算出する閾値算出ステップと、
前記類似度算出ステップで算出される類似度の最大値と、前記閾値算出ステップで算出される閾値とに応じて、前記分類済文字列を前記類似文字列に置き換えるか否かを制御する置換ステップとを含むことを特徴とする文字認識方法である。
The present invention also includes a recognition step of recognizing a character string from image data representing an image including a character string to be recognized;
A classification step of classifying the character string recognized by the recognition step into any of preset items;
Correction dictionary information stored by storage means for storing correction dictionary information representing a correction dictionary including a character string classified for each preset item in association with update date information representing a date when each item was updated The degree of similarity to the classified character string is indicated for each character string of the same classification item that is the same item as the item into which the classified character string classified by the classification step is classified. A similarity calculation step of calculating a similarity and determining a character string indicating the maximum value among the calculated similarity values as a similar character string;
Based on the recognition date, which is the date when the character string is recognized by the recognition step, and the update date indicated by the update date information associated with the same classification item, the character string included in the image is stored in the correction dictionary. A threshold calculation step for calculating a threshold indicating a degree of whether or not there is a high possibility of existence;
A replacement step for controlling whether or not to replace the classified character string with the similar character string according to the maximum value of the similarity calculated in the similarity calculation step and the threshold value calculated in the threshold value calculation step The character recognition method characterized by including these.

本発明によれば、記憶手段によって、予め設定される項目ごとに分類される文字列を含む修正辞書を表す修正辞書情報が、各項目が更新された日付を表す更新日付情報と関連付けて記憶される。認識手段によって、認識対象である文字列が含まれる画像を表す画像データから文字列が認識される。分類手段によって、前記認識手段によって認識される文字列が、前記予め設定される項目のうちのいずれかに分類される。類似度算出手段によって、前記記憶手段によって記憶される修正辞書情報が示す修正辞書の項目のうち、前記分類手段によって分類される分類済文字列が分類される項目と同じ項目である同一分類項目の各文字列について、前記分類済文字列と類似する度合を示す類似度が算出され、算出された類似度の値のうち最大値を示す文字列を類似文字列として決定される。閾値算出手段によって、前記認識手段によって文字列が認識される日付である認識日付と、前記同一分類項目に関連付けられる更新日付情報が示す更新日付とに基づいて、前記画像中に含まれる文字列が前記修正辞書中に存在する可能性が高いか否かの度合いを示す閾値が算出される。置換手段によって、前記類似度算出手段で算出される類似度の最大値と、前記閾値算出手段で算出される閾値とに応じて、前記分類済文字列が前記類似文字列に置き換えられる。   According to the present invention, the correction dictionary information representing the correction dictionary including the character string classified for each preset item is stored in association with the update date information indicating the date when each item was updated by the storage unit. The The character string is recognized from the image data representing the image including the character string to be recognized by the recognition means. The character string recognized by the recognition means is classified into one of the preset items by the classification means. Of the items in the correction dictionary indicated by the correction dictionary information stored in the storage unit by the similarity calculation unit, the same classification item that is the same item as the item into which the classified character string classified by the classification unit is classified For each character string, a similarity indicating a degree similar to the classified character string is calculated, and a character string indicating the maximum value among the calculated similarity values is determined as a similar character string. Based on a recognition date that is a date when the character string is recognized by the recognition unit by the threshold calculation unit and an update date indicated by the update date information associated with the same classification item, the character string included in the image is A threshold value is calculated that indicates the degree of whether or not there is a high probability that the correction dictionary exists. The classified character string is replaced with the similar character string by the replacing unit according to the maximum value of the similarity calculated by the similarity calculating unit and the threshold calculated by the threshold calculating unit.

したがって、認識される文字列の項目と修正辞書の更新日付とから、前記画像中に含まれる文字列が前記修正辞書中に存在する可能性が高いか否かの度合いを閾値として数値化することができ、類似度の最大値と閾値とに応じて、認識される文字列を辞書中の文字列に置き換えるか否かを制御することができる。よって、認識される文字列を辞書中の文字列に不適切に置き換えることを防止して、文字認識の精度を向上させる文字認識装置を提供することができる。   Therefore, from the recognized character string item and the update date of the correction dictionary, the degree of possibility that the character string included in the image is likely to exist in the correction dictionary is quantified as a threshold value. It is possible to control whether or not to replace the recognized character string with the character string in the dictionary according to the maximum value of the similarity and the threshold value. Therefore, it is possible to provide a character recognition device that prevents improper replacement of a recognized character string with a character string in a dictionary and improves the accuracy of character recognition.

また本発明によれば、文字認識プログラムによって、コンピュータを、予め設定される項目ごとに分類される文字列を含む修正辞書を表す修正辞書情報を、各項目が更新された日付を表す更新日付情報と関連付けて記憶する記憶手段と、認識対象である文字列が含まれる画像を表す画像データから文字列を認識する認識手段と、前記認識手段によって認識される文字列を、前記予め設定される項目のうちのいずれかに分類する分類手段と、前記記憶手段によって記憶される修正辞書情報が示す修正辞書の項目のうち、前記分類手段によって分類される分類済文字列が分類される項目と同じ項目である同一分類項目の各文字列について、前記分類済文字列と類似する度合を示す類似度を算出し、算出された類似度の値のうち最大値を示す文字列を類似文字列として決定する類似度算出手段と、前記認識手段によって文字列が認識される日付である認識日付と、前記同一分類項目に関連付けられる更新日付情報が示す更新日付とに基づいて、前記画像中に含まれる文字列が前記修正辞書中に存在する可能性が高いか否かの度合いを示す閾値を算出する閾値算出手段と、前記類似度算出手段で算出される類似度の最大値と、前記閾値算出手段で算出される閾値とに応じて、前記分類済文字列を前記類似文字列に置き換えるか否かを制御する置換手段として機能させることができる。   Further, according to the present invention, the computer recognizes the correction dictionary information indicating the correction dictionary including the character string classified for each preset item by the character recognition program, and the update date information indicating the date when each item is updated. A storage means for storing the information in association with a recognition means, a recognition means for recognizing a character string from image data representing an image including a character string to be recognized, and a character string recognized by the recognition means as the preset item. Among the items of the classification means for classifying the data and the correction dictionary information indicated by the correction dictionary information stored by the storage means, the same item as the item for which the classified character string classified by the classification means is classified For each character string of the same classification item, a similarity indicating the degree of similarity with the classified character string is calculated, and a character string indicating the maximum value among the calculated similarity values Based on the similarity calculation means determined as a similar character string, a recognition date that is a date on which the character string is recognized by the recognition means, and an update date indicated by update date information associated with the same classification item, the image A threshold value calculating means for calculating a threshold value indicating whether or not there is a high possibility that a character string included therein is present in the modified dictionary, and a maximum value of the similarity degree calculated by the similarity degree calculating means, In accordance with the threshold value calculated by the threshold value calculation means, it can function as a replacement means for controlling whether or not to replace the classified character string with the similar character string.

したがって、認識される文字列を辞書中の文字列に不適切に置き換えることを防止して、文字認識の精度を向上させることができるようにコンピュータを機能させる文字認識プログラムを提供することができる。   Therefore, it is possible to provide a character recognition program that causes a computer to function so that the recognized character string can be prevented from being inappropriately replaced with a character string in the dictionary and the accuracy of character recognition can be improved.

また本発明によれば、コンピュータ読み取り可能な記録媒体によって、前記文字認識プログラムが記録される。したがって、前記文字認識プログラムをコンピュータ読み取り可能な記録媒体として提供することができる。   According to the invention, the character recognition program is recorded by a computer-readable recording medium. Therefore, the character recognition program can be provided as a computer-readable recording medium.

また本発明によれば、認識ステップでは、認識対象である文字列が含まれる画像を表す画像データから文字列を認識する。分類ステップでは、前記認識ステップによって認識される文字列を、予め設定される項目のうちのいずれかに分類する。類似度算出ステップでは、前記予め設定される項目ごとに分類される文字列を含む修正辞書を表す修正辞書情報を、各項目が更新された日付を表す更新日付情報と関連付けて記憶する記憶手段によって記憶される修正辞書情報が示す修正辞書の項目のうち、前記分類ステップによって分類される分類済文字列が分類される項目と同じ項目である同一分類項目の各文字列について、前記分類済文字列と類似する度合を示す類似度を算出し、算出された類似度の値のうち最大値を示す文字列を類似文字列として決定する。閾値算出ステップでは、前記認識ステップによって文字列が認識される日付である認識日付と、前記同一分類項目に関連付けられる更新日付情報が示す更新日付とに基づいて、前記画像中に含まれる文字列が前記修正辞書中に存在する可能性が高いか否かの度合いを示す閾値を算出する。置換ステップでは、前記類似度算出ステップで算出される類似度の最大値と、前記閾値算出ステップで算出される閾値とに応じて、前記分類済文字列を前記類似文字列に置き換えるか否かを制御する。   According to the invention, in the recognition step, the character string is recognized from the image data representing the image including the character string to be recognized. In the classification step, the character string recognized in the recognition step is classified into one of preset items. In the similarity calculation step, storage means for storing correction dictionary information representing a correction dictionary including a character string classified for each preset item in association with update date information representing a date when each item is updated is stored. Among the correction dictionary items indicated by the stored correction dictionary information, for each character string of the same classification item that is the same item as the classification character string classified by the classification step, the classified character string The similarity indicating the degree of similarity is calculated, and the character string indicating the maximum value among the calculated similarity values is determined as the similar character string. In the threshold value calculating step, a character string included in the image is based on a recognition date that is a date when the character string is recognized by the recognition step and an update date indicated by update date information associated with the same classification item. A threshold value indicating a degree of whether or not there is a high possibility of existing in the correction dictionary is calculated. In the replacing step, whether or not to replace the classified character string with the similar character string according to the maximum value of the similarity calculated in the similarity calculating step and the threshold calculated in the threshold calculating step. Control.

したがって、認識される文字列の項目と修正辞書の更新日付とから、前記画像中に含まれる文字列が前記修正辞書中に存在する可能性が高いか否かの度合いを閾値として数値化することができ、類似度の最大値と閾値とに応じて、認識される文字列を辞書中の文字列に置き換えるか否かを制御することができる。よって、認識される文字列を辞書中の文字列に不適切に置き換えることを防止して、文字認識の精度を向上させる文字認識方法を提供することができる。   Therefore, from the recognized character string item and the update date of the correction dictionary, the degree of possibility that the character string included in the image is likely to exist in the correction dictionary is quantified as a threshold value. It is possible to control whether or not to replace the recognized character string with the character string in the dictionary according to the maximum value of the similarity and the threshold value. Therefore, it is possible to provide a character recognition method that prevents improper replacement of the recognized character string with the character string in the dictionary and improves the accuracy of character recognition.

図1は、本発明の実施の一形態である文字認識装置1の概略を示すブロック図である。本発明に係る文字認識方法は、文字認識装置1によって実行される。文字認識装置1は、画像入力部11、文字認識部12、項目分類部13、項目別修正辞書部14、類似度算出部15、日付取得部16、閾値算出部17、修正制御部18、項目別修正辞書更新部21、および閾値算出方法更新部23を含んで構成される。   FIG. 1 is a block diagram showing an outline of a character recognition device 1 according to an embodiment of the present invention. The character recognition method according to the present invention is executed by the character recognition device 1. The character recognition device 1 includes an image input unit 11, a character recognition unit 12, an item classification unit 13, an item-specific correction dictionary unit 14, a similarity calculation unit 15, a date acquisition unit 16, a threshold calculation unit 17, a correction control unit 18, and items. It includes another modified dictionary update unit 21 and a threshold value calculation method update unit 23.

文字認識装置1は、半導体メモリおよびハードディスク装置などの図示しない記憶装置と、図示しない中央処理装置(Central Processing Unit:以下「CPU」という)と、図示しないカメラまたはイメージスキャナとを含むコンピュータシステムによって構成される。CPUは、記憶装置に記憶される制御プログラムを実行することによって、画像入力部11、文字認識部12、項目分類部13、項目別修正辞書部14、類似度算出部15、日付取得部16、閾値算出部17、修正制御部18、項目別修正辞書更新部21および閾値算出方法更新部23の各機能を実現する。   The character recognition device 1 is constituted by a computer system including a storage device (not shown) such as a semiconductor memory and a hard disk device, a central processing unit (hereinafter referred to as “CPU”) not shown, and a camera or an image scanner (not shown). Is done. The CPU executes the control program stored in the storage device, thereby causing the image input unit 11, the character recognition unit 12, the item classification unit 13, the item-specific correction dictionary unit 14, the similarity calculation unit 15, the date acquisition unit 16, Each function of the threshold value calculation unit 17, the correction control unit 18, the item-specific correction dictionary update unit 21, and the threshold value calculation method update unit 23 is realized.

画像入力部11は、カメラまたはイメージスキャナなどを制御して、認識対象の文字列が含まれる文書である認識対象文書10の画像を表す画像データを取得する。認識手段である文字認識部12は、画像入力部11で取得される画像データに含まれる文字列を、公知の文字認識方法によって認識する。文字認識方法は、たとえば画像データに含まれる文字列に対して、予め保持している文字データベース中の文字とのパターンマッチングを、単語としてではなく一文字ごとに行って、文字列を認識する方法などがある。文字認識装置1が、カメラまたはイメージスキャナなどを含まない構成としてもよく、その場合は、認識対象文書10の画像を表す画像データを、外部から文字認識部12に入力する構成にすればよい。   The image input unit 11 obtains image data representing an image of the recognition target document 10 which is a document including a recognition target character string by controlling a camera or an image scanner. The character recognition unit 12 as a recognition unit recognizes a character string included in the image data acquired by the image input unit 11 by a known character recognition method. Character recognition methods include, for example, a method of recognizing character strings by performing pattern matching with characters in a character database stored in advance for character strings included in image data, not for words but for each character. There is. The character recognition device 1 may be configured not to include a camera or an image scanner. In this case, image data representing an image of the recognition target document 10 may be input to the character recognition unit 12 from the outside.

分類手段である項目分類部13は、文字認識部12で認識される文字列を、後述するキーワード辞書情報31およびルール情報32などに従って、予め設定される項目に分類する。予め設定される項目は、たとえば、「姓」、「名」、「会社名」、「役職」、「郵便番号」、「住所」、「電話番号」、「FAX番号」、「メールアドレス」、「URL(
Uniform Resource Locator)」および「その他」などを含む。項目は、後述する項目別修正辞書部14に記憶される項目別修正辞書情報が示す項目別修正辞書の項目と同一のものである。項目分類部13によって分類されている文字列を、以下「分類済文字列」ともいう。項目分類部13は、認識される文字列のすべてを各項目に分類し、いずれの項目にも該当しない文字列は項目「その他」に分類する。
The item classification unit 13 as a classification unit classifies the character string recognized by the character recognition unit 12 into preset items according to keyword dictionary information 31 and rule information 32 described later. The preset items are, for example, “last name”, “first name”, “company name”, “title”, “zip code”, “address”, “phone number”, “FAX number”, “email address”, “URL (
Uniform Resource Locator) ”and“ Other ”. The item is the same as the item of the item-specific correction dictionary indicated by the item-specific correction dictionary information stored in the item-specific correction dictionary unit 14 described later. The character strings classified by the item classification unit 13 are hereinafter also referred to as “classified character strings”. The item classification unit 13 classifies all recognized character strings into items, and classifies character strings that do not correspond to any item into the item “others”.

図2は、文字列が各項目に分類された文字列分類結果30の一例を示す図である。文字列分類結果30は、名刺を認識対象文書10として文字認識を行った場合に、項目分類部13が名刺に含まれる各文字列を分類した結果の一例を示している。たとえば文字列「山田」は項目「姓」に、文字列「太郎」は項目「名」に、文字列「△△△株式会社」は項目「会社名」に、文字列「係長」は項目「役職」に、文字列「123−4567」は項目「郵便番号」に、文字列「○○県○○市○○町12−34」は項目「住所」に、文字列「07××−000−0000」は項目「電話番号」に、文字列「07××−111−1111」は項目「FAX番号」に、文字列「yamada@aaa.co.jp」は項目「メールアドレス」に、文字列「http://aaaa.co.jp/」は項目「URL」にそれぞれ分類されている。   FIG. 2 is a diagram illustrating an example of a character string classification result 30 in which character strings are classified into items. The character string classification result 30 shows an example of a result of classifying each character string included in the business card by the item classification unit 13 when character recognition is performed using the business card as the recognition target document 10. For example, the character string “Yamada” is the item “last name”, the character string “Taro” is the item “first name”, the character string “△△△ company” is the item “company name”, and the character string “person in charge” is the item “ The character string “123-4567” is the item “zip code”, the character string “XX city XX city XX town 12-34” is the item “address”, and the character string “07xxx-000” -0000 "is the item" telephone number ", the character string" 07xxx-111-1111 "is the item" FAX number ", the character string" yamada@aaa.co.jp "is the item" mail address ", the character The column “http://aaaa.co.jp/” is classified into the item “URL”.

文字列分類結果30は一例であるので、認識される文字列が分類される項目は、認識対象となる文書の種類が異なれば表示される項目および文字列も異なる。名刺を対象に文字認識を行う場合でも、名刺のデザイン、画像の撮影状態または文字列の認識状態などによっては、図2に示した文字列分類結果30に示される項目および文字列とは異なる結果となることがある。分類される文字列がない項目は、たとえば項目と文字列とを共に表示させない、または項目のみを表示させて文字列を表示させないなどの文字列分類結果30となる。   Since the character string classification result 30 is an example, the items in which the recognized character strings are classified differ in the displayed items and character strings if the types of documents to be recognized are different. Even when character recognition is performed on a business card, the results differ from the items and character strings shown in the character string classification result 30 shown in FIG. 2 depending on the design of the business card, the image shooting state, or the character string recognition state. It may become. An item having no character string to be classified results in a character string classification result 30 such as not displaying both the item and the character string, or displaying only the item and not displaying the character string.

図3は、キーワード辞書情報31の一例を示す図である。キーワード辞書情報31は、キーワードとなる文字列が項目ごとに分類されているキーワード辞書を表す情報である。たとえば項目「住所」に「大阪府」、「奈良県」および「天理市」などの文字列が、項目「URL」に「http://」および「www」などの文字列が、項目「電話番号」に「TEL」および「電話」などの文字列が、項目「名前」に「山田」、「鈴木」および「佐藤」などの文字列が、項目「肩書」に「社長」、「部長」、「本部長」、「課長」および「係長」などの文字列がそれぞれ示されている。項目分類部13は、認識される文字列がキーワード辞書中の文字列と一致するか否かを調べて、認識される文字列を各項目に分類する。たとえば認識される文字列に「大阪府」が含まれる場合、認識される文字列「大阪府」と、キーワード辞書情報31の項目「住所」中の文字列「大阪府」とが一致するので、認識される文字列「大阪府」は項目「住所」に分類される。   FIG. 3 is a diagram illustrating an example of the keyword dictionary information 31. The keyword dictionary information 31 is information representing a keyword dictionary in which character strings serving as keywords are classified for each item. For example, a character string such as “Osaka Prefecture”, “Nara Prefecture”, and “Tenri City” is included in the item “address”, and a character string such as “http: //” and “www” is included in the item “URL”. Character strings such as “TEL” and “Telephone” in the “Number”, character strings such as “Yamada”, “Suzuki” and “Sato” in the “Name” item, “President” and “General Manager” in the “Title” item , Character strings such as “head of division”, “section manager” and “section chief” are shown. The item classification unit 13 examines whether or not the recognized character string matches the character string in the keyword dictionary, and classifies the recognized character string into each item. For example, when “Osaka Prefecture” is included in the recognized character string, the recognized character string “Osaka Prefecture” matches the character string “Osaka Prefecture” in the item “address” of the keyword dictionary information 31. The recognized character string “Osaka Prefecture” is classified into the item “address”.

図4は、数字配置に関するルール情報32の一例を示す図である。ルール情報32は、認識される文字列の数字の配置または並びに基づいて、認識される文字列をどの項目に分類するかを定めるルールを表す情報である。図4に示したルール情報32には、たとえば項目「携帯番号」に「(数字3文字)(ハイフン)(数字4文字)(ハイフン)(数字4文字)」、項目「固定電話」に「(数字3文字)(ハイフン)(数字3文字)(ハイフン)(数字4文字)」、項目「FAX」に「(認識文字列がFAXに関するキーワードを含む場合はFAX番号に分類する)」、項目「郵便番号」に「(数字3文字)(ハイフン)(数字4文字)」、項目「住所」に「(ルールに合致せず、数字とハイフンからなる場合は、住所の番地とみなして住所に分類する)」などのルールがそれぞれ示されている。   FIG. 4 is a diagram illustrating an example of the rule information 32 regarding the number arrangement. The rule information 32 is information representing a rule that determines which item the recognized character string is classified based on the arrangement or arrangement of the numbers of the recognized character string. The rule information 32 shown in FIG. 4 includes, for example, “(3 numbers) (hyphen) (4 numbers) (hyphen) (4 numbers)” in the item “mobile number” and “( (3 numbers) (hyphen) (3 characters) (hyphen) (4 characters) ”,“ (FAX) ”(if the recognized character string includes a keyword related to FAX),“ "Postal code" is "(3 numbers) (hyphen) (4 numbers)" and item "Address" is "(If it does not match the rules and consists of numbers and hyphens, it is regarded as the address of the address and classified as an address. Each rule is shown.

項目分類部13は、認識される文字列がいずれかのルールに該当するか否かを確認して、文字列を各項目に分類する。たとえば「123−4567」という文字列は、ルール情報32の郵便番号を示すルール「(数字3文字)(ハイフン)(数字4文字)」に該当するので、項目「郵便番号」に分類される。ルール情報32は一例であり、たとえば電話番号でハイフンがない場合、および数字の一部が括弧で括られている場合など様々なルールを設定しておくことができる。   The item classification unit 13 confirms whether or not the recognized character string meets any of the rules, and classifies the character string into each item. For example, the character string “123-4567” corresponds to the rule “(3 numeric characters) (hyphen) (4 numeric characters)” indicating the postal code of the rule information 32, and is therefore classified into the item “postal code”. The rule information 32 is an example, and various rules can be set, for example, when there is no hyphen in a telephone number, or when a part of a number is enclosed in parentheses.

記憶手段である項目別修正辞書部14は、記憶装置などを制御して、予め設定される項目ごとに分類される文字列を含む項目別修正辞書を表す項目別修正辞書情報を、各項目が更新された日付を表す更新日付情報と関連付けて記憶する。項目別修正辞書は、修正辞書である。予め設定される項目は、前述した項目分類部13で分類される項目と同一である。更新日付情報は、各文字列を含む項目が最初に作成された日付、または後述する項目別修正辞書更新部21によって、項目中の文字列が変更された日付を表す情報である。   The item-specific correction dictionary unit 14 serving as a storage unit controls the storage device and the like, and each item includes item-specific correction dictionary information representing the item-specific correction dictionary including character strings classified for each preset item. It is stored in association with update date information representing the updated date. The item-specific correction dictionary is a correction dictionary. The items set in advance are the same as the items classified by the item classification unit 13 described above. The update date information is information representing a date when an item including each character string is first created or a date when a character string in the item is changed by the item-specific correction dictionary update unit 21 described later.

図5は、項目別修正辞書情報33の一例を示す図である。項目別修正辞書を示す項目別修正辞書情報33は、住所修正辞書を示す住所修正辞書情報34と、郵便番号修正辞書を示す郵便番号修正辞書情報35と、およびURL修正辞書を示すURL修正辞書情報36などを含んで構成される。   FIG. 5 is a diagram illustrating an example of the item-specific correction dictionary information 33. The item-specific correction dictionary information 33 indicating the item-specific correction dictionary includes the address correction dictionary information 34 indicating the address correction dictionary, the zip code correction dictionary information 35 indicating the zip code correction dictionary, and the URL correction dictionary information indicating the URL correction dictionary. 36 etc. are comprised.

たとえば住所修正辞書情報34は、項目「住所」に分類される「山田町」、「永田町」、「櫟本町」、「山口町」、「天理市」、「奈良市」、「文京区」および「千代田区」などの文字列と更新日付「2007/4/1」とを含んで構成される。住所修正辞書には、各文字列の項目内の位置を示す位置情報が含まれており、位置情報は、たとえば1,2,3,…などの番号が文字列の前にコロンを付されて表され、住所修正辞書で各番号が重複しないように用いられる。   For example, the address correction dictionary information 34 includes “Yamadacho”, “Nagatacho”, “Enomotocho”, “Yamaguchicho”, “Tenri City”, “Nara City”, “Bunkyo Ward”, It includes a character string such as “Chiyoda-ku” and an update date “2007/4/1”. The address correction dictionary includes position information indicating the position in the item of each character string, and the position information includes numbers such as 1, 2, 3,... With a colon in front of the character string. It is expressed so that each number is not duplicated in the address correction dictionary.

郵便番号修正辞書情報35は、項目「郵便番号」に分類される「000−0000」、「000−0001」、「000−0002」、「000−0004」、「000−0015」、「000−0999」および「000−9999」などの文字列と更新日付「2008/5/1」とを含んで構成される。郵便番号修正辞書には、各文字列の項目内の位置を示す位置情報が含まれており、位置情報は、たとえば1,2,3,…などの番号が文字列の前にコロンを付されて表され、郵便番号修正辞書内で各番号が重複しないように用いられる。   The postal code correction dictionary information 35 includes “000-0000”, “000-0001”, “000-0002”, “000-0004”, “000-0015”, “000-” classified into the item “postal code”. A character string such as “0999” and “000-9999” and an update date “2008/5/1” are included. The postal code correction dictionary includes position information indicating the position within each character string item, and the position information is a number such as 1, 2, 3,... With a colon in front of the character string. It is used so that each number is not duplicated in the postal code correction dictionary.

URL修正辞書情報36は、項目「URL」に分類される「http://aaaa.co.jp」、「http://bbbb.co.jp」、「http://cccc.co.jp」、「http://dddd.co.jp」、「http://eeee.co.jp」、「http://ffff.co.jp」および「http://gggg.co.jp」などの文字列と更新日付「2008/1/1」とを含んで構成される。URL修正辞書には、各文字列の項目内の位置を示す位置情報が含まれており、位置情報は、たとえば1,2,3,…などの番号が文字列の前にコロンを付されて表され、URL修正辞書内で各番号が重複しないように用いられる。このように項目別修正辞書では、文字列が項目ごとに分類されていることによって、項目ごとに更新日付を管理することが可能になる。   The URL correction dictionary information 36 includes “http://aaaa.co.jp”, “http://bbbb.co.jp”, “http://cccc.co.jp” classified into the item “URL”. , “Http://dddd.co.jp”, “http://eeee.co.jp”, “http://ffff.co.jp”, “http://gggg.co.jp”, etc. It includes a character string and an update date “2008/1/1”. The URL correction dictionary includes position information indicating the position within each character string item. For example, the position information is numbered 1, 2, 3,... With a colon in front of the character string. It is expressed and used so that each number does not overlap in the URL correction dictionary. As described above, in the item-specific correction dictionary, the update date can be managed for each item because the character strings are classified for each item.

類似度算出手段である類似度算出部15は、項目別修正辞書の項目のうち、分類済文字列と同じ項目に分類される項目の各文字列について、分類済文字列と類似する度合を示す類似度を算出する。項目別修正辞書の項目のうち、分類済文字列が分類される項目と同じ項目を、以下「同一分類項目」という。類似度算出部15では、同一分類項目の各文字列について、分類済文字列と逐次比較して、類似する度合を示す類似度をそれぞれ算出する。2つの文字列の一致度合いを評価する方法としてはDP(Dynamic Programming)マッチングなどの公知の方法がある。一致する文字の数および文字列の長さの違いから類似度をそれぞれ算出し、算出された類似度の値の中から最大値を示す文字列を、項目別修正辞書中から検索し決定する。類似度の値が最大値を示す文字列を、以下「類似文字列」という。項目別修正辞書は各文字列を項目ごとに分類しているので、同一分類項目中の文字列のみを検索することによって、類似文字列を決定することができる。   The similarity calculation unit 15 that is a similarity calculation means indicates the degree of similarity to the classified character string for each character string of items classified into the same item as the classified character string among the items of the item-specific correction dictionary. Calculate similarity. Of the items in the item-specific correction dictionary, the same item as the item into which the classified character string is classified is hereinafter referred to as “same classification item”. The similarity calculation unit 15 sequentially compares each character string of the same classification item with the classified character string, and calculates a similarity indicating the degree of similarity. As a method for evaluating the degree of matching between two character strings, there is a known method such as DP (Dynamic Programming) matching. The similarity is calculated from the difference in the number of matching characters and the length of the character string, and the character string indicating the maximum value is searched from the calculated similarity dictionary and determined. A character string having a maximum similarity value is hereinafter referred to as a “similar character string”. Since the item-specific correction dictionary classifies each character string for each item, a similar character string can be determined by searching only the character string in the same classification item.

日付取得部16は、日時を計時する図示しない計時部、たとえばRTC(Real Time
Clock)、または電波時計用の電波を受信する図示しない受信装置などを制御して、文字認識部12が画像データから文字列を認識した日付である認識日付を取得して、閾値算出部17に送る。項目分類部13で分類される各分類済文字列には、同一の認識日付が用いられる。日付取得部16は、文字認識部12が画像データから文字列を認識した日付を取得する構成としているが、認識した日付のみではなく認識した時刻も取得する構成としてもよい。
The date acquisition unit 16 measures a date and time (not shown) such as an RTC (Real Time).
Clock) or a receiving device (not shown) that receives radio waves for a radio clock, and the like, acquires a recognition date that is a date when the character recognition unit 12 recognized the character string from the image data, and sends it to the threshold calculation unit 17 send. The same recognition date is used for each classified character string classified by the item classification unit 13. The date acquisition unit 16 is configured to acquire the date when the character recognition unit 12 recognized the character string from the image data, but may be configured to acquire not only the recognized date but also the recognized time.

閾値算出手段である閾値算出部17は、日付取得部16から認識日付を受け取り、項目別修正辞書部14から同一分類項目の更新日付を受け取り、更新日付から認識日付までの期間である更新後期間を算出する。各項目ごとに閾値を算出する計算式が予め設定されており、更新後期間に基づき計算式に従って各分類済文字列の閾値を算出して、修正制御部18に送る。   The threshold calculation unit 17 serving as a threshold calculation unit receives the recognition date from the date acquisition unit 16, receives the update date of the same classification item from the item-specific correction dictionary unit 14, and is a post-update period that is a period from the update date to the recognition date Is calculated. A calculation formula for calculating a threshold value for each item is set in advance, and the threshold value of each classified character string is calculated according to the calculation formula based on the post-update period and sent to the correction control unit 18.

閾値は、認識対象文書10中に含まれる文字列が項目別修正辞書中に存在する可能性が高いか否かの度合いを示し、後述する修正制御部18で、分類済文字列を類似文字列に置き換えるか否かを決定するための判断の基準となる値であり、閾値が大きいほど置き換えが行われにくくなる。更新後期間が同一でも、項目の種類によって閾値は異なる。たとえば項目「URL」などは、文字列が変更される頻度が高いので、項目別修正辞書の内容が有効である期間が相対的に短い、すなわち更新後期間が長くなると認識対象文書10中に含まれる文字列が項目別修正辞書中に存在する可能性が低くなる。よって、閾値算出部17では、更新後期間が長くなると大きい閾値が出るように計算式を設定して、分類済文字列の置き換えを行われにくくする。また項目「姓」などは、文字列が変更される頻度が低いので、項目別修正辞書の内容が有効である期間が相対的に長い、すなわち更新後期間が長くなっても認識対象文書10中に含まれる文字列が項目別修正辞書中に存在する可能性が高い。よって、閾値算出部17では、更新後期間が長くなっても小さい閾値が出るように計算式を設定して、分類済文字列の置き換えを行われやすくする。   The threshold indicates the degree of whether or not there is a high possibility that the character string included in the recognition target document 10 exists in the item-specific correction dictionary, and the corrected character string is converted into a similar character string by the correction control unit 18 described later. This is a value used as a reference for determining whether or not to replace, and the larger the threshold value, the more difficult the replacement is performed. Even if the post-update period is the same, the threshold varies depending on the type of item. For example, the item “URL” or the like is included in the recognition target document 10 if the period in which the contents of the item-specific correction dictionary are valid is relatively short, that is, the post-update period is long, because the character string is frequently changed. It is less likely that the character string to be present in the item-specific correction dictionary. Therefore, the threshold value calculation unit 17 sets a calculation formula so that a larger threshold value is obtained when the post-update period becomes longer, thereby making it difficult to replace the classified character string. In addition, since the frequency of changing the character string of the item “last name” is low, the period in which the content of the item-specific correction dictionary is valid is relatively long, that is, even if the post-update period is long, There is a high possibility that the character string included in is in the item-specific correction dictionary. Therefore, the threshold value calculation unit 17 sets a calculation formula so that a small threshold value is obtained even if the post-update period is long, so that the classified character string can be easily replaced.

閾値算出部17は、数式またはパラメータが異なる計算式を項目ごとに設定して、更新後期間の値を計算式に入力して閾値を算出する。項目ごとに設定される計算式は、たとえば文字列が新たに追加または変更されやすいなどという項目の特性によって異なる設定にする。認識対象の文書に含まれる文字列が頻繁に変わり、新しい内容が出てくることが多い項目の場合、閾値を大きくするために、計算式をたとえば二次関数にして、更新後期間の値を二次関数に入力する。認識対象の文書に含まれる文字列がそれほど頻繁に変わらない項目の場合、閾値を小さくするために、計算式をたとえば一次関数にして、更新後期間の値を一次関数に入力する。たとえば計算式が一次関数の場合、傾きを表す係数または切片を表す定数などを、項目ごとに設定することによって、項目の種類に応じた閾値を算出することができる。   The threshold calculation unit 17 sets a calculation formula with different formulas or parameters for each item, and inputs the value of the updated period into the calculation formula to calculate the threshold. The calculation formula set for each item is set differently depending on the characteristics of the item, for example, a character string is easily added or changed. In the case of an item where the character string contained in the document to be recognized changes frequently and new contents often appear, in order to increase the threshold value, the calculation formula is made a quadratic function, for example, and the value of the post-update period is set. Input to quadratic function. In the case of an item in which the character string included in the document to be recognized does not change so frequently, in order to reduce the threshold value, for example, the calculation formula is a linear function and the value of the post-update period is input to the linear function. For example, when the calculation formula is a linear function, a threshold corresponding to the type of item can be calculated by setting a coefficient representing a slope or a constant representing an intercept for each item.

図6は、閾値算出部17で閾値を算出する処理の工程を説明するための図である。第1工程では、閾値算出部17が日付取得部16から認識日付を受け取る。文字認識部12が文字認識を行う際に、日付取得部16によって認識日付が取得され、閾値算出部17に送られる。同時に認識された文字列には、分類済文字列の項目に関わらず同じ認識日付、たとえば2008年9月1日を使用する。   FIG. 6 is a diagram for explaining a process of calculating a threshold value by the threshold value calculation unit 17. In the first step, the threshold calculation unit 17 receives the recognition date from the date acquisition unit 16. When the character recognition unit 12 performs character recognition, the date acquisition unit 16 acquires the recognition date and sends it to the threshold value calculation unit 17. For the character strings recognized at the same time, the same recognition date, for example, September 1, 2008, is used regardless of the item of the classified character string.

第2工程では、閾値算出部17が、項目別修正辞書部14から同一分類項目の更新日付を表す更新日付情報をそれぞれ受け取る。たとえば項目「住所」の更新日付は2008年4月1日であり、項目「郵便番号」の更新日付は2008年1月1日であり、項目「URL」の更新日付は2008年7月1日であり、項目「電話番号」の更新日付は2008年2月1日である。   In the second step, the threshold value calculation unit 17 receives update date information representing the update date of the same classification item from the item-specific correction dictionary unit 14. For example, the update date of the item “address” is April 1, 2008, the update date of the item “zip code” is January 1, 2008, and the update date of the item “URL” is July 1, 2008. The update date of the item “telephone number” is February 1, 2008.

第3工程では、閾値算出部17が、認識日付と更新日付とから更新後期間をそれぞれの分類済文字列について算出する。たとえば項目「住所」の更新後期間は5ヶ月であり、項目「郵便番号」の更新後期間は8ヶ月であり、項目「URL」の更新後期間は2ヶ月であり、項目「電話番号」の更新後期間は7ヶ月である。   In the third step, the threshold value calculation unit 17 calculates a post-update period for each classified character string from the recognition date and the update date. For example, the post-update period of the item “address” is 5 months, the post-update period of the item “zip code” is 8 months, the post-update period of the item “URL” is 2 months, and the item “phone number” The period after renewal is 7 months.

第4工程では、閾値算出部17が、項目ごとに閾値をそれぞれ算出する。項目ごとに閾値を算出する計算式である関数が予め設定されており、更新後期間の値を関数に入力してそれぞれの閾値を算出する。たとえば項目「住所」の計算式は関数aであり、項目「郵便番号」の計算式は関数bであり、項目「URL」の計算式は関数cであり、項目「電話番号」の計算式は関数dである。   In the fourth step, the threshold calculation unit 17 calculates a threshold for each item. A function that is a calculation formula for calculating a threshold value for each item is set in advance, and the value of the updated period is input to the function to calculate each threshold value. For example, the calculation formula of the item “address” is the function a, the calculation formula of the item “zip code” is the function b, the calculation formula of the item “URL” is the function c, and the calculation formula of the item “phone number” is Function d.

第5工程では、閾値算出部17が、第4工程で算出されたそれぞれの閾値を修正制御部18に送る。たとえば項目「住所」は閾値Aであり、項目「郵便番号」は閾値Bであり、項目「URL」は閾値Cであり、項目「電話番号」は閾値Dである。図6に示した各工程は一例であり、実際には分類済文字列のすべての項目について閾値が算出される。   In the fifth step, the threshold value calculation unit 17 sends the respective threshold values calculated in the fourth step to the correction control unit 18. For example, the item “address” is the threshold A, the item “zip code” is the threshold B, the item “URL” is the threshold C, and the item “telephone number” is the threshold D. Each process shown in FIG. 6 is an example, and actually threshold values are calculated for all items of the classified character string.

置換手段である修正制御部18は、類似度算出部15で算出された類似度と、閾値算出部17で算出された閾値とを比較して、分類済文字列を項目別修正辞書中の類似文字列に置き換えるか否かを制御して、文字認識の結果を文字コードの形などで認識結果19として出力する。閾値算出部17によって、認識対象文書10中に含まれる文字列が項目別修正辞書中に存在する可能性が高いとして閾値が小さく算出された場合、認識文字列が類似文字列に置き換えられやすくなる。閾値算出部17によって、認識対象文書10中に含まれる文字列が項目別修正辞書中に存在する可能性が高いとして閾値が大きく算出された場合、認識文字列が類似文字列に置き換えられやすくなる。   The correction control unit 18 serving as a replacement unit compares the similarity calculated by the similarity calculation unit 15 with the threshold calculated by the threshold calculation unit 17, and converts the classified character strings into similarities in the item-specific correction dictionary. Whether or not to replace with a character string is controlled, and the result of character recognition is output as a recognition result 19 in the form of a character code. When the threshold value calculation unit 17 calculates a small threshold value because it is highly possible that a character string included in the recognition target document 10 exists in the item-specific correction dictionary, the recognized character string is easily replaced with a similar character string. . When the threshold value calculation unit 17 calculates a large threshold value because there is a high possibility that the character string included in the recognition target document 10 exists in the item-specific correction dictionary, the recognized character string is easily replaced with a similar character string. .

修正制御部18が分類済文字列を類似文字列に置き換えるか否かを制御する3つの方法を説明する。第1の置換制御方法は、類似度の値が閾値以上の場合、認識文字列を類似文字列に置き換えて出力し、類似度の値が閾値未満の場合、認識文字列を類似文字列に置き換えることなく出力するように制御を行う。   Three methods for controlling whether the correction control unit 18 replaces the classified character string with a similar character string will be described. In the first replacement control method, when the similarity value is greater than or equal to the threshold value, the recognized character string is replaced with the similar character string and output. When the similarity value is less than the threshold value, the recognized character string is replaced with the similar character string. Control to output without any problem.

第2の置換制御方法は、類似度の最大値と閾値との差を算出し、算出した差の値と予め定める差分値とを比較して、差の値が予め定める差分値以上の場合、認識文字列を類似文字列に置き換えて出力し、差の値が予め定める差分値未満の場合、認識文字列を類似文字列に置き換えずに分類済文字列をそのまま出力するように制御を行う。たとえば閾値よりも100大きい値を第1の基準値として、類似度の最大値が第1の基準値以上の場合に置換を行う、または閾値よりも50小さい値を第2の基準値として、類似度の最大値が第2の基準値以上の場合に置換を行うなどの制御が可能になる。予め定める差分値を0にすることによって、第1の置換制御方法と同様の制御を行うこともできる。   The second replacement control method calculates a difference between the maximum value of the similarity and the threshold, compares the calculated difference value with a predetermined difference value, and if the difference value is equal to or larger than a predetermined difference value, When the recognized character string is replaced with a similar character string and output, and the difference value is less than a predetermined difference value, control is performed so that the classified character string is output as it is without replacing the recognized character string with the similar character string. For example, a value that is 100 larger than the threshold value is used as the first reference value, and replacement is performed when the maximum similarity value is equal to or greater than the first reference value, or a value that is 50% smaller than the threshold value is used as the second reference value. When the maximum value of the degree is greater than or equal to the second reference value, control such as replacement is possible. By setting the predetermined difference value to 0, control similar to the first replacement control method can be performed.

第3の置換制御方法は、類似度の最大値と閾値との比率を算出し、算出した比率と予め定める比率とを比較して、比率が予め定める比率以上の場合、認識文字列を類似文字列に置き換えて出力し、比率が予め定める比率未満の場合、認識文字列を類似文字列に置き換えずに分類済文字列をそのまま出力するように制御を行う。比率は、たとえば「類似度の最大値÷閾値×100(%)」などで表すことができる。予め定める比率を任意に設定することによって、たとえば類似度の最大値が閾値の95%以上である場合に置換を行うなどの制御を行うことができる。予め定める比率を100%にすることによって、第1の置換制御方法と同様の制御を行うこともできる。   The third replacement control method calculates the ratio between the maximum value of the similarity and the threshold value, compares the calculated ratio with a predetermined ratio, and if the ratio is equal to or higher than the predetermined ratio, the recognized character string is determined as a similar character. If the ratio is less than a predetermined ratio, the classified character string is output as it is without replacing the recognized character string with a similar character string. The ratio can be expressed by, for example, “maximum value of similarity / threshold value × 100 (%)”. By arbitrarily setting a predetermined ratio, for example, it is possible to perform control such as replacement when the maximum value of similarity is 95% or more of the threshold value. By setting the predetermined ratio to 100%, the same control as the first replacement control method can be performed.

修正辞書更新手段である項目別修正辞書更新部21は、項目別修正辞書部14に記憶される項目別修正辞書を更新するための項目別修正辞書更新情報20を外部から取得して、項目別修正辞書更新情報20に基づいて項目別修正辞書部14に記憶されている辞書情報と日付情報とを変更する。   The item-specific correction dictionary updating unit 21 serving as a correction dictionary updating unit obtains item-specific correction dictionary update information 20 for updating the item-specific correction dictionary stored in the item-specific correction dictionary unit 14 from the outside, and item-specific correction dictionary update unit 21. Based on the correction dictionary update information 20, the dictionary information and date information stored in the item-specific correction dictionary unit 14 are changed.

項目別修正辞書更新部21は、コンパクトディスクまたは半導体メモリなどの記録媒体から情報を取得することができる図示しない情報処理装置などを制御して、たとえばコンパクトディスクまたは半導体メモリなどの記録媒体に記録される項目別修正辞書更新情報20を外部から取得する。また通信ネットワークなどを介して外部と通信可能な図示しない通信部を文字認識装置1に設けることによって、項目別修正辞書更新部21は、通信部を介して項目別修正辞書更新情報20を取得することもできる。   The item-specific correction dictionary updating unit 21 controls an information processing apparatus (not shown) that can acquire information from a recording medium such as a compact disk or a semiconductor memory, and is recorded on a recording medium such as a compact disk or a semiconductor memory. The item-specific corrected dictionary update information 20 is acquired from the outside. Further, by providing the character recognition device 1 with a communication unit (not shown) that can communicate with the outside via a communication network or the like, the item-specific correction dictionary update unit 21 acquires the item-specific correction dictionary update information 20 via the communication unit. You can also

図7は、項目別修正辞書更新情報20の一例を示す図である。項目別修正辞書更新情報20は、更新すべき項目を表す項目情報と、更新すべき文字列の項目内の位置を表す位置情報と、更新後の文字列を表す文字列情報とを含んでいる。項目情報は、項目別修正辞書部14のどの項目の文字列を変更するかを示す。位置情報は、変更する文字列が項目内のどの位置にあるかを示す。項目情報と位置情報とは、どの文字列を変更するかを示すインデックスとなる。   FIG. 7 is a diagram illustrating an example of the item-specific correction dictionary update information 20. The item-specific correction dictionary update information 20 includes item information representing an item to be updated, position information representing a position in the item of the character string to be updated, and character string information representing the updated character string. . The item information indicates which item of the item-specific correction dictionary unit 14 is to be changed. The position information indicates where the character string to be changed is in the item. The item information and the position information are indexes indicating which character string is to be changed.

図7に示した項目別修正辞書更新情報20には、項目「住所」について位置情報である番号「4」および更新後の文字列である内容「山田町」が示され、項目「郵便番号」について位置情報である番号「7」および更新後の文字列である内容「000−9991」が示され、項目「URL」について位置情報である番号「6」および更新後の文字列である内容「http://ffff.com」が示されている。たとえば、項目別修正辞書更新情報20が項目「住所」、位置情報「4」および文字列「山田町」の場合は、項目別修正辞書の住所項目の番号4の文字列を山田町に変更させるということを示す。項目別修正辞書更新情報20は、変更させる文字列に関する情報のみから構成され、変更する必要がない文字列に関する情報は含まれない。   In the item-specific corrected dictionary update information 20 shown in FIG. 7, the number “4” that is position information and the content “Yamadacho” that is the updated character string are shown for the item “address”, and the item “zip code”. The number “7” as the position information and the content “000-9991” as the updated character string are shown for the item “URL”, the number “6” as the position information for the item “URL” and the content “as the character string after the update” http://ffff.com ”. For example, when the item-specific correction dictionary update information 20 is the item “address”, the position information “4”, and the character string “Yamadacho”, the character string of number 4 of the address item in the item-specific correction dictionary is changed to Yamadacho. It shows that. The item-specific correction dictionary update information 20 includes only information related to a character string to be changed, and does not include information related to a character string that does not need to be changed.

閾値算出方法更新手段である閾値算出方法更新部23は、閾値を算出する計算式を表す計算式情報を更新するための第2の更新情報である閾値算出方法更新情報22を外部から取得する。閾値算出部17は、閾値を算出する計算式を表す計算式情報を予め設定される項目ごとに記憶している。閾値算出方法更新部23は、閾値算出方法更新情報22に基づいて、閾値算出部17が記憶する計算式情報を変更する。   The threshold value calculation method updating unit 23 that is a threshold value calculation method update unit obtains from the outside threshold value calculation method update information 22 that is second update information for updating calculation formula information that represents a calculation formula for calculating a threshold value. The threshold calculation unit 17 stores calculation formula information representing a calculation formula for calculating a threshold for each preset item. The threshold calculation method update unit 23 changes the calculation formula information stored in the threshold calculation unit 17 based on the threshold calculation method update information 22.

閾値算出方法更新部23は、コンパクトディスクまたは半導体メモリなどの記録媒体から情報を取得することができる図示しない情報処理装置などを制御して、たとえばコンパクトディスクまたは半導体メモリなどの記録媒体に記録される閾値算出方法更新情報22を外部から取得する。また通信ネットワークなどを介して外部と通信可能な図示しない通信部を文字認識装置1に設けることによって、閾値算出方法更新部23は、通信部を介して閾値算出方法更新情報22を取得することもできる。さらに文字認識装置1にキーボードなどの図示しない入力部を設け、ユーザが入力部から関数または関数に含まれるパラメータを入力することによって、閾値算出方法更新部23は計算式を変更することもできる。   The threshold value calculation method updating unit 23 controls an information processing apparatus (not shown) that can acquire information from a recording medium such as a compact disk or a semiconductor memory, and is recorded on a recording medium such as a compact disk or a semiconductor memory. The threshold calculation method update information 22 is acquired from the outside. Further, by providing the character recognition device 1 with a communication unit (not shown) that can communicate with the outside via a communication network or the like, the threshold value calculation method update unit 23 may acquire the threshold value calculation method update information 22 via the communication unit. it can. Furthermore, the threshold value calculation method updating unit 23 can change the calculation formula when the character recognition device 1 is provided with an input unit (not shown) such as a keyboard and the user inputs a function or a parameter included in the function from the input unit.

図8は、閾値算出方法更新情報22の一例を示す図である。閾値を算出する計算式を変更する方法は、たとえば二次関数を一次関数に変更するなど、計算式である関数を変更する方法と、たとえば一次関数の傾きを示す係数または切片を示す定数を変更するなど、関数に含まれるパラメータを変更する方法とがある。閾値算出方法更新情報22は、更新すべき項目を表す項目情報と、更新後の計算式または計算式に含まれるパラメータを表す情報とを含んでいる。閾値を算出する計算式は項目ごとに予め設定されており、項目情報は、どの項目の計算式を変更するかを示すインデックスとなる。   FIG. 8 is a diagram illustrating an example of the threshold value calculation method update information 22. To change the calculation formula for calculating the threshold, change the function that is the calculation formula, such as changing the quadratic function to a linear function, and change the coefficient indicating the slope of the linear function or the constant indicating the intercept, for example. For example, there is a method of changing parameters included in the function. The threshold value calculation method update information 22 includes item information indicating items to be updated and information indicating the updated calculation formulas or parameters included in the calculation formulas. The calculation formula for calculating the threshold is set in advance for each item, and the item information is an index indicating which item the calculation formula is to be changed.

図8に示した閾値算出方法更新情報22には、項目「URL」に関数「f_url(x)=ax^2+b」が示され、項目「住所」にパラメータ「c,d」が示されている。閾値算出方法更新情報22は、たとえば項目「URL」について、閾値を算出する計算式を関数「f_url(x)=ax^2+b」に変更することを示す。変数xには、更新後期間の値が入力される。また閾値算出方法更新情報22は、項目「住所」について、関数に含まれるのパラメータのみを「c,d」に変更することを示す。パラメータのみを変更することによって、たとえば関数そのものは変更せずに変数の係数のみを変更させることができる。閾値算出方法更新情報22は、計算式を変更させる項目に関する情報のみから構成され、計算式を変更する必要がない項目に関する情報は含まれない。   In the threshold value calculation method update information 22 shown in FIG. 8, the function “f_url (x) = ax ^ 2 + b” is indicated in the item “URL”, and the parameters “c, d” are indicated in the item “address”. . The threshold value calculation method update information 22 indicates that, for example, for the item “URL”, the calculation formula for calculating the threshold value is changed to the function “f_url (x) = ax ^ 2 + b”. A value for the post-update period is input to the variable x. The threshold calculation method update information 22 indicates that only the parameter included in the function is changed to “c, d” for the item “address”. By changing only the parameter, for example, only the coefficient of the variable can be changed without changing the function itself. The threshold value calculation method update information 22 is composed only of information relating to an item whose calculation formula is to be changed, and does not include information relating to an item which does not need to be changed.

図9は、文字認識方法の処理を示すフローチャートである。文字認識装置1が認識対象である文字列が含まれる認識対象文書10の文字認識を行うときに、ステップS1に進んで処理が開始される。ステップS2では、画像入力部11が、認識対象文書10の画像を表す画像データを、たとえばカメラまたはイメージスキャナなどで取得する。   FIG. 9 is a flowchart showing processing of the character recognition method. When the character recognition device 1 performs character recognition of the recognition target document 10 including the character string to be recognized, the process proceeds to step S1 to start processing. In step S2, the image input unit 11 acquires image data representing an image of the recognition target document 10 using, for example, a camera or an image scanner.

認識ステップであるステップS3では、文字認識部12が、画像データに含まれる文字列を認識する。分類ステップであるステップS4では、項目分類部13が、文字認識部12で認識されている文字列を、予め設定される項目ごとに分類する。   In step S3, which is a recognition step, the character recognition unit 12 recognizes a character string included in the image data. In step S4, which is a classification step, the item classification unit 13 classifies the character string recognized by the character recognition unit 12 for each item set in advance.

ステップS5では、日付取得部16が、文字認識部12によって文字認識が行われた日付である認識日付を取得して、認識日付を閾値算出部17に送る。ステップS6では、修正制御部18が、分類される分類済文字列のすべてについて、後述するステップS11での置換可否の判断が行われたか否かを判断する。置換可否の判断がすべての分類済文字列について行われている場合、ステップS13に進み、置換可否の判断がすべての分類済文字列について行われていない場合、ステップS7に進む。   In step S <b> 5, the date acquisition unit 16 acquires a recognition date that is a date on which character recognition is performed by the character recognition unit 12, and sends the recognition date to the threshold value calculation unit 17. In step S6, the correction control unit 18 determines whether or not replacement of all the classified character strings to be classified has been determined in step S11 described later. If the determination of whether or not replacement is possible has been performed for all classified character strings, the process proceeds to step S13, and if the determination of whether or not replacement is possible has not been performed for all classified character strings, the process proceeds to step S7.

ステップS7では、類似度算出部15が、項目別修正辞書部14の同一項目中のすべての文字列について分類済文字列との類似度を算出する。類似度の算出は、項目別修正辞書の項目のうち同一分類項目のみについて行われる。ステップS8では、類似度算出部15が、算出した類似度の値のうちの最大値と、類似度の最大値を示す文字列である類似文字列とを決定する。ステップS7,S8は、類似度算出ステップである。   In step S <b> 7, the similarity calculation unit 15 calculates the similarity with the classified character strings for all character strings in the same item of the item-specific correction dictionary unit 14. The similarity is calculated only for the same classification item among the items in the item-specific correction dictionary. In step S8, the similarity calculation unit 15 determines a maximum value among the calculated similarity values and a similar character string that is a character string indicating the maximum value of the similarity. Steps S7 and S8 are similarity calculation steps.

ステップS9では、閾値算出部17が、同一分類項目の更新日付と認識日付とから、更新後期間を算出する。ステップS10では、閾値算出部17が、分類済文字列の項目と更新後期間とから閾値を算出する。閾値算出部17は、項目ごとに予め設定される関数に更新後期間の値を入力することによって閾値を算出する。ステップS9,S10は、閾値算出ステップである。   In step S9, the threshold value calculation unit 17 calculates the post-update period from the update date and the recognition date of the same classification item. In step S10, the threshold value calculation unit 17 calculates a threshold value from the item of the classified character string and the updated period. The threshold value calculation unit 17 calculates the threshold value by inputting the value of the updated period to a function set in advance for each item. Steps S9 and S10 are threshold value calculation steps.

ステップS11では、修正制御部18が、類似度の最大値と閾値とに応じて、分類済文字列を類似文字列に置き換えるか否かを制御する。具体的には、前述した第1の置換制御方法、第2の置換制御方法または第3の置換制御方法などによって制御を行う。置き換えを行うと判断する場合ステップS12に進み、置き換えを行わないと判断する場合ステップS6に進む。ステップS12では、修正制御部18が、分類済文字列を類似文字列に置き換えて分類済文字列の修正を行い、ステップS6に進む。ステップS11,S12は、置換ステップである。ステップS7〜S12は、分類済文字列ごとにそれぞれ行われる処理である。   In step S11, the correction control unit 18 controls whether or not to replace the classified character string with a similar character string according to the maximum value of the similarity and the threshold value. Specifically, the control is performed by the first replacement control method, the second replacement control method, or the third replacement control method described above. If it is determined that replacement is to be performed, the process proceeds to step S12. If it is determined that replacement is not to be performed, the process proceeds to step S6. In step S12, the correction control unit 18 corrects the classified character string by replacing the classified character string with a similar character string, and proceeds to step S6. Steps S11 and S12 are replacement steps. Steps S7 to S12 are processes performed for each classified character string.

ステップS13では、ステップS6ですべての分類済文字列について置換可否の判断が行われたと判断された後に、修正制御部18が文字認識の結果を出力して、ステップS14に進んで処理は終了する。   In step S13, after it is determined in step S6 that all the classified character strings have been replaced or not, the correction control unit 18 outputs the result of character recognition, and the process proceeds to step S14 and the process ends. .

文字認識装置1が、カメラまたはイメージスキャナなどを含まない構成である場合、ステップS2を省略することができる。その場合はステップS3で、文字認識部12が認識対象文書10の画像を表す画像データを外部から取得して画像データに含まれる文字列を認識するようにすればよい。   When the character recognition device 1 is configured not to include a camera or an image scanner, step S2 can be omitted. In that case, in step S3, the character recognition unit 12 may acquire image data representing an image of the recognition target document 10 from the outside and recognize a character string included in the image data.

文字認識装置1の記憶装置に記憶される制御プログラムは、コンピュータを、文字認識部12である認識手段、項目分類部13である分類手段、類似度算出部15である類似度算出手段、閾値算出部17である閾値算出手段、および修正制御部18である置換手段などの各手段として機能させるための文字認識プログラムである。したがって、文字認識プログラムを、コンピュータを文字認識装置1の各手段として機能させるためのプログラムとして提供することができる。   The control program stored in the storage device of the character recognition device 1 includes a computer, a recognition unit that is the character recognition unit 12, a classification unit that is the item classification unit 13, a similarity calculation unit that is the similarity calculation unit 15, and a threshold calculation. This is a character recognition program for causing each unit to function as a threshold calculation unit that is a unit 17 and a replacement unit that is a correction control unit 18. Therefore, the character recognition program can be provided as a program for causing a computer to function as each unit of the character recognition device 1.

文字認識装置1では、文字認識プログラムがたとえば半導体メモリまたはハードディスク装置などの記憶装置に記憶されているが、これらの記憶装置に限定されるものではなく、コンピュータで読み取り可能な記録媒体に記録されていてもよい。記録媒体は、たとえば図示しない外部記憶装置としてプログラム読取装置を設け、そこに記録媒体を挿入することによって読み取り可能な記録媒体であってもよいし、または他の装置の記憶装置であってもよい。   In the character recognition device 1, the character recognition program is stored in a storage device such as a semiconductor memory or a hard disk device, but is not limited to these storage devices, and is recorded in a computer-readable recording medium. May be. The recording medium may be a recording medium that can be read by providing a program reading device as an external storage device (not shown) and inserting the recording medium therein, or may be a storage device of another device. .

いずれの記録媒体であっても、記憶されている文字認識プログラムがコンピュータからアクセスされて実行される構成であればよい。またはいずれの記録媒体であっても、文字認識プログラムが読み出され、読み出された文字認識プログラムが、記憶装置のプログラム記憶エリアに記憶されて、文字認識プログラムが実行される構成であってもよい。   Any recording medium may be used as long as the stored character recognition program is accessed from a computer and executed. Alternatively, in any recording medium, the character recognition program is read out, the read character recognition program is stored in the program storage area of the storage device, and the character recognition program is executed. Good.

本体と分離可能に構成される記録媒体は、たとえば磁気テープ/カセットテープなどのテープ系の記録媒体、フレキシブルディスク/ハードディスクなどの磁気ディスク、CD−ROM(Compact Disk Read Only Memory)/MO(Magneto Optical disk)/MD(
Mini Disc)/DVD(Digital Versatile Disk)/ブルーレイディスクなどの光ディスクのディスク系の記録媒体、メモリカードを含むIC(Integrated Circuit)カード/光カードなどのカード系の記録媒体、またはマスクROM/EPROM(Erasable
Programmable Read Only Memory)/EEPROM(Electrically Erasable
Programmable Read Only Memory)/フラッシュROMなどの半導体メモリを含む固定的にプログラムを担持する記録媒体であってもよい。コンピュータを文字認識装置1の各手段として機能させるための文字認識プログラムを、上記記録媒体などに記録することができる。したがって、文字認識プログラムをコンピュータ読み取り可能な記録媒体として提供することができる。
The recording medium configured to be separable from the main body is, for example, a tape recording medium such as a magnetic tape / cassette tape, a magnetic disk such as a flexible disk / hard disk, a CD-ROM (Compact Disk Read Only Memory) / MO (Magneto Optical). disk) / MD (
Disc recording media of optical discs such as Mini Disc) / DVD (Digital Versatile Disk) / Blu-ray Disc, IC (Integrated Circuit) cards including memory cards / card recording media such as optical cards, or mask ROM / EPROM ( Erasable
Programmable Read Only Memory / EEPROM (Electrically Erasable
Programmable Read Only Memory) or a recording medium that carries a fixed program including a semiconductor memory such as a flash ROM. A character recognition program for causing a computer to function as each unit of the character recognition device 1 can be recorded on the recording medium or the like. Therefore, the character recognition program can be provided as a computer-readable recording medium.

文字認識プログラムが、コンピュータ読み取り可能な記録媒体に記録されていなくても、通信ネットワークを介して他の装置から文字認識プログラムのダウンロードを行い、文字認識装置1のプログラム記憶エリアに記憶させることもできる。したがって、通信網などの情報を伝送する機能を有する媒体によって、文字認識プログラムを伝送することができるので、文字認識装置1の各手段として機能させるための文字認識プログラムを伝送する情報伝送媒体として提供することもできる。   Even if the character recognition program is not recorded on a computer-readable recording medium, the character recognition program can be downloaded from another device via a communication network and stored in the program storage area of the character recognition device 1. . Therefore, since the character recognition program can be transmitted by a medium having a function of transmitting information such as a communication network, it is provided as an information transmission medium for transmitting a character recognition program for functioning as each unit of the character recognition device 1. You can also

このように、項目別修正辞書部14によって、予め設定される項目ごとに分類される文字列を含む項目別修正辞書を表す項目別修正辞書情報が、各項目が更新された日付を表す更新日付情報と関連付けて記憶される。文字認識部12によって、認識対象である文字列が含まれる画像を表す画像データから文字列が認識される。項目分類部13によって、文字認識部12によって認識される文字列が、予め設定される項目のうちのいずれかに分類される。類似度算出部15によって、項目別修正辞書部14によって記憶される項目別修正辞書情報が示す項目別修正辞書の項目のうち、項目分類部13によって分類される分類済文字列が分類される項目と同じ項目である同一分類項目の各文字列について、分類済文字列と類似する度合を示す類似度が算出され、算出された類似度の値のうち最大値を示す文字列が類似文字列として決定される。閾値算出部17によって、文字認識部12によって文字列が認識される日付である認識日付と、同一分類項目に関連付けられる更新日付情報が示す更新日付とに基づいて、認識対象文書10中に含まれる文字列が項目別修正辞書中に存在する可能性が高いか否かの度合いを示す閾値が算出される。修正制御部18によって、類似度算出部15で算出される類似度の最大値と、閾値算出部17で算出される閾値とに応じて、分類済文字列が類似文字列に置き換えられる。   As described above, the item-specific correction dictionary information representing the item-specific correction dictionary including the character string classified for each item set in advance by the item-specific correction dictionary unit 14 represents the date when each item was updated. Stored in association with information. The character recognition unit 12 recognizes a character string from image data representing an image including the character string to be recognized. The item classification unit 13 classifies the character string recognized by the character recognition unit 12 into any of preset items. Items by which the classified character string classified by the item classification unit 13 is classified by the similarity calculation unit 15 among the items of the item-specific correction dictionary indicated by the item-specific correction dictionary information stored by the item-specific correction dictionary unit 14. For each character string of the same classification item that is the same item as, a similarity indicating the degree similar to the classified character string is calculated, and the character string indicating the maximum value among the calculated similarity values is used as a similar character string It is determined. Included in the recognition target document 10 based on the recognition date, which is the date on which the character recognition unit 12 recognizes the character string, and the update date indicated by the update date information associated with the same classification item by the threshold calculation unit 17. A threshold value indicating the degree of whether or not there is a high possibility that the character string exists in the item-specific correction dictionary is calculated. The correction control unit 18 replaces the classified character string with the similar character string according to the maximum value of the similarity calculated by the similarity calculation unit 15 and the threshold calculated by the threshold calculation unit 17.

したがって、認識される文字列の項目と項目別修正辞書の更新日付とから、認識対象文書10中に含まれる文字列が項目別修正辞書中に存在する可能性が高いか否かの度合いを閾値として数値化することができ、類似度の最大値と閾値とに応じて、認識される文字列を辞書中の文字列に置き換えるか否かを制御することができる。よって、認識される文字列を辞書中の文字列に不適切に置き換えることを防止して、文字認識の精度を向上させる文字認識装置を提供することができる。   Therefore, the threshold value is a degree of whether or not there is a high possibility that the character string included in the recognition target document 10 exists in the item-specific correction dictionary from the recognized character string item and the update date of the item-specific correction dictionary. It is possible to control whether to replace the recognized character string with the character string in the dictionary according to the maximum value of the similarity and the threshold value. Therefore, it is possible to provide a character recognition device that prevents improper replacement of a recognized character string with a character string in a dictionary and improves the accuracy of character recognition.

さらに、閾値算出部17によって、認定日付と更新日付とによって決まる更新後期間に応じた閾値が、項目ごとに予め設定される計算式に従って算出されることによって、項目の種類および更新後期間に応じた閾値を、項目ごとに算出して置き換えを行うか否かを制御することができるので、文字認識の精度をさらに向上させる文字認識装置を提供することができる。また、認識される文字列全体に対してではなく、個々の文字列ごとに置き換えが行われやすくするか否かを設定することができる。   Furthermore, the threshold value calculation unit 17 calculates a threshold value according to the post-update period determined by the certification date and the update date according to a calculation formula set in advance for each item, thereby depending on the item type and the post-update period. Since it is possible to control whether or not the replacement is performed by calculating the threshold value for each item, it is possible to provide a character recognition device that further improves the accuracy of character recognition. In addition, it is possible to set whether or not replacement is easily performed for each character string, not for the entire recognized character string.

さらに、修正制御部18によって、類似度の最大値が閾値以上の場合、分類済文字列が類似文字列に置き換えられ、類似度の最大値が閾値未満の場合、分類済文字列が類似文字列に置き換えられないことによって、類似度の最大値と閾値とに応じて、置き換えを行うか否かを適切に制御することができる。   Furthermore, when the maximum value of the similarity is equal to or greater than the threshold, the correction control unit 18 replaces the classified character string with a similar character string. When the maximum value of the similarity is less than the threshold, the classified character string is replaced with the similar character string. By not being replaced with, it is possible to appropriately control whether or not to perform the replacement according to the maximum value of the similarity and the threshold value.

さらに、修正制御部18によって、類似度の最大値と閾値との差を算出し、算出した差の値と予め定める差分値とが比較される。差の値が予め定める差分値以上の場合、分類済文字列が類似文字列に置き換えられ、差の値が予め定める差分値未満の場合、分類済文字列が類似文字列に置き換えられないことによって、認識される文字列の置き換えが行われやすくなるか否かを、項目ごとではなく一律に設定することができる。   Further, the correction control unit 18 calculates a difference between the maximum value of the similarity and the threshold value, and compares the calculated difference value with a predetermined difference value. If the difference value is greater than or equal to the predetermined difference value, the classified character string is replaced with a similar character string, and if the difference value is less than the predetermined difference value, the classified character string is not replaced with a similar character string. Whether or not the recognized character string is easily replaced can be set uniformly instead of for each item.

さらに、修正制御部18によって、類似度の最大値と閾値との比率を算出し、算出した比率と予め定める比率とが比較される。比率が予め定める比率以上の場合、認識文字列が類似文字列に置き換えられ、比率が予め定める比率未満の場合、認識文字列が類似文字列に置き換えられないことによって、認識される文字列の置き換えが行われやすくなるか否かを、項目ごとではなく一律に設定することができる。   Further, the correction control unit 18 calculates a ratio between the maximum value of the similarity and the threshold value, and compares the calculated ratio with a predetermined ratio. When the ratio is greater than or equal to the predetermined ratio, the recognized character string is replaced with a similar character string, and when the ratio is less than the predetermined ratio, the recognized character string is not replaced with the similar character string, so that the recognized character string is replaced. It is possible to uniformly set whether or not it is easy to be performed, not for each item.

さらに、項目別修正辞書更新部21によって、項目別修正辞書を更新するための項目別修正辞書更新情報20が外部から取得され、項目別修正辞書更新情報20に基づいて項目別修正辞書部14に記憶される項目別修正辞書情報および更新日付情報が変更されることによって、項目ごとに管理されている項目別修正辞書を更新して、古くなった項目別修正辞書中の文字列を新しい文字列に変更するので、文字認識の精度を向上させることができる。   Further, the item-specific correction dictionary update unit 21 obtains item-specific correction dictionary update information 20 for updating the item-specific correction dictionary from the outside, and the item-specific correction dictionary update information 20 stores the item-specific correction dictionary update information 20. By updating the stored item-specific correction dictionary information and update date information, the item-specific correction dictionary managed for each item is updated, and the old character string in the item-specific correction dictionary is replaced with a new character string. Therefore, the accuracy of character recognition can be improved.

さらに、更新情報である項目別修正辞書更新情報20が、更新すべき項目を表す項目情報と、更新すべき文字列の項目内の位置を表す位置情報と、更新後の文字列を表す文字列情報とを含んでいることによって、項目情報と位置情報とをインデックスとして、項目別修正辞書中の文字列を新たな文字列に適切に変更することができる。   Further, the item-specific correction dictionary update information 20 that is update information includes item information representing an item to be updated, position information representing a position in the item of the character string to be updated, and a character string representing a character string after the update. By including the information, the character string in the item-specific correction dictionary can be appropriately changed to a new character string using the item information and the position information as indexes.

さらに、閾値算出部17によって、閾値を算出する計算式を表す計算式情報が項目ごとに記憶される。閾値算出方法更新部23によって、計算式情報を更新するための第2の更新情報である閾値算出方法更新情報22が外部から取得され、閾値算出方法更新情報22に基づいて計算式情報が変更されることによって、閾値を算出する計算式を項目ごと変更することができるので、文字列の置き換えが行われやすくなるか否かを項目ごとに任意に調整することができる。   Further, the threshold calculation unit 17 stores calculation formula information representing a calculation formula for calculating the threshold for each item. The threshold calculation method update unit 23 obtains from the outside threshold calculation method update information 22 as second update information for updating the calculation formula information, and the calculation formula information is changed based on the threshold calculation method update information 22. Thus, since the calculation formula for calculating the threshold can be changed for each item, it is possible to arbitrarily adjust for each item whether or not the character string is easily replaced.

さらに、第2の更新情報である閾値算出方法更新情報22が、更新すべき項目を表す項目情報と、更新後の計算式または計算式に含まれるパラメータを表す情報とを含んでいることによって、項目情報をインデックスとして、項目ごとに閾値を算出する計算式を適切に変更することができる。   Furthermore, the threshold value calculation method update information 22 that is the second update information includes item information that represents an item to be updated, and information that represents a calculation formula after update or a parameter included in the calculation formula, Using the item information as an index, the calculation formula for calculating the threshold value for each item can be appropriately changed.

さらに、文字認識プログラムによって、コンピュータを、予め設定される項目ごとに分類される文字列を含む項目別修正辞書を表す項目別修正辞書情報を、各項目が更新された日付を表す更新日付情報と関連付けて記憶する項目別修正辞書部14と、認識対象である文字列が含まれる画像を表す画像データから文字列を認識する文字認識部12と、文字認識部12によって認識される文字列を、予め設定される項目のうちのいずれかに分類する項目分類部13と、項目別修正辞書部14によって記憶される項目別修正辞書情報が示す項目別修正辞書の項目のうち、項目分類部13によって分類される分類済文字列が分類される項目と同じ項目である同一分類項目の各文字列について、分類済文字列と類似する度合を示す類似度を算出し、算出された類似度の値のうち最大値を示す文字列を類似文字列として決定する類似度算出部15と、文字認識部12によって文字列が認識される日付である認識日付と、同一分類項目に関連付けられる更新日付情報が示す更新日付とに基づいて、認識対象文書10中に含まれる文字列が項目別修正辞書中に存在する可能性が高いか否かの度合いを示す閾値を算出する閾値算出部17と、類似度算出部15で算出される類似度の最大値と、閾値算出部17で算出される閾値とに応じて、分類済文字列を類似文字列に置き換えるか否かを制御する修正制御部18として機能させることができる。   Further, by the character recognition program, the computer is used to update the item-specific correction dictionary information representing the item-specific correction dictionary including the character strings classified for each preset item, and the update date information representing the date when each item was updated. An item-specific correction dictionary unit 14 to be stored in association with each other, a character recognition unit 12 that recognizes a character string from image data representing an image including a character string to be recognized, and a character string recognized by the character recognition unit 12 Among the items of the item classification dictionary 13 indicated by the item classification dictionary 13 stored in the item classification unit 13 and the item-specific correction dictionary information stored in the item-specific correction dictionary unit 14, the item classification unit 13 classifies the item into one of the preset items. For each character string of the same classification item that is the same item as the classified character string to be classified, a similarity indicating the degree of similarity with the classified character string is calculated and calculated The similarity calculation unit 15 that determines a character string indicating the maximum value among the similarity values obtained as a similar character string, the recognition date that is the date on which the character string is recognized by the character recognition unit 12, and the same classification item Based on the update date indicated by the associated update date information, a threshold calculation for calculating a threshold indicating whether or not there is a high possibility that the character string included in the recognition target document 10 exists in the item-specific correction dictionary. Whether or not to replace the classified character string with the similar character string is controlled according to the maximum value of the similarity calculated by the unit 17 and the similarity calculating unit 15 and the threshold calculated by the threshold calculating unit 17. It can function as the correction control unit 18.

したがって、認識される文字列を辞書中の文字列に不適切に置き換えることを防止して、文字認識の精度を向上させることができるようにコンピュータを機能させる文字認識プログラムを提供することができる。   Therefore, it is possible to provide a character recognition program that causes a computer to function so that the recognized character string can be prevented from being inappropriately replaced with a character string in the dictionary and the accuracy of character recognition can be improved.

さらに、文字認識プログラムをコンピュータ読み取り可能な記録媒体として提供することができる。   Furthermore, the character recognition program can be provided as a computer-readable recording medium.

さらに、認識ステップであるステップS3では、認識対象である文字列が含まれる画像を表す画像データから文字列を認識する。分類ステップであるステップS4では、認識ステップによって認識される文字列を、予め設定される項目のうちのいずれかに分類する。類似度算出ステップであるステップS7,S8では、予め設定される項目ごとに分類される文字列を含む項目別修正辞書を表す項目別修正辞書情報を、各項目が更新された日付を表す更新日付情報と関連付けて記憶する項目別修正辞書部14によって記憶される項目別修正辞書情報が示す項目別修正辞書の項目のうち、分類ステップによって分類される分類済文字列が分類される項目と同じ項目である同一分類項目の各文字列について、分類済文字列と類似する度合を示す類似度を算出し、算出された類似度の値のうち最大値を示す文字列を類似文字列として決定する。閾値算出ステップであるステップS9,S10では、認識ステップによって文字列が認識される日付である認識日付と、同一分類項目に関連付けられる更新日付情報が示す更新日付とに基づいて、認識対象文書10中に含まれる文字列が項目別修正辞書中に存在する可能性が高いか否かの度合いを示す閾値を算出する。置換ステップであるステップS11,S12では、類似度算出ステップで算出される類似度の最大値と、閾値算出ステップで算出される閾値とに応じて、分類済文字列を類似文字列に置き換えるか否かを制御する。   In step S3, which is a recognition step, a character string is recognized from image data representing an image including the character string to be recognized. In step S4, which is a classification step, the character string recognized in the recognition step is classified into one of preset items. In steps S7 and S8, which are similarity calculation steps, the item-specific correction dictionary information representing the item-specific correction dictionary including the character string classified for each preset item is used as the update date representing the date each item was updated. Of the items of the item-specific correction dictionary indicated by the item-specific correction dictionary information stored by the item-specific correction dictionary unit 14 stored in association with the information, the same item as the item into which the classified character string classified by the classification step is classified For each character string of the same classification item, the similarity indicating the degree of similarity with the classified character string is calculated, and the character string indicating the maximum value among the calculated similarity values is determined as the similar character string. In steps S9 and S10, which are threshold calculation steps, in the recognition target document 10, based on the recognition date, which is the date when the character string is recognized by the recognition step, and the update date indicated by the update date information associated with the same classification item. A threshold value indicating the degree of whether or not there is a high possibility that the character string included in the item exists in the item-specific correction dictionary is calculated. In steps S11 and S12, which are replacement steps, whether or not the classified character string is replaced with a similar character string according to the maximum value of the similarity calculated in the similarity calculation step and the threshold calculated in the threshold calculation step. To control.

したがって、認識される文字列の項目と項目別修正辞書の更新日付とから、認識対象文書10中に含まれる文字列が項目別修正辞書中に存在する可能性が高いか否かの度合いを閾値として数値化することができ、類似度の最大値と閾値とに応じて、認識される文字列を辞書中の文字列に置き換えるか否かを制御することができる。よって、認識される文字列を辞書中の文字列に不適切に置き換えることを防止して、文字認識の精度を向上させる文字認識方法を提供することができる。   Therefore, the threshold value is a degree of whether or not there is a high possibility that the character string included in the recognition target document 10 exists in the item-specific correction dictionary from the recognized character string item and the update date of the item-specific correction dictionary. It is possible to control whether to replace the recognized character string with the character string in the dictionary according to the maximum value of the similarity and the threshold value. Therefore, it is possible to provide a character recognition method that prevents improper replacement of the recognized character string with the character string in the dictionary and improves the accuracy of character recognition.

本発明の実施の一形態である文字認識装置1の概略を示すブロック図である。It is a block diagram which shows the outline of the character recognition apparatus 1 which is one Embodiment of this invention. 文字列が各項目に分類された文字列分類結果30の一例を示す図である。It is a figure which shows an example of the character string classification result 30 in which the character string was classified into each item. キーワード辞書情報31の一例を示す図である。It is a figure which shows an example of the keyword dictionary information 31. FIG. 数字配置に関するルール情報32の一例を示す図である。It is a figure which shows an example of the rule information 32 regarding a number arrangement | positioning. 項目別修正辞書情報33の一例を示す図である。It is a figure which shows an example of the correction dictionary information 33 classified by item. 閾値算出部17で閾値を算出する処理の工程を説明するための図である。It is a figure for demonstrating the process of the process which calculates a threshold value by the threshold value calculation part. 項目別修正辞書更新情報20の一例を示す図である。It is a figure which shows an example of the correction dictionary update information 20 classified by item. 閾値算出方法更新情報22の一例を示す図である。It is a figure which shows an example of the threshold value calculation method update information. 文字認識方法の処理を示すフローチャートである。It is a flowchart which shows the process of a character recognition method.

符号の説明Explanation of symbols

1 文字認識装置
10 認識対象文書
11 画像入力部
12 文字認識部
13 項目分類部
14 項目別修正辞書部
15 類似度算出部
16 日付取得部
17 閾値算出部
18 修正制御部
19 認識結果
20 項目別修正辞書更新情報
21 項目別修正辞書更新部
22 閾値算出方法更新情報
23 閾値算出方法更新部
30 文字列分類結果
31 キーワード辞書情報
32 ルール情報
33 項目別修正辞書情報
34 住所修正辞書情報
35 郵便番号修正辞書情報
36 URL修正辞書情報
DESCRIPTION OF SYMBOLS 1 Character recognition apparatus 10 Document to be recognized 11 Image input part 12 Character recognition part 13 Item classification | category part 14 Item correction | amendment dictionary part 15 Similarity calculation part 16 Date acquisition part 17 Threshold calculation part 18 Correction control part 19 Recognition result 20 Correction according to item Dictionary update information 21 Item-specific correction dictionary update unit 22 Threshold value calculation method update information 23 Threshold value calculation method update unit 30 Character string classification result 31 Keyword dictionary information 32 Rule information 33 Item-specific correction dictionary information 34 Address correction dictionary information 35 Postal code correction dictionary Information 36 URL correction dictionary information

Claims (12)

予め設定される項目ごとに分類される文字列を含む修正辞書を表す修正辞書情報を、各項目が更新された日付を表す更新日付情報と関連付けて記憶する記憶手段と、
認識対象である文字列が含まれる画像を表す画像データから文字列を認識する認識手段と、
前記認識手段によって認識される文字列を、前記予め設定される項目のうちのいずれかに分類する分類手段と、
前記記憶手段によって記憶される修正辞書情報が示す修正辞書の項目のうち、前記分類手段によって分類される分類済文字列が分類される項目と同じ項目である同一分類項目の各文字列について、前記分類済文字列と類似する度合を示す類似度を算出し、算出された類似度の値のうち最大値を示す文字列を類似文字列として決定する類似度算出手段と、
前記認識手段によって文字列が認識される日付である認識日付と、前記同一分類項目に関連付けられる更新日付情報が示す更新日付とに基づいて、前記画像中に含まれる文字列が前記修正辞書中に存在する可能性が高いか否かの度合いを示す閾値を算出する閾値算出手段と、
前記類似度算出手段で算出される類似度の最大値と、前記閾値算出手段で算出される閾値とに応じて、前記分類済文字列を前記類似文字列に置き換えるか否かを制御する置換手段とを含むことを特徴とする文字認識装置。
Storage means for storing correction dictionary information representing a correction dictionary including character strings classified for each preset item in association with update date information representing a date when each item was updated;
Recognizing means for recognizing a character string from image data representing an image including a character string to be recognized;
Classifying means for classifying the character string recognized by the recognition means into any of the preset items;
Among the correction dictionary items indicated by the correction dictionary information stored by the storage unit, for each character string of the same classification item that is the same item as the item into which the classified character string classified by the classification unit is classified, A similarity calculating means for calculating a similarity indicating a degree similar to the classified character string, and determining a character string indicating the maximum value among the calculated similarity values as a similar character string;
Based on a recognition date that is a date when the character string is recognized by the recognition unit and an update date indicated by update date information associated with the same classification item, the character string included in the image is stored in the correction dictionary. A threshold value calculation means for calculating a threshold value indicating a degree of whether or not there is a high possibility of existence;
Replacement means for controlling whether or not to replace the classified character string with the similar character string according to the maximum value of the similarity calculated by the similarity calculation means and the threshold value calculated by the threshold value calculation means And a character recognition device.
前記閾値算出手段は、前記認定日付と前記更新日付とによって決まる期間に応じた閾値を、前記項目ごとに予め設定される計算式に従って算出することを特徴とする請求項1に記載の文字認識装置。   The character recognition device according to claim 1, wherein the threshold value calculation means calculates a threshold value according to a period determined by the certification date and the update date according to a calculation formula set in advance for each item. . 前記置換手段は、前記類似度の最大値が前記閾値以上の場合、前記分類済文字列を前記類似文字列に置き換え、前記類似度の最大値が前記閾値未満の場合、前記分類済文字列を前記類似文字列に置き換えないことを特徴とする請求項1または2に記載の文字認識装置。   The replacement means replaces the classified character string with the similar character string when the maximum value of the similarity is equal to or greater than the threshold value, and replaces the classified character string when the maximum value of the similarity is less than the threshold value. The character recognition apparatus according to claim 1, wherein the character recognition device is not replaced with the similar character string. 前記置換手段は、前記類似度の最大値と前記閾値との差を算出し、算出した差の値と予め定める差分値とを比較し、前記差の値が前記予め定める差分値以上の場合、前記分類済文字列を前記類似文字列に置き換え、前記差の値が前記予め定める差分値未満の場合、前記分類済文字列を前記類似文字列に置き換えないことを特徴とする請求項1または2に記載の文字認識装置。   The replacement means calculates a difference between the maximum value of the similarity and the threshold, compares the calculated difference value with a predetermined difference value, and if the difference value is equal to or greater than the predetermined difference value, 3. The classified character string is replaced with the similar character string, and when the difference value is less than the predetermined difference value, the classified character string is not replaced with the similar character string. The character recognition device described in 1. 前記置換手段は、前記類似度の最大値と前記閾値との比率を算出し、算出した比率と予め定める比率とを比較し、前記比率が前記予め定める比率以上の場合、前記認識文字列を前記類似文字列に置き換え、前記比率が前記予め定める比率未満の場合、前記認識文字列を前記類似文字列に置き換えないことを特徴とする請求項1または2に記載の文字認識装置。   The replacement means calculates a ratio between the maximum value of the similarity and the threshold value, compares the calculated ratio with a predetermined ratio, and if the ratio is equal to or greater than the predetermined ratio, The character recognition apparatus according to claim 1 or 2, wherein the character string is replaced with a similar character string, and the recognized character string is not replaced with the similar character string when the ratio is less than the predetermined ratio. 前記修正辞書を更新するための更新情報を外部から取得して、前記更新情報に基づいて前記記憶手段に記憶される修正辞書情報および更新日付情報を変更させる修正辞書更新手段をさらに含むことを特徴とする請求項1〜5のいずれか1つに記載の文字認識装置。   It further comprises correction dictionary update means for obtaining update information for updating the correction dictionary from the outside and changing the correction dictionary information and update date information stored in the storage means based on the update information. The character recognition device according to any one of claims 1 to 5. 前記更新情報は、更新すべき項目を表す項目情報と、更新すべき文字列の項目内の位置を表す位置情報と、更新後の文字列を表す文字列情報とを含むことを特徴とする請求項6に記載の文字認識装置。   The update information includes item information indicating an item to be updated, position information indicating a position in an item of a character string to be updated, and character string information indicating a character string after update. Item 7. The character recognition device according to Item 6. 前記閾値算出手段は、閾値を算出する計算式を表す計算式情報を前記予め設定される項目ごとに記憶し、
前記計算式情報を更新するための第2の更新情報を外部から取得して、前記第2の更新情報に基づいて前記計算式情報を変更する閾値算出方法更新手段をさらに含むことを特徴とする請求項1〜7のいずれか1つに記載の文字認識装置。
The threshold value calculation means stores calculation formula information representing a calculation formula for calculating a threshold value for each of the preset items,
It further includes threshold value calculation method updating means for acquiring second update information for updating the calculation formula information from outside and changing the calculation formula information based on the second update information. The character recognition apparatus as described in any one of Claims 1-7.
前記第2の更新情報は、更新すべき項目を表す項目情報と、更新後の計算式または計算式に含まれるパラメータを表す情報とを含むことを特徴とする請求項8に記載の文字認識装置。   9. The character recognition device according to claim 8, wherein the second update information includes item information indicating an item to be updated and information indicating a calculation formula after update or a parameter included in the calculation formula. . コンピュータを、
予め設定される項目ごとに分類される文字列を含む修正辞書を表す修正辞書情報を、各項目が更新された日付を表す更新日付情報と関連付けて記憶する記憶手段と、
認識対象である文字列が含まれる画像を表す画像データから文字列を認識する認識手段と、
前記認識手段によって認識される文字列を、前記予め設定される項目のうちのいずれかに分類する分類手段と、
前記記憶手段によって記憶される修正辞書情報が示す修正辞書の項目のうち、前記分類手段によって分類される分類済文字列が分類される項目と同じ項目である同一分類項目の各文字列について、前記分類済文字列と類似する度合を示す類似度を算出し、算出された類似度の値のうち最大値を示す文字列を類似文字列として決定する類似度算出手段と、
前記認識手段によって文字列が認識される日付である認識日付と、前記同一分類項目に関連付けられる更新日付情報が示す更新日付とに基づいて、前記画像中に含まれる文字列が前記修正辞書中に存在する可能性が高いか否かの度合いを示す閾値を算出する閾値算出手段と、
前記類似度算出手段で算出される類似度の最大値と、前記閾値算出手段で算出される閾値とに応じて、前記分類済文字列を前記類似文字列に置き換えるか否かを制御する置換手段として機能させるための文字認識プログラム。
Computer
Storage means for storing correction dictionary information representing a correction dictionary including character strings classified for each preset item in association with update date information representing a date when each item was updated;
Recognizing means for recognizing a character string from image data representing an image including a character string to be recognized;
Classifying means for classifying the character string recognized by the recognition means into any of the preset items;
Among the correction dictionary items indicated by the correction dictionary information stored by the storage unit, for each character string of the same classification item that is the same item as the item into which the classified character string classified by the classification unit is classified, A similarity calculating means for calculating a similarity indicating a degree similar to the classified character string, and determining a character string indicating the maximum value among the calculated similarity values as a similar character string;
Based on a recognition date that is a date when the character string is recognized by the recognition unit and an update date indicated by update date information associated with the same classification item, the character string included in the image is stored in the correction dictionary. A threshold value calculation means for calculating a threshold value indicating a degree of whether or not there is a high possibility of existence;
Replacement means for controlling whether or not to replace the classified character string with the similar character string according to the maximum value of the similarity calculated by the similarity calculation means and the threshold value calculated by the threshold value calculation means Character recognition program to function as
請求項10に記載の文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体。   The computer-readable recording medium which recorded the character recognition program of Claim 10. 認識対象である文字列が含まれる画像を表す画像データから文字列を認識する認識ステップと、
前記認識ステップによって認識される文字列を、予め設定される項目のうちのいずれかに分類する分類ステップと、
前記予め設定される項目ごとに分類される文字列を含む修正辞書を表す修正辞書情報を、各項目が更新された日付を表す更新日付情報と関連付けて記憶する記憶手段によって記憶される修正辞書情報が示す修正辞書の項目のうち、前記分類ステップによって分類される分類済文字列が分類される項目と同じ項目である同一分類項目の各文字列について、前記分類済文字列と類似する度合を示す類似度を算出し、算出された類似度の値のうち最大値を示す文字列を類似文字列として決定する類似度算出ステップと、
前記認識ステップによって文字列が認識される日付である認識日付と、前記同一分類項目に関連付けられる更新日付情報が示す更新日付とに基づいて、前記画像中に含まれる文字列が前記修正辞書中に存在する可能性が高いか否かの度合いを示す閾値を算出する閾値算出ステップと、
前記類似度算出ステップで算出される類似度の最大値と、前記閾値算出ステップで算出される閾値とに応じて、前記分類済文字列を前記類似文字列に置き換えるか否かを制御する置換ステップとを含むことを特徴とする文字認識方法。
A recognition step for recognizing a character string from image data representing an image including the character string to be recognized;
A classification step of classifying the character string recognized by the recognition step into any of preset items;
Correction dictionary information stored by storage means for storing correction dictionary information representing a correction dictionary including a character string classified for each preset item in association with update date information representing a date when each item was updated The degree of similarity to the classified character string is indicated for each character string of the same classification item that is the same item as the item into which the classified character string classified by the classification step is classified. A similarity calculation step of calculating a similarity and determining a character string indicating the maximum value among the calculated similarity values as a similar character string;
Based on the recognition date, which is the date when the character string is recognized by the recognition step, and the update date indicated by the update date information associated with the same classification item, the character string included in the image is stored in the correction dictionary. A threshold calculation step for calculating a threshold indicating a degree of whether or not there is a high possibility of existence;
A replacement step for controlling whether to replace the classified character string with the similar character string according to the maximum value of the similarity calculated in the similarity calculation step and the threshold value calculated in the threshold value calculation step. The character recognition method characterized by including these.
JP2008315066A 2008-12-10 2008-12-10 Character recognition device, character recognition method, character recognition program, and recording medium Pending JP2010140204A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008315066A JP2010140204A (en) 2008-12-10 2008-12-10 Character recognition device, character recognition method, character recognition program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008315066A JP2010140204A (en) 2008-12-10 2008-12-10 Character recognition device, character recognition method, character recognition program, and recording medium

Publications (1)

Publication Number Publication Date
JP2010140204A true JP2010140204A (en) 2010-06-24

Family

ID=42350305

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008315066A Pending JP2010140204A (en) 2008-12-10 2008-12-10 Character recognition device, character recognition method, character recognition program, and recording medium

Country Status (1)

Country Link
JP (1) JP2010140204A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015102938A (en) * 2013-11-22 2015-06-04 日立オムロンターミナルソリューションズ株式会社 Document recognition apparatus, document recognition method, and program
JP2016051339A (en) * 2014-08-29 2016-04-11 日立オムロンターミナルソリューションズ株式会社 Document recognition device and method
CN109582972A (en) * 2018-12-27 2019-04-05 信雅达系统工程股份有限公司 A kind of optical character identification error correction method based on natural language recognition
WO2021059848A1 (en) * 2019-09-27 2021-04-01 AI inside株式会社 Information processing device, information processing method, and information processing program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015102938A (en) * 2013-11-22 2015-06-04 日立オムロンターミナルソリューションズ株式会社 Document recognition apparatus, document recognition method, and program
JP2016051339A (en) * 2014-08-29 2016-04-11 日立オムロンターミナルソリューションズ株式会社 Document recognition device and method
CN109582972A (en) * 2018-12-27 2019-04-05 信雅达系统工程股份有限公司 A kind of optical character identification error correction method based on natural language recognition
CN109582972B (en) * 2018-12-27 2023-05-16 信雅达科技股份有限公司 Optical character recognition error correction method based on natural language recognition
WO2021059848A1 (en) * 2019-09-27 2021-04-01 AI inside株式会社 Information processing device, information processing method, and information processing program

Similar Documents

Publication Publication Date Title
US9704480B2 (en) Information processing apparatus, method for processing information, and program
US8176050B2 (en) Method and apparatus of supporting creation of classification rules
CN101647021B (en) Speech data retrieval apparatus, speech data retrieval method, speech data retrieval program and computer usable medium having computer readable speech data retrieval program embodied therein
US7739111B2 (en) Pattern matching method and apparatus and speech information retrieval system
US20100254613A1 (en) System and method for duplicate text recognition
KR101511656B1 (en) Ascribing actionable attributes to data that describes a personal identity
EP3499384A1 (en) Word and sentence embeddings for sentence classification
US9898464B2 (en) Information extraction supporting apparatus and method
WO2011148571A1 (en) Information extraction system, method, and program
US20060045340A1 (en) Character recognition apparatus and character recognition method
US20110202545A1 (en) Information extraction device and information extraction system
Wåreus et al. Automated CPE labeling of CVE summaries with machine learning
JP2014182477A (en) Program and document processing device
CN114492363A (en) Small sample fine adjustment method, system and related device
JP4528705B2 (en) Character recognition device and character recognition method
JP2010140204A (en) Character recognition device, character recognition method, character recognition program, and recording medium
KR101721063B1 (en) Personal information retrieval method in the image files and storing medium storing program using the method thereof
US7756872B2 (en) Searching device and program product
CN111737397A (en) Information processing apparatus, document management system, recording medium, and information processing method
US20230075290A1 (en) Method for linking a cve with at least one synthetic cpe
JP2006268217A (en) Dictionary optimization system and method for portable terminal
CN113076740A (en) Synonym mining method and device in government affair service field
JP2586372B2 (en) Information retrieval apparatus and information retrieval method
JP2007058415A (en) Text mining device, text mining method, and program for text mining
WO2015125088A1 (en) Document characterization method