JP2010140204A - Character recognition device, character recognition method, character recognition program, and recording medium - Google Patents
Character recognition device, character recognition method, character recognition program, and recording medium Download PDFInfo
- Publication number
- JP2010140204A JP2010140204A JP2008315066A JP2008315066A JP2010140204A JP 2010140204 A JP2010140204 A JP 2010140204A JP 2008315066 A JP2008315066 A JP 2008315066A JP 2008315066 A JP2008315066 A JP 2008315066A JP 2010140204 A JP2010140204 A JP 2010140204A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- item
- character
- classified
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、文字列を含む画像から文字認識を行う文字認識装置、文字認識方法、文字認識プログラムおよび記録媒体に関し、より詳細には、文字列を含む画像から文字認識を行う際、認識した文字列を修正するか否かを判定し、不必要な修正を行わないことによって、文字認識の精度を向上させる文字認識装置、文字認識方法、文字認識プログラムおよび記録媒体に関する。 The present invention relates to a character recognition device, a character recognition method, a character recognition program, and a recording medium that perform character recognition from an image including a character string, and more particularly, to a character that is recognized when character recognition is performed from an image including a character string. The present invention relates to a character recognition device, a character recognition method, a character recognition program, and a recording medium that improve character recognition accuracy by determining whether or not to correct a column and not performing unnecessary correction.
パーソナルコンピュータ(Personal Computer:略称「PC」)および携帯電話機などの電子機器には、光学式文字読取装置(Optical Character Reader:略称「OCR」)などの文字認識装置を搭載するものがある。文字認識装置は、たとえばカメラまたはイメージスキャナなどによって、認識対象である文書の画像データを取得する。画像データに含まれる文字列と、予め保持している文字データベース中の文字列とのパターンマッチングを行うことによって、画像データに含まれる文字列を探索し、最終的に文字コードの形で認識結果として出力する。 Some electronic devices such as a personal computer (abbreviation “PC”) and a cellular phone are equipped with a character recognition device such as an optical character reader (abbreviation “OCR”). The character recognition device acquires image data of a document to be recognized by, for example, a camera or an image scanner. By performing pattern matching between the character string included in the image data and the character string in the character database stored in advance, the character string included in the image data is searched, and finally the recognition result in the form of the character code Output as.
文字認識装置によって文字認識を行う際、たとえば取得した画像データが示す画像の状態が悪い、または文字データベースとのパターンマッチングが適切に行われないなどの原因によって、出力される文字認識の結果に誤りが生じることがある。文字認識装置は、文字認識の誤りを修正するために、正しい文字列を収録した辞書を予め用意しておき、認識される文字列が辞書に存在しない文字列である場合には、認識結果の文字列を修正する。文字認識装置は、認識される文字列と辞書中の文字列とを比較して類似する文字列を検索して、認識される文字列を辞書中の文字列に置き換える。 When character recognition is performed by a character recognition device, the output character recognition result may be incorrect due to, for example, the poor image state indicated by the acquired image data, or pattern matching with the character database not being performed properly. May occur. In order to correct an error in character recognition, the character recognition device prepares a dictionary containing a correct character string in advance, and if the recognized character string is a character string that does not exist in the dictionary, the recognition result Correct the string. The character recognition device compares the recognized character string with the character string in the dictionary to search for a similar character string, and replaces the recognized character string with the character string in the dictionary.
特許文献1に記載される文字認識装置では、長音およびハイフンについての誤りパターンと正解パターンとを予め辞書に登録しておき、認識結果である文字列が誤りパターンに該当する場合に、認識結果である文字列を正解パターンに基づいて修正する。文字認識装置が文字列を誤って修正した場合は、ユーザが新たに誤りパターンと正解パターンとしての組を辞書に登録することによって、同様の誤修正が再度行われることを防止することができる。
In the character recognition device described in
特許文献2に記載される文字認識装置では、認識された文字列を単語ごとに切り出してスペルのチェックを行う。スペルのチェックによって単語が誤っていると判明した場合には、認識を誤る誤りやすさの度合いを文字単位でパターン化したデータベースを参照し、誤った単語の文字を修正し、再度スペルチェックを行って正しい単語であると確認されると、修正される単語の候補に決定する。単語の候補が複数ある場合は、ユーザの選択によって最終的に修正される単語が決定される。
In the character recognition device described in
特許文献3に記載される文字認識処理方法では、認識された文字列から単語部分を取り出し、取り出された単語部分と一致度の高い少なくとも1つの単語を、単語辞書中の単語から候補として選択する。選択される各単語について文書内で出現する頻度を計算して、候補の単語のうち頻度の値が最も高い単語に修正する。また、各単語に関連する他の単語の情報を単語辞書中に登録しておき、単語そのものの頻度だけでなく、関連する単語の頻度も考慮して修正を行うことができる。
In the character recognition processing method described in
特許文献1〜3に記載される文字認識装置および文字認識処理方法では、辞書中に正しい文字列が存在する場合、すなわち人間が見た際に画像に含まれると認識することができる文字列と辞書中の文字列とが一致する場合には、文字認識の結果を正しく修正することができる。
In the character recognition device and the character recognition processing method described in
しかし、辞書中に正しい文字列が存在しない場合、すなわち人間が見た際に画像に含まれると認識することができる文字列が辞書中に存在しない場合には、辞書を参照しても文字認識の結果を正しく修正することは不可能である。また、文字認識では画像データに含まれる文字列が正しく認識されているにも関わらず、正しい文字列が存在しない辞書を参照して類似する文字列を探し、不適切な修正をすることによって、誤った認識結果を出力することもある。 However, if the correct character string does not exist in the dictionary, that is, if there is no character string in the dictionary that can be recognized as being included in the image when viewed by humans, character recognition is possible even if the dictionary is referenced. It is impossible to correct the result of. Also, in character recognition, even though the character string included in the image data is correctly recognized, look for a similar character string by referring to a dictionary where the correct character string does not exist, An incorrect recognition result may be output.
認識対象とする文書の種類によっては、辞書中に存在しない新しい文字列が含まれることがある。たとえば、認識対象とする文書が名刺である場合、住所、郵便番号、会社名およびURL(Uniform Resource Locator)などを表す文字列が記載されている。住所および郵便番号は、市町村の合併などによって新たな文字列に変更されることがあり、会社名およびURLは、会社の合併または社名変更などによって新たな文字列に変更されることがある。新語および造語などの新たな文字列が、新聞および雑誌などの媒体に現れることも考えられる。 Depending on the type of document to be recognized, a new character string that does not exist in the dictionary may be included. For example, when the document to be recognized is a business card, a character string representing an address, a zip code, a company name, a URL (Uniform Resource Locator), and the like is described. The address and postal code may be changed to a new character string by a merger of municipalities, and the company name and URL may be changed to a new character string by a merger of companies or a change of company name. It is also conceivable that new character strings such as new words and coined words appear in media such as newspapers and magazines.
あらゆる文字列を辞書に登録するとデータの量が大きくなり、探索および照合に時間がかかるので実用上の問題が生じる。辞書を修正して新しい文字列を登録する方法は、修正後に新しい単語および文字列が現れることもあるので、辞書の修正が適宜行われるとは限らず常に有効な方法とはならない。 When any character string is registered in the dictionary, the amount of data increases, and searching and matching takes time, which causes a practical problem. The method of correcting a dictionary and registering a new character string may not always be effective because the word is not corrected as appropriate because new words and character strings may appear after the correction.
このように、辞書が作成されてから一定期間が経過すると、辞書に存在しない新たな文字列が現れて、認識対象である文書中に含まれることがある。辞書中に正しい文字列が存在するか否かを推測することは困難であるので、文字認識が正しく行われ、かつ認識される文字列と同一の文字列が辞書中に存在しない場合、認識される文字列が辞書中の不適切な文字列に置き換えられてしまう。 As described above, when a certain period of time elapses after the dictionary is created, a new character string that does not exist in the dictionary may appear and be included in the document to be recognized. Since it is difficult to guess whether a correct character string exists in the dictionary, character recognition is performed correctly, and if the same character string as the recognized character string does not exist in the dictionary, it is recognized. Will be replaced with an inappropriate string in the dictionary.
本発明の目的は、認識される文字列を辞書中の文字列に不適切に置き換えることを防止して、文字認識の精度を向上することができる文字認識装置、文字認識方法、文字認識プログラムおよび記録媒体を提供することである。 An object of the present invention is to prevent a character string to be recognized from being inappropriately replaced with a character string in a dictionary and improve the accuracy of character recognition, a character recognition method, a character recognition program, and It is to provide a recording medium.
本発明は、予め設定される項目ごとに分類される文字列を含む修正辞書を表す修正辞書情報を、各項目が更新された日付を表す更新日付情報と関連付けて記憶する記憶手段と、
認識対象である文字列が含まれる画像を表す画像データから文字列を認識する認識手段と、
前記認識手段によって認識される文字列を、前記予め設定される項目のうちのいずれかに分類する分類手段と、
前記記憶手段によって記憶される修正辞書情報が示す修正辞書の項目のうち、前記分類手段によって分類される分類済文字列が分類される項目と同じ項目である同一分類項目の各文字列について、前記分類済文字列と類似する度合を示す類似度を算出し、算出された類似度の値のうち最大値を示す文字列を類似文字列として決定する類似度算出手段と、
前記認識手段によって文字列が認識される日付である認識日付と、前記同一分類項目に関連付けられる更新日付情報が示す更新日付とに基づいて、前記画像中に含まれる文字列が前記修正辞書中に存在する可能性が高いか否かの度合いを示す閾値を算出する閾値算出手段と、
前記類似度算出手段で算出される類似度の最大値と、前記閾値算出手段で算出される閾値とに応じて、前記分類済文字列を前記類似文字列に置き換えるか否かを制御する置換手段とを含むことを特徴とする文字認識装置である。
The present invention relates to storage means for storing correction dictionary information representing a correction dictionary including a character string classified for each preset item in association with update date information representing a date when each item is updated, and
Recognizing means for recognizing a character string from image data representing an image including a character string to be recognized;
Classifying means for classifying the character string recognized by the recognition means into any of the preset items;
Among the correction dictionary items indicated by the correction dictionary information stored by the storage unit, for each character string of the same classification item that is the same item as the item into which the classified character string classified by the classification unit is classified, A similarity calculating means for calculating a similarity indicating a degree similar to the classified character string, and determining a character string indicating the maximum value among the calculated similarity values as a similar character string;
Based on a recognition date that is a date when the character string is recognized by the recognition unit and an update date indicated by update date information associated with the same classification item, the character string included in the image is stored in the correction dictionary. A threshold value calculation means for calculating a threshold value indicating a degree of whether or not there is a high possibility of existence;
Replacement means for controlling whether or not to replace the classified character string with the similar character string according to the maximum value of the similarity calculated by the similarity calculation means and the threshold value calculated by the threshold value calculation means Is a character recognition apparatus characterized by including.
また本発明は、コンピュータを、
予め設定される項目ごとに分類される文字列を含む修正辞書を表す修正辞書情報を、各項目が更新された日付を表す更新日付情報と関連付けて記憶する記憶手段と、
認識対象である文字列が含まれる画像を表す画像データから文字列を認識する認識手段と、
前記認識手段によって認識される文字列を、前記予め設定される項目のうちのいずれかに分類する分類手段と、
前記記憶手段によって記憶される修正辞書情報が示す修正辞書の項目のうち、前記分類手段によって分類される分類済文字列が分類される項目と同じ項目である同一分類項目の各文字列について、前記分類済文字列と類似する度合を示す類似度を算出し、算出された類似度の値のうち最大値を示す文字列を類似文字列として決定する類似度算出手段と、
前記認識手段によって文字列が認識される日付である認識日付と、前記同一分類項目に関連付けられる更新日付情報が示す更新日付とに基づいて、前記画像中に含まれる文字列が前記修正辞書中に存在する可能性が高いか否かの度合いを示す閾値を算出する閾値算出手段と、
前記類似度算出手段で算出される類似度の最大値と、前記閾値算出手段で算出される閾値とに応じて、前記分類済文字列を前記類似文字列に置き換えるか否かを制御する置換手段として機能させるための文字認識プログラムである。
The present invention also provides a computer,
Storage means for storing correction dictionary information representing a correction dictionary including character strings classified for each preset item in association with update date information representing a date when each item was updated;
Recognizing means for recognizing a character string from image data representing an image including a character string to be recognized;
Classifying means for classifying the character string recognized by the recognition means into any of the preset items;
Among the correction dictionary items indicated by the correction dictionary information stored by the storage unit, for each character string of the same classification item that is the same item as the item into which the classified character string classified by the classification unit is classified, A similarity calculating means for calculating a similarity indicating a degree similar to the classified character string, and determining a character string indicating the maximum value among the calculated similarity values as a similar character string;
Based on a recognition date that is a date when the character string is recognized by the recognition unit and an update date indicated by update date information associated with the same classification item, the character string included in the image is stored in the correction dictionary. A threshold value calculation means for calculating a threshold value indicating a degree of whether or not there is a high possibility of existence;
Replacement means for controlling whether or not to replace the classified character string with the similar character string according to the maximum value of the similarity calculated by the similarity calculation means and the threshold value calculated by the threshold value calculation means Is a character recognition program for functioning as
また本発明は、前記文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体である。 The present invention is also a computer-readable recording medium on which the character recognition program is recorded.
また本発明は、認識対象である文字列が含まれる画像を表す画像データから文字列を認識する認識ステップと、
前記認識ステップによって認識される文字列を、予め設定される項目のうちのいずれかに分類する分類ステップと、
前記予め設定される項目ごとに分類される文字列を含む修正辞書を表す修正辞書情報を、各項目が更新された日付を表す更新日付情報と関連付けて記憶する記憶手段によって記憶される修正辞書情報が示す修正辞書の項目のうち、前記分類ステップによって分類される分類済文字列が分類される項目と同じ項目である同一分類項目の各文字列について、前記分類済文字列と類似する度合を示す類似度を算出し、算出された類似度の値のうち最大値を示す文字列を類似文字列として決定する類似度算出ステップと、
前記認識ステップによって文字列が認識される日付である認識日付と、前記同一分類項目に関連付けられる更新日付情報が示す更新日付とに基づいて、前記画像中に含まれる文字列が前記修正辞書中に存在する可能性が高いか否かの度合いを示す閾値を算出する閾値算出ステップと、
前記類似度算出ステップで算出される類似度の最大値と、前記閾値算出ステップで算出される閾値とに応じて、前記分類済文字列を前記類似文字列に置き換えるか否かを制御する置換ステップとを含むことを特徴とする文字認識方法である。
The present invention also includes a recognition step of recognizing a character string from image data representing an image including a character string to be recognized;
A classification step of classifying the character string recognized by the recognition step into any of preset items;
Correction dictionary information stored by storage means for storing correction dictionary information representing a correction dictionary including a character string classified for each preset item in association with update date information representing a date when each item was updated The degree of similarity to the classified character string is indicated for each character string of the same classification item that is the same item as the item into which the classified character string classified by the classification step is classified. A similarity calculation step of calculating a similarity and determining a character string indicating the maximum value among the calculated similarity values as a similar character string;
Based on the recognition date, which is the date when the character string is recognized by the recognition step, and the update date indicated by the update date information associated with the same classification item, the character string included in the image is stored in the correction dictionary. A threshold calculation step for calculating a threshold indicating a degree of whether or not there is a high possibility of existence;
A replacement step for controlling whether or not to replace the classified character string with the similar character string according to the maximum value of the similarity calculated in the similarity calculation step and the threshold value calculated in the threshold value calculation step The character recognition method characterized by including these.
本発明によれば、記憶手段によって、予め設定される項目ごとに分類される文字列を含む修正辞書を表す修正辞書情報が、各項目が更新された日付を表す更新日付情報と関連付けて記憶される。認識手段によって、認識対象である文字列が含まれる画像を表す画像データから文字列が認識される。分類手段によって、前記認識手段によって認識される文字列が、前記予め設定される項目のうちのいずれかに分類される。類似度算出手段によって、前記記憶手段によって記憶される修正辞書情報が示す修正辞書の項目のうち、前記分類手段によって分類される分類済文字列が分類される項目と同じ項目である同一分類項目の各文字列について、前記分類済文字列と類似する度合を示す類似度が算出され、算出された類似度の値のうち最大値を示す文字列を類似文字列として決定される。閾値算出手段によって、前記認識手段によって文字列が認識される日付である認識日付と、前記同一分類項目に関連付けられる更新日付情報が示す更新日付とに基づいて、前記画像中に含まれる文字列が前記修正辞書中に存在する可能性が高いか否かの度合いを示す閾値が算出される。置換手段によって、前記類似度算出手段で算出される類似度の最大値と、前記閾値算出手段で算出される閾値とに応じて、前記分類済文字列が前記類似文字列に置き換えられる。 According to the present invention, the correction dictionary information representing the correction dictionary including the character string classified for each preset item is stored in association with the update date information indicating the date when each item was updated by the storage unit. The The character string is recognized from the image data representing the image including the character string to be recognized by the recognition means. The character string recognized by the recognition means is classified into one of the preset items by the classification means. Of the items in the correction dictionary indicated by the correction dictionary information stored in the storage unit by the similarity calculation unit, the same classification item that is the same item as the item into which the classified character string classified by the classification unit is classified For each character string, a similarity indicating a degree similar to the classified character string is calculated, and a character string indicating the maximum value among the calculated similarity values is determined as a similar character string. Based on a recognition date that is a date when the character string is recognized by the recognition unit by the threshold calculation unit and an update date indicated by the update date information associated with the same classification item, the character string included in the image is A threshold value is calculated that indicates the degree of whether or not there is a high probability that the correction dictionary exists. The classified character string is replaced with the similar character string by the replacing unit according to the maximum value of the similarity calculated by the similarity calculating unit and the threshold calculated by the threshold calculating unit.
したがって、認識される文字列の項目と修正辞書の更新日付とから、前記画像中に含まれる文字列が前記修正辞書中に存在する可能性が高いか否かの度合いを閾値として数値化することができ、類似度の最大値と閾値とに応じて、認識される文字列を辞書中の文字列に置き換えるか否かを制御することができる。よって、認識される文字列を辞書中の文字列に不適切に置き換えることを防止して、文字認識の精度を向上させる文字認識装置を提供することができる。 Therefore, from the recognized character string item and the update date of the correction dictionary, the degree of possibility that the character string included in the image is likely to exist in the correction dictionary is quantified as a threshold value. It is possible to control whether or not to replace the recognized character string with the character string in the dictionary according to the maximum value of the similarity and the threshold value. Therefore, it is possible to provide a character recognition device that prevents improper replacement of a recognized character string with a character string in a dictionary and improves the accuracy of character recognition.
また本発明によれば、文字認識プログラムによって、コンピュータを、予め設定される項目ごとに分類される文字列を含む修正辞書を表す修正辞書情報を、各項目が更新された日付を表す更新日付情報と関連付けて記憶する記憶手段と、認識対象である文字列が含まれる画像を表す画像データから文字列を認識する認識手段と、前記認識手段によって認識される文字列を、前記予め設定される項目のうちのいずれかに分類する分類手段と、前記記憶手段によって記憶される修正辞書情報が示す修正辞書の項目のうち、前記分類手段によって分類される分類済文字列が分類される項目と同じ項目である同一分類項目の各文字列について、前記分類済文字列と類似する度合を示す類似度を算出し、算出された類似度の値のうち最大値を示す文字列を類似文字列として決定する類似度算出手段と、前記認識手段によって文字列が認識される日付である認識日付と、前記同一分類項目に関連付けられる更新日付情報が示す更新日付とに基づいて、前記画像中に含まれる文字列が前記修正辞書中に存在する可能性が高いか否かの度合いを示す閾値を算出する閾値算出手段と、前記類似度算出手段で算出される類似度の最大値と、前記閾値算出手段で算出される閾値とに応じて、前記分類済文字列を前記類似文字列に置き換えるか否かを制御する置換手段として機能させることができる。 Further, according to the present invention, the computer recognizes the correction dictionary information indicating the correction dictionary including the character string classified for each preset item by the character recognition program, and the update date information indicating the date when each item is updated. A storage means for storing the information in association with a recognition means, a recognition means for recognizing a character string from image data representing an image including a character string to be recognized, and a character string recognized by the recognition means as the preset item. Among the items of the classification means for classifying the data and the correction dictionary information indicated by the correction dictionary information stored by the storage means, the same item as the item for which the classified character string classified by the classification means is classified For each character string of the same classification item, a similarity indicating the degree of similarity with the classified character string is calculated, and a character string indicating the maximum value among the calculated similarity values Based on the similarity calculation means determined as a similar character string, a recognition date that is a date on which the character string is recognized by the recognition means, and an update date indicated by update date information associated with the same classification item, the image A threshold value calculating means for calculating a threshold value indicating whether or not there is a high possibility that a character string included therein is present in the modified dictionary, and a maximum value of the similarity degree calculated by the similarity degree calculating means, In accordance with the threshold value calculated by the threshold value calculation means, it can function as a replacement means for controlling whether or not to replace the classified character string with the similar character string.
したがって、認識される文字列を辞書中の文字列に不適切に置き換えることを防止して、文字認識の精度を向上させることができるようにコンピュータを機能させる文字認識プログラムを提供することができる。 Therefore, it is possible to provide a character recognition program that causes a computer to function so that the recognized character string can be prevented from being inappropriately replaced with a character string in the dictionary and the accuracy of character recognition can be improved.
また本発明によれば、コンピュータ読み取り可能な記録媒体によって、前記文字認識プログラムが記録される。したがって、前記文字認識プログラムをコンピュータ読み取り可能な記録媒体として提供することができる。 According to the invention, the character recognition program is recorded by a computer-readable recording medium. Therefore, the character recognition program can be provided as a computer-readable recording medium.
また本発明によれば、認識ステップでは、認識対象である文字列が含まれる画像を表す画像データから文字列を認識する。分類ステップでは、前記認識ステップによって認識される文字列を、予め設定される項目のうちのいずれかに分類する。類似度算出ステップでは、前記予め設定される項目ごとに分類される文字列を含む修正辞書を表す修正辞書情報を、各項目が更新された日付を表す更新日付情報と関連付けて記憶する記憶手段によって記憶される修正辞書情報が示す修正辞書の項目のうち、前記分類ステップによって分類される分類済文字列が分類される項目と同じ項目である同一分類項目の各文字列について、前記分類済文字列と類似する度合を示す類似度を算出し、算出された類似度の値のうち最大値を示す文字列を類似文字列として決定する。閾値算出ステップでは、前記認識ステップによって文字列が認識される日付である認識日付と、前記同一分類項目に関連付けられる更新日付情報が示す更新日付とに基づいて、前記画像中に含まれる文字列が前記修正辞書中に存在する可能性が高いか否かの度合いを示す閾値を算出する。置換ステップでは、前記類似度算出ステップで算出される類似度の最大値と、前記閾値算出ステップで算出される閾値とに応じて、前記分類済文字列を前記類似文字列に置き換えるか否かを制御する。 According to the invention, in the recognition step, the character string is recognized from the image data representing the image including the character string to be recognized. In the classification step, the character string recognized in the recognition step is classified into one of preset items. In the similarity calculation step, storage means for storing correction dictionary information representing a correction dictionary including a character string classified for each preset item in association with update date information representing a date when each item is updated is stored. Among the correction dictionary items indicated by the stored correction dictionary information, for each character string of the same classification item that is the same item as the classification character string classified by the classification step, the classified character string The similarity indicating the degree of similarity is calculated, and the character string indicating the maximum value among the calculated similarity values is determined as the similar character string. In the threshold value calculating step, a character string included in the image is based on a recognition date that is a date when the character string is recognized by the recognition step and an update date indicated by update date information associated with the same classification item. A threshold value indicating a degree of whether or not there is a high possibility of existing in the correction dictionary is calculated. In the replacing step, whether or not to replace the classified character string with the similar character string according to the maximum value of the similarity calculated in the similarity calculating step and the threshold calculated in the threshold calculating step. Control.
したがって、認識される文字列の項目と修正辞書の更新日付とから、前記画像中に含まれる文字列が前記修正辞書中に存在する可能性が高いか否かの度合いを閾値として数値化することができ、類似度の最大値と閾値とに応じて、認識される文字列を辞書中の文字列に置き換えるか否かを制御することができる。よって、認識される文字列を辞書中の文字列に不適切に置き換えることを防止して、文字認識の精度を向上させる文字認識方法を提供することができる。 Therefore, from the recognized character string item and the update date of the correction dictionary, the degree of possibility that the character string included in the image is likely to exist in the correction dictionary is quantified as a threshold value. It is possible to control whether or not to replace the recognized character string with the character string in the dictionary according to the maximum value of the similarity and the threshold value. Therefore, it is possible to provide a character recognition method that prevents improper replacement of the recognized character string with the character string in the dictionary and improves the accuracy of character recognition.
図1は、本発明の実施の一形態である文字認識装置1の概略を示すブロック図である。本発明に係る文字認識方法は、文字認識装置1によって実行される。文字認識装置1は、画像入力部11、文字認識部12、項目分類部13、項目別修正辞書部14、類似度算出部15、日付取得部16、閾値算出部17、修正制御部18、項目別修正辞書更新部21、および閾値算出方法更新部23を含んで構成される。
FIG. 1 is a block diagram showing an outline of a
文字認識装置1は、半導体メモリおよびハードディスク装置などの図示しない記憶装置と、図示しない中央処理装置(Central Processing Unit:以下「CPU」という)と、図示しないカメラまたはイメージスキャナとを含むコンピュータシステムによって構成される。CPUは、記憶装置に記憶される制御プログラムを実行することによって、画像入力部11、文字認識部12、項目分類部13、項目別修正辞書部14、類似度算出部15、日付取得部16、閾値算出部17、修正制御部18、項目別修正辞書更新部21および閾値算出方法更新部23の各機能を実現する。
The
画像入力部11は、カメラまたはイメージスキャナなどを制御して、認識対象の文字列が含まれる文書である認識対象文書10の画像を表す画像データを取得する。認識手段である文字認識部12は、画像入力部11で取得される画像データに含まれる文字列を、公知の文字認識方法によって認識する。文字認識方法は、たとえば画像データに含まれる文字列に対して、予め保持している文字データベース中の文字とのパターンマッチングを、単語としてではなく一文字ごとに行って、文字列を認識する方法などがある。文字認識装置1が、カメラまたはイメージスキャナなどを含まない構成としてもよく、その場合は、認識対象文書10の画像を表す画像データを、外部から文字認識部12に入力する構成にすればよい。
The
分類手段である項目分類部13は、文字認識部12で認識される文字列を、後述するキーワード辞書情報31およびルール情報32などに従って、予め設定される項目に分類する。予め設定される項目は、たとえば、「姓」、「名」、「会社名」、「役職」、「郵便番号」、「住所」、「電話番号」、「FAX番号」、「メールアドレス」、「URL(
Uniform Resource Locator)」および「その他」などを含む。項目は、後述する項目別修正辞書部14に記憶される項目別修正辞書情報が示す項目別修正辞書の項目と同一のものである。項目分類部13によって分類されている文字列を、以下「分類済文字列」ともいう。項目分類部13は、認識される文字列のすべてを各項目に分類し、いずれの項目にも該当しない文字列は項目「その他」に分類する。
The
Uniform Resource Locator) ”and“ Other ”. The item is the same as the item of the item-specific correction dictionary indicated by the item-specific correction dictionary information stored in the item-specific
図2は、文字列が各項目に分類された文字列分類結果30の一例を示す図である。文字列分類結果30は、名刺を認識対象文書10として文字認識を行った場合に、項目分類部13が名刺に含まれる各文字列を分類した結果の一例を示している。たとえば文字列「山田」は項目「姓」に、文字列「太郎」は項目「名」に、文字列「△△△株式会社」は項目「会社名」に、文字列「係長」は項目「役職」に、文字列「123−4567」は項目「郵便番号」に、文字列「○○県○○市○○町12−34」は項目「住所」に、文字列「07××−000−0000」は項目「電話番号」に、文字列「07××−111−1111」は項目「FAX番号」に、文字列「yamada@aaa.co.jp」は項目「メールアドレス」に、文字列「http://aaaa.co.jp/」は項目「URL」にそれぞれ分類されている。
FIG. 2 is a diagram illustrating an example of a character
文字列分類結果30は一例であるので、認識される文字列が分類される項目は、認識対象となる文書の種類が異なれば表示される項目および文字列も異なる。名刺を対象に文字認識を行う場合でも、名刺のデザイン、画像の撮影状態または文字列の認識状態などによっては、図2に示した文字列分類結果30に示される項目および文字列とは異なる結果となることがある。分類される文字列がない項目は、たとえば項目と文字列とを共に表示させない、または項目のみを表示させて文字列を表示させないなどの文字列分類結果30となる。
Since the character
図3は、キーワード辞書情報31の一例を示す図である。キーワード辞書情報31は、キーワードとなる文字列が項目ごとに分類されているキーワード辞書を表す情報である。たとえば項目「住所」に「大阪府」、「奈良県」および「天理市」などの文字列が、項目「URL」に「http://」および「www」などの文字列が、項目「電話番号」に「TEL」および「電話」などの文字列が、項目「名前」に「山田」、「鈴木」および「佐藤」などの文字列が、項目「肩書」に「社長」、「部長」、「本部長」、「課長」および「係長」などの文字列がそれぞれ示されている。項目分類部13は、認識される文字列がキーワード辞書中の文字列と一致するか否かを調べて、認識される文字列を各項目に分類する。たとえば認識される文字列に「大阪府」が含まれる場合、認識される文字列「大阪府」と、キーワード辞書情報31の項目「住所」中の文字列「大阪府」とが一致するので、認識される文字列「大阪府」は項目「住所」に分類される。
FIG. 3 is a diagram illustrating an example of the
図4は、数字配置に関するルール情報32の一例を示す図である。ルール情報32は、認識される文字列の数字の配置または並びに基づいて、認識される文字列をどの項目に分類するかを定めるルールを表す情報である。図4に示したルール情報32には、たとえば項目「携帯番号」に「(数字3文字)(ハイフン)(数字4文字)(ハイフン)(数字4文字)」、項目「固定電話」に「(数字3文字)(ハイフン)(数字3文字)(ハイフン)(数字4文字)」、項目「FAX」に「(認識文字列がFAXに関するキーワードを含む場合はFAX番号に分類する)」、項目「郵便番号」に「(数字3文字)(ハイフン)(数字4文字)」、項目「住所」に「(ルールに合致せず、数字とハイフンからなる場合は、住所の番地とみなして住所に分類する)」などのルールがそれぞれ示されている。
FIG. 4 is a diagram illustrating an example of the
項目分類部13は、認識される文字列がいずれかのルールに該当するか否かを確認して、文字列を各項目に分類する。たとえば「123−4567」という文字列は、ルール情報32の郵便番号を示すルール「(数字3文字)(ハイフン)(数字4文字)」に該当するので、項目「郵便番号」に分類される。ルール情報32は一例であり、たとえば電話番号でハイフンがない場合、および数字の一部が括弧で括られている場合など様々なルールを設定しておくことができる。
The
記憶手段である項目別修正辞書部14は、記憶装置などを制御して、予め設定される項目ごとに分類される文字列を含む項目別修正辞書を表す項目別修正辞書情報を、各項目が更新された日付を表す更新日付情報と関連付けて記憶する。項目別修正辞書は、修正辞書である。予め設定される項目は、前述した項目分類部13で分類される項目と同一である。更新日付情報は、各文字列を含む項目が最初に作成された日付、または後述する項目別修正辞書更新部21によって、項目中の文字列が変更された日付を表す情報である。
The item-specific
図5は、項目別修正辞書情報33の一例を示す図である。項目別修正辞書を示す項目別修正辞書情報33は、住所修正辞書を示す住所修正辞書情報34と、郵便番号修正辞書を示す郵便番号修正辞書情報35と、およびURL修正辞書を示すURL修正辞書情報36などを含んで構成される。
FIG. 5 is a diagram illustrating an example of the item-specific
たとえば住所修正辞書情報34は、項目「住所」に分類される「山田町」、「永田町」、「櫟本町」、「山口町」、「天理市」、「奈良市」、「文京区」および「千代田区」などの文字列と更新日付「2007/4/1」とを含んで構成される。住所修正辞書には、各文字列の項目内の位置を示す位置情報が含まれており、位置情報は、たとえば1,2,3,…などの番号が文字列の前にコロンを付されて表され、住所修正辞書で各番号が重複しないように用いられる。
For example, the address
郵便番号修正辞書情報35は、項目「郵便番号」に分類される「000−0000」、「000−0001」、「000−0002」、「000−0004」、「000−0015」、「000−0999」および「000−9999」などの文字列と更新日付「2008/5/1」とを含んで構成される。郵便番号修正辞書には、各文字列の項目内の位置を示す位置情報が含まれており、位置情報は、たとえば1,2,3,…などの番号が文字列の前にコロンを付されて表され、郵便番号修正辞書内で各番号が重複しないように用いられる。
The postal code
URL修正辞書情報36は、項目「URL」に分類される「http://aaaa.co.jp」、「http://bbbb.co.jp」、「http://cccc.co.jp」、「http://dddd.co.jp」、「http://eeee.co.jp」、「http://ffff.co.jp」および「http://gggg.co.jp」などの文字列と更新日付「2008/1/1」とを含んで構成される。URL修正辞書には、各文字列の項目内の位置を示す位置情報が含まれており、位置情報は、たとえば1,2,3,…などの番号が文字列の前にコロンを付されて表され、URL修正辞書内で各番号が重複しないように用いられる。このように項目別修正辞書では、文字列が項目ごとに分類されていることによって、項目ごとに更新日付を管理することが可能になる。
The URL
類似度算出手段である類似度算出部15は、項目別修正辞書の項目のうち、分類済文字列と同じ項目に分類される項目の各文字列について、分類済文字列と類似する度合を示す類似度を算出する。項目別修正辞書の項目のうち、分類済文字列が分類される項目と同じ項目を、以下「同一分類項目」という。類似度算出部15では、同一分類項目の各文字列について、分類済文字列と逐次比較して、類似する度合を示す類似度をそれぞれ算出する。2つの文字列の一致度合いを評価する方法としてはDP(Dynamic Programming)マッチングなどの公知の方法がある。一致する文字の数および文字列の長さの違いから類似度をそれぞれ算出し、算出された類似度の値の中から最大値を示す文字列を、項目別修正辞書中から検索し決定する。類似度の値が最大値を示す文字列を、以下「類似文字列」という。項目別修正辞書は各文字列を項目ごとに分類しているので、同一分類項目中の文字列のみを検索することによって、類似文字列を決定することができる。
The
日付取得部16は、日時を計時する図示しない計時部、たとえばRTC(Real Time
Clock)、または電波時計用の電波を受信する図示しない受信装置などを制御して、文字認識部12が画像データから文字列を認識した日付である認識日付を取得して、閾値算出部17に送る。項目分類部13で分類される各分類済文字列には、同一の認識日付が用いられる。日付取得部16は、文字認識部12が画像データから文字列を認識した日付を取得する構成としているが、認識した日付のみではなく認識した時刻も取得する構成としてもよい。
The
Clock) or a receiving device (not shown) that receives radio waves for a radio clock, and the like, acquires a recognition date that is a date when the
閾値算出手段である閾値算出部17は、日付取得部16から認識日付を受け取り、項目別修正辞書部14から同一分類項目の更新日付を受け取り、更新日付から認識日付までの期間である更新後期間を算出する。各項目ごとに閾値を算出する計算式が予め設定されており、更新後期間に基づき計算式に従って各分類済文字列の閾値を算出して、修正制御部18に送る。
The
閾値は、認識対象文書10中に含まれる文字列が項目別修正辞書中に存在する可能性が高いか否かの度合いを示し、後述する修正制御部18で、分類済文字列を類似文字列に置き換えるか否かを決定するための判断の基準となる値であり、閾値が大きいほど置き換えが行われにくくなる。更新後期間が同一でも、項目の種類によって閾値は異なる。たとえば項目「URL」などは、文字列が変更される頻度が高いので、項目別修正辞書の内容が有効である期間が相対的に短い、すなわち更新後期間が長くなると認識対象文書10中に含まれる文字列が項目別修正辞書中に存在する可能性が低くなる。よって、閾値算出部17では、更新後期間が長くなると大きい閾値が出るように計算式を設定して、分類済文字列の置き換えを行われにくくする。また項目「姓」などは、文字列が変更される頻度が低いので、項目別修正辞書の内容が有効である期間が相対的に長い、すなわち更新後期間が長くなっても認識対象文書10中に含まれる文字列が項目別修正辞書中に存在する可能性が高い。よって、閾値算出部17では、更新後期間が長くなっても小さい閾値が出るように計算式を設定して、分類済文字列の置き換えを行われやすくする。
The threshold indicates the degree of whether or not there is a high possibility that the character string included in the
閾値算出部17は、数式またはパラメータが異なる計算式を項目ごとに設定して、更新後期間の値を計算式に入力して閾値を算出する。項目ごとに設定される計算式は、たとえば文字列が新たに追加または変更されやすいなどという項目の特性によって異なる設定にする。認識対象の文書に含まれる文字列が頻繁に変わり、新しい内容が出てくることが多い項目の場合、閾値を大きくするために、計算式をたとえば二次関数にして、更新後期間の値を二次関数に入力する。認識対象の文書に含まれる文字列がそれほど頻繁に変わらない項目の場合、閾値を小さくするために、計算式をたとえば一次関数にして、更新後期間の値を一次関数に入力する。たとえば計算式が一次関数の場合、傾きを表す係数または切片を表す定数などを、項目ごとに設定することによって、項目の種類に応じた閾値を算出することができる。
The
図6は、閾値算出部17で閾値を算出する処理の工程を説明するための図である。第1工程では、閾値算出部17が日付取得部16から認識日付を受け取る。文字認識部12が文字認識を行う際に、日付取得部16によって認識日付が取得され、閾値算出部17に送られる。同時に認識された文字列には、分類済文字列の項目に関わらず同じ認識日付、たとえば2008年9月1日を使用する。
FIG. 6 is a diagram for explaining a process of calculating a threshold value by the threshold
第2工程では、閾値算出部17が、項目別修正辞書部14から同一分類項目の更新日付を表す更新日付情報をそれぞれ受け取る。たとえば項目「住所」の更新日付は2008年4月1日であり、項目「郵便番号」の更新日付は2008年1月1日であり、項目「URL」の更新日付は2008年7月1日であり、項目「電話番号」の更新日付は2008年2月1日である。
In the second step, the threshold
第3工程では、閾値算出部17が、認識日付と更新日付とから更新後期間をそれぞれの分類済文字列について算出する。たとえば項目「住所」の更新後期間は5ヶ月であり、項目「郵便番号」の更新後期間は8ヶ月であり、項目「URL」の更新後期間は2ヶ月であり、項目「電話番号」の更新後期間は7ヶ月である。
In the third step, the threshold
第4工程では、閾値算出部17が、項目ごとに閾値をそれぞれ算出する。項目ごとに閾値を算出する計算式である関数が予め設定されており、更新後期間の値を関数に入力してそれぞれの閾値を算出する。たとえば項目「住所」の計算式は関数aであり、項目「郵便番号」の計算式は関数bであり、項目「URL」の計算式は関数cであり、項目「電話番号」の計算式は関数dである。
In the fourth step, the
第5工程では、閾値算出部17が、第4工程で算出されたそれぞれの閾値を修正制御部18に送る。たとえば項目「住所」は閾値Aであり、項目「郵便番号」は閾値Bであり、項目「URL」は閾値Cであり、項目「電話番号」は閾値Dである。図6に示した各工程は一例であり、実際には分類済文字列のすべての項目について閾値が算出される。
In the fifth step, the threshold
置換手段である修正制御部18は、類似度算出部15で算出された類似度と、閾値算出部17で算出された閾値とを比較して、分類済文字列を項目別修正辞書中の類似文字列に置き換えるか否かを制御して、文字認識の結果を文字コードの形などで認識結果19として出力する。閾値算出部17によって、認識対象文書10中に含まれる文字列が項目別修正辞書中に存在する可能性が高いとして閾値が小さく算出された場合、認識文字列が類似文字列に置き換えられやすくなる。閾値算出部17によって、認識対象文書10中に含まれる文字列が項目別修正辞書中に存在する可能性が高いとして閾値が大きく算出された場合、認識文字列が類似文字列に置き換えられやすくなる。
The
修正制御部18が分類済文字列を類似文字列に置き換えるか否かを制御する3つの方法を説明する。第1の置換制御方法は、類似度の値が閾値以上の場合、認識文字列を類似文字列に置き換えて出力し、類似度の値が閾値未満の場合、認識文字列を類似文字列に置き換えることなく出力するように制御を行う。
Three methods for controlling whether the
第2の置換制御方法は、類似度の最大値と閾値との差を算出し、算出した差の値と予め定める差分値とを比較して、差の値が予め定める差分値以上の場合、認識文字列を類似文字列に置き換えて出力し、差の値が予め定める差分値未満の場合、認識文字列を類似文字列に置き換えずに分類済文字列をそのまま出力するように制御を行う。たとえば閾値よりも100大きい値を第1の基準値として、類似度の最大値が第1の基準値以上の場合に置換を行う、または閾値よりも50小さい値を第2の基準値として、類似度の最大値が第2の基準値以上の場合に置換を行うなどの制御が可能になる。予め定める差分値を0にすることによって、第1の置換制御方法と同様の制御を行うこともできる。 The second replacement control method calculates a difference between the maximum value of the similarity and the threshold, compares the calculated difference value with a predetermined difference value, and if the difference value is equal to or larger than a predetermined difference value, When the recognized character string is replaced with a similar character string and output, and the difference value is less than a predetermined difference value, control is performed so that the classified character string is output as it is without replacing the recognized character string with the similar character string. For example, a value that is 100 larger than the threshold value is used as the first reference value, and replacement is performed when the maximum similarity value is equal to or greater than the first reference value, or a value that is 50% smaller than the threshold value is used as the second reference value. When the maximum value of the degree is greater than or equal to the second reference value, control such as replacement is possible. By setting the predetermined difference value to 0, control similar to the first replacement control method can be performed.
第3の置換制御方法は、類似度の最大値と閾値との比率を算出し、算出した比率と予め定める比率とを比較して、比率が予め定める比率以上の場合、認識文字列を類似文字列に置き換えて出力し、比率が予め定める比率未満の場合、認識文字列を類似文字列に置き換えずに分類済文字列をそのまま出力するように制御を行う。比率は、たとえば「類似度の最大値÷閾値×100(%)」などで表すことができる。予め定める比率を任意に設定することによって、たとえば類似度の最大値が閾値の95%以上である場合に置換を行うなどの制御を行うことができる。予め定める比率を100%にすることによって、第1の置換制御方法と同様の制御を行うこともできる。 The third replacement control method calculates the ratio between the maximum value of the similarity and the threshold value, compares the calculated ratio with a predetermined ratio, and if the ratio is equal to or higher than the predetermined ratio, the recognized character string is determined as a similar character. If the ratio is less than a predetermined ratio, the classified character string is output as it is without replacing the recognized character string with a similar character string. The ratio can be expressed by, for example, “maximum value of similarity / threshold value × 100 (%)”. By arbitrarily setting a predetermined ratio, for example, it is possible to perform control such as replacement when the maximum value of similarity is 95% or more of the threshold value. By setting the predetermined ratio to 100%, the same control as the first replacement control method can be performed.
修正辞書更新手段である項目別修正辞書更新部21は、項目別修正辞書部14に記憶される項目別修正辞書を更新するための項目別修正辞書更新情報20を外部から取得して、項目別修正辞書更新情報20に基づいて項目別修正辞書部14に記憶されている辞書情報と日付情報とを変更する。
The item-specific correction
項目別修正辞書更新部21は、コンパクトディスクまたは半導体メモリなどの記録媒体から情報を取得することができる図示しない情報処理装置などを制御して、たとえばコンパクトディスクまたは半導体メモリなどの記録媒体に記録される項目別修正辞書更新情報20を外部から取得する。また通信ネットワークなどを介して外部と通信可能な図示しない通信部を文字認識装置1に設けることによって、項目別修正辞書更新部21は、通信部を介して項目別修正辞書更新情報20を取得することもできる。
The item-specific correction
図7は、項目別修正辞書更新情報20の一例を示す図である。項目別修正辞書更新情報20は、更新すべき項目を表す項目情報と、更新すべき文字列の項目内の位置を表す位置情報と、更新後の文字列を表す文字列情報とを含んでいる。項目情報は、項目別修正辞書部14のどの項目の文字列を変更するかを示す。位置情報は、変更する文字列が項目内のどの位置にあるかを示す。項目情報と位置情報とは、どの文字列を変更するかを示すインデックスとなる。
FIG. 7 is a diagram illustrating an example of the item-specific correction
図7に示した項目別修正辞書更新情報20には、項目「住所」について位置情報である番号「4」および更新後の文字列である内容「山田町」が示され、項目「郵便番号」について位置情報である番号「7」および更新後の文字列である内容「000−9991」が示され、項目「URL」について位置情報である番号「6」および更新後の文字列である内容「http://ffff.com」が示されている。たとえば、項目別修正辞書更新情報20が項目「住所」、位置情報「4」および文字列「山田町」の場合は、項目別修正辞書の住所項目の番号4の文字列を山田町に変更させるということを示す。項目別修正辞書更新情報20は、変更させる文字列に関する情報のみから構成され、変更する必要がない文字列に関する情報は含まれない。
In the item-specific corrected
閾値算出方法更新手段である閾値算出方法更新部23は、閾値を算出する計算式を表す計算式情報を更新するための第2の更新情報である閾値算出方法更新情報22を外部から取得する。閾値算出部17は、閾値を算出する計算式を表す計算式情報を予め設定される項目ごとに記憶している。閾値算出方法更新部23は、閾値算出方法更新情報22に基づいて、閾値算出部17が記憶する計算式情報を変更する。
The threshold value calculation
閾値算出方法更新部23は、コンパクトディスクまたは半導体メモリなどの記録媒体から情報を取得することができる図示しない情報処理装置などを制御して、たとえばコンパクトディスクまたは半導体メモリなどの記録媒体に記録される閾値算出方法更新情報22を外部から取得する。また通信ネットワークなどを介して外部と通信可能な図示しない通信部を文字認識装置1に設けることによって、閾値算出方法更新部23は、通信部を介して閾値算出方法更新情報22を取得することもできる。さらに文字認識装置1にキーボードなどの図示しない入力部を設け、ユーザが入力部から関数または関数に含まれるパラメータを入力することによって、閾値算出方法更新部23は計算式を変更することもできる。
The threshold value calculation
図8は、閾値算出方法更新情報22の一例を示す図である。閾値を算出する計算式を変更する方法は、たとえば二次関数を一次関数に変更するなど、計算式である関数を変更する方法と、たとえば一次関数の傾きを示す係数または切片を示す定数を変更するなど、関数に含まれるパラメータを変更する方法とがある。閾値算出方法更新情報22は、更新すべき項目を表す項目情報と、更新後の計算式または計算式に含まれるパラメータを表す情報とを含んでいる。閾値を算出する計算式は項目ごとに予め設定されており、項目情報は、どの項目の計算式を変更するかを示すインデックスとなる。
FIG. 8 is a diagram illustrating an example of the threshold value calculation
図8に示した閾値算出方法更新情報22には、項目「URL」に関数「f_url(x)=ax^2+b」が示され、項目「住所」にパラメータ「c,d」が示されている。閾値算出方法更新情報22は、たとえば項目「URL」について、閾値を算出する計算式を関数「f_url(x)=ax^2+b」に変更することを示す。変数xには、更新後期間の値が入力される。また閾値算出方法更新情報22は、項目「住所」について、関数に含まれるのパラメータのみを「c,d」に変更することを示す。パラメータのみを変更することによって、たとえば関数そのものは変更せずに変数の係数のみを変更させることができる。閾値算出方法更新情報22は、計算式を変更させる項目に関する情報のみから構成され、計算式を変更する必要がない項目に関する情報は含まれない。
In the threshold value calculation
図9は、文字認識方法の処理を示すフローチャートである。文字認識装置1が認識対象である文字列が含まれる認識対象文書10の文字認識を行うときに、ステップS1に進んで処理が開始される。ステップS2では、画像入力部11が、認識対象文書10の画像を表す画像データを、たとえばカメラまたはイメージスキャナなどで取得する。
FIG. 9 is a flowchart showing processing of the character recognition method. When the
認識ステップであるステップS3では、文字認識部12が、画像データに含まれる文字列を認識する。分類ステップであるステップS4では、項目分類部13が、文字認識部12で認識されている文字列を、予め設定される項目ごとに分類する。
In step S3, which is a recognition step, the
ステップS5では、日付取得部16が、文字認識部12によって文字認識が行われた日付である認識日付を取得して、認識日付を閾値算出部17に送る。ステップS6では、修正制御部18が、分類される分類済文字列のすべてについて、後述するステップS11での置換可否の判断が行われたか否かを判断する。置換可否の判断がすべての分類済文字列について行われている場合、ステップS13に進み、置換可否の判断がすべての分類済文字列について行われていない場合、ステップS7に進む。
In step S <b> 5, the
ステップS7では、類似度算出部15が、項目別修正辞書部14の同一項目中のすべての文字列について分類済文字列との類似度を算出する。類似度の算出は、項目別修正辞書の項目のうち同一分類項目のみについて行われる。ステップS8では、類似度算出部15が、算出した類似度の値のうちの最大値と、類似度の最大値を示す文字列である類似文字列とを決定する。ステップS7,S8は、類似度算出ステップである。
In step S <b> 7, the
ステップS9では、閾値算出部17が、同一分類項目の更新日付と認識日付とから、更新後期間を算出する。ステップS10では、閾値算出部17が、分類済文字列の項目と更新後期間とから閾値を算出する。閾値算出部17は、項目ごとに予め設定される関数に更新後期間の値を入力することによって閾値を算出する。ステップS9,S10は、閾値算出ステップである。
In step S9, the threshold
ステップS11では、修正制御部18が、類似度の最大値と閾値とに応じて、分類済文字列を類似文字列に置き換えるか否かを制御する。具体的には、前述した第1の置換制御方法、第2の置換制御方法または第3の置換制御方法などによって制御を行う。置き換えを行うと判断する場合ステップS12に進み、置き換えを行わないと判断する場合ステップS6に進む。ステップS12では、修正制御部18が、分類済文字列を類似文字列に置き換えて分類済文字列の修正を行い、ステップS6に進む。ステップS11,S12は、置換ステップである。ステップS7〜S12は、分類済文字列ごとにそれぞれ行われる処理である。
In step S11, the
ステップS13では、ステップS6ですべての分類済文字列について置換可否の判断が行われたと判断された後に、修正制御部18が文字認識の結果を出力して、ステップS14に進んで処理は終了する。
In step S13, after it is determined in step S6 that all the classified character strings have been replaced or not, the
文字認識装置1が、カメラまたはイメージスキャナなどを含まない構成である場合、ステップS2を省略することができる。その場合はステップS3で、文字認識部12が認識対象文書10の画像を表す画像データを外部から取得して画像データに含まれる文字列を認識するようにすればよい。
When the
文字認識装置1の記憶装置に記憶される制御プログラムは、コンピュータを、文字認識部12である認識手段、項目分類部13である分類手段、類似度算出部15である類似度算出手段、閾値算出部17である閾値算出手段、および修正制御部18である置換手段などの各手段として機能させるための文字認識プログラムである。したがって、文字認識プログラムを、コンピュータを文字認識装置1の各手段として機能させるためのプログラムとして提供することができる。
The control program stored in the storage device of the
文字認識装置1では、文字認識プログラムがたとえば半導体メモリまたはハードディスク装置などの記憶装置に記憶されているが、これらの記憶装置に限定されるものではなく、コンピュータで読み取り可能な記録媒体に記録されていてもよい。記録媒体は、たとえば図示しない外部記憶装置としてプログラム読取装置を設け、そこに記録媒体を挿入することによって読み取り可能な記録媒体であってもよいし、または他の装置の記憶装置であってもよい。
In the
いずれの記録媒体であっても、記憶されている文字認識プログラムがコンピュータからアクセスされて実行される構成であればよい。またはいずれの記録媒体であっても、文字認識プログラムが読み出され、読み出された文字認識プログラムが、記憶装置のプログラム記憶エリアに記憶されて、文字認識プログラムが実行される構成であってもよい。 Any recording medium may be used as long as the stored character recognition program is accessed from a computer and executed. Alternatively, in any recording medium, the character recognition program is read out, the read character recognition program is stored in the program storage area of the storage device, and the character recognition program is executed. Good.
本体と分離可能に構成される記録媒体は、たとえば磁気テープ/カセットテープなどのテープ系の記録媒体、フレキシブルディスク/ハードディスクなどの磁気ディスク、CD−ROM(Compact Disk Read Only Memory)/MO(Magneto Optical disk)/MD(
Mini Disc)/DVD(Digital Versatile Disk)/ブルーレイディスクなどの光ディスクのディスク系の記録媒体、メモリカードを含むIC(Integrated Circuit)カード/光カードなどのカード系の記録媒体、またはマスクROM/EPROM(Erasable
Programmable Read Only Memory)/EEPROM(Electrically Erasable
Programmable Read Only Memory)/フラッシュROMなどの半導体メモリを含む固定的にプログラムを担持する記録媒体であってもよい。コンピュータを文字認識装置1の各手段として機能させるための文字認識プログラムを、上記記録媒体などに記録することができる。したがって、文字認識プログラムをコンピュータ読み取り可能な記録媒体として提供することができる。
The recording medium configured to be separable from the main body is, for example, a tape recording medium such as a magnetic tape / cassette tape, a magnetic disk such as a flexible disk / hard disk, a CD-ROM (Compact Disk Read Only Memory) / MO (Magneto Optical). disk) / MD (
Disc recording media of optical discs such as Mini Disc) / DVD (Digital Versatile Disk) / Blu-ray Disc, IC (Integrated Circuit) cards including memory cards / card recording media such as optical cards, or mask ROM / EPROM ( Erasable
Programmable Read Only Memory / EEPROM (Electrically Erasable
Programmable Read Only Memory) or a recording medium that carries a fixed program including a semiconductor memory such as a flash ROM. A character recognition program for causing a computer to function as each unit of the
文字認識プログラムが、コンピュータ読み取り可能な記録媒体に記録されていなくても、通信ネットワークを介して他の装置から文字認識プログラムのダウンロードを行い、文字認識装置1のプログラム記憶エリアに記憶させることもできる。したがって、通信網などの情報を伝送する機能を有する媒体によって、文字認識プログラムを伝送することができるので、文字認識装置1の各手段として機能させるための文字認識プログラムを伝送する情報伝送媒体として提供することもできる。
Even if the character recognition program is not recorded on a computer-readable recording medium, the character recognition program can be downloaded from another device via a communication network and stored in the program storage area of the
このように、項目別修正辞書部14によって、予め設定される項目ごとに分類される文字列を含む項目別修正辞書を表す項目別修正辞書情報が、各項目が更新された日付を表す更新日付情報と関連付けて記憶される。文字認識部12によって、認識対象である文字列が含まれる画像を表す画像データから文字列が認識される。項目分類部13によって、文字認識部12によって認識される文字列が、予め設定される項目のうちのいずれかに分類される。類似度算出部15によって、項目別修正辞書部14によって記憶される項目別修正辞書情報が示す項目別修正辞書の項目のうち、項目分類部13によって分類される分類済文字列が分類される項目と同じ項目である同一分類項目の各文字列について、分類済文字列と類似する度合を示す類似度が算出され、算出された類似度の値のうち最大値を示す文字列が類似文字列として決定される。閾値算出部17によって、文字認識部12によって文字列が認識される日付である認識日付と、同一分類項目に関連付けられる更新日付情報が示す更新日付とに基づいて、認識対象文書10中に含まれる文字列が項目別修正辞書中に存在する可能性が高いか否かの度合いを示す閾値が算出される。修正制御部18によって、類似度算出部15で算出される類似度の最大値と、閾値算出部17で算出される閾値とに応じて、分類済文字列が類似文字列に置き換えられる。
As described above, the item-specific correction dictionary information representing the item-specific correction dictionary including the character string classified for each item set in advance by the item-specific
したがって、認識される文字列の項目と項目別修正辞書の更新日付とから、認識対象文書10中に含まれる文字列が項目別修正辞書中に存在する可能性が高いか否かの度合いを閾値として数値化することができ、類似度の最大値と閾値とに応じて、認識される文字列を辞書中の文字列に置き換えるか否かを制御することができる。よって、認識される文字列を辞書中の文字列に不適切に置き換えることを防止して、文字認識の精度を向上させる文字認識装置を提供することができる。
Therefore, the threshold value is a degree of whether or not there is a high possibility that the character string included in the
さらに、閾値算出部17によって、認定日付と更新日付とによって決まる更新後期間に応じた閾値が、項目ごとに予め設定される計算式に従って算出されることによって、項目の種類および更新後期間に応じた閾値を、項目ごとに算出して置き換えを行うか否かを制御することができるので、文字認識の精度をさらに向上させる文字認識装置を提供することができる。また、認識される文字列全体に対してではなく、個々の文字列ごとに置き換えが行われやすくするか否かを設定することができる。
Furthermore, the threshold
さらに、修正制御部18によって、類似度の最大値が閾値以上の場合、分類済文字列が類似文字列に置き換えられ、類似度の最大値が閾値未満の場合、分類済文字列が類似文字列に置き換えられないことによって、類似度の最大値と閾値とに応じて、置き換えを行うか否かを適切に制御することができる。
Furthermore, when the maximum value of the similarity is equal to or greater than the threshold, the
さらに、修正制御部18によって、類似度の最大値と閾値との差を算出し、算出した差の値と予め定める差分値とが比較される。差の値が予め定める差分値以上の場合、分類済文字列が類似文字列に置き換えられ、差の値が予め定める差分値未満の場合、分類済文字列が類似文字列に置き換えられないことによって、認識される文字列の置き換えが行われやすくなるか否かを、項目ごとではなく一律に設定することができる。
Further, the
さらに、修正制御部18によって、類似度の最大値と閾値との比率を算出し、算出した比率と予め定める比率とが比較される。比率が予め定める比率以上の場合、認識文字列が類似文字列に置き換えられ、比率が予め定める比率未満の場合、認識文字列が類似文字列に置き換えられないことによって、認識される文字列の置き換えが行われやすくなるか否かを、項目ごとではなく一律に設定することができる。
Further, the
さらに、項目別修正辞書更新部21によって、項目別修正辞書を更新するための項目別修正辞書更新情報20が外部から取得され、項目別修正辞書更新情報20に基づいて項目別修正辞書部14に記憶される項目別修正辞書情報および更新日付情報が変更されることによって、項目ごとに管理されている項目別修正辞書を更新して、古くなった項目別修正辞書中の文字列を新しい文字列に変更するので、文字認識の精度を向上させることができる。
Further, the item-specific correction
さらに、更新情報である項目別修正辞書更新情報20が、更新すべき項目を表す項目情報と、更新すべき文字列の項目内の位置を表す位置情報と、更新後の文字列を表す文字列情報とを含んでいることによって、項目情報と位置情報とをインデックスとして、項目別修正辞書中の文字列を新たな文字列に適切に変更することができる。
Further, the item-specific correction
さらに、閾値算出部17によって、閾値を算出する計算式を表す計算式情報が項目ごとに記憶される。閾値算出方法更新部23によって、計算式情報を更新するための第2の更新情報である閾値算出方法更新情報22が外部から取得され、閾値算出方法更新情報22に基づいて計算式情報が変更されることによって、閾値を算出する計算式を項目ごと変更することができるので、文字列の置き換えが行われやすくなるか否かを項目ごとに任意に調整することができる。
Further, the
さらに、第2の更新情報である閾値算出方法更新情報22が、更新すべき項目を表す項目情報と、更新後の計算式または計算式に含まれるパラメータを表す情報とを含んでいることによって、項目情報をインデックスとして、項目ごとに閾値を算出する計算式を適切に変更することができる。
Furthermore, the threshold value calculation
さらに、文字認識プログラムによって、コンピュータを、予め設定される項目ごとに分類される文字列を含む項目別修正辞書を表す項目別修正辞書情報を、各項目が更新された日付を表す更新日付情報と関連付けて記憶する項目別修正辞書部14と、認識対象である文字列が含まれる画像を表す画像データから文字列を認識する文字認識部12と、文字認識部12によって認識される文字列を、予め設定される項目のうちのいずれかに分類する項目分類部13と、項目別修正辞書部14によって記憶される項目別修正辞書情報が示す項目別修正辞書の項目のうち、項目分類部13によって分類される分類済文字列が分類される項目と同じ項目である同一分類項目の各文字列について、分類済文字列と類似する度合を示す類似度を算出し、算出された類似度の値のうち最大値を示す文字列を類似文字列として決定する類似度算出部15と、文字認識部12によって文字列が認識される日付である認識日付と、同一分類項目に関連付けられる更新日付情報が示す更新日付とに基づいて、認識対象文書10中に含まれる文字列が項目別修正辞書中に存在する可能性が高いか否かの度合いを示す閾値を算出する閾値算出部17と、類似度算出部15で算出される類似度の最大値と、閾値算出部17で算出される閾値とに応じて、分類済文字列を類似文字列に置き換えるか否かを制御する修正制御部18として機能させることができる。
Further, by the character recognition program, the computer is used to update the item-specific correction dictionary information representing the item-specific correction dictionary including the character strings classified for each preset item, and the update date information representing the date when each item was updated. An item-specific
したがって、認識される文字列を辞書中の文字列に不適切に置き換えることを防止して、文字認識の精度を向上させることができるようにコンピュータを機能させる文字認識プログラムを提供することができる。 Therefore, it is possible to provide a character recognition program that causes a computer to function so that the recognized character string can be prevented from being inappropriately replaced with a character string in the dictionary and the accuracy of character recognition can be improved.
さらに、文字認識プログラムをコンピュータ読み取り可能な記録媒体として提供することができる。 Furthermore, the character recognition program can be provided as a computer-readable recording medium.
さらに、認識ステップであるステップS3では、認識対象である文字列が含まれる画像を表す画像データから文字列を認識する。分類ステップであるステップS4では、認識ステップによって認識される文字列を、予め設定される項目のうちのいずれかに分類する。類似度算出ステップであるステップS7,S8では、予め設定される項目ごとに分類される文字列を含む項目別修正辞書を表す項目別修正辞書情報を、各項目が更新された日付を表す更新日付情報と関連付けて記憶する項目別修正辞書部14によって記憶される項目別修正辞書情報が示す項目別修正辞書の項目のうち、分類ステップによって分類される分類済文字列が分類される項目と同じ項目である同一分類項目の各文字列について、分類済文字列と類似する度合を示す類似度を算出し、算出された類似度の値のうち最大値を示す文字列を類似文字列として決定する。閾値算出ステップであるステップS9,S10では、認識ステップによって文字列が認識される日付である認識日付と、同一分類項目に関連付けられる更新日付情報が示す更新日付とに基づいて、認識対象文書10中に含まれる文字列が項目別修正辞書中に存在する可能性が高いか否かの度合いを示す閾値を算出する。置換ステップであるステップS11,S12では、類似度算出ステップで算出される類似度の最大値と、閾値算出ステップで算出される閾値とに応じて、分類済文字列を類似文字列に置き換えるか否かを制御する。
In step S3, which is a recognition step, a character string is recognized from image data representing an image including the character string to be recognized. In step S4, which is a classification step, the character string recognized in the recognition step is classified into one of preset items. In steps S7 and S8, which are similarity calculation steps, the item-specific correction dictionary information representing the item-specific correction dictionary including the character string classified for each preset item is used as the update date representing the date each item was updated. Of the items of the item-specific correction dictionary indicated by the item-specific correction dictionary information stored by the item-specific
したがって、認識される文字列の項目と項目別修正辞書の更新日付とから、認識対象文書10中に含まれる文字列が項目別修正辞書中に存在する可能性が高いか否かの度合いを閾値として数値化することができ、類似度の最大値と閾値とに応じて、認識される文字列を辞書中の文字列に置き換えるか否かを制御することができる。よって、認識される文字列を辞書中の文字列に不適切に置き換えることを防止して、文字認識の精度を向上させる文字認識方法を提供することができる。
Therefore, the threshold value is a degree of whether or not there is a high possibility that the character string included in the
1 文字認識装置
10 認識対象文書
11 画像入力部
12 文字認識部
13 項目分類部
14 項目別修正辞書部
15 類似度算出部
16 日付取得部
17 閾値算出部
18 修正制御部
19 認識結果
20 項目別修正辞書更新情報
21 項目別修正辞書更新部
22 閾値算出方法更新情報
23 閾値算出方法更新部
30 文字列分類結果
31 キーワード辞書情報
32 ルール情報
33 項目別修正辞書情報
34 住所修正辞書情報
35 郵便番号修正辞書情報
36 URL修正辞書情報
DESCRIPTION OF
Claims (12)
認識対象である文字列が含まれる画像を表す画像データから文字列を認識する認識手段と、
前記認識手段によって認識される文字列を、前記予め設定される項目のうちのいずれかに分類する分類手段と、
前記記憶手段によって記憶される修正辞書情報が示す修正辞書の項目のうち、前記分類手段によって分類される分類済文字列が分類される項目と同じ項目である同一分類項目の各文字列について、前記分類済文字列と類似する度合を示す類似度を算出し、算出された類似度の値のうち最大値を示す文字列を類似文字列として決定する類似度算出手段と、
前記認識手段によって文字列が認識される日付である認識日付と、前記同一分類項目に関連付けられる更新日付情報が示す更新日付とに基づいて、前記画像中に含まれる文字列が前記修正辞書中に存在する可能性が高いか否かの度合いを示す閾値を算出する閾値算出手段と、
前記類似度算出手段で算出される類似度の最大値と、前記閾値算出手段で算出される閾値とに応じて、前記分類済文字列を前記類似文字列に置き換えるか否かを制御する置換手段とを含むことを特徴とする文字認識装置。 Storage means for storing correction dictionary information representing a correction dictionary including character strings classified for each preset item in association with update date information representing a date when each item was updated;
Recognizing means for recognizing a character string from image data representing an image including a character string to be recognized;
Classifying means for classifying the character string recognized by the recognition means into any of the preset items;
Among the correction dictionary items indicated by the correction dictionary information stored by the storage unit, for each character string of the same classification item that is the same item as the item into which the classified character string classified by the classification unit is classified, A similarity calculating means for calculating a similarity indicating a degree similar to the classified character string, and determining a character string indicating the maximum value among the calculated similarity values as a similar character string;
Based on a recognition date that is a date when the character string is recognized by the recognition unit and an update date indicated by update date information associated with the same classification item, the character string included in the image is stored in the correction dictionary. A threshold value calculation means for calculating a threshold value indicating a degree of whether or not there is a high possibility of existence;
Replacement means for controlling whether or not to replace the classified character string with the similar character string according to the maximum value of the similarity calculated by the similarity calculation means and the threshold value calculated by the threshold value calculation means And a character recognition device.
前記計算式情報を更新するための第2の更新情報を外部から取得して、前記第2の更新情報に基づいて前記計算式情報を変更する閾値算出方法更新手段をさらに含むことを特徴とする請求項1〜7のいずれか1つに記載の文字認識装置。 The threshold value calculation means stores calculation formula information representing a calculation formula for calculating a threshold value for each of the preset items,
It further includes threshold value calculation method updating means for acquiring second update information for updating the calculation formula information from outside and changing the calculation formula information based on the second update information. The character recognition apparatus as described in any one of Claims 1-7.
予め設定される項目ごとに分類される文字列を含む修正辞書を表す修正辞書情報を、各項目が更新された日付を表す更新日付情報と関連付けて記憶する記憶手段と、
認識対象である文字列が含まれる画像を表す画像データから文字列を認識する認識手段と、
前記認識手段によって認識される文字列を、前記予め設定される項目のうちのいずれかに分類する分類手段と、
前記記憶手段によって記憶される修正辞書情報が示す修正辞書の項目のうち、前記分類手段によって分類される分類済文字列が分類される項目と同じ項目である同一分類項目の各文字列について、前記分類済文字列と類似する度合を示す類似度を算出し、算出された類似度の値のうち最大値を示す文字列を類似文字列として決定する類似度算出手段と、
前記認識手段によって文字列が認識される日付である認識日付と、前記同一分類項目に関連付けられる更新日付情報が示す更新日付とに基づいて、前記画像中に含まれる文字列が前記修正辞書中に存在する可能性が高いか否かの度合いを示す閾値を算出する閾値算出手段と、
前記類似度算出手段で算出される類似度の最大値と、前記閾値算出手段で算出される閾値とに応じて、前記分類済文字列を前記類似文字列に置き換えるか否かを制御する置換手段として機能させるための文字認識プログラム。 Computer
Storage means for storing correction dictionary information representing a correction dictionary including character strings classified for each preset item in association with update date information representing a date when each item was updated;
Recognizing means for recognizing a character string from image data representing an image including a character string to be recognized;
Classifying means for classifying the character string recognized by the recognition means into any of the preset items;
Among the correction dictionary items indicated by the correction dictionary information stored by the storage unit, for each character string of the same classification item that is the same item as the item into which the classified character string classified by the classification unit is classified, A similarity calculating means for calculating a similarity indicating a degree similar to the classified character string, and determining a character string indicating the maximum value among the calculated similarity values as a similar character string;
Based on a recognition date that is a date when the character string is recognized by the recognition unit and an update date indicated by update date information associated with the same classification item, the character string included in the image is stored in the correction dictionary. A threshold value calculation means for calculating a threshold value indicating a degree of whether or not there is a high possibility of existence;
Replacement means for controlling whether or not to replace the classified character string with the similar character string according to the maximum value of the similarity calculated by the similarity calculation means and the threshold value calculated by the threshold value calculation means Character recognition program to function as
前記認識ステップによって認識される文字列を、予め設定される項目のうちのいずれかに分類する分類ステップと、
前記予め設定される項目ごとに分類される文字列を含む修正辞書を表す修正辞書情報を、各項目が更新された日付を表す更新日付情報と関連付けて記憶する記憶手段によって記憶される修正辞書情報が示す修正辞書の項目のうち、前記分類ステップによって分類される分類済文字列が分類される項目と同じ項目である同一分類項目の各文字列について、前記分類済文字列と類似する度合を示す類似度を算出し、算出された類似度の値のうち最大値を示す文字列を類似文字列として決定する類似度算出ステップと、
前記認識ステップによって文字列が認識される日付である認識日付と、前記同一分類項目に関連付けられる更新日付情報が示す更新日付とに基づいて、前記画像中に含まれる文字列が前記修正辞書中に存在する可能性が高いか否かの度合いを示す閾値を算出する閾値算出ステップと、
前記類似度算出ステップで算出される類似度の最大値と、前記閾値算出ステップで算出される閾値とに応じて、前記分類済文字列を前記類似文字列に置き換えるか否かを制御する置換ステップとを含むことを特徴とする文字認識方法。 A recognition step for recognizing a character string from image data representing an image including the character string to be recognized;
A classification step of classifying the character string recognized by the recognition step into any of preset items;
Correction dictionary information stored by storage means for storing correction dictionary information representing a correction dictionary including a character string classified for each preset item in association with update date information representing a date when each item was updated The degree of similarity to the classified character string is indicated for each character string of the same classification item that is the same item as the item into which the classified character string classified by the classification step is classified. A similarity calculation step of calculating a similarity and determining a character string indicating the maximum value among the calculated similarity values as a similar character string;
Based on the recognition date, which is the date when the character string is recognized by the recognition step, and the update date indicated by the update date information associated with the same classification item, the character string included in the image is stored in the correction dictionary. A threshold calculation step for calculating a threshold indicating a degree of whether or not there is a high possibility of existence;
A replacement step for controlling whether to replace the classified character string with the similar character string according to the maximum value of the similarity calculated in the similarity calculation step and the threshold value calculated in the threshold value calculation step. The character recognition method characterized by including these.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008315066A JP2010140204A (en) | 2008-12-10 | 2008-12-10 | Character recognition device, character recognition method, character recognition program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008315066A JP2010140204A (en) | 2008-12-10 | 2008-12-10 | Character recognition device, character recognition method, character recognition program, and recording medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010140204A true JP2010140204A (en) | 2010-06-24 |
Family
ID=42350305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008315066A Pending JP2010140204A (en) | 2008-12-10 | 2008-12-10 | Character recognition device, character recognition method, character recognition program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010140204A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015102938A (en) * | 2013-11-22 | 2015-06-04 | 日立オムロンターミナルソリューションズ株式会社 | Document recognition apparatus, document recognition method, and program |
JP2016051339A (en) * | 2014-08-29 | 2016-04-11 | 日立オムロンターミナルソリューションズ株式会社 | Document recognition device and method |
CN109582972A (en) * | 2018-12-27 | 2019-04-05 | 信雅达系统工程股份有限公司 | A kind of optical character identification error correction method based on natural language recognition |
WO2021059848A1 (en) * | 2019-09-27 | 2021-04-01 | AI inside株式会社 | Information processing device, information processing method, and information processing program |
-
2008
- 2008-12-10 JP JP2008315066A patent/JP2010140204A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015102938A (en) * | 2013-11-22 | 2015-06-04 | 日立オムロンターミナルソリューションズ株式会社 | Document recognition apparatus, document recognition method, and program |
JP2016051339A (en) * | 2014-08-29 | 2016-04-11 | 日立オムロンターミナルソリューションズ株式会社 | Document recognition device and method |
CN109582972A (en) * | 2018-12-27 | 2019-04-05 | 信雅达系统工程股份有限公司 | A kind of optical character identification error correction method based on natural language recognition |
CN109582972B (en) * | 2018-12-27 | 2023-05-16 | 信雅达科技股份有限公司 | Optical character recognition error correction method based on natural language recognition |
WO2021059848A1 (en) * | 2019-09-27 | 2021-04-01 | AI inside株式会社 | Information processing device, information processing method, and information processing program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9704480B2 (en) | Information processing apparatus, method for processing information, and program | |
US8176050B2 (en) | Method and apparatus of supporting creation of classification rules | |
CN101647021B (en) | Speech data retrieval apparatus, speech data retrieval method, speech data retrieval program and computer usable medium having computer readable speech data retrieval program embodied therein | |
US7739111B2 (en) | Pattern matching method and apparatus and speech information retrieval system | |
US20100254613A1 (en) | System and method for duplicate text recognition | |
KR101511656B1 (en) | Ascribing actionable attributes to data that describes a personal identity | |
EP3499384A1 (en) | Word and sentence embeddings for sentence classification | |
US9898464B2 (en) | Information extraction supporting apparatus and method | |
WO2011148571A1 (en) | Information extraction system, method, and program | |
US20060045340A1 (en) | Character recognition apparatus and character recognition method | |
US20110202545A1 (en) | Information extraction device and information extraction system | |
Wåreus et al. | Automated CPE labeling of CVE summaries with machine learning | |
JP2014182477A (en) | Program and document processing device | |
CN114492363A (en) | Small sample fine adjustment method, system and related device | |
JP4528705B2 (en) | Character recognition device and character recognition method | |
JP2010140204A (en) | Character recognition device, character recognition method, character recognition program, and recording medium | |
KR101721063B1 (en) | Personal information retrieval method in the image files and storing medium storing program using the method thereof | |
US7756872B2 (en) | Searching device and program product | |
CN111737397A (en) | Information processing apparatus, document management system, recording medium, and information processing method | |
US20230075290A1 (en) | Method for linking a cve with at least one synthetic cpe | |
JP2006268217A (en) | Dictionary optimization system and method for portable terminal | |
CN113076740A (en) | Synonym mining method and device in government affair service field | |
JP2586372B2 (en) | Information retrieval apparatus and information retrieval method | |
JP2007058415A (en) | Text mining device, text mining method, and program for text mining | |
WO2015125088A1 (en) | Document characterization method |