JP5674615B2 - Character recognition device and character recognition method - Google Patents

Character recognition device and character recognition method Download PDF

Info

Publication number
JP5674615B2
JP5674615B2 JP2011212308A JP2011212308A JP5674615B2 JP 5674615 B2 JP5674615 B2 JP 5674615B2 JP 2011212308 A JP2011212308 A JP 2011212308A JP 2011212308 A JP2011212308 A JP 2011212308A JP 5674615 B2 JP5674615 B2 JP 5674615B2
Authority
JP
Japan
Prior art keywords
character
deterioration
recognition
image
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011212308A
Other languages
Japanese (ja)
Other versions
JP2013073439A (en
Inventor
利昇 三好
利昇 三好
和樹 中島
和樹 中島
庸昂 堤
庸昂 堤
永崎 健
健 永崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Information and Telecommunication Engineering Ltd
Original Assignee
Hitachi Information and Telecommunication Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Information and Telecommunication Engineering Ltd filed Critical Hitachi Information and Telecommunication Engineering Ltd
Priority to JP2011212308A priority Critical patent/JP5674615B2/en
Publication of JP2013073439A publication Critical patent/JP2013073439A/en
Application granted granted Critical
Publication of JP5674615B2 publication Critical patent/JP5674615B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、文字認識技術に関し、特に、文字認識結果を棄却するか否かを判定する技術に関する。   The present invention relates to a character recognition technique, and more particularly to a technique for determining whether or not to reject a character recognition result.

文字認識装置(OCR装置)は、伝票・帳票類及び一般文書の文字の読み取りに用いられる。これによって、文書中の文字を電子データとして扱うことができる。伝票・帳票類には、一般企業、自治体、金融、保険、医療機関、教育機関などにおいて用いられる会計伝票、発注書、商品券、納付済通知書、給与報告書、納付済通知書、注文書、保険契約書、総振、源泉徴収、健康診断書、診療報酬明細書、解答用紙、入学願書などがある。また、一般文書には、オフィス又は個人において用いられる新聞、雑誌、技術資料、手書きメモなどがある。文字認識装置は、これらの文書からID、金融機関名、金額、商品名、個数、住所、名前などの項目を探索し、文字を読み取ることによって、これらの項目を電子化する。   The character recognition device (OCR device) is used for reading characters of slips / forms and general documents. Thereby, characters in the document can be handled as electronic data. The slips and forms include accounting slips, purchase orders, gift certificates, paid notices, salary reports, paid notices, order forms used in general companies, local governments, finance, insurance, medical institutions, educational institutions, etc. , Insurance contracts, total transfers, withholding, health checkups, medical fee details, answer sheets, application forms for admission. General documents include newspapers, magazines, technical materials, handwritten memos and the like used in offices or individuals. The character recognition device searches items such as ID, financial institution name, amount, product name, number, address, name, etc. from these documents, and reads these characters to digitize these items.

文字認識の処理は、主に、文書のスキャンによる画像化、二値化(グレー化)及びノイズ処理などの前処理と、レイアウト解析処理、文字列抽出処理、文字列認識処理、リトライ処理及び結果記録などの認識後の処理と、に分けられる(図7)。   Character recognition processing mainly includes pre-processing such as imaging by document scanning, binarization (graying) and noise processing, layout analysis processing, character string extraction processing, character string recognition processing, retry processing, and results. It is divided into processing after recognition such as recording (FIG. 7).

まず、文書の画像化では、スキャナなどを用いて、文書を電子画像化する。予め、文書が画像化されている場合には、この処理は必要ない。   First, in the imaging of a document, the document is converted into an electronic image using a scanner or the like. This processing is not necessary when the document is imaged in advance.

前処理では、文書画像の二値化や背景除去、ノイズ処理、傾き補正などを行う。例えば、二値化については非特許文献4、傾き補正については非特許文献5に記述がある。   In the preprocessing, binarization of the document image, background removal, noise processing, inclination correction, and the like are performed. For example, non-patent document 4 describes binarization and non-patent document 5 describes tilt correction.

次に、レイアウト解析では、画像のテキスト部分と図などの非テキスト部分を分離したり(非特許文献6)、表の対応関係を解析したりする(特許文献1)。   Next, in the layout analysis, a text part of an image and a non-text part such as a figure are separated (Non-Patent Document 6), or the correspondence between tables is analyzed (Patent Document 1).

次に文字列抽出では、テキスト部分から文字列を抽出する。一般文書の場合には、行単位の文字列となる。これについては、例えば、非特許文献7に記述がある。   Next, in the character string extraction, a character string is extracted from the text portion. In the case of a general document, it is a character string in line units. This is described in Non-Patent Document 7, for example.

文字列認識では、上記で抽出された文字列の認識を行う。これによって、文書中の文字が電子データ化される。ただし、所定の条件に基づいて、抽出された文字列に含まれる文字を認識できないと判定された場合は、当該文字の認識結果が棄却される。この場合、当該文字の認識は失敗し、この時点で当該文字は認識できない(不読)文字として扱われる。   In the character string recognition, the character string extracted as described above is recognized. Thereby, the characters in the document are converted into electronic data. However, if it is determined that a character included in the extracted character string cannot be recognized based on a predetermined condition, the recognition result of the character is rejected. In this case, the recognition of the character fails, and the character is treated as an unrecognizable (unread) character at this point.

リトライ処理では、認識をもう一度やり直すかどうか判断し、やり直すと判断した場合には、それより前の任意の処理から、処理の方法を変えて、認識を再トライする。例えば、前処理に戻り、二値化のパラメータを変えるなど、前回とは異なる方法で処理を行う。リトライ処理の結果、最初の認識では失敗したものでも、パラメータ等を変更して再び処理することによって、認識に成功する場合もある。   In the retry process, it is determined whether the recognition is to be performed again. If it is determined that the recognition is to be performed again, the processing method is changed from an arbitrary process before that and the recognition is retried. For example, the processing is performed in a different method from the previous time, such as returning to the preprocessing and changing the binarization parameters. As a result of the retry processing, even if the first recognition fails, there are cases where the recognition succeeds by changing the parameters and processing again.

認識後の処理では、認識結果を認識結果データベースに保存したり、認識結果に基づいて、入力文書をソーティングしたりする。データベースには、認識結果とともに、スキャン画像を記録しておく場合もある。文書のソーティングは、たとえば、文書に記載された金額の大小、ID又は住所、などに基づいて行われる。また、認識が棄却された場合には、後の再処理のために、認識が棄却された文字を含む文書をそれ以外の文書と区別するように分類する場合もある。   In the processing after recognition, the recognition result is stored in a recognition result database, or the input document is sorted based on the recognition result. A scanned image may be recorded in the database together with the recognition result. Document sorting is performed based on, for example, the amount of money described in the document, an ID or an address, and the like. In addition, when recognition is rejected, a document including characters whose recognition has been rejected may be classified so as to be distinguished from other documents for later reprocessing.

特開2008−21068号公報JP 2008-21068 A 特開2007−328820号公報JP 2007-328820 A

Mohammed Cheriet, Nawwaf Kharma, and Cheng lin Liu, and Ching Suen, "Character Recognition Systems: A Guide for Students and Practitioners.", Wiley-Interscience, 2007.Mohammed Cheriet, Nawwaf Kharma, and Cheng lin Liu, and Ching Suen, "Character Recognition Systems: A Guide for Students and Practitioners.", Wiley-Interscience, 2007. T. M. Breuel, "Robust least square baseline finding using a branch and bound algorithm," in Document Recognition and Retrieval VIII, SPIE, San Jose, pp.20-27, 2002.T. M. Breuel, "Robust least square baseline finding using a branch and bound algorithm," in Document Recognition and Retrieval VIII, SPIE, San Jose, pp. 20-27, 2002. Breuel, T.M.: The OCRopus open source OCR system. In: Proceedings of SPIE Document Recognition and Retrieval XV, San Jose, CA, USA, pp. 0F1_0F15 (2008)Breuel, T.M .: The OCRopus open source OCR system.In: Proceedings of SPIE Document Recognition and Retrieval XV, San Jose, CA, USA, pp. 0F1_0F15 (2008) F. Shafait, D. Keysers, and T. M. Breuel, "Efficient implementation of local adaptive thresholding techniques using integral images," in Document Recognition and Retrieval XV, (San Jose, USA), Jan. 2008.F. Shafait, D. Keysers, and T. M. Breuel, "Efficient implementation of local adaptive thresholding techniques using integral images," in Document Recognition and Retrieval XV, (San Jose, USA), Jan. 2008. T. M. Breuel, "Robust least square baseline finding using a branch and bound algorithm," in Document Recognition and Retrieval VIII, SPIE, San Jose, pp.20-27, 2002.T. M. Breuel, "Robust least square baseline finding using a branch and bound algorithm," in Document Recognition and Retrieval VIII, SPIE, San Jose, pp. 20-27, 2002. D. Keysers, F. Shafait, and T. M. Breuel, "Document image zone classification − a simple high-performance approach," in 2nd Int. Conf. On Computer Vision Theory and Applications, pp. 44-51, Mar. 2007.D. Keysers, F. Shafait, and T. M. Breuel, "Document image zone classification − a simple high-performance approach,” in 2nd Int. Conf. On Computer Vision Theory and Applications, pp. 44-51, Mar. 2007. R. Smith, "An overview of the Tesseract OCR engine.," in Int. Conf. On Document Analysis and Recognition (ICDAR), Curitiba, Brazil, 2007.R. Smith, "An overview of the Tesseract OCR engine.," In Int. Conf. On Document Analysis and Recognition (ICDAR), Curitiba, Brazil, 2007.

劣化文字(例えば、かすれ又はつぶれなどを原因とする)は認識が困難な文字ではあるが、なるべく精度良く認識する必要がある。かすれ及びつぶれの例については後述する(図9参照)。   Degraded characters (for example, caused by blurring or crushing) are difficult to recognize, but need to be recognized as accurately as possible. Examples of fading and crushing will be described later (see FIG. 9).

さらに、文字認識装置には、非文字が入力される可能性がある。そのため、これらを誤読しないように、精緻に棄却することが求められる。また、劣化文字も、認識が困難な場合には、誤読するよりも精緻に棄却することが求められる。   Further, non-characters may be input to the character recognition device. For this reason, it is required to reject them precisely so as not to misread them. Further, when it is difficult to recognize deteriorated characters, it is required to reject them more precisely than misreading.

本発明の代表的な一例を示せば次の通りである。すなわち、プロセッサと、前記プロセッサに接続される記憶装置と、を備える文字認識装置であって、前記記憶装置は、認識対象の文字画像のデータと、前記文字画像と各文字種との類似度を計算するための関数を含む認識用辞書と、前記文字画像の劣化度を劣化の種類ごとに計算するための関数を含む複数の劣化判定用辞書と、を保持し、前記劣化の種類ごとに、劣化が発生した前記各文字種の文字画像を保持し、前記文字認識装置は、前記類似度を計算するための前記文字画像の特徴を示す数値を抽出し、前記劣化の種類ごとに、劣化度を目的変数、前記劣化が発生した前記各文字種の文字画像の特徴を示す数値を説明変数とする回帰学習を行うことによって、前記文字画像の劣化度を劣化の種類ごとに計算するための関数を生成して前記劣化判定用辞書に保存し、前記抽出された類似度を計算するための特徴を示す数値と、前記認識用辞書に含まれる関数とを用いて、前記文字画像の前記各文字種に対する類似度を計算し、前記劣化の種類ごとに、前記劣化度を計算するための前記文字画像の特徴を示す数値を抽出し、前記抽出された劣化度を計算するための特徴を示す数値と、前記劣化判定用辞書に含まれる関数とを用いて、前記劣化の種類ごとに、前記文字画像の劣化度を計算し、前記計算された劣化度に基づいて、前記文字画像の認識結果を棄却するか否かを判定し、前記判定した結果を前記記憶装置に記録し、文書画像を入力されると、前記文書画像の二値化又はノイズ除去の少なくとも一つを含む前処理を行い、前記前処理がされた前記文書画像から文字列画像を切り出し、前記文字列画像から前記文字画像を切り出し、前記劣化の種類ごとに計算された劣化度に基づいて、前記文字画像の認識処理を再実行するか否かを判定し、前記文字画像の認識処理を再実行すると判定した場合、前記前処理、前記文字列画像の切り出し、前記文字画像の切り出し、前記文字画像の特徴を示す数値の抽出、又は前記文字画像の前記各文字種に対する類似度の計算を、前記劣化度に応じて変更されたパラメータ又は処理方法を用いて再実行することを特徴とする。 A typical example of the present invention is as follows. That is, a character recognition device comprising a processor and a storage device connected to the processor, wherein the storage device calculates character image data to be recognized and the similarity between the character image and each character type. And a plurality of deterioration determination dictionaries including a function for calculating a deterioration degree of the character image for each type of deterioration, and a deterioration for each type of deterioration. The character recognition device extracts a numerical value indicating the characteristics of the character image for calculating the degree of similarity, and sets the degree of deterioration for each type of deterioration. A function for calculating the degree of deterioration of the character image for each type of deterioration is generated by performing regression learning using a variable and a numerical value indicating the characteristics of the character image of each character type in which the deterioration has occurred as an explanatory variable. Before Save the deterioration determination dictionary, a numerical value indicating the feature used to calculate the extracted similarity with and functions included in the recognition dictionary, calculating the similarity with respect to each character type of the character image For each type of deterioration, a numerical value indicating the characteristic of the character image for calculating the deterioration degree is extracted, a numerical value indicating the characteristic for calculating the extracted deterioration degree, and the deterioration determination The function included in the dictionary is used to calculate the degree of deterioration of the character image for each type of deterioration, and whether to reject the recognition result of the character image based on the calculated degree of deterioration. The determination result is recorded in the storage device, and when a document image is input, preprocessing including at least one of binarization or noise removal of the document image is performed, and the preprocessing is performed. Character string image from the document image The character image is cut out from the character string image, and it is determined whether or not to perform the character image recognition process again based on the degree of deterioration calculated for each type of deterioration. If it is determined that the recognition process is to be re-executed, the pre-processing, the character string image clipping, the character image clipping, the extraction of numerical values indicating the characteristics of the character image, or the similarity of the character image to each character type The calculation is re-executed using a parameter or a processing method changed according to the degree of deterioration .

本発明の一実施形態によれば、劣化の種類ごとにそれに適した方法で劣化の程度が計算され、それに基づいて認識結果を棄却するか否かが判定されるため、劣化文字を精緻に棄却することができる。   According to an embodiment of the present invention, the degree of deterioration is calculated by a method suitable for each type of deterioration, and it is determined whether to reject the recognition result based on the calculated degree. can do.

本発明の実施形態の文字認識装置のハードウェア構成を示すブロック図である。It is a block diagram which shows the hardware constitutions of the character recognition apparatus of embodiment of this invention. 従来の文字認識装置が実行する処理の流れを示す機能ブロック図である。It is a functional block diagram which shows the flow of the process which the conventional character recognition apparatus performs. 本発明の実施形態の文字認識装置が実行する処理の流れを示す機能ブロック図である。It is a functional block diagram which shows the flow of the process which the character recognition apparatus of embodiment of this invention performs. 本発明の実施形態における文字認識の処理の流れの具体例の説明図である。It is explanatory drawing of the specific example of the flow of the process of the character recognition in embodiment of this invention. 本発明の実施形態の類似度算出部による類似度算出結果の説明図である。It is explanatory drawing of the similarity calculation result by the similarity calculation part of embodiment of this invention. 本発明の実施形態の認識結果DBに記録される、文字画像の劣化の状態を示す情報の説明図である。It is explanatory drawing of the information which shows the degradation state of a character image recorded on recognition result DB of embodiment of this invention. 本発明の実施形態の文字認識装置が実行する文字認識処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the character recognition process which the character recognition apparatus of embodiment of this invention performs. 本発明の実施形態において扱われる劣化した文字画像の説明図である。It is explanatory drawing of the deteriorated character image handled in embodiment of this invention. 本発明の実施形態において分類される文字画像の劣化の種類の説明図である。It is explanatory drawing of the kind of degradation of the character image classified in embodiment of this invention. 本発明の実施形態の文字列認識部が実行する文字列の分割の説明図である。It is explanatory drawing of the division | segmentation of the character string which the character string recognition part of embodiment of this invention performs. 本発明の実施形態の文字列認識部によって扱われる文字列正解候補ネットワークの説明図である。It is explanatory drawing of the character string correct candidate network handled by the character string recognition part of embodiment of this invention. 本発明の実施形態の文字列辞書の説明図である。It is explanatory drawing of the character string dictionary of embodiment of this invention. 本発明の実施形態の文字特徴抽出部による文字特徴抽出方法の説明図である。It is explanatory drawing of the character feature extraction method by the character feature extraction part of embodiment of this invention.

以下、図面を用いて本発明の実施形態を説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図1は、本発明の実施形態の文字認識装置101のハードウェア構成を示すブロック図である。   FIG. 1 is a block diagram showing a hardware configuration of a character recognition device 101 according to an embodiment of the present invention.

文字認識装置101は、入力装置102、表示装置103、イメージ取得装置104、通信装置105、演算装置106、及び外部記憶装置107を備える。   The character recognition device 101 includes an input device 102, a display device 103, an image acquisition device 104, a communication device 105, an arithmetic device 106, and an external storage device 107.

入力装置102は、演算装置106によって実行されるプログラムを制御するためのコマンド、及び、文字認識装置101に接続される外部機器(図示省略)を制御するためのコマンド等を入力するための装置である。入力装置102は、例えば、キーボード又はマウス等である。   The input device 102 is a device for inputting a command for controlling a program executed by the arithmetic device 106, a command for controlling an external device (not shown) connected to the character recognition device 101, and the like. is there. The input device 102 is, for example, a keyboard or a mouse.

表示装置103は、処理内容等を適宜表示するディスプレイ装置等である。   The display device 103 is a display device or the like that displays processing contents and the like as appropriate.

イメージ取得装置104は、例えば光学スキャナのような、イメージ取得用の装置である。取得したイメージは、例えば、外部記憶装置107等に記憶される。   The image acquisition device 104 is an image acquisition device such as an optical scanner. The acquired image is stored in, for example, the external storage device 107.

通信装置105は、文字認識装置101に接続される外部機器(例えばPC(Personal Computer)又はサーバ等、図示省略)とデータを通信する。通信装置105は、例えば、外部機器からユーザによって入力された実行コマンド、画像データ及びテキストデータ等を受信する。さらに、通信装置105は、文字認識装置101による処理内容及び文字認識結果等を外部機器に送信してもよい。   The communication device 105 communicates data with an external device (for example, a PC (Personal Computer) or a server, not shown) connected to the character recognition device 101. The communication device 105 receives, for example, an execution command, image data, text data, and the like input by a user from an external device. Further, the communication device 105 may transmit the processing content by the character recognition device 101 and the character recognition result to an external device.

演算装置106は、外部記憶装置107に記憶されるプログラム等に従って、文字認識等を実行するCPU(Central Processing Unit)である。   The arithmetic device 106 is a CPU (Central Processing Unit) that performs character recognition and the like according to a program stored in the external storage device 107.

外部記憶装置107は、HDD(Hard Disk Drive)及びメモリ等の外部記憶装置である。外部記憶装置107には、イメージ取得装置104によって取得された画像データ、演算装置106によって実行されるプログラム、及び、演算装置106によって実行される処理の結果として生成されるデータ等が記憶される。さらに、外部記憶装置107には、演算装置106によって実行される処理の途中で生成されるデータ等も一時的に記憶される。   The external storage device 107 is an external storage device such as an HDD (Hard Disk Drive) and a memory. The external storage device 107 stores image data acquired by the image acquisition device 104, a program executed by the arithmetic device 106, data generated as a result of processing executed by the arithmetic device 106, and the like. Further, the external storage device 107 temporarily stores data generated during the processing executed by the arithmetic device 106.

なお、文字認識装置101は、少なくとも演算装置106及び外部記憶装置107を備えていればよく、入力装置102、表示装置103、イメージ取得装置104及び通信装置105の全てを備えなくてもよい。   The character recognition device 101 only needs to include at least the arithmetic device 106 and the external storage device 107, and may not include all of the input device 102, the display device 103, the image acquisition device 104, and the communication device 105.

文字認識装置101は、入力装置102を備えない場合、外部機器から通信装置105を介して受けた指示に従って処理を開始してもよいし、指定された時刻に処理を自動的に開始してもよい。   If the character recognition device 101 does not include the input device 102, the character recognition device 101 may start processing according to an instruction received from an external device via the communication device 105, or may automatically start processing at a designated time. Good.

文字認識装置101は、表示装置103を備えない場合、通信装置105を介して処理結果を外部機器に送信してもよいし、外部記憶装置107に処理結果を記憶してもよい。   If the character recognition device 101 does not include the display device 103, the processing result may be transmitted to an external device via the communication device 105, or the processing result may be stored in the external storage device 107.

処理を実行するモジュール(後述)への入出力は、外部記憶装置107を介して行われてもよい。例えば、処理部1(図示省略)が処理結果を出力し、その処理結果が処理部2(図示省略)に入力される場合、処理部1が処理結果を外部記憶装置107に出力し、外部記憶装置107がその処理結果を記憶し、処理部2が外部記憶装置107に記憶された処理結果を入力として取得してもよい。   Input / output to a module (to be described later) for executing processing may be performed via the external storage device 107. For example, when the processing unit 1 (not shown) outputs a processing result, and the processing result is input to the processing unit 2 (not shown), the processing unit 1 outputs the processing result to the external storage device 107 and stores it in the external storage. The device 107 may store the processing result, and the processing unit 2 may acquire the processing result stored in the external storage device 107 as an input.

ユーザは、入力装置102を介して、処理を実行するモジュールを制御することができる。   A user can control a module that executes processing via the input device 102.

図7は、本発明の実施形態の文字認識装置101が実行する文字認識処理の手順を示すフローチャートである。   FIG. 7 is a flowchart illustrating a procedure of character recognition processing executed by the character recognition device 101 according to the embodiment of this invention.

図7のフローチャートは、文字認識装置101が実行する文字認識処理の概要を示す。各部が実行する具体的な処理内容については図3等を参照して後述する。   The flowchart in FIG. 7 shows an outline of the character recognition processing executed by the character recognition device 101. Specific processing contents executed by each unit will be described later with reference to FIG.

文字認識装置101は、伝票、帳票又は一般文書等の文書を入力されると、最初に文書を画像化する(ステップ701)。この処理は、イメージ取得装置104によって行われる。次に、文字認識装置101の前処理部201(後述)が前処理(ステップ702)を実行する。次に、文字列切出部202(後述)がレイアウト解析(ステップ703)及び文字列抽出(ステップ704)を実行する。次に、文字列認識部300(後述)が文字列認識(ステップ705)を実行する。次に、リトライ判定部316(後述)が処理を再試行するか否かを判定し、再試行すると判定された場合は、前処理部201、文字列切出部202及び文字列認識部300の少なくとも一つと、それに続く処理がリトライ(再試行)処理(ステップ706)を実行する。次に、認識結果記録部317及び文書分類部319(後述)が認識後の処理(ステップ707)を実行する。   When a document such as a slip, a form, or a general document is input, the character recognition device 101 first images the document (step 701). This process is performed by the image acquisition device 104. Next, a preprocessing unit 201 (described later) of the character recognition apparatus 101 performs preprocessing (step 702). Next, the character string cutout unit 202 (described later) executes layout analysis (step 703) and character string extraction (step 704). Next, the character string recognition unit 300 (described later) executes character string recognition (step 705). Next, a retry determination unit 316 (described later) determines whether or not to retry the process. If it is determined to retry, the pre-processing unit 201, the character string cutout unit 202, and the character string recognition unit 300 At least one of the subsequent processes executes a retry process (step 706). Next, the recognition result recording unit 317 and the document classification unit 319 (described later) execute a process after recognition (step 707).

なお、従来の文字認識装置(図2参照)が実行する処理の手順も、図7と同様である。ただし、既に説明したように、少なくともステップ705及び706における本実施形態の文字認識装置101の具体的な処理内容は、従来の処理内容と異なる。   The procedure of the process executed by the conventional character recognition device (see FIG. 2) is the same as that in FIG. However, as already described, the specific processing content of the character recognition apparatus 101 of this embodiment at least in steps 705 and 706 is different from the conventional processing content.

図2は、従来の文字認識装置が実行する処理の流れを示す機能ブロック図である。   FIG. 2 is a functional block diagram showing a flow of processing executed by the conventional character recognition apparatus.

従来の文字認識装置は、画像入力部200、前処理部201、文字列切出部202、文字列認識部203、リトライ判定部210、認識結果記録部211、認識結果データベース(DB)212、文書分類部213及び認識用辞書生成部214を備える。文字列認識部203は、文字特徴抽出部204、類似度算出部205、文字認識用辞書206、棄却判定部207、文字列認識部208及び文字列辞書209を含む。認識用辞書生成部214は、文字特徴抽出部204、認識学習用DB216及び認識用辞書生成部217を含む。   A conventional character recognition device includes an image input unit 200, a preprocessing unit 201, a character string cutout unit 202, a character string recognition unit 203, a retry determination unit 210, a recognition result recording unit 211, a recognition result database (DB) 212, a document A classification unit 213 and a recognition dictionary generation unit 214 are provided. The character string recognition unit 203 includes a character feature extraction unit 204, a similarity calculation unit 205, a character recognition dictionary 206, a rejection determination unit 207, a character string recognition unit 208, and a character string dictionary 209. The recognition dictionary generation unit 214 includes a character feature extraction unit 204, a recognition learning DB 216, and a recognition dictionary generation unit 217.

図2に示す文字認識装置が本実施形態と同様のハードウェア(図1)によって実現される場合、上記の辞書及びDBは、外部記憶装置107に格納される。一方、上記のうち辞書及びDB以外の各部は、外部記憶装置107に記憶されたプログラムを演算装置106が実行し、必要に応じて入力装置102、表示装置103、イメージ取得装置104、通信装置105、外部記憶装置107及び外部機器(図示省略)等を制御することによって実現される。したがって、以下の説明において上記の各部が実行する処理は、実際には、演算装置106によって実行される。   When the character recognition device shown in FIG. 2 is realized by the same hardware (FIG. 1) as in the present embodiment, the dictionary and DB are stored in the external storage device 107. On the other hand, each unit other than the dictionary and the DB executes a program stored in the external storage device 107 by the arithmetic device 106, and the input device 102, the display device 103, the image acquisition device 104, and the communication device 105 as necessary. This is realized by controlling the external storage device 107 and an external device (not shown). Therefore, in the following description, the processing executed by each unit described above is actually executed by the arithmetic device 106.

以下、図2の各部について説明する。   Hereinafter, each part of FIG. 2 will be described.

画像入力部200は、イメージ取得装置104として設けられたスキャナ等を用いて、一般文書、帳票又は伝票等の文書を光学的に走査することによって、文書画像イメージを取得する。取得される画像イメージは、カラー画像、グレー画像又は白黒画像等である。さらに、画像入力部200は、特定の色(背景色)等を除去するための処理を実行してもよい。   The image input unit 200 acquires a document image image by optically scanning a document such as a general document, a form, or a slip using a scanner or the like provided as the image acquisition device 104. The acquired image is a color image, a gray image, a black and white image, or the like. Further, the image input unit 200 may execute processing for removing a specific color (background color) or the like.

前処理部201は、文書画像の二値化(白黒画像化)、ノイズ除去及び背景処理等を行う。二値化等は公知の方法によって行うことができるため、詳細な説明は省略する。その一例が非特許文献1に記載されている。   The preprocessing unit 201 performs binarization (monochrome image conversion) of a document image, noise removal, background processing, and the like. Since binarization and the like can be performed by a known method, detailed description is omitted. One example is described in Non-Patent Document 1.

文字列切出部202は、文書画像中の文字列を探索し、文字列画像を切り出す。一般文書からの文字列探索方法については、例えば非特許文献2に記載されている。帳票からの文字列の探索については、例えば、特許文献1、特許文献2及び非特許文献3に記載されている。例えば、帳票の場合、文字列切出部202は、まず、枠線を探索し、枠線で囲まれた矩形部分を文字列として切り出してもよい。   The character string cutout unit 202 searches for a character string in the document image and cuts out the character string image. A method for searching a character string from a general document is described in Non-Patent Document 2, for example. The search for a character string from a form is described in, for example, Patent Document 1, Patent Document 2, and Non-Patent Document 3. For example, in the case of a form, the character string cutout unit 202 may first search for a frame line and cut out a rectangular portion surrounded by the frame line as a character string.

文字列認識部203は、文字列画像から個々の文字の画像を切り出し、それぞれの文字を認識することによって、文字列を文字コード(又は文字を表すコード)の列として出力する。ただし、後述するように、所定の条件が満たされる場合には、文字列認識部203は、文字の認識が困難であると判定し、認識結果を棄却する。この場合、当該文字は「不読」として扱われる。このような文字の認識は公知の方法(例えば非特許文献1参照)によって行うことができる。詳細な処理は、文字特徴抽出部204、類似度算出部205、棄却判定部207及び文字列認識部208によって行われる。   The character string recognizing unit 203 cuts out individual character images from the character string image and recognizes each character, thereby outputting the character string as a character code (or character representing code) string. However, as will be described later, when a predetermined condition is satisfied, the character string recognition unit 203 determines that it is difficult to recognize the character, and rejects the recognition result. In this case, the character is treated as “unread”. Such character recognition can be performed by a known method (for example, see Non-Patent Document 1). Detailed processing is performed by the character feature extraction unit 204, the similarity calculation unit 205, the rejection determination unit 207, and the character string recognition unit 208.

文字列辞書209には、読み取り対象となる文字列の辞書が保存され、認識結果は、文字列辞書209に入っている文字列の中から選択される。読み取り対象の例は、住所、日付又は金額等である。例えば住所の場合、読取対象とする全ての住所を表示する文字列が文字列辞書209に格納され、文字列認識部208は、格納された住所を表示する文字列のいずれかを認識結果として選択する。   A character string dictionary to be read is stored in the character string dictionary 209, and a recognition result is selected from character strings in the character string dictionary 209. An example of a reading target is an address, a date, an amount, or the like. For example, in the case of an address, a character string that displays all addresses to be read is stored in the character string dictionary 209, and the character string recognition unit 208 selects one of the character strings that display the stored address as a recognition result. To do.

図4は、本発明の実施形態における文字認識の処理の流れの具体例の説明図である。   FIG. 4 is an explanatory diagram of a specific example of the flow of processing for character recognition in the embodiment of the present invention.

例えば、文書画像として給与明細書等の帳票画像401が入力されると、文字列切出部202が読み取り対象である金額欄401Aの文字列画像402を切り出す。例えば、文字列切出部202は、金額欄401Aの周囲の枠線を探索し、その枠線で囲まれた矩形部分の文字列画像402を切り出す。続いて、文字列認識部203が文字列画像402から個々の文字の画像(例えば文字画像403A)を切り出す。この切り出し(分割)の方法については後述する(図10等参照)。続いて、文字列認識部203が個々の文字画像に含まれる文字を認識し、電子化された文字列404、例えば金額を表す文字列「7,890,123」が得られる。この認識の方法については後述する(図13、図5等参照)。   For example, when a form image 401 such as a salary statement is input as a document image, the character string cutout unit 202 cuts out the character string image 402 in the amount column 401A to be read. For example, the character string cutout unit 202 searches for a frame line around the amount column 401A, and cuts out a character string image 402 of a rectangular portion surrounded by the frame line. Subsequently, the character string recognition unit 203 cuts out an image of each character (for example, a character image 403A) from the character string image 402. The method of cutting out (dividing) will be described later (see FIG. 10 and the like). Subsequently, the character string recognition unit 203 recognizes characters included in each character image, and an electronic character string 404, for example, a character string “7, 890, 123” representing a monetary amount is obtained. This recognition method will be described later (see FIGS. 13 and 5).

次に、文字列認識部208の処理の例を、図10を参照しながら説明する。   Next, an example of processing of the character string recognition unit 208 will be described with reference to FIG.

図10は、本発明の実施形態の文字列認識部が実行する文字列の分割の説明図である。   FIG. 10 is an explanatory diagram of character string division executed by the character string recognition unit according to the embodiment of this invention.

文字列認識部208は、文字列画像を文字単位の画像に分割するために、まず、文字列画像を複数のパターンに分割する。   In order to divide the character string image into character-by-character images, the character string recognition unit 208 first divides the character string image into a plurality of patterns.

図10の文字列1001は、文字列切出部202によって分割され、文字列認識部203に入力された文字列画像の例である。   A character string 1001 in FIG. 10 is an example of a character string image divided by the character string cutout unit 202 and input to the character string recognition unit 203.

分割結果1002は、文字列1001の分割結果の一例である。ノード1002A〜1002Eは文字列1001の分割点であり、分割結果1002は文字列1001が四つの部分(以下、「パターン」とも記載する)1002F〜1002Iに分割された例を示す。これらの四つのパターンの各々、及び、隣接する複数のパターンを合成することによって得られたパターン(以下、「合成パターン」とも記載する)が文字画像候補となる。   The division result 1002 is an example of the division result of the character string 1001. Nodes 1002A to 1002E are division points of the character string 1001, and the division result 1002 shows an example in which the character string 1001 is divided into four parts (hereinafter also referred to as “patterns”) 1002F to 10002I. Each of these four patterns and a pattern obtained by synthesizing a plurality of adjacent patterns (hereinafter also referred to as “synthesis pattern”) are character image candidates.

各パターン(合成パターンを含む)は、それぞれの先頭に対応するノードと、末尾に対応するノードとの組によって表すことができる。図10の例では、二つのノードの組が52=10通り存在するため、10個のパターン(うち6個は合成パターン)が存在する。長い文字列が入力された場合には、分割点の個数が多いために合成パターンの数が膨大になる。この場合、合成パターンの個数を制限することによってその数が膨大になることを防いでもよい。 Each pattern (including a composite pattern) can be represented by a set of a node corresponding to the beginning and a node corresponding to the end. In the example of FIG. 10, since there are 5 C 2 = 10 combinations of two nodes, there are 10 patterns (of which 6 are combined patterns). When a long character string is input, since the number of division points is large, the number of synthesis patterns becomes enormous. In this case, limiting the number of composite patterns may prevent the number from becoming enormous.

文字候補パターン1003は、上記の四つのパターン1002F〜1002Iに二つの合成パターン1002J〜1002Kを加えた文字候補ネットワークを示す。合成パターン1002Jはパターン1002F及び1002Gの合成であり、合成パターン1002Kはパターン1002G及び1002Hの合成である。図10の例では存在しうる6個の合成パターンのうち二つのみを示したが、他の合成パターンがさらに追加されてもよい。   A character candidate pattern 1003 indicates a character candidate network obtained by adding two synthetic patterns 1002J to 1002K to the above four patterns 1002F to 10002I. A composite pattern 1002J is a composite of patterns 1002F and 1002G, and a composite pattern 1002K is a composite of patterns 1002G and 1002H. In the example of FIG. 10, only two of the six synthetic patterns that can exist are shown, but other synthetic patterns may be further added.

図10に例示する文字候補パターン1003は、6個の文字候補パターン(すなわちパターン1002F〜1002K)を含む。文字列認識部203は、これらの文字候補パターンの各々について文字認識を行うことによって、正解候補となる文字列を選択する。この文字認識は、文字特徴抽出部204、類似度算出部205及び棄却判定部207によって実行され、その際に文字認識用辞書206が参照される。   A character candidate pattern 1003 illustrated in FIG. 10 includes six character candidate patterns (that is, patterns 1002F to 1002K). The character string recognition unit 203 selects a character string that is a correct answer candidate by performing character recognition for each of these character candidate patterns. This character recognition is performed by the character feature extraction unit 204, the similarity calculation unit 205, and the rejection determination unit 207, and the character recognition dictionary 206 is referred to at that time.

図11は、本発明の実施形態の文字列認識部によって扱われる文字列正解候補ネットワークの説明図である。   FIG. 11 is an explanatory diagram of a character string correct candidate network handled by the character string recognition unit according to the embodiment of this invention.

図11に示す文字列正解候補ネットワークは、図10に示す文字候補パターン1003に文字認識の結果を付け加えたものである。例えば、パターン1002Fは、「t」又は「l」と認識される。   The character string correct candidate network shown in FIG. 11 is obtained by adding the result of character recognition to the character candidate pattern 1003 shown in FIG. For example, the pattern 1002F is recognized as “t” or “l”.

この文字列正解候補ネットワークの左端のノード1002Aから右端のノード1002Eに到達する各ルートが一つの正解候補文字列となる。例えば、パターン1002F、1002G、1002H及び1002Iをそれぞれ「t」、「l」、「r」及び「l」と認識した場合の文字列「tlrl」、パターン1002F、1002K及び1002Iをそれぞれ「t」、「h」及び「e」と認識した場合の文字列「the」等が正解候補文字列となる。   Each route from the leftmost node 1002A to the rightmost node 1002E of this character string correct answer candidate network becomes one correct candidate character string. For example, when the patterns 1002F, 1002G, 1002H, and 1002I are recognized as “t”, “l”, “r”, and “l”, respectively, the character string “tlrl”, the patterns 1002F, 1002K, and 1002I are respectively “t”, A character string “the” or the like when recognized as “h” and “e” is a correct candidate character string.

文字列認識部208は、正解候補文字列のうち、文字列辞書209に保存されている文字列の形式に合致するものから、文字認識結果の類似度に基づいて、尤もらしい正解候補文字列を最終的な正解候補として選択する。ただし、文字認識結果の類似度が所定の値より小さい、又は、いずれの正解候補文字列も文字列辞書209に保存された文字列形式に合致しない、等の所定の条件が満たされる場合には、文字認識の結果が棄却され、文字列は不読として扱われる。   The character string recognizing unit 208 selects the correct candidate character string from the correct candidate character strings that matches the character string format stored in the character string dictionary 209 based on the similarity of the character recognition results. Select as the final correct candidate. However, if the similarity of the character recognition result is smaller than a predetermined value, or if any of the correct candidate character strings does not match the character string format stored in the character string dictionary 209, the predetermined condition is satisfied. The character recognition result is rejected, and the character string is treated as unread.

図12は、本発明の実施形態の文字列辞書209の説明図である。   FIG. 12 is an explanatory diagram of the character string dictionary 209 according to the embodiment of this invention.

文字列辞書209には、読み取り対象となる文字列を同定するための情報が保存される。しかし、例えば住所に関する辞書において、出現しうる全ての住所の文字列を保存しようとすると、そのデータ量は莫大となるため、トライ型の辞書構造が広く用いられる。図12には、一例として、英語の曜日を表す7個の単語の辞書を示す。左端のノードから右方向のノードを順次辿って得られる単語が辞書に保存された単語である。同一の文字列を含む部分(例えば「day」)を共有することによって容量が削減される。   The character string dictionary 209 stores information for identifying a character string to be read. However, for example, in an address-related dictionary, if an attempt is made to store character strings of all addresses that can appear, the amount of data becomes enormous, and therefore a tri-type dictionary structure is widely used. FIG. 12 shows a dictionary of seven words representing English days of the week as an example. A word obtained by sequentially tracing a node in the right direction from the leftmost node is a word stored in the dictionary. The capacity is reduced by sharing a part including the same character string (for example, “day”).

次に、分割結果として得られた個々のパターン1002F〜1002Kを認識するためのモジュールである文字特徴抽出部204、類似度算出部205、文字認識用辞書206及び棄却判定部207について説明する。   Next, the character feature extraction unit 204, the similarity calculation unit 205, the character recognition dictionary 206, and the rejection determination unit 207, which are modules for recognizing the individual patterns 1002F to 1002K obtained as the division results, will be described.

文字特徴抽出部204は、文字画像に含まれる文字の特徴をベクトル値x=(x1,x2,・・・,xn)に変換することによって数値化する。画像から特徴を抽出する方法として、画素特徴抽出法、輪郭特徴抽出法又は勾配特徴抽出法等が広く用いられる(非特許文献1参照)。本実施形態ではどのような文字特徴抽出方法が用いられてもよい。最も簡単な文字特徴抽出の例を、図13を参照しながら説明する。   The character feature extraction unit 204 quantifies the character features included in the character image by converting them into vector values x = (x1, x2,..., Xn). As a method for extracting features from an image, a pixel feature extraction method, a contour feature extraction method, a gradient feature extraction method, or the like is widely used (see Non-Patent Document 1). In this embodiment, any character feature extraction method may be used. An example of simplest character feature extraction will be described with reference to FIG.

図13は、本発明の実施形態の文字特徴抽出部204による文字特徴抽出方法の説明図である。   FIG. 13 is an explanatory diagram of a character feature extraction method performed by the character feature extraction unit 204 according to the embodiment of this invention.

文字特徴抽出部204は、まず、入力文字画像1301を、所定のサイズの画像1302に正規化する。正規化の方法としては、線形正規化法、モーメント正規化法、非線形正規化法などがあり(非特許文献1参照)、どれを使用してもよい。最も単純な線形正規化法を用いた場合、入力文字画像1301を拡大又は縮小することによって、所定のサイズの正規化画像1302を生成する。   First, the character feature extraction unit 204 normalizes the input character image 1301 to an image 1302 having a predetermined size. As a normalization method, there are a linear normalization method, a moment normalization method, a nonlinear normalization method, and the like (see Non-Patent Document 1), and any of them may be used. When the simplest linear normalization method is used, a normalized image 1302 having a predetermined size is generated by enlarging or reducing the input character image 1301.

次に、文字特徴抽出部204は、正規化画像1302をベクトル値に変換する。変換方法としては、チェインコードを用いた輪郭特徴抽出法、勾配特徴抽出法、画素特徴抽出法などがあり(非特許文献1参照)、どれを使用してもよい。ここでは、最も単純な画素特徴抽出法について説明する。文字特徴抽出部204は、正規化画像1302を、部分矩形小領域1303に分割し、各小領域の画素値の総和をベクトルの要素として算出する。図13の例では、正規化画像1302が8×8=64の部分矩形小領域1303に分割され、64個の数値がベクトルの要素として算出される。このため、文字の特徴を表すベクトルの次元数は64となる。   Next, the character feature extraction unit 204 converts the normalized image 1302 into a vector value. As the conversion method, there are an outline feature extraction method using a chain code, a gradient feature extraction method, a pixel feature extraction method, etc. (see Non-Patent Document 1), and any of them may be used. Here, the simplest pixel feature extraction method will be described. The character feature extraction unit 204 divides the normalized image 1302 into partial rectangular small areas 1303, and calculates the sum of the pixel values of each small area as a vector element. In the example of FIG. 13, the normalized image 1302 is divided into 8 × 8 = 64 partial rectangular small areas 1303, and 64 numerical values are calculated as vector elements. For this reason, the dimension number of the vector representing the character feature is 64.

類似度算出部205は、文字特徴抽出部204から上記のようにして算出されたベクトルが入力された場合、文字認識用辞書206を参照し、文字候補パターンの各読み取り対象文字種に対する、入力されたベクトル(以下、入力ベクトルxと記載する)の類似度を算出する。文字認識用辞書206には、認識対象となる文字種ごとに、入力ベクトルxの当該文字種に対する類似度を計算するための関数が保存されている。   When the vector calculated as described above is input from the character feature extraction unit 204, the similarity calculation unit 205 refers to the character recognition dictionary 206 and is input for each character type to be read of the character candidate pattern. The similarity of a vector (hereinafter referred to as input vector x) is calculated. The character recognition dictionary 206 stores a function for calculating the similarity of the input vector x to the character type for each character type to be recognized.

例えば、「0」から「9」までの10種の数字が認識対象である場合、文字認識用辞書206には、入力がn次元ベクトル、出力が実数値となる10個の関数
f0(x)
f1(x)
f2(x)
・・・
f9(x)
が保存されている。関数fi(x)は、ベクトルxの数字iに対する類似度を出力する。文字認識用辞書206は、認識用辞書生成部214によって予め生成される。類似度算出結果の例について、図5を参照して説明する。
For example, when 10 numbers from “0” to “9” are recognition targets, the character recognition dictionary 206 has 10 functions f0 (x) whose input is an n-dimensional vector and whose output is a real value.
f1 (x)
f2 (x)
...
f9 (x)
Is saved. The function fi (x) outputs the similarity of the vector x to the number i. The character recognition dictionary 206 is generated in advance by the recognition dictionary generation unit 214. An example of the similarity calculation result will be described with reference to FIG.

図5は、本発明の実施形態の類似度算出部による類似度算出結果の説明図である。   FIG. 5 is an explanatory diagram of a similarity calculation result by the similarity calculation unit according to the embodiment of this invention.

図5の例では、入力ベクトルxとの類似度が高い順に、各読み取り対象文字種が候補文字種として表示される。列501には、入力ベクトルxに対応する文字画像が表示される。   In the example of FIG. 5, each read target character type is displayed as a candidate character type in descending order of similarity to the input vector x. A column 501 displays a character image corresponding to the input vector x.

例えば、入力ベクトルxが文字画像403A(図4参照)の特徴を表すベクトルである場合、1位候補文字種(列502)、1位候補文字類似度(列503)、2位候補文字種(列504)及び2位候補文字類似度(列505)はそれぞれ「7」、「93」、「1」及び「68」である。これは、文字画像403Aの特徴を表すベクトルxについて上記のf0(x)〜f9(x)を計算した結果、f7(x)の値(すなわち文字画像403Aと数字「7」との類似度)が最も大きい「93」であり、f1(x)の値が2番目に大きい「68」であることを示す。   For example, when the input vector x is a vector representing the characteristics of the character image 403A (see FIG. 4), the first candidate character type (column 502), the first candidate character similarity (column 503), the second candidate character type (column 504) ) And second-rank candidate character similarity (column 505) are “7”, “93”, “1”, and “68”, respectively. As a result of calculating the above f0 (x) to f9 (x) for the vector x representing the feature of the character image 403A, the value of f7 (x) (that is, the similarity between the character image 403A and the number “7”). Is the largest “93” and the value of f1 (x) is the second largest “68”.

類似度算出部205は、上記のようにして算出された1位候補文字種、1位候補文字類似度、2位候補文字種及び2位候補文字類似度を出力する。図5では省略されているが、類似度算出部205は、同様にして、3位以下の候補文字列及びその類似度も算出し、出力する。   The similarity calculation unit 205 outputs the first candidate character type, the first candidate character similarity, the second candidate character type, and the second candidate character similarity calculated as described above. Although omitted in FIG. 5, the similarity calculation unit 205 similarly calculates and outputs candidate character strings ranked third and lower and their similarities.

棄却判定部207は、類似度算出部205による計算結果に基づいて、認識結果を棄却するか否かを判定する。ここで、従来の棄却判定方法について説明する。   Rejection determination unit 207 determines whether to reject the recognition result based on the calculation result by similarity calculation unit 205. Here, a conventional rejection determination method will be described.

上記のように、類似度算出部205は、切り出された各文字画像について、各読み取り対象文字種との類似度を算出する。このため、最も類似度が高い文字種を、認識結果として出力することもできる。しかし、実際には、例えば、著しく劣化した文字画像が入力されること、誤った位置で切り出された文字画像が入力されること、又は、非文字が文字として誤って切り出されて入力されること、などが起こりうる。このような文字画像を正しく認識することは困難又は不可能である。このような場合にも、類似度を計算することはできるため、その類似度に基づいて強制的にいずれかの文字として認識することはできる。しかし、認識の精度(信頼性)がある程度低い(言い換えると誤読の可能性がある程度高い)と予測される場合には無理に認識せずにその認識結果を棄却し、その文字を不読文字として扱うことが望ましい場合もある。   As described above, the similarity calculation unit 205 calculates the similarity between each extracted character image and each character type to be read. For this reason, the character type with the highest similarity can be output as the recognition result. However, in practice, for example, a significantly deteriorated character image is input, a character image cut out at an incorrect position is input, or a non-character is cut out and input as a character by mistake. , Etc. can occur. It is difficult or impossible to correctly recognize such a character image. Even in such a case, since the similarity can be calculated, it can be forcibly recognized as any character based on the similarity. However, if the recognition accuracy (reliability) is predicted to be low to some extent (in other words, the possibility of misreading is high to some extent), the recognition result is rejected without forcibly recognizing the character as an unread character. Sometimes it is desirable to handle.

例えば、1位候補文字類似度と2位候補文字類似度とがほぼ同じであれば、認識結果が曖昧であるため、認識の精度が低いと予測される。あるいは、1位候補文字類似度が著しく低い場合にも認識の精度が低いと予測される。棄却判定部207は、このような場合に認識結果を棄却することができる。   For example, if the first candidate character similarity and the second candidate character similarity are substantially the same, the recognition result is ambiguous, so that the recognition accuracy is predicted to be low. Alternatively, it is predicted that the recognition accuracy is low even when the first candidate character similarity is extremely low. Rejection determination unit 207 can reject the recognition result in such a case.

以下、棄却について具体的に説明する。以下の説明において、1位候補文字種をm1、2位候補文字種をm2と記載する。   The rejection will be specifically described below. In the following description, the first candidate character type is described as m1, and the second candidate character type is described as m2.

1位候補文字類似度と2位候補文字類似度との差が、予め定められた閾値h1より小さい場合、すなわち、
fm1(x)−fm2(x)<h1
となる場合、棄却判定部207は、認識結果に曖昧性があるために認識の精度が低いと判定して、その認識結果を棄却する。
When the difference between the first candidate character similarity and the second candidate character similarity is smaller than a predetermined threshold h1, that is,
fm1 (x) −fm2 (x) <h1
In this case, the rejection determination unit 207 determines that the recognition accuracy is low because the recognition result is ambiguous, and rejects the recognition result.

また、1位候補文字類似度が、予め定められた閾値h2より小さい場合、すなわち、
fm1(x)<h2
となる場合、棄却判定部207は、1位候補文字類似度が低い(すなわち、認識の精度が低い)と判定して、その認識結果を棄却する。
When the first candidate character similarity is smaller than a predetermined threshold h2, that is,
fm1 (x) <h2
In this case, rejection determination unit 207 determines that the first-ranked candidate character similarity is low (that is, recognition accuracy is low), and rejects the recognition result.

リトライ判定部210は、認識に失敗した(すなわち認識結果が棄却された)場合、又は認識結果の信頼性が低い場合に、パラメータ等を変更して処理を再試行するか否かを判定する。再試行すると判定された場合、前処理部201以降のいずれかの処理、及びそれに続く処理が再度実行される。   The retry determination unit 210 determines whether to retry the process by changing parameters or the like when the recognition fails (that is, when the recognition result is rejected) or when the reliability of the recognition result is low. If it is determined to retry, any processing after the preprocessing unit 201 and subsequent processing are executed again.

例えば、文字列認識部203の棄却判定部207によって認識結果が棄却され、不読と判定された場合に、リトライ判定部210は、処理を再試行すると判定してもよい。前処理部201及びそれに続く処理が再試行される場合、前処理部201において、例えば、前回の試行のときと異なる二値化のパラメータが使用されてもよいし、異なるノイズ除去方法が使用されてもよい。このようにパラメータ等を変更することによって、前回とはことなる画像を得ることができ、その結果、認識に成功する場合もある。   For example, when the recognition result is rejected by the rejection determination unit 207 of the character string recognition unit 203 and it is determined as unread, the retry determination unit 210 may determine to retry the process. When the pre-processing unit 201 and subsequent processing are retried, the pre-processing unit 201 may use, for example, different binarization parameters than the previous trial, or use a different noise removal method. May be. By changing parameters and the like in this way, an image different from the previous one can be obtained, and as a result, recognition may be successful.

認識結果記録部211は、認識結果を認識結果DB212に保存する。認識結果とともに入力画像を保存してもよい。具体的には、例えば、図5に示す情報がそのまま認識結果DB212に保存されてもよい。すなわち、列501に入力画像が、列502以降に、それぞれの順位の候補文字種及びその類似度が保存される。   The recognition result recording unit 211 stores the recognition result in the recognition result DB 212. The input image may be saved together with the recognition result. Specifically, for example, the information shown in FIG. 5 may be stored in the recognition result DB 212 as it is. That is, the input image is stored in the column 501, and the candidate character types and their similarities in the respective ranks are stored in the column 502 and subsequent columns.

文書分類部213は、認識結果に基づいて文書を分類する。例えば、文書分類部213は、認識結果として得られた金額の大小、認識されたID又は住所等に基づいて文書を分類してもよい。また、棄却された文字を含む文書は、後のリトライのために、他の文書と区別するように分類してもよい。   The document classification unit 213 classifies the document based on the recognition result. For example, the document classification unit 213 may classify the document based on the amount of money obtained as a recognition result, a recognized ID, an address, or the like. In addition, a document including rejected characters may be classified so as to be distinguished from other documents for later retry.

認識用辞書生成部214は、認識学習用DB216を用いて、文字列認識部203によって用いられる文字認識用辞書206を生成する。   The recognition dictionary generation unit 214 generates a character recognition dictionary 206 used by the character string recognition unit 203 using the recognition learning DB 216.

認識学習用DB216には、文字種ラベル付きの文字画像が保存されている。保存される文字画像の例については後述する(図8参照)。一般に、保存される文字画像は多いほどよく、例えば読み取り対象文字種ごとに1000個以上の画像が保存されていることが望ましい。   The recognition learning DB 216 stores character images with character type labels. An example of the stored character image will be described later (see FIG. 8). Generally, the more character images that are stored, the better. For example, it is desirable to store 1000 or more images for each character type to be read.

認識用辞書生成部214内の文字特徴抽出部204は、文字列認識部203内の文字特徴抽出部204と同様の処理を実行する。すなわち、認識用辞書生成部214内の文字特徴抽出部204は、認識学習用DB216に保存されている各文字画像をベクトル値に変換する。変換されたベクトル値とそれに対応する文字種ラベルとのセットの集合は、認識用辞書生成部217によって、読み取り対象文字種ごとの類似度を計算するための関数を生成するために用いられる。   The character feature extraction unit 204 in the recognition dictionary generation unit 214 performs the same processing as the character feature extraction unit 204 in the character string recognition unit 203. That is, the character feature extraction unit 204 in the recognition dictionary generation unit 214 converts each character image stored in the recognition learning DB 216 into a vector value. The set of the converted vector values and the corresponding character type labels is used by the recognition dictionary generation unit 217 to generate a function for calculating the similarity for each character type to be read.

認識用辞書生成部217は、認識用辞書生成部214によって計算されたベクトル値と文字種ラベルとのセットの集合を用いて、文字種ごとの類似度を計算するための関数を生成する。例えば文字種数がC個である場合、C個の関数
f1(x)
f2(x)
・・・
fC(x)
が生成される。fi(x)は、i番目の文字種を表す文字画像から抽出されたベクトルxが入力された場合に高い値を出力するように、学習によって生成された関数である。この学習は、公知の方法によって行われる。
The recognition dictionary generation unit 217 uses the set of vector values and character type labels calculated by the recognition dictionary generation unit 214 to generate a function for calculating the similarity for each character type. For example, when the number of character types is C, C functions f1 (x)
f2 (x)
...
fC (x)
Is generated. fi (x) is a function generated by learning so that a high value is output when a vector x extracted from a character image representing the i-th character type is input. This learning is performed by a known method.

次に、本発明の実施形態の文字認識装置101について説明する。   Next, the character recognition device 101 according to the embodiment of the present invention will be described.

図3は、本発明の実施形態の文字認識装置101が実行する処理の流れを示す機能ブロック図である。   FIG. 3 is a functional block diagram illustrating a flow of processing executed by the character recognition device 101 according to the embodiment of this invention.

本実施形態の文字認識装置101は、画像入力部200、前処理部201、文字列切出部202、文字列認識部300、リトライ判定部316、認識結果記録部317、認識結果DB318、文書分類部319及び辞書生成部320を備える。   The character recognition apparatus 101 according to the present embodiment includes an image input unit 200, a preprocessing unit 201, a character string cutting unit 202, a character string recognition unit 300, a retry determination unit 316, a recognition result recording unit 317, a recognition result DB 318, a document classification, and the like. A unit 319 and a dictionary generation unit 320.

文字列認識部300は、文字特徴抽出部301、類似度算出部302、文字認識用辞書303、棄却判定部313、類別1特徴抽出部304、類別1劣化度算出部305、類別1劣化判定用辞書306、類別2特徴抽出部307、類別2劣化度算出部308、類別2劣化判定用辞書309、類別N特徴抽出部310、類別N劣化度算出部311、類別N劣化判定用辞書312、文字列認識部315及び文字列辞書209を含む。   The character string recognition unit 300 includes a character feature extraction unit 301, a similarity calculation unit 302, a character recognition dictionary 303, a rejection determination unit 313, a category 1 feature extraction unit 304, a category 1 deterioration degree calculation unit 305, and a category 1 deterioration determination. Dictionary 306, category 2 feature extraction unit 307, category 2 degradation degree calculation unit 308, category 2 degradation determination dictionary 309, category N feature extraction unit 310, category N degradation degree calculation unit 311, category N degradation determination dictionary 312, character A column recognition unit 315 and a character string dictionary 209 are included.

辞書生成部320は、文字特徴抽出部301、認識学習用DB321、認識用辞書生成部322、類別1劣化学習用DB323、類別1特徴抽出部304、類別1劣化判定用辞書生成部324、類別N劣化学習用DB325、類別N特徴抽出部310、類別N劣化判定用辞書生成部326及び棄却制御用辞書生成部327を含む。   The dictionary generation unit 320 includes a character feature extraction unit 301, a recognition learning DB 321, a recognition dictionary generation unit 322, a category 1 deterioration learning DB 323, a category 1 feature extraction unit 304, a category 1 deterioration determination dictionary generation unit 324, and a category N. A degradation learning DB 325, a category N feature extraction unit 310, a category N degradation determination dictionary generation unit 326, and a rejection control dictionary generation unit 327 are included.

なお、図3にはその全てが記載されていないが、実際には、文字列認識部300は、1からNまでの各類別について、特徴抽出部、劣化度算出部及び劣化判定用辞書を含み、辞書生成部320は、1からNまでの各類別について、劣化学習用DB、特徴抽出部及び劣化判定用辞書生成部を含む。以下の説明において、類別k(kは1からNのいずれか)に関する特徴抽出部、劣化度算出部、劣化判定用辞書、劣化学習用DB及び劣化判定用辞書生成部を、それぞれ、類別k特徴抽出部、類別k劣化度算出部、類別k劣化判定用辞書、類別k劣化学習用DB及び類別k劣化判定用辞書生成部とも記載する。なお、類別(すなわち劣化又は非文字の種類)については後述する。   Although not all of them are shown in FIG. 3, the character string recognition unit 300 actually includes a feature extraction unit, a deterioration degree calculation unit, and a deterioration determination dictionary for each classification from 1 to N. The dictionary generation unit 320 includes a deterioration learning DB, a feature extraction unit, and a deterioration determination dictionary generation unit for each classification from 1 to N. In the following description, a feature extraction unit, a deterioration degree calculation unit, a deterioration determination dictionary, a deterioration learning DB, and a deterioration determination dictionary generation unit related to a classification k (k is any one of 1 to N) are classified into k characteristics. The extraction unit, the category k degradation degree calculation unit, the category k degradation determination dictionary, the category k degradation learning DB, and the category k degradation determination dictionary generation unit are also described. The classification (that is, deterioration or non-character type) will be described later.

図3に示す文字認識装置101のハードウェア構成は、図1に示したとおりである。したがって、上記の辞書及びDBは、外部記憶装置107に格納される。一方、上記のうち辞書及びDB以外の各部は、外部記憶装置107に記憶されたプログラムを演算装置106が実行し、必要に応じて入力装置102、表示装置103、イメージ取得装置104、通信装置105、外部記憶装置107及び外部機器(図示省略)等を制御することによって実現される。したがって、以下の説明において上記の各部が実行する処理は、実際には、演算装置106によって実行される。   The hardware configuration of the character recognition device 101 shown in FIG. 3 is as shown in FIG. Therefore, the above dictionary and DB are stored in the external storage device 107. On the other hand, each unit other than the dictionary and the DB executes a program stored in the external storage device 107 by the arithmetic device 106, and the input device 102, the display device 103, the image acquisition device 104, and the communication device 105 as necessary. This is realized by controlling the external storage device 107 and an external device (not shown). Therefore, in the following description, the processing executed by each unit described above is actually executed by the arithmetic device 106.

図3に示す各部のうち、画像入力部200、前処理部201、文字列切出部202、及び、文字列認識部300内の文字列辞書209は、それぞれ図2に示した画像入力部200、前処理部201、文字列切出部202及び文字列辞書209と同様であるため、これらについての説明は省略する。また、図10〜図13等を参照する従来の文字列認識部203の基本的な機能に関する説明は、本実施形態の文字列認識部300にも適用される。以下、文字列認識部300が実行する処理のうち、文字列認識部203と共通する部分については説明を省略し、文字列認識部203と相違する部分について説明する。   Among the units shown in FIG. 3, the image input unit 200, the preprocessing unit 201, the character string cutout unit 202, and the character string dictionary 209 in the character string recognition unit 300 are the image input unit 200 shown in FIG. 2. Since it is the same as the pre-processing unit 201, the character string cutting unit 202, and the character string dictionary 209, description thereof will be omitted. Moreover, the description regarding the basic function of the conventional character string recognition part 203 with reference to FIGS. 10-13 etc. is applied also to the character string recognition part 300 of this embodiment. Hereinafter, in the processing executed by the character string recognition unit 300, description of parts common to the character string recognition unit 203 will be omitted, and parts different from the character string recognition unit 203 will be described.

本実施形態では、まず、入力された文字画像に文字の認識を困難とするような劣化が発生している場合、又は、切り出された文字列が非文字を含んでいる場合に、その劣化又は非文字の種類が分類される。劣化の種類としては、例えば文字のかすれ及びつぶれ等が挙げられる。一方、非文字の種類としては、次のような例が挙げられる。   In the present embodiment, first, when deterioration that makes it difficult to recognize characters occurs in the input character image, or when the cut character string includes non-characters, the deterioration or Non-character types are classified. Examples of the type of deterioration include blurring and crushing of characters. On the other hand, examples of non-character types include the following.

帳票等の文書の画像が入力された場合、特定の種類の非文字が頻繁に出現する。例えば、文字が罫線と接触したために罫線を含む画像が文字画像として切り出された場合、複数の文字の重なりを含む画像が文字画像として切り出された場合、読み取り対象でない文字の画像が切り出された場合、隣接する複数の文字が接触したためにそれらの文字の画像(又はその一部)が一つの文字画像として切り出された場合、等に、それらの文字画像が非文字として扱われる。ここで、読み取り対象でない文字とは、例えば数字が記入されるはずの欄に記入された漢字等である。隣接する文字の接触の一例は、文字「t」の全体と「h」の一部とが接触することによって出現した図10の合成パターン1002Jである。   When an image of a document such as a form is input, a specific type of non-character frequently appears. For example, when an image including a ruled line is cut out as a character image because a character has contacted the ruled line, an image including an overlap of multiple characters is cut out as a character image, or an image of a character that is not to be read is cut out When a plurality of adjacent characters come into contact with each other and an image (or part thereof) of those characters is cut out as one character image, the character images are treated as non-characters. Here, the characters that are not to be read are, for example, kanji and the like entered in a column where numbers are supposed to be entered. An example of the contact between adjacent characters is the composite pattern 1002J of FIG. 10 that appears when the entire character “t” and a part of “h” contact each other.

本実施形態において、文字の劣化の種類として特に「かすれ」及び「つぶれ」を例示するが、それらの例示は非文字を排除するものではない。すなわち、本実施形態における劣化の種類に関する記述は、上記のような非文字の種類(言い換えると罫線との接触等に起因する文字の劣化の種類)にも適用することができ、類別k特徴抽出部、類別k劣化度算出部、類別k劣化判定用辞書、類別k劣化学習用DB及び類別k劣化判定用辞書生成部の「類別」は、非文字の種類を含んでもよい。   In the present embodiment, “blur” and “collapse” are particularly exemplified as the types of character deterioration, but these examples do not exclude non-characters. That is, the description regarding the type of deterioration in the present embodiment can also be applied to the types of non-characters described above (in other words, types of character deterioration caused by contact with ruled lines, etc.). The “category” of the category, the category k degradation degree calculation unit, the category k degradation determination dictionary, the category k degradation learning DB, and the category k degradation determination dictionary generation unit may include non-character types.

図9は、本発明の実施形態において分類される文字画像の劣化の種類の説明図である。   FIG. 9 is an explanatory diagram of the types of deterioration of character images classified in the embodiment of the present invention.

本実施形態では、文字画像の劣化がかすれ901とつぶれ902に分類される。例えば白い背景に黒い文字が表示される白黒文字画像において、本来文字の一部であるはずの画素が白くなり、背景と同化するような劣化が「かすれ」、本来背景の一部であるはずの画素が黒くなり、文字と同化するような劣化が「つぶれ」と呼ばれる。このような劣化は、例えば、フォント、紙質、スキャナの種類、スキャナの設定、前処理時の二値化の方法、又は二値化のパラメータなどの影響によって発生する。   In the present embodiment, the deterioration of the character image is classified into a faint 901 and a crushed 902. For example, in a black and white character image in which black characters are displayed on a white background, the pixels that should originally be part of the characters become white, and deterioration that is assimilated with the background is “blurred” and should originally be part of the background Deterioration in which pixels become black and assimilate with characters is called “collapse”. Such deterioration occurs, for example, due to the influence of font, paper quality, scanner type, scanner setting, binarization method during preprocessing, or binarization parameters.

図9には、かすれ901の例としてかすれ文字901A〜901Cを、つぶれ902の例としてつぶれ文字902A〜902Cを示す。かすれ文字901A〜901Cは、それぞれ、「岩」、「宇」及び「業」が劣化したものであり、かすれによって線の途切れ等が発生している。つぶれ文字902A〜902Cは、それぞれ、「書」、「5」及び「3」が劣化したものであり、つぶれによって、線に囲まれた空白部分の消滅、線の連結等が発生している。   In FIG. 9, blurred characters 901 </ b> A to 901 </ b> C are illustrated as examples of the blurred 901, and collapsed characters 902 </ b> A to 902 </ b> C are illustrated as examples of the collapsed 902. The blurred characters 901 </ b> A to 901 </ b> C are obtained by deteriorating “rock”, “U”, and “industry”, and line breaks or the like occur due to the blurred. The collapsed characters 902A to 902C are obtained by degrading “book”, “5”, and “3”, respectively, and disappearance of blank portions surrounded by lines, connection of lines, and the like occur.

図9には、劣化の種類の例としてかすれ901とつぶれ902の2種類を示したが、本実施形態では、文字画像の劣化がそれ以外の種類に分類されてもよい。以下、文字画像の劣化がN個の種類(すなわち類別1、類別2、・・・、類別N)に分類される例を説明する。それらのうち一つがかすれ901であり、別の一つがつぶれ902であってもよい。   In FIG. 9, two types of blur 901 and collapse 902 are shown as examples of types of degradation. However, in this embodiment, degradation of a character image may be classified into other types. Hereinafter, an example in which the degradation of the character image is classified into N types (that is, category 1, category 2,..., Category N) will be described. One of them may be blurred 901 and the other may be collapsed 902.

文字列認識部300は、文字列画像から個々の文字の画像を切り出し、それぞれの文字を認識することによって、文字列を文字コード(又は文字を表すコード)の列として出力する。所定の条件が満たされる場合には、文字列認識部300は、文字の認識が困難であると判定し、認識結果を棄却する。この場合、当該文字は「不読」として扱われる。   The character string recognition unit 300 cuts out individual character images from the character string image and recognizes each character, thereby outputting the character string as a string of character codes (or codes representing characters). If the predetermined condition is satisfied, the character string recognition unit 300 determines that it is difficult to recognize the character, and rejects the recognition result. In this case, the character is treated as “unread”.

さらに、本実施形態の文字列認識部300は、切り出された個々の文字画像について、劣化の種類ごとの劣化度を出力する。この劣化度は、後の処理の制御に用いられる。   Furthermore, the character string recognition unit 300 of the present embodiment outputs a degree of deterioration for each type of deterioration for each cut out character image. This degree of deterioration is used for control of later processing.

以下、文字列認識部300の内部モジュールの処理について説明する。   Hereinafter, the processing of the internal module of the character string recognition unit 300 will be described.

文字列認識部315は、文字列画像から個々の文字の画像を切り出し、それぞれの文字を認識することによって、文字列を文字コードの列として出力する。文字列辞書209には、読み取り対象となる文字列の辞書が保存され、文字列認識部315は、文字列辞書209に入っている文字列いずれかを認識結果として選択する。読み取り対象の例は、住所、日付又は金額等である。所定の条件が満たされる場合には、文字列認識部300は、文字の認識が困難であると判定し、認識結果を棄却する。この場合、当該文字は「不読」として扱われる。さらに、文字列認識部300は、個々の文字画像について、劣化の種類ごとの劣化度を出力する。これらの処理の詳細を説明する。   The character string recognition unit 315 cuts out individual character images from the character string image and recognizes each character, thereby outputting the character string as a character code string. The character string dictionary 209 stores a character string dictionary to be read, and the character string recognition unit 315 selects one of the character strings included in the character string dictionary 209 as a recognition result. An example of a reading target is an address, a date, an amount, or the like. If the predetermined condition is satisfied, the character string recognition unit 300 determines that it is difficult to recognize the character, and rejects the recognition result. In this case, the character is treated as “unread”. Furthermore, the character string recognition unit 300 outputs a deterioration degree for each type of deterioration for each character image. Details of these processes will be described.

文字列認識部315は、まず、文字列画像を文字候補パターン1003(図10参照)のように分割する。文字特徴抽出部301は、分割された各パターンの特徴を表すベクトルを算出し、類似度算出部302は、文字認識用辞書303を参照して、算出されたベクトルの各読み取り対象文字種に対する類似度を算出する。これらの処理は、図2の文字特徴抽出部204及び類似度算出部205が文字認識用辞書206を参照して行う処理と同様であってよい。   The character string recognition unit 315 first divides the character string image as a character candidate pattern 1003 (see FIG. 10). The character feature extraction unit 301 calculates a vector representing the feature of each divided pattern, and the similarity calculation unit 302 refers to the character recognition dictionary 303 to determine the similarity of the calculated vector to each character type to be read. Is calculated. These processes may be the same as the processes performed by the character feature extraction unit 204 and the similarity calculation unit 205 in FIG. 2 with reference to the character recognition dictionary 206.

さらに、類別1特徴抽出部304が、分割された各パターンの特徴を表すベクトルを算出し、類別1劣化度算出部305が、類別1劣化判定用辞書306を参照して、各パターンにおける第1の種類の劣化の程度(すなわち類別1劣化度)を算出する。同様に、類別2特徴抽出部307が、分割された各パターンの特徴を表すベクトルを算出し、類別2劣化度算出部308が、類別2劣化判定用辞書309を参照して、各パターンにおける類別2劣化度を算出する。類別N特徴抽出部310が、分割された各パターンの特徴を表すベクトルを算出し、類別N劣化度算出部311が、類別N劣化判定用辞書312を参照して、各パターンにおける類別N劣化度を算出する。   Further, the category 1 feature extraction unit 304 calculates a vector representing the feature of each divided pattern, and the category 1 degradation degree calculation unit 305 refers to the category 1 degradation determination dictionary 306 to determine the first in each pattern. The degree of deterioration of each type (that is, category 1 deterioration degree) is calculated. Similarly, the category 2 feature extraction unit 307 calculates a vector representing the feature of each divided pattern, and the category 2 degradation degree calculation unit 308 refers to the category 2 degradation determination dictionary 309 to classify each pattern. 2 Calculate the degree of deterioration. The category N feature extraction unit 310 calculates a vector representing the feature of each divided pattern, and the category N deterioration degree calculation unit 311 refers to the category N deterioration determination dictionary 312 to determine the category N deterioration degree in each pattern. Is calculated.

例えば第1の種類の劣化が「かすれ」、第2の種類の劣化が「つぶれ」によるものであってもよい。類別k特徴抽出部(kは1からNのいずれであってもよい、以下同様)は、文字特徴抽出部301と同様の方法で各パターンの特徴を表すベクトルを算出してもよいが、それぞれの種類の劣化度(類別k劣化度)の算出に適した方法を使用してもよい。   For example, the first type of deterioration may be due to “fading” and the second type of deterioration may be due to “crushing”. The category k feature extraction unit (k may be any of 1 to N, the same applies hereinafter) may calculate vectors representing the features of each pattern in the same manner as the character feature extraction unit 301. A method suitable for calculating the degree of deterioration (category k deterioration degree) may be used.

文字列認識部315は、あるパターンの認識結果が棄却された後、リトライ判定部316によって処理を再試行すると判定された場合、当該パターンの類別k劣化度及び当該パターンの各文字種に対する類似度に基づいて、処理の方法を変更し、類似度及び劣化度を再計算することができる。これについて例を挙げて説明する。   After the recognition result of a certain pattern is rejected, the character string recognizing unit 315 determines the classification k degradation degree of the pattern and the similarity to each character type of the pattern when the retry determining unit 316 determines to retry the process. Based on this, it is possible to change the processing method and recalculate the degree of similarity and the degree of deterioration. This will be described with an example.

いずれかの文字候補パターンの認識結果が棄却判定部313によって棄却された場合、文字列認識部315は、劣化の種類ごとの劣化度に基づいて、文字候補パターンの認識処理を再試行してもよい。   When the recognition result of one of the character candidate patterns is rejected by the rejection determination unit 313, the character string recognition unit 315 may retry the character candidate pattern recognition process based on the degree of deterioration for each type of deterioration. Good.

例えば、かすれに起因する劣化度が大きい場合には、かすれた文字に適した方法で、当該文字候補パターンの画像の前処理(二値化、ノイズ除去等)を行うことによって、よりきれいな(すなわち正しく認識しやすい)文字候補パターンの画像を得ることができる場合がある。例えば、かすれの場合には、前処理部201が、孤立点ノイズ除去処理を弱める(又はなくす)、黒と判定されやすいように二値化の閾値を変更する、などの処理を行ってもよい。これによって、かすれの影響の少ない文字候補パターンの画像を得られる場合がある。   For example, when the degree of deterioration due to fading is large, pre-processing (binarization, noise removal, etc.) of the image of the character candidate pattern is performed in a method suitable for the faint characters, that is, it is more beautiful (that is, In some cases, it is possible to obtain an image of a character candidate pattern that is easy to recognize correctly. For example, in the case of fading, the pre-processing unit 201 may perform processing such as weakening (or eliminating) the isolated point noise removal processing or changing the binarization threshold so that it is easily determined to be black. . As a result, an image of a character candidate pattern that is less affected by blurring may be obtained.

同様に、つぶれに起因する劣化度が大きい場合には、つぶれの影響が少ない文字候補パターンを得やすい前処理を実行することができる。   Similarly, when the degree of deterioration due to crushing is large, it is possible to perform preprocessing that makes it easy to obtain a character candidate pattern that is less affected by crushing.

このようにして得られた文字候補パターン画像に対して、類似度算出部302及び類別k劣化度算出部が類似度及び劣化度を再計算する。   For the character candidate pattern image obtained in this way, the similarity calculation unit 302 and the category k deterioration degree calculation unit recalculate the similarity and the deterioration degree.

なお、認識結果が棄却されなかった場合であっても、ある種類の劣化度が大きい場合には、その種類の劣化の影響が少なくなる方法によって前処理を実行することができる。   Even if the recognition result is not rejected, if the degree of deterioration of a certain type is large, the preprocessing can be executed by a method that reduces the influence of the type of deterioration.

上記と同様に、ある種類の劣化が原因で文字候補パターンの認識結果が棄却された場合、又は棄却はされなくてもある種類の劣化度が大きい場合に、その種類の劣化に適した方法で類似度算出部302が各読み取り対象文字種に対する類似度を算出する。この場合、文字特徴抽出部301、類似度算出部302及び文字認識用辞書303は、当該種類の劣化が発生した文字の認識に適した特徴抽出方法、類似度算出方法及び認識用辞書を備える。   Similarly to the above, when the recognition result of a character candidate pattern is rejected due to a certain type of deterioration, or when the degree of deterioration of a certain type is large even if it is not rejected, this method is suitable for that type of deterioration. The similarity calculation unit 302 calculates the similarity for each character type to be read. In this case, the character feature extraction unit 301, the similarity calculation unit 302, and the character recognition dictionary 303 include a feature extraction method, a similarity calculation method, and a recognition dictionary that are suitable for recognizing a character having the type of degradation.

文字特徴抽出部301は、文字画像に含まれる文字の特徴をベクトル値x=(x1,x2,・・・,xn)に変換することによって数値化する。画像から特徴を抽出する方法として、画素特徴抽出法、輪郭特徴抽出法、勾配特徴抽出法又はガボール特徴抽出法等を用いることができる。それぞれの方法に基づく特徴量の抽出処理は、文字特徴抽出部204(図2参照)が実行するものと同様であってよい。   The character feature extraction unit 301 quantifies the character features included in the character image by converting them into vector values x = (x1, x2,..., Xn). As a method for extracting features from an image, a pixel feature extraction method, a contour feature extraction method, a gradient feature extraction method, a Gabor feature extraction method, or the like can be used. The feature amount extraction processing based on each method may be the same as that executed by the character feature extraction unit 204 (see FIG. 2).

本実施形態の文字特徴抽出部301は、さらに、劣化の種類に応じて、それに適した特徴抽出方法を選択して適用してもよい。例えば、文字列認識部315による文字候補パターンの認識が再試行される場合に、判定された劣化の種類に応じて適切な特徴抽出方法が選択される。   The character feature extraction unit 301 of the present embodiment may further select and apply a feature extraction method suitable for the type of deterioration. For example, when character candidate pattern recognition by the character string recognition unit 315 is retried, an appropriate feature extraction method is selected according to the determined type of degradation.

例えば、ガボール特徴抽出法は、計算量が多いが、かすれた文字の認識に適していることが知られている。このため、通常時は計算量の少ない勾配特徴抽出法又は輪郭特徴抽出法等を用い、文字列認識部315においてかすれに起因する文字候補パターンの劣化が大きいと判定され、認識が再試行される場合には、ガボール特徴抽出法を用いてもよい。   For example, the Gabor feature extraction method is known to be suitable for recognizing blurred characters although it has a large amount of calculation. For this reason, the gradient feature extraction method or the contour feature extraction method with a small amount of calculation is normally used, and the character string recognition unit 315 determines that the deterioration of the character candidate pattern due to blurring is large, and the recognition is retried. In some cases, a Gabor feature extraction method may be used.

類似度算出部302は、文字特徴抽出部301から上記のようにして算出されたベクトルが入力された場合、文字認識用辞書303を参照し、文字候補パターンの各読み取り対象文字種に対する、入力されたベクトル(入力ベクトルx)の類似度を算出する。文字認識用辞書303には、認識対象となる文字種ごとに、入力ベクトルxの当該文字種に対する類似度を計算するための関数が保存されている。このような類似度の算出処理は、類似度算出部205(図2参照)が実行するものと同様であってよい。   When the vector calculated as described above is input from the character feature extraction unit 301, the similarity calculation unit 302 refers to the character recognition dictionary 303 and inputs the character candidate pattern for each character type to be read. The similarity of the vector (input vector x) is calculated. The character recognition dictionary 303 stores a function for calculating the similarity of the input vector x to the character type for each character type to be recognized. Such similarity calculation processing may be the same as that executed by the similarity calculation unit 205 (see FIG. 2).

本実施形態の類似度算出部302は、さらに、劣化の種類に応じて、それに適した類似度算出方法を選択して適用してもよい。例えば、文字列認識部315による文字候補パターンの認識が再試行される場合に、判定された劣化の種類に応じて適切な類似度算出方法が選択される。   The similarity calculation unit 302 of the present embodiment may further select and apply a similarity calculation method suitable for the type of deterioration. For example, when recognition of a character candidate pattern by the character string recognition unit 315 is retried, an appropriate similarity calculation method is selected according to the determined type of deterioration.

劣化の種類に応じた類似度算出の一例を説明する。文字認識用辞書303に、認識学習用DBに格納された高品質の文字パターンを用いて学習された類似度計算用の関数と、劣化した文字(例えばかすれた文字又はつぶれた文字)を用いて学習された類似度計算用の関数とが保存される。例えば、認識対象の文字種ごとに、かすれた文字と入力ベクトルxとの類似度を計算するための関数が保存される。類似度算出部302は、通常時には、高品質の文字パターンを用いて学習された関数を用いて類似度を算出し、かすれに起因する劣化が大きいと判定され、認識が再試行される場合には、かすれた文字を用いて学習された関数を用いて類似度を算出する。   An example of similarity calculation according to the type of deterioration will be described. Using a similarity calculation function learned using a high-quality character pattern stored in the recognition learning DB and a deteriorated character (for example, a blurred character or a collapsed character) in the character recognition dictionary 303. The learned similarity calculation function is stored. For example, a function for calculating the similarity between the blurred character and the input vector x is stored for each character type to be recognized. The similarity calculation unit 302 normally calculates the similarity using a function learned using a high-quality character pattern, and when it is determined that deterioration due to blurring is large and recognition is retried. Calculates the degree of similarity using a function learned using the blurred characters.

類別k特徴抽出部(すなわち、類別1特徴抽出部304、類別2特徴抽出部307及び類別N特徴抽出部310等)は、文字画像に含まれる文字の特徴をベクトル値x=(x1,x2,・・・,xn)に変換することによって数値化する。画像から特徴を抽出する方法として、画素特徴抽出法、輪郭特徴抽出法、勾配特徴抽出法又はガボール特徴抽出法等を用いることができる。この方法は、文字特徴抽出部301によって使用されるものと同様であってもよい。ただし、ここで算出される特徴は、後述するように劣化度の算出に用いられるため、劣化を低減するためのぼかし処理等は実行しないことが望ましい。   The category k feature extraction unit (that is, the category 1 feature extraction unit 304, the category 2 feature extraction unit 307, the category N feature extraction unit 310, etc.) converts the feature of the character included in the character image into a vector value x = (x1, x2, .., Xn) are converted into numerical values. As a method for extracting features from an image, a pixel feature extraction method, a contour feature extraction method, a gradient feature extraction method, a Gabor feature extraction method, or the like can be used. This method may be the same as that used by the character feature extraction unit 301. However, since the feature calculated here is used to calculate the degree of deterioration as described later, it is desirable not to execute blurring processing or the like for reducing deterioration.

類別k劣化度算出部(すなわち、類別1劣化度算出部305、類別2劣化度算出部308及び類別N劣化度算出部311等)は、類別k劣化判定用辞書(すなわち、類別1劣化判定用辞書306、類別2劣化判定用辞書309及び類別N劣化判定用辞書312等)を参照して、文字候補パターンの類別k劣化度を算出する。類別k劣化判定用辞書には、入力ベクトルxの類別k劣化度を計算するための関数が保存されている。   The category k deterioration degree calculation unit (that is, the category 1 deterioration degree calculation unit 305, the category 2 deterioration degree calculation unit 308, the category N deterioration degree calculation unit 311 and the like) is a category k deterioration determination dictionary (that is, for category 1 deterioration determination). Referring to the dictionary 306, the category 2 degradation determination dictionary 309, the category N degradation determination dictionary 312 and the like), the category k degradation degree of the character candidate pattern is calculated. The category k deterioration determination dictionary stores a function for calculating the category k deterioration degree of the input vector x.

読み取り対象文字種ごとに劣化度を計算する関数が用意されてもよいし、全読み取り対象文字種に共通の関数が使用されてもよい。   A function for calculating the deterioration degree for each character type to be read may be prepared, or a function common to all the character types to be read may be used.

例えば、「0」〜「9」の10種の数字が認識対象であり、読み取り対象文字種ごとに劣化度を算出する関数が用意される場合、類別k劣化判定用辞書には、入力がn次元ベクトル、出力が実数値となる10個の関数
g0(x)
g1(x)
g2(x)
・・・
g9(x)
が保存されている。関数gi(x)は、ベクトルxの数字iに対する類別k劣化度を出力する。
For example, when 10 types of numbers “0” to “9” are to be recognized and a function for calculating the degree of deterioration is prepared for each character type to be read, the input to the category k deterioration determination dictionary is n-dimensional. 10 functions g0 (x) whose vectors and outputs are real values
g1 (x)
g2 (x)
...
g9 (x)
Is saved. The function gi (x) outputs the classification k deterioration degree for the number i of the vector x.

一方、全読み取り対象文字種に共通の関数が使用される場合、類別k劣化判定用辞書には、入力がn次元ベクトル、出力が実数値となる1個の関数
g(x)
が保存されている。
On the other hand, when a function common to all the character types to be read is used, the function k (x) having a n-dimensional vector as input and a real value as output in the category k deterioration determination dictionary.
Is saved.

ここで、類別k劣化度の計算について説明する。読み取り対象文字種ごとに劣化度を算出する関数が用意される場合、類別k劣化度算出部は、ベクトルxとの類似度が最も高い文字種cについて、gc(x)を計算することによって、類別k劣化度を算出する。例えば、図5に示すように、画像403Aの特徴を表すベクトルxとの類似度が最も高い文字種が「7」であった場合、類別k劣化度算出部は、g7(x)を類別k劣化度として計算する。一方、全読み取り対象文字種に共通の関数が使用される場合、類別k劣化度算出部は、g(x)を計算することによって、類別k劣化度を算出する。   Here, calculation of the category k deterioration degree will be described. When a function for calculating the degree of deterioration is prepared for each character type to be read, the category k deterioration degree calculation unit calculates the category k by calculating gc (x) for the character type c having the highest similarity to the vector x. The degree of deterioration is calculated. For example, as illustrated in FIG. 5, when the character type having the highest degree of similarity with the vector x representing the feature of the image 403A is “7”, the category k degradation degree calculation unit converts g7 (x) to the category k degradation. Calculate as degrees. On the other hand, when a common function is used for all character types to be read, the category k deterioration degree calculation unit calculates the category k deterioration degree by calculating g (x).

棄却判定部313は、読み取り対象文字種ごとの類似度及び劣化の種類ごとの劣化度に基づいて、認識結果を棄却するか否かを判定する。棄却制御用辞書314には、類似度及び劣化度に基づいて棄却判定を行うために参照される情報が保存されている。具体的には、棄却制御用辞書314には、読み取り対象文字種ごとの類似度及び劣化の種類ごとの劣化度を入力されると、棄却スコア(実数値)を出力する関数pと、棄却スコアに基づいて棄却するか否かを判定するための閾値と、が保存されている。閾値は、文字種ごとに異なっていてもよいし、全文字種に共通であってもよい。   Rejection determination unit 313 determines whether or not to reject the recognition result based on the degree of similarity for each character type to be read and the degree of deterioration for each type of deterioration. The rejection control dictionary 314 stores information that is referred to in order to perform rejection determination based on the similarity and the deterioration level. Specifically, when the similarity for each character type to be read and the deterioration level for each type of deterioration are input to the rejection control dictionary 314, a function p that outputs a rejection score (real value) and a rejection score are used. And a threshold value for determining whether or not to reject based on. The threshold value may be different for each character type, or may be common to all character types.

棄却スコアは、類似度及び劣化度を引数としてpの値を計算することによって得られる。棄却の判定は、例えば次のように行われる。文字種ごとに異なる閾値が用いられる場合、文字種iの閾値をhi、1位候補文字種をmとすると、棄却判定部313は、p>hmの場合に認識結果を棄却し、それ以外の場合に認識結果を棄却しないと判定する。一方、全文字種に共通の閾値hが用いられる場合、棄却判定部313は、p>hの場合に認識結果を棄却し、それ以外の場合に認識結果を棄却しないと判定する。   The rejection score is obtained by calculating the value of p with the similarity and the deterioration degree as arguments. The determination of rejection is performed as follows, for example. When a different threshold value is used for each character type, if the threshold value for character type i is hi and the first candidate character type is m, rejection determination unit 313 rejects the recognition result when p> hm, and otherwise recognizes the recognition result. It is determined that the result is not rejected. On the other hand, when a common threshold value h is used for all character types, rejection determination unit 313 determines that the recognition result is rejected when p> h, and the recognition result is not rejected otherwise.

例えば、かすれに起因する劣化度の影響を受けやすい(すなわちかすれに起因する劣化度の大きさに応じて出力が大きくなりやすい)関数pを使用すれば、かすれた文字が棄却されやすくなり、それによって文字のかすれによる誤読を防ぐことができる。   For example, if a function p that is easily affected by the degree of deterioration due to blurring (that is, the output tends to increase according to the degree of deterioration due to blurring) is used, faint characters are likely to be rejected. Can prevent misreading due to blurred characters.

リトライ判定部316は、認識に失敗した(すなわち認識結果が棄却された)場合、又は、認識に失敗していなくても、認識結果の信頼性がある程度低い場合に、パラメータ等を変更して処理を再試行するか否かを判定する。再試行すると判定された場合、前処理部201、文字列切出部202及び文字列認識部300のいずれかの処理、及びそれに続く処理が再度実行される。   The retry determination unit 316 changes the parameter or the like when the recognition fails (that is, the recognition result is rejected), or the recognition result is not reliable even if the recognition result is not reliable. Determine whether to retry. If it is determined to retry, any one of the preprocessing unit 201, the character string cutting unit 202, and the character string recognition unit 300, and the subsequent processing are executed again.

リトライ判定部316は、リトライ判定部210(図2参照)と同様に、処理を再試行するか否かを判定してもよい。ただし、リトライ判定部316は、さらに、文字画像の劣化の種類に応じて、再試行の方法(具体的には、どの処理を再試行するか、及び、再試行の際に使用するパラメータ等)を制御する。   Similar to the retry determination unit 210 (see FIG. 2), the retry determination unit 316 may determine whether to retry the process. However, the retry determination unit 316 further performs a retry method (specifically, which process is retried and parameters used for the retry, etc.) according to the type of deterioration of the character image. To control.

例えば、文字列認識部300の棄却判定部313によって認識結果が棄却された場合に、リトライ判定部316は、前処理部201以降の処理を再試行すると判定してもよい。このとき、リトライ判定部316は、劣化の種類ごとの劣化度に基づいて、処理の方法を制御してもよい。例えば、かすれによる劣化度が大きい場合には、かすれに適した方法で文字画像の前処理(二値化及びノイズ除去等)を行うように前処理部201を制御してもよい。   For example, when the recognition result is rejected by the rejection determination unit 313 of the character string recognition unit 300, the retry determination unit 316 may determine to retry the processing after the preprocessing unit 201. At this time, the retry determination unit 316 may control the processing method based on the degree of deterioration for each type of deterioration. For example, when the degree of deterioration due to blurring is large, the preprocessing unit 201 may be controlled to perform character image preprocessing (binarization, noise removal, etc.) by a method suitable for blurring.

例えば、前処理部201は、かすれによる劣化度が大きい(例えば所定の閾値より大きい)場合に、孤立点ノイズ除去処理を弱める(又は実行しない)、又は、二値化の閾値を、黒と判定されやすい方向に変更する、などのパラメータ等の変更を行った上で、前処理を実行する。これによって、かすれの影響の少ない二値画像が得られ、その結果、認識に成功する場合がある。逆に、つぶれによる劣化度が大きい場合に、前処理部201は、孤立点ノイズ除去処理を強める、又は、二値化の閾値を、白と判定されやすい方向に変更する、などのパラメータ等の変更を行った上で、前処理を実行してもよい。   For example, the pre-processing unit 201 weakens (or does not execute) the isolated point noise removal processing when the degree of deterioration due to blurring is large (eg, greater than a predetermined threshold), or determines that the binarization threshold is black. Pre-processing is executed after changing parameters such as changing to a direction that is easy to be performed. As a result, a binary image with little blurring effect is obtained, and as a result, recognition may be successful. On the other hand, when the degree of deterioration due to crushing is large, the preprocessing unit 201 increases the isolated point noise removal processing or changes the binarization threshold to a direction in which it is easily determined to be white, etc. The pre-processing may be executed after making the change.

同様に、認識結果が棄却されない場合でも、いずれかの種類の劣化度が大きい場合には、その劣化の種類に適した方法で前処理が行われる。   Similarly, even when the recognition result is not rejected, if any type of deterioration degree is large, preprocessing is performed by a method suitable for the type of deterioration.

認識結果記録部317は、認識結果DB318に認識の結果を記録する。ただし、認識結果が棄却された場合には、認識結果が棄却されたことを示す情報、及び、棄却の要因を示す情報(具体的には、例えば類別k劣化度等)を記録してもよい。   The recognition result recording unit 317 records the recognition result in the recognition result DB 318. However, when the recognition result is rejected, information indicating that the recognition result is rejected and information indicating the cause of the rejection (specifically, for example, the degree of degradation of category k) may be recorded. .

例えば、認識結果記録部317は、認識結果として図5に示したものと同様の情報を記録し、さらに、図6に示す情報を記録してもよい。   For example, the recognition result recording unit 317 may record information similar to that shown in FIG. 5 as the recognition result, and may further record information shown in FIG.

図6は、本発明の実施形態の認識結果DB318に記録される文字認識結果の説明図である。   FIG. 6 is an explanatory diagram of character recognition results recorded in the recognition result DB 318 according to the embodiment of this invention.

列601は、図5の列501と同様であり、入力された文字画像が記録される。   The column 601 is the same as the column 501 in FIG. 5, and the input character image is recorded.

列602には、各文字画像の認識結果の曖昧度を示す値が記録される。例えば、1位候補文字類似度(図5の列503)と2位候補文字類似度(図5の列505)との差が小さいほど大きくなるように計算された値が曖昧度として列602に記録されてもよい。   A column 602 records a value indicating the degree of ambiguity of the recognition result of each character image. For example, a value calculated so as to increase as the difference between the first candidate character similarity (column 503 in FIG. 5) and the second candidate character similarity (column 505 in FIG. 5) decreases is shown in column 602 as the ambiguity. It may be recorded.

列603には、各文字画像の類似度及び類別1劣化度に基づいて前述の関数pによって計算された棄却スコアが記録される。また、列604には、各文字画像の類別1劣化度が記録される。図6では省略されているが、さらに、類別2劣化度から類別N劣化度が同様に認識結果DB318に記録される。   In column 603, the rejection score calculated by the above-described function p based on the similarity of each character image and the category 1 deterioration is recorded. In column 604, the classification 1 deterioration degree of each character image is recorded. Although omitted in FIG. 6, the category 2 degradation degree to the category N degradation degree are similarly recorded in the recognition result DB 318.

文書分類部319は、図2に示した文書分類部213と同様に、認識結果に応じて文書を分類する。ただし、文書分類部319は、棄却された文字を含む文書を、棄却の要因に応じて分類してもよい。具体的には、文書分類部319は、劣化度に基づいて、文書を、それに含まれる文字の劣化の種類ごとに分類してもよいし、劣化の程度のランクごとに分類してもよい。   Similar to the document classification unit 213 illustrated in FIG. 2, the document classification unit 319 classifies the document according to the recognition result. However, the document classification unit 319 may classify a document including a rejected character according to a rejection factor. Specifically, the document classification unit 319 may classify the document according to the type of deterioration of characters included in the document, or may be classified according to the rank of the degree of deterioration based on the degree of deterioration.

なお、本実施形態の文字認識装置101は、計算された劣化度又はそれに基づいて行われた棄却の判定結果を、表示装置103を介して出力してもよい。例えば、文字認識装置101は、棄却すると判定された文字について、認識結果の文字種の代わりに、その文字が棄却されたことを示す記号等を表示してもよいし、さらに、その棄却の原因となった劣化の種類及び劣化度等を表示してもよい。棄却の原因となった劣化の種類とは、例えば、類別1劣化度から類別N劣化度のうち所定の閾値を超えるものに対応する劣化の種類であってもよいし、類別1劣化度から類別N劣化度のうち最大のものに対応する劣化の種類であってもよい。   Note that the character recognition device 101 of the present embodiment may output the calculated degree of deterioration or the determination result of rejection made based on the degree of deterioration via the display device 103. For example, the character recognition device 101 may display a symbol or the like indicating that the character has been rejected instead of the character type of the recognition result for the character determined to be rejected. The type of deterioration and the degree of deterioration may be displayed. The type of deterioration that caused the rejection may be, for example, the type of deterioration corresponding to a category 1 degradation level to a category N degradation level that exceeds a predetermined threshold, or classification from category 1 degradation level. The type of deterioration corresponding to the maximum degree of N deterioration may be used.

次に、本実施形態において使用される辞書の生成について説明する。   Next, generation of a dictionary used in the present embodiment will be described.

辞書生成部320は、認識学習用DB321及び類別k劣化学習用DB(すなわち類別1劣化学習用DB323及び類別N劣化学習用DB325等)を用いて、文字認識用辞書303、類別k劣化判定用辞書(すなわち類別1劣化判定用辞書306、類別2劣化判定用辞書309及び類別N劣化判定用辞書312等)及び棄却制御用辞書314を生成する。生成された辞書は、文字列認識部300において、文字列認識及び棄却判定等のために参照される。   The dictionary generation unit 320 uses the recognition learning DB 321 and the category k deterioration learning DB (that is, the category 1 deterioration learning DB 323, the category N deterioration learning DB 325, etc.), and the character recognition dictionary 303, the category k deterioration determination dictionary. (That is, the category 1 deterioration determination dictionary 306, the category 2 deterioration determination dictionary 309, the category N deterioration determination dictionary 312 and the like) and the rejection control dictionary 314 are generated. The generated dictionary is referred to by the character string recognition unit 300 for character string recognition and rejection determination.

認識用辞書生成部322は、認識学習用DB321を用いて、文字列認識部300によって用いられる文字認識用辞書303を生成する。その生成方法は、図2の認識用辞書生成部217が実行するものと同様であってよい。   The recognition dictionary generation unit 322 generates a character recognition dictionary 303 used by the character string recognition unit 300 using the recognition learning DB 321. The generation method may be the same as that executed by the recognition dictionary generation unit 217 of FIG.

認識学習用DB321には、図2の認識学習用DB216と同様に、文字種ラベル付きの文字画像が保存されている。ただし、後述するように、本実施形態の認識学習用DB321には、高品質な文字画像に加えて、劣化した文字画像が保存されてもよい。   The recognition learning DB 321 stores character images with character type labels, similarly to the recognition learning DB 216 of FIG. However, as will be described later, in the recognition learning DB 321 of this embodiment, a deteriorated character image may be stored in addition to a high-quality character image.

辞書生成部320内の文字特徴抽出部301は、文字列認識部300内の文字特徴抽出部301と同様の処理を実行する。すなわち、辞書生成部320内の文字特徴抽出部301は、認識学習用DB321に保存されている各文字画像をベクトル値に変換する。変換されたベクトル値とそれに対応する文字種ラベルとのセットの集合は、認識用辞書生成部322によって、読み取り対象文字種ごとの類似度を計算するための関数を生成するために用いられる。   The character feature extraction unit 301 in the dictionary generation unit 320 performs the same processing as the character feature extraction unit 301 in the character string recognition unit 300. That is, the character feature extraction unit 301 in the dictionary generation unit 320 converts each character image stored in the recognition learning DB 321 into a vector value. The set of sets of the converted vector values and the corresponding character type labels is used by the recognition dictionary generation unit 322 to generate a function for calculating the similarity for each character type to be read.

さらに、認識用辞書生成部322は、全て又は一部の劣化の種類に適した、類似度を算出するための関数を生成してもよい。この関数は、文字列認識部315が、文字候補パターンの認識を、劣化の種類に応じて再試行するために使用される。その場合、認識用辞書生成部322は、劣化した文字について、認識対象の文字種ごとに、入力ベクトルxの当該文字種に対する類似度を計算するための関数を生成する。   Furthermore, the recognition dictionary generation unit 322 may generate a function for calculating the similarity that is suitable for all or some types of deterioration. This function is used by the character string recognition unit 315 to retry the recognition of the character candidate pattern according to the type of deterioration. In that case, the recognition dictionary generation unit 322 generates a function for calculating the similarity of the input vector x to the character type for each character type to be recognized for the deteriorated character.

例えば、認識学習用DB321に、高品質な(すなわち劣化していないか、又は劣化の少ない)文字画像と、劣化した文字画像とが保存され、認識用辞書生成部322は、通常の文字認識の際に類似度を算出するために使用される関数を生成する場合には、高品質な文字画像のみを学習に使用し、劣化した文字画像の認識の際(例えば認識が再試行されるとき)に使用される関数を生成する場合には、劣化した文字画像のみを学習に使用してもよい。   For example, the recognition learning DB 321 stores a high-quality (that is, no deterioration or little deterioration) character image and a deteriorated character image, and the recognition dictionary generation unit 322 performs normal character recognition. When generating a function that is used to calculate the degree of similarity at the time, only high-quality character images are used for learning, and when recognizing degraded character images (for example, when recognition is retried) When generating a function used in the above, only a degraded character image may be used for learning.

具体的には、例えば、認識学習用DB321に、図8の文字画像802に示すようなサンプルが高品質文字画像として、文字画像803及び804に示すようなサンプルが劣化文字画像として保存されてもよい。この場合、文字特徴抽出部301が文字画像802などの高品質文字画像の各々から、その特徴を表すベクトルxを抽出し、認識用辞書生成部322が、高品質な文字画像に関して文字種ごとの類似度を計算するための関数fi(x)を生成し、文字認識用辞書303に保存する。関数fiは、i番目の文字種を表す高品質文字画像から抽出されたベクトルxが入力された場合に高い値を出力するように、サポートベクトルマシンなどのアルゴリズムによって、学習により生成される。さらに、文字特徴抽出部301が文字画像803又は804などの劣化文字画像の各々から、その特徴を表すベクトルxを抽出し、認識用辞書生成部322が、劣化文字画像に関して文字種ごとの類似度を計算するための関数fi(x)を生成し、文字認識用辞書303に保存する。   Specifically, for example, even if the sample as shown in the character image 802 in FIG. 8 is stored as a high-quality character image and the samples as shown in the character images 803 and 804 are stored in the recognition learning DB 321 as a deteriorated character image. Good. In this case, the character feature extraction unit 301 extracts a vector x representing the feature from each of the high-quality character images such as the character image 802, and the recognition dictionary generation unit 322 determines the similarity for each character type regarding the high-quality character image. A function fi (x) for calculating the degree is generated and stored in the character recognition dictionary 303. The function fi is generated by learning by an algorithm such as a support vector machine so that a high value is output when a vector x extracted from a high-quality character image representing the i-th character type is input. Further, the character feature extraction unit 301 extracts a vector x representing the feature from each deteriorated character image such as the character image 803 or 804, and the recognition dictionary generation unit 322 determines the similarity for each character type with respect to the deteriorated character image. A function fi (x) for calculation is generated and stored in the character recognition dictionary 303.

例えば、類似度算出部302は、通常、高品質な文字画像に関する類似度を計算するための関数fi(x)を使用して、入力された文字画像の各文字種との類似度を計算し、リトライ判定部316が処理を再試行すると判定した場合において、かすれによる劣化度が所定の閾値を超えると判定された場合には、かすれによる劣化度が1又は2の文字画像803又は804に関する類似度を計算するための関数fi(x)を使用して、入力された文字画像の各文字種との類似度を計算する。   For example, the similarity calculation unit 302 normally calculates the similarity with each character type of the input character image using a function fi (x) for calculating the similarity regarding a high-quality character image, If the retry determination unit 316 determines to retry the process, and it is determined that the degree of deterioration due to blur exceeds a predetermined threshold, the degree of similarity regarding the character image 803 or 804 with the degree of deterioration due to blur being 1 or 2 Using the function fi (x) for calculating, the similarity with each character type of the input character image is calculated.

類別k劣化判定用辞書生成部(すなわち類別1劣化判定用辞書生成部324及び類別N劣化判定用辞書生成部326等)は、類別k劣化学習用DB(すなわち類別1劣化学習用DB323及び類別N劣化学習用DB325等)を用いて、文字列認識部300によって使用される類別k劣化判定用辞書(すなわち類別1劣化判定用辞書306及び類別N劣化判定用辞書312等)を生成する。類別k劣化判定用辞書には、入力ベクトルxの類別k劣化度を計算するための関数が保存されている。劣化度を計算する関数は、読み取り対象文字種ごとに用意されてもよいし、全読み取り対象文字種に共通の一つの関数が用いられてもよい。   The category k deterioration determination dictionary generation unit (that is, the category 1 deterioration determination dictionary generation unit 324, the category N deterioration determination dictionary generation unit 326, and the like) includes a category k deterioration learning DB (that is, a category 1 deterioration learning DB 323 and a category N). Using the deterioration learning DB 325 and the like), a category k deterioration determination dictionary (that is, a category 1 deterioration determination dictionary 306 and a category N deterioration determination dictionary 312) used by the character string recognition unit 300 is generated. The category k deterioration determination dictionary stores a function for calculating the category k deterioration degree of the input vector x. The function for calculating the degree of deterioration may be prepared for each character type to be read, or one function common to all the character types to be read may be used.

以下、全読み取り対象文字種に共通の一つの関数が用いられる場合の、劣化度を計算する関数の生成方法を説明する。読み取り対象文字種ごとに関数を生成する場合には、以下の手順を文字種ごとに行えばよい。   Hereinafter, a method of generating a function for calculating the degree of deterioration when one function common to all the character types to be read is used will be described. When generating a function for each character type to be read, the following procedure may be performed for each character type.

類別k劣化学習用DBには、劣化した文字画像が、その劣化の度合いを示す数値と共に保存される。例えば、類別1が「かすれ」である場合、かすれによって劣化した文字画像が類別1劣化学習用DB323に保存される。   In the category k deterioration learning DB, a deteriorated character image is stored together with a numerical value indicating the degree of deterioration. For example, when the category 1 is “blur”, the character image deteriorated by the blur is stored in the category 1 deterioration learning DB 323.

図8は、本発明の実施形態において扱われる劣化した文字画像の説明図である。   FIG. 8 is an explanatory diagram of a deteriorated character image handled in the embodiment of the present invention.

文字画像801は、劣化した文字画像の例であり、例えば、「納期限 平成」の文字列のうち、「納期限」の文字画像には、かすれのためにいくつかの線の消滅及び線の途切れ等が発生している。一方、「平成」の文字画像にはかすれ、つぶれ等の劣化は発生していない。   The character image 801 is an example of a deteriorated character image. For example, in a character string of “Delivery date Heisei”, the character image of “Delivery date” has disappeared and some lines disappeared due to blurring. There are interruptions. On the other hand, the character image of “Heisei” did not deteriorate such as blurring or crushing.

文字画像802〜804は、劣化学習用DBに保存される文字画像の例を示す。   Character images 802 to 804 show examples of character images stored in the deterioration learning DB.

文字画像802は、劣化度が小さい(又は劣化していない)文字画像の例である。例えば、文字画像802Aは、文字種「7」の画像であり、文字種ラベル802Bは、文字画像802Aが文字種「7」の画像であることを示す。   The character image 802 is an example of a character image having a small degree of deterioration (or no deterioration). For example, the character image 802A is an image of the character type “7”, and the character type label 802B indicates that the character image 802A is an image of the character type “7”.

文字画像803及び804は、かすれによる劣化が発生した文字画像の例である。文字画像802の劣化度より文字画像803の劣化度が大きく、文字画像804の劣化度はさらに大きい。ここでは、文字画像802、803及び804の劣化度を、それぞれ0、1及び2と記載する。劣化度を示す情報も類別k劣化学習用DBに保存される。   Character images 803 and 804 are examples of character images in which deterioration due to blurring has occurred. The deterioration degree of the character image 803 is larger than the deterioration degree of the character image 802, and the deterioration degree of the character image 804 is further larger. Here, the deterioration degrees of the character images 802, 803, and 804 are described as 0, 1, and 2, respectively. Information indicating the degree of deterioration is also stored in the category k deterioration learning DB.

なお、文字画像802、803及び804と同様の文字画像及び劣化度を示す情報が、認識学習用DB321にも保存されてよい。文字画像802が劣化していない文字画像である場合、類別k劣化学習用DBは文字画像802を含まなくてもよい。   Note that the character image and the information indicating the degree of deterioration similar to the character images 802, 803, and 804 may be stored in the recognition learning DB 321. If the character image 802 is a character image that has not deteriorated, the classification k deterioration learning DB may not include the character image 802.

同様に、つぶれ等、他の種類の劣化が発生した文字画像も、それぞれの種類に対応する類別k劣化学習用DBに格納される。   Similarly, character images in which other types of deterioration such as crushing have occurred are also stored in the category k deterioration learning DB corresponding to each type.

入力ベクトルxの劣化度を計算するための関数g(x)は、劣化度を目的変数、類別k特徴抽出部によって抽出されたベクトルxを説明変数として、類別k劣化学習用DBを用いて回帰学習を行うことによって生成される。その結果、g(x)は、学習に用いた文字画像と同じ種類の劣化が大きいほど大きい値を出力する傾向を持つ関数となる。   The function g (x) for calculating the degree of deterioration of the input vector x uses the degree of deterioration as an objective variable and the vector x extracted by the category k feature extraction unit as an explanatory variable, and is regressed using the category k deterioration learning DB. Generated by doing learning. As a result, g (x) is a function having a tendency to output a larger value as deterioration of the same type as the character image used for learning increases.

例えば、類別1が「かすれ」である場合、類別1特徴抽出部304は、文字画像803(又は804)の特徴を表すベクトルxを抽出する。類別1劣化判定用辞書生成部324は、類別1劣化度を目的変数、上記の抽出されたベクトルxを説明変数として回帰学習を行うことによって、類別1劣化度を計算するための関数g(x)を生成し、類別1劣化判定用辞書306に保存する。   For example, when the category 1 is “blur”, the category 1 feature extraction unit 304 extracts a vector x representing the feature of the character image 803 (or 804). The category 1 degradation determination dictionary generation unit 324 performs regression learning using the category 1 degradation level as an objective variable and the extracted vector x as an explanatory variable, thereby calculating a function g (x ) And stored in the category 1 deterioration determination dictionary 306.

同様に、例えば類別2が「つぶれ」である場合、類別2特徴抽出部307は、つぶれによる劣化が発生した文字画像(図示省略)の特徴を表すベクトルxを抽出する。類別2劣化判定用辞書生成部(図示省略)は、類別2劣化度を目的変数、上記の抽出されたベクトルxを説明変数として回帰学習を行うことによって、類別2劣化度を計算するための関数g(x)を生成し、類別2劣化判定用辞書309に保存する。   Similarly, for example, when the category 2 is “collapsed”, the category 2 feature extraction unit 307 extracts a vector x representing the feature of the character image (not shown) that has deteriorated due to the collapse. The category 2 deterioration determination dictionary generation unit (not shown) is a function for calculating a category 2 deterioration degree by performing regression learning using the category 2 deterioration degree as an objective variable and the extracted vector x as an explanatory variable. g (x) is generated and stored in the category 2 deterioration determination dictionary 309.

その後、画像入力部200に入力された文書から切り出された文字画像について(具体的には、例えばその文字画像の1位候補文字種について)、関数g(x)が計算される。入力された文字画像がかすれている場合には、類別1劣化度を計算するための関数g(x)が類別2劣化度を計算するための関数g(x)の値より大きくなり、入力された文字画像がつぶれている場合には、類別2劣化度を計算するための関数g(x)が類別1劣化度を計算するための関数g(x)の値より大きくなる。これによって、入力された文字画像に発生している劣化の種類及びその劣化の程度を特定することができる。   Thereafter, the function g (x) is calculated for the character image cut out from the document input to the image input unit 200 (specifically, for example, for the first candidate character type of the character image). When the inputted character image is faint, the function g (x) for calculating the category 1 deterioration degree is larger than the value of the function g (x) for calculating the category 2 deterioration degree. When the character image is crushed, the function g (x) for calculating the category 2 deterioration degree is larger than the value of the function g (x) for calculating the category 1 deterioration degree. As a result, it is possible to specify the type of deterioration occurring in the input character image and the degree of the deterioration.

棄却制御用辞書生成部327は、棄却判定部313によって用いられる棄却制御用辞書314を生成する。棄却制御用辞書314には、読み取り対象文字種ごとの類似度及び類別ごとの劣化度が入力されると棄却スコア(実数値)を出力する関数pと、認識結果を棄却するか否かを判定するために使用される閾値と、が保存される。閾値は、文字種ごとに異なる値であってもよいし、全文字種に共通であってもよい。棄却スコアの計算及び棄却判定の方法は、棄却判定部313に関する説明として記載した通りである。   Rejection control dictionary generation unit 327 generates rejection control dictionary 314 used by rejection determination unit 313. The rejection control dictionary 314 determines whether to reject the recognition result and the function p that outputs a rejection score (real value) when the similarity for each character type to be read and the degradation level for each classification are input. And a threshold value used for the purpose. The threshold value may be different for each character type, or may be common to all character types. The calculation of the rejection score and the method of determination of rejection are as described for the description of the rejection determination unit 313.

棄却の判定に使用される関数p及び閾値は、どのような場合に認識結果を棄却するかを定めるものであり、ユーザの設定に従って生成される。例えば、多少の誤読が許容される場合は、劣化度が大きくなってもあまり大きい値を出力しないような関数pを生成してもよいし、つぶれによる誤読よりかすれによる誤読を防ぎたい場合には、かすれによる劣化度が大きくなったときに出力が大きくなりやすく、つぶれによる劣化度が大きくなったときには出力があまり大きくならないような関数pを生成してもよいし、かすれによる誤読よりつぶれによる誤読を防ぎたい場合には、つぶれによる劣化度が大きくなったときに出力が大きくなりやすく、かすれによる劣化度が大きくなったときには出力があまり大きくならないような関数pを生成してもよい。   The function p and the threshold value used for determination of rejection determine in which case the recognition result is rejected, and are generated according to the setting of the user. For example, if some misreading is allowed, a function p that does not output a very large value even if the degree of deterioration increases may be generated, or if it is desired to prevent misreading due to blurring rather than misreading due to crushing The function p may be generated so that the output is likely to increase when the degradation level due to blurring increases, and the output does not increase too much when the degradation level due to collapse increases, or misreading due to squashing rather than misreading due to blurring When it is desired to prevent this, the function p may be generated such that the output tends to increase when the degree of deterioration due to crushing increases, and the output does not increase too much when the degree of deterioration due to blurring increases.

上記の本発明の実施形態によれば、認識結果を高精度に棄却することができ、さらに、その棄却の結果を、文字認識の高精度化に利用することができる。   According to the above-described embodiment of the present invention, the recognition result can be rejected with high accuracy, and the rejection result can be used for improving the accuracy of character recognition.

例えば、図8に示す帳票の一部分801のように、文書画像に同一の前処理(二値化処理など)を施すと、フォントの違い、色の違い、文字の大きさの違い、紙質の違い、などの原因で、様々な劣化文字(かすれ、つぶれなど)が混在する場合がある。文字画像801は、かすれが生じた文字列画像「納期限」と、かすれが生じていない文字列画像「平成」とを含む。そのため、帳票の位置によって、前処理の方法を変える必要がある。このような場合でも、劣化度に基づいて、文字ごとに、前処理方法及び特徴抽出処理を変えることができるため、劣化文字を高精度に認識することができる。また、文字の劣化度によって、リトライの際の処理方法を制御できるため、劣化文字を高精度に認識することができる。   For example, when a document image is subjected to the same preprocessing (binarization processing or the like) as in a part 801 of a form shown in FIG. 8, a difference in font, a difference in color, a difference in character size, or a difference in paper quality There are cases in which various deteriorated characters (such as faint or crushed) are mixed due to reasons such as. The character image 801 includes a character string image “deadline” in which fading has occurred and a character string image “Heisei” in which no fading has occurred. Therefore, it is necessary to change the preprocessing method depending on the position of the form. Even in such a case, since the preprocessing method and the feature extraction process can be changed for each character based on the degree of deterioration, the deteriorated character can be recognized with high accuracy. Further, since the processing method at the time of retry can be controlled by the degree of character deterioration, the deteriorated character can be recognized with high accuracy.

さらに、非文字及び劣化文字の種類ごとに、その棄却に特化した棄却方式を備えるため、従来法と比較して、精緻な棄却を行うことができる。さらに、棄却の強さを非文字、劣化文字の類別毎に調整できるようにする。   Furthermore, since the rejection method specialized in the rejection is provided for each type of non-character and deteriorated character, it is possible to perform more precise rejection than in the conventional method. Further, the rejection strength can be adjusted for each category of non-characters and deteriorated characters.

さらに、非文字及び劣化文字の種類ごとに、劣化判定方式を備えることによって、棄却の原因を識別することができ、後の(例えばリトライ時の)制御に用いることができる。   Furthermore, by providing a deterioration determination method for each type of non-character and deteriorated character, the cause of rejection can be identified and used for subsequent control (for example, at the time of retry).

101 文字認識装置
102 入力装置
103 表示装置
104 イメージ取得装置
105 通信装置
106 演算装置
107 外部記憶装置
200 画像入力部
201 前処理部
202 文字列切出部
203、208、300、315 文字列認識部
210、316 リトライ判定部
211、317 認識結果記録部
212、318 認識結果DB
213、319 文書分類部
214 認識用辞書生成部
320 辞書生成部
DESCRIPTION OF SYMBOLS 101 Character recognition apparatus 102 Input apparatus 103 Display apparatus 104 Image acquisition apparatus 105 Communication apparatus 106 Arithmetic apparatus 107 External storage apparatus 200 Image input part 201 Preprocessing part 202 Character string extraction part 203,208,300,315 Character string recognition part 210 316 Retry determination unit 211, 317 Recognition result recording unit 212, 318 Recognition result DB
213, 319 Document classification unit 214 Recognition dictionary generation unit 320 Dictionary generation unit

Claims (10)

プロセッサと、前記プロセッサに接続される記憶装置と、を備える文字認識装置であって、
前記記憶装置は、
認識対象の文字画像のデータと、前記文字画像と各文字種との類似度を計算するための関数を含む認識用辞書と、前記文字画像の劣化度を劣化の種類ごとに計算するための関数を含む複数の劣化判定用辞書と、を保持し、
前記劣化の種類ごとに、劣化が発生した前記各文字種の文字画像を保持し、
前記文字認識装置は、
前記類似度を計算するための前記文字画像の特徴を示す数値を抽出し、
前記抽出された類似度を計算するための特徴を示す数値と、前記認識用辞書に含まれる関数とを用いて、前記文字画像の前記各文字種に対する類似度を計算し、
前記劣化の種類ごとに、前記劣化度を計算するための前記文字画像の特徴を示す数値を抽出し、
前記劣化の種類ごとに、劣化度を目的変数、前記劣化が発生した前記各文字種の文字画像の特徴を示す数値を説明変数とする回帰学習を行うことによって、前記文字画像の劣化度を劣化の種類ごとに計算するための関数を生成して前記劣化判定用辞書に保存し、
前記抽出された劣化度を計算するための特徴を示す数値と、前記劣化判定用辞書に含まれる関数とを用いて、前記劣化の種類ごとに、前記文字画像の劣化度を計算し、
前記計算された劣化度に基づいて、前記文字画像の認識結果を棄却するか否かを判定し、
前記判定した結果を前記記憶装置に記録し、
文書画像を入力されると、前記文書画像の二値化又はノイズ除去の少なくとも一つを含む前処理を行い、
前記前処理がされた前記文書画像から文字列画像を切り出し、
前記文字列画像から前記文字画像を切り出し、
前記劣化の種類ごとに計算された劣化度に基づいて、前記文字画像の認識処理を再実行するか否かを判定し、
前記文字画像の認識処理を再実行すると判定した場合、前記前処理、前記文字列画像の切り出し、前記文字画像の切り出し、前記文字画像の特徴を示す数値の抽出、又は前記文字画像の前記各文字種に対する類似度の計算を、前記劣化度に応じて変更されたパラメータ又は処理方法を用いて再実行することを特徴とする文字認識装置。
A character recognition device comprising a processor and a storage device connected to the processor,
The storage device
A character image for recognition, a recognition dictionary including a function for calculating the similarity between the character image and each character type, and a function for calculating the degree of deterioration of the character image for each type of deterioration. A plurality of deterioration determination dictionaries including,
For each type of degradation, hold a character image of each character type where degradation has occurred,
The character recognition device includes:
Extracting a numerical value indicating the characteristics of the character image for calculating the similarity,
Using the numerical value indicating the feature for calculating the extracted similarity and a function included in the recognition dictionary, the similarity for each character type of the character image is calculated,
For each type of deterioration, extract a numerical value indicating the characteristics of the character image for calculating the degree of deterioration,
For each type of deterioration, the deterioration degree of the character image is reduced by performing regression learning using the deterioration degree as an objective variable and a numerical value indicating the character image characteristic of each character type in which the deterioration has occurred as an explanatory variable. Generate a function to calculate for each type and save it in the deterioration determination dictionary,
Using the numerical value indicating the feature for calculating the extracted deterioration degree and a function included in the deterioration determination dictionary, the deterioration degree of the character image is calculated for each type of deterioration,
Based on the calculated degree of deterioration, determine whether to reject the recognition result of the character image,
The determination result is recorded in the storage device ,
When a document image is input, preprocessing including at least one of binarization or noise removal of the document image is performed,
A character string image is cut out from the preprocessed document image,
Cut out the character image from the character string image,
Based on the degree of deterioration calculated for each type of deterioration, determine whether to re-execute the character image recognition process,
When it is determined that the character image recognition process is to be re-executed, the pre-processing, the character string image cut-out, the character image cut-out, the extraction of numerical values indicating the characteristics of the character image, or the character types of the character image A character recognition apparatus characterized by re-calculating the similarity with respect to a parameter or a processing method changed according to the degree of deterioration .
前記劣化の種類は、少なくとも、かすれによる劣化及びつぶれによる劣化の2種類を含み、The kinds of deterioration include at least two kinds of deterioration due to blurring and deterioration due to crushing,
前記文字認識装置は、かすれによる劣化度が所定の値より大きい場合、二値化の閾値を黒と判定されやすくなるように変更されたパラメータ、又は、孤立点ノイズ除去処理を弱めるように変更されたパラメータの少なくとも一方を用いて前記前処理を再実行し、つぶれによる劣化度が所定の値より大きい場合、二値化の閾値を白と判定されやすくなるように変更されたパラメータ、又は、孤立点ノイズ除去処理を強めるように変更されたパラメータの少なくとも一方を用いて前記前処理を再実行することを特徴とする請求項1に記載の文字認識装置。  The character recognition device is changed so that the binarization threshold is easily determined to be black or the isolated point noise removal processing is weakened when the degree of deterioration due to blurring is larger than a predetermined value. If the pre-processing is re-executed using at least one of the parameters and the degree of deterioration due to crushing is greater than a predetermined value, the binarization threshold is changed to be easily determined as white, or an isolated parameter The character recognition device according to claim 1, wherein the preprocessing is re-executed using at least one of the parameters changed so as to enhance the point noise removal processing.
前記文字認識装置は、前記文字画像の認識結果、前記文字画像の認識結果を棄却するか否かの判定結果、又は前記劣化度の少なくとも一つに応じて、前記文字画像を含む文書を分類することを特徴とする請求項2に記載の文字認識装置。The character recognition device classifies a document including the character image according to at least one of the recognition result of the character image, the determination result of whether to reject the recognition result of the character image, or the degree of deterioration. The character recognition device according to claim 2. 前記文字認識装置は、The character recognition device includes:
前記劣化の種類ごとに、前記類似度を目的変数、前記劣化が発生した前記各文字種の文字画像の特徴を示す数値を説明変数とする回帰学習を行うことによって、前記劣化の種類に応じた、前記文字画像の前記文字種に対する類似度を計算するための関数を生成し、  For each type of deterioration, by performing regression learning with the similarity as an objective variable and numerical values indicating the characteristics of the character image of each character type in which the deterioration has occurred as an explanatory variable, according to the type of deterioration, Generating a function for calculating the similarity of the character image to the character type;
いずれかの劣化の種類について計算された劣化度が所定の値より大きい場合、当該劣化の種類に応じて生成された前記文字画像の前記文字種に対する類似度を計算するための関数を用いて、前記文字画像の前記各文字種に対する類似度の計算を再実行することを特徴とする請求項1に記載の文字認識装置。  If the degree of deterioration calculated for any of the types of deterioration is greater than a predetermined value, using a function for calculating the similarity to the character type of the character image generated according to the type of deterioration, the The character recognition apparatus according to claim 1, wherein similarity calculation for the character types of the character image is re-executed.
前記記憶装置は、前記類似度及び前記劣化の種類ごとの劣化度に基づいて棄却スコアを計算するための関数を含む棄却制御用辞書を保持し、The storage device holds a rejection control dictionary including a function for calculating a rejection score based on the similarity and the degree of deterioration for each type of deterioration,
前記文字認識装置は、前記棄却制御用辞書に含まれる関数を用いて、前記計算された類似度及び前記計算された劣化度に対応する前記棄却スコアを計算し、  The character recognition device calculates the rejection score corresponding to the calculated similarity and the calculated deterioration using a function included in the rejection control dictionary,
前記棄却スコアが所定の値を超える場合に、前記文字画像の認識結果を棄却すると判定することを特徴とする請求項1に記載の文字認識装置。  The character recognition device according to claim 1, wherein when the rejection score exceeds a predetermined value, it is determined to reject the recognition result of the character image.
プロセッサと、前記プロセッサに接続される記憶装置と、を備える文字認識装置が実行する文字認識方法であって、A character recognition method executed by a character recognition device comprising a processor and a storage device connected to the processor,
前記記憶装置は、  The storage device
認識対象の文字画像のデータと、前記文字画像と各文字種との類似度を計算するための関数を含む認識用辞書と、前記文字画像の劣化度を劣化の種類ごとに計算するための関数を含む複数の劣化判定用辞書と、を保持し、  A character image for recognition, a recognition dictionary including a function for calculating the similarity between the character image and each character type, and a function for calculating the degree of deterioration of the character image for each type of deterioration. A plurality of deterioration determination dictionaries including,
前記劣化の種類ごとに、劣化が発生した前記各文字種の文字画像を保持し、  For each type of degradation, hold a character image of each character type where degradation has occurred,
前記文字認識方法は、  The character recognition method is:
前記類似度を計算するための前記文字画像の特徴を示す数値を抽出する第1手順と、  A first procedure for extracting a numerical value indicating the feature of the character image for calculating the similarity;
前記抽出された類似度を計算するための特徴を示す数値と、前記認識用辞書に含まれる関数とを用いて、前記文字画像の前記各文字種に対する類似度を計算する第2手順と、  A second procedure for calculating a similarity for each character type of the character image using a numerical value indicating a feature for calculating the extracted similarity and a function included in the recognition dictionary;
前記劣化の種類ごとに、前記劣化度を計算するための前記文字画像の特徴を示す数値を抽出する第3手順と、  A third procedure for extracting a numerical value indicating characteristics of the character image for calculating the degree of deterioration for each type of deterioration;
前記劣化の種類ごとに、劣化度を目的変数、前記劣化が発生した前記各文字種の文字画像の特徴を示す数値を説明変数とする回帰学習を行うことによって、前記文字画像の劣化度を劣化の種類ごとに計算するための関数を生成して前記劣化判定用辞書に保存する第4手順と、  For each type of deterioration, the deterioration degree of the character image is reduced by performing regression learning using the deterioration degree as an objective variable and a numerical value indicating the character image characteristic of each character type in which the deterioration has occurred as an explanatory variable. A fourth procedure for generating a function for calculating each type and storing the function in the deterioration determination dictionary;
前記抽出された劣化度を計算するための特徴を示す数値と、前記劣化判定用辞書に含まれる関数とを用いて、前記劣化の種類ごとに、前記文字画像の劣化度を計算する第5手順と、  A fifth procedure for calculating the degree of deterioration of the character image for each type of deterioration using a numerical value indicating a characteristic for calculating the extracted degree of deterioration and a function included in the deterioration determination dictionary. When,
前記計算された劣化度に基づいて、前記文字画像の認識結果を棄却するか否かを判定する第6手順と、  A sixth procedure for determining whether or not to reject the recognition result of the character image based on the calculated deterioration degree;
前記判定した結果を前記記憶装置に記録する第7手順と、  A seventh procedure for recording the determined result in the storage device;
文書画像を入力されると、前記文書画像の二値化又はノイズ除去の少なくとも一つを含む前処理を行う第8手順と、  When a document image is input, an eighth procedure for performing preprocessing including at least one of binarization or noise removal of the document image;
前記前処理がされた前記文書画像から文字列画像を切り出す第9手順と、  A ninth procedure for cutting out a character string image from the preprocessed document image;
前記文字列画像から前記文字画像を切り出す第10手順と、  A tenth procedure for cutting out the character image from the character string image;
前記劣化の種類ごとに計算された劣化度に基づいて、前記文字画像の認識処理を再実行するか否かを判定する第11手順と、を含み、  An eleventh procedure for determining whether to re-execute the character image recognition process based on the degree of deterioration calculated for each type of deterioration,
前記第11手順において、前記文字画像の認識処理を再実行すると判定された場合、前記第1手順、前記第2手順、前記第8手順、前記第9手順、又は前記第10手順を、前記劣化度に応じて変更されたパラメータ又は処理方法を用いて再実行することを特徴とする文字認識方法。  In the eleventh procedure, when it is determined that the character image recognition process is to be re-executed, the first procedure, the second procedure, the eighth procedure, the ninth procedure, or the tenth procedure is changed to the deterioration. A character recognition method which is re-executed using a parameter or a processing method changed according to the degree.
前記劣化の種類は、少なくとも、かすれによる劣化及びつぶれによる劣化の2種類を含み、The kinds of deterioration include at least two kinds of deterioration due to blurring and deterioration due to crushing,
前記第11手順において、前記文字画像の認識処理を再実行すると判定された場合、再実行される前記第8手順は、かすれによる劣化度が所定の値より大きい場合、二値化の閾値を黒と判定されやすくなるように変更されたパラメータ、又は、孤立点ノイズ除去処理を弱めるように変更されたパラメータの少なくとも一方を用いて前記前処理を再実行し、つぶれによる劣化度が所定の値より大きい場合、二値化の閾値を白と判定されやすくなるように変更されたパラメータ、又は、孤立点ノイズ除去処理を強めるように変更されたパラメータの少なくとも一方を用いて前記前処理を再実行する手順を含むことを特徴とする請求項6に記載の文字認識方法。  In the eleventh procedure, when it is determined that the character image recognition process is to be re-executed, the eighth procedure to be re-executed is that the binarization threshold is set to black when the degree of deterioration due to blurring is larger than a predetermined value. The pre-processing is re-executed using at least one of a parameter that has been changed so that it can be easily determined, or a parameter that has been changed to weaken the isolated point noise removal processing, and the degree of deterioration due to crushing is greater than a predetermined value. If larger, the pre-processing is re-executed using at least one of a parameter changed so that the binarization threshold is easily determined to be white and a parameter changed so as to enhance the isolated point noise removal processing. The character recognition method according to claim 6, further comprising a procedure.
前記文字認識方法は、さらに、前記文字画像の認識結果、前記文字画像の認識結果を棄却するか否かの判定結果、又は前記劣化度の少なくとも一つに応じて、前記文字画像を含む文書を分類する第12手順を含むことを特徴とする請求項7に記載の文字認識方法。The character recognition method further includes a document including the character image according to at least one of the recognition result of the character image, the determination result whether to reject the recognition result of the character image, or the degree of deterioration. The character recognition method according to claim 7, further comprising a twelfth procedure of classifying. 前記文字認識方法は、さらに、前記劣化の種類ごとに、前記類似度を目的変数、前記劣化が発生した前記各文字種の文字画像の特徴を示す数値を説明変数とする回帰学習を行うことによって、前記劣化の種類に応じた、前記文字画像の前記文字種に対する類似度を計算するための関数を生成する手順を含み、The character recognition method further performs, for each type of deterioration, regression learning using the similarity as an objective variable, and numerical values indicating characteristics of the character images of the character types in which the deterioration has occurred as explanatory variables. Generating a function for calculating the similarity of the character image to the character type according to the type of deterioration,
前記第11手順において、前記文字画像の認識処理を再実行すると判定された場合、再実行される前記第2手順は、いずれかの劣化の種類について計算された劣化度が所定の値より大きい場合、当該劣化の種類に応じて生成された前記文字画像の前記文字種に対する類似度を計算するための関数を用いて、前記文字画像の前記各文字種に対する類似度の計算を再実行する手順を含むことを特徴とする請求項6に記載の文字認識方法。  When it is determined in the eleventh procedure that the character image recognition process is to be re-executed, the second procedure to be re-executed is when the degree of deterioration calculated for any of the types of deterioration is greater than a predetermined value. And re-calculating the similarity of the character image for each character type using a function for calculating the similarity of the character image to the character type generated according to the type of deterioration. The character recognition method according to claim 6.
前記記憶装置は、前記類似度及び前記劣化の種類ごとの劣化度に基づいて棄却スコアを計算するための関数を含む棄却制御用辞書を保持し、The storage device holds a rejection control dictionary including a function for calculating a rejection score based on the similarity and the degree of deterioration for each type of deterioration,
前記第6手順は、  The sixth procedure includes
前記棄却制御用辞書に含まれる関数を用いて、前記計算された類似度及び前記計算された劣化度に対応する前記棄却スコアを計算する手順と、  A procedure for calculating the rejection score corresponding to the calculated similarity and the calculated deterioration level using a function included in the rejection control dictionary;
前記棄却スコアが所定の値を超える場合に、前記文字画像の認識結果を棄却すると判定する手順と、を含むことを特徴とする請求項6に記載の文字認識方法。  The character recognition method according to claim 6, further comprising: a step of determining that the recognition result of the character image is rejected when the rejection score exceeds a predetermined value.
JP2011212308A 2011-09-28 2011-09-28 Character recognition device and character recognition method Active JP5674615B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011212308A JP5674615B2 (en) 2011-09-28 2011-09-28 Character recognition device and character recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011212308A JP5674615B2 (en) 2011-09-28 2011-09-28 Character recognition device and character recognition method

Publications (2)

Publication Number Publication Date
JP2013073439A JP2013073439A (en) 2013-04-22
JP5674615B2 true JP5674615B2 (en) 2015-02-25

Family

ID=48477885

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011212308A Active JP5674615B2 (en) 2011-09-28 2011-09-28 Character recognition device and character recognition method

Country Status (1)

Country Link
JP (1) JP5674615B2 (en)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2806374B1 (en) * 2013-05-24 2022-07-06 Tata Consultancy Services Limited Method and system for automatic selection of one or more image processing algorithm
JP6528147B2 (en) * 2014-01-31 2019-06-12 株式会社日本デジタル研究所 Accounting data entry support system, method and program
JP6091552B2 (en) * 2015-06-24 2017-03-08 株式会社Jストリーム Movie processing apparatus and movie processing system
CN105844249A (en) * 2016-03-30 2016-08-10 北京奎牛科技有限公司 Layout file form field handwriting typing-in method and typing-in device
CN107790403B (en) * 2017-10-18 2019-07-19 四川长虹电器股份有限公司 A kind of sorting system of Financial Billing and the method for sorting of Financial Billing
JP7088661B2 (en) * 2017-10-30 2022-06-21 株式会社インフォディオ Paper form data conversion system, OCR engine learning image generator and image analyzer
JP7338158B2 (en) 2019-01-24 2023-09-05 富士フイルムビジネスイノベーション株式会社 Information processing device and program
JP7452060B2 (en) 2020-02-12 2024-03-19 富士フイルムビジネスイノベーション株式会社 Information processing device and program
JP7452059B2 (en) 2020-02-12 2024-03-19 富士フイルムビジネスイノベーション株式会社 Information processing device and program

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2812256B2 (en) * 1995-06-30 1998-10-22 日本電気株式会社 Character recognition apparatus and method
JPH0962758A (en) * 1995-08-30 1997-03-07 Oki Electric Ind Co Ltd Business form recognition processing system
JP3901473B2 (en) * 2001-06-06 2007-04-04 日本電信電話株式会社 Character pattern recognition processing method and apparatus, character pattern recognition processing program and recording medium thereof
JP4733577B2 (en) * 2006-07-12 2011-07-27 日立コンピュータ機器株式会社 Form recognition device and form recognition program

Also Published As

Publication number Publication date
JP2013073439A (en) 2013-04-22

Similar Documents

Publication Publication Date Title
JP5674615B2 (en) Character recognition device and character recognition method
US11501061B2 (en) Extracting structured information from a document containing filled form images
JP6055297B2 (en) Character recognition apparatus and method, and character recognition program
Baluja Learning typographic style: from discrimination to synthesis
Sarika et al. CNN based optical character recognition and applications
Boillet et al. Robust text line detection in historical documents: learning and evaluation methods
Bajić et al. Data visualization classification using simple convolutional neural network model
Mursari et al. The effectiveness of image preprocessing on digital handwritten scripts recognition with the implementation of OCR Tesseract
Bhattacharya et al. Understanding contents of filled-in Bangla form images
Correia et al. Digitizing historical balance sheet data: A practitioner’s guide
Al Ghamdi A novel approach to printed Arabic optical character recognition
Ashraf et al. An analysis of optical character recognition (ocr) methods
US20220398399A1 (en) Optical character recognition systems and methods for personal data extraction
Kumar et al. Line based robust script identification for indianlanguages
Pourreza et al. Sub-word based Persian OCR using auto-encoder features and cascade classifier
Bashir et al. Script identification: a review
Alghyaline A Printed Arabic Optical Character Recognition System using Deep Learning
Tzogka et al. OCR Workflow: Facing Printed Texts of Ancient, Medieval and Modern Greek Literature.
Sharma et al. Gujarati Script Recognition
Bhagat et al. Complex document classification and integration with indexing
Gomes Rocha et al. SPEdu: a toolbox for processing digitized historical documents
Singh et al. Character Segmentation of Handwritten Text Using Machine Learning
Varthis et al. Automatic metadata extraction via image processing using Migne's Patrologia Graeca
Sagar et al. Offline Cursive handwritten word using hidden Markov model technique
Eqbal EXTRACTION AND DETECTION OF TEXT FROM IMAGES

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20130809

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141222

R150 Certificate of patent or registration of utility model

Ref document number: 5674615

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250