JP2006107534A - Character recognizing method and character recognizing device - Google Patents
Character recognizing method and character recognizing device Download PDFInfo
- Publication number
- JP2006107534A JP2006107534A JP2006001484A JP2006001484A JP2006107534A JP 2006107534 A JP2006107534 A JP 2006107534A JP 2006001484 A JP2006001484 A JP 2006001484A JP 2006001484 A JP2006001484 A JP 2006001484A JP 2006107534 A JP2006107534 A JP 2006107534A
- Authority
- JP
- Japan
- Prior art keywords
- character
- type
- extracted
- recognition
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、入力画像より切り出した文字を認識処理する文字認識方法に関する。更に、本発明は、入力画像より切り出した文字が印刷活字であるか手書き文字であるかを判定し、その判定結果をもとに文字認識を行う文字認識装置に関する。 The present invention relates to a character recognition method for recognizing a character cut out from an input image. Furthermore, the present invention relates to a character recognition device that determines whether a character cut out from an input image is a printed type or a handwritten character, and performs character recognition based on the determination result.
印刷活字と手書き文字の判定結果に従い文字認識方法や文字認識辞書を切替える文字認識処理に関わる技術として、従来では、検出された文字の高さのバラツキを表す特徴量により判定を行う方法(特許文献1)、検出された文字のサイズの頻度のエントロピーを特徴量として判定を行う方法(特許文献2)、文字間隔の分散が実験値とほぼ等しい場合に印刷活字と判定し、そうでない場合はリジェクト文字数により判定を行う方法(特許文献3)、検出された文字のストロークの方向性や太さ、直線性などの特徴量の内の一つまたは複数の組合せにより判定を行う方法(従来技術4)、文字矩形の面積、横幅、高さ、高さと横幅の比率、矩形の中心と行の中心の距離、矩形の中心の間隔のバラツキを表す特徴量の内の一つまたは複数の組合せを用いる方法(特許文献5)等が挙げられる。 Conventionally, as a technique related to character recognition processing for switching between a character recognition method and a character recognition dictionary according to the determination result of printed type and handwritten character, a method of performing determination based on a feature amount representing variation in detected character height (Patent Document) 1) A method for determining the entropy of the frequency of the detected character size as a feature amount (Patent Document 2). If the variance of the character spacing is almost equal to the experimental value, it is determined as a print type, otherwise it is rejected. A method for performing determination based on the number of characters (Patent Document 3), and a method for performing determination based on one or a plurality of combinations of feature amounts such as the directionality, thickness, and linearity of a detected character stroke (prior art 4). , One or more combinations of features representing the area of the character rectangle, width, height, ratio of height to width, distance between the center of the rectangle and the center of the line, and variation in the distance between the centers of the rectangle A method using (Patent Document 5), and the like.
上記した各従来技術のうち、特許文献1,2,5の方法は、印刷活字の文字サイズが一般に、ほぼ一定であることを利用しているが、印刷活字へのノイズの付着や、かすれによる文字サイズの変化によって、印刷活字でも文字サイズにバラツキが現われることがあり、従って文字サイズのバラツキを表す特徴量では印刷活字と手書き文字を明瞭に判別できない場合がある。また、「1」や「−」など、横幅や高さ、面積等が他の文字のそれからかけ離れている文字が、判定の対象となる文字群に多数含まれている場合や、文字が少ない場合等に於いて、印刷活字のサイズや面積のバラツキが大きくなる場合があり、従ってサイズや面積のバラツキによる判定は困難になる。
Among the above-described conventional techniques, the methods disclosed in
また、特許文献3の方法は、印刷活字に適した文字認識方法が手書き文字をリジェクトする確率が高く、手書き文字に適した文字認識方法が印刷活字をリジェクトする確率が高い場合には妥当な判定が行えるが、文字認識方法によってはそのようなリジェクト確率の差が全く期待できない場合もあるし、ノイズやかすれにより認識不能な文字が混入している場合は、誤った字種に適した文字認識方法で認識を行った場合の方がリジェクト文字数が少なくなってしまう場合もある。
In addition, the method of
また、特許文献4で用いているストロークの方向性や直線性に関する特徴量は、漢字など直線状のストロークが大い文字を認識対象としている場合や、対象とする文字群の中の文字数が多く、直線状のストロークが多い場合には有効であるが、直線成分が少ない数字やアルファベットの小文字、平仮名等を扱う場合は直線成分が少ないため判定が困難である。
上述したように従来では、ノイズやかすれによる文字の劣化、文字数の不足、判定対象の文字のサイズ等の例外等により、単独の特徴による判定が困難な場合が多いという問題があった。 As described above, conventionally, there has been a problem that it is often difficult to make a determination based on a single feature due to character deterioration due to noise or blurring, a lack of the number of characters, an exception such as the size of a character to be determined.
本発明は上記実情に鑑みなされたもので、入力画像より切り出した読み取り対象文字が、印刷活字であるか手書き文字であるかの判定を正確に行うことができる信頼性の高い文字認識が可能な文字認識方法及び文字認識装置を提供することを目的とする。 The present invention has been made in view of the above circumstances, and it is possible to perform highly reliable character recognition that can accurately determine whether a read target character cut out from an input image is a printed type or a handwritten character. An object is to provide a character recognition method and a character recognition device.
本発明は、単独では正確な判定を可能としない特徴量を複数組み合わせて印刷活字であるか手書き文字であるかの判定を行う構成として、単独の特徴量を用いた場合より正確な判定を行うことができるようにした文字認識方法及び文字認識装置を特徴とする。 The present invention performs a more accurate determination than a case where a single feature amount is used as a configuration for determining whether it is a printed type or a handwritten character by combining a plurality of feature amounts that cannot be accurately determined alone. The character recognition method and the character recognition apparatus are made to be able to do this.
また、本発明は、入力画像より切り出した読み取り対象文字が、印刷活字であるか手書き文字であるかその判断がつかない字種であるかを判定し、その判定結果により、印刷活字に適した文字認識手段、手書き文字に適した文字認識手段、または印刷活字と手書き文字の両方に適用可能な文字認識手段のいずれかを用いて文字認識を行う構成として、字種判定が困難な場合でも、字種判定の誤りによる精度低下を防ぐことができるようにしたことを特徴とする。 Further, the present invention determines whether the character to be read cut out from the input image is a print type or a handwritten character, and determines whether the character type cannot be determined, and the determination result is suitable for the print type. Even if it is difficult to determine the character type as a configuration for character recognition using either a character recognition means, a character recognition means suitable for handwritten characters, or a character recognition means applicable to both printed and handwritten characters, It is characterized in that it is possible to prevent a decrease in accuracy due to an error in character type determination.
即ち、本発明は、入力画像から認識対象領域を切り出す前処理ステップと、前記前処理ステップで切り出した認識対象領域から文字群を抽出する文字抽出ステップと、前記文字抽出ステップで抽出した文字群から、印刷活字と手書き文字の判定に用いる特徴量を一つまたは複数抽出する特徴抽出ステップと、前記特徴抽出ステップで抽出した特徴量を用いて、前記文字抽出ステップで抽出した文字群が、印刷活字、手書き文字、印刷活字であるか手書き文字かが不明な字種のいずれであるかを判定を行う文字種判定ステップと、前記文字種判定ステップによる判定結果が手書き文字である場合に前記文字抽出ステップで抽出された文字を認識する手書き文字認識ステップと、前記文字種判定ステップによる判定結果が印刷活字である場合に前記文字抽出ステップで抽出された文字を認識する印刷活字認識ステップと、前記文字種判定ステップによる判定結果が不明な字種であると判定された場合に前記文字抽出ステップで抽出された文字を認識する不明字種認識ステップとを具備した文字認識方法を特徴とする。 That is, the present invention includes a preprocessing step of extracting a recognition target region from an input image, a character extraction step of extracting a character group from the recognition target region cut out of the preprocessing step, and a character group extracted in the character extraction step. A feature extraction step for extracting one or a plurality of feature amounts used for determination of print type and handwritten character, and a character group extracted in the character extraction step using the feature amount extracted in the feature extraction step is a print type A character type determination step for determining whether the character type is a handwritten character, a printed type or an unknown character type, and if the determination result by the character type determination step is a handwritten character, the character extraction step When the determination result by the handwritten character recognition step for recognizing the extracted character and the character type determination step is a print type A print type recognition step for recognizing the character extracted in the character extraction step, and an unknown for recognizing the character extracted in the character extraction step when the determination result in the character type determination step is determined to be an unknown character type A character recognition method comprising a character type recognition step.
また、本発明は、入力画像に対しノイズ除去及び二値化処理を行って認識対象領域を切り出す前処理手段と、前処理手段で切り出した認識対象領域から文字群を抽出する文字抽出手段と、前記文字抽出手段で抽出した文字群から、印刷活字と手書き文字の判定に用いる特徴量を一つまたは複数抽出する特徴抽出手段と、前記特徴抽出手段で抽出した特徴量を用いて前記文字抽出手段で抽出した文字群が、印刷活字、手書き文字、印刷活字であるか手書き文字であるか不明な不明字種のいずれであるかを判定する文字種判定手段と、前記文字種判定手段による判定結果が手書き文字である場合にその判定結果に従う辞書を用いて前記文字抽出手段で抽出された文字を認識する手書き文字認識手段と、前記文字種判定手段による判定結果が印刷活字である場合にその判定結果に従う辞書を用いて前記文字抽出手段で抽出された文字を認識する印刷活字認識手段と、前記文字種判定手段による判定結果が不明字種である場合にその判定結果に従う辞書を用いて前記文字抽出手段で抽出された文字を認識する不明字種認識手段とを具備した文字認識装置を特徴とする。
Further, the present invention provides a preprocessing means for performing a noise removal and binarization process on an input image to cut out a recognition target area, a character extraction means for extracting a character group from the recognition target area cut out by the preprocessing means, Feature extraction means for extracting one or a plurality of feature quantities used for determination of print characters and handwritten characters from the character group extracted by the character extraction means; and the character extraction means using the feature quantities extracted by the feature extraction means Character type determination means for determining whether the character group extracted in
このように、字種判定が困難な場合に、印刷活字と手書き文字の両方に適用可能な文字認識手段(認識用辞書)を適用することにより、字種判定が困難な場合でも、字種判定の誤りによる精度低下を防ぐことができる。 Thus, when character type determination is difficult, character type determination is possible even when character type determination is difficult by applying character recognition means (recognition dictionary) that can be applied to both printed and handwritten characters. It is possible to prevent a decrease in accuracy due to an error.
本発明によれば、入力画像より切り出した読み取り対象文字が、印刷活字であるか手書き文字であるかの判定を正確に行うことができる信頼性の高い文字認識が可能となる。即ち、本発明によれば、単独では正確な判定を可能としない特徴量を複数組み合わせることにより、単独の特徴量を用いた場合より正確な判定を行うことができる。また、値が不定となり得る特徴量についても評価値の計算式への組込みを可能とする仕組みを導入することにより、より多くの特徴量の組込みを可能とし、より高精度な判定を行うことが可能である。また、字種判定が困難な場合に印刷活字と手書き文字の両方に適用可能な文字認識方法を適用することにより、字種判定が困難な場合でも、字種判定の誤りによる精度低下を防ぐことができる。 ADVANTAGE OF THE INVENTION According to this invention, the reliable character recognition which can determine correctly whether the reading object character cut out from the input image is a printing type character or a handwritten character is attained. That is, according to the present invention, it is possible to perform more accurate determination by using a plurality of feature amounts that cannot be accurately determined by themselves than when a single feature amount is used. In addition, by introducing a mechanism that allows the evaluation value to be incorporated into the calculation formula for the feature value whose value may be indeterminate, it is possible to incorporate more feature values and perform more accurate determination. Is possible. In addition, by applying a character recognition method that can be applied to both printed and handwritten characters when character type determination is difficult, even if character type determination is difficult, accuracy degradation due to character type determination errors can be prevented. Can do.
本発明に於いては、単独では正確な判定を可能としない特徴量を複数組み合わせて正確な判定を行うことと、異常値を示すことがある特徴量や、抽出不能になる場合がある特徴量をも判定に利用している。 In the present invention, it is possible to perform accurate determination by combining a plurality of feature quantities that cannot be accurately determined alone, and feature quantities that may show abnormal values or feature quantities that may not be extracted. Is also used for judgment.
本発明の第1実施形態は、図1に示すように、前処理手段101、文字抽出手段102、特徴抽出手段103、文字種判定手段104、手書き文字認識手段105、印刷活字認識手段106等の構成要素を有する。 As shown in FIG. 1, the first embodiment of the present invention comprises preprocessing means 101, character extraction means 102, feature extraction means 103, character type determination means 104, handwritten character recognition means 105, print type recognition means 106, and the like. Has an element.
前処理手段101は、入力画像に対して、ノイズ除去や二値化、フォーム除去等を行って、認識対象領域を切り出す。文字抽出手段102は上記前処理手段101で切り出した認識対象領域から認識対象となる文字群を抽出する。特徴抽出手段103は上記文字抽出手段102で抽出した文字群から、印刷活字と手書き文字の判定を行うための特徴量を一つまたは複数抽出する。
The preprocessing means 101 performs noise removal, binarization, form removal, and the like on the input image to cut out a recognition target area. The
文字種判定手段104は、上記特徴抽出手段103で抽出した特徴量の関数として、手書き文字と印刷活字の判定を行うための評価値を計算し、予め定められた閾値との比較により、「印刷活字」であるか「手書き文字」であるかを判定し、その結果が「印刷活字」なら印刷活字認識手段106により上記抽出した文字群の認識を行い、「手書き文字」なら手書き文字認識手段105により上記抽出した文字群の認識を行う。
The character
また、本発明の第2実施形態は、図10に示すように、上記図1に示す第1実施形態の各構成要素に加えて、不明字種認識手段207を有する。 Further, as shown in FIG. 10, the second embodiment of the present invention has an unknown character type recognition means 207 in addition to the components of the first embodiment shown in FIG.
文字種判定手段204は、上記特徴抽出手段203で抽出した特徴量の関数として、手書き文字と印刷活字の判定を行うための評価値を計算し、予め定められた閾値との比較により、「印刷活字」であるか「手書き文字」であるか「印刷活字であるか手書き文字かが不明な字種」であるかを判定し、その結果が「印刷活字」であれば印刷活字認識手段206により、「手書き文字」であれば手書き文字認識手段205により、また「不明字種」であれば不明字種認識手段207によって、それぞれ抽出した文字群の認識を行う。
The character
ここで上記文字種判定手段104,204での評価値の計算は、各特徴量uiの関数gi(ui)の関数f(g1(u1),…,gN(uN))によって行われるが、値が不定となる特徴量uiについては、gi(ui)の替わりに定数を用いることによって、値が不定となり得る特徴量の利用も可能としている。 Here, the evaluation value is calculated by the character type determination means 104 and 204 by the function f (g 1 (u 1 ),..., G N (u N )) of the function g i (u i ) of each feature quantity u i. However, the feature quantity u i whose value is indefinite can be used by using a constant whose value is indefinite by using a constant instead of g i (u i ).
以下に本発明の各実施形態について具体例を挙げて説明する。尚、本発明の処理機能およびその処理手順については、汎用のコンピュータに、文字認識用のソフトウェアを組み込むことによって構成できるため、以下ではそのような構成を仮定して説明を行う。ただし、本発明は各手段を専用ハードウェアの集合体や分散処理用のコンピューターのネットワークシステムとしても構成することもでき、上述の手段の全てを具備する構成ならば、ここで挙げた構成に限らず、どのようなもので実施してもよい。 Each embodiment of the present invention will be described below with specific examples. Note that the processing function and processing procedure of the present invention can be configured by incorporating character recognition software into a general-purpose computer, so the following description will be made assuming such a configuration. However, according to the present invention, each means can be configured as an aggregate of dedicated hardware or a network system of computers for distributed processing. If the structure includes all of the above-described means, it is not limited to the configuration described here. However, any method may be used.
先ず図1乃至図9を参照して本発明の第1実施形態を説明する。 First, a first embodiment of the present invention will be described with reference to FIGS.
図1に於いて、前処理手段101では、入力された画像(スキャナで読み取った文書画像)に対して、処理対象の欄の周辺の画像の切り出しや、二値化、ノイズ除去、フォーム除去等の画像処理が行われる。また、認識対象が帳票上の文字である場合は、罫線やプレプリント等のフォームの除去も行われる。
In FIG. 1, the preprocessing
文字抽出手段102では前処理手段101の出力画像から、認識対象となる文字群の文字毎の画像と位置情報の抽出が行われる。
The
特徴抽出手段103では、文字抽出手段102で抽出された文字群毎に、印刷活字と手書き文字の判定に用いる特徴量が一種類または複数種類抽出される。また、特徴量と入力によっては、特徴量の値が求まらないか無意味である場合があるので、そのような場合には、値として「不定」を抽出結果とする。
The
抽出する特徴量としては、例えば、以下で説明する、「文字矩形の端の並びからのずれ」を表す特徴量u1、「同じ文字の字形の不一致」を表す特徴量u2、「文字認識方法毎のリジェクト文字数の違い」を表す特徴量u3の3種類が挙げられる。 As the feature quantity to be extracted, for example, as described below, a feature quantity u 1 representing “deviation from the arrangement of the end of the character rectangle”, a feature quantity u 2 representing “mismatch of the shape of the same character”, and “character recognition” There are three types of feature quantity u 3 representing “difference in the number of rejected characters for each method”.
ここでは、これら3種類の特徴量u1、u2、u3を適用するものとする。この3種類の特徴量u1、u2、u3の抽出方法について述べる。 Here, it is assumed that these three types of feature quantities u 1 , u 2 , u 3 are applied. A method for extracting these three types of feature quantities u 1 , u 2 , and u 3 will be described.
先ず文字矩形の端の並びからのずれを表す特徴量u1の抽出方法について、図4及び図5を参照して説明する。 First, a method of extracting the feature amount u 1 representing the deviation from the end of the character rectangle will be described with reference to FIGS.
文字矩形の端の並びからのずれを表す特徴量u1は、文字群中の文字数をN、n番目の文字の外接矩形の上端のY座標をytn、n番目の文字の外接矩形の下端のY座標をybnとおくと、次の式で求められるyt,ybについて、
yb−ytを最小化するαを勾配法で求め、計算式
上記の方法で求めたyt、yb、αにより文字の上端と下端の並びが
|ytn−(nα+yt)|,|ybn−(nα+yb)|
はn番目の文字の上端、下端の文字並びからのずれを表し、u1は文字矩形の端の並びからのずれの評価尺度として機能する(図5参照)。
| Y tn − (nα + y t ) |, | y bn − (nα + y b ) |
The upper end of the n-th character, represents the deviation from the character sequence of the lower end, u 1 functions as an evaluation measure of the deviation from the sequence of character rectangle of the end (see FIG. 5).
上記(式3)は、N=1の場合、必ず0になり、印刷活字、手書き文字の違いとは無関係なので、N=1の場合はu1を「不定」とする。 The above (Equation 3) is always 0 when N = 1 and is irrelevant to the difference between the printed type and the handwritten character. Therefore, when N = 1, u 1 is “undefined”.
次に、同じ文字の字形の不一致を表す特徴量u2について図6乃至図9を参照して説明する。 Next, the feature quantity u 2 representing the mismatch of the shape of the same character will be described with reference to FIGS.
同じ文字の字形の不一致を表す特徴量u2は、文字の種類の数をC、文字の種類の番号をc、n番目の文字の認識結果の文字の種類の番号をcn、n番目の文字の画像の前景画素数をan、n番目の文字とm番目の文字の画像の左上の角を図6に示すように合わせて重ね合わせた時に、両方の画像で黒画素である画素の個数をvm,nとおくと、
ここでは、二つの文字画像を重ねる際に左上の角を合わせているが、図7に示すように、重心や二つの文字画像の外接矩形の中心を合わせて重ね合わせる方法、図8に示すように、外接矩形の上辺の中心(図5)を合わせて重ね合わせる方法、または図9に示すように、下辺の中心を合わせて重ね合わせる方法等であっもよい。この際、同じ文字が文字群に含まれていない場合は、上記(式6)を計算することができないので、u2を「不定」とする。 Here, the upper left corner is aligned when two character images are overlapped. However, as shown in FIG. 7, the center of gravity and the center of the circumscribed rectangle of the two character images are overlapped, as shown in FIG. Alternatively, the method may be a method in which the centers of the upper sides of the circumscribed rectangle (FIG. 5) are overlapped or a method of overlapping the centers of the lower sides as shown in FIG. At this time, if the same character is not included in the character group, since the above (Formula 6) cannot be calculated, u 2 is set to “undefined”.
次に、文字認識方法毎のリジェクト文字数の違いを表す特徴量u3について説明する。文字認識方法毎のリジェクト文字数の違いを表す特徴量u3は、印刷活字に適した文字認識方法と、手書き文字に適した文字認識方法の二種類の文字認識方法により、文字群中の一部または、全部の文字の認識を行った後、印刷活字に適した文字認識方法でのリジェクト文字数rpと手書き文字に適した文字認識方法でのリジェクト文字数rhから次の式で求める。
リジェクト文字数rpとrhを求めるために行った文字認識の結果は、そのまま廃棄してもよいが、廃棄せずに保存しておき、手書き文字認識手段と印刷活字認識手段106でキャッシュデータとして利用してもよい。 The result of the character recognition performed to obtain the reject character numbers r p and r h may be discarded as it is, but is stored without discarding and is stored as cache data by the handwritten character recognition means and the print type recognition means 106. May be used.
以上では、特徴抽出手段103で抽出する特徴量の例として、3種類の特徴量を示したが、特徴抽出手段103で抽出する特徴量としては、印刷活字と手書き文字との違いを表していると考えられるものならば、上記した以外にいかなる量を用いてもよく、その種類の個数も任意である。
In the above, three types of feature quantities are shown as examples of the feature quantities extracted by the
文字種判定手段104では、特徴抽出手段103で抽出した特徴をもとに、文字抽出手段102で抽出した文字群が、印刷活字であるか、あるいは手書き文字であるかを示す評価値sを求めて、この評価値sが予め定められた閾値θより大きい場合は印刷活字、閾値θ以下である場合は手書き文字であるとの判定が行われる。
The character
特徴量の個数をd、i番目の特徴量をuiとおくと、評価値sは関数f、関数群giにより
gi(ui)としては、
関数fとしては、gi(ui)の線形結合
以上の例では、fとして、gi(ui)線形結合を用いているが、fとしては、gi(ui)の二次形式
ただし、
また、gi(ui)としては、
hiとしては、
文字種判定手段104による判定結果が、手書き文字である場合には、文字抽出手段102で抽出された文字が手書き文字認識手段105によって認識され、文字種判定手段104による判定結果が、印刷活字である場合には、印刷活字認識手段106によって認識され、その認識結果が出力される。この際、手書き文字認識手段105と、印刷活字認識手段106とは、それぞれ学習機能を含む辞書内容及び認識アルゴリズムを異にする。
When the determination result by the character
次に本発明の第2実施形態を説明する。この第2実施形態は、図10に示すように、前処理手段201、文字抽出手段202、特徴抽出手段203、文字種判定手段204、手書き文字認識手段205、印刷活字認識手段206、不明字種認識手段207等の構成要素を有する。ここで、前処理手段201、文字抽出手段202、特徴抽出手段203、手書き文字認識手段205、印刷活字認識手段206は、それぞれ上記図1に示す第1実施形態と同様の機能構成であり、ここでは具体的な動作説明を省略する。
Next, a second embodiment of the present invention will be described. In the second embodiment, as shown in FIG. 10, preprocessing means 201, character extraction means 202, feature extraction means 203, character type determination means 204, handwritten character recognition means 205, print type recognition means 206, unknown character type recognition. It has components such as
文字種判定手段204は、特徴抽出手段203で抽出した特徴量を用いて、文字抽出手段202で抽出した文字群が、印刷活字であるか、手書き文字であるか、印刷活字であるか手書き文字かが不明な字種であるかの判定を行う。即ち、文字種判定手段204は、特徴抽出手段203で抽出した特徴をもとに、文字抽出手段202で抽出した文字群が、印刷活字であるか、あるいは手書き文字であるかを示す評価値sを求め、この評価値sが予め定められた閾値θpより大きい場合は印刷活字、評価値sが予め定められた閾値θhより小さい場合は手書き文字と判定する。また、評価値sが[s<=θpかつs>=θh]である場合は、印刷活字であるか手書き文字かが不明な字種であると判定する。
The character
文字種判定手段204による判定結果が、手書き文字である場合には、文字抽出手段202で抽出された文字を手書き文字認識手段205によって認識し、印刷活字である場合には印刷活字認識手段206によって認識し、印刷活字であるか手書き文字であるかが不明な字種であると判定した場合には、不明字種認識手段207によって認識して、その認識結果を出力する。この第2実施形態に於いても手書き文字認識手段205と、印刷活字認識手段206と、不明字種認識手段207とは、それぞれ学習機能を含む辞書内容及び認識アルゴリズムを異にする。
When the determination result by the character
101,201…前処理手段、102,202…文字抽出手段、103,203…特徴抽出手段、104,204…文字種判定手段、105,205…手書き文字認識手段、106,206…印刷活字認識手段、207…不明字種認識手段。 101, 201 ... Pre-processing means, 102, 202 ... Character extraction means, 103, 203 ... Feature extraction means, 104, 204 ... Character type determination means, 105, 205 ... Handwritten character recognition means, 106, 206 ... Print type recognition means, 207 ... Unknown character type recognition means.
Claims (6)
前記前処理ステップで切り出した認識対象領域から文字群を抽出する文字抽出ステップと、
前記文字抽出ステップで抽出した文字群から、印刷活字と手書き文字の判定に用いる特徴量を一つまたは複数抽出する特徴抽出ステップと、
前記特徴抽出ステップで抽出した特徴量を用いて、前記文字抽出ステップで抽出した文字群が、印刷活字、手書き文字、印刷活字であるか手書き文字かが不明な字種のいずれであるかを判定を行う文字種判定ステップと、
前記文字種判定ステップによる判定結果が手書き文字である場合に前記文字抽出ステップで抽出された文字を認識する手書き文字認識ステップと、
前記文字種判定ステップによる判定結果が印刷活字である場合に前記文字抽出ステップで抽出された文字を認識する印刷活字認識ステップと、
前記文字種判定ステップによる判定結果が不明な字種であると判定された場合に前記文字抽出ステップで抽出された文字を認識する不明字種認識ステップと
を具備したことを特徴とする文字認識方法。 A preprocessing step of extracting a recognition target area from an input image;
A character extraction step of extracting a character group from the recognition target region cut out in the preprocessing step;
A feature extraction step for extracting one or a plurality of feature amounts to be used for determination of print type and handwritten character from the character group extracted in the character extraction step;
Using the feature amount extracted in the feature extraction step, it is determined whether the character group extracted in the character extraction step is a print type, a handwritten character, a print type or a character type whose handwritten character is unknown. A character type determination step for performing
A handwritten character recognition step for recognizing the character extracted in the character extraction step when the determination result of the character type determination step is a handwritten character;
A print type recognition step for recognizing the character extracted in the character extraction step when the determination result in the character type determination step is a print type;
A character recognition method comprising: an unknown character type recognition step for recognizing a character extracted in the character extraction step when it is determined that the determination result in the character type determination step is an unknown character type.
前処理手段で切り出した認識対象領域から文字群を抽出する文字抽出手段と、
前記文字抽出手段で抽出した文字群から、印刷活字と手書き文字の判定に用いる特徴量を一つまたは複数抽出する特徴抽出手段と、
前記特徴抽出手段で抽出した特徴量を用いて前記文字抽出手段で抽出した文字群が、印刷活字、手書き文字、印刷活字であるか手書き文字であるか不明な不明字種のいずれであるかを判定する文字種判定手段と、
前記文字種判定手段による判定結果が手書き文字である場合にその判定結果に従う辞書を用いて前記文字抽出手段で抽出された文字を認識する手書き文字認識手段と、
前記文字種判定手段による判定結果が印刷活字である場合にその判定結果に従う辞書を用いて前記文字抽出手段で抽出された文字を認識する印刷活字認識手段と、
前記文字種判定手段による判定結果が不明字種である場合にその判定結果に従う辞書を用いて前記文字抽出手段で抽出された文字を認識する不明字種認識手段と
を具備したことを特徴とする文字認識装置。 Pre-processing means for performing noise removal and binarization processing on the input image to cut out a recognition target area;
Character extraction means for extracting a character group from the recognition target area cut out by the preprocessing means;
Feature extraction means for extracting one or a plurality of feature quantities used for determination of print type and handwritten character from the character group extracted by the character extraction means;
Whether the character group extracted by the character extraction unit using the feature amount extracted by the feature extraction unit is a print type, a handwritten character, a print type, a handwritten character or an unknown type of unknown character Character type determining means for determining;
When the determination result by the character type determination unit is a handwritten character, the handwritten character recognition unit recognizes the character extracted by the character extraction unit using a dictionary according to the determination result;
When the determination result by the character type determination unit is a print type, a print type recognition unit that recognizes the character extracted by the character extraction unit using a dictionary according to the determination result;
Characters comprising: an unknown character type recognition unit that recognizes a character extracted by the character extraction unit using a dictionary according to the determination result when the determination result by the character type determination unit is an unknown character type Recognition device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006001484A JP2006107534A (en) | 2006-01-06 | 2006-01-06 | Character recognizing method and character recognizing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006001484A JP2006107534A (en) | 2006-01-06 | 2006-01-06 | Character recognizing method and character recognizing device |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002256913A Division JP3914119B2 (en) | 2002-09-02 | 2002-09-02 | Character recognition method and character recognition device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006107534A true JP2006107534A (en) | 2006-04-20 |
Family
ID=36377067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006001484A Pending JP2006107534A (en) | 2006-01-06 | 2006-01-06 | Character recognizing method and character recognizing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006107534A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008056767A1 (en) * | 2006-11-10 | 2008-05-15 | Kabushiki Kaisha Kawai Gakki Seisakusho | Music recognizing device and program |
JP2008123181A (en) * | 2006-11-10 | 2008-05-29 | Kawai Musical Instr Mfg Co Ltd | Musical score recognition device and program |
JP2008123182A (en) * | 2006-11-10 | 2008-05-29 | Kawai Musical Instr Mfg Co Ltd | Musical score recognition device and program |
US11488407B1 (en) | 2021-06-01 | 2022-11-01 | Lead Technologies, Inc. | Method, apparatus, and computer-readable storage medium for recognizing characters in a digital document |
-
2006
- 2006-01-06 JP JP2006001484A patent/JP2006107534A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008056767A1 (en) * | 2006-11-10 | 2008-05-15 | Kabushiki Kaisha Kawai Gakki Seisakusho | Music recognizing device and program |
JP2008123181A (en) * | 2006-11-10 | 2008-05-29 | Kawai Musical Instr Mfg Co Ltd | Musical score recognition device and program |
JP2008123182A (en) * | 2006-11-10 | 2008-05-29 | Kawai Musical Instr Mfg Co Ltd | Musical score recognition device and program |
US11488407B1 (en) | 2021-06-01 | 2022-11-01 | Lead Technologies, Inc. | Method, apparatus, and computer-readable storage medium for recognizing characters in a digital document |
US11704924B2 (en) | 2021-06-01 | 2023-07-18 | Lead Technologies, Inc. | Method, apparatus, and computer-readable storage medium for recognizing characters in a digital document |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8406530B2 (en) | Methods and systems for detecting numerals in a digital image | |
KR100658119B1 (en) | Apparatus and Method for Recognizing Character | |
US8059868B2 (en) | License plate recognition apparatus, license plate recognition method, and computer-readable storage medium | |
JP6286866B2 (en) | Image processing apparatus and image processing method | |
Aradhye | A generic method for determining up/down orientation of text in roman and non-roman scripts | |
US8229248B2 (en) | Methods and systems for identifying the orientation of a digital image | |
US20050238252A1 (en) | System and method of determining image skew using connected components | |
JPH09179937A (en) | Method for automatically discriminating boundary of sentence in document picture | |
JP5600723B2 (en) | Method and system for splitting characters in a text line having various character widths | |
US7146047B2 (en) | Image processing apparatus and method generating binary image from a multilevel image | |
US7680329B2 (en) | Character recognition apparatus and character recognition method | |
JP2000315247A (en) | Character recognizing device | |
KR20010015046A (en) | Automatic Recognition of Characters on Structured Background by Combination of the Models of the Background and of the Characters | |
JP2006107534A (en) | Character recognizing method and character recognizing device | |
JP3914119B2 (en) | Character recognition method and character recognition device | |
WO2006080568A1 (en) | Character reader, character reading method, and character reading control program used for the character reader | |
Smitha et al. | Document image analysis using imagemagick and tesseract-ocr | |
WO2010113217A1 (en) | Character recognition device and character recognition method | |
US11611678B2 (en) | Image processing apparatus and non-transitory computer readable medium | |
US20220237931A1 (en) | Systems and methods for printed code inspection | |
JP6098065B2 (en) | Image inspection apparatus, image inspection method, and program | |
EP1229487A2 (en) | Image recognition scheme | |
US20210073567A1 (en) | Systems and methods for separating ligature characters in digitized document images | |
US20060120587A1 (en) | System and method for determining image resolution using MICR characters | |
JP2943682B2 (en) | Print line detection device and print line detection method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060106 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20060328 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20060328 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080527 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080728 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080902 |