JPH06124365A - Character recognizing device - Google Patents

Character recognizing device

Info

Publication number
JPH06124365A
JPH06124365A JP4028063A JP2806392A JPH06124365A JP H06124365 A JPH06124365 A JP H06124365A JP 4028063 A JP4028063 A JP 4028063A JP 2806392 A JP2806392 A JP 2806392A JP H06124365 A JPH06124365 A JP H06124365A
Authority
JP
Japan
Prior art keywords
character
recognition
threshold value
binarization threshold
density
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4028063A
Other languages
Japanese (ja)
Inventor
Hideaki Yamagata
秀明 山形
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP4028063A priority Critical patent/JPH06124365A/en
Publication of JPH06124365A publication Critical patent/JPH06124365A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

PURPOSE:To enable a user of the character recognizing device to easily optimize a binarization threshold value or the read density of a scanner by actually recognizing a document. CONSTITUTION:The recognition mode is switched to a special mode by a mode switching part 11, and the document is set on the scanner 1 and recognized several times while the binarization threshold value of a character image binarization part 3 or the read density of the scanner 1 is varied by a binarization threshold value setting part 4. The optimum binarization or read density is determined on the basis of the recognition results and then set. The recognition mode is switched to a normal mode thereafter and then the best recognition performance for documents of the same quality is obtained.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、スキャナから入力した
多値文字画像を2値化した文字画像、あるいは、スキャ
ナから直接入力した2値の文字画像の認識を行なう文字
認識装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition device for recognizing a binary image of a multivalued character image input from a scanner or a binary character image directly input from a scanner.

【0002】[0002]

【従来の技術】一般に、文字認識装置において処理され
る画像は、スキャナのCCDセンサ出力を閾値(スレッ
ショルド)によって白黒2値化されたものである。この
2値化は、スキャナ側(スキャナから2値画像を直接入
力する場合)あるいは文字認識装置側(スキャナから多
値画像を入力する場合)で行なわれるが、良好な認識性
能を得るためには、原稿の濃度の違いに応じてスキャナ
の読取濃度(前者の場合)または2値化閾値(後者の場
合)を最適化しなければならない。
2. Description of the Related Art In general, an image processed by a character recognition device is a black-and-white binary image of a CCD sensor output of a scanner by a threshold value. This binarization is performed on the scanner side (when directly inputting a binary image from the scanner) or on the character recognition device side (when inputting a multi-valued image from the scanner). In order to obtain good recognition performance, The scanner reading density (in the former case) or the binarization threshold value (in the latter case) must be optimized according to the difference in the original density.

【0003】このような読取濃度または2値化閾値の最
適化に関しては、次に述べるような種々の方法が提案さ
れている。
Regarding such optimization of the read density or the binarization threshold value, various methods as described below have been proposed.

【0004】例えば「コンピュータ画像処理入門」(田
村秀行著、総研出版、1985)の第67ページに示さ
れたモード法と微分ヒストグラム法がある。モード法
は、与えられた画像の濃度値のヒストグラムを求め、そ
の二つのピークの谷の濃度値を2値化閾値とするもので
ある。微分ヒストグラム法は、画像中の対象物と背景の
境界では濃度値が急に変化すると考えられることから、
画像の濃度値を直接利用するかわりに微分値(濃度の変
化率)を利用して閾値を決定する方法である。
For example, there are the modal method and the differential histogram method shown on page 67 of "Introduction to Computer Image Processing" (Hideyuki Tamura, Soken Shuppan, 1985). The modal method is to obtain a histogram of density values of a given image and use the density values of the valleys of the two peaks as a binarization threshold value. Since the differential histogram method is considered to have a sudden change in density value at the boundary between the object and the background in the image,
This is a method of determining a threshold value by using a differential value (rate of change in density) instead of directly using the density value of an image.

【0005】また「昭和52年度電子情報学会情報部門
全国大会」の第145ページの「濃度分布からの閾値決
定方法」(大津展之)に示された方法がある。これは、
濃度分布の0次、1次モーメントだけを利用し、積分に
基づき最適な2値化閾値を決定する方法である。
Further, there is a method shown in "Method of deciding threshold value from density distribution" (Otsuno Nobuyuki) on page 145 of "National Congress of Information and Information Society of 1993". this is,
This is a method of determining the optimum binarization threshold value based on integration using only the 0th and 1st moments of the concentration distribution.

【0006】さらに特公昭60−37952号公報に示
された最適2値化方式がある。これは、多値ビデオ信号
をビデオバッファに格納し、このビデオバッファから読
み出されたビデオ信号を可変スライス回路により異なる
スライスレベルで2値化し、得られた複数の2値化ビデ
オ信号のそれぞれについて(黒点数/周囲数)なる線幅
増幅率を求め、得られた複数の線幅増幅率と基準の線幅
増幅率とに基づいてスライス回路のスライスレベル(2
値化閾値)を設定する。
Further, there is an optimum binarization method disclosed in Japanese Patent Publication No. 60-37952. This is to store a multi-valued video signal in a video buffer, binarize the video signal read from the video buffer with different slice levels by a variable slice circuit, and obtain each of the obtained binarized video signals. The line width amplification factor (number of black dots / number of surroundings) is obtained, and the slice level (2) of the slice circuit is calculated based on the obtained plurality of line width amplification factors and the reference line width amplification factor.
(Value threshold).

【0007】[0007]

【発明が解決しようとする課題】しかし、モード法はヒ
ストグラムに明確な谷が生じないような印字状態の悪い
原稿の場合に閾値の決定が困難である。微分ヒストグラ
ム法は、対象物と背景の境界付近の濃度値が複雑に変化
する画像に対して有効に働かない。濃度分布からの閾値
決定方法は、文字認識などのパターン認識において、扱
われる画像としての「線」のつぶれ、かすれに対する処
理としては効果的でない。上記特開昭60−37952
号の最適2値化方式は、認識のアルゴリズムによっては
最適な2値化閾値が得られない場合がある。
However, in the mode method, it is difficult to determine the threshold value in the case of a document having a poor printing condition in which a clear valley does not occur in the histogram. The differential histogram method does not work effectively for an image in which the density value near the boundary between the object and the background changes intricately. The threshold value determination method based on the density distribution is not effective as a process for crushing or blurring a "line" as an image to be handled in pattern recognition such as character recognition. JP-A-60-37952
In the optimal binarization method of the signal, the optimal binarization threshold may not be obtained depending on the recognition algorithm.

【0008】このように上記従来技術は、入力画像の品
質や認識アルゴリズムによる影響が大きく、様々な原稿
に対し適切な2値化閾値もしくは読取濃度を決定するこ
とに困難がある。
As described above, the above-mentioned conventional technique is greatly affected by the quality of the input image and the recognition algorithm, and it is difficult to determine an appropriate binarization threshold value or reading density for various originals.

【0009】そこで一つの考え方として、文字認識装置
において、2値化閾値あるいは読取濃度を様々に変えて
実際に文字認識を行なわせ、得られた認識結果から、最
適な2値化閾値あるいは読取濃度を決定する方法が考え
られる。
Therefore, as one idea, in the character recognition device, character recognition is actually performed by variously changing the binarization threshold value or the reading density, and the optimum binarization threshold value or the reading density is obtained from the obtained recognition result. A method of determining is conceivable.

【0010】しかし、最近の一般的な文字認識装置にお
いては、認識結果から2値化閾値あるいは読取濃度の適
否を的確に判断できるとは限らない。これは、2値化閾
値あるいは読取濃度の適否、あるいは認識対象の2値文
字画像の濃度状態もしくは品質がそのまま認識結果に反
映しないからである。
However, in a recent general character recognition apparatus, it is not always possible to accurately judge the suitability of the binarization threshold value or the read density from the recognition result. This is because the appropriateness of the binarization threshold value or the read density, or the density state or quality of the binary character image to be recognized is not reflected as it is in the recognition result.

【0011】すなわち、最近の文字認識装置にあって
は、パターンマッチングによる1文字単位の認識の後
に、言語(単語)処理などの後処理を行なって最終的な
認識結果を得るのが一般的である。2値化閾値もしくは
読取濃度が最適でないためにパターンマッチングによる
認識結果中で正解文字の候補順位が下がっていた場合
(誤認識された場合)でも、これが言語処理などの後処
理によって修正されてしまうと、ユーザーは最終的な認
識結果から、2値化閾値もしくは読取濃度が不適当であ
ることを認識することができない。
That is, in a recent character recognition device, it is common to perform post-processing such as language (word) processing after recognition of each character by pattern matching to obtain a final recognition result. is there. Even when the candidate rank of the correct character is lowered in the recognition result by the pattern matching because the binarization threshold value or the read density is not optimal (when it is erroneously recognized), this is corrected by the post-processing such as language processing. Then, the user cannot recognize from the final recognition result that the binarization threshold value or the read density is inappropriate.

【0012】よって本発明の目的は、文字認識装置にお
いて、ユーザーが実際に文字認識を行なわせた結果に基
づき、様々な原稿に対し最適な2値化閾値または読取濃
度を的確に決定できるようにすることである。
Therefore, an object of the present invention is to enable a character recognition device to accurately determine an optimum binarization threshold value or reading density for various documents based on the result of actual character recognition by a user. It is to be.

【0013】[0013]

【課題を解決するための手段】請求項1の発明によれ
ば、スキャナから入力された多値文字画像を2値化した
文字画像またはスキャナから直接入力された2値文字画
像を認識する文字認識装置において、通常の文字認識の
ための認識モード(通常モード)とは別に、多値文字画
像の2値化閾値またはスキャナの読取濃度を決定するた
めの認識モード(特別モード)を持たせ、これら2種類
の認識モードを選択する手段と多値文字画像の2値化閾
値またはスキャナの読取濃度を可変設定する手段を設
け、特別モードには文字画像の濃度状態から直接影響を
受けない処理を含ませない。
According to the first aspect of the present invention, character recognition for recognizing a character image obtained by binarizing a multi-valued character image input from a scanner or a binary character image directly input from a scanner. In addition to the recognition mode for normal character recognition (normal mode), the device is provided with a recognition mode (special mode) for determining the binarization threshold value of a multi-valued character image or the reading density of the scanner. A means for selecting two kinds of recognition modes and a means for variably setting the binarization threshold value of the multi-valued character image or the reading density of the scanner are provided, and the special mode includes processing that is not directly affected by the density state of the character image. No

【0014】請求項2の発明によれば、通常モードで
は、2値文字画像の特徴量とパターン辞書に登録された
特徴量とを照合し、該照合により得られた認識結果に対
し言語処理などの後処理を行なって最終的な認識結果を
得るが、特別モードでは、2値文字画像の特徴量とパタ
ーン辞書に登録された特徴量とを照合することにより最
終的な認識結果を得るものとされる。
According to the second aspect of the present invention, in the normal mode, the feature amount of the binary character image and the feature amount registered in the pattern dictionary are collated, and the recognition result obtained by the collation is subjected to language processing or the like. The post-processing is performed to obtain the final recognition result. In the special mode, the final recognition result is obtained by matching the feature amount of the binary character image with the feature amount registered in the pattern dictionary. To be done.

【0015】また請求項3の発明によれば、特別モード
では、濃度状態が異なる同一文字の複数の画像の特徴量
が、それぞれ異なった文字コードを割り当てられて登録
された専用のパターン辞書を用いる。
According to the third aspect of the present invention, in the special mode, a dedicated pattern dictionary in which the characteristic quantities of a plurality of images of the same character having different density states are registered by assigning different character codes to each other is used. .

【0016】[0016]

【作用】請求項1、2または3の発明の文字認識装置に
よれば、文字画像の濃度状態から直接影響を受けない処
理(請求項2の発明にあっては言語処理)を含まない特
別モードで、実際に文字認識を行なわせると、2値化閾
値もしくは読取濃度の適否が、通常モードに比べより的
確に認識結果に反映される。したがって、ユーザーは、
認識させたい原稿もしくは他の同等の印字濃度の原稿の
文字画像を異なった2値化閾値もしくは読取濃度で認識
させ、その認識結果より2値化閾値もしくは読取濃度の
適否を判断することによって、容易に最適な2値化閾値
もしくは読取濃度を決定することができる。
According to the character recognition device of the first, second or third aspect of the invention, the special mode does not include the process (the language process in the second aspect of the invention) which is not directly influenced by the density state of the character image. When the character recognition is actually performed, the suitability of the binarization threshold value or the read density is reflected in the recognition result more accurately than in the normal mode. Therefore, the user
Easily by recognizing the character image of the document you want to recognize or another document of the same print density with different binarization thresholds or reading densities, and judging whether the binarization threshold or reading density is appropriate from the recognition result. The optimum binarization threshold value or read density can be determined.

【0017】請求項3の発明の文字認識装置によれば、
特別モードで、このモード専用のパターン辞書に登録さ
れた文字の画像を入力し認識させると、2値化閾値もし
くは読取濃度の適否によって違う文字コードが認識結果
として得られるので、2値化閾値もしくは読取濃度の適
否の判断と、最適な2値化閾値もしくは読取濃度の決定
が極めて容易になる。
According to the character recognition device of the invention of claim 3,
In the special mode, when an image of a character registered in the pattern dictionary dedicated to this mode is input and recognized, a binarization threshold or a character code that differs depending on the read density is obtained as a recognition result. It becomes extremely easy to determine whether the read density is appropriate and to determine the optimum binarization threshold value or read density.

【0018】[0018]

【実施例】以下、図面を用いて本発明の実施例を説明す
る。
Embodiments of the present invention will be described below with reference to the drawings.

【0019】実施例1 図1に文字認識装置の概略構成を示す。本実施例の文字
認識装置は、スキャナ1で原稿読取りを行ない、文字画
像入力部2でスキャナ1から原稿の多値画像データを取
り込む。この多値画像データを文字画像2値化部3で2
値化し、文字切り出し部5に入力する。文字画像2値化
部3の2値化閾値は2値化閾値設定部4によって可変設
定される。ユーザーは図示されていないパネルの操作に
よって、2値化閾値設定部4を通じ2値化閾値を変更す
ることができる。
Embodiment 1 FIG. 1 shows a schematic structure of a character recognition device. In the character recognition apparatus according to the present embodiment, the scanner 1 scans a document, and the character image input unit 2 captures multivalued image data of the document from the scanner 1. This multi-valued image data is converted into 2 by the character image binarization unit 3.
The value is converted and input to the character cutout unit 5. The binarization threshold of the character image binarization unit 3 is variably set by the binarization threshold setting unit 4. The user can change the binarization threshold through the binarization threshold setting unit 4 by operating a panel (not shown).

【0020】なお、スキャナ1から2値画像データを直
接入力し、この2値画像データを文字画像2値化部3を
経由させずに直接的に文字切り出し部5に入力し、2値
化閾値設定部4でスキャナ1の読取濃度の可変設定を行
なうことも可能である(破線A,B参照)。
Binary image data is directly input from the scanner 1, and the binary image data is directly input to the character cutout unit 5 without passing through the character image binarization unit 3 to obtain a binarization threshold value. The setting unit 4 can also variably set the reading density of the scanner 1 (see broken lines A and B).

【0021】文字切り出し部5では、入力した2値画像
データより個々の文字画像データを切り出し、文字認識
部6に入力する。文字認識部6では、入力文字画像デー
タを正規化したのち特徴量を抽出し、これをパターン辞
書7に登録されている特徴量と照合することによって、
認識結果(候補文字と辞書との距離など)を得る。言語
処理部8では、文字認識部6から入力した認識結果に対
し後処理として、言語辞書9内の言語知識(例えば単
語)を用いた言語処理(単語照合など)を行なって最終
的な認識結果を求め、これを認識結果出力部10に送
る。
The character cutout unit 5 cuts out individual character image data from the input binary image data and inputs it to the character recognition unit 6. The character recognition unit 6 normalizes the input character image data and then extracts the feature amount, and collates the feature amount with the feature amount registered in the pattern dictionary 7,
Obtain the recognition result (distance between candidate character and dictionary, etc.). The language processing unit 8 performs the language processing (word matching, etc.) using the language knowledge (for example, words) in the language dictionary 9 as post-processing on the recognition result input from the character recognition unit 6 to obtain the final recognition result. Is sent to the recognition result output unit 10.

【0022】このような認識処理の流れは、通常の文字
認識のための認識モード(通常モード)の場合である。
これとは別に、文字画像2値化部3の2値化閾値(また
はスキャナ1の読取濃度)を決定するための認識モード
(特別モード)がある。特別モードでは、文字認識部6
によって得られた認識結果が、最終的な認識結果として
認識結果出力部10へ出力される。すなわち、特別モー
ドにおける認識処理には、認識対象の文字文字画像の濃
度状態から直接影響を受けない言語処理が含まれない。
The flow of such recognition processing is in the case of a recognition mode (normal mode) for normal character recognition.
Apart from this, there is a recognition mode (special mode) for determining the binarization threshold of the character image binarization unit 3 (or the read density of the scanner 1). In the special mode, the character recognition unit 6
The recognition result obtained by is output to the recognition result output unit 10 as a final recognition result. That is, the recognition processing in the special mode does not include the language processing that is not directly influenced by the density state of the recognition target character / character image.

【0023】11は認識モードを通常モードまたは特別
モードに切り替えるモード切替部である。ユーザーは、
図示されていないパネル部を操作することによって、モ
ード切替部11を通じ認識モードを切り替えることがで
きる。
Reference numeral 11 is a mode switching unit for switching the recognition mode to the normal mode or the special mode. The user
The recognition mode can be switched through the mode switching unit 11 by operating a panel unit (not shown).

【0024】ユーザーは、2値化閾値もしくは読取濃度
を最適化したい場合、認識モードを特別モードに切り替
える。そして、ユーザーが想定している品質(紙質、地
肌の色、文字の色など)の原稿をスキャナ1にセット
し、2値化閾値設定部4で2値化閾値あるいは読取濃度
を変えながら、認識処理を繰り返し実行させ、認識結果
出力部10より出力された認識結果の認識率が最高にな
った2値化閾値あるいは読取濃度を最適値として求め
る。
When the user wants to optimize the binarization threshold value or the read density, the user switches the recognition mode to the special mode. Then, a document of the quality (paper quality, background color, character color, etc.) assumed by the user is set on the scanner 1, and the binarization threshold setting unit 4 recognizes while changing the binarization threshold or the reading density. The process is repeatedly executed, and the binarization threshold value or the read density at which the recognition rate of the recognition result output from the recognition result output unit 10 is the highest is obtained as the optimum value.

【0025】このようにして決定した最適な2値化閾値
あるいは読取濃度を2値化閾値設定部4を通じて設定
し、認識モードを通常モードに切り替えて文字認識を行
なえば、同等品質の原稿について最高の認識性能を得る
ことができる。
If the optimum binarization threshold value or read density thus determined is set through the binarization threshold value setting unit 4 and the recognition mode is switched to the normal mode to perform character recognition, the highest quality will be obtained for a document of equivalent quality. The recognition performance of can be obtained.

【0026】なお、特別モードにおいて、文字画像の濃
度状態(品質)が認識率すなわち文字認識部6の認識率
に与える影響は、文字種によって相当の違いがある。そ
の例を図2に示す。
In the special mode, the influence of the density state (quality) of the character image on the recognition rate, that is, the recognition rate of the character recognition section 6 varies considerably depending on the character type. An example thereof is shown in FIG.

【0027】図2に見られるように、「来」については
2値化閾値あるいは読取濃度の違い(文字画像の濃度状
態の違い)によって認識率が大きく変化し、しかも、認
識率が最高になる2値化閾値もしくは読取濃度の範囲が
小さい。他方、「呼」や「結」については認識率のピー
クが広がってしまい、「日」や「在」については認識率
のピークが定まらないため、このような文字種の場合に
は、認識結果から最適な2値化閾値あるいは読取濃度を
決定することは不可能である。
As can be seen from FIG. 2, the recognition rate of "Kai" changes greatly depending on the difference in the binarization threshold value or the read density (difference in the density state of the character image), and the recognition rate becomes the highest. The binarization threshold or read density range is small. On the other hand, the recognition rate peaks for "call" and "yui" spread, and the recognition rate peaks for "day" and "present" are not fixed. It is impossible to determine the optimum binarization threshold value or read density.

【0028】したがって、「来」のような文字画像の濃
度状態が認識結果に直接的に反映する文字種を印字した
様々な品質のテスト原稿を用意しておき、2値化閾値あ
るいは読取濃度を決定する場合には、ユーザーが認識さ
せたい原稿の品質に近いテスト原稿を選んで用いるのが
好ましい。
Therefore, test originals of various qualities on which character types such as "Kira" which directly reflects the density state of the character image are directly reflected in the recognition result are prepared, and the binarization threshold value or the read density is determined. In this case, it is preferable to select and use a test document that is close to the quality of the document that the user wants to recognize.

【0029】実施例2 図3に文字認識装置の概略構成を示す。図1と図3を比
較すれば明らかなように、本実施例にあっては特別モー
ド専用のパターン辞書12が追加され、特別モード時に
は、こパターン辞書12がパターン辞書7に代えて文字
認識部6で使用される。
Embodiment 2 FIG. 3 shows a schematic structure of a character recognition device. As is clear from a comparison between FIG. 1 and FIG. 3, in the present embodiment, the pattern dictionary 12 dedicated to the special mode is added. In the special mode, the pattern dictionary 12 is replaced by the pattern dictionary 7 and the character recognition unit. Used in 6.

【0030】図4は、特別モード専用パターン辞書12
の内容を示す概念図である。この例では、文字「量」の
良好な文字画像の特徴量13、潰れた(濃く読み取られ
た)文字画像の特徴量14、かすれた(淡く読み取られ
た)文字画像の特徴量15が登録され、また、それぞれ
の特徴量に「量」「濃」「薄」の各文字コードが割り当
てられている。
FIG. 4 shows a pattern dictionary 12 dedicated to the special mode.
It is a conceptual diagram which shows the content of. In this example, the characteristic amount 13 of a character image having a good character “amount”, the characteristic amount 14 of a crushed (darkly read) character image, and the characteristic amount 15 of a faint (lightly read) character image are registered. Further, the character codes of “amount”, “dark”, and “light” are assigned to the respective feature amounts.

【0031】文字認識装置の導入時にスキャナ1の品質
のバラツキを補正したり、その後にスキャナ1の劣化に
よる読取濃度の変化を補正することを目的とする場合に
は、例えば図5に示すような「量」を標準濃度で印刷し
た標準原稿を用意しておく。そして、特別モードに切り
替えて、標準原稿をスキャナ1に読み取らせて認識を行
なわせる。
For the purpose of correcting the variation in the quality of the scanner 1 at the time of introducing the character recognition device and subsequently correcting the change in the read density due to the deterioration of the scanner 1, for example, as shown in FIG. Prepare a standard document on which "amount" is printed at standard density. Then, the mode is switched to the special mode, and the standard document is read by the scanner 1 for recognition.

【0032】例えば図6(a)のような認識結果が得ら
れた場合、現在の2値化閾値あるいは読取濃度は最適で
あると判断してよい。しかし、2値化閾値が低すぎる
(読取濃度が濃すぎる)と、特別モード専用パターン辞
書12との照合で特徴量14と合致がとれ、「濃」の文
字コードを含む図6(b)のような認識結果が得られる
ので、2値化閾値を上げて(あるいは読取濃度を下げ
て)再度認識させ認識結果を確認する。逆に2値化閾値
が高すぎる(読取濃度が淡すぎる)と、「薄」の文字コ
ードを含む図6(c)のような認識結果が得られるの
で、2値化閾値を下げて(読取濃度を上げて)再度認識
させ認識結果を確認する。
For example, when the recognition result as shown in FIG. 6A is obtained, it may be judged that the current binarization threshold value or the read density is optimum. However, if the binarization threshold value is too low (the reading density is too dark), the feature amount 14 can be matched by the comparison with the special mode dedicated pattern dictionary 12, and the character code of “dark” in FIG. Since such a recognition result is obtained, the binarization threshold value is raised (or the reading density is lowered) and recognition is performed again to confirm the recognition result. On the other hand, if the binarization threshold is too high (the reading density is too light), the recognition result as shown in FIG. 6C including the “light” character code can be obtained. Therefore, lower the binarization threshold (reading). Re-recognize by increasing the density) and check the recognition result.

【0033】ユーザーが、認識させようとする原稿に最
適な2値化閾値あるいは読取濃度を設定したい場合に
は、その原稿と品質が近い図5に示すような原稿を用意
し、これを用いて特別モードの認識を行ない調整を行な
えばよい。
When the user wants to set the optimum binarization threshold value or reading density for the original document to be recognized, an original document having a quality similar to that of the original document shown in FIG. 5 is prepared and used. It suffices to recognize the special mode and make adjustments.

【0034】なお、本実施例の場合、2値化閾値あるい
は読取濃度の適否によって異なった文字コードが出力さ
れるので、認識結果に基づき自動的に2値化閾値設定部
4を制御させることによって、2値化閾値あるいは読取
濃度の調整を自動化することも容易である。
In the case of this embodiment, different character codes are output depending on whether the binarization threshold value or the read density is appropriate. Therefore, by automatically controlling the binarization threshold value setting unit 4 based on the recognition result. It is also easy to automate the adjustment of the binarization threshold value or the read density.

【0035】[0035]

【発明の効果】以上の説明から理解されるように、請求
項1ないし3の発明によれば、文字認識装置のユーザー
は、認識させたい原稿に応じて2値化閾値もしくは読取
濃度を容易に最適化させ、最高の認識性能を発揮させる
ことができ、特に請求項3の発明によれば、2値化閾値
もしくは読取濃度の適否、過大、過小が文字コードの違
いとして認識結果に現われるので、2値化閾値もしくは
読取濃度の適否の判断と最適化が極めて容易になる。
As can be understood from the above description, according to the inventions of claims 1 to 3, the user of the character recognition apparatus can easily set the binarization threshold value or the read density according to the document to be recognized. Since the optimum recognition performance can be achieved by optimizing, and in particular, according to the invention of claim 3, whether the binarization threshold value or the read density is appropriate, too large, or too small appears in the recognition result as a difference in character code. This makes it extremely easy to determine whether the binarization threshold value or the read density is appropriate and optimize it.

【図面の簡単な説明】[Brief description of drawings]

【図1】実施例1の装置構成を示す。FIG. 1 shows a device configuration of a first embodiment.

【図2】2値化閾値(読取濃度)と認識率の関係を示
す。
FIG. 2 shows a relationship between a binarization threshold value (reading density) and a recognition rate.

【図3】実施例2の装置構成を示す。FIG. 3 shows a device configuration of a second embodiment.

【図4】特別モード専用パターン辞書の内容を示す。FIG. 4 shows the contents of a special mode dedicated pattern dictionary.

【図5】特別モードで用いられる原稿の一例を示す。FIG. 5 shows an example of a document used in a special mode.

【図6】(a)2値化閾値が適当な場合の認識結果を示
す。 (b)2値化閾値が低い場合の認識結果の一例を示す。 (d)2値化閾値が高い場合の認識結果の一例を示す。
FIG. 6A shows a recognition result when the binarization threshold value is appropriate. (B) An example of the recognition result when the binarization threshold is low is shown. (D) An example of the recognition result when the binarization threshold is high is shown.

【符号の説明】[Explanation of symbols]

1 スキャナ 2 文字画像入力部 3 文字画像2値化部 4 2値化閾値設定部 5 文字切り出し部 6 文字認識部 7 パターン辞書 8 言語処理部 9 言語辞書 10 認識結果出力部 11 モード切替部 12 特別モード専用パターン辞書 1 Scanner 2 Character Image Input Section 3 Character Image Binarization Section 4 Binarization Threshold Setting Section 5 Character Extraction Section 6 Character Recognition Section 7 Pattern Dictionary 8 Language Processing Section 9 Language Dictionary 10 Recognition Result Output Section 11 Mode Switching Section 12 Special Mode-specific pattern dictionary

【手続補正書】[Procedure amendment]

【提出日】平成5年10月19日[Submission date] October 19, 1993

【手続補正1】[Procedure Amendment 1]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】図6[Name of item to be corrected] Figure 6

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【図6】(a)2値化閾値が適当な場合の認識結果を示
す。 (b)2値化閾値が低い場合の認識結果の一例を示す。 (c)2値化閾値が高い場合の認識結果の一例を示す。
FIG. 6A shows a recognition result when the binarization threshold value is appropriate. (B) An example of the recognition result when the binarization threshold is low is shown. (C) An example of the recognition result when the binarization threshold is high is shown.

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 スキャナから入力された多値文字画像を
2値化した文字画像またはスキャナから直接入力された
2値文字画像を認識する文字認識装置において、通常の
文字認識のための認識モードと、多値文字画像の2値化
閾値またはスキャナの読取濃度の決定のための認識モー
ドとを持つとともに、これら2種類の認識モードを選択
する手段と、多値文字画像の2値化閾値またはスキャナ
の読取濃度を可変設定する手段とを有し、後者の認識モ
ードは文字画像の濃度状態から直接影響を受けない処理
を含まないことを特徴とする文字認識装置。
1. A character recognition device for recognizing a character image obtained by binarizing a multivalued character image input from a scanner or a binary character image directly input from a scanner, and a recognition mode for normal character recognition. , A binarization threshold value of a multi-valued character image or a recognition mode for determining the reading density of the scanner, a means for selecting these two types of recognition modes, and a binarization threshold value of the multi-valued character image or a scanner And a means for variably setting the reading density of the character recognition device, and the latter recognition mode does not include processing that is not directly affected by the density state of the character image.
【請求項2】 請求項1記載の文字認識装置において、
通常の文字認識のための認識モードでは2値文字画像の
特徴量とパターン辞書に登録された特徴量とを照合し、
該照合により得られた認識結果に対し言語処理などの後
処理を行なって最終的な認識結果を得るが、2値化閾値
または読取濃度の決定のための認識モードでは2値文字
画像の特徴量とパターン辞書に登録された特徴量とを照
合することにより最終的な認識結果を得ることを特徴と
する文字認識装置。
2. The character recognition device according to claim 1, wherein
In the recognition mode for normal character recognition, the feature amount of the binary character image is compared with the feature amount registered in the pattern dictionary,
Post-processing such as language processing is performed on the recognition result obtained by the collation to obtain the final recognition result. In the recognition mode for determining the binarization threshold value or the read density, the feature amount of the binary character image is obtained. A character recognition device characterized in that a final recognition result is obtained by collating with a feature amount registered in a pattern dictionary.
【請求項3】 請求項2記載の文字認識装置において、
2値化閾値または読取濃度の決定のための認識モードで
は、濃度状態が異なる同一文字の複数の画像の特徴量
が、それぞれ異なった文字コードを割り当てられて登録
された専用のパターン辞書を用いることを特徴とする文
字認識装置。
3. The character recognition device according to claim 2,
In the recognition mode for determining the binarization threshold value or the read density, use a dedicated pattern dictionary in which the characteristic quantities of a plurality of images of the same character with different density states are assigned different character codes and registered. Character recognition device.
JP4028063A 1992-02-14 1992-02-14 Character recognizing device Pending JPH06124365A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4028063A JPH06124365A (en) 1992-02-14 1992-02-14 Character recognizing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4028063A JPH06124365A (en) 1992-02-14 1992-02-14 Character recognizing device

Publications (1)

Publication Number Publication Date
JPH06124365A true JPH06124365A (en) 1994-05-06

Family

ID=12238310

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4028063A Pending JPH06124365A (en) 1992-02-14 1992-02-14 Character recognizing device

Country Status (1)

Country Link
JP (1) JPH06124365A (en)

Similar Documents

Publication Publication Date Title
US7209599B2 (en) System and method for scanned image bleedthrough processing
EP0552704B1 (en) Processing of dot-matrix/ink-jet printed text for optical character recognition
JP4631133B2 (en) Apparatus, method and recording medium for character recognition processing
US5781658A (en) Method of thresholding document images
US6775031B1 (en) Apparatus and method for processing images, image reading and image forming apparatuses equipped with the apparatus, and storage medium carrying programmed-data for processing images
US6718059B1 (en) Block selection-based image processing
US5768414A (en) Separation of touching characters in optical character recognition
US6064773A (en) Image processing system for processing a multi-tone-level image
US5812695A (en) Automatic typing of raster images using density slicing
US7280253B2 (en) System for identifying low-frequency halftone screens in image data
JPH06124365A (en) Character recognizing device
US6947595B2 (en) System for processing object areas of an image
JP2812256B2 (en) Character recognition apparatus and method
JPH10222602A (en) Optical character reading device
JPH07239899A (en) Optical character reader
JP3361905B2 (en) Optical character reader
JPH06274691A (en) Character recognizing device
JP2894111B2 (en) Comprehensive judgment method of recognition result in optical type character recognition device
JPH08221515A (en) Image processor
JP2023111116A (en) Image processing system
JPH08249421A (en) Recognizing method for reverse character
JPH08255224A (en) Digital copy machine
JPS60122474A (en) Normalizing system
JPH11161739A (en) Character recognizing device
JPH05258107A (en) Picture binarization system