JP3844765B2 - Character recognition device - Google Patents

Character recognition device Download PDF

Info

Publication number
JP3844765B2
JP3844765B2 JP2004188254A JP2004188254A JP3844765B2 JP 3844765 B2 JP3844765 B2 JP 3844765B2 JP 2004188254 A JP2004188254 A JP 2004188254A JP 2004188254 A JP2004188254 A JP 2004188254A JP 3844765 B2 JP3844765 B2 JP 3844765B2
Authority
JP
Japan
Prior art keywords
noise
document image
unit
vertical line
character recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004188254A
Other languages
Japanese (ja)
Other versions
JP2004265452A (en
Inventor
敬 平野
康裕 岡田
文夫 依田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2004188254A priority Critical patent/JP3844765B2/en
Publication of JP2004265452A publication Critical patent/JP2004265452A/en
Application granted granted Critical
Publication of JP3844765B2 publication Critical patent/JP3844765B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Image Processing (AREA)
  • Facsimile Image Signal Circuits (AREA)

Description

この発明は、ファクシミリから文書画像が送信されると、その文書画像に存在する文字を認識する文字認識装置に関するものである。   The present invention relates to a character recognition device for recognizing characters existing in a document image when the document image is transmitted from a facsimile.

図20は以下の特許文献1に開示されている従来の文字認識装置を示す構成図であり、図において、1はファクシミリから文書画像が送信されると、文書画像に存在する縦ラインノイズを検出する縦ラインノイズ検出部、2は縦ラインノイズ検出部1により検出された縦ラインノイズを除去する縦ラインノイズ除去部、3は縦ラインノイズの除去に伴う文字の欠損を補正する文字画素推定補間部、4は文書画像に存在する孤立点ノイズを除去する孤立点ノイズ除去部、5は文書画像に存在する文字を認識する文字認識部である。   FIG. 20 is a block diagram showing a conventional character recognition device disclosed in the following Patent Document 1. In FIG. 20, when a document image is transmitted from a facsimile, 1 detects vertical line noise present in the document image. A vertical line noise detection unit 2 for removing vertical line noise detected by the vertical line noise detection unit 1, and 3 for character pixel estimation interpolation for correcting character loss due to vertical line noise removal And 4 are an isolated point noise removing unit that removes isolated point noise existing in the document image, and 5 is a character recognition unit that recognizes characters existing in the document image.

次に動作について説明する。
従来の文字認識装置は、ファクシミリから送信された文書画像に存在する縦ラインノイズと孤立点ノイズを検出して除去するものであるが、ここでいう、縦ラインノイズとは、ファクシミリの受光器にゴミが付着して、文書画像上に生じる黒い縦線をいい、孤立点ノイズとは、文書画像上にある黒画素の小さな固まりをいう。
Next, the operation will be described.
A conventional character recognition device detects and removes vertical line noise and isolated point noise present in a document image transmitted from a facsimile machine. The vertical line noise referred to here is a facsimile receiver. A black vertical line generated on the document image due to dust adhering to it, and isolated point noise refers to a small cluster of black pixels on the document image.

具体的には、まず、ファクシミリから文書画像が送信されると、縦ラインノイズ検出部1が文書画像に存在する縦ラインノイズを検出する。
縦ラインノイズの検出は、以下に示す3つの判定条件にしたがって行うものである。
(1)縦ライン上にある黒画素の数が一定値以上であれば、その縦ライン上の黒画素を縦ラインノイズと判定する。
(2)ある黒画素の上下a画素中にある黒画素の数が一定値以上であれば、その黒画素は縦ラインノイズであると判定する。ここで、“a”は文書画像に記入された文字高さの1.5倍以上とする。
(3)縦ライン上でb画素以上連続する黒画素を求め、その黒画素を縦ラインノイズであると判定する。ここで“b”は文書画像に記入された文字高さの1.5倍以上とする。
Specifically, first, when a document image is transmitted from a facsimile, the vertical line noise detection unit 1 detects vertical line noise present in the document image.
The detection of vertical line noise is performed according to the following three determination conditions.
(1) If the number of black pixels on the vertical line is equal to or greater than a certain value, the black pixel on the vertical line is determined as vertical line noise.
(2) If the number of black pixels in the upper and lower a pixels of a certain black pixel is greater than or equal to a certain value, it is determined that the black pixel is vertical line noise. Here, “a” is 1.5 times or more the character height entered in the document image.
(3) A black pixel that is continuous by b pixels or more on the vertical line is obtained, and the black pixel is determined to be vertical line noise. Here, “b” is 1.5 times or more the character height entered in the document image.

ただし、縦ラインノイズ検出部1は、予め、文書画像上で白画素であるべき領域(例えば、文書画像の上下両端や左右両端の余白領域)が分かっている場合には、縦ラインノイズの検出精度を高めるため、その領域内で検出された1個の黒画素をe個の黒画素(e>1)とみなして、上記の判定処理を実行する。   However, the vertical line noise detection unit 1 detects the vertical line noise when the area that should be white pixels on the document image (for example, the margin areas at the upper and lower ends and the left and right ends of the document image) is known in advance. In order to increase the accuracy, the above determination process is executed by regarding one black pixel detected in the region as e black pixels (e> 1).

そして、縦ラインノイズ除去部2は、縦ラインノイズ検出部1が縦ラインノイズを検出すると、縦ラインノイズと判定された縦ライン上にある黒画素を白画素に置換して、縦ラインノイズを除去する。   Then, when the vertical line noise detection unit 1 detects the vertical line noise, the vertical line noise removal unit 2 replaces the black pixels on the vertical line determined to be the vertical line noise with white pixels, and generates the vertical line noise. Remove.

次に、文字画素推定補間部3は、縦ラインノイズ除去部2が縦ラインノイズを除去すると、縦ラインノイズの除去に伴って文字が欠損する場合があるので、縦ラインノイズの除去に伴う文字の欠損を補正する。
具体的には、縦ラインノイズの左右に位置する黒画素の固まりが持つエッジの方向性から、途切れた文字線の位置を推定し、その推定した文字線上の白画素を黒画素に置換する。
Next, when the vertical line noise removal unit 2 removes the vertical line noise, the character pixel estimation interpolation unit 3 may lose a character along with the removal of the vertical line noise. Correct deficiencies in
Specifically, the position of the interrupted character line is estimated from the directionality of the edge of the black pixel cluster located on the left and right of the vertical line noise, and the white pixel on the estimated character line is replaced with the black pixel.

次に、孤立点ノイズ除去部4は、文字画素推定補間部3が文字の欠損を補正すると、文書画像上にある連結黒画素の面積を求め、連結黒画素の面積が一定値以下の場合、その連結黒画素を孤立点ノイズと判定する。
そして、孤立点ノイズと判定した連結黒画素を白画素に置換して、孤立点ノイズを除去する。
Next, when the character pixel estimation interpolation unit 3 corrects the character defect, the isolated point noise removal unit 4 obtains the area of the connected black pixels on the document image, and when the area of the connected black pixels is equal to or smaller than a certain value, The connected black pixel is determined as isolated point noise.
Then, the connected black pixels determined to be isolated point noise are replaced with white pixels, and the isolated point noise is removed.

このようにして、縦ラインノイズと孤立点ノイズが除去されると、文字認識部5は、ノイズが除去された文書画像に対して文書解析処理や文字認識処理を実行し、文字の認識結果を外部に出力する。   When the vertical line noise and isolated point noise are removed in this way, the character recognition unit 5 performs document analysis processing and character recognition processing on the document image from which the noise has been removed, and obtains the character recognition result. Output to the outside.

特開平9−238208号公報JP-A-9-238208

従来の文字認識装置は以上のように構成されているので、文書画像に存在する縦ラインノイズと孤立点ノイズは除去することができるが、ファクシミリの紙送りローラの影が文書画像の両端付近に黒く写るローラノイズ、回線上の電気的なノイズが原因で横ライン上の画素が全て白画素になる回線ノイズ、ファクシミリの受光器が不良のため縦ライン上の画素が全て白画素になる受光器ノイズ等を除去することができない課題があった。   Since the conventional character recognition apparatus is configured as described above, vertical line noise and isolated point noise existing in the document image can be removed, but the shadow of the paper feed roller of the facsimile is located near both ends of the document image. Roller noise that appears black, line noise that causes all pixels on the horizontal line to be white pixels due to electrical noise on the line, and a receiver that causes all pixels on the vertical line to be white pixels because the facsimile receiver is defective. There was a problem that noise and the like could not be removed.

また、予め、文書画像上で白画素であるべき領域(例えば、文書画像の上下両端や左右両端の余白領域)が分かっている場合には、その領域内で検出された1個の黒画素をe個の黒画素(e>1)とみなすことで、縦ラインノイズの検出精度を高めることができるが、予め、文書画像上で白画素であるべき領域が分からない場合には、縦ラインノイズの検出精度を高めることができない課題があった。   In addition, when a region that should be a white pixel on the document image (for example, margin regions at the upper and lower ends and the left and right ends of the document image) is known in advance, one black pixel detected in the region is determined. By considering e black pixels (e> 1), the detection accuracy of vertical line noise can be improved. However, if the region that should be a white pixel on the document image is not known in advance, the vertical line noise is detected. There has been a problem that the detection accuracy of can not be improved.

さらに、文書画像上にある連結黒画素の面積が一定値以下の場合、その連結黒画素を孤立点ノイズと判定するが、文書画像上の全黒画素に対して連結黒画素の面積を求めるには多くの処理時間を要するため、速やかに孤立点ノイズを除去することができない課題があった。
また、ローラノイズの位置を正確に求めることができないため、誤って文書画像上の表や文字列を欠損することがある課題があった。
Further, when the area of the connected black pixels on the document image is equal to or smaller than a certain value, the connected black pixel is determined as isolated point noise, but the area of the connected black pixels is obtained for all the black pixels on the document image. Has a problem that it cannot quickly remove isolated point noise.
Further, since the position of the roller noise cannot be obtained accurately, there is a problem that a table or a character string on the document image may be accidentally lost.

この発明は上記のような課題を解決するためになされたもので、誤って文書画像上の表や文字列を欠損する不具合を解消することができる文字認識装置を得ることを目的とする。   The present invention has been made to solve the above-described problems, and an object of the present invention is to provide a character recognition device that can eliminate the problem of accidentally losing a table or character string on a document image.

この発明に係る文字認識装置は、文書画像に存在する黒画素の個数を各縦ライン毎に計数することにより、その文書画像の左右両端から中心に向かって、各縦ラインの計数値を閾値と比較し、その計数値が閾値より小さくなる位置までをローラノイズ領域と判定し、そのローラノイズ領域に含まれる黒画素を白画素に置換するローラノイズ除去部を設けたものである。   The character recognition device according to the present invention counts the number of black pixels present in a document image for each vertical line, and sets the count value of each vertical line as a threshold value from the left and right ends of the document image toward the center. In comparison, a roller noise removal unit is provided that determines a roller noise region up to a position where the count value is smaller than a threshold value, and replaces a black pixel included in the roller noise region with a white pixel.

この発明によれば、文書画像に存在する黒画素の個数を各縦ライン毎に計数することにより、その文書画像の左右両端から中心に向かって、各縦ラインの計数値を閾値と比較し、その計数値が閾値より小さくなる位置までをローラノイズ領域と判定し、そのローラノイズ領域に含まれる黒画素を白画素に置換するローラノイズ除去部を設けるように構成したので、ローラノイズの位置を正確に求めることができるようになり、その結果、誤って文書画像上の表や文字列を欠損する不具合を解消することができる効果がある。   According to this invention, by counting the number of black pixels present in the document image for each vertical line, the count value of each vertical line is compared with the threshold value from the left and right ends of the document image toward the center, Since the roller noise area is determined up to a position where the count value becomes smaller than the threshold value, and a black pixel included in the roller noise area is replaced with a white pixel, the position of the roller noise is determined. As a result, there is an effect that it is possible to eliminate a problem that a table or character string on a document image is mistakenly lost.

実施の形態1.
図1はこの発明の実施の形態1による文字認識装置を示す構成図であり、図において、11はファクシミリから文書画像が送信されると、ノイズ除去部12が使用するノイズ除去パラメータ(規定数)を設定するノイズ除去パラメータ設定部(パラメータ設定手段)、12は文書画像に存在するノイズを検出し、そのノイズを除去するノイズ除去部(ノイズ除去手段)、13はノイズ除去部12によりノイズが除去された文書画像に存在する文字を認識する文字認識部(文字認識手段)である。
Embodiment 1 FIG.
FIG. 1 is a block diagram showing a character recognition apparatus according to Embodiment 1 of the present invention. In FIG. 1, reference numeral 11 denotes a noise removal parameter (specified number) used by the noise removal unit 12 when a document image is transmitted from a facsimile. A noise removal parameter setting unit (parameter setting unit) 12 for setting the noise, a noise removing unit (noise removing unit) 12 for detecting and removing noise existing in the document image, and a noise removing unit 12 for removing the noise. A character recognition unit (character recognition means) for recognizing characters existing in the document image.

14は文書画像に存在する黒画素の個数を各横ライン毎に計数し、その計数結果に応じて各黒画素に点数を付与する点数付与部14aと、点数付与部14aにより付与された点数を各縦ライン毎に合計し、その合計点数が規定数より大きい縦ラインを縦ラインノイズと判定する縦ラインノイズ判定部14bと、縦ラインノイズ判定部14bにより縦ラインノイズと判定された縦ライン上にある黒画素を白画素に置換する縦ラインノイズ除去部14cとから構成される縦ラインノイズ処理部である(図2を参照)。   14 counts the number of black pixels present in the document image for each horizontal line, and assigns points to each black pixel according to the counting result, and the points given by the score granting unit 14a. A vertical line noise determination unit 14b that determines vertical line noise as a vertical line noise that is totaled for each vertical line and the total number of points is greater than a specified number, and a vertical line that is determined as vertical line noise by the vertical line noise determination unit 14b. 2 is a vertical line noise processing unit (see FIG. 2).

15は文書画像の局所領域に含まれる黒画素の個数が規定数より小さく、かつ、局所領域に含まれる黒画素の分布形状が方向性を有しない場合、局所領域の中心に位置する黒画素を孤立点ノイズと判定する孤立点ノイズ判定部15aと、孤立点ノイズ判定部15aにより孤立点ノイズと判定された黒画素を白画素に置換する孤立点ノイズ除去部15bとから構成される孤立点ノイズ処理部である(図4を参照)。   15 is a black pixel located at the center of the local area when the number of black pixels included in the local area of the document image is smaller than the specified number and the distribution shape of the black pixels included in the local area has no directionality. An isolated point noise comprising an isolated point noise determining unit 15a for determining as isolated point noise, and an isolated point noise removing unit 15b for replacing a black pixel determined to be an isolated point noise by the isolated point noise determining unit 15a with a white pixel. It is a processing unit (see FIG. 4).

16は文書画像の左右両端に位置するローラノイズ領域に含まれる黒画素を白画素に置換するローラノイズ除去部から構成されるローラノイズ処理部、17は文書画像に存在する黒画素の個数を各横ライン毎に計数し、黒画素の個数が1以上の横ラインに挟まれた黒画素の個数が零の横ライン群を回線ノイズと判定する回線ノイズ判定部17aと、回線ノイズ判定部17aにより回線ノイズと判定された横ライン群にある白画素のうち、横ライン群の上下に位置する画素の双方が黒画素である白画素を黒画素に置換する回線ノイズ除去部17bとから構成される回線ノイズ処理部である(図8を参照)。   Reference numeral 16 denotes a roller noise processing unit including a roller noise removing unit that replaces black pixels included in roller noise regions located at both left and right ends of the document image with white pixels, and 17 denotes the number of black pixels present in the document image. A line noise determination unit 17a that determines a line group of horizontal lines in which the number of black pixels sandwiched between horizontal lines having one or more black pixels is counted as line noise is counted for each horizontal line by the line noise determination unit 17a. Of the white pixels in the horizontal line group determined to be line noise, the line noise removing unit 17b replaces the white pixels, which are both black pixels, in the pixels located above and below the horizontal line group with black pixels. A line noise processing unit (see FIG. 8).

18は文書画像に存在する黒画素の個数を各縦ライン毎に計数し、黒画素の個数が1以上の縦ラインに挟まれた黒画素の個数が零の縦ライン群を受光器ノイズと判定する受光器ノイズ判定部18aと、受光器ノイズ判定部18aにより受光器ノイズと判定された縦ライン群にある白画素のうち、縦ライン群の左右に位置する画素の双方が黒画素である白画素を黒画素に置換する受光器ノイズ除去部18bとから構成される受光器ノイズ処理部である(図10を参照)。   Reference numeral 18 counts the number of black pixels existing in the document image for each vertical line, and determines that the vertical line group between the vertical lines with the number of black pixels being 1 or more and zero is the receiver noise. And the white pixels in the vertical line group determined as the photoreceiver noise by the photoreceiver noise determination unit 18a are white pixels in which both pixels located on the left and right of the vertical line group are black pixels. This is a photoreceiver noise processing unit including a photoreceiver noise removing unit 18b that replaces pixels with black pixels (see FIG. 10).

次に動作について説明する。
最初に、文字認識装置の動作概要を簡単に説明する。
まず、ファクシミリから文書画像が送信されると、ノイズ除去パラメータ設定部11が、ノイズ除去部12が使用するノイズ除去パラメータを設定する。
このノイズ除去パラメータは、ノイズ除去部12を構成する各ノイズ処理部が使用するパラメータであり、ノイズの除去量を調整する働きを有する。
Next, the operation will be described.
First, an outline of the operation of the character recognition apparatus will be briefly described.
First, when a document image is transmitted from a facsimile, the noise removal parameter setting unit 11 sets a noise removal parameter used by the noise removal unit 12.
The noise removal parameter is a parameter used by each noise processing unit constituting the noise removal unit 12, and has a function of adjusting the amount of noise removal.

そして、ノイズ除去部12は、ノイズ除去パラメータ設定部11がノイズ除去パラメータを設定すると、ノイズ除去パラメータに従って文書画像から各種のノイズを検出して除去する。ノイズ除去部12の詳細な動作は後述する。   Then, when the noise removal parameter setting unit 11 sets the noise removal parameter, the noise removal unit 12 detects and removes various types of noise from the document image according to the noise removal parameter. Detailed operation of the noise removing unit 12 will be described later.

そして、ノイズ除去部12が各種のノイズを除去すると、最後に、文字認識部13が、ノイズが除去された文書画像に対して、文書の解析処理(文字列や図表の抽出処理)や、その抽出された文字列の文字認識処理を実行し、文字の認識結果を外部に出力する。   When the noise removing unit 12 removes various types of noise, finally, the character recognizing unit 13 performs document analysis processing (character string and chart extraction processing) on the document image from which noise has been removed, The character recognition process of the extracted character string is executed, and the character recognition result is output to the outside.

次に、ノイズ除去部12の詳細な動作を説明する。
まず、ノイズ除去部12の縦ラインノイズ処理部14は、文書画像上にある縦ラインノイズを検出して、縦ラインノイズを文書画像から除去するものであるが、縦ラインノイズ処理部14の点数付与部14aは、文書画像に存在する黒画素の個数を各横ライン毎に計数し、各横ライン上に存在する黒画素の個数を求める処理を実行する。そして、点数付与部14aは、その計数結果に応じて各横ライン上に存在する黒画素に点数を付与する。
Next, the detailed operation of the noise removing unit 12 will be described.
First, the vertical line noise processing unit 14 of the noise removal unit 12 detects vertical line noise on the document image and removes the vertical line noise from the document image. The assigning unit 14a counts the number of black pixels present in the document image for each horizontal line, and executes a process for obtaining the number of black pixels present on each horizontal line. And the score provision part 14a provides a score to the black pixel which exists on each horizontal line according to the count result.

具体的には、各黒画素に付与する点数は計数結果に応じて付与するが、横ライン上に存在する黒画素の個数が少ない程大きな値とする。
したがって、文書画像の上下端にある余白領域等では、黒画素の個数が少ないため、その領域の黒画素に付与する点数は高いものとなる。
逆に、表や文字列領域を横切る横ラインには、多くの黒画素が存在するため、その横ライン上にある黒画素に付与する点数は低いものとなる。
Specifically, the number of points given to each black pixel is given according to the counting result, but is set to a larger value as the number of black pixels existing on the horizontal line is smaller.
Accordingly, since the number of black pixels is small in the blank areas at the upper and lower ends of the document image, the number of points assigned to the black pixels in that area is high.
On the contrary, since there are many black pixels in the horizontal line crossing the table and the character string area, the number of points given to the black pixels on the horizontal line is low.

この結果、縦ラインノイズの可能性が高い黒画素には高い点数が付与されることになるが、例えば、図12に示す文書画像の場合、余白領域等にある黒画素の大部分は領域A(領域Aは、横ライン上に殆ど黒画素が存在しない領域)に含まれ、領域Aに含まれる黒画素には高い点数が付与される。
一方、文字や表を構成する黒画素の大部分は領域B(領域Bは、横ライン上に多くの黒画素が存在する領域)に含まれ、領域Bに含まれる黒画素には低い点数が付与される。
As a result, a high score is given to the black pixels having a high possibility of vertical line noise. For example, in the case of the document image shown in FIG. 12, most of the black pixels in the blank area etc. (Area A is an area where there are almost no black pixels on the horizontal line), and a high score is given to the black pixels included in area A.
On the other hand, most of the black pixels constituting the character and the table are included in the region B (the region B is a region where many black pixels exist on the horizontal line), and the black pixels included in the region B have a low score. Is granted.

なお、点数付与部14aは、通常の縦ラインノイズの幅は数ドット程度であり、縦ラインノイズを構成する各黒画素の左右は両方とも白画素である可能性が高いので、各黒画素の左右にある画素が両方とも白画素である場合、その黒画素には点数を追加する。その結果、縦ラインノイズの可能性が高い黒画素には高い点数が付与されることになる。
例えば、図12に示す文書画像の場合、線幅が1画素の縦ラインノイズN1,N3上にある黒画素の左右は大半が両方とも白画素であるため、縦ラインノイズN1,N3を構成する黒画素には点数が追加されることになる。
Note that the score giving unit 14a has a normal vertical line noise width of about several dots, and it is highly possible that both the left and right sides of each black pixel constituting the vertical line noise are white pixels. When both the left and right pixels are white pixels, points are added to the black pixels. As a result, a high score is given to a black pixel having a high possibility of vertical line noise.
For example, in the case of the document image shown in FIG. 12, the left and right of the black pixels on the vertical line noise N1, N3 having a line width of 1 pixel are mostly white pixels, so that the vertical line noises N1, N3 are formed. Points are added to the black pixels.

そして、縦ラインノイズ判定部14bは、点数付与部14aが各黒画素に点数を付与すると、文書画像の縦ライン毎に、縦ライン上に存在する黒画素の点数を合計し、その合計点数がパラメータTHより大きい縦ラインを縦ラインノイズと判定する。
ただし、縦ラインノイズの幅は通常数ライン程度であるため、合計点数がパラメータTHより大きい縦ラインがn本以上隣接する場合は、それらの縦ラインが縦ラインノイズでないと判定する。
Then, when the score assigning unit 14a gives a score to each black pixel, the vertical line noise determination unit 14b adds up the scores of the black pixels existing on the vertical line for each vertical line of the document image, and the total score is A vertical line larger than the parameter TH is determined as vertical line noise.
However, since the width of the vertical line noise is usually about several lines, when n or more vertical lines having a total score greater than the parameter TH are adjacent, it is determined that those vertical lines are not vertical line noise.

なお、図12に示す文書画像の場合、N1,N2,N3,N4の縦ラインの合計点数がパラメータTHより大きいので、N1〜N4の縦ラインを縦ラインノイズと判定される。
ここで、パラメータTHとnはノイズ除去パラメータであり、ノイズ除去パラメータ設定部11により設定された値である。
In the case of the document image shown in FIG. 12, since the total number of vertical lines N1, N2, N3, and N4 is larger than the parameter TH, the vertical lines N1 to N4 are determined as vertical line noise.
Here, the parameters TH and n are noise removal parameters, and are values set by the noise removal parameter setting unit 11.

そして、縦ラインノイズ除去部14cは、縦ラインノイズ判定部14bが縦ラインノイズを判定すると、縦ラインノイズと判定された縦ライン上にある黒画素を白画素に置換する。
ただし、縦ラインノイズと判定された縦ライン上にある黒画素と同じ横ライン上で、縦ラインノイズの左右に接する画素が両方とも黒画素の場合には、その縦ライン上にある黒画素を文字や罫線の一部であると考えて、白画素には置換しない。
Then, when the vertical line noise determination unit 14b determines vertical line noise, the vertical line noise removal unit 14c replaces black pixels on the vertical line determined to be vertical line noise with white pixels.
However, if both of the pixels that touch the left and right of the vertical line noise are black pixels on the same horizontal line as the black pixels on the vertical line determined as vertical line noise, the black pixels on the vertical line are Think of it as part of a character or ruled line and do not replace it with white pixels.

なお、図3は縦ラインノイズ処理部14による文書画像の処理例を示し、図において、301は縦ラインノイズ除去前の文書画像であり、302は縦ラインノイズ除去後の文書画像である。
縦ラインノイズ除去後の文書画像302では、文字と表罫線が欠損することなく、縦ラインノイズが除去されている。
FIG. 3 shows an example of processing of a document image by the vertical line noise processing unit 14. In FIG. 3, 301 is a document image before vertical line noise removal, and 302 is a document image after vertical line noise removal.
In the document image 302 after removing the vertical line noise, the vertical line noise is removed without loss of characters and table ruled lines.

次に、ノイズ除去部12の孤立点ノイズ処理部15は、文書画像上にある孤立点ノイズを検出して、孤立点ノイズを文書画像から除去するものであるが、孤立点ノイズ処理部15の孤立点ノイズ判定部15aは、文書画像に存在する各黒画素を調べて、各黒画素が孤立点ノイズであるか否かを判定する。   Next, the isolated point noise processing unit 15 of the noise removing unit 12 detects isolated point noise on the document image and removes the isolated point noise from the document image. The isolated point noise determination unit 15a examines each black pixel present in the document image and determines whether each black pixel is isolated point noise.

具体的には、黒画素を中心とする局所領域(例えば、5×5画素領域)に含まれる黒画素の個数を調べ、その黒画素の個数がM個以下の場合には、中心の黒画素が孤立ノイズであると判定する。
ここで、Mはノイズ除去パラメータであり、ノイズ除去パラメータ設定部11により設定された値である。
Specifically, the number of black pixels included in a local region (for example, a 5 × 5 pixel region) centered on the black pixel is checked, and when the number of black pixels is M or less, the central black pixel Is isolated noise.
Here, M is a noise removal parameter, and is a value set by the noise removal parameter setting unit 11.

ただし、文字や罫線を構成する黒画素は、図5に示すように、局所的な方向性を有することが知られているので、局所領域内の黒画素の分布が、図5に示す何れかのパターンに一致する場合には、局所領域に含まれる黒画素の個数がM個以下でも、中心の黒画素を孤立点ノイズでないと判定する。
なお、図5において、501は縦の方向性を有する黒画素の分布、502は横の方向性を有する黒画素の分布、503は斜めの方向性を有する黒画素の分布である。
However, since the black pixels constituting the characters and ruled lines are known to have local directionality as shown in FIG. 5, the distribution of the black pixels in the local region is one of those shown in FIG. When the number of black pixels included in the local region is M or less, the central black pixel is determined not to be isolated point noise.
In FIG. 5, 501 is a distribution of black pixels having a vertical directionality, 502 is a distribution of black pixels having a horizontal directionality, and 503 is a distribution of black pixels having an oblique directionality.

そして、孤立点ノイズ除去部15bは、孤立点ノイズ判定部15aが孤立点ノイズを判定すると、孤立点ノイズと判定された黒画素を白画素に置換する。
なお、図6は孤立点ノイズ処理部15による文書画像の処理例を示し、図において、601は孤立点ノイズ除去前の文書画像であり、602は孤立点ノイズ除去後の文書画像である。
孤立点ノイズ除去後の文書画像602では、文字と表罫線が欠損することなく、孤立点ノイズが除去されている。
Then, when the isolated point noise determination unit 15a determines the isolated point noise, the isolated point noise removing unit 15b replaces the black pixel determined to be the isolated point noise with the white pixel.
FIG. 6 shows an example of processing of a document image by the isolated point noise processing unit 15. In the figure, reference numeral 601 denotes a document image before removing isolated point noise, and 602 denotes a document image after removing isolated point noise.
In the document image 602 after the isolated point noise is removed, the isolated point noise is removed without loss of characters and table ruled lines.

次に、ノイズ除去部12のローラノイズ処理部16は、文書画像上にあるローラノイズを文書画像から除去するものであるが、具体的には、文書画像の左右両端から中心に向かってX画素内の領域をローラノイズが含まれる領域(以下、ローラノイズ領域という)と考え、ローラノイズ領域に含まれる黒画素を白画素に置換する。
ここで、Xはノイズ除去パラメータであり、ノイズ除去パラメータ設定部11により設定された値である。
Next, the roller noise processing unit 16 of the noise removing unit 12 removes the roller noise on the document image from the document image. Specifically, the X pixel from the left and right ends of the document image toward the center. The inner area is considered as an area including roller noise (hereinafter referred to as roller noise area), and black pixels included in the roller noise area are replaced with white pixels.
Here, X is a noise removal parameter, which is a value set by the noise removal parameter setting unit 11.

なお、図7はローラノイズ処理部16による文書画像の処理例を示し、図において、701はローラノイズ除去前の文書画像であり、702はローラノイズ除去後の文書画像である。
ローラノイズ除去後の文書画像702では、文書画像の両端にあったローラノイズが除去されている。
FIG. 7 shows an example of processing of a document image by the roller noise processing unit 16. In FIG. 7, reference numeral 701 denotes a document image before roller noise removal, and reference numeral 702 denotes a document image after roller noise removal.
In the document image 702 after removing the roller noise, the roller noise at both ends of the document image is removed.

次に、ノイズ除去部12の回線ノイズ処理部17は、文書画像上にある回線ノイズを検出して、回線ノイズを文書画像から除去するものであるが、回線ノイズ処理部17の回線ノイズ判定部17aは、文書画像の横ライン毎に、横ライン上にある黒画素の個数を調べる処理を実行する。   Next, the line noise processing unit 17 of the noise removing unit 12 detects line noise on the document image and removes the line noise from the document image. 17a executes a process of checking the number of black pixels on the horizontal line for each horizontal line of the document image.

そして、回線ノイズ判定部17aは、黒画素の個数が零の横ラインのうち、黒画素の個数が1以上の横ラインに挟まれた横ラインを回線ノイズと判定する。
ただし、回線ノイズの幅は通常数ライン程度であるため、黒画素の個数が零の横ラインがY本以上隣接する場合は、それらの横ラインを回線ノイズでないと判定する。
Then, the line noise determination unit 17a determines that the horizontal line sandwiched between the horizontal lines having the number of black pixels of 1 or more among the horizontal lines having the number of black pixels of zero is the line noise.
However, since the width of the line noise is usually about several lines, when Y or more horizontal lines with zero black pixels are adjacent to each other, it is determined that the horizontal lines are not line noise.

なお、図13に示す文書画像の場合、黒画素の個数が零の横ラインが複数本隣接しているが、隣接する本数がY本未満であるので、横ライン群Cを回線ノイズと判定している。
ここで、Yはノイズ除去パラメータであり、ノイズ除去パラメータ設定部11により設定された値である。
In the case of the document image shown in FIG. 13, a plurality of horizontal lines with zero black pixels are adjacent to each other. However, since the number of adjacent lines is less than Y, the horizontal line group C is determined as line noise. ing.
Here, Y is a noise removal parameter, which is a value set by the noise removal parameter setting unit 11.

そして、回線ノイズ除去部17bは、回線ノイズ判定部17aが回線ノイズを判定すると、文書画像から回線ノイズを除去する。
具体的には、回線ノイズの上下に接する画素が両方とも黒画素である場合、回線ノイズにより文字や罫線の一部が欠損したものと考え、その回線ノイズの上下に接する黒画素を繋ぐように、回線ノイズ上の白画素を黒画素に置換する。
Then, the line noise removing unit 17b removes the line noise from the document image when the line noise determining unit 17a determines the line noise.
Specifically, if both pixels that are in contact with the line noise are black pixels, it is considered that part of the characters and ruled lines are lost due to the line noise, and the black pixels that are in contact with the line noise are connected. The white pixel on the line noise is replaced with the black pixel.

なお、図9は回線ノイズ処理部17による文書画像の処理例を示し、図において、901は回線ノイズ除去前の文書画像であり、902は回線ノイズ除去後の文書画像である。
回線ノイズ除去後の文書画像902では、回線ノイズによる文字と表罫線の欠損が補正されている。
FIG. 9 shows an example of document image processing by the line noise processing unit 17, in which 901 is a document image before line noise removal, and 902 is a document image after line noise removal.
In the document image 902 after removal of the line noise, the loss of characters and table ruled lines due to the line noise is corrected.

次に、ノイズ除去部12の受光器ノイズ処理部18は、文書画像上にある受光器ノイズを検出して、受光器ノイズを文書画像から除去するものであるが、受光器ノイズ処理部18の受光器ノイズ判定部18aは、文書画像の縦ライン毎に、縦ライン上にある黒画素の個数を調べる処理を実行する。   Next, the receiver noise processing unit 18 of the noise removing unit 12 detects the receiver noise on the document image and removes the receiver noise from the document image. The photoreceiver noise determination unit 18a performs a process of checking the number of black pixels on the vertical line for each vertical line of the document image.

そして、受光器ノイズ判定部18aは、黒画素の個数が零の縦ラインのうち、黒画素の個数が1以上の縦ラインに挟まれた縦ラインを受光器ノイズと判定する。
ただし、受光器ノイズの幅は通常数ライン程度であるため、黒画素の個数が零の縦ラインがZ本以上隣接する場合は、それらの縦ラインを受光器ノイズでないと判定する。
Then, the light receiver noise determination unit 18a determines a vertical line sandwiched between vertical lines with one or more black pixels among vertical lines with zero black pixels as light receiver noise.
However, since the width of the photoreceiver noise is usually about several lines, when there are Z or more vertical lines with zero black pixels, it is determined that these vertical lines are not photoreceiver noise.

なお、図14に示す文書画像の場合、黒画素の個数が零の縦ラインが複数本隣接しているが、隣接する本数がZ本未満であるので、縦ライン群Dを受光器ノイズと判定している。
ここで、Zはノイズ除去パラメータであり、ノイズ除去パラメータ設定部11により設定された値である。
In the case of the document image shown in FIG. 14, a plurality of vertical lines with zero black pixels are adjacent to each other, but the number of adjacent lines is less than Z, so that the vertical line group D is determined to be receiver noise. is doing.
Here, Z is a noise removal parameter, which is a value set by the noise removal parameter setting unit 11.

そして、受光器ノイズ除去部18bは、受光器ノイズ判定部18aが受光器ノイズを判定すると、文書画像から受光器ノイズを除去する。
具体的には、受光器ノイズの左右に接する画素が両方とも黒画素である場合、受光器ノイズにより文字や罫線の一部が欠損したものと考え、その受光器ノイズの左右に接する黒画素を繋ぐように、受光器ノイズ上の白画素を黒画素に置換する。
The photoreceiver noise removing unit 18b removes the photoreceiver noise from the document image when the photoreceiver noise determining unit 18a determines the photoreceiver noise.
Specifically, if both pixels that touch the left and right sides of the receiver noise are black pixels, it is considered that part of the characters and ruled lines are lost due to the receiver noise, and the black pixels that touch the left and right sides of the receiver noise are The white pixels on the receiver noise are replaced with black pixels so that they are connected.

なお、図11は受光器ノイズ処理部18による文書画像の処理例を示し、図において、1101は受光器ノイズ除去前の文書画像であり、1102は受光器ノイズ除去後の文書画像である。
受光器ノイズ除去後の文書画像1102では、受光器ノイズによる文字と表罫線の欠損が補正されている。
FIG. 11 shows an example of document image processing by the photoreceiver noise processing unit 18. In the figure, reference numeral 1101 denotes a document image before the photoreceiver noise is removed, and 1102 denotes a document image after the photoreceiver noise is removed.
In the document image 1102 after the light receiver noise is removed, the loss of characters and ruled lines due to the light receiver noise is corrected.

以上で明らかなように、この実施の形態1によれば、文書画像に存在する黒画素の個数を各横ライン毎に計数し、その計数結果に応じて各黒画素に点数を付与するとともに、各縦ライン毎に点数を合計して、その合計点数がパラメータTHより大きい縦ラインを縦ラインノイズと判定するように構成したので、予め、文書画像上で白画素であるべき領域が分からない場合でも、縦ラインノイズの検出精度を高めることができる効果を奏する。   As apparent from the above, according to the first embodiment, the number of black pixels present in the document image is counted for each horizontal line, and a score is assigned to each black pixel according to the counting result. When the total number of points for each vertical line is summed up and the vertical line whose total score is greater than the parameter TH is determined to be vertical line noise, the area that should be white pixels on the document image is not known in advance. However, there is an effect that the detection accuracy of vertical line noise can be improved.

また、この実施の形態1によれば、文書画像の局所領域に含まれる黒画素の個数がM個より小さく、かつ、局所領域に含まれる黒画素の分布形状が方向性を有しない場合、局所領域の中心に位置する黒画素を孤立点ノイズと判定するように構成したので、文書画像上にある連結黒画素を求めることなく、孤立点ノイズを判定することができるようになり、その結果、速やかに孤立点ノイズを除去することができる効果を奏する。   Further, according to the first embodiment, when the number of black pixels included in the local area of the document image is smaller than M and the distribution shape of the black pixels included in the local area has no directionality, Since the black pixel positioned at the center of the region is determined to be isolated point noise, it is possible to determine isolated point noise without obtaining a connected black pixel on the document image, and as a result, There is an effect that the isolated point noise can be quickly removed.

さらに、この実施の形態1によれば、ローラノイズ処理部16,回線ノイズ処理部17及び受光器ノイズ処理部18を備えるように構成したので、縦ラインノイズや孤立点ノイズに限らず、ローラノイズ,回線ノイズ及び受光器ノイズを除去することができる効果を奏する。   Furthermore, according to the first embodiment, since the roller noise processing unit 16, the line noise processing unit 17, and the light receiver noise processing unit 18 are provided, not only vertical line noise and isolated point noise but also roller noise. , Line noise and light receiver noise can be removed.

実施の形態2.
図15はこの発明の実施の形態2による文字認識装置のローラノイズ処理部16の詳細構成を示す構成図であり、図において、16aは文書画像に存在する黒画素の個数を各縦ライン毎に計数し、その計数結果に基づいてローラノイズ領域を判定するローラノイズ判定部、16bは文書画像の左右両端に位置するローラノイズ領域に含まれる黒画素を白画素に置換するローラノイズ除去部である。
Embodiment 2. FIG.
FIG. 15 is a block diagram showing a detailed configuration of the roller noise processing unit 16 of the character recognition apparatus according to the second embodiment of the present invention. In the figure, 16a indicates the number of black pixels existing in the document image for each vertical line. A roller noise determination unit that counts and determines a roller noise region based on the counting result, and 16b is a roller noise removal unit that replaces black pixels included in the roller noise regions located at the left and right ends of the document image with white pixels. .

次に動作について説明する。
上記実施の形態1では、文書画像の左右両端から中心に向かってX画素内の領域をローラノイズ領域と考えてローラノイズを除去する方式を示したが、この方式ではローラノイズの位置が正確に分からないため、文字や表の一部も除去する可能性がある。
そこで、この実施の形態2では、予め、ローラノイズ領域を判定して、ローラノイズを除去するようにする。
Next, the operation will be described.
In the first embodiment, a method of removing roller noise by considering an area within the X pixel from the left and right ends of the document image to the center as a roller noise region has been described. In this method, the position of the roller noise is accurately determined. Since it is not known, there is a possibility of removing a part of characters and a table.
Therefore, in the second embodiment, the roller noise area is determined in advance to remove the roller noise.

具体的には、ローラノイズ処理部16のローラノイズ判定部16aは、図16に示すように、文書画像の左右両端から中心に向かってG画素内の領域をローラノイズ領域と為り得る領域と考えて、その領域内部における縦ライン上の黒画素の個数を調べる処理を実行する。   Specifically, as shown in FIG. 16, the roller noise determination unit 16a of the roller noise processing unit 16 has an area in the G pixel that can be a roller noise area from the left and right ends of the document image toward the center. Considering this, a process for checking the number of black pixels on the vertical line in the area is executed.

ただし、縦ラインが有する黒画素の個数の変化を大局的に捕らえるため、黒画素の個数に平滑化処理を適用して、隣接する縦ラインが有する黒画素の個数が大きく異ならないようにする。
例えば、図16の1301はローラノイズ除去前の文書画像であり、1302はこの文書画像から作成した平滑化後の黒画素分布である。
However, since a change in the number of black pixels in a vertical line is captured globally, a smoothing process is applied to the number of black pixels so that the number of black pixels in adjacent vertical lines does not vary greatly.
For example, 1301 in FIG. 16 is a document image before roller noise removal, and 1302 is a smoothed black pixel distribution created from this document image.

そして、ローラノイズ判定部16aは、文書画像の左右両端より中心に向かって平滑化後の黒画素分布1302を調査し、縦ライン上の黒画素の個数が閾値Wより小さくなる位置までをローラノイズ領域と判定する。
この結果、図16の領域1303がローラノイズ領域と判定される。
ここで、GとWはノイズ除去パラメータであり、ノイズ除去パラメータ設定部11により設定された値である。
Then, the roller noise determination unit 16a investigates the black pixel distribution 1302 after smoothing from the left and right ends of the document image toward the center, and until the position where the number of black pixels on the vertical line is smaller than the threshold W, the roller noise is detected. It is determined as an area.
As a result, the area 1303 in FIG. 16 is determined as the roller noise area.
Here, G and W are noise removal parameters, which are values set by the noise removal parameter setting unit 11.

そして、ローラノイズ除去部16bは、ローラノイズ判定部16aがローラノイズ領域を判定すると、ローラノイズ領域に含まれる黒画素を白画素に置換して、文書画像からローラノイズを除去する。   Then, when the roller noise determination unit 16a determines the roller noise region, the roller noise removal unit 16b replaces black pixels included in the roller noise region with white pixels and removes roller noise from the document image.

以上で明らかなように、この実施の形態2によれば、文書画像に存在する黒画素の個数を各縦ライン毎に計数し、その計数結果に基づいてローラノイズ領域を判定するように構成したので、ローラノイズの位置を正確に求めることができるようになり、その結果、誤って文書画像上の表や文字列を欠損する不具合を解消することができる効果を奏する。   As is apparent from the above, according to the second embodiment, the number of black pixels existing in the document image is counted for each vertical line, and the roller noise area is determined based on the counting result. As a result, the position of the roller noise can be accurately obtained, and as a result, it is possible to eliminate the problem of erroneously losing a table or character string on the document image.

実施の形態3.
図17はこの発明の実施の形態3による文字認識装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
19は文字認識部13が文字認識に失敗すると、ノイズ除去パラメータ設定部11に対してノイズ除去パラメータの変更を指示する再処理判定部(再処理判定手段)である。
Embodiment 3 FIG.
FIG. 17 is a block diagram showing a character recognition apparatus according to Embodiment 3 of the present invention. In the figure, the same reference numerals as those in FIG.
Reference numeral 19 denotes a reprocessing determination unit (reprocessing determination unit) that instructs the noise removal parameter setting unit 11 to change the noise removal parameter when the character recognition unit 13 fails in character recognition.

次に動作について説明する。
上記実施の形態1,2では、文書画像に対してノイズ除去処理が一度だけ適用されるため、ノイズが多い文書画像ではノイズを除去しきれない場合があった。
このように多量のノイズを含む文書画像を文字認識部13に与えると、文字認識部13は、文書画像が処理不能と判断してエラーを返す場合がある。
Next, the operation will be described.
In the first and second embodiments, since the noise removal process is applied only once to the document image, the noise may not be completely removed from the document image having a lot of noise.
When a document image including a large amount of noise is given to the character recognition unit 13 in this manner, the character recognition unit 13 may determine that the document image cannot be processed and return an error.

例えば、文字認識部13が、ある定型文書を処理する場合、ノイズを含む文書画像と定型文書とが形状的に異なるために、文書画像が所望の定型文書でないと判断してエラーを返すことがあり、この場合には、文字の認識結果を出力することができなくなる不具合を生じる。   For example, when the character recognition unit 13 processes a certain standard document, the document image including noise and the standard document are different in shape, so that it is determined that the document image is not a desired standard document and an error is returned. In this case, there is a problem that the result of character recognition cannot be output.

そこで、この実施の形態3では、多量のノイズを含む文書画像からも文字を認識して、文字の認識結果を出力することができるようにするため、文字認識部13からエラーが返された場合には、ノイズ除去パラメータ設定部11に対してノイズ除去パラメータの変更を指示するようにする。   Therefore, in the third embodiment, when an error is returned from the character recognition unit 13 so that a character can be recognized even from a document image including a large amount of noise and a character recognition result can be output. In this case, the noise removal parameter setting unit 11 is instructed to change the noise removal parameter.

具体的には、再処理判定部19は、文字認識部13が文字の認識処理を実行して、文字の認識結果を出力する場合には、その認識結果を外部出力するが、文字の認識に失敗してエラーを出力する場合には、ノイズ除去パラメータ設定部11に対してノイズ除去パラメータの変更を指示する。   Specifically, when the character recognition unit 13 executes character recognition processing and outputs a character recognition result, the reprocessing determination unit 19 outputs the recognition result to the outside. When the error is output upon failure, the noise removal parameter setting unit 11 is instructed to change the noise removal parameter.

これにより、ノイズ除去パラメータ設定部11は、より多くのノイズを除去できるようにするため、ノイズ除去パラメータの値を変更し、ノイズ除去部12が再度、ノイズの除去処理を実行する。
文字認識部13でエラーが生じなくなるまで、以上の処理を最大R回繰り返し実行する。
Thereby, the noise removal parameter setting unit 11 changes the value of the noise removal parameter so that more noise can be removed, and the noise removal unit 12 executes the noise removal process again.
The above processing is repeatedly executed a maximum of R times until no error occurs in the character recognition unit 13.

以上で明らかなように、この実施の形態3によれば、文字認識部13が文字認識に失敗すると、ノイズ除去パラメータ設定部11に対してノイズ除去パラメータの変更を指示するように構成したので、多量のノイズを含む文書画像からも文字の認識結果を得ることができる効果を奏する。   As apparent from the above, according to the third embodiment, when the character recognition unit 13 fails in character recognition, the noise removal parameter setting unit 11 is instructed to change the noise removal parameter. There is an effect that a character recognition result can be obtained from a document image including a large amount of noise.

実施の形態4.
図18はこの発明の実施の形態4による文字認識装置を示す構成図であり、図において、図17と同一符号は同一または相当部分を示すので説明を省略する。
図において、20は文字認識部13が文字認識に成功すると、文書画像の送信先の電話番号とノイズ除去パラメータ設定部11により設定されたノイズ除去パラメータを登録するバッファ(登録手段)である。
Embodiment 4 FIG.
18 is a block diagram showing a character recognition apparatus according to Embodiment 4 of the present invention. In the figure, the same reference numerals as those in FIG.
In the figure, reference numeral 20 denotes a buffer (registration means) for registering the telephone number of the transmission destination of the document image and the noise removal parameter set by the noise removal parameter setting unit 11 when the character recognition unit 13 succeeds in character recognition.

次に動作について説明する。
上記実施の形態3では、文字認識部13が文字の認識処理に成功すると、再処理判定部19が文字の認識結果を外部出力するものについて示したが、再処理判定部19が文字の認識結果を外部出力するとともに、文書画像の送信先の電話番号に対応付けてノイズ除去パラメータ設定部11により設定されたノイズ除去パラメータをバッファ20に登録する。
Next, the operation will be described.
In the third embodiment, the reprocessing determination unit 19 outputs the character recognition result when the character recognition unit 13 succeeds in the character recognition processing. However, the reprocessing determination unit 19 performs the character recognition result. And the noise removal parameter set by the noise removal parameter setting unit 11 in association with the destination telephone number of the document image is registered in the buffer 20.

そして、ノイズ除去パラメータ設定部11は、以降、別の文書画像がファクシミリから送信されると、その文書画像の送信元の電話番号に対応するノイズ除去パラメータをバッファ20から読み込み、そのノイズ除去パラメータをノイズ除去部12に出力する。   Subsequently, when another document image is transmitted from the facsimile, the noise removal parameter setting unit 11 reads the noise removal parameter corresponding to the telephone number of the transmission source of the document image from the buffer 20, and sets the noise removal parameter. Output to the noise removal unit 12.

これにより、ノイズ除去部12は、文字認識部13が文字の認識処理に成功したときのノイズ除去パラメータを使用することになるが、文書画像に含まれるノイズの特性(ノイズの量や種類)は、文書画像の送信元のファクシミリに依存することが多いので、このことはノイズ除去の最適化と考えられる。   As a result, the noise removal unit 12 uses the noise removal parameter when the character recognition unit 13 succeeds in the character recognition process. However, the noise characteristics (amount and type of noise) included in the document image are as follows. Since this often depends on the facsimile of the document image transmission source, this is considered to be optimization of noise removal.

以上で明らかなように、この実施の形態4によれば、別の文書画像がファクシミリから送信されると、その文書画像の送信元の電話番号に対応するノイズ除去パラメータをバッファ20から読み込み、そのノイズ除去パラメータをノイズ除去部12に出力するように構成したので、ノイズ除去の最適化が図られるようになり、その結果、文書画像に存在するノイズを効果的に除去することができる効果を奏する。   As apparent from the above, according to the fourth embodiment, when another document image is transmitted from the facsimile, the noise removal parameter corresponding to the telephone number of the document image transmission source is read from the buffer 20, and the Since the noise removal parameter is configured to be output to the noise removal unit 12, it is possible to optimize the noise removal, and as a result, it is possible to effectively remove the noise present in the document image. .

実施の形態5.
図19はこの発明の実施の形態5による文字認識装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
図において、21はノイズ除去部12により除去されたノイズの量を示すノイズ評価値を算出するノイズ評価部(ノイズ評価手段)、22はノイズ評価部21により算出されたノイズ評価値が閾値より大きくなると、ファクシミリのメンテナンスを促すメッセージを当該文書画像の送信元に返送するとともに、文字認識部13による認識結果の確認を促すメッセージを提示するノイズ警告部(メッセージ返送手段、警告手段)である。
Embodiment 5 FIG.
19 is a block diagram showing a character recognition apparatus according to Embodiment 5 of the present invention. In the figure, the same reference numerals as those in FIG.
In the figure, 21 is a noise evaluation unit (noise evaluation means) that calculates a noise evaluation value indicating the amount of noise removed by the noise removal unit 12, and 22 is a noise evaluation value calculated by the noise evaluation unit 21 that is greater than a threshold value. Then, a noise warning unit (message return unit, warning unit) that returns a message prompting maintenance of the facsimile to the transmission source of the document image and presenting a message prompting confirmation of the recognition result by the character recognition unit 13.

次に動作について説明する。
上記実施の形態1〜4では、文字認識部13による文字の認識結果を外部出力するものについて示したが、文書画像に存在するノイズの量を検出して、種々のメッセージを返送等するようにしてもよい。
Next, the operation will be described.
In the first to fourth embodiments, the character recognition result obtained by the character recognition unit 13 is output externally. However, the amount of noise present in the document image is detected, and various messages are returned. May be.

具体的には、ノイズ評価部21は、ノイズ除去部12により文書画像から除去されたノイズの量を示すノイズ評価値を算出する。
例えば、ノイズ評価値は、縦ラインノイズの本数と、孤立点ノイズと判定された黒画素の個数と、ローラノイズと判定された領域の面積と、回線ノイズの本数と、受光器ノイズの本数との線形和で現すことができる。なお、ノイズ評価値はノイズの量が多いほど大きな値を取る。
Specifically, the noise evaluation unit 21 calculates a noise evaluation value indicating the amount of noise removed from the document image by the noise removal unit 12.
For example, the noise evaluation value includes the number of vertical line noises, the number of black pixels determined as isolated point noise, the area of the area determined as roller noise, the number of line noises, and the number of receiver noises. It can be expressed as a linear sum of Note that the noise evaluation value increases as the amount of noise increases.

そして、ノイズ警告部22は、ノイズ評価部21がノイズ評価値を算出すると、そのノイズ評価値を所定の閾値と比較し、ノイズ評価値が閾値よりも大きい場合には、当該文書画像の送信元に対して、ファクシミリの清掃や修理を促すメッセージを返送する。   Then, when the noise evaluation unit 21 calculates the noise evaluation value, the noise warning unit 22 compares the noise evaluation value with a predetermined threshold, and when the noise evaluation value is larger than the threshold, the transmission source of the document image In response, a message prompting the user to clean or repair the facsimile is returned.

また、ノイズ警告部22は、ノイズ評価値が閾値よりも大きい場合には、文字認識部13による文字認識に誤りがある可能性が高いので、その認識結果の検査や修正を促すメッセージを文字認識装置のオペレータに対して出力する。   In addition, when the noise evaluation value is larger than the threshold value, the noise warning unit 22 has a high possibility that there is an error in character recognition by the character recognition unit 13, so that a message that prompts inspection and correction of the recognition result is recognized. Output to the operator of the device.

以上で明らかなように、この実施の形態5によれば、ノイズ評価部21により算出されたノイズ評価値が閾値より大きくなると、ファクシミリのメンテナンスを促すメッセージを当該文書画像の送信元に返送するように構成したので、多量のノイズが付与される送信元のファクシミリのメンテナンスが促され、メンテナンスが実行される場合にはノイズ量が軽減される効果を奏する。   As is apparent from the above, according to the fifth embodiment, when the noise evaluation value calculated by the noise evaluation unit 21 is larger than the threshold value, a message for prompting maintenance of the facsimile is returned to the transmission source of the document image. Thus, the maintenance of the transmission source facsimile to which a large amount of noise is applied is promoted, and when the maintenance is executed, the amount of noise is reduced.

また、この実施の形態5によれば、ノイズ評価部21により算出されたノイズ評価値が閾値より大きくなると、文字認識部13による認識結果の確認を促すメッセージを提示するように構成したので、文字認識装置のオペレータは、文字認識部13による認識結果を必要に応じて修正等することができる効果を奏する。   Further, according to the fifth embodiment, when the noise evaluation value calculated by the noise evaluation unit 21 is larger than the threshold value, the message that prompts the character recognition unit 13 to confirm the recognition result is presented. The operator of the recognition apparatus can effectively correct the recognition result by the character recognition unit 13 as necessary.

この発明の実施の形態1による文字認識装置を示す構成図である。It is a block diagram which shows the character recognition apparatus by Embodiment 1 of this invention. 縦ラインノイズ処理部の詳細構成を示す構成図である。It is a block diagram which shows the detailed structure of a vertical line noise process part. 縦ラインノイズの除去結果を示す説明図である。It is explanatory drawing which shows the removal result of vertical line noise. 孤立点ノイズ処理部の詳細構成を示す構成図である。It is a block diagram which shows the detailed structure of an isolated point noise process part. 黒画素分布の方向性を説明する説明図である。It is explanatory drawing explaining the directivity of black pixel distribution. 孤立点ノイズの除去結果を示す説明図である。It is explanatory drawing which shows the removal result of an isolated point noise. ローラノイズの除去結果を示す説明図である。It is explanatory drawing which shows the removal result of roller noise. 回線ノイズ処理部の詳細構成を示す構成図である。It is a block diagram which shows the detailed structure of a line noise process part. 回線ノイズの除去結果を示す説明図である。It is explanatory drawing which shows the removal result of a line noise. 受光器ノイズ処理部の詳細構成を示す構成図である。It is a block diagram which shows the detailed structure of a light receiver noise process part. 受光器ノイズの除去結果を示す説明図である。It is explanatory drawing which shows the removal result of light receiver noise. 縦ラインノイズ処理部の動作を説明する説明図である。It is explanatory drawing explaining operation | movement of a vertical line noise process part. 回線ノイズ処理部の動作を説明する説明図である。It is explanatory drawing explaining operation | movement of a line noise process part. 受光器ノイズ処理部の動作を説明する説明図である。It is explanatory drawing explaining operation | movement of a light receiver noise process part. この発明の実施の形態2による文字認識装置のローラノイズ処理部の詳細構成を示す構成図である。It is a block diagram which shows the detailed structure of the roller noise process part of the character recognition apparatus by Embodiment 2 of this invention. ローラノイズの除去結果を示す説明図である。It is explanatory drawing which shows the removal result of roller noise. この発明の実施の形態3による文字認識装置を示す構成図である。It is a block diagram which shows the character recognition apparatus by Embodiment 3 of this invention. この発明の実施の形態4による文字認識装置を示す構成図である。It is a block diagram which shows the character recognition apparatus by Embodiment 4 of this invention. この発明の実施の形態5による文字認識装置を示す構成図である。It is a block diagram which shows the character recognition apparatus by Embodiment 5 of this invention. 従来の文字認識装置を示す構成図である。It is a block diagram which shows the conventional character recognition apparatus.

符号の説明Explanation of symbols

11 ノイズ除去パラメータ設定部(パラメータ設定手段)、12 ノイズ除去部(ノイズ除去手段)、13 文字認識部(文字認識手段)、14a 点数付与部、14b 縦ラインノイズ判定部、14c 縦ラインノイズ除去部、15a 孤立点ノイズ判定部、15b 孤立点ノイズ除去部、16a ローラノイズ判定部、16b ローラノイズ除去部、17a 回線ノイズ判定部、17b 回線ノイズ除去部、18a 受光器ノイズ判定部、18b 受光器ノイズ除去部、19 再処理判定部(再処理判定手段)、20 バッファ(登録手段)、21 ノイズ評価部(ノイズ評価手段)、22 ノイズ警告部(メッセージ返送手段、警告手段)。   DESCRIPTION OF SYMBOLS 11 Noise removal parameter setting part (parameter setting means), 12 Noise removal part (noise removal means), 13 Character recognition part (character recognition means), 14a Score assignment part, 14b Vertical line noise determination part, 14c Vertical line noise removal part 15a Isolated point noise determination unit, 15b Isolated point noise removal unit, 16a Roller noise determination unit, 16b Roller noise removal unit, 17a Line noise determination unit, 17b Line noise removal unit, 18a Receiver noise determination unit, 18b Receiver noise Removal unit, 19 reprocessing determination unit (reprocessing determination unit), 20 buffer (registration unit), 21 noise evaluation unit (noise evaluation unit), 22 noise warning unit (message return unit, warning unit).

Claims (4)

文書画像に存在するノイズを検出し、そのノイズを除去するノイズ除去手段と、上記ノイズ除去手段によりノイズが除去された文書画像に存在する文字を認識する文字認識手段とを備えた文字認識装置において、上記ノイズ除去手段は、文書画像に存在する黒画素の個数を各縦ライン毎に計数することにより、その文書画像の左右両端から中心に向かって、各縦ラインの計数値を閾値と比較し、その計数値が閾値より小さくなる位置までをローラノイズ領域と判定し、そのローラノイズ領域に含まれる黒画素を白画素に置換するローラノイズ除去部から構成されていることを特徴とする文字認識装置。   In a character recognition device comprising noise removal means for detecting noise present in a document image and removing the noise, and character recognition means for recognizing a character present in the document image from which noise has been removed by the noise removal means The noise removing means counts the number of black pixels present in the document image for each vertical line, and compares the count value of each vertical line with a threshold value from the left and right ends of the document image toward the center. Character recognition comprising: a roller noise removal unit that determines a roller noise area up to a position where the count value is smaller than a threshold value, and replaces black pixels included in the roller noise area with white pixels apparatus. ノイズ除去手段により除去されたノイズの量を示すノイズ評価値を算出するノイズ評価手段を設けたことを特徴とする請求項1記載の文字認識装置。   2. The character recognition device according to claim 1, further comprising a noise evaluation unit that calculates a noise evaluation value indicating an amount of noise removed by the noise removal unit. ノイズ評価手段により算出されたノイズ評価値が所定値より大きくなると、ファクシミリのメンテナンスを促すメッセージを当該文書画像の送信元に返送するメッセージ返送手段を設けたことを特徴とする請求項2記載の文字認識装置。   3. The character return device according to claim 2, further comprising: a message return means for returning a message prompting maintenance of the facsimile to the sender of the document image when the noise evaluation value calculated by the noise evaluation means exceeds a predetermined value. Recognition device. ノイズ評価手段により算出されたノイズ評価値が所定値より大きくなると、文字認識手段による認識結果の確認を促すメッセージを提示する警告手段を設けたことを特徴とする請求項2記載の文字認識装置。   3. The character recognition apparatus according to claim 2, further comprising warning means for presenting a message prompting confirmation of the recognition result by the character recognition means when the noise evaluation value calculated by the noise evaluation means exceeds a predetermined value.
JP2004188254A 2004-06-25 2004-06-25 Character recognition device Expired - Lifetime JP3844765B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004188254A JP3844765B2 (en) 2004-06-25 2004-06-25 Character recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004188254A JP3844765B2 (en) 2004-06-25 2004-06-25 Character recognition device

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP10250105A Division JP2000076435A (en) 1998-09-03 1998-09-03 Character recognizer

Publications (2)

Publication Number Publication Date
JP2004265452A JP2004265452A (en) 2004-09-24
JP3844765B2 true JP3844765B2 (en) 2006-11-15

Family

ID=33128852

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004188254A Expired - Lifetime JP3844765B2 (en) 2004-06-25 2004-06-25 Character recognition device

Country Status (1)

Country Link
JP (1) JP3844765B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7565008B2 (en) * 2000-11-06 2009-07-21 Evryx Technologies, Inc. Data capture and identification system and process

Also Published As

Publication number Publication date
JP2004265452A (en) 2004-09-24

Similar Documents

Publication Publication Date Title
JP6021557B2 (en) Image processing apparatus, image processing system, image processing method, and image processing program
JP5755089B2 (en) Image processing apparatus, image processing method, image processing program, and image processing system
JP5440580B2 (en) Reading apparatus and program
JP6197340B2 (en) Image processing apparatus, image processing method, and program
JP3844765B2 (en) Character recognition device
JPH09311905A (en) Line detecting method and character recognition device
JP2000076435A (en) Character recognizer
JP5516539B2 (en) Reading apparatus and program
JP3096481B2 (en) How to determine the type of form
CN108492446B (en) Paper money edge searching method and system
JP2002181719A (en) Apparatus and method for detecting edge of steel panel and storage medium
KR101707625B1 (en) Method for detecting pattern information using image data
WO2022259772A1 (en) Inspection device, inspection method, glass-plate manufacturing method, and inspection program
US11665296B2 (en) Image reading device
JP2005145055A (en) Inspection methods of printing state as well as character and inspection device using these methods
US20240176970A1 (en) Information reader
JP6335012B2 (en) Character presence determination system and character presence determination method
JP2006107117A (en) Device and method for ellipse detection
CN113034424A (en) Model training method and electronic device
JP2010086324A (en) Binarization processing apparatus, information processing apparatus, binarization processing method, and binarization processing program
JP2018160152A (en) Character recognition device, character recognition method, and program
JP2008170198A (en) Method and device for inspecting fragment of contour part
JP2007081793A (en) Image forming apparatus
JPH02103685A (en) Separating system for dot area
JPH02103684A (en) Separating system for dot area

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060718

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060816

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090825

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100825

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110825

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110825

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120825

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120825

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130825

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term