JPH0433074B2 - - Google Patents
Info
- Publication number
- JPH0433074B2 JPH0433074B2 JP60036574A JP3657485A JPH0433074B2 JP H0433074 B2 JPH0433074 B2 JP H0433074B2 JP 60036574 A JP60036574 A JP 60036574A JP 3657485 A JP3657485 A JP 3657485A JP H0433074 B2 JPH0433074 B2 JP H0433074B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- scanning
- point
- histogram
- column
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 claims description 24
- 238000001514 detection method Methods 0.000 claims description 20
- 238000005520 cutting process Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 11
- 206010027146 Melanoderma Diseases 0.000 claims description 10
- 206010064127 Solar lentigo Diseases 0.000 claims description 8
- 230000007704 transition Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 13
- 238000012546 transfer Methods 0.000 description 8
- 238000012015 optical character recognition Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 3
- 206010000210 abortion Diseases 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Landscapes
- Character Input (AREA)
Description
【発明の詳細な説明】
(産業上の利用分野)
この発明は、文字切出し方式に関し、更に詳細
には帳票に記入された文字を読取り、読取つた文
字に基づく文字パターン列を1文字領域毎に分離
して抽出する文字切出し方式に関する。[Detailed Description of the Invention] (Industrial Application Field) This invention relates to a character extraction method, and more specifically, reads characters written on a form, and creates a character pattern string for each character area based on the read characters. This paper relates to a character extraction method for separating and extracting characters.
(従来の技術)
光学式文字認識装置(以下、OCRと略す)に
おいては帳票に記入された文字を行毎に走査し、
光信号を光電変換器により画像信号に変換し、ラ
インバツフアに格納する。このラインバツフアを
順次読み出し文字パターン列を1文字領域毎に分
離し、その分離された文字パターンにより認識を
行つているが、文字パターン列の中から1文字領
域を抽出する文字切出し法はOCRの性能に大き
く影響する。(Prior art) An optical character recognition device (hereinafter abbreviated as OCR) scans characters written on a form line by line.
The optical signal is converted into an image signal by a photoelectric converter and stored in a line buffer. This line buffer is sequentially read out and the character pattern string is separated into character regions, and recognition is performed using the separated character patterns.However, the character extraction method that extracts one character region from the character pattern string has the performance of OCR. greatly affects.
次に、OCRのラインバツフアに格納されてい
る文字列のパターンデータから1文字の領域を分
離する従来の文字切出し方法を説明する。 Next, a conventional character extraction method for separating a single character area from character string pattern data stored in an OCR line buffer will be described.
OCRにおいて、文字列が格納されているライ
ンバツフアの上端から下端に向つて1列走査し、
この走査と直角な方向に順次列を移動することに
より、ラインバツフアの文字パターンを読出す。
そして、1列の走査中に黒点(文字部分を黒点,
背景部分を白点)を計数することによりヒストグ
ラムを作成し、その黒点ヒストグラムを参照し
て、1文字の領域を決定する。 In OCR, one line is scanned from the top to the bottom of the line buffer where the character string is stored,
By sequentially moving the columns in a direction perpendicular to this scanning, the character pattern in the line buffer is read out.
Then, while scanning one row, black dots (character parts are black dots,
A histogram is created by counting the background area (white dots), and the area of one character is determined by referring to the black dot histogram.
第10図は、従来の黒点ヒストグラムを用いた
パターン列を示す図である。同図において、10
0,101は文字パターンで、OCRにおけるラ
インバツフアに格納されているパターンである。
102は文字パターン100,101の列方向の
黒点ヒストグラムである。また、同図において、
ラインバツフアの左端の指定された位置より読出
しを開始し、1列の読出し中に該列の黒点ヒスト
グラムを作成し該ヒストグラムと閾値α(α:定
数)と比較し、該ヒストグラムがαより大きい列
を始点とし再び閾値αより小となる列を終点と
し、始点から終点までを1文字の領域として切出
していた。 FIG. 10 is a diagram showing a pattern sequence using a conventional black point histogram. In the same figure, 10
0 and 101 are character patterns, which are stored in the line buffer in OCR.
102 is a black point histogram of the character patterns 100 and 101 in the column direction. Also, in the same figure,
Reading starts from the specified position at the left end of the line buffer, and while reading one column, a black point histogram is created for that column, and this histogram is compared with a threshold value α (α: constant), and the column whose histogram is larger than α is The starting point was taken as the end point, and the row smaller than the threshold value α was taken as the ending point, and the area from the starting point to the ending point was cut out as a region of one character.
(発明が解決しようとする問題点)
しかしながら、上記従来の方法では、手書文字
の場合において記入者が文字を傾斜して記入して
いるため、あるいは文字記入枠からはみ出して記
入したため、もしくは記入者が文字の一部をはね
たため等の理由により、隣接する文字が重なつ
て、2文字以上の文字パターンが1文字として切
出されるという問題があつた。また、第10図か
らわかるように、文字パターン100,101は
列方向で重なつている部分があるためその黒点ヒ
ストグラム102は一つの領域として形成されて
しまう。さらに、黒点ヒストグラムの始点から終
点までの長さを求め、2文字以上であると判定さ
れた場合、所定の閾値に相当する位置を切出し点
としても、当該文字以外の文字の一部が混入した
り、当該文字の一部が欠落するという問題があつ
た。(Problems to be Solved by the Invention) However, in the conventional method described above, in the case of handwritten characters, the person writing the characters is slanted, or the characters are written outside the character writing frame. There has been a problem in that, due to reasons such as someone hitting a part of a character, adjacent characters overlap and a character pattern of two or more characters is cut out as one character. Furthermore, as can be seen from FIG. 10, since the character patterns 100 and 101 overlap in some parts in the column direction, their black point histogram 102 is formed as one area. Furthermore, if the length from the start point to the end point of the black point histogram is determined and it is determined that there are two or more characters, even if the position corresponding to the predetermined threshold is set as the cutout point, some characters other than the relevant character may be mixed in. There was a problem that some characters were missing.
この発明は、これらの問題点を解決するための
もので、簡単な構成で精度の良い文字切出し方式
を提供することを目的とする。 The present invention is intended to solve these problems, and aims to provide a highly accurate character extraction method with a simple configuration.
(問題点を解決するための手段)
この発明は、前記問題点を解決するために帳票
上に記入された文字列を光電変換して得られる量
子化された文字パターン列を1文字毎に分離して
抽出する文字切出し方式において、以下のような
手段により構成する。(Means for Solving the Problem) In order to solve the above-mentioned problem, the present invention separates a quantized character pattern string obtained by photoelectrically converting a character string written on a form into individual characters. The character extraction method for extracting characters is configured by the following means.
この発明は、量子化された文字パターン列をラ
インバツフアメモリに格納し、ラインバツフアメ
モリを文字列の列方向に相当するごとき1列走査
することにより列方向の黒点ヒストグラムを作成
しかつその走査を順次各列毎に行つて列方向の黒
点ヒストグラムの幅を検出する手段と、所定の閾
値と列方向の黒点ヒストグラムの幅と比較してこ
の黒点ヒストグラムの幅が何文字分に相当するか
検出する手段と、この黒点ヒストグラムの有する
文字数に基づいて文字切出し処理を施す領域を定
めてその領域内の文字パターン列を行方向に各行
毎に走査して行方向の黒点ヒストグラムを作成し
かつ列方向と行方向の黒点ヒストグラムより文字
パターン列の文字外接枠を検出する手段と、その
文字外接枠内の文字パターン列を保持する記憶手
段と、文字外接枠の上下の辺から各々反対側の辺
へ向つて走査に伴う記憶手段から文字パターン列
の内容を読み出し、その内容が文字部分であるか
背景部分であるか検出する検出手段と、上辺から
の走査により検出された背景部分及び下辺からの
走査により検出された背景部分,文字部分,並び
に該走査で文字部分が検出されると、該列の走査
を打切り、そのため該走査を受けなかつた背景部
分の4種類に文字外接枠内の文字パターン列を分
類する分類手段と、行走査を行い分類が変化する
変化点を検出し、順次格納し同時に変化点の前後
の状態(分類結果)を保持し、該状態の遷移を所
定の分類の変化の遷移の組合せと比較して一致す
る変化点を検出する変化点検出手段と、その検出
された変化点に基づいて文字切出し位置を決定す
る手段とから構成されている。 This invention stores a quantized character pattern string in a line buffer memory, scans the line buffer memory for one column corresponding to the column direction of the character string, and creates a black point histogram in the column direction. A means for detecting the width of a black spot histogram in the column direction by sequentially scanning each column, and comparing the width of the black spot histogram in the column direction with a predetermined threshold value to determine how many characters the width of the black spot histogram corresponds to. Based on the detection means and the number of characters included in this sunspot histogram, a region to be subjected to character extraction processing is determined, and a character pattern string within that region is scanned row by row in the row direction to create a blackspot histogram in the row direction. A means for detecting a character circumscribing frame of a character pattern string from a black point histogram in the direction and row direction, a storage means for retaining the character pattern string within the character circumscribing frame, and an edge on the opposite side from the upper and lower sides of the character circumscribing frame a detection means for reading out the content of a character pattern string from a storage means accompanying scanning toward the top side and detecting whether the content is a character part or a background part; The character pattern within the character circumscribing frame is divided into four types: the background part, the character part, and the background part that was not subjected to the scan, when the character part is detected in the scan, and the scanning of the column is aborted. A classification means for classifying a column, a row scanning to detect a change point where the classification changes, store it sequentially, simultaneously hold the state before and after the change point (classification result), and detect the transition of the state as a change in a predetermined classification. The present invention is comprised of a change point detecting means for comparing a combination of transitions and detecting a matching change point, and a means for determining a character cutting position based on the detected change point.
(作 用)
以上のような構成からなる文字切出し方式によ
れば、次のように作用する。(Operation) According to the character extraction method having the above configuration, the operation is as follows.
量子化された文字パターン列は列方向に各列毎
に走査されて列方向の黒点ヒストグラムの幅を検
出し、かつこれと所定の閾値と比較して以後行う
文字切出し処理を施す領域が決定される。また、
その領域内を行走査して行方向の黒点ヒストグラ
ムを作成し、前記列方向とこの行方向の黒点ヒス
トグラムより文字外接枠が決定される。更に、こ
の文字外接枠内の上下の辺から各々反対側の辺へ
走査し上記の4種類の部分に分類する。そして、
再び文字外接枠内の行走査を行い、分類が変化す
る変化点を検出してその変化点を順次格納して分
類の遷移と逐次所定の分類の変化の遷移の組合せ
と比較して一致する変化点を検出する。その結
果、検出された変化点の座標に基づいて文字切出
し位置を決定する。 The quantized character pattern string is scanned column by column to detect the width of the black dot histogram in the column direction, and this is compared with a predetermined threshold to determine the area for subsequent character extraction processing. Ru. Also,
A black dot histogram in the row direction is created by scanning lines within the area, and a character circumscribing frame is determined from the black dot histogram in the column direction and the row direction. Furthermore, the characters are scanned from the upper and lower sides of the character circumscribing frame to the opposite sides, and are classified into the above-mentioned four types of parts. and,
Scan the lines within the character circumscribing frame again, detect the change points where the classification changes, store the change points sequentially, and compare them with the combination of classification transitions and predetermined classification change transitions to find the matching changes. Detect points. As a result, a character cutting position is determined based on the coordinates of the detected change point.
(実施例)
以下、この発明の一実施例を図面に基づいて説
明する。(Example) Hereinafter, an example of the present invention will be described based on the drawings.
第1図は、この発明の一実施例を示すブロツク
図である。同図において、200は図示されてい
ない光電変換部よりの画像信号、201はライン
バツフア、202は黒点ヒストグラム作成回路2
20,外接枠検出回路221および文字判定回路
222である。203はデータの切換え回路、2
04はパターンメモリ、205,206はパター
ンメモリ用のアドレスを発生するx方向のxカウ
ンタとy方向のyカウンタである。207は制御
回路である。208はパターン領域分類回路、2
09は白点より黒点への変化点検出回路である。
210はパターン領域変化点検出回路、211は
切出し領域の検出回路、212〜214は切出し
領域決定用のレジスタである。 FIG. 1 is a block diagram showing one embodiment of the present invention. In the figure, 200 is an image signal from a photoelectric conversion unit (not shown), 201 is a line buffer, and 202 is a sunspot histogram creation circuit 2.
20, a circumscribing frame detection circuit 221 and a character determination circuit 222. 203 is a data switching circuit;
04 is a pattern memory, and 205 and 206 are an x counter in the x direction and a y counter in the y direction, which generate addresses for the pattern memory. 207 is a control circuit. 208 is a pattern area classification circuit;
09 is a circuit for detecting a change point from a white point to a black point.
210 is a pattern area change point detection circuit, 211 is a cutout area detection circuit, and 212 to 214 are registers for determining cutout areas.
以下に、第1図のブロツク図を用いて本実施例
の動作について説明を行う。 The operation of this embodiment will be explained below using the block diagram of FIG.
帳票上の文字列は光電変換器により2値化され
た画像信号200に変換され、ラインバツフア2
01に格納される。制御回路207の制御により
以下の処理が行われる。制御回路207はライン
バツフア201に格納されている画像信号をライ
ンバツフア201の先頭位置より1列単位に読出
し、順次列を更進し、1行分の文字パターンデー
タを全て読出した時点で終了する。また、制御回
路207では、ラインバツフア201より1列単
位にパターンデータを読出すと同時に黒点ヒスト
グラム作成回路220を起動する。黒点ヒストグ
ラム作成回路220では、1列の読出し中の黒点
数を計数することにより当該列の黒点ヒストグラ
ムを作成し、黒点ヒストグラム作成回路220に
含まれるヒストグラムメモリ230に格納する。
以上の処理を繰り返し1行分、全列の黒点ヒスト
グラムをヒストグラムメモリ230に格納した時
点で処理を終了する。 The character string on the form is converted into a binary image signal 200 by a photoelectric converter, and the line buffer 2
It is stored in 01. The following processing is performed under the control of the control circuit 207. The control circuit 207 reads out the image signal stored in the line buffer 201 column by column from the head position of the line buffer 201, advances sequentially through the columns, and ends when all the character pattern data for one line has been read out. Further, the control circuit 207 starts up the black point histogram creation circuit 220 at the same time as reading the pattern data from the line buffer 201 column by column. The black-spot histogram creation circuit 220 creates a black-spot histogram for one column by counting the number of sunspots being read in one column, and stores it in the histogram memory 230 included in the black-spot histogram creation circuit 220 .
The above process is repeated until the black point histogram for one row and all columns is stored in the histogram memory 230, and the process ends.
1行分の黒点ヒストグラムを作成した後は、黒
点ヒストグラム作成回路220中のヒストグラム
メモリ230を先頭より読出して、前記黒点ヒス
トグラムを参照してブロツクの検出を行う。制御
回路207は黒点ヒストグラム作成回路220中
のヒストグラムメモリ230より、順次黒点ヒス
トグラムを読出し、黒点ヒストグラムと閾値α
(α:定数、ただし、本実施例においてはα=1
とする)を比較し、前記ヒストグラムが大きけれ
ば文字のブロツクの始点候補とし、順次黒点ヒス
トグラムの格納番地を更進し、読出された黒点ヒ
ストグラムが閾値αより大きい列を計数し、β
(β:定数、ただし、本実施例においてはβ=2
とする)列連続した場合、前記始点候補を始点と
する。さらに列の更進を続け、始点が検出された
後、始めて黒点ヒストグラムが閾値αより小さく
なる列を終点とし、始点から終点までの長さで示
される領域をブロツクとする。次に、制御回路2
07は文字判定回路222を起動し前記検出され
たブロツクの長さを読取対象としている文字の平
均的な幅より求められた閾値γ1,γ2(γ1,γ2は定
数、ただし、本実施例においてはγ1=75,γ2=
125とする)と比較する。そして、当該ブロツク
の長さWが閾値γ1より小さいときには当該ブロツ
クを1文字と判定し、γ1≦W≦γ2のときは2文字
と判定し、さらに、W>γ2のときは3文字以上と
判定する。また、制御回路207で当該ブロツク
の判定の後、該ブロツクについて外接枠検出回路
221を起動し、外接枠を検出する。さらに、こ
のブロツクの外接枠が検出されると、前記外接枠
内の文字パターンをパターンメモリ204に転送
する。ここで、W>γ2の場合つまり前記ブロツク
を3文字以上と判定した場合、始点からγ2まで切
出し処理を行つて1文字目と2文字目を分割し、
その結果の切出し点を始点としてその始点からγ2
まで切り出し処理を行つてさらに2文字目と3文
字目を分割するごとき順次切出しを行いWまで処
理することとなる。更に、W>γ2の場合は、始点
からγ2までの前記外接枠内のパターンメモリ20
4に転送し、残りは以下の処理で始点からγ2まで
の間の切出し点が決定した時点で再度転送する。
ここで、後述する第2図に示すように文字外接枠
の上辺左端を原点とし、下辺位置をPB、右辺位
置をPRとする。 After creating a black point histogram for one line, the histogram memory 230 in the black point histogram creation circuit 220 is read from the beginning, and blocks are detected by referring to the black point histogram. The control circuit 207 sequentially reads out the black point histogram from the histogram memory 230 in the black point histogram creation circuit 220, and stores the black point histogram and the threshold value α.
(α: constant, however, in this example α=1
), and if the histogram is large, it is selected as a starting point candidate for a block of characters, the storage address of the black dot histograms is sequentially advanced, the columns whose read black dot histograms are larger than the threshold value α are counted, and β
(β: constant, however, in this example, β=2
) If the rows are continuous, the starting point candidate is taken as the starting point. Further, the row continues to advance, and after the starting point is detected, the row whose black point histogram becomes smaller than the threshold α for the first time is set as the end point, and the area indicated by the length from the starting point to the ending point is set as the block. Next, control circuit 2
07 activates the character determination circuit 222 and sets the length of the detected block to threshold values γ 1 and γ 2 (γ 1 and γ 2 are constants, however, this value is determined from the average width of the character to be read). In the example, γ 1 =75, γ 2 =
125). When the length W of the block is smaller than the threshold γ 1 , the block is determined to be one character, when γ 1 ≦W ≦ γ 2 , it is determined to be 2 characters, and furthermore, when W>γ 2 , it is determined that the block is 3 characters. It is judged to be more than or equal to characters. Further, after the control circuit 207 determines the block, the circumscribing frame detection circuit 221 is activated for the block to detect the circumscribing frame. Furthermore, when the circumscribing frame of this block is detected, the character pattern within the circumscribing frame is transferred to the pattern memory 204. Here, if W > γ 2 , that is, if the block is determined to be 3 or more characters, the cutting process is performed from the starting point to γ 2 to separate the first and second characters,
Starting from the resulting cutting point, γ 2
The cutting process is performed up to the point ``W'', and then the second character and the third character are separated, and so on. Furthermore, in the case of W>γ 2 , the pattern memory 20 within the circumscribed frame from the starting point to γ 2
4, and the rest are transferred again when the cutout points between the starting point and γ 2 are determined by the following process.
Here, as shown in FIG. 2, which will be described later, the left end of the upper side of the character circumscribing frame is the origin, the lower side position is PB, and the right side position is PR.
次に、上記のような文字の判定により2文字以
上と判定されたものの処理について第1図に基づ
いて説明する。 Next, processing of characters determined to be two or more characters in the above character determination will be explained based on FIG. 1.
制御回路207はパターンメモリ204のアド
レスを与えるxカウンタ205及びyカウンタ2
06を文字の外接枠の上辺の左端の位置にセツト
し、yカウンタ206をインクリメントして文字
外接枠の下辺に向つて走査を行う。そして、パタ
ーンメモリ204のアドレスをX軸,Y軸に対し
て(x,y)とし、それぞれxカウンタ,yカウ
ンタの値を用いる。前記アドレスで示される位置
のパターンメモリ204の内容をPM(x,y)
で表わす。本実施例においては白点をPM(x,
y)=0、黒点をPM(x,y)=1、前記上辺か
らの走査時に検出された白点をPM(x,y)=
2、前記下辺からの走査時に検出された白点を
PM(x,y)=4とした。従つて、本実施例にお
けるパターンメモリ204は1メツシユに対して
3ビツトのデータ幅を有する。パターン領域分類
回路208において、文字外接枠の上辺左端にア
ドレスを設定しパターンメモリ204より文字パ
ターンを読みだす。PM(x,y)=0のときは
(PM(x,y).OR.2)を新たなPM(x,y)と
し切換え回路203を介してパターンメモリ20
4の当該番地に書き込みを行う。 The control circuit 207 includes an x counter 205 and a y counter 2 that provide the address of the pattern memory 204.
06 is set at the left end position of the upper side of the character circumscribing frame, the y counter 206 is incremented, and scanning is performed toward the lower side of the character circumscribing frame. Then, the addresses of the pattern memory 204 are set to (x, y) for the X and Y axes, and the values of the x counter and y counter are used, respectively. The contents of the pattern memory 204 at the position indicated by the address are PM(x,y)
It is expressed as In this example, the white point is defined as PM(x,
y) = 0, the black point is PM (x, y) = 1, the white point detected during scanning from the upper side is PM (x, y) =
2. The white point detected during scanning from the bottom side
PM(x,y)=4. Therefore, the pattern memory 204 in this embodiment has a data width of 3 bits for one mesh. In the pattern area classification circuit 208, an address is set at the left end of the upper side of the character circumscribing frame, and the character pattern is read out from the pattern memory 204. When PM (x, y) = 0, (PM (x, y).OR.2) is set as a new PM (x, y) and sent to the pattern memory 20 via the switching circuit 203.
Write to the corresponding address of 4.
制御回路207は、白点から黒点への変化点検
出回路209がPM(x,y)=1である黒点を検
出すると、該列の走査を打ち切り、xカウンタ2
05を1つインクリメントし、次の列の走査を文
字外接枠の上辺より行う。また、前記文字外接枠
の上辺より走査を行い下辺まで到達したときも該
列の走査を打ち切り、次列の走査を行う。以上の
走査を順次繰り返し、文字外接枠の右端の列を処
理したら終了する。前記上辺よりの走査が終了し
たら制御回路207は、xカウンタ,yカウンタ
を文字外接枠の下辺左端に設定し、前記下辺より
上辺に向つての走査を行い、前記上辺よりの走査
時と同様の処理を行う。ただし、PM(x,y)=
0のときは、PM(x,y).OR.4)をPM(x,
y)としてパターンメモリ204に格納する。前
記上辺よりの走査と同様に右端の列の処理をした
ら終了する前記2種類の走査が終了し、文字外接
枠内のパターンの分類が出来たら、制御回路20
7は、xカウンタ205及びyカウンタ206を
文字外接枠上の上辺左端に設定し、水平走査(行
走査)を行い文字切出し領域の検出を行う。 When the change point detection circuit 209 from a white point to a black point detects a black point where PM(x,y)=1, the control circuit 207 aborts the scanning of the column and sets the x counter 2.
05 is incremented by one, and the next column is scanned from the upper side of the character circumscribing frame. Also, when scanning starts from the upper side of the character circumscribing frame and reaches the lower side, the scanning of that column is stopped and the next column is scanned. The above scanning is repeated sequentially, and the process ends after processing the rightmost column of the character circumscribing frame. When the scanning from the upper side is completed, the control circuit 207 sets the x counter and the y counter to the left end of the lower side of the character circumscribing frame, and scans from the lower side to the upper side, similar to the scanning from the upper side. Perform processing. However, PM(x,y)=
When it is 0, PM(x,y). OR.4) to PM(x,
y) in the pattern memory 204. Similar to the scanning from the upper side, the process ends after processing the rightmost column. When the above two types of scanning are completed and the patterns within the character circumscribing frame have been classified, the control circuit 20
In step 7, the x counter 205 and the y counter 206 are set at the upper left end of the character circumscribing frame, and a horizontal scan (line scan) is performed to detect a character cutting area.
ここで、上記の列走査を具体的に示すために一
例を用いて説明する。第2図は、本実施例の上下
走査による具体例を示す図である。同図におい
て、100,101は文字パターン、103は上
辺から下辺への走査方向、104は下辺から上辺
への走査方向を示す。また、第3図は第2図の列
走査の処理結果を示す図である。同図において、
上辺から下辺への走査時に、検出された白点(文
字部分を黒点,背景部分を白点とする)をC点と
し、C点の集合をC領域とする。また前記走査時
に、黒点が検出された場合は、該列の走査はそこ
で打ち切り次列の処理を行う。ここで、黒点の集
合をA領域とする。同様の処理を下辺より上辺へ
の走査時にも行い、該走査時に検出された白点を
D点とし、D点の集合をD領域とする。2回の走
査によりC点,D点以外の白点すなわち、前記2
回の走査で走査されなかつた白点をB点としその
集合をB領域とする。 Here, an example will be used to specifically illustrate the above column scanning. FIG. 2 is a diagram showing a specific example of vertical scanning in this embodiment. In the figure, 100 and 101 indicate character patterns, 103 indicates a scanning direction from the top side to the bottom side, and 104 indicates a scanning direction from the bottom side to the top side. Further, FIG. 3 is a diagram showing the processing result of the column scanning in FIG. 2. In the same figure,
The white point detected during scanning from the top side to the bottom side (the text portion is the black point, the background portion is the white point) is defined as a C point, and the set of C points is defined as a C area. Furthermore, if a black spot is detected during the scanning, the scanning of the column is stopped at that point and the next column is processed. Here, the set of sunspots is defined as area A. Similar processing is performed when scanning from the lower side to the upper side, the white point detected during this scanning is defined as point D, and the set of D points is defined as area D. By scanning twice, white points other than points C and D, that is, the above 2
The white point that has not been scanned in the previous scan is defined as B point, and the set thereof is defined as B area.
次に、文字切出し領域の検出を第1図に基づい
て説明する。 Next, detection of a character cutout area will be explained based on FIG. 1.
先ず、パターン領域変化点検出回路210は制
御回路207により起動されると、パターンメモ
リ204から文字パターンデータ(前記列走査に
より分類結果)を読出して外接枠内を行走査す
る。また、パターン領域変化点検出回路210
は、パターンメモリ204からの文字パターンデ
ータを処理するが、現在処理している点の文字パ
ターンデータが処理されている間その点の1つ前
の点の文字パターンデータを保持しており、かつ
現在処理した文字パターンデータと1点前文字パ
ターンデータを比較する。その比較した結果が、
変化したと判定されると、その1点前の座標位置
を検出し保持する。つまり、PM(x−1,y)
とPM(x,y)を比較し、等しくない場合には、
X軸座標x−1を(xREG I)214に格納す
る。切出し領域検出回路211においては、パタ
ーン領域変化点検出回路210で前記変化点が検
出されたとき、PM(x,y)を状態レジスタに
保持する。切出し領域検出回路211では、前記
PM(x,y)を保持する状態レジスタ(図示せ
ず)を3個有し、該状態レジスタは前記変化点が
検出されたときに、レジスタの内容が隣接するレ
ジスタにシフトする構成となつている。さらに、
前記変化点が検出され、前記状態レジスタのシフ
トが完了したら前記3種類状態レジスタの内容が
制御回路207に格納されている次に示す状態と
一致するかを検出する。状態レジスタをST1,
ST2,ST3とすれば、ST1=4かつST2=0
かつST3=2あるいは、ST1=2かつST2=
0かつST3=4あるいは、ST2=2かつST3
=4あるいは、ST2=4かつST3=2という状
態である。ただし、ST3は現在の座標位置の内
容であるとする。そこで、前記状態レジスタが位
置組合せと一致した場合、切出し領域検出回路2
11からの決定信号が(yREG)212及び
(xRES)213に供給される。その時に各レ
ジスタに格納されていたxカウンタ205もしく
はyカウンタ206の内容が各レジスタからy1,
x2として出力される。また、x1はパターン領域変
化点検出回路210の状態レジスタST3がC点
あるいはD点のときのxカウンタ205の内容を
(xREG )214に格納したものとなる。
X1,X2,Y1は制御回路207に含まれるレジス
タに保持される。また、前記状態レジスタが前記
組合せと一致した場合、その行の水平走査は打ち
切り、Yカウンタをインクリメントし新たな次の
行の水平走査を行う。以上の水平走査が、外接枠
内で全て終了した次点でx1(xREG ),x2
(xREG ),y1(yREG )をもとに切出し
位置を決定する。 First, when the pattern area change point detection circuit 210 is activated by the control circuit 207, it reads out character pattern data (classification results obtained by the column scanning) from the pattern memory 204 and performs row scanning within the circumscribing frame. In addition, the pattern area change point detection circuit 210
processes the character pattern data from the pattern memory 204, but while the character pattern data of the point currently being processed is being processed, it holds the character pattern data of the point immediately before that point, and Compare the currently processed character pattern data with the previous character pattern data. The result of that comparison is
If it is determined that there has been a change, the coordinate position of the previous point is detected and held. In other words, PM(x-1,y)
and PM(x,y), and if they are not equal,
Store the X-axis coordinate x-1 in (xREG I) 214. The cutout area detection circuit 211 holds PM(x, y) in the status register when the pattern area change point detection circuit 210 detects the change point. In the cutout area detection circuit 211, the
It has three status registers (not shown) that hold PM (x, y), and the status registers are configured so that when the change point is detected, the contents of the registers are shifted to adjacent registers. There is. moreover,
When the change point is detected and the shift of the state register is completed, it is detected whether the contents of the three types of state register match the following states stored in the control circuit 207. Set the status register to ST1,
If ST2 and ST3, ST1=4 and ST2=0
and ST3=2 or ST1=2 and ST2=
0 and ST3=4 or ST2=2 and ST3
=4 or ST2=4 and ST3=2. However, ST3 is assumed to be the contents of the current coordinate position. Therefore, if the status register matches the position combination, the cutout area detection circuit 2
The decision signal from 11 is provided to (yREG) 212 and (xRES) 213. The contents of the x counter 205 or y counter 206 stored in each register at that time are transferred from each register to y 1 ,
Output as x 2 . Further, x1 is the contents of the x counter 205 stored in (xREG) 214 when the status register ST3 of the pattern area change point detection circuit 210 is at point C or point D.
X 1 , X 2 , and Y 1 are held in registers included in the control circuit 207. If the status register matches the combination, the horizontal scan of that row is discontinued, the Y counter is incremented, and a new horizontal scan of the next row is performed. The runner-up where all the above horizontal scans are completed within the circumscribed frame is x 1 (xREG), x 2
The cutting position is determined based on (xREG) and y1 (yREG).
以下に、第4図に示す切出し位置が決定された
パターン例を使用して、パターンの転送方法を説
明する。また、第4図は、第1図のブロツク図に
おけるパターンメモリ204に格納されているパ
ターンおよび切出し位置を示している。座標は横
軸をX軸,縦軸をY軸としており、パターンメモ
リ204は第4象限に位置しているものとする。
XMおよびYMはパターンメモリ204の大きさ
を示しており、本実施例においてはXM=YM=
128メツシユとした。PRおよびPBはパターンメ
モリ204に格納されているパターンの外接枠を
示すものでX=O,X=PR,Y=O,Y=PRの
4本の直線により表わされる。第4図において3
00,301はパターン、直線Y=y1,X=x1,
X=x2は切出し位置を示している。本実施例にお
けるパターンメモリは、1メツシユを表わすデー
タが第5図の構成となつている。第5図におい
て、(1)が1のときは下辺から上辺への列走査時に
白点であつたことを意味し、(1)が0のときは前記
白点以外であつたことを意味する。また、(2)が1
のときは上辺から下辺への列走査時に白点であつ
たことを意味し、(2)が0のときは前記白点以外で
あつたことを意味する。さらに、(3)が1のときは
黒点である点を意味し、(3)が0のときは白点であ
る点を意味する。従つて、転送するパターンデー
タは、(3)で示されるデータだけである。X=0で
表わされる直線上のメツシユをY=0の点よりY
座標を1つづつインクリメントすることによりY
=PBの点までパターンデータを転送する。1列
転送終了後X座標をインクリメントする。1列毎
に前記転送を繰り返し、X=x1の列の転送を終了
した時点で次の列からX=x2の列まではY座標が
y1よりPBまでは、パターンデータをマスクし固
定値0を転送する。X=x2の列まで転送した時点
でパターン300の転送は終了する。パターン3
01についても同様な方法によりパターンを転送
することが可能である。また、外接枠内に1文字
が含まれるデータについては外接枠内のパターン
を同様な方法により転送することが出来る。 The pattern transfer method will be described below using the example pattern shown in FIG. 4 in which the cutout position has been determined. Further, FIG. 4 shows the patterns and cutout positions stored in the pattern memory 204 in the block diagram of FIG. 1. In the coordinates, the horizontal axis is the X axis and the vertical axis is the Y axis, and it is assumed that the pattern memory 204 is located in the fourth quadrant.
XM and YM indicate the size of the pattern memory 204, and in this embodiment, XM=YM=
It was set at 128 meters. PR and PB indicate the circumscribing frames of the patterns stored in the pattern memory 204, and are represented by four straight lines: X=O, X=PR, Y=O, Y=PR. In Figure 4, 3
00,301 is a pattern, straight line Y=y 1 , X=x 1 ,
X=x 2 indicates the cutting position. In the pattern memory in this embodiment, data representing one mesh has the structure shown in FIG. In Figure 5, when (1) is 1, it means that the point was a white point during column scanning from the bottom side to the top side, and when (1) is 0, it means that it was a point other than the white point. . Also, (2) is 1
When (2) is 0, it means that the point was a white point during column scanning from the top side to the bottom side, and when (2) is 0, it means that it was a point other than the white point. Furthermore, when (3) is 1, it means a point that is a black point, and when (3) is 0, it means a point that is a white point. Therefore, the pattern data to be transferred is only the data shown in (3). The mesh on the straight line represented by X=0 from the point Y=0
Y by incrementing the coordinate by one
= Transfer pattern data to point PB. After one column transfer is completed, the X coordinate is incremented. The above transfer is repeated for each column, and when the transfer of the column X=x 1 is completed, the Y coordinates from the next column to the column X=x 2 are changed.
From y1 to PB, pattern data is masked and a fixed value of 0 is transferred. The transfer of the pattern 300 ends when the column of X=x 2 is transferred. pattern 3
It is also possible to transfer the pattern for 01 using a similar method. Furthermore, for data in which one character is included within the circumscribing frame, the pattern within the circumscribing frame can be transferred using a similar method.
次に、第6図,第7図及び第8図に示すフロー
チヤートに基づいて本実施例の処理の流れを詳細
に説明する。ここで、第6図は全体の流れを示
し、第7図および第8図はそれぞれ上下2回の走
査によるパターンの領域の分類、および切出し領
域の決定の流れ図を示している。先ず、第6図の
全体の流れ図より説明する。S400では、読取
動作を開始する。S401ではラインバツフアに
格納されたパターンデータを1列読み出し、第1
図はの黒点ヒストグラム作成回路220にて黒点
ヒストグラムを作成しヒストグラムメモリ230
に格納する。S402においては1行分全ての黒
点ヒストグラムの作成終了を検出し、1行全て作
成されるまでS401の処理を繰り返す。S40
3においては処理した文字を管理し、1行中全部
の文字の切出しが終了するまで以下の処理を繰り
返す。S404では黒点ヒストグラムをヒストグ
ラムメモリより読出し、黒点ヒストグラムの始
点、および終点を検出しブロツクとする。また、
該ブロツクの長さと閾値γ1,γ2とを比較し何文字
で構成されるブロツクであるかを保持しておく。
S405においては、第1図の外接枠検出回路2
21においてブロツクの外接枠を検出し、その外
接枠内のパターンデータをパターンメモリ204
に転送する。S406においては前記保持された
ブロツクの長さの判定結果により、1文字であれ
ばパターンメモリ204のパターンデータを出力
段へ転送し次の文字の処理へ進む。2文字以上で
あれば、以下の処理を行う。S407において
は、外接枠の上辺および下辺からそれぞれ対辺へ
列走査を行いパターンの領域の分類を行い結果を
パターンメモリに格納する。S408においては
外接枠内の水平走査(行走査)を行い前記分類結
果をパターンメモリより読出し切出し領域の検出
を行つて切出し位置を決定する。S409ではパ
ターンメモリ内のパターンを切出し位置に従つて
転送する。パターンメモリ内のパターンを全て転
送した時点で次の文字の処理を行う。 Next, the process flow of this embodiment will be explained in detail based on the flowcharts shown in FIGS. 6, 7, and 8. Here, FIG. 6 shows the overall flow, and FIGS. 7 and 8 show flowcharts of classification of pattern areas and determination of cutout areas by two upper and lower scans, respectively. First, the overall flowchart in FIG. 6 will be explained. In S400, a reading operation is started. In S401, one column of pattern data stored in the line buffer is read out, and the first
In the figure, a sunspot histogram is created by the sunspot histogram creation circuit 220 and stored in the histogram memory 230.
Store in. In S402, it is detected that the creation of all the black point histograms for one row has been completed, and the process of S401 is repeated until all the black point histograms for one row have been created. S40
In step 3, the processed characters are managed and the following process is repeated until all characters in one line have been cut out. In S404, the black point histogram is read from the histogram memory, and the starting point and ending point of the black point histogram are detected and set as a block. Also,
The length of the block is compared with threshold values γ 1 and γ 2 and the number of characters the block consists of is stored.
In S405, the circumscribing frame detection circuit 2 of FIG.
21, the circumscribing frame of the block is detected, and the pattern data within the circumscribing frame is stored in the pattern memory 204.
Transfer to. In S406, based on the result of determining the length of the held block, if it is one character, the pattern data in the pattern memory 204 is transferred to the output stage and the process proceeds to the next character. If there are two or more characters, perform the following processing. In S407, column scanning is performed from the upper and lower sides of the circumscribing frame to the opposite sides, the pattern area is classified, and the results are stored in the pattern memory. In S408, horizontal scanning (row scanning) within the circumscribed frame is performed, the classification results are read out from the pattern memory, a cutting area is detected, and the cutting position is determined. In S409, the pattern in the pattern memory is transferred according to the cutout position. When all the patterns in the pattern memory have been transferred, the next character is processed.
次に、第6図におけるS407およびS408
の処理について第7図及び第8図に詳細なフロー
チヤートを示し、その動作を順に説明する。 Next, S407 and S408 in FIG.
Detailed flowcharts of the processing are shown in FIGS. 7 and 8, and the operations thereof will be explained in order.
第7図は、文字パターン領域の分類と、白点か
ら黒点への変化点検出の流れを示している。S5
00で、文字パターンデータが入力されると、S
501およびS502では初期化であり、パター
ンメモリのx,yの座標を文字外接枠の上辺左端
に設定し、走査の方向を示す値U/Dを上辺より
下辺に向つて走査するので2とする。S503に
おいては、パターンメモリの内容を調べPM(x,
y)=1(黒点)であれば処理をS507へ移し、
PM(x,y)≠1(白点)であるときは、S50
4でパターンメモリの内容をPM(x,y)=(PM
(x,y).OR.U/D)とする。S505におい
てはスキヤンの方向によりyカウンタの値をイン
クリメントあるいはデクリメントする。S506
では、1列の管理を行い1列の処理が終了するま
でS503に戻り同様の処理を繰り返す。PM
(x,y)=1が検出されるかまたは1列の走査が
終了したときはS507でyカウンタを走査開始
点(上辺上あるいは下辺上)に設定し、xカウン
タをS508でインクリメントし、xカウンタが
文字外接枠の右端(PR+1)に一致するまでS
503からの処理を繰り返す。当該走査でxカウ
ンタが右端と一致した場合は、走査の方向を下辺
から上辺の方向とし、前記処理を繰り返す。この
ときS511でU/Dを4とする。さらに、x,
yカウンタを初期化する。U/D=4の走査で同
様の処理を行い全て終了したら、第8図のフロー
チヤートに示した処理を行う。 FIG. 7 shows the flow of classifying character pattern areas and detecting points of change from white dots to black dots. S5
00, when character pattern data is input, S
501 and S502 are initialization, where the x and y coordinates of the pattern memory are set to the upper left edge of the character circumscribing frame, and the value U/D indicating the scanning direction is set to 2 because scanning is performed from the upper side to the lower side. . In S503, the contents of the pattern memory are checked and PM(x,
y)=1 (black point), the process moves to S507,
When PM (x, y)≠1 (white point), S50
4, the contents of the pattern memory are PM (x, y) = (PM
(x, y). OR.U/D). In S505, the value of the y counter is incremented or decremented depending on the scan direction. S506
Then, one column is managed, and the process returns to S503 and the same process is repeated until the processing of one column is completed. PM
If (x, y) = 1 is detected or one column of scanning is completed, the y counter is set to the scanning start point (on the top or bottom edge) in S507, the x counter is incremented in S508, and x S until the counter matches the right edge of the character circumscribing frame (PR+1)
The process from 503 is repeated. If the x counter matches the right end in the scanning, the scanning direction is set from the bottom side to the top side, and the above process is repeated. At this time, U/D is set to 4 in S511. Furthermore, x,
Initialize the y counter. Similar processing is performed for the scan of U/D=4, and when all is completed, the processing shown in the flowchart of FIG. 8 is performed.
第8図はパターン領域の変化点検出と切出し領
域の決定についての流れを示すものであり、パタ
ーンメモリの文字外接枠内の水平走査(行走査)
を上辺左端より行い切出し領域の決定をする。S
600,S601ではそれぞれyカウンタ,xカ
ウンタを初期化する。S602では行走査中の領
域の変化を保持するための状態レジスタST1〜
ST3の初期化を行う。現在位置の状態を示すも
のはST3であり、走査中現在の領域前の領域を
示すものはST2であり、ST2前の領域を示すも
のはST1である。S603では、パターンメモ
リの内容PM(x,y)がST3と比較し一致して
いればS605に進み、一致していなければ該座
標は変化点であるので、S604でST2,ST3
の内容をそれぞれST1,ST2へシフトする。S
605においてはPM(x,y)の内容をST3に
シフトする。S606では状態レジスタST3が
C点あるいはD点であるか判定し、C点あるいは
D点のときは、xカウンタの内容を(xREG
)に格納する。S608では状態レジスタST
1,ST2,ST3の状態の組合せを判定し、S6
16に示す組合せと一致する場合にはS611〜
S613により、x1に(xREG )を、x2にx
カウンタの内容を、y1にyカウンタの内容を格納
する。S614,S615において、yカウンタ
をインクリメントし、文字外接枠の下辺と一致す
るまでS601に戻り同様の処理を行う。ただ
し、S608で組合せがS616の後半の2項で
ある場合には、S611では、x1にxREG の
内容から−1を加えたものを格納する。 Figure 8 shows the flow of detecting change points in a pattern area and determining a cutout area.
Starting from the left end of the upper side, the extraction area is determined. S
In steps 600 and S601, the y counter and x counter are initialized, respectively. In S602, status registers ST1 to ST1 to hold changes in the area during row scanning are set.
Initialize ST3. ST3 indicates the state of the current position, ST2 indicates the area before the current area during scanning, and ST1 indicates the area before ST2. In S603, the contents PM (x, y) of the pattern memory are compared with ST3, and if they match, the process proceeds to S605; if they do not match, the coordinates are a change point, so in S604, ST2 and ST3 are
The contents of are shifted to ST1 and ST2, respectively. S
In 605, the contents of PM (x, y) are shifted to ST3. In S606, it is determined whether the status register ST3 is at point C or point D. If it is at point C or point D, the contents of the x counter are
). In S608, status register ST
Determine the combination of states 1, ST2, and ST3, and proceed to S6
If it matches the combination shown in 16, S611~
By S613, (xREG) is set to x 1 and x is set to x 2 .
Store the contents of the counter in y1 . In S614 and S615, the y counter is incremented, and the process returns to S601 and the same process is performed until it matches the lower side of the character circumscribing frame. However, if the combination in S608 is the latter two items in S616, then in S611, x 1 plus -1 from the contents of xREG is stored.
S608において、状態レジスタST1〜ST3
がS616に示す組合せと一致しない場合は、S
609,S610において、xカウンタをインク
リメントし、文字外接枠の右辺と一致するまでS
603に戻り前記処理を繰り返す。S615でy
カウンタの値が文字外接枠の下辺と一致した場合
は、x1,x2,y1の値に切出し点を決定する。第9
図は、本実施例により切出しを行つた場合のパタ
ーン例であり、A−A′はパターンの分割位置を
示している。 In S608, status registers ST1 to ST3
does not match the combination shown in S616, S
609, S610, the x counter is incremented, and the S
The process returns to 603 and the above process is repeated. y in S615
If the value of the counter matches the lower edge of the character circumscribing frame, the cutting point is determined at the values of x 1 , x 2 , and y 1 . 9th
The figure shows an example of a pattern cut out according to this embodiment, and A-A' indicates the dividing position of the pattern.
以上説明したように、本実施例によれば、前後
の文字パターンが当該文字パターンに重なつた場
合でも、当該文字パターンが欠落したり、前後の
文字パターンの一部が混入することなく文字パタ
ーンの切出しを行うことが出来る。 As explained above, according to this embodiment, even if the character pattern before and after overlaps with the character pattern, the character pattern can be created without missing the character pattern or with part of the character pattern before and after it being mixed in. can be cut out.
さらに、本実施例においては、2文字が重なり
合つた場合を示したが、3文字以上重なり合つた
場合においても、重なり合つた文字の先頭より2
文字を基準に順次切出し点を決定することにより
同様な効果を得ることが出来る。 Furthermore, in this example, the case where two characters overlap is shown, but even when three or more characters overlap, two characters from the beginning of the overlapping characters are used.
A similar effect can be obtained by sequentially determining cutout points based on characters.
(発明の効果)
以上説明したように、本発明によれば、文字パ
ターンの外接枠の上下の辺から各々対辺に向つて
列走査を行うことにより背景部分を走査方向別の
領域に分類し、その分類結果により外接枠内の行
走査を行つて切出し領域を検出し、切出し位置を
決定するので、精度の高い文字切出しを行うこと
ができる。また、パターンの外接枠内を走査し
て、変化点の検出を行うことにより実現している
ので簡単な回路構成で実施することが可能であ
る。さらに、本発明を用いることにより、隣接し
た文字が重なり合つた場合でも切出しが可能であ
るので、文字記入枠の間隔を小さくすることがで
き一行当りの読取可能文字数を増やすことができ
る。従つて、多くの種類の帳票に対応でき、帳票
設計の自由度が大きく、従つて性能のよいOCR
が実現出来るという効果がある。(Effects of the Invention) As explained above, according to the present invention, the background portion is classified into regions according to the scanning direction by performing column scanning from the upper and lower sides of the circumscribed frame of the character pattern toward the opposite sides, Based on the classification results, the lines within the circumscribed frame are scanned to detect the cutout area and determine the cutout position, so that character cutout can be performed with high precision. Further, since this is realized by scanning the circumscribed frame of the pattern and detecting the change point, it can be implemented with a simple circuit configuration. Furthermore, by using the present invention, it is possible to cut out even when adjacent characters overlap, so it is possible to reduce the interval between character entry frames and increase the number of readable characters per line. Therefore, it can handle many types of forms, has a large degree of freedom in form design, and has high performance OCR.
The effect is that it can be realized.
第1図はこの発明の一実施例を示すブロツク
図、第2図は本実施例の列走査による具体例を示
す図、第3図は第2図の列走査の処理結果を示す
図、第4図は第2図における切出し位置が決定さ
れたパターン例を示す図、第5図は本実施例にお
けるパターンメモリの構成を示す図、第6図,第
7図及び第8図は本実施例の処理の流れを示すフ
ローチヤート、第9図は本実施例により切出しを
行なつた場合のパターン例を示す図、第10図は
従来の黒点ヒストグラムを用いたパターン例を示
す図である。
200…画像信号、201…ラインバツフア、
202…外接枠作成回路、203…切換回路、2
04…パターンメモリ、205…xカウンタ、2
06…yカウンタ、207…制御回路、208…
パターン領域分類回路、209…白点→黒点変化
点検出回路、210…パターン領域変化点検出回
路、211…切出し領域検出回路、212…
yREG、213…xREG 、214…xREG
。
FIG. 1 is a block diagram showing an embodiment of the present invention, FIG. 2 is a diagram showing a specific example of the column scanning of this embodiment, FIG. 3 is a diagram showing the processing results of the column scanning of FIG. 4 is a diagram showing an example of the pattern in which the cutting position in FIG. 2 has been determined, FIG. 5 is a diagram showing the configuration of the pattern memory in this embodiment, and FIGS. FIG. 9 is a diagram showing an example of a pattern when clipping is performed according to this embodiment, and FIG. 10 is a diagram showing an example of a pattern using a conventional black point histogram. 200...image signal, 201...line buffer,
202... Circumscribing frame creation circuit, 203... Switching circuit, 2
04...Pattern memory, 205...x counter, 2
06...y counter, 207...control circuit, 208...
Pattern area classification circuit, 209...White point→black point change point detection circuit, 210...Pattern area change point detection circuit, 211...Cutout area detection circuit, 212...
yREG, 213...xREG, 214...xREG
.
Claims (1)
られる量子化された文字パターン列を1文字毎に
分離して抽出する文字切出し方式において、前記
文字パターン列をラインバツフアメモリに格納
し、該ラインバツフアメモリを前記文字列の列方
向に1列走査することにより列方向の黒点ヒスト
グラムを作成しかつ前記走査を順次各列毎に行つ
て前記列方向の黒点ヒストグラムの幅(閾値α
(αは定数)より大きい黒点ヒストグラムが連続
して閾値β(βは定数)列以上続く列の長さ)を
検出する手段と、所定の閾値と前記列方向の黒点
ヒストグラムの幅を比較することにより前記黒点
ヒストグラムの幅が何文字分に相当するかを検出
する手段と、前記黒点ヒストグラムの有する文字
数に基づいて文字切出し処理を施す領域を定めて
該領域内の文字パターン列を行方向に各行毎に走
査することにより行方向の黒点ヒストグラムを作
成しかつ前記列方向と行方向の黒点ヒストグラム
より文字パターン列の文字外接枠を検出する手段
と、該文字外接枠内の文字パターン列を保持する
記憶手段と、前記文字外接枠の上下の辺から各々
反対側の辺へ向つて走査を行つて該走査に伴う前
記記憶手段から文字パターン列の内容を読み出
し、該内容が文字部分であるか背景部分であるか
検出する検出手段と、該検出手段より得られた上
辺からの走査により検出された背景部分及び下辺
からの走査により検出された背景部分,文字部
分,並びに該走査で文字部分が検出されると、該
列の走査を打切り、そのため該走査を受けなかつ
た背景部分の4種類に前記文字外接枠内の文字パ
ターン列を分類する分類手段と、前記文字外接枠
内の分類結果について行走査を行い前記分類手段
による分類が変化する変化点を検出し、順次格納
し、同時に変化点の前後の状態(分類)を保持
し、該状態の遷移を所定の分類の変化の遷移の組
合せと比較して一致する前記変化点を検出する変
化点検出手段と、該変化点検出手段より検出され
た前記変化点に基づいて文字切出し位置を決定す
る手段を有することを特徴とする文字切出し方
式。1. In a character extraction method in which a quantized character pattern string obtained by photoelectrically converting a character string written on a form is separated and extracted character by character, the character pattern string is stored in a line buffer memory. , create a black point histogram in the column direction by scanning the line buffer memory one column in the column direction of the character string, and perform the scanning sequentially for each column to determine the width (threshold value α) of the black point histogram in the column direction.
(α is a constant) means for detecting the length of a row in which larger black spot histograms continue for a threshold value β (β is a constant) or more columns; and comparing the width of the black spot histogram in the column direction with a predetermined threshold value. means for detecting how many characters the width of the sunspot histogram corresponds to, and determining an area to perform character cutting processing based on the number of characters in the sunspot histogram, and cutting the character pattern string in the area in each row in the row direction. means for creating a black dot histogram in the row direction by scanning each time, and detecting a character circumscribing frame of a character pattern string from the black dot histogram in the column direction and row direction, and holding the character pattern string within the character circumscribing frame; A storage means scans the character circumscribing frame from the upper and lower sides to the opposite sides, reads out the contents of the character pattern string from the storage means along with the scanning, and determines whether the contents are a character part or not. a background portion detected by scanning from the upper side obtained by the detection means, a background portion and a character portion detected by scanning from the lower side, and a character portion detected by the scanning; If so, the scanning of the column is aborted, and therefore the character pattern string within the character circumscribing frame is classified into four types of background portions that have not been subjected to the scanning. Scanning is performed to detect change points at which the classification by the classification means changes, and store them sequentially, simultaneously retaining the states (classifications) before and after the change point, and converting the state transition into a combination of transitions of changes in predetermined classifications. A character cutting method characterized by comprising a changing point detecting means for comparing and detecting the matching changing point, and a means for determining a character cutting position based on the changing point detected by the changing point detecting means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60036574A JPS61196382A (en) | 1985-02-27 | 1985-02-27 | Character segmenting system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60036574A JPS61196382A (en) | 1985-02-27 | 1985-02-27 | Character segmenting system |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS61196382A JPS61196382A (en) | 1986-08-30 |
JPH0433074B2 true JPH0433074B2 (en) | 1992-06-02 |
Family
ID=12473536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP60036574A Granted JPS61196382A (en) | 1985-02-27 | 1985-02-27 | Character segmenting system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS61196382A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011096572A1 (en) | 2010-02-08 | 2011-08-11 | Necエナジーデバイス株式会社 | Nonaqueous electrolyte secondary battery |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5898795A (en) * | 1995-12-08 | 1999-04-27 | Ricoh Company, Ltd. | Character recognition method using a method for deleting ruled lines |
-
1985
- 1985-02-27 JP JP60036574A patent/JPS61196382A/en active Granted
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011096572A1 (en) | 2010-02-08 | 2011-08-11 | Necエナジーデバイス株式会社 | Nonaqueous electrolyte secondary battery |
Also Published As
Publication number | Publication date |
---|---|
JPS61196382A (en) | 1986-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA1160347A (en) | Method for recognizing a machine encoded character | |
JPH03122773A (en) | Image forming device | |
US5164996A (en) | Optical character recognition by detecting geo features | |
JPS63158678A (en) | Inter-word space detecting method | |
EP0524797B1 (en) | Image processing method and apparatus | |
JPH0433074B2 (en) | ||
JP3904397B2 (en) | Table recognition method | |
JPS62121589A (en) | Character segmenting system | |
JPS61196381A (en) | Character segmenting system | |
JPS6343788B2 (en) | ||
JP2954218B2 (en) | Image processing method and apparatus | |
JPH0795331B2 (en) | Character cutting device | |
JPH0782524B2 (en) | Optical character reader | |
JP2721415B2 (en) | Character image extraction method | |
JPS6249482A (en) | Image preprocessing device | |
JPS62126485A (en) | Character segmentation system | |
JPS63143683A (en) | Optical character reader | |
JPH0991384A (en) | Character recognition system | |
JPH08243506A (en) | Address reading device and its method | |
JPS59206987A (en) | Letter recognizing device | |
JPH0944597A (en) | Feature extracting method | |
JPH03282791A (en) | Character recognizing method | |
JPH04225474A (en) | Automatic drawing generating system by image scanner | |
JPS62281094A (en) | Recognition method for pattern information | |
JPH0366702B2 (en) |