JPH07120390B2 - Character cutout method - Google Patents

Character cutout method

Info

Publication number
JPH07120390B2
JPH07120390B2 JP60261488A JP26148885A JPH07120390B2 JP H07120390 B2 JPH07120390 B2 JP H07120390B2 JP 60261488 A JP60261488 A JP 60261488A JP 26148885 A JP26148885 A JP 26148885A JP H07120390 B2 JPH07120390 B2 JP H07120390B2
Authority
JP
Japan
Prior art keywords
character
histogram
black dot
pattern
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60261488A
Other languages
Japanese (ja)
Other versions
JPS62121589A (en
Inventor
茂 後藤
義征 山下
真二 成田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP60261488A priority Critical patent/JPH07120390B2/en
Publication of JPS62121589A publication Critical patent/JPS62121589A/en
Publication of JPH07120390B2 publication Critical patent/JPH07120390B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は、文字切出し方法に関し、更に詳細には帳票
に記入された文字を読取り、読取つた文字に基づく文字
パタン列を1文字領域毎に分離して抽出する文字切出し
方法に関する。
Description: TECHNICAL FIELD The present invention relates to a character cutting method, and more specifically, it reads characters written on a form, and a character pattern string based on the read characters is read for each character area. The present invention relates to a character cutting method for separating and extracting.

(従来の技術) 光学式文字認識装置(以下、OCRと略す)においては帳
票に記入された文字を行毎に走査し、光信号を光電変換
器により画像信号に変換し、ラインバツフアに格納す
る。そのラインバツフアを順次読み出し文字パタン列を
1文字領域毎に分離し、その分離された文字パタンによ
り認識を行つているので、文字パタン列の中から1文字
領域を抽出する文字切出し法はOCRの性能に大きく影響
する。
(Prior Art) In an optical character recognition device (hereinafter abbreviated as OCR), characters written on a form are scanned line by line, an optical signal is converted into an image signal by a photoelectric converter, and the image signal is stored in a line buffer. The line buffer is read sequentially and the character pattern string is separated for each character area, and recognition is performed based on the separated character pattern. Therefore, the character segmentation method that extracts one character area from the character pattern string is the OCR performance. Greatly affect the.

OCRにおいて、文字列が格納されているラインバツフア
の上端から下端に向つて1列走査し、この走査と直角な
方向に順次列を移動することにより、ラインバツフアの
文字パタンの読出しを行う。また1列の走査中に黒点
(文字部分を黒点,背景部分を白点)を計数することに
よりヒストグラムを作成し、その黒点ヒストグラムを参
照して、1文字の領域を決定する。
In the OCR, one line is scanned from the upper end to the lower end of the line buffer in which the character string is stored, and the character pattern of the line buffer is read out by sequentially moving the line in a direction perpendicular to this scanning. In addition, a histogram is created by counting black dots (black dots in a character portion and white dots in a background portion) during scanning of one row, and the area of one character is determined by referring to the black dot histogram.

しかしながら手書文字の場合において記入者が文字を傾
斜して記入しているため、あるいは文字記入枠からはみ
出して記入したため、もしくは記入者が文字の一部をは
ねたため等の理由により、隣接する文字が重なつて、2
文字以上の文字パタンが1文字として切出されるという
問題がある。
However, in the case of handwritten characters, the characters are adjacent to each other because the characters are being written with a slant, or because the characters have entered outside the character entry frame, or because the writer has partially spelled the characters. Characters overlap and 2
There is a problem that a character pattern of more than characters is cut out as one character.

この問題点を解決するために本出願人が先に提案した特
願昭60-36573号(特開昭61-196381号公報)ではヒスト
グラム作成手段により文字パタン列に対して黒点ヒスト
グラムを作成し、所定の閾値により黒点ヒストグラムの
始点から終点までの幅を検出手段で検出する。この黒点
ヒストグラムの幅より何文字分に相当するか判定し、2
文字以上の場合は、その文字パタン列の文字外接枠を検
出し、該文字外接枠について、水平方向に予め指定され
た分割数の領域に分割し、各領域内で前記検出された文
字外接枠内で前記ヒストグラム作成手段及び検出手段に
より、再度始点及び終点を検出して前記分割数の領域毎
に各文字パタンの切出し位置を決定していた。
To solve this problem, Japanese Patent Application No. 60-36573 (Japanese Patent Laid-Open No. 61-196381) previously proposed by the present applicant creates a black dot histogram for a character pattern string by a histogram creating means, The width from the start point to the end point of the black dot histogram is detected by the detecting means by a predetermined threshold value. Determine how many characters correspond to the width of this black dot histogram, and
If the number of characters is greater than or equal to the number of characters, the character circumscribing frame of the character pattern string is detected, and the character circumscribing frame is divided into areas of a predetermined number of divisions in the horizontal direction. In the above, the starting point and the ending point are detected again by the histogram creating means and the detecting means, and the cut-out position of each character pattern is determined for each area of the division number.

第6図は、以上説明した従来の文字切出し方式のパタン
例を示したものである。100はパタン101,102の外接枠、
103は外接枠100の水平2等分割線(以下C軸とする)、
104,105はC軸に投影した上側の領域のパタンの黒点ヒ
ストグラムのブロツクを示している。108は外接枠100の
底辺を示している(以下E軸とする)。106,107はE軸1
08上に投影された、C軸とE軸の間のパタンの黒点ヒス
トグラムのブロツクを示している。109,110はブロツク1
04,105および106,107の中点を示している。外接枠100の
水平2等分割線(C軸)103によつて外接枠を2つの領
域に分割し、それぞれの領域で垂直方向の黒点ヒストグ
ラムを作成し、黒点ヒストグラムが連続するブロツク10
4〜105,106〜107を検出しそれぞれの領域でブロツク間
の中点109,110を切出し点とし、第6図に示すごとき、A
-A′を切出し位置としていた。
FIG. 6 shows an example of the pattern of the conventional character cutting method described above. 100 is the outer frame of the patterns 101 and 102,
103 is a horizontal bisector of the circumscribing frame 100 (hereinafter referred to as the C axis),
Reference numerals 104 and 105 denote blocks of the black dot histogram of the pattern in the upper area projected on the C axis. Reference numeral 108 denotes the bottom side of the circumscribing frame 100 (hereinafter referred to as the E axis). 106 and 107 are E axis 1
It shows the block of the black dot histogram of the pattern between the C and E axes projected on 08. Blocks 109 and 110 are 1
The midpoints of 04,105 and 106,107 are shown. The circumscribing frame 100 is divided into two regions by the horizontal bisector line (C axis) 103, and a black dot histogram in the vertical direction is created in each region.
4 to 105 and 106 to 107 are detected, and the midpoints 109 and 110 between the blocks in each area are set as cutout points, and as shown in FIG.
-A 'was set as the cutout position.

(発明が解決しようとする問題点) しかしながら上記従来の文字切出し方式では、外接枠の
水平分割領域において黒点ヒストグラムのブロツクが1
つしか検出できない領域が1つ以上あると1文字を正し
く切出すことは出来なかつた。
(Problems to be Solved by the Invention) However, in the above-described conventional character segmentation method, the block of the black dot histogram is 1 in the horizontally divided area of the circumscribing frame.
If there is more than one area that can be detected only one, it is impossible to cut out one character correctly.

ここで、帳票記入者の習慣、くせ等により文字が記入枠
より大きくはみ出したり、はねてしまうために、文字の
一部が隣接する文字に大きく入り込んだりした例とし
て、より複雑に重つた場合を第7図(a)(b)に示
す。同図(a)はパタン201,202を含む文字外接枠200内
の領域をC軸203で2等分割した場合を示し、同図
(b)は同じ文字外接枠200内の領域をC1軸203及びC2
204で3等分割した場合を示す。いずれの場合もE軸210
に投影されたパタンの黒点ヒストグラムはブロツク209
が1つしか検出されず、従つて正しい切出し位置を検出
することが出来ないというような問題点があつた。さら
に文字外接枠の水平分割数を増加させると処理時間も増
大するという問題があつた。
Here, when the letters are more complicated and overlapped as an example, some of the letters are greatly intruding into the adjacent letters because the letters may be larger than the entry frame or may be bounced off due to the habits of the person who fills out the form, habits, etc. Is shown in FIGS. 7 (a) and 7 (b). The figure (a) shows the case where the area in the character circumscribing frame 200 including the patterns 201 and 202 is equally divided into two by the C axis 203, and the figure (b) shows the area in the same character circumscribing frame 200 by the C 1 axis 203 and C 2 axis
Shown is the case of dividing into three equal parts in 204. E axis 210 in any case
The black dot histogram of the pattern projected on is block 209.
However, there is a problem that only one is detected, and accordingly, the correct cutout position cannot be detected. Furthermore, if the number of horizontal divisions of the character circumscribing frame is increased, the processing time also increases.

本発明は、これらの問題点を解決するためのもので、簡
単な構成で精度の良い文字切出し方法を提供することを
目的とする。
An object of the present invention is to solve these problems, and an object thereof is to provide a highly accurate character cutting method with a simple configuration.

(問題点を解決するための手段) 本発明は前記問題点を解決するために、帳票上の記入さ
れた文字列を光電変換して得られる量子化された文字パ
タン列をラインバッファメモリに格納し、該文字パタン
列から1文字毎の文字パタンを分離抽出する文字切出し
方法において、前記ラインバッファメモリを文字パタン
列の列方向に1列毎に走査して列方向の黒点ヒストグラ
ムを作成し、第1の閾値より大きい黒点ヒストグラムが
連続して第2の閾値以上続く水平ブロックのブロック幅
と第3の閾値とを比較して該幅が何文字分に相当するか
を判定する判定ステップと、前記水平方向ブロックのブ
ロック幅に対応する文字パタン列を行方向に1行毎に走
査して行方向の黒点ヒストグラムを作成し、前記第1の
閾値より大きな黒点ヒストグラムが連続して前記第2の
閾値以上続く垂直ブロックの始点及び終点の座標、及び
前記水平方向ブロックの始点及び終点座標とに基づいて
文字外接枠を検出する外接枠検出ステップと、検出され
た文字外接枠内の文字パタン列を保持するパタン記憶ス
テップと、前記文字外接枠内を水平方向に分割した分割
領域毎に1列毎走査した列方向の黒点ヒストグラムを作
成する黒点ヒストグラム作成ステップと、作成した黒点
ヒストグラムを分割領域毎に記憶するヒストグラム記憶
ステップと、記憶した黒点ヒストグラムを用いて、所望
の分割領域における黒点ヒストグラムの連続する部分で
ある水平ブロックを検出し、隣接する水平ブロックの水
平方向の中心点の座標に基づき当該分割領域の切出し点
を決定する決定ステップと、切出し点が決定できない分
割領域に対し、該分割領域を水平方向に再分割し、前記
パタン記憶ステップ、前記黒点ヒストグラム作成ステッ
プ、前記ヒストグラム記憶ステップ及び前記決定ステッ
プを施して再分割領域のブロックを検出する再分割処理
を行う再分割処理ステップと、全ての領域の切出し点が
決定できるまで前記再分割処理ステップを繰返し、決定
した各分割領域の切出し点及び水平方向の分割線に基づ
いて文字切出し位置を決定するものである。
(Means for Solving Problems) In order to solve the above problems, the present invention stores a quantized character pattern string obtained by photoelectrically converting a written character string on a form in a line buffer memory. Then, in the character cutting method for separating and extracting the character pattern for each character from the character pattern sequence, the line buffer memory is scanned in the column direction of the character pattern sequence for each column to create a black dot histogram in the column direction, A determination step of comparing a block width of a horizontal block in which black dot histograms larger than a first threshold value continuously continue for a second threshold value or more with a third threshold value and determining how many characters the width corresponds to; A character pattern string corresponding to the block width of the horizontal block is scanned row by row in a row direction to create a row-direction black dot histogram, and black dot histograms larger than the first threshold are consecutive. And a circumscribing frame detecting step of detecting a character circumscribing frame based on the coordinates of the starting point and the ending point of the vertical block continuing for the second threshold or more and the coordinates of the starting point and the ending point of the horizontal block, and the detected character circumscribing frame. A pattern storing step for holding a character pattern string in the inside, a black dot histogram creating step for creating a black dot histogram in the column direction by scanning one by one for each divided area obtained by horizontally dividing the character circumscribing frame, and the created black dot Using the histogram storage step of storing the histogram for each divided area and the stored black dot histogram, the horizontal blocks that are the continuous portions of the black dot histogram in the desired divided area are detected, and the horizontal center point of the adjacent horizontal block is detected. The step of determining the cutout point of the divided area based on the coordinates of the The divided area is redivided in the horizontal direction, and the pattern storage step, the black dot histogram creation step, the histogram storage step and the determination step are performed to perform a redivision processing for detecting a block of the redivided area. The subdivision processing step and the subdivision processing step are repeated until the cutout points of all the areas can be determined, and the character cutout position is determined based on the determined cutout points of each divided area and the horizontal division line. .

(作用) 本発明によれば以上のように文字切出し方法を構成した
ので、技術的手段は次のように作用する。
(Function) According to the present invention, since the character cutting method is configured as described above, the technical means functions as follows.

判定ステップは、ラインバッファメモリを文字パタン列
の列方向に1列毎に走査して列方向の黒点ヒストグラム
を作成し、第1の閾値より大きい黒点ヒストグラムが連
続して第2の閾値以上続く水平ブロックのブロック幅と
第3の閾値とを比較して該幅が何文字分に相当するかを
判定する。次に、外接枠検出ステップは水平方向ブロッ
クのブロック幅に対応する文字パタン列を行方向に1行
毎に走査して行方向の黒点ヒストグラムを作成し、第1
の閾値より大きな黒点ヒストグラムが連続して第2の閾
値以上続く垂直ブロックの始点及び終点の座標、及び水
平方向ブロックの始点及び終点座標とに基づいて文字外
接枠を検出する。パタン記憶ステップは検出された文字
外接枠内の文字パタン列を保持する。黒点ヒストグラム
作成ステップは文字外接枠内を水平方向に分割した分割
領域毎に1列毎走査した列方向の黒点ヒストグラムを作
成する。ヒストグラム記憶ステップは作成した黒点ヒス
トグラムを分割領域毎に記憶する。決定ステップは記憶
した黒点ヒストグラムを用いて、所望の分割領域におけ
る黒点ヒストグラムの連続する部分である水平ブロック
を検出し、隣接する水平ブロックの水平方向の中心点の
座標に基づき当該分割領域の切出し点を決定する。そし
て、再分割処理ステップは切出し点が決定できない分割
領域に対し、該分割領域を水平方向に再分割し、パタン
記憶ステップ、黒点ヒストグラム作成ステップ、ヒスト
グラム記憶ステップ及び決定ステップを施して再分割領
域のブロックを検出する再分割処理を行うが、全ての領
域の切出し点が決定できるまでこの再分割処理ステップ
を繰返す。最終的に決定した分割領域の切出し点及び水
平方向の分割線に基づいて文字切出し位置を決定する。
従つて、隣接する文字間で文字の一部が深く入り込んだ
ような場合にも精度よく文字の切出しを行なうことがで
きる。
In the determination step, the line buffer memory is scanned for each column in the column direction of the character pattern column to create a black dot histogram in the column direction, and black dot histograms larger than the first threshold value are consecutively continued for the second threshold value or more. The block width of the block is compared with the third threshold to determine how many characters the width corresponds to. Next, in the circumscribing frame detecting step, the character pattern string corresponding to the block width of the horizontal block is scanned row by row in a row direction to create a black dot histogram in the row direction.
The character circumscribing frame is detected based on the coordinates of the starting point and the ending point of the vertical block and the coordinates of the starting point and the ending point of the horizontal block in which the black dot histograms larger than the threshold value continuously continue for the second threshold value or more. The pattern storing step holds the character pattern string in the detected character circumscribing frame. In the black dot histogram creating step, a black dot histogram in the column direction is created by scanning one column for each divided area obtained by horizontally dividing the character circumscribing frame. The histogram storage step stores the created black dot histogram for each divided area. The determining step uses the stored black spot histogram to detect horizontal blocks that are continuous portions of the black spot histogram in the desired divided area, and based on the coordinates of the horizontal center point of the adjacent horizontal block, the cut-out point of the divided area. To decide. Then, in the re-division processing step, the division area is re-divided in the horizontal direction with respect to the division area in which the cut-out point cannot be determined, and the pattern storage step, the black point histogram creation step, the histogram storage step and the determination step are performed to determine the re-division area. The subdivision processing for detecting the blocks is performed, and this subdivision processing step is repeated until the cutout points of all the regions can be determined. The character cutout position is determined based on the finally determined cutout point of the divided area and the horizontal dividing line.
Therefore, even when a part of a character is deeply inserted between adjacent characters, the character can be cut out with high accuracy.

(実施例) 本発明の実施例を第1図乃至第5図に基づいて説明す
る。第1図はこの発明の一実施例を示すブロツク図であ
る。同図において300は図示されていない光電変換部よ
りの画像信号、301はラインバツフア、302はパタンバツ
フア、303はパタンバツフアのX方向のアドレスカウン
タ、同じく304はY方向のアドレスカウンタ、305は、ラ
インバツフア301の出力とパタンバツフア302の出力を切
換える切換回路、306は、ラインバツフア301あるいはパ
タンバツフア302の黒点ヒストグラム作成回路、307はラ
インバツフア301の黒点ヒストグラムを格納する1行ヒ
ストグラムメモリ、308はパタンバツフア302の黒点ヒス
トグラムを格納するパタンヒストグラムメモリ、309
は、1行ヒストグラムメモリ307とパタンヒストグラム
メモリ308を切換える切換回路、310は黒点ヒストグラム
演算回路、311は黒点ヒストグラムのブロツク,及び文
字外接枠を検出するブロツク検出回路、312は制御回路
である。また、同図において一重の矢印はデータの流れ
を示し、二重の矢印は制御回路312の制御信号を示す。
(Embodiment) An embodiment of the present invention will be described with reference to FIGS. 1 to 5. FIG. 1 is a block diagram showing an embodiment of the present invention. In the figure, 300 is an image signal from an unillustrated photoelectric conversion unit, 301 is a line buffer, 302 is a pattern buffer, 303 is an address counter in the X direction of the pattern buffer, 304 is an address counter in the Y direction, and 305 is a line buffer 301. A switching circuit for switching between the output and the output of the pattern buffer 302, 306 a black dot histogram creating circuit of the line buffer 301 or the pattern buffer 302, 307 a one-line histogram memory for storing the black dot histogram of the line buffer 301, and 308 a black dot histogram of the pattern buffer 302. Pattern histogram memory, 309
Is a switching circuit for switching between the one-row histogram memory 307 and the pattern histogram memory 308, 310 is a black dot histogram operation circuit, 311 is a black dot histogram block and a block detection circuit for detecting a character circumscribing frame, and 312 is a control circuit. Further, in the figure, a single arrow indicates a data flow, and a double arrow indicates a control signal of the control circuit 312.

以下に、第1図のブロツク図を用いて本実施例の動作に
ついて説明を行う。
The operation of this embodiment will be described below with reference to the block diagram of FIG.

帳票上の文字列は光電変換器により2値化された画像信
号300に変換され、ラインバツフア301に格納される。制
御回路312の制御により以下の処理が行われる。制御回
路312はラインバツフア301に格納されている画像信号を
ラインバツフア301の先頭位置より1列単位に読出し、
順次列を更進し、1行分の文字パタンデータを全て読出
した時点で終了する。また、制御回路312では、切換回
路305をラインバツフア301に切換えて、ラインバツフア
301より1列単位にパタンデータを読出すと同時に黒点
ヒストグラム作成回路306を起動する。黒点ヒストグラ
ム作成回路306では、1列の読出し中の黒点数を計数す
ることにより当該列の黒点ヒストグラムを作成し、1行
ヒストグラムメモリ307に格納する。以上の処理を繰り
返し1行分、全列の黒点ヒストグラムを1行ヒストグラ
ムメモリ307に格納した時点で処理を終了する。1行ヒ
ストグラムメモリ307はラインバツフア301の全列数に相
当する黒点ヒストグラムを格納できる容量をもつてい
る。
The character string on the form is converted into a binarized image signal 300 by a photoelectric converter and stored in the line buffer 301. The following processing is performed under the control of the control circuit 312. The control circuit 312 reads out the image signal stored in the line buffer 301 from the head position of the line buffer 301 in units of one column,
The sequence is further advanced, and the process ends when all the character pattern data for one line is read. Further, in the control circuit 312, the switching circuit 305 is switched to the line buffer 301, and the line buffer
At the same time as reading the pattern data in units of one column from 301, the black dot histogram creation circuit 306 is activated. The black dot histogram creation circuit 306 creates the black dot histogram of the column by counting the number of black dots being read in the column, and stores it in the one-row histogram memory 307. The above processing is repeated, and the processing is ended when the black dot histograms of all rows are stored in the one row histogram memory 307. The one-row histogram memory 307 has a capacity capable of storing a black dot histogram corresponding to the total number of columns of the line buffer 301.

1行分の黒点ヒストグラムを作成した後は、1行ヒスト
グラムメモリ307を先頭より読出して、黒点ヒストグラ
ムを参照してブロツクの検出を行う。制御回路312は切
換回路309を1行ヒストグラムメモリ307に切換え、ブロ
ツク検出回路311を起動する。ブロツク検出回路311は1
行ヒストグラムメモリ307より、順次黒点ヒストグラム
を読出し、黒点ヒストグラムと閾値α(α:定数、ただ
し、本実施例においてはα=1とする)を比較し、黒点
ヒストグラムが大きければ文字のブロツクの始点候補と
し、順次黒点ヒストグラムの格納番地を更新し、読出さ
れた黒点ヒストグラムが閾値αより大きい列を計数し、
β(β:定数、ただし、本実施例においてはβ=2とす
る)列連続した場合、前記始点候補を始点とする。さら
に列の更新を続け、始点が検出された後、初めて黒点ヒ
ストグラムが閾値αより小さくなる列を終点とし、始点
から終点までの長さで示される水平ブロックの領域を検
出する。次に、制御回路312は検出された水平ブロック
の長さを読取対象としている文字の平均的な幅より求め
られた閾値γ1(γ1は定数、ただし、本実施
例においてはγ=75,γ=125とする)と比較する。
そして、当該ブロツクの長さWが閾値γより小さいと
きには当該ブロツクを1文字と判定し、γ≦W≦γ
のときは2文字と判定し、さらに、W>γのときは3
文字以上と判定する。また、制御回路312では当該ブロ
ツクの判定の後、該ブロツクについてブロツク検出回路
311で外接枠を検出する。この外接枠の検出は次のよう
に行う。即ち、水平ブロックの始点から終点までに対応
する文字列パタンの部分を行方向に1行毎に走査して行
方向の黒点ヒストグラムを作成し、図示しない一時ヒス
トグラムメモリに記憶する。この行方向の黒点ヒストグ
ラムを順に読み出すことにより前記同様の処理を行い、
所定の条件を満足する黒点ヒストグラムの連続する垂直
ブロックの領域を検出し、このブロックの始点及び終点
とすでに求めている水平ブロックの始点及び終点座標か
ら外接枠の座標を求める。さらに、外接枠の座標が検出
されると、制御回路312はこの外接枠で示される文字パ
タンをラインバッファ301内から読み出しパタンバッフ
ァ302に転送する。ここで、W>γの場合つまり前記
ブロツクを3文字以上と判定した場合、始点からγ
で切出し処理を行つて1文字目と2文字目を分割し、そ
の結果の切出し点を始点としてその始点からγまで切
出し処理を行つてさらに2文字目と3文字目を分割する
ごとき順次切出しを行いWまで処理することとなる。こ
こで、後述する第4図に示すように文字外接枠の上辺左
端を原点とし、下辺位置をPB、右辺位置をPRとする。
After the black dot histogram for one line is created, the one line histogram memory 307 is read from the beginning and the block is detected by referring to the black dot histogram. The control circuit 312 switches the switching circuit 309 to the one-row histogram memory 307 and activates the block detection circuit 311. Block detection circuit 311 is 1
Black dot histograms are sequentially read from the line histogram memory 307, the black dot histogram is compared with a threshold value α (α: constant, but α = 1 in this embodiment), and if the black dot histogram is large, a candidate for the start point of a character block is obtained. Then, the storage addresses of the black dot histograms are sequentially updated, and the columns in which the read black dot histograms are larger than the threshold value α are counted,
When β (β: constant, but β = 2 in this embodiment) columns are continuous, the starting point candidate is set as the starting point. Further, the column is continuously updated, and after the start point is detected, the row in which the black dot histogram becomes smaller than the threshold value α is set as the end point, and the area of the horizontal block indicated by the length from the start point to the end point is detected. Next, the control circuit 312 determines the thresholds γ 1 and γ 21 and γ 2 are constants in the present embodiment, which are obtained from the average width of the character to be read, based on the detected horizontal block length. In γ 1 = 75, γ 2 = 125).
Then, when the length W of the block is smaller than the threshold γ 1 , the block is determined to be one character, and γ 1 ≦ W ≦ γ 2
When it is, it is judged as two characters, and when W> γ 2 , it is judged as 3 characters.
It is judged that it is more than the character. In addition, the control circuit 312 determines the block and then detects the block.
311 detects the circumscribing frame. The circumscribing frame is detected as follows. That is, the portion of the character string pattern corresponding to the start point to the end point of the horizontal block is scanned line by line in the row direction to create a black dot histogram in the row direction and store it in a temporary histogram memory (not shown). The same process as above is performed by sequentially reading out the black dot histograms in the row direction,
The area of continuous vertical blocks of the black dot histogram satisfying a predetermined condition is detected, and the coordinates of the circumscribing frame are obtained from the start point and end point of this block and the start point and end point coordinates of the horizontal block already obtained. Further, when the coordinates of the circumscribed frame are detected, the control circuit 312 transfers the character pattern indicated by the circumscribed frame from the line buffer 301 to the read pattern buffer 302. Here, if W> γ 2 , that is, if the block is determined to be 3 characters or more, the cutout process is performed from the start point to γ 2 to divide the first and second characters, and the resulting cutout point is used as the start point. The cut-out process is performed from the starting point to γ 2, and the cut-out process is further performed such that the second character and the third character are further divided and the process is performed up to W. Here, as shown in FIG. 4 which will be described later, the left end of the upper side of the character circumscribing frame is the origin, the lower side position is PB, and the right side position is PR.

次に、上記のような文字の判定により2文字以上と判定
されたものの処理について第1図に基づいて説明する。
Next, the processing of a character that has been determined to be two or more by the above character determination will be described with reference to FIG.

制御回路312は切換回路305をパタンバツフア302に切換
え黒点ヒストグラム作成回路306を起動する。黒点ヒス
トグラム作成回路306は、パタンバツフア302に格納され
ている文字パタン列について、その文字外接枠内の垂直
方向の黒点ヒストグラムを作成する。以下にその詳細に
ついて第2図および第3図を用いて説明する。
The control circuit 312 switches the switching circuit 305 to the pattern buffer 302 and activates the black dot histogram creation circuit 306. The black dot histogram creation circuit 306 creates a black dot histogram in the vertical direction within the character circumscribing frame for the character pattern string stored in the pattern buffer 302. The details will be described below with reference to FIGS. 2 and 3.

第2図はパタンバツフア302の垂直方向の黒点ヒストグ
ラムを作成するブロツクである。同図において、308は
第1図と同一のパタンヒストグラムメモリ、400は黒点
ヒストグラム作成回路306の黒点ヒストグラム、401はパ
タンバツフア302のXアドレスカウンタ303の出力を示
す。402は文字外接枠内を水平方向に分割し、その分割
領域の文字外接枠の上側よりアドレスを示す領域アドレ
スカウンタ、403はパタンバツフア302のYアドレスカウ
ンタ304の出力、404は検出回路312より与えられる文字
外接枠の分割情報、405は分割情報404により分割位置を
算出する分割位置指定回路、406はYアドレスカウンタ3
04の出力403と分割位置指定回路405の出力の一致を検出
する分割位置一致検出回路、410はパタンヒストグラム
メモリ308の出力、411は分割位置が一致したことを制御
回路312に知らせる一致信号を示している。412は領域ア
ドレスカウンタ402を制御する制御回路312よりの制御信
号(アドレス)である。
FIG. 2 is a block for creating a vertical black dot histogram of the pattern buffer 302. In the figure, 308 is the same pattern histogram memory as in FIG. 1, 400 is the black dot histogram of the black dot histogram creating circuit 306, and 401 is the output of the X address counter 303 of the pattern buffer 302. 402 is an area address counter that horizontally divides the character circumscribing frame and indicates an address from the upper side of the character circumscribing frame of the divided area, 403 is the output of the Y address counter 304 of the pattern buffer 302, and 404 is provided from the detection circuit 312. Division information of the character circumscribing frame, 405 is a division position designating circuit that calculates the division position based on the division information 404, and 406 is a Y address counter
A division position coincidence detection circuit that detects a coincidence between the output 403 of 04 and the output of the division position designation circuit 405, 410 is an output of the pattern histogram memory 308, and 411 is a coincidence signal that notifies the control circuit 312 that the division positions coincide. ing. Reference numeral 412 is a control signal (address) from the control circuit 312 that controls the area address counter 402.

次に第3図は第1図および第2図に示したパタンヒスト
グラムメモリ308の構成を示したものである。501は文字
外接枠検出用エリアであり、502,503は黒点ヒストグラ
ムの演算およびブロツク検出用のエリアである分割領域
用テンポラリ(1),(2)、504〜509は所定の分割領
域の黒点ヒストグラムを格納するエリアを示している。
Next, FIG. 3 shows the structure of the pattern histogram memory 308 shown in FIG. 1 and FIG. 501 is an area for character circumscribing frame detection, 502, 503 are temporary areas for dividing areas (1) and (2) which are areas for calculating a black point histogram and a block, and 504 to 509 are black point histograms for predetermined divided areas. It shows the area to be used.

第1図乃至第2図を用いて文字外接枠内の文字パタン列
について垂直方向の黒点ヒストグラムの作成方法につい
て説明する。制御回路312では文字外接枠が検出される
と、Yアドレス方向の所定の分割位置を算出する。本実
施例においては分割数は6とした。次に制御回路312は
第2図に示す領域アドレスカウンタ402に所定のアドレ
ス(412)をセツトし、分割位置指定回路405に分割位置
情報404をセツトした後、黒点ヒストグラム作成回路306
を起動する。黒点ヒストグラム作成回路306は、Xアド
レスカウンタ303,およびYアドレスカウンタ304を初期
化し、Yアドレスカウンタ304をインクリメントしてパ
タンの黒点の計数を行い、Yアドレスが文字外接枠の下
辺に到達した時点で黒点の計数結果をパタンヒストグラ
ムメモリ308に格納し、Xアドレスカウンタ303をインク
リメントし、Yアドレスカウンタ304はクリヤする。以
上の処理をXアドレスカウンタ303が文字外接枠の右辺
に到達するまで行う。なお、パタンバツフア302の座標
は第4象限に取つている。
A method of creating a black dot histogram in the vertical direction for a character pattern string in a character circumscribing frame will be described with reference to FIGS. 1 and 2. When the character circumscribing frame is detected, the control circuit 312 calculates a predetermined division position in the Y address direction. In this embodiment, the number of divisions is 6. Next, the control circuit 312 sets a predetermined address (412) in the area address counter 402 shown in FIG. 2, sets the division position information 404 in the division position designation circuit 405, and then sets the black dot histogram creation circuit 306.
To start. The black dot histogram creation circuit 306 initializes the X address counter 303 and the Y address counter 304, increments the Y address counter 304 to count the black dots of the pattern, and when the Y address reaches the lower side of the character circumscribing frame. The count result of the black dots is stored in the pattern histogram memory 308, the X address counter 303 is incremented, and the Y address counter 304 is cleared. The above processing is repeated until the X address counter 303 reaches the right side of the character circumscribing frame. The coordinates of the pattern buffer 302 are in the fourth quadrant.

次に第1図乃至第3図を用いて文字外接枠の分割領域毎
の黒点ヒストグラムの作成方法を示す。黒点ヒストグラ
ム作成回路306によりYアドレスカウンタ304がインクリ
メントされて分割位置指定回路405で与えられる分割位
置とYアドレスカウンタ304が分割位置一致検出回路406
により一致が検出されると、そのときまでに計数された
黒点数をパタンヒストグラムメモリ308の領域アドレス
カウンタ402とXアドレスカウンタ401で示される位置に
格納する。同時に領域アドレスカウンタ402をインクリ
メントする。なお、領域アドレスカウンタ402はYアド
レスカウンタ304が初期化されるときに同時に初期化す
る。以上の様にして分割領域毎の黒点ヒストグラムが第
3図に示すパタンヒストグラムメモリ308の分割領域
(1)504〜分割領域(6)509に作成され格納される。
Next, a method for creating a black dot histogram for each divided area of the character circumscribing frame will be described with reference to FIGS. The Y address counter 304 is incremented by the black dot histogram creation circuit 306 and the division position given by the division position designation circuit 405 and the Y address counter 304 are divided position coincidence detection circuit 406.
When a match is detected by, the number of black points counted up to that point is stored in the position indicated by the area address counter 402 and the X address counter 401 of the pattern histogram memory 308. At the same time, the area address counter 402 is incremented. The area address counter 402 is initialized at the same time when the Y address counter 304 is initialized. As described above, the black dot histogram for each divided area is created and stored in the divided area (1) 504 to the divided area (6) 509 of the pattern histogram memory 308 shown in FIG.

分割領域毎の黒点ヒストグラムが作成されると、第1図
において制御回路312は、黒点ヒストグラム演算回路310
を起動して、文字外接枠を中央で分割した場合の上下の
分割領域の黒点ヒストグラムを作成する。作成方法は上
側については第3図に示す分割領域(3)506に格納さ
れている黒点ヒストグラムそのものであり、下側の領域
は、分割領域(6)509の黒点ヒストグラムから分割領
域(3)506の黒点ヒストグラムを差し引いた残りであ
る。すなわち、ある分割領域の黒点ヒストグラムをHnm
(nは1〜6の分割領域の番号、mは0〜PRでPRは文字
外接枠の右端)とし、求める黒点ヒストグラムで上側の
分割領域のものをHum,下側をHLmとすれば、以下の式に
より求める。
When the black dot histogram for each divided area is created, the control circuit 312 in FIG.
Start and create a black dot histogram of the upper and lower divided areas when the character circumscribing frame is divided at the center. The creation method is the black dot histogram itself stored in the divided area (3) 506 shown in FIG. 3 for the upper side, and the lower area is from the black point histogram of the divided area (6) 509 to the divided area (3) 506. It is the rest after subtracting the black dot histogram of. That is, the black dot histogram of a certain divided area is set to Hnm
(N is the number of the divided area of 1 to 6, m is 0 to PR and PR is the right end of the character circumscribing frame), and in the obtained black dot histogram, the upper divided area is Hum and the lower side is H L m. , Calculated by the following formula.

Hum=H3m HLm=H6m−H3m 黒点ヒストグラム演算回路で、2分割した領域の黒点ヒ
ストグラムが求まると第3図に示すパタンヒストグラム
メモリ308の分割領域用テンポラリ(1)502および
(2)503に格納する。
Hum = H 3 m H L m = H 6 m−H 3 m When the black dot histogram calculation circuit obtains the black dot histogram of the two divided areas, the temporary area (1) 502 for the divided areas of the pattern histogram memory 308 shown in FIG. 3 is obtained. And (2) 503.

次に制御回路312は、切換回路309をパタンヒストグラム
メモリ308に切換え、前記検出し黒点ヒストグラムにつ
いてブロツク検出回路311を起動しブロツクを検出す。
このときの閾値はα=1,β=2とした。ブロツクが検出
されたら隣接するブロツク間の中点を求め切出し点とす
る。該切出し点が1つの分割領域で複数個検出された場
合は、文字外接枠の水平方向の中央位置に最も近いもの
を切出し点とする。上下それぞれの分割領域で切出し点
が決定されたら、それらの切出し点により切出し位置を
決定する。もし各分割領域の一方でも切出し点が決定さ
れない場合には、その決定されなかつた分割領域につい
て、さらに3分割した領域の黒点ヒストグラムを黒点ヒ
ストグラム演算回路310により作成しブロツク検出回路3
11にて、3つの分割領域それぞれで黒点ヒストグラムの
ブロツクを検出して分割領域毎の切出し点を決定する。
分割領域の切出し点が全て検出されたら各切出し点と水
平分割線とにより文字の切出し位置とする。
Next, the control circuit 312 switches the switching circuit 309 to the pattern histogram memory 308, and activates the block detection circuit 311 for the detected black dot histogram to detect the block.
The thresholds at this time were α = 1 and β = 2. When a block is detected, the midpoint between adjacent blocks is determined and used as the cutout point. When a plurality of cutout points are detected in one divided area, the cutout point is closest to the horizontal center position of the character circumscribing frame. When the cutout points are determined in each of the upper and lower divided areas, the cutout position is determined by those cutout points. If the cut-out point is not determined even in one of the divided areas, the black-point histogram calculation circuit 310 creates a black-point histogram of the area that has not been determined and is further divided into three, and the block detection circuit 3
In 11, the block of the black dot histogram is detected in each of the three divided areas, and the cut-out point for each divided area is determined.
When all the cut-out points of the divided area are detected, the cut-out position of the character is determined by each cut-out point and the horizontal dividing line.

以下に、第4図に示す切出し位置が決定されたパタン例
を使用して、パタンの切出方法を説明する。また、第4
図は、第1図のブロツク図におけるパタンバツフア302
に格納されているパタンおよび切出し位置を示してい
る。座標は横軸をX軸,縦軸をY軸としており、パタン
バツフア302は第4象限に位置しているものとする。XM
およびYMはパタンバツフア302の大きさを示しており、
本実施例においてはXM=YM=128メツシユとした。PRお
よびPBはパタンバツフア302に格納されているパタンの
外接枠を示すものでX=0,X=PR,Y=0,Y=PRの4本の直
線により表わされる。第4図において600,601はパタ
ン、602で示される折れ線は切出し位置を示している。y
3の分割線により上下の分割領域に分けてそれぞれの領
域の黒点ヒストグラムのブロツク検出を行いそれぞれの
分割領域の切出し点を求めると上側はx1と検出されるが
下側は切出し位置を検出することが出来ない。そこで下
側のy3からPBまでの領域について予め指定されている点
y4,y5で3分割する。次にそれぞれの分割領域について
その領域の黒点ヒストグラムによりブロツク検出を行い
切出し点を決定し、x2およびx3を得る。以上により文字
の切出し線が、折れ線602のように決定される。よつて
文字外接枠と該折れ線602で示される多角形内のパタン6
00,601を次段に転送する。
The pattern cutting method will be described below with reference to the pattern example shown in FIG. 4 in which the cutting position is determined. Also, the fourth
The figure shows the pattern buffer 302 in the block diagram of FIG.
The pattern and the cut-out position stored in FIG. The coordinates are such that the horizontal axis is the X axis and the vertical axis is the Y axis, and the pattern buffer 302 is located in the fourth quadrant. XM
And YM indicate the size of the pattern buffer 302,
In this embodiment, XM = YM = 128 mesh. PR and PB indicate the circumscribing frames of the patterns stored in the pattern buffer 302, and are represented by four straight lines X = 0, X = PR, Y = 0, Y = PR. In FIG. 4, 600 and 601 are patterns, and the polygonal line indicated by 602 is the cutout position. y
Divide the upper and lower divided areas by the dividing line of 3 and detect the block of the black dot histogram of each area to find the cutout point of each divided area.The upper side is detected as x 1 , but the lower side detects the cutout position. I can't. Therefore, the points specified in advance for the area from y 3 to PB on the lower side
Divide into 3 by y 4 and y 5 . Next, for each divided area, block detection is performed by the black dot histogram of that area to determine the cutout points, and x 2 and x 3 are obtained. As described above, the cutout line of the character is determined as the polygonal line 602. Therefore, the character circumscribing frame and the pattern 6 within the polygon indicated by the polygonal line 602
Transfer 00,601 to the next stage.

次に、第5図に示すフローチヤートに基づいて本実施例
の流れを詳細に説明する。第5図においてS700で処理を
開始する。S701でラインバツフア301の読出し位置を先
頭列にセツトし、初期化を行つた後、S702でラインバツ
フア301に格納されたパタンデータを1列読み出し切換
回路305を介し黒点ヒストグラム作成回路306にて黒点ヒ
ストグラムを作成し1行ヒストグラムメモリ307に格納
する。S703においては1行分全ての黒点ヒストグラムの
作成終了を検出し、1行全て作成されるまでS702の処理
を繰り返す。S704においては処理した文字を管理し、1
行中全部の文字の切出しが終了するまで以下の処理を繰
り返す。S705では黒点ヒストグラムを1行ヒストグラム
メモリ307より読出し、黒点ヒストグラムの始点、およ
び終点を検出しブロツクとする。また、該ブロツクの長
さと閾値γ1とを比較し何文字で構成されるブロツ
クであるかを保持しておく。S706においてはブロツク検
出回路311においてブロツクの外接枠を検出し、その外
接枠内のパタンデータをパタンバツフア302に転送す
る。S707においては前記保持されたブロツクの長さの判
定結果により、1文字であればパタンバツフア302のパ
タンデータを出力段へ転送し次の文字の処理へ進む、2
文字以上であれば、以下の処理を行う。S708において文
字外接枠内の文字パタン列に垂直方向の黒点ヒストグラ
ムを指定された分割領域毎に作成し、パタンヒストグラ
ムメモリ308に格納する。S709で文字外接枠の分割位置
を中央に選定し、S710で黒点ヒストグラム演算回路310
で2分割された上下の分割領域の黒点ヒストグラムをそ
れぞれ作成し、パタンヒストグラムメモリ308に格納す
る。S711ではS710で作成された2つの領域の黒点ヒスト
グラムのブロツクを検出し、切出し点を決定する。S712
では各分割領域の切出し点より位置を判定し、S713で全
ての分割領域で決定済であれば、S714で文字の切出し位
置を検出し、S715でパタンを次段へ転送し、次の文字の
処理へ進む。S713において、切出し点が決定されなかつ
た領域がある場合にはS717へ進み、該領域についてさら
に3分割する分割点を決定し、S710へ進み再度分割領域
毎の黒点ヒストグラムを作成し、ブロツク検出して分割
領域の切出し点を決定する。以上の処理により文字の切
出し位置を決定する。
Next, the flow of this embodiment will be described in detail based on the flow chart shown in FIG. In FIG. 5, the process starts at S700. After the read position of the line buffer 301 is set to the first column in S701 and initialization is performed, the pattern data stored in the line buffer 301 is processed in S702 via the one-column read switching circuit 305 and the black dot histogram creation circuit 306 creates a black dot histogram. It is created and stored in the one-line histogram memory 307. In S703, the completion of creation of the black dot histograms for all the lines is detected, and the process of S702 is repeated until all the lines are created. In S704, the processed characters are managed and 1
The following process is repeated until cutting out all the characters in the line is completed. In S705, the black dot histogram is read from the one-line histogram memory 307, and the start point and end point of the black dot histogram are detected and set as a block. Also, the length of the block is compared with the thresholds γ 1 and γ 2 to hold how many characters the block is made up of. In S706, the block detection circuit 311 detects the circumscribing frame of the block, and transfers the pattern data in the circumscribing frame to the pattern buffer 302. In S707, the pattern data of the pattern buffer 302 is transferred to the output stage if there is one character according to the judgment result of the length of the held block and the process proceeds to the next character.
If it is more than the character, the following processing is performed. In S 708, a black dot histogram in the vertical direction is created in the character pattern string in the character circumscribing frame for each specified divided area and stored in the pattern histogram memory 308. In S709, the division position of the character circumscribing frame is selected at the center, and in S710, the black dot histogram calculation circuit 310
The black dot histograms of the upper and lower divided areas divided into two are created respectively and stored in the pattern histogram memory 308. In S711, the block of the black dot histogram of the two areas created in S710 is detected, and the cutout point is determined. S712
Then, the position is determined from the cutout point of each divided area, and if it is determined in all the divided areas in S713, the cutout position of the character is detected in S714, the pattern is transferred to the next stage in S715, and the next character Go to processing. In S713, if there is a region where the cutout point has not been determined, the flow proceeds to S717, the division point for further dividing into three regions is determined, and the flow proceeds to S710 to again create a black dot histogram for each divided region, and detect the block. To determine the cut-out point of the divided area. By the above processing, the character cutout position is determined.

本実施例においては、切出し点が検出できない分割領域
は1回の再生分割で切出し点が検出できたが、切出し点
が検出できない領域について上記切出し点検出処理を繰
返し実施して切出し点を検出することにより、より複雑
に重つた文字を切出すことも可能である。
In the present embodiment, in the divided area where the cutout point cannot be detected, the cutout point can be detected by one reproduction division, but the cutout point detection processing is repeatedly performed for the area where the cutout point cannot be detected to detect the cutout point. By doing so, it is possible to cut out more complicated overlapping characters.

以上のように、本実施例によれば、前後の文字パタンが
当該文字パタンに重なつた場合でも、当該文字パタンが
欠落したり、前後の文字パタンの一部が混入することな
く文字パタンの切出しを行うことが出来る。
As described above, according to the present embodiment, even when the character patterns before and after overlap with the character pattern, the character pattern is not missing or part of the character pattern before and after is mixed without changing the character pattern. It can be cut out.

さらに、本実施例においては、2文字が重なり合つた場
合を示したが、3文字以上重なり合つた場合において
も、重なり合つた文字の先頭より2文字を基準に順次切
出し点を決定することにより同様な効果を得ることが出
来る。
Further, in the present embodiment, the case where two characters overlap each other has been shown. However, even when three characters or more overlap each other, the cutout points are sequentially determined based on two characters from the beginning of the overlapped characters. Similar effects can be obtained.

(発明の効果) 以上説明したように、本発明によれば、文字外接枠を水
平方向に分割して黒点ヒストグラムを作成し、分割領域
毎に切出し位置を決定しているので当該文字の一部が欠
落したり、他の文字の一部が混入することなく精度の高
い文字切出しを行うことが出来る。分割領域の切出し点
が決定されない分割領域のみについて、切出し点が検出
されるまで繰り返し再分割を行つているので隣接する文
字が複雑に重つている場合でも処理時間が早く精度の良
い切出しを行うことが出来る。分割領域毎の黒点ヒスト
グラムを予め指定された領域数分を1回のパタンバツフ
アの走査により作成しているので処理時間の速い文字切
出しを実現することが可能である。また、単なる黒点の
計数という処理により作成される黒点ヒストグラムを利
用して高精度な文字切出しを実現しているので簡単な回
路構成で実現することが可能である。
(Effect of the invention) As described above, according to the present invention, a character circumscribing frame is horizontally divided to create a black dot histogram, and the cutout position is determined for each divided area. It is possible to perform highly accurate character cutout without omission or mixing of some other characters. The cut point of the divided area is not determined.Since the subdivision is repeatedly performed until the cut point is detected, even if the adjacent characters overlap in a complicated manner, the processing time is fast and the accurate cut is performed. Can be done. Since the black spot histogram for each of the divided areas is created by performing the pattern scan once for the number of areas designated in advance, it is possible to realize the character cutting with a short processing time. Further, since a highly accurate character cutout is realized by using a black dot histogram created by a process of simply counting black dots, it can be realized with a simple circuit configuration.

さらに、本発明を用いることにより、隣接した文字が重
り合つた場合に切出しが可能であるので文字記入枠の間
隔を小さくすることができ1行当りの読取可能文字数を
増やすことができる。従つて多くの種類の帳票等の記録
媒体に対応でき、帳票設計の自由度が大きく、従つて性
能のよい光学式文字認識装置が実現出来るという効果が
ある。
Further, by using the present invention, it is possible to cut out when adjacent characters overlap each other, so that the interval between the character entry frames can be reduced and the number of readable characters per line can be increased. Therefore, there is an effect that it can be applied to various types of recording media such as forms, the degree of freedom in designing forms is large, and thus an optical character recognition device with good performance can be realized.

【図面の簡単な説明】[Brief description of drawings]

第1図は本発明の一実施例を示すブロツク図、第2図は
第1図の実施例の文字外接枠内の黒点ヒストグラムを作
成するためのブロツク図、第3図はパタンヒストグラム
メモリの構成図、第4図は切出し位置が決定されたパタ
ン例を示す図、第5図は第1図の実施例の文字切出し処
理を示すフローチヤート、第6図は従来の文字切出し方
式によるパタン例を示す図、第7図(a),(b)は従
来の方式で問題となるパタン例を示す図である。 300……画像信号、301……ラインバツフア、302……パ
タンバツフア、303……Xアドレスカウンタ、304……Y
アドレスカウンタ、305,309……切換回路、306……黒点
ヒストグラム作成回路、307……1行ヒストグラムメモ
リ、308……パタンヒストグラムメモリ,310……黒点ヒ
ストグラム演算回路、311……ブロツク検出回路、312…
…制御回路、400……黒点ヒストグラム、401……Xアド
レスカウンタの出力、402……領域アドレスカウンタ、4
03……Yアドレスカウンタの出力、404……分割情報、4
05……分割位置指定回路、410……パタンヒストグラム
メモリの出力、411……一致信号。
FIG. 1 is a block diagram showing an embodiment of the present invention, FIG. 2 is a block diagram for creating a black dot histogram in the character circumscribing frame of the embodiment of FIG. 1, and FIG. 3 is a pattern histogram memory configuration. FIGS. 4A and 4B are diagrams showing pattern examples in which the clipping position is determined, FIG. 5 is a flow chart showing the character clipping process of the embodiment of FIG. 1, and FIG. 6 is a pattern example by the conventional character clipping method. FIGS. 7A and 7B are diagrams showing an example of a pattern that causes a problem in the conventional method. 300 …… image signal, 301 …… line buffer, 302 …… pattern buffer, 303 …… X address counter, 304 …… Y
Address counter, 305, 309 ... Switching circuit, 306 ... Black dot histogram creation circuit, 307 ... One-line histogram memory, 308 ... Pattern histogram memory, 310 ... Black dot histogram calculation circuit, 311 ... Block detection circuit, 312 ...
... Control circuit, 400 ... Black dot histogram, 401 ... X address counter output, 402 ... Area address counter, 4
03 …… Y address counter output, 404 …… Division information, 4
05: Divided position designation circuit, 410: Pattern histogram memory output, 411: Match signal.

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】帳票上の記入された文字列を光電変換して
得られる量子化された文字パタン列をラインバッファメ
モリに格納し、該文字パタン列から1文字毎の文字パタ
ンを分離抽出する文字切出し方法において、 前記ラインバッファメモリを文字パタン列の列方向に1
列毎に走査して列方向の黒点ヒストグラムを作成し、第
1の閾値より大きい黒点ヒストグラムが連続して第2の
閾値以上続く水平ブロックのブロック幅と第3の閾値と
を比較して該幅が何文字分に相当するかを判定する判定
ステップと、 前記水平方向ブロックのブロック幅に対応する文字パタ
ン列を行方向に1行毎に走査して行方向の黒点ヒストグ
ラムを作成し、前記第1の閾値より大きな黒点ヒストグ
ラムが連続して前記第2の閾値以上続く垂直ブロックの
始点及び終点の座標、及び前記水平方向ブロックの始点
及び終点座標とに基づいて文字外接枠を検出する外接枠
検出ステップと、 検出された文字外接枠内の文字パタン列を保持するパタ
ン記憶ステップと、 前記文字外接枠内を水平方向に分割した分割領域毎に1
列毎走査した列方向の黒点ヒストグラムを作成する黒点
ヒストグラム作成ステップと、 作成した黒点ヒストグラムを分割領域毎に記憶するヒス
トグラム記憶ステップと、 記憶した黒点ヒストグラムを用いて、所望の分割領域に
おける黒点ヒストグラムの連続する部分である水平ブロ
ックを検出し、隣接する水平ブロックの水平方向の中心
点の座標に基づき当該分割領域の切出し点を決定する決
定ステップと、 切出し点が決定できない分割領域に対し、該分割領域を
水平方向に再分割し、前記パタン記憶ステップ、前記黒
点ヒストグラム作成ステップ、前記ヒストグラム記憶ス
テップ及び前記決定ステップを施して再分割領域のブロ
ックを検出する再分割処理を行う再分割処理ステップ
と、 全ての領域の切出し点が決定できるまで前記再分割処理
ステップを繰返し、決定した各分割領域の切出し点及び
水平方向の分割線に基づいて文字切出し位置を決定する
ことを特徴とする文字切り出し方法。
1. A quantized character pattern string obtained by photoelectrically converting a written character string on a form is stored in a line buffer memory, and character patterns for each character are separated and extracted from the character pattern string. In the character cutting method, the line buffer memory is set to 1 in the direction of the character pattern string.
A black dot histogram in the column direction is created by scanning for each column, and a block width of a horizontal block in which black dot histograms larger than a first threshold value continuously continue for a second threshold value or more is compared with a third threshold value. And a character step corresponding to the block width of the horizontal block in the row direction is scanned line by line to create a black dot histogram in the line direction. A circumscribing frame detection for detecting a character circumscribing frame based on coordinates of start and end points of a vertical block in which black dot histograms larger than a threshold of 1 continuously continue for the second threshold or more, and start and end coordinates of the horizontal block A pattern storing step for holding a character pattern sequence in the detected character circumscribing frame, and 1 for each divided area obtained by horizontally dividing the character circumscribing frame.
A black dot histogram creation step for creating a black dot histogram in the column direction scanned for each column, a histogram storage step for storing the created black dot histogram for each divided area, and a black dot histogram for a desired divided area using the stored black dot histogram A determination step of detecting horizontal blocks that are continuous parts and determining the cutout points of the divided areas based on the coordinates of the horizontal center points of adjacent horizontal blocks, and the division of the divided areas where the cutout points cannot be determined. A subdivision processing step of subdividing the area in the horizontal direction, performing the subdivision processing of performing the pattern storage step, the black dot histogram creation step, the histogram storage step, and the determination step to detect a block of the subdivision area, The subdivision is performed until the cut points of all areas can be determined. A character slicing method, characterized in that the processing step is repeated to determine a character slicing position based on the determined slicing point of each divided region and a horizontal dividing line.
JP60261488A 1985-11-22 1985-11-22 Character cutout method Expired - Lifetime JPH07120390B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60261488A JPH07120390B2 (en) 1985-11-22 1985-11-22 Character cutout method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60261488A JPH07120390B2 (en) 1985-11-22 1985-11-22 Character cutout method

Publications (2)

Publication Number Publication Date
JPS62121589A JPS62121589A (en) 1987-06-02
JPH07120390B2 true JPH07120390B2 (en) 1995-12-20

Family

ID=17362603

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60261488A Expired - Lifetime JPH07120390B2 (en) 1985-11-22 1985-11-22 Character cutout method

Country Status (1)

Country Link
JP (1) JPH07120390B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63313287A (en) * 1987-06-16 1988-12-21 Fujitsu Ltd Entangled character segmenting system
JPH07107648B2 (en) * 1987-09-09 1995-11-15 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン Inter-object collision detection device
JPH01124082A (en) * 1987-11-10 1989-05-16 Matsushita Electric Ind Co Ltd Character recognizing device
JP2722549B2 (en) * 1988-11-09 1998-03-04 日本電気株式会社 Optical character reader
JP2722550B2 (en) * 1988-11-09 1998-03-04 日本電気株式会社 Optical character reader

Also Published As

Publication number Publication date
JPS62121589A (en) 1987-06-02

Similar Documents

Publication Publication Date Title
US5048107A (en) Table region identification method
EP0843275B1 (en) Pattern extraction apparatus and method for extracting patterns
JPH07120390B2 (en) Character cutout method
JP2926066B2 (en) Table recognition device
JP2868134B2 (en) Image processing method and apparatus
JPH0656618B2 (en) Image information character / graphic separation method
JP2644477B2 (en) Image processing method
JPS61196381A (en) Character segmenting system
US5313529A (en) System for representing line drawings by polygonal lines
JPS62126485A (en) Character segmentation system
JP2505402B2 (en) Image processing device
JP2003317107A (en) Method and device for ruled-line detection
JP4439054B2 (en) Character recognition device and character frame line detection method
JPH0750496B2 (en) Image signal processor
EP0974931A1 (en) Method and apparatus for identifying a plurality of sub-images in an input image
JP2954218B2 (en) Image processing method and apparatus
JP2993533B2 (en) Information processing device and character recognition device
JP2827288B2 (en) Character recognition device
JP2975720B2 (en) Optical character reader
JPH0433074B2 (en)
JPH03268181A (en) Document reader
JPS6343788B2 (en)
JP2626084B2 (en) Character recognition device
JP2867382B2 (en) Font determination method in character recognition device
JP3127413B2 (en) Character recognition device