JPS594066B2 - Character extraction method - Google Patents
Character extraction methodInfo
- Publication number
- JPS594066B2 JPS594066B2 JP51078196A JP7819676A JPS594066B2 JP S594066 B2 JPS594066 B2 JP S594066B2 JP 51078196 A JP51078196 A JP 51078196A JP 7819676 A JP7819676 A JP 7819676A JP S594066 B2 JPS594066 B2 JP S594066B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- sensor
- characters
- photoelectric conversion
- scanned
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Landscapes
- Character Input (AREA)
- Image Analysis (AREA)
Description
【発明の詳細な説明】
本発明は文字認識装置用切出し方法に関するもので、特
に文字以外のノイズ除去を効果的に行い得る文字切出し
方法に関するものである。DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a character extraction method for a character recognition device, and more particularly to a character extraction method that can effectively remove noise other than characters.
一般に35横1行に印刷された文字を垂直方向に1列に
並んだ光電変換素子を有するセンサで垂直方向の走査を
し、該センサ或いは文字を水平方向へ移動させて順次読
取つていく。第1図にセンサ2の視野が文字の印刷され
ている用紙1上を移動している状況を示す。用紙1には
読取るべき文字3として数「1」 「2」 「3」が印
刷されているほか、まわりの汚れ4,5がある。これら
の汚れは認識すべき文字情報以外のものであり、ノイズ
となり誤読取や読取不能の原因となる。従来、このよう
なノイズの除去には読取レベルを変えたり、センサの前
に特殊なフイルタを備えたりする方法、或いはノイズ分
ともに一度読取つてからソフト的に処理して除去する方
式などが実施されていた。In general, characters printed in one line of 35 rows are scanned in the vertical direction by a sensor having photoelectric conversion elements arranged vertically in a row, and the sensor or the characters are moved horizontally to read them one after another. FIG. 1 shows a situation where the field of view of the sensor 2 is moving over a sheet of paper 1 on which characters are printed. Paper 1 has the numbers ``1'', ``2'', and ``3'' printed on it as characters 3 to be read, and there are stains 4 and 5 around it. These stains are other than character information to be recognized, and become noise, causing misreading or unreadability. Conventionally, such noise has been removed by changing the reading level, by installing a special filter in front of the sensor, or by reading the noise once and then processing it using software to remove it. was.
しかしながら、前者は動作が不確実であり、後者は多く
のプログラム容量と処理時間を要し、且つそれでも効果
的なノイズ除去ができなかつた。又、横1行に印刷され
ている文字が上下にバラついていたり、センサを人手で
移動させ走査した場合には、センサ視野2から文字がは
み出したりして、誤つて識別する場合が生じる。本発明
の目的は従来技術における前述の欠点を除去し得るよう
にし、ノイズ除去効果の高い切出し方式を提供するもの
である。本発明の他の目的は隣接文字との区分を確実に
識別出来るように切出す方式である。本発明の更に他の
目的は切出しをハードウエアによつて実現することによ
り、認識部の計算機の負担を軽減し、読取速度を向上さ
せる切出し方式である。本発明の更に他の目的はセンサ
の移動速度が異つても、走査速度に影響をさほどうけな
いように切出す方式である。又、本発明の更に他の目的
は、被読取文字がセンサ視野から一部はみ出した場合に
該はみ出しを検出し、誤まつて識別することを防ぐこと
にある。However, the former method has unreliable operation, and the latter method requires a large amount of program capacity and processing time, and still cannot effectively remove noise. Furthermore, if the characters printed in one horizontal line are uneven vertically, or if the sensor is manually moved and scanned, the characters may protrude from the sensor's field of view 2, resulting in erroneous identification. SUMMARY OF THE INVENTION An object of the present invention is to eliminate the above-mentioned drawbacks of the prior art and to provide a cutting method that is highly effective in removing noise. Another object of the present invention is to provide a method for cutting out characters so that they can be reliably distinguished from adjacent characters. Still another object of the present invention is to provide an extraction method that reduces the burden on the computer of the recognition unit and improves the reading speed by realizing extraction using hardware. Still another object of the present invention is to provide a method for cutting out images that is not significantly affected by the scanning speed even if the moving speed of the sensor is different. Still another object of the present invention is to detect when a part of the character to be read protrudes from the field of view of the sensor, and to prevent erroneous identification.
本発明は垂直方向の1走査が終るごとに読取つたパター
ンの垂直軸へ投影した文字線分の出現頻度分布を求め、
頻度分布を正規化し、正規化データから垂直方向に連続
した一定長の線分を求め、その線分の長さの範囲から文
字の高さとして切出しをおこなうことを特徴とするもの
である。以下図面に従つて本発明を説明する。第2図は
本発明の実施例として、手にスキヤナ12を持ち水平方
向に移動させ、人手で走査する文字認識装置の場合であ
る。The present invention calculates the appearance frequency distribution of character line segments projected onto the vertical axis of the read pattern every time one scan in the vertical direction is completed,
This method is characterized by normalizing the frequency distribution, finding vertically continuous line segments of a certain length from the normalized data, and cutting out the height of the character from the length range of the line segments. The present invention will be explained below with reference to the drawings. FIG. 2 shows, as an embodiment of the present invention, a character recognition apparatus in which a scanner 12 is held in the hand and moved in the horizontal direction to perform manual scanning.
ランプ13a,13bで用紙11を照明し、用紙11上
の文字パターンをレンズ系14を介して1列に並んだ光
電変換素子を有するセンサ15上一り(に結像させる。A sheet of paper 11 is illuminated with lamps 13a and 13b, and a character pattern on the sheet of paper 11 is imaged through a lens system 14 onto a sensor 15 having photoelectric conversion elements arranged in a row.
センサ15のそれぞれの光電変換素子をセルと称し、必
要分解能までデータ圧縮した場合の領域を単位領域と称
して説明する。用紙11の背景領域からの反射光と文字
領域からの反射光はそれぞれ異なるから、それらに対応
した谷セルからの信号レベルは異なる。センサ15の各
各のセルで得られた信号は制御及び二値化回路16に加
えられてレベル判定により白、黒の判定が行われる。例
えば、用紙11の背景領域すなわち白に対応する信号を
“0゛、文字領域すなわち黒に対応する信号を″11と
して後述の各々に出力される。カウンタ制御回路25は
制御及び二値化回路16から各単位領域に対応する信号
が順次入力されると、その信号が黒即ち61″のとき、
プリセツトカウンタ26にシフトレジスタ27の出力を
プリセツトし、プリセツトカウンタ26の内容に1を加
算してシフトレジスタ27に格納する。Each photoelectric conversion element of the sensor 15 will be referred to as a cell, and the area where data is compressed to the required resolution will be referred to as a unit area. Since the light reflected from the background area of the paper 11 and the light reflected from the character area are different, the signal levels from the corresponding valley cells are different. The signals obtained from each cell of the sensor 15 are applied to the control and binarization circuit 16, and the level is determined to determine whether the signal is white or black. For example, a signal corresponding to the background area, ie, white, of the paper 11 is set to "0," and a signal corresponding to the character area, ie, black, is set to ``11,'' which will be output to each of the following. When the counter control circuit 25 sequentially receives signals corresponding to each unit area from the control and binarization circuit 16, when the signal is black, that is, 61'',
The output of the shift register 27 is preset in the preset counter 26, and 1 is added to the contents of the preset counter 26 and the result is stored in the shift register 27.
又、信号が白即ち“01のときプリセツトカウンタ26
にシフトレジスタ27の出力をプリセツトし、プリセツ
トカウンタ26の内容をそのまま該シフトレジスタ27
に格納するように制御するものである。また、カウンタ
制御回路25は後述の1文字の走査終了信号GAPがギ
アフッラグ21から入力されていると、プリセツトカウ
ンタ26の内容をクリアした後、信号が61″の時には
1を加算し、601の時にはそのままプリセツトカウン
タ26の内容をシフトレジスタ27に格納する様に制御
する。該シフトレジスタ27はセンサ15のセル数或い
は垂直方向へデータを圧縮すればそれに対応する単位領
域数だけの段数を有するものであり、垂直方向の単位領
域走査毎のパルス信号CKにより各単位領域ごとの黒の
出現回数を計数するものであり、シフトレジスタ27の
内容は各単位領域毎の水平方向の文字線分の出現回数を
表わすものである。またプリセツトカウンタ26の内容
をシフトレジスタ27へ格納する時に、プリセツトカウ
ンタ26の内容を比較回路28に送る。比較回路28は
記憶装置29の内容(Aとする)とプリセツトカウンタ
26から入力される内容(Bとする)B>Aのときのみ
Bを記憶装置29に格納する1垂直方向の走査が終了す
るど制御及び二値化回路16からの信号SENDのタイ
ミングで最大値記憶装置30に、記憶装置29の内容を
最大値記憶装置30に移送し、その後、前記記憶装置2
9の内容をクリアする。即ち最大値記憶装置30にはシ
フトレジスタ27に記憶されている各単位領域毎の黒の
出現回数の計数値の最大値を格納することになる。正規
化回路31はシフトレジスタ27の内容と最大値記憶装
置30の内容との比を求め、それを複数に区分する(以
下正規化データと称する)。Also, when the signal is white, that is, "01", the preset counter 26
The output of the shift register 27 is preset, and the contents of the preset counter 26 are directly transferred to the shift register 27.
It is controlled so that the data is stored in the . Further, when the one-character scanning end signal GAP (described later) is input from the gear flag 21, the counter control circuit 25 clears the contents of the preset counter 26, and when the signal is 61'', it adds 1 and resets the signal to 601. Sometimes, the contents of the preset counter 26 are controlled to be stored as they are in the shift register 27.The shift register 27 has the number of stages equal to the number of cells of the sensor 15 or the number of unit areas corresponding to the number of data compressed in the vertical direction. The number of appearances of black in each unit area is counted by the pulse signal CK for each unit area scanned in the vertical direction, and the contents of the shift register 27 are the number of character lines in the horizontal direction for each unit area. It represents the number of occurrences. Also, when the contents of the preset counter 26 are stored in the shift register 27, the contents of the preset counter 26 are sent to the comparison circuit 28. The comparison circuit 28 compares the contents of the storage device 29 (denoted as A). ) and the content input from the preset counter 26 (assumed to be B) Store B in the storage device 29 only when B>A. As soon as one vertical scan is completed, the signal SEND from the control and binarization circuit 16 The contents of the storage device 29 are transferred to the maximum value storage device 30 at the timing of , and then the contents of the storage device 2
Clear the contents of 9. That is, the maximum value storage device 30 stores the maximum value of the counted number of black appearances for each unit area stored in the shift register 27. The normalization circuit 31 calculates the ratio between the contents of the shift register 27 and the contents of the maximum value storage device 30, and divides the ratio into a plurality of data (hereinafter referred to as normalized data).
人手で移動させる場合には個人差或いは同人でもセンサ
による文字走査ごとに、センサの移動速度が大幅に異な
るが、しかし本発明においては黒の出現回数の最大値に
より各単位領域に出現する黒の出現回数の正規化を行な
うので水平方向の走査速度が異なつても正規化値は大き
な影響をうけない。正規化し複数に区分された内容は二
値化回路32或いは識別回路35に送られる。識別回路
35では正規化データから例えば正規化データの配列な
どにより文字を識別する。また二値化回路32では正規
化データを一定の閾値SHLと比較し二値即ち垂直軸に
投影されたパターン情報を、用紙11の文字領域と背景
領域とに分ける。例えば第1図においてセンサ2がt1
の位置からT2の位置へ移動した時T2位置における正
規化データを第5図に、該正規化データを二値化したも
のを第6図に示す。文字3及び汚れ4,5に対応する正
規化データは51及び50,52となる。When moving the sensor manually, the speed of movement of the sensor varies greatly depending on individual differences or each character scanned by the sensor. Since the number of appearances is normalized, the normalized value is not affected greatly even if the horizontal scanning speed differs. The normalized and divided contents are sent to the binarization circuit 32 or the identification circuit 35. The identification circuit 35 identifies characters from the normalized data, for example, based on the arrangement of the normalized data. Further, the binarization circuit 32 compares the normalized data with a certain threshold value SHL, and divides the binary values, that is, the pattern information projected on the vertical axis, into a character area and a background area of the paper 11. For example, in FIG. 1, sensor 2 is t1
FIG. 5 shows the normalized data at the T2 position when moving from the position to the T2 position, and FIG. 6 shows the binarized normalized data. The normalized data corresponding to character 3 and stains 4 and 5 are 51, 50, and 52.
二値化を行つた後の第6図では背景領域、文字領域をそ
れぞれW(白)、B(黒)で表現している。読出専用記
憶装置33は二値化回路32の出力信号及び記憶装置3
4の出力内容から構成され読出された内容は記憶装置3
4に書き込むとともに信号SET,POUT,ER,O
MITを出力する。In FIG. 6 after binarization, the background area and character area are expressed as W (white) and B (black), respectively. A read-only storage device 33 stores the output signal of the binarization circuit 32 and the storage device 3.
The read contents are composed of the output contents of 4 and are stored in the storage device 3.
4 and the signals SET, POUT, ER, O
Output MIT.
1垂直走査終了信号SENDにより該記憶装置34はク
リアされる。The memory device 34 is cleared by the 1 vertical scan end signal SEND.
第4図に読出専用記憶装置33に読出される内容である
状態遷移図を示す。図において、NB,nW(n:数字
あるいはp)は状態の種類を矢印に付加しているW,B
は二値化信号のw(白)、B(黒)を示し、又谷状態に
付加しているSE,T,ER,POUT,OMITは各
々の状態に成つたとき出力する信号を、(0MIT)は
1列の垂直走査が終了しそれに対応する状態の時に0M
IT信号を出力することを表わしており、信号SETは
文字の切出し始め、信号ERは線分が文字高さより長い
のでノイズ、信号POUTは文字の切出し終了、信号0
MITは文字線分の一部がセンサ視野2からのはみ出し
を意味するものであり、後から出力された信号の方を優
先している。二値化回路32から第6図に示す様な信号
が入力されるとする。FIG. 4 shows a state transition diagram of the contents read to the read-only storage device 33. In the figure, NB, nW (n: number or p) are W, B, which add the type of state to the arrow.
indicates w (white) and B (black) of the binary signal, and SE, T, ER, POUT, OMIT added to the valley state are the signals output when each state is reached, (0MIT ) is 0M when one column of vertical scanning is completed and the corresponding state is
It indicates that the IT signal is output.The signal SET indicates the start of character cutting, the signal ER indicates noise because the line segment is longer than the character height, and the signal POUT indicates the end of character cutting, and the signal 0.
MIT means that a part of the character line segment protrudes from the sensor field of view 2, and priority is given to the signal output later. Assume that a signal as shown in FIG. 6 is input from the binarization circuit 32.
SO及びSl5はセンサ視野2の最上端及び最下端のセ
ルを表わす。セルの上端から二値化信号がB,W,W,
W,W,W,B,B,B,B,B,B,W,W,W,B
と出力されたとすれば、第4図において状態は0B,1
1B,1W,1B,2B,3B,4B,5B,6B,P
Bとなる。11Bの状態で一度信号SETが出力され1
Bの状態で再度信号SET、次にPBの状態でENDが
出力され、垂直方向に文字の切出しが終了したことを示
す。SO and Sl5 represent the top and bottom cells of the sensor field of view 2. The binary signals from the top of the cell are B, W, W,
W, W, W, B, B, B, B, B, B, W, W, W, B
If this is output, the state will be 0B, 1 in Figure 4.
1B, 1W, 1B, 2B, 3B, 4B, 5B, 6B, P
It becomes B. Once the signal SET is output in the state of 11B, it becomes 1.
In the state of B, the signal SET is output again, and then in the state of PB, the signal END is output, indicating that cutting out of characters in the vertical direction has been completed.
人手でセンサを移動させ走査した場合や、印刷された文
字が上下に大きくバラついていたりして、文字線分の一
部がセンサ視野からはみ出したときに誤認識されること
が生じるので、次に文字線分の一部がセンサ視野からは
み出したことを検出する場合について説明する。Misrecognition may occur if the sensor is manually moved and scanned, or if the printed characters vary widely vertically and some of the character lines protrude from the sensor's field of view. A case will be described in which it is detected that a part of a character line segment has protruded from the sensor field of view.
第1図においてセンサ視野がT3の位置からT4の位置
へ移動した時の正規化データ及び二値化を行なつたもの
を第7図に示す。FIG. 7 shows the normalized data and the binarized data when the sensor visual field moves from the position T3 to the position T4 in FIG. 1.
これから二値化信号がB,B,B,B,B,W,W,W
,W,W,W,W,W,W,W,Wと出力されたとすれ
ば第4図から状態は0B,11B,12B,13B,1
4B,15B,11W,1Wと進むが、状態11Wの時
に信号0MITが出力され、センサ視野の上端からはみ
出したことを意味する。又、第4図において、状態5B
,6B,7Bで1垂直走査が終了し信号SENDが出力
されると、文字がセンサ視野の下端からはみ出したとみ
なし信号0MITを出力する。From now on, the binary signal will be B, B, B, B, B, W, W, W
, W, W, W, W, W, W, W, W, the states are 0B, 11B, 12B, 13B, 1 from Figure 4.
4B, 15B, 11W, and 1W, and when the state is 11W, the signal 0MIT is output, which means that the sensor has gone beyond the upper end of the field of view. Also, in FIG. 4, state 5B
, 6B, and 7B, when one vertical scan is completed and the signal SEND is output, it is assumed that the character has protruded from the lower end of the sensor field of view, and a signal 0MIT is output.
制御及び二値化回路16では垂直走査時に現在何番目の
単位領域が選択されているかを判断するためにカウンタ
を有しており、このカウンタの内容SCCが単位領域の
アドレスSCCを示している。The control and binarization circuit 16 has a counter to determine which unit area is currently selected during vertical scanning, and the content SCC of this counter indicates the address SCC of the unit area.
第3図において記憶装置37は読出専用記憶装置33か
ら信号SETが入力されると、その時のアドレスSCC
を書き込むものである。後から出力された信号の方を優
先するので第6図の二値化データでは2度目のSET信
号で再びその時のアドレスSCCが再び書き込まれる。
文字の切出しが終了し、PBの状態にうつると以後SE
ND信号が到来するまでPBの状態を保持しPOUT信
号を出し続ける。In FIG. 3, when a signal SET is input from the read-only storage device 33, the storage device 37 selects the current address SCC.
is written. Since priority is given to the signal output later, in the binary data shown in FIG. 6, the address SCC at that time is written again at the second SET signal.
After cutting out the characters and moving to the PB state, SE
The state of PB is held and the POUT signal continues to be output until the ND signal arrives.
一垂直走査が終了した時POUT信号が出力されている
とSEND信号の到来する直前にCKlのタイミングで
記憶装置37の内容を記憶装置38に書き込むことによ
り、該記憶装置38には垂直方向に文字を切出し、文字
の最上端の単位領域のアドレスCTAが格納される。信
号SET,POUTはアンドゲート39,40によりそ
れぞれ単位領域走査ごとに出力される信号CK垂直走査
終了毎に発生するクロツク信号CKlとの論理積をとり
記憶装置37,38に入力する。また論理積回路40の
出力が論理61″となると切出しフラグ42をセツトし
垂直方向に文字が切出されていることを示す。切出しの
際のノイズなどにより出力される信号ER、センサ視野
からはみ出したときの信号0MIT、或いは後述のスペ
ース信号SPが出力されるとオアゲート45により切出
しフラグ42をクリアし、文字が切出されていないもの
とする。文字の切出しがなされていない場合には誤認識
をさけるために文字の識別を行なわない。又、別の実施
例では文字等がセンサ視野外にはみ出し信号0MITが
出力されると、この信号は識別不能文字であつたものと
して処理される。When the POUT signal is output when one vertical scan is completed, by writing the contents of the storage device 37 to the storage device 38 at the timing of CKl immediately before the arrival of the SEND signal, the storage device 38 is filled with characters in the vertical direction. is cut out, and the address CTA of the unit area at the top end of the character is stored. The signals SET and POUT are ANDed by AND gates 39 and 40, respectively, with a signal CK output for each unit area scan and a clock signal CKl generated every time a vertical scan is completed, and input to the storage devices 37 and 38. Furthermore, when the output of the AND circuit 40 becomes logic 61'', the cutting flag 42 is set to indicate that the character is cut out in the vertical direction.The signal ER output due to noise during cutting, etc., extends beyond the sensor field of view. When the signal 0MIT or the space signal SP described later is output, the OR gate 45 clears the cutout flag 42 and assumes that the character has not been cut out.If the character has not been cut out, an erroneous recognition occurs. In another embodiment, when a character or the like protrudes outside the field of view of the sensor and a signal 0MIT is output, this signal is processed as if it were an unidentifiable character.
演算回路44は1文字の走査終了を検出する際文字の垂
直方向に切出された範囲よりも上に余裕をとり検出する
ために単位領域のアドレスにある定数(第6図d)を加
え比較回路41に出力する。該比較回路41は切出され
た文字の最上端の単位領域アドレスCTAと前記演算回
路44から送られる内容と比較し両者が等しくなつた時
(上端のセルをOとし、下方のセル程アドレスカ伏とす
る)に文字高さ検出フラグ43へ信号を出力する。文字
高さ検出フラグ43は切出しフラグ42がセツトされて
おりかつ比較回路41から信号が入力されたときセツト
され、信号POFを出力するカウンタ47は信号POF
が論理“17になつてから文字の高さCHH(第6図参
照)分の単位領域が走査されるまでクロツク信号CKを
カウントし、CHH個カウントした時オーバーフロー信
号を出力する文字高さ検出フラグ43は、このオーバー
フロー信号と1列垂直走査終了信号SENDとの論理和
信号(論理理和回路48)によりクリアされる。例えば
垂直走査時のSCCの内容をSnとし、文字の高さはh
とわかつているので、第6図において、CHH=h+2
d
CTA+h+d≧Sn≧CTA−dのとき文字エリアで
あり信号POFを出力する。When detecting the end of scanning for one character, the arithmetic circuit 44 adds a constant (FIG. 6 d) to the address of the unit area and compares it with a certain margin above the vertically cut out range of the character. Output to circuit 41. The comparison circuit 41 compares the unit area address CTA of the uppermost end of the cut out character with the content sent from the arithmetic circuit 44, and when the two are equal (the upper end cell is set to O, the lower the cell, the more the address A signal is output to the character height detection flag 43 when the character height detection flag 43 is turned upside down). The character height detection flag 43 is set when the cutout flag 42 is set and a signal is input from the comparison circuit 41, and the counter 47 that outputs the signal POF outputs the signal POF.
A character height detection flag that counts the clock signal CK until a unit area corresponding to the character height CHH (see Figure 6) is scanned after it becomes logic "17", and outputs an overflow signal when CHH is counted. 43 is cleared by the logical sum signal (logical sum circuit 48) of this overflow signal and the 1-column vertical scanning end signal SEND.For example, the content of SCC during vertical scanning is Sn, and the height of the character is h.
Since we know that, in Figure 6, CHH=h+2
d When CTA+h+d≧Sn≧CTA-d, it is a character area and a signal POF is output.
カウンタ47はまた信号SENDによつてクリアされる
。Counter 47 is also cleared by signal SEND.
以上の動作で第6図にPOFとして示すように垂直方向
の文字位置が切出されたこととなる。次に水平方向の切
出しについて述べる。ギヤツプ検出フラグ18,19は
垂直走査終了後に発生されるSEND信号によつてセツ
トされ、ギヤツプ検出フラグ18は垂直方向文字切出し
信号POFの間で黒(文字線分)が検出されたときクリ
アされギヤツプ検出フラグ19は一垂直走査内で黒(文
字線分)が検出された時クリアされるフリツプフロツプ
である。一垂直走査終了後SEND信号を発生する直前
にフロックCKlのタイミングでギヤツプ検出フラグ1
8,19の出力信号の論理和をとり(論理和回路20)
この論理信号をギヤツプフラグ21へ記憶すると共にギ
ヤツプフラグ21の内容をギヤツプフラグ22に移送す
る。つまりギヤツプフラグ21は垂直方向文字切出し区
間(POF)で黒(文字線分)が検出されなかつた時、
あるいは一垂直走査内で黒(文字線分)がまつたく検出
されなかつた時にセツトされるフラグであり、ギヤツプ
フラグ22は直前の垂直走査時のギヤツプフラグ21の
内容を記憶するものである。ギヤツプフラグ21の出力
信号GAPは前記カウンタ制御回路25へ出力し、且つ
アンドゲート23により信号SENDとの論理積をとつ
てスペースカウンタ24の内容を加算する。該スペース
カウンタ24の内容があらかじめ設定した定数以上にな
ると1行の文字を走査終了とみなしスペース信号SPを
出力し、初期状態とする。スペースカウンタ24は黒(
文字線分)が検出された時クリアされる。ギヤツプフラ
グ22は信号BFGAPを出力し、信号GAPを格納す
る。このとき、BFGAPが617かつGAPが″O″
のとき1文字の走査が終了したとみなし、文字の識別を
行う。第1図において位置T2にセンサ視野2が移動し
たとき、第6図に示すように切出されたとするとギヤツ
プ検出フラグ19は“01であるがギヤツプ検出フラグ
18は“1″となりギヤツプフラグ21は1F゛にセツ
トされる。With the above operations, the character position in the vertical direction is cut out as shown as POF in FIG. 6. Next, we will discuss cutting out in the horizontal direction. Gap detection flags 18 and 19 are set by the SEND signal generated after vertical scanning is completed, and gap detection flag 18 is cleared when black (character line segment) is detected between the vertical character cutting signals POF. The detection flag 19 is a flip-flop that is cleared when black (character line segment) is detected within one vertical scan. Immediately before generating the SEND signal after one vertical scan, the gap detection flag is set to 1 at the timing of the block CKl.
Take the logical sum of the output signals of 8 and 19 (logical sum circuit 20)
This logic signal is stored in the gap flag 21 and the contents of the gap flag 21 are transferred to the gap flag 22. In other words, the gap flag 21 is activated when black (character line segment) is not detected in the vertical character extraction section (POF).
Alternatively, it is a flag that is set when black (character line segment) is not detected in one vertical scan, and the gap flag 22 stores the contents of the gap flag 21 during the previous vertical scan. The output signal GAP of the gap flag 21 is output to the counter control circuit 25, and is ANDed with the signal SEND by the AND gate 23 to add the contents of the space counter 24. When the content of the space counter 24 exceeds a preset constant, it is assumed that one line of characters has been scanned, and a space signal SP is output, setting it to an initial state. The space counter 24 is black (
Cleared when a character line segment) is detected. The gap flag 22 outputs the signal BFGAP and stores the signal GAP. At this time, BFGAP is 617 and GAP is "O"
When this happens, it is assumed that one character has been scanned, and the character is identified. When the sensor field of view 2 moves to position T2 in FIG. 1, if it is cut out as shown in FIG. 6, the gap detection flag 19 is "01" but the gap detection flag 18 is "1" and the gap flag 21 is 1F. is set to .
T2以前の位置ではギヤツプフラグ21は“0″とすれ
ばT2でGAP=″1″,BFGAP=″O″となり1
文字の走査が終了したとみなし以後識別動作をする。If the gap flag 21 is set to "0" at the position before T2, then at T2 GAP="1" and BFGAP="O", which means 1.
It assumes that character scanning is completed and then performs identification operations.
スペースカウンタ24では文字と文字との間にて垂直走
査される回数よりもはるかに大きい回数で1行の終りと
する。以上説明したように、本発明では1垂直走査ごと
に垂直軸に投影した谷単位領域毎え文字線分の出現頻度
分布を求め、単位領域毎の出現回数を最大出現回数で正
規化したのち文字の切出しを行うため、センサの移動速
度の影響をうけないことを特徴としている。The space counter 24 determines the end of one line when the number of vertical scans is much greater than the number of vertical scans between characters. As explained above, in the present invention, the appearance frequency distribution of character line segments is determined for each valley unit area projected onto the vertical axis for each vertical scan, the number of appearances for each unit area is normalized by the maximum number of appearances, and then the character It is characterized by being unaffected by the moving speed of the sensor.
又、横1行に印刷されている文字が上下にバラついてい
たり、センサを人手で移動させ走査した場合には、セン
サ視野から文字線分の一部がはみ出したことを検出し、
誤識別を防ぐことを特徴としている。本発明では、正規
化し、閾値SHLを適当に選ぶことにより二値化を行う
ので文字周辺のノイズをも除去できる。In addition, if the characters printed in one horizontal line are uneven vertically, or if the sensor is manually moved and scanned, it will be detected that a part of the character line protrudes from the sensor field of view.
It is characterized by preventing misidentification. In the present invention, since binarization is performed by normalizing and appropriately selecting the threshold value SHL, noise around characters can also be removed.
説明ではセンサ15のセル数と同じ段数のシフトレジス
タ27としたがデータの圧縮などを行ないシフトレジス
タ27の段数を減らすことも可能である。又、読取の対
象とする文字やセンサの寸法などから第4図に示す状態
遷移は異なる。以上の説明では水平方向の走査速度が可
変の場合について述べたが、例えば機械的に一定速度で
走査する時には各単位領域毎の文字線分の出現回数の計
数値と該出現回数の最大値との比を求めなくて、計数値
のみでも同様に切出し可能である。In the explanation, the shift register 27 has the same number of stages as the number of cells of the sensor 15, but it is also possible to reduce the number of stages of the shift register 27 by compressing data or the like. Furthermore, the state transition shown in FIG. 4 differs depending on the characters to be read and the dimensions of the sensor. The above explanation deals with the case where the scanning speed in the horizontal direction is variable, but for example, when scanning is performed mechanically at a constant speed, the count value of the number of appearance of character line segments for each unit area and the maximum value of the number of appearance It is possible to similarly extract only the count value without finding the ratio.
第1図は読取文字と読取ヘツドとの関係図、第2図、第
3図は本発明のプロツク図、第4図は読取専用記憶装置
の説明図、第5図は文字線分の出現頻度分布図、第6図
は二値化変更図、第7図は文字がセンサ視野からはみ出
した一例の説明図を示す。
符号の説明、1・・・・・・用紙、2・・・・・・セン
サ、3・・・・・・文字、4,5・・・・・・ノイズ、
11・・・・・・用紙、12・・・・・・スキヤナ、1
3a,b・・・・・・ランプ、14・・・・・・レンズ
系、15・・・・・・センサ、16・・・・・・制御及
び二値化回路、17,23,39,40,46・・・・
・・アンドゲート、20,45,48・・・・・・オア
ゲート、18,19・・・・・・ギヤプ検出フラグ、2
1,22・・・・・・ギヤツプフラグ、24・・・・・
・スペースカウンタ、25・・・・・・カウンタ制御回
路、26・・・・・・プリセツトカウンタ、27・・・
・・・シフトレジスタ、28・・・・・・比較回路、2
9・・・・・・記憶装置、30・・・・・・最大値記憶
装置、31・・・・・・正規化回路、32・・・・・・
二値化回路、33・・・・・・読出専用記憶装置、34
・・・・・・記憶装置、35・・・・・・識別回路、3
7,38・・・・・・記憶装置、41・・・・・・比較
回路、42・・・・・・切出しフラグ、43・・・・・
・文字高さ検出フラグ、44・・・・・・演算回路、4
7・・・・・・文字高さカウンタ、50,51,52・
・・・・・正規化データ。Figure 1 is a diagram of the relationship between read characters and read heads, Figures 2 and 3 are block diagrams of the present invention, Figure 4 is an explanatory diagram of a read-only storage device, and Figure 5 is the frequency of appearance of character line segments. A distribution diagram, FIG. 6 is a binarization change diagram, and FIG. 7 is an explanatory diagram of an example in which characters protrude from the sensor field of view. Explanation of symbols, 1...Paper, 2...Sensor, 3...Character, 4,5...Noise,
11...paper, 12...scanner, 1
3a, b... Lamp, 14... Lens system, 15... Sensor, 16... Control and binarization circuit, 17, 23, 39, 40, 46...
...AND gate, 20,45,48...OR gate, 18,19...Gap detection flag, 2
1, 22... Gap flag, 24...
・Space counter, 25... Counter control circuit, 26... Preset counter, 27...
...Shift register, 28...Comparison circuit, 2
9... Storage device, 30... Maximum value storage device, 31... Normalization circuit, 32...
Binarization circuit, 33...Read-only storage device, 34
...Storage device, 35...Identification circuit, 3
7, 38... Storage device, 41... Comparison circuit, 42... Extraction flag, 43...
・Character height detection flag, 44... Arithmetic circuit, 4
7...Character height counter, 50, 51, 52.
...Normalized data.
Claims (1)
電変換素子からなるセンサを、前記光電変換素子列の配
列方向とほぼ直交する方向に移動させて、文字、記号な
どを走査、識別する光学的文字認識装置において、文字
線分の出現回数を1個あるいは複数個の光電変換素子か
らなる前記センサの各単位領域ごとに計数し、その出現
頻度分布を求めるとともに、該頻度分布によつて文字あ
るいは記号を走査し、走査された文字あるいは記号の一
部がセンサの視野からはみ出したか否かを検出し、セン
サの視野からはみ出した場合には、識別処理を行なわな
いか又は識別不能文字として処理することを特徴とする
文字切出し方式。 2 一定周期で走査される一列に配列された複数個の光
電変換素子からなるセンサを、前記光電変換素子列の配
列方向とほぼ直交する方向に移動させて、文字、記号な
どを走査、識別する光学的文字認識装置において、文字
線分の出現回数をセンサの一個あるいは複数個の光電変
換素子からなる単位領域ごとに計数し、光電変換素子列
の配列方向の単位領域ごとの文字線分の出現回数の最大
値を検出し、該最大値と単位領域ごとに検出される出現
回数との比を求めて出現頻度分布を正規化し、この正規
化された出現頻度分布によつて走査された文字あるいは
記号の一部がセンサの視野からはみ出したか否かを検出
し、センサの視野からはみ出した場合には、識別処理を
行なわないか、又は識別不能文字として処理することを
特徴とする文字切出し方式。 3 一定周期で走査される一列に配列された複数個の光
電変換素子からなるセンサを、前記光電変換素子列の配
列方向とほぼ直交する方向に移動させて、文字、記号な
どを走査、識別する光学的文字認識装置において、文字
線分の出現回数をセンサの1個あるいは複数個の光電変
換素子からなる各単位領域ごとに計数し、光電変換素子
列の配列方向の単位領域ごとの文字線分の出現回数の最
大値を検出し、該最大値と単位領域ごとに検出された出
現回数との比を求めて正規化した出現頻度分布を求め、
該分布と一定値とを比較して二値化した後、走査された
文字あるいは記号の一部がセンサの視野からはみ出した
か否かを検出し、センサの視野からはみ出した場合には
、識別処理を行なわないか、又は識別不能文字として処
理することを特徴とする文字切出し方式。[Scope of Claims] 1. A sensor consisting of a plurality of photoelectric conversion elements arranged in a line that is scanned at a constant period is moved in a direction substantially perpendicular to the arrangement direction of the photoelectric conversion element rows to detect characters and symbols. In an optical character recognition device that scans and identifies character lines, the number of appearance of character line segments is counted for each unit area of the sensor consisting of one or more photoelectric conversion elements, and the appearance frequency distribution is determined. A character or symbol is scanned according to the frequency distribution, and it is detected whether or not a part of the scanned character or symbol protrudes from the field of view of the sensor. If the part of the scanned character or symbol protrudes from the field of view of the sensor, no identification processing is performed. A character extraction method characterized by processing characters as unidentifiable or unidentifiable characters. 2. Scanning and identifying characters, symbols, etc. by moving a sensor consisting of a plurality of photoelectric conversion elements arranged in a line that is scanned at a constant period in a direction substantially perpendicular to the arrangement direction of the photoelectric conversion element row. In an optical character recognition device, the number of occurrences of character line segments is counted for each unit area consisting of one or more photoelectric conversion elements of the sensor, and the appearance of character line segments for each unit area in the arrangement direction of the photoelectric conversion element array is calculated. The maximum value of the number of occurrences is detected, the appearance frequency distribution is normalized by calculating the ratio between the maximum value and the number of occurrences detected for each unit area, and the characters or characters scanned by this normalized appearance frequency distribution are A character extraction method that detects whether or not a part of a symbol protrudes from the field of view of a sensor, and if it protrudes from the field of view of the sensor, performs no identification processing or processes it as an unidentifiable character. 3. Scanning and identifying characters, symbols, etc. by moving a sensor consisting of a plurality of photoelectric conversion elements arranged in a line that is scanned at a constant period in a direction substantially perpendicular to the arrangement direction of the photoelectric conversion element row. In an optical character recognition device, the number of times a character line segment appears is counted for each unit area of one or more photoelectric conversion elements of the sensor, and character line segments are calculated for each unit area in the arrangement direction of the photoelectric conversion element array. Detect the maximum number of occurrences of , find the ratio between the maximum value and the number of occurrences detected for each unit area, and obtain a normalized appearance frequency distribution;
After comparing the distribution with a constant value and binarizing it, it is detected whether a part of the scanned character or symbol has protruded from the sensor's field of view, and if it has protruded from the sensor's field of view, an identification process is performed. A character extraction method characterized in that characters are not processed or are treated as unidentifiable characters.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP51078196A JPS594066B2 (en) | 1976-06-30 | 1976-06-30 | Character extraction method |
US05/763,759 US4104616A (en) | 1976-01-28 | 1977-01-28 | Hand operated optical character recognition system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP51078196A JPS594066B2 (en) | 1976-06-30 | 1976-06-30 | Character extraction method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS533742A JPS533742A (en) | 1978-01-13 |
JPS594066B2 true JPS594066B2 (en) | 1984-01-27 |
Family
ID=13655243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP51078196A Expired JPS594066B2 (en) | 1976-01-28 | 1976-06-30 | Character extraction method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS594066B2 (en) |
-
1976
- 1976-06-30 JP JP51078196A patent/JPS594066B2/en not_active Expired
Also Published As
Publication number | Publication date |
---|---|
JPS533742A (en) | 1978-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4703512A (en) | Pattern outline tracking method and apparatus | |
US4104616A (en) | Hand operated optical character recognition system | |
US4180800A (en) | Character reading system | |
US4797940A (en) | Optical character reader | |
GB1338867A (en) | System for analysing engineering drawings or like documents | |
KR100383858B1 (en) | Character extracting method and device | |
EP0375352B1 (en) | Method of searching a matrix of binary data | |
JPS594066B2 (en) | Character extraction method | |
JPS596419B2 (en) | Character extraction method | |
JPS594065B2 (en) | Character extraction method | |
JPH04169987A (en) | Method for detecting character string in image information | |
JPS603676B2 (en) | Intersection extraction method | |
JPH07113962B2 (en) | Image processing method | |
JPH0223904B2 (en) | ||
JPH0357507B2 (en) | ||
JPS61221982A (en) | Calculating device for surrounding length of picture pattern | |
JPS58211280A (en) | Character reader | |
JP2773871B2 (en) | Image data binarization method | |
JP2514660B2 (en) | Optical character reader | |
JPH04311283A (en) | Line direction discriminating device | |
JP2888885B2 (en) | Character extraction device | |
JP2963807B2 (en) | Postal code frame detector | |
JP2917394B2 (en) | Character recognition device and character segmentation method | |
JPH10233930A (en) | Image processor | |
JPH0535921A (en) | Device and method for collating character |