JPH0225553B2 - - Google Patents

Info

Publication number
JPH0225553B2
JPH0225553B2 JP56099262A JP9926281A JPH0225553B2 JP H0225553 B2 JPH0225553 B2 JP H0225553B2 JP 56099262 A JP56099262 A JP 56099262A JP 9926281 A JP9926281 A JP 9926281A JP H0225553 B2 JPH0225553 B2 JP H0225553B2
Authority
JP
Japan
Prior art keywords
character
black
area
image information
scan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP56099262A
Other languages
Japanese (ja)
Other versions
JPS581274A (en
Inventor
Manabu Takakura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP56099262A priority Critical patent/JPS581274A/en
Publication of JPS581274A publication Critical patent/JPS581274A/en
Publication of JPH0225553B2 publication Critical patent/JPH0225553B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Description

【発明の詳細な説明】[Detailed description of the invention]

本発明は文字認識装置において一字宛認識対象
の文字に外接する四辺形の文字枠を求める文字切
り出し方式に係り、特に手書き文字に対して、所
定文字枠を越えて隣接文字枠に侵入した文字を判
別認識する文字切り出し方式に係る。 情報処理システムの入力方法に光学文字読取装
置(以後OCRと略記する)が利用されているが
初期の特殊活字を用いたタイプライタ又はライン
プリンタ印字文字を認識する装置から、手書き文
字を認識出来る装置に発展している。 しかし、手書き文字においては、単に字形及び
寸法に個人差がある丈でなく、所定の記入枠を越
えて両隣りの記入枠に侵入する文字があるため、
文字切り出しに際して困難を生じている。 以下にその問題点を述べるに先立ち、理解に便
ならしめるため、従来の文字切り出し方式につい
て図面を参照しながら簡単に説明する。 第1図に文字認識装置の構成説明図を示す。 同図において帳票1上に記載された文字2はレ
ンズ系3を介してセンサ4に入射され、光電変換
された後、前処理回路5において所要の処理をさ
れて量子化され画像メモリ6に記憶され、文字識
認処理をプロセツサ7において行う。この文字認
識処理に当つて最初に行う処理が文字切り出し処
理である。 第2図に画像メモリ(第1図6)のメモリ構成
を示す。本例は1バイト(8ビツト)を1画素分
をメモリ8として、64Kバイトのメモリを用いた
場合の各メモリの構成をそれぞれの領域に16進数
表示のアドレスを付して示している。 即ち本図の例においては左上隅の1画素メモリ
8は0000番地であり、それより右に移ると下2桁
が順次変化して、右上隅では00FFとなり、又縦
に変化すると上2桁が変化して左上隅の1画素メ
モリ8より順次変化して左下隅はFF00となる。
最後のアドレスは右下隅でFFFFになる。 次に第3図に帳票1上の文字2と、それらの文
字が画像メモリ上で切出される際の切出し基点ア
ドレス9−1乃至9−4及び切出し高さと画像取
込高さで決る文字枠10の関係を示す。 同図において、文字認識装置によつて定まる画
像取込み高さと画像取込み幅(図の左右方向で特
に図示せず)及び文字枠10に対して、文字2が
本図の場合数字で534と並んでいる。今数字5
について考えると、その字を切出すためには、切
出し基点9−1と9−2をそれぞれ左切出し基点
及び右切出し基点とする。 同図において記載数字3及び4を順次切出す場
合は左及び右切出し基点は順次9−2と9−3又
は9−3と9−4の如く左方に捜索する。 第4図に画像メモリ上にビデオ情報として記憶
された数字5を例にして切出し方法を説明する。 同図において文字幅3バイト(8ビツト/バイ
ト)、切出し高さ40ビツトの画像メモリ領域を1
文字枠10としてその枠内において各縦スキヤン
毎にセグメントをなしているビデオ情報について
切出しを行う場合について述べる。 (但し実際には文字幅は5〜6バイトとしてい
る。) 同図において、まず数字5に対する左切出し基
点アドレス9−1から縦方向に捜索(以後縦スキ
ヤンと称す)を行い、最初の縦スキヤンが白スキ
ヤンであつたならば順次右側に黒スキヤンがあら
われるまで捜索してゆく。 今もし数字5が書かれなかつたならば、右切り
出し基点アドレス9−2まですべて白スキヤンと
なり、この場合はその文字枠10は空白(ブラン
ク)として処理される。 同図においては数字5がキチンとその文字枠1
0の中に納まつて書かれているので、左切出し基
点アドレス9−1より縦スキヤンを上述の如く右
方に捜索してゆくとすぐに最初の黒スキヤンが表
われる。 その場合最初の黒スキヤンの位置11を左切出
し位置(アドレス)とする。 又本図と違つて、左切り出し基点アドレス9−
1上の開始スキヤンが黒スキヤンになつた場合
は、その開始縦スキヤン位置を起点として、左右
に同数(通常十数ビツト)の範囲に対し左右交互
に縦スキヤン捜索を行う。 この捜索で最初に左側縦スキヤンに白スキヤン
を生じた場合、その右隣縦スキヤンを左切出し位
置とし、右側縦スキヤンに白スキヤンを生じた場
合は右側へ黒スキヤンを発見するまで走行してゆ
き黒スキヤン発見位置を左切出し位置とする。 上述の白スキヤンが左側文字枠内に生じた場合
は、当該文字枠記載文字が左側文字枠に侵入して
おり、又白スキヤンが当該文字枠内に生じた場合
は左側文字枠記載文字が当該文字枠に侵入してお
り、いずれも両方の文字間に重なりを生じていな
い場合である。 もし全捜索範囲内に白スキヤンが発見出来ない
場合は強制的に左文字枠基点位置である左切り出
し基点アドレス位置9−1を左切り出し位置とし
て文字切り出しを行つている。 これは当該文字枠10の記載文字とその左隣り
の文字枠10記載文字が相互に相手文字枠内に深
く侵入し合つて重なりを生じた場合あるいは文字
がつながつた場合である。 このように、順次右側、上側、下側と同様な手
順によつて切出し捜索を行つて文字の切出し位置
を決定して、文字切り出し処理を完了し、次のパ
ターン認識処理に移る。 上に述べた相隣る文字枠10の記載文字が相互
に相手文字枠内に深く侵入し合つた場合に強制的
に左又は右文字枠基点位置より左又は右切り出し
を行う場合について説明する。 第5図に文字2としてこの場合数字の5と3が
帳票1上で相互に相手文字枠10の中に侵入し合
つて書かれているいわゆるはみ出し文字の場合を
示す。即ち数字5は上部の横線が右隣りの数字3
の文字枠10にはみ出し部12となつて侵入し、
又数字3の下後は左隣りの数字5の文字枠10に
はみ出し部12となつて侵入している。 同図の数字5の右切出し基点アドレス(数字3
の左切出し基点アドレスと同じ)9−2を中心と
して画像メモリ上のビデオに変換された状況を第
6図に示す。 第6図において、数字5の右切出し基点アドレ
ス9−2から切出し捜索として右捜索13と左捜
索14を図示の都合上それぞれ交互に10回行つた
とする。(実際は前述の如く通常十数回づつ行な
われる)。同図においては数字5の上部横線はは
み出し部12となつて左捜索14の領域よりはみ
出している上に、数字3も左文字枠10にはみ出
し部12が侵入しているため、いずれにしても10
回の右捜索では縦スキヤンに白スキヤンは発生し
ない。右捜索13の領域についても同様である。 従つて、第6図の場合数字5が書かれている文
字枠10に対しての右切り出し位置15は右切り
出し基点アドレス9−2と同じとなり、数字5の
書かれた文字枠10に侵入している数字3のはみ
出し部12が附随される。 しかるに、上述の如き強制切り出しを行うと、
切出した文字を判別認識する場合には、しばしば
誤認識を生ずる可能性があるので、強制切出しの
ときはリジエクトを答として出力し本例の場合
5,3ともにリジエクトされ、OCRの運用効率
を低下させる。 本発明は、以上述べたはみ出し文字を識別して
誤認識を防止し、又リジエクト回数を減少して運
用効率を改善する文字切り出し方式を提案せんと
するもので、その目的は画像メモリに蓄えられる
複数の文字を含む画像情報に対して、予め与えら
れた文字位置情報が定める文字枠間境界の近傍を
文字を横断するように走査し、該走査の結果、黒
画素含む黒走査群と他の黒走査群の間に黒画素を
含まない白走査が存在する場合に当該白走査の検
出された走査位置を文字間の境界とみなして上記
画像情報から一文字ずつの情報を含んだ矩形領域
の画像情報を抽出する文字切出し方式において、
前記文字枠間境界を中心とし一定の大きさを有す
る矩形領域を設定すると共に、該矩形領域内の各
走査線上の隣接走査線上との黒領域の連続性を検
査し該矩形領域の始端側につながる黒領域と終端
側につながる黒領域とに分別する黒領域連続性検
査手段と、前記矩形領域から処理対象の文字側と
反対側の黒領域につながる黒領域を除去し該除去
した黒領域画像を予め定めてある保持場所に保持
しておく除去/保持手段と、処理対象の文字枠内
画像情報に前記反対側の黒領域につながる黒領域
を除去した矩形領域の画像情報を接続した増加画
像情報を作成する増加画像情報作成手段を備え、
前記文字枠間境界近傍の全ての走査において白走
査が検出されなかつたとき、前記黒領域連続性検
査手段による検査を行い、その結果黒領域の分離
が出来ない場合は、前記文字枠境界をもつて切り
出し、分離が出来る場合は、前記増加画像情報作
成手段の作成した画像情報から切り出し、前記除
去/保持手段の保持した黒領域画像は次の処理対
象文字画像に接続して用いるよう構成したことを
特徴とする文字切り出し方式により達成できる。 すなわち、今前述の第5図における数字5,3
のはみ出し状態を例にして説明すれば、数字5の
右切り出し位置を十数ビツト右側まで捜索して行
くが数字5と3が相互にはみ出しているため白ス
キヤンは生じない。しかし、数字5と数字3は相
互に分離しているため、当該切出し領域即ち数字
5の領域から連続しているセグメントである数字
5のはみ出し部と、当該切出し領域からは連続し
ておらず、隣接切出し領域即ち数字3の領域から
連続している数字3のはみ出し部とを不連続と判
別して、数字3のはみ出し部を数字5の切出し領
域より除去してやれば、数字5は正しく認識出来
て、その帳票をリジエクトせずに済む。又次に数
字3を切出す場合には前に除去した数字3のはみ
出し部を戻してやつて切出しを行う。 以下図面を参照して本発明の一実施例について
説明する。 第7図は第6図に示した数字5と3のはみ出し
状態で数字5の文字枠10を切出し処理対象とし
てその右切出し位置を求める場合の、ビデオ16
のセグメント図にエツジアドレスを付したエツジ
パターンである。 エツジパターンとは第7図を例にとると、下方
より上方に縦スキヤンを行つている場合白から黒
に変化すれば変つた黒のビツトのアドレスを一方
のエツジ(この場合黒エツジと称す)とし、又黒
から白に変化すれば、変つた白のビツトのアドレ
スを他方のエツジ(この場合白エツジと称す)の
アドレスとして、それらのアドレスを表示した図
で、本図は数字5の文字枠10の右切出し基点ア
ドレス9−2を中心として描いてある。 同図においてa1a2は1対の黒エツジと白エツジ
のアドレスであつて、図に示されたa〜tのアル
フアベツトのサフイツクスが奇数であれば黒エツ
ジであり、偶数であれば白エツジである。 又同一縦スキヤンにおいて複数の文字領域が存
在する場合は例えば同図の一番左端の縦スキヤン
即ちaスキヤンにおいて、a1−a2とa3−a4の如
く、それぞれの文字領域(この場合2組)が示さ
れる。 同図のe及びsの2つの縦スキヤンでは文字領
域は4組で本例において最も多い部分である。 第7図のエツジパターンから左右の文字枠10
に所属する文字(この場合5と3)のうち数字5
について、その右側のはみ出し部に対する分離切
出し処理の詳細を第8図のフローチヤートを中心
に第9図乃至第14図により説明する。 第8図において、はみ出し部に対する右切出し
処理を開始すると、まず文字枠右位置から左右に
それぞれ所定ビツト数(通常+数ビツト)の捜索
領域を設け、右側より左側に縦スキヤン走査を行
う。もし白スキヤンがあれば、その白スキヤンの
次に最初の黒スキヤンが見つかつた位置を右切出
し位置とする。 もし捜索領域全体について白スキヤンが存在し
ない場合は、その捜索領域内のビデオが分離して
いるかどうかを下記に述べるエツジテーブルを用
いた連続エツジ検出方法により判別して、もし分
離していない場合は従来通り強制的に文字枠右位
置を右切出し位置とし、もし分離していれば、右
側文字のビデオを特に設けた記憶領域に格納し
(本発明ではこれをセーブ(SAVE)と称してい
るので今後この処理をSAVEと記す)、左側文字
のみを切出し領域に残す。 次に上述のSAVE動作が発生したことを記憶し
ておくためにプログラムスイツチを設けて、
SAVEするSW=1としておく。 因に上述の白スキヤンが存在した場合と、強制
切り出しの場合はいずれもこのSAVEするSWは
0としてから特徴抽出の処理に入る。 上述の説明に戻つて、プログラムスイツチを操
作した後、当該切出し文字について、その右側を
再切出しして、はみ出し部を含めた文字全体を切
出す。 次に特徴抽出処理を行つた後、SAVEするSW
=1かどうかを調べて、1ならば右側文字の
SAVEされたビデオを切出し作業を行つているビ
デオメモリ領域に戻して、次の文字の切出し作業
を開始する。 先に一寸ふれたビデオ情報の隣接縦スキヤン毎
のセグメント間の連続又は分離の判別について以
下に述べる。 第7図に示したエツジパターンから第9図に示
す上下エツジテーブル17を作成する。 又上下エツジテーブル最終アドレステーブル1
8には、各縦スキヤンに対する最終ポインタap
〜tpが格納されている。 第9図に示した上下エツジテーブル17から、
連続したエツジを検出する方法を、隣接セグメン
ト間の位置関係により連続、不連続を規定する第
11図の連続判別図と以下に述べる連続判別式と
を対比し、更に第7図のエツジパターンも参照し
て説明する。 今第m−1スキヤンにおいて得られたセグメン
ト中連続判別を行うものの下エツジアドレスを
j、上エツジアドレスをkとし、又第mスキヤン
において得られ現セグメント中の上記j,Kに対
して連続判別を行うものの下エツジアドレスを
h、上エツジアドレスをiとする。 連続判別式は上記の8種類となり、それに対応
した連続判別図の番号を右方に記す。 但し、常にh<i,j<kの関係が成立する。
The present invention relates to a character extraction method for determining a rectangular character frame circumscribing a character to be recognized in a character recognition device, and in particular, for handwritten characters, characters that exceed a predetermined character frame and invade adjacent character frames. This relates to a character extraction method that distinguishes and recognizes . Optical character reading devices (hereinafter abbreviated as OCR) are used as an input method for information processing systems, but this device can recognize handwritten characters from early devices that recognize characters printed on typewriters or line printers using special type. It is developing into However, in handwritten characters, there are not only individual differences in character shape and size, but also characters that exceed the specified writing frame and enter the writing frames on both sides.
Difficulty arises when cutting out characters. Before describing the problems below, for ease of understanding, a conventional character extraction method will be briefly explained with reference to the drawings. FIG. 1 shows an explanatory diagram of the configuration of a character recognition device. In the figure, characters 2 written on a form 1 enter a sensor 4 through a lens system 3, undergo photoelectric conversion, undergo the necessary processing in a preprocessing circuit 5, are quantized, and are stored in an image memory 6. The processor 7 then performs character recognition processing. The first process performed in this character recognition process is a character extraction process. FIG. 2 shows the memory configuration of the image memory (FIG. 1, 6). In this example, one byte (8 bits) corresponds to one pixel as memory 8, and the configuration of each memory when a 64 Kbyte memory is used is shown by assigning a hexadecimal address to each area. In other words, in the example of this figure, the 1-pixel memory 8 in the upper left corner is address 0000, and as you move further to the right, the lower two digits change sequentially, becoming 00FF in the upper right corner, and when you change vertically, the upper two digits change. It changes sequentially starting from the 1 pixel memory 8 at the upper left corner, and the lower left corner becomes FF00.
The last address will be FFFF in the lower right corner. Next, Figure 3 shows characters 2 on form 1, the extraction base addresses 9-1 to 9-4 when those characters are extracted on the image memory, and the character frame determined by the extraction height and image capture height. 10 relationships are shown. In the figure, character 2 is lined up with the number 534 in this figure, with respect to the image capture height and image capture width (not particularly shown in the horizontal direction of the figure) determined by the character recognition device, and the character frame 10. There is. number 5 now
Considering this, in order to cut out that character, the cutting base points 9-1 and 9-2 are set as the left cutting base point and the right cutting base point, respectively. In the figure, when numerals 3 and 4 are sequentially extracted, the left and right extraction base points are sequentially searched to the left as 9-2 and 9-3 or 9-3 and 9-4. The extraction method will be explained using the number 5 stored as video information on the image memory as an example in FIG. In the figure, an image memory area with a character width of 3 bytes (8 bits/byte) and a cutting height of 40 bits is
A case will be described in which video information forming segments for each vertical scan within the character frame 10 is cut out. (However, in reality, the character width is 5 to 6 bytes.) In the figure, first, a search is performed in the vertical direction from the left extraction base address 9-1 for the number 5 (hereinafter referred to as vertical scan), and the first vertical scan is performed. If it is a white scan, search sequentially until a black scan appears on the right side. If the number 5 is not written, everything up to the right extraction base address 9-2 will be scanned white, and in this case, the character frame 10 will be treated as a blank. In the same figure, the number 5 is clearly marked and its character frame 1
Since it is written within 0, when the vertical scan is searched to the right as described above from the left extraction base point address 9-1, the first black scan appears immediately. In this case, position 11 of the first black scan is set as the left extraction position (address). Also, unlike this figure, the left extraction base address 9-
When the starting scan on 1 becomes a black scan, a vertical scan search is performed alternately on the left and right for the same number of ranges (usually ten or more bits) on the left and right, starting from the starting vertical scan position. If a white scan first occurs on the left vertical scan during this search, use the vertical scan to the right of it as the left cutting position, and if a white scan occurs on the right vertical scan, drive to the right until a black scan is found. The black scan discovery position is set as the left cutting position. If the above-mentioned white scan occurs within the left character frame, the characters written in the character frame are intruding into the left character frame, and if the white scan occurs within the character frame, the characters written in the left character frame are intruded into the left character frame. This is a case where the characters are invading the character frame and there is no overlap between both characters. If a white scan cannot be found within the entire search range, character segmentation is forcibly performed using the left extraction base address position 9-1, which is the left character frame base position, as the left extraction position. This occurs when a character written in the character frame 10 and a character written in the character frame 10 to the left of the character frame 10 mutually penetrate deeply into the other character frame, causing an overlap, or when the characters are connected. In this way, the character extraction position is determined by sequentially searching for the right side, upper side, and lower side using the same procedure, and the character extraction process is completed, and the next pattern recognition process is started. A case will be described in which, when the characters described in the above-mentioned adjacent character frames 10 deeply invade each other's character frames, the characters are forcibly cut out to the left or right from the left or right character frame base position. FIG. 5 shows the case of so-called overflow characters in which the numbers 5 and 3 are written as characters 2 on the form 1 so as to mutually intrude into the other character frame 10. In other words, the horizontal line at the top of the number 5 is the number 3 on the right.
invades the character frame 10 as an overhang 12,
Further, the lower and rear portions of the number 3 form a protruding portion 12 that intrude into the character frame 10 of the number 5 on the left. The right extraction base point address of number 5 in the same figure (number 3
FIG. 6 shows a situation in which the image is converted into a video on the image memory with 9-2 (same as the left extraction base point address) as the center. In FIG. 6, it is assumed that the right search 13 and the left search 14 are performed alternately 10 times as the extraction search from the right extraction base point address 9-2 of number 5 for convenience of illustration. (Actually, as mentioned above, this is usually done more than ten times at a time). In the same figure, the upper horizontal line of the number 5 becomes the protruding part 12 and protrudes from the area of the left search 14, and the protruding part 12 of the number 3 also intrudes into the left character frame 10, so in any case, Ten
In the right search, no white scan occurs in the vertical scan. The same applies to the right search area 13. Therefore, in the case of FIG. 6, the right extraction position 15 for the character frame 10 in which the number 5 is written is the same as the right extraction base address 9-2, and the character box 10 in which the number 5 is written is entered. A protruding portion 12 with a number 3 is attached thereto. However, if we perform forced extraction as described above,
When distinguishing and recognizing extracted characters, there is a possibility that misrecognition may often occur, so when forced extraction is performed, reject is output as an answer, and in this example, both 5 and 3 are rejected, reducing the operational efficiency of OCR. let The present invention aims to propose a character extraction method that identifies the above-mentioned protruding characters, prevents misrecognition, and improves operational efficiency by reducing the number of rejects. Image information including multiple characters is scanned in the vicinity of the boundary between character frames defined by character position information given in advance so as to cross the characters, and as a result of this scanning, a black scanning group containing black pixels and other When there is a white scan that does not include black pixels between a group of black scans, the scan position where the white scan is detected is regarded as the boundary between characters, and an image of a rectangular area containing information for each character from the above image information is created. In the character extraction method for extracting information,
A rectangular area having a certain size centered on the boundary between the character frames is set, and the continuity of the black area on each scanning line in the rectangular area with the adjacent scanning line is checked, and a rectangular area is set on the starting end side of the rectangular area. a black area continuity inspection means for classifying the black area into a continuous black area and a black area connected to an end side; and a black area image in which the black area connected to the black area on the side opposite to the character side to be processed is removed from the rectangular area, and the black area is removed. a removing/holding means for holding the image in a predetermined holding location, and an increased image in which image information of a rectangular area from which the black area connected to the black area on the opposite side has been removed is connected to the image information within the character frame to be processed. Equipped with an increased image information creation means for creating information;
When a white scan is not detected in all the scans near the boundary between character frames, a test is performed by the black area continuity inspection means, and if the black area cannot be separated as a result, the black area is detected in the vicinity of the boundary between character frames. If the black area image can be cut out and separated, the image information is cut out from the image information created by the increased image information creation means, and the black area image held by the removal/retention means is used by connecting it to the next character image to be processed. This can be achieved using a character extraction method featuring the following. In other words, the numbers 5 and 3 in Figure 5 mentioned above
Taking the overflowing state as an example, the right cutting position of the number 5 is searched to the right by more than ten bits, but since the numbers 5 and 3 overlap each other, no white scan occurs. However, since the numbers 5 and 3 are separated from each other, the protruding part of the number 5, which is a continuous segment from the cutout area, that is, the area of the number 5, is not continuous from the cutout area, If the protruding part of the number 3 that is continuous from the adjacent cutout area, that is, the area of the number 3, is determined to be discontinuous, and the protruding part of the number 3 is removed from the cutout area of the number 5, the number 5 can be recognized correctly. , there is no need to reject the form. Next, when cutting out the number 3, the previously removed protruding portion of the number 3 is returned and the cutting is performed. An embodiment of the present invention will be described below with reference to the drawings. FIG. 7 shows a video 16 when character frame 10 of numeral 5 is to be cut out and its right extraction position is determined with numerals 5 and 3 protruding from each other as shown in FIG. 6.
This is an edge pattern with edge addresses added to the segment diagram. What is an edge pattern? Taking Figure 7 as an example, if a vertical scan is performed from the bottom to the top, if it changes from white to black, the address of the changed black bit is one edge (in this case, it is called a black edge). If the edge changes from black to white, the address of the changed white bit is used as the address of the other edge (in this case, it is called the white edge), and these addresses are displayed in this figure. The drawing is centered on the right extraction base point address 9-2 of the frame 10. In the figure, a 1 a 2 is the address of a pair of black edge and white edge, and if the alpha suffix of a to t shown in the figure is an odd number, it is a black edge, and if it is an even number, it is a white edge. It is. In addition, if there are multiple character areas in the same vertical scan, for example, in the leftmost vertical scan, ie, a scan, each character area (in this case, a 1 - a 2 and a 3 - a 4) 2 sets) are shown. In the two vertical scans of e and s in the figure, there are four character areas, which are the largest portion in this example. From the edge pattern in Figure 7, left and right character frames 10
The number 5 among the characters (5 and 3 in this case) belonging to
9 to 14, the details of the separation/cutting process for the protruding portion on the right side will be explained with reference to the flowchart of FIG. 8. In FIG. 8, when the right extraction process for the protruding portion is started, first search areas of a predetermined number of bits (usually + several bits) are provided on the left and right sides from the right position of the character frame, and vertical scanning is performed from the right side to the left side. If there is a white scan, the position where the first black scan is found after the white scan is set as the right extraction position. If there is no white scan for the entire search area, use the continuous edge detection method using an edge table described below to determine whether the videos within the search area are separated, and if they are not separated, As before, the right position of the character frame is forcibly set as the right cutting position, and if it is separated, the video of the right side character is stored in a specially provided storage area (this is called SAVE in the present invention). This process will be referred to as SAVE from now on), leaving only the characters on the left side in the extraction area. Next, a program switch is provided to remember that the SAVE operation described above has occurred.
Set SW to SAVE = 1. Incidentally, in both the case where the above-mentioned white scan exists and in the case of forced extraction, the SAVE SW is set to 0 before starting the feature extraction process. Returning to the above description, after operating the program switch, the right side of the cut-out character is cut out again, and the entire character including the protruding part is cut out. Next, after performing feature extraction processing, SAVE SW
Check whether = 1, and if it is 1, the character on the right side
Return the saved video to the video memory area where the cutting operation is being performed, and start cutting out the next character. Determination of continuity or separation between segments of adjacent vertical scans of video information that has previously changed will be described below. A top and bottom edge table 17 shown in FIG. 9 is created from the edge pattern shown in FIG. Also, upper and lower edge table final address table 1
8 contains the final pointer ap for each vertical scan.
~tp is stored. From the upper and lower edge table 17 shown in FIG.
We compared the method of detecting continuous edges by comparing the continuity discriminant diagram in Figure 11, which defines continuity or discontinuity depending on the positional relationship between adjacent segments, and the continuity discriminant formula described below, and also compared the edge pattern in Figure 7. Refer to and explain. Let j be the lower edge address and k be the upper edge address of the segment for which continuity determination is to be performed in the segment obtained in the m-1st scan, and continuity determination for the above j and K in the current segment obtained in the m-th scan. Let h be the lower edge address and i be the upper edge address of the one that performs the following. There are eight types of continuity discriminants as mentioned above, and the numbers of the corresponding continuity discriminant diagrams are written on the right side. However, the relationships h<i and j<k always hold true.

【表】【table】

【表】 (1)の条件は左方のセグメントが上方にあり、右
方のセグメントが下方にあつて、その間が不連続
な場合であり、その逆が(8)の条件である。 連続条件(2)乃至(7)は左右のセグメントの大きさ
と接続状態とから10種類が存在する。 今これらの判別式を二三第7図と第9図にあて
はめて説明する。 まず第7図のa1a2とb1b2とをくらべると、(3)が
成立して第11図3−4の形の連続である。 次にa1a2とb3b4をくらべると、(8)が成立して第
11図8の状態の不連続である。 次にa3a4とb1b2は(1)で不連続、a3a4とb3b4は(4)
が成立して、第11図4−2の状態の連続であ
る。 このように順次相隣るセグメントのエツジアド
レスを比較してゆくと、d1d2とe1e2が不連続、及
びd1d2とe1e2が不連続である事が判り、以後左の
領域より連続なるa1a2とa3a4にそれぞれ連続なる
エツジ系列と左の領域とは不連続なe1e2,q3q4
びs5s6にそれぞれ連続なるエツジ系列はとは不連
続なることが判別出来る。 その結果を連続エツジ登録テーブル21に記憶
せしめると第10図の如くなり、その領域はテー
ブル最終アドレステーブル18の各スキヤンに対
応する最終ポインタap〜tpにより監視している。 第9図から第10図に転送されなかつたエツジ
アドレスは、先に述べたSAVE処理により別に格
納されて、次の本例における数字3を切出す際再
び取出して用いられるが、その処理は後に第13
図の回路ブロツク図の説明の際に説明する。 次に第7図のe3e4−f3f4−e5e6の部分を見ると
f3f4のセグメントに対してe3e4に連続なるエツジ
系列e5e6に連続なるエツジ系列が連続となつてい
る。 同じ状況はe5e6−d3d4−e7e8においても生じて
いる。 この形状を“曲がり”と称し、判別条件図を第
12図に示し、判別式を以下に述べる。 記号h,i,j,kは第11と同様とし、kより
上方の下、上エツジをそれぞれn,oとし又iよ
り上方の下、上エツジをそれぞれl,mとする。
又判別式の番号は前出に引続いて付ける。 まず左曲りの場合については、 (9) h<k<n<iなるときであり第12図の9
−1乃至9−5に示す関係位置の場合である。 次に右曲りの場合については、左曲りと対称に
なるので、 (10) j<i<l<kなるときであり、第12図の
10−1乃至10−5に示す関係位置の場合で
ある。 この“曲り”判別により第10図の連続エツジ
は全部連続している事が判別される。 上下方向についての曲りの判別も同様に行なわ
れるので説明は省略する。 以上右切出しについて説明したが、左側、上
部、下部の各はみ出し部に対しても同様な処理手
順と操作により分離切出しが行なわれる。 分離処理の回路動作を第13図に示す本発明の
一実施例の回路ブロツク図により説明する。 同図において、多少前述の説明と重複するが初
めよりの回路動作から説明すると、まず切出し回
路スタート信号が従来装置より発せられて切出
し回路22が起動し、同時にビデオストレツジ2
9よりビデオデータ〓〓を入力して切出し動作を開
始する。 今迄の説明の続きとして右切出しの場合につい
て説明すると、切出し回路22において前述の如
く第7図の右切出し基点アドレス9−2より左方
に縦スキヤンを開始する。 本例においては、前記の如く文字の5と3がは
み出し状態にあるため、最初の縦スキヤンから黒
スキヤンである。この場合は、シーケンスに従つ
て右切出し基点アドレス9−2の左右各十数ビツ
トの捜索領域に対して基点アドレス9−2を開始
点として左右交互に走査し、白スキヤンの有無を
テストする。但し先にも述べた如く本説明図では
左右おのおの10ビツト宛の範囲としている。 この範囲を捜索しても白スキヤンを発見出来な
かつたとき切出回路22から信号としてエツジ
テーブル作成回路23に入力される。 エツジテーブル作成回路23は切出し回路22
よりエツジテーブル作成領域を示す切出し領域デ
ータを信号として受信して、エツジテーブル記
憶回路24にライト信号〓〓を発信してエツジテー
ブルデータとして上下エツジアドレスを記憶さ
せる。 前に述べた如く切出し回路22は捜索領域に対
して、今の右切出しの場合であれば右方と左方の
2回走査を行つてその結果をエツジテーブル作成
回路23において照合し、一致していればエツジ
テーブル作成回路エンド信号を連続セグメント
判定回路25に送信して起動せしめ、もし不一致
の場合は切出し不良ステータス信号を切出し回
路22と異常処理シーケンス回路に送る。 上記信号を受けた切出し回路22はSAVE
SW=0信号をアンドゲート32に発信し、特
徴抽出回路30の特徴抽回路エンド信号と共に
認識回路31に起動信号を送つてその文字処理を
終了させる。 上記信号を受信した連続セグメント判定回路
25はエツジテーブル記憶回路、24にリード信
号〓〓を送つて、エツジテーブルデータを受信
し、先に述べた連続判別式(1)乃至8と曲り判別式
(9),(10)を用いて連続セグメントのエツジアドレス
を連続セグメント記憶回路26の連続エツジ登録
テーブルに、又曲りセグメントのアドレスの曲り
レジスタに、曲りの個数を曲りカウンタにライト
信号により連続セグメントデータとして記憶
させる。 もし捜索領域の全域において左領域より連続な
るセグメントと右領域より連続なるセグメントが
分離出来ないときは分離失敗ステータス信号を
切出し回路22及び異常処理シーケンス回路上送
信して、前述の切出し不良ステータス信号の時
と同様の処理を行う。 分離セグメントが存在する場合はSAVEデータ
は次の連続セグメントとビデオデータ比較回路2
7において分離記憶させる。 連続セグメント判定回路25の処理が完了する
と、連続セグメント判定回路エンド信号が連続
セグメントとビデオデータ比較回路27に送られ
て、その回路動作が起動し、連続セグメント記憶
回路26にリード信号を送つて連続セグメント
データを受信し、ビデオパターンに再生し、同
時にリード/ライト信号をビデオストレツジ2
9に送つて切出し回路22より送れたアドレスデ
ータ〓〓によりビデオデータをとり出し、その両
ビデオパターンを比較する。 両方のビデオパターンが一致すれば、ビデオデ
ータ中の残りのビデオパターンを不連続セグメ
ントとして、ライト信号〓〓を不連続セグメント記
憶回路28に送つて不連続セグメントデータを
記憶させ、一方ビデオストレツジ29にはビデオ
ストレツジ消去データを送つて不連続セグメン
トの部分を除去する。 この不連続部分を除去する動作をまとめて、
SAVEと称することは先に述べたが、このSAVE
を行つた場合SAVESW=1の信号を発信して
切出し回路22及びアンドゲート34に送る。 以上述べた動作が終了した時点で切出し回路2
2より切出し回路エンド信号が発信され、特徴
抽出回路30が切出し回路22より左右、上下の
切出しアドレスデータ〓〓と切出し回路スタート信
号を受けて起動する。 特徴抽出回路30の動作が完了すると、特徴抽
出回路エンド信号をアンドゲート32,33,
34に送る。 まずアンドゲート34は上述の信号と
SAVESW=1の信号を受けて不連続セグメン
ト記憶回路28に先に記憶した不連続セグメント
のビデオデータをビデオストレツジ29に転送す
る命令である不連続セグメントのビデオストレツ
ジへのロードスタート信号を送る。 この信号を受けた不連続セグメント記憶回路
28は不連続セグメントデータをビデオストレ
ツジ29に転送して、SAVEデータを次の文字切
出し対象文字のビデオパターンに付加する。 信号を受けたアンドゲート33は、不連続セ
グメント記憶回路28より不連続セグメントのビ
デオストレツジへのロードエンド信号を受け
て、オアゲート35を介し認識回路31に起動信
号を送り、特徴抽出回路30より特徴データ〓〓を
受信する。 信号を受けたアンドゲート32は切出し回路
22よりSAVESW=0の信号が発信されてい
るときオアゲート35を介して認識回路31を起
動させる。 以上述べた如く、本発明によれば従来分離不能
であつた相互はみ出し文字を分離して認識可能と
なしたので、OCRの読取り動作におけるリジエ
クトを減少し、又文字認識の成功率も向上出来る
ので、OCRの運転効率の向上と信頼性の向上に
対して効果多大である。
[Table] Condition (1) is when the left segment is above and the right segment is below, and there is no continuity between them, and the opposite is the condition (8). There are 10 types of continuity conditions (2) to (7) based on the size and connection state of the left and right segments. These discriminants will now be explained by applying them to FIGS. 7 and 9. First, when we compare a 1 a 2 and b 1 b 2 in Fig. 7, (3) holds and the form shown in Fig. 11 3-4 is continuous. Next, when a 1 a 2 and b 3 b 4 are compared, (8) holds true and the state shown in FIG. 11 is discontinuous. Next, a 3 a 4 and b 1 b 2 are discontinuous at (1), and a 3 a 4 and b 3 b 4 are (4)
is established, and the state shown in FIG. 11 4-2 continues. By comparing the edge addresses of adjacent segments in this way, it is found that d 1 d 2 and e 1 e 2 are discontinuous, and d 1 d 2 and e 1 e 2 are discontinuous, From now on, the edge series is continuous to a 1 a 2 and a 3 a 4 , which are continuous from the left region, and the edge series is continuous to e 1 e 2 , q 3 q 4 , and s 5 s 6 , which are discontinuous from the left region. It can be determined that the series is discontinuous. When the result is stored in the continuous edge registration table 21, it becomes as shown in FIG. 10, and the area is monitored by the final pointers ap to tp corresponding to each scan of the table final address table 18. The edge addresses that were not transferred from Fig. 9 to Fig. 10 are stored separately by the SAVE processing described above, and are retrieved and used again when cutting out the number 3 in this example, but that processing will be done later. 13th
This will be explained when explaining the circuit block diagram in the figure. Next, if we look at the part e 3 e 4 −f 3 f 4 −e 5 e 6 in Figure 7,
For a segment of f 3 f 4 , an edge series continuous to e 3 e 4 and an edge series continuous to e 5 e 6 are continuous. The same situation occurs in e 5 e 6 −d 3 d 4 −e 7 e 8 . This shape is called a "curve", a discriminant condition diagram is shown in FIG. 12, and a discriminant is described below. The symbols h, i, j, and k are the same as in the 11th, and the lower and upper edges above k are n and o, respectively, and the lower and upper edges above i are l and m, respectively.
In addition, the numbers for the discriminants are given following the above. First, in the case of a left turn, (9) when h<k<n<i, 9 in Fig. 12.
This is the case of the related positions shown in -1 to 9-5. Next, in the case of a right turn, since it is symmetrical with a left turn, (10) j<i<l<k, and in the case of the related positions shown in 10-1 to 10-5 in Fig. 12. be. Through this "curvature" determination, it is determined that all the continuous edges in FIG. 10 are continuous. The determination of bending in the vertical direction is also performed in the same manner, so the explanation will be omitted. Although right-hand cutting has been described above, separation cutting is also performed for the left, upper, and lower protruding portions using similar processing procedures and operations. The circuit operation of the separation process will be explained with reference to a circuit block diagram of an embodiment of the present invention shown in FIG. In the same figure, the circuit operation from the beginning will be explained although it overlaps with the above explanation to some extent. First, an extraction circuit start signal is issued from the conventional device, the extraction circuit 22 is activated, and at the same time, the video storage 2
The video data 〓〓 is input from 9 and the cutting operation is started. Continuing the explanation up to now, the case of right extraction will be explained. In the extraction circuit 22, a vertical scan is started to the left from the right extraction base point address 9-2 in FIG. 7, as described above. In this example, since the characters 5 and 3 protrude as described above, black scans are performed from the first vertical scan. In this case, according to the sequence, the search area of more than ten bits on each side of the right extraction base point address 9-2 is scanned alternately left and right with the base address 9-2 as the starting point, and the presence or absence of a white scan is tested. However, as mentioned earlier, in this explanatory diagram, the range is 10 bits each on the left and right sides. When a white scan is not found even after searching this range, the extraction circuit 22 inputs the signal to the edge table creation circuit 23 as a signal. The edge table creation circuit 23 is the cutout circuit 22
The cutting area data indicating the edge table creation area is received as a signal, and a write signal 〓〓 is sent to the edge table storage circuit 24 to store the upper and lower edge addresses as edge table data. As mentioned earlier, the extraction circuit 22 scans the search area twice, in the case of right extraction, rightward and leftward, and the results are collated in the edge table creation circuit 23 to find a match. If they do not match, an edge table creation circuit end signal is sent to the continuous segment determination circuit 25 to activate it, and if they do not match, an extraction failure status signal is sent to the extraction circuit 22 and the abnormality processing sequence circuit. The cutout circuit 22 that received the above signal is SAVE.
A SW=0 signal is sent to the AND gate 32, and a start signal is sent to the recognition circuit 31 along with a feature extraction circuit end signal of the feature extraction circuit 30 to terminate the character processing. The continuous segment determination circuit 25 that received the above signal sends a read signal 〓〓 to the edge table storage circuit 24, receives the edge table data, and receives the above-mentioned continuity discriminants (1) to 8 and the bend discriminant.
Using (9) and (10), write the edge address of the continuous segment into the continuous edge registration table of the continuous segment storage circuit 26, write the number of bends into the bend register of the address of the bend segment, and write the number of bends into the bend counter. Store it as data. If a segment continuous from the left region and a segment continuous from the right region cannot be separated in the entire search area, a separation failure status signal is transmitted to the extraction circuit 22 and the abnormality processing sequence circuit, and the above-mentioned extraction failure status signal is transmitted. Perform the same processing as when If there is a separate segment, the SAVE data is transferred to the next continuous segment and the video data comparison circuit 2.
7, it is stored separately. When the processing of the continuous segment judgment circuit 25 is completed, a continuous segment judgment circuit end signal is sent to the continuous segment and video data comparison circuit 27 to start its circuit operation, and a read signal is sent to the continuous segment storage circuit 26 to Receives segment data, plays it into a video pattern, and simultaneously sends read/write signals to video storage 2.
9 and the address data sent from the extraction circuit 22, the video data is extracted and the two video patterns are compared. If both video patterns match, the remaining video patterns in the video data are treated as discontinuous segments, and a write signal 〓〓 is sent to the discontinuous segment storage circuit 28 to store the discontinuous segment data, while the video storage 29 The video storage erase data is sent to remove the portion of the discontinuous segment. Summarizing the operations to remove this discontinuous part,
I mentioned earlier that it is called SAVE, but this SAVE
When this is done, a signal of SAVESW=1 is generated and sent to the cutout circuit 22 and the AND gate 34. When the operation described above is completed, the cutout circuit 2
A cutout circuit end signal is transmitted from the cutout circuit 22, and the feature extraction circuit 30 is activated upon receiving left and right, upper and lower cutout address data and a cutout circuit start signal from the cutout circuit 22. When the operation of the feature extraction circuit 30 is completed, the feature extraction circuit end signal is sent to the AND gates 32, 33,
Send to 34. First, the AND gate 34 is connected to the above signal.
Upon receiving the SAVESW=1 signal, a load start signal of the discontinuous segment to the video storage is sent, which is a command to transfer the video data of the discontinuous segment previously stored in the discontinuous segment storage circuit 28 to the video storage 29. . Upon receiving this signal, the discontinuous segment storage circuit 28 transfers the discontinuous segment data to the video storage 29, and adds the SAVE data to the video pattern of the next character to be extracted. The AND gate 33 receives the load end signal of the discontinuous segment from the discontinuous segment storage circuit 28 to the video storage, and sends an activation signal to the recognition circuit 31 via the OR gate 35, and the feature extraction circuit 30 Receive feature data 〓〓. The AND gate 32 receiving the signal activates the recognition circuit 31 via the OR gate 35 when the signal SAVESW=0 is being transmitted from the extraction circuit 22. As described above, according to the present invention, characters that overlap each other, which could not be separated in the past, can be separated and recognized, thereby reducing rejects in OCR reading operations and improving the success rate of character recognition. , has a great effect on improving OCR operating efficiency and reliability.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は文字認識装置の構成説明図であり、第
2図は画像メモリ構成図、第3図は帳票上の画像
とフオーマツト情報位置関係図、第4図は画像メ
モリ上ビデオと切出し情報図、第5図ははみ出し
文字の帳票上位置関係図、第6図は同じくビデオ
図、第7図は本発明の一実施例のセグメント図、
第8図は同じく右切出しフローチヤート、第9図
は同じく上下エツジテーブル、第10図は同じく
連続エツジ登録テーブル、第11図は同じく連続
判別条件図、第12図は同じく曲りエツジ判別条
件図、第13図は同じく回路ブロツク図である。 図中、1は帳票であり、2は文字、3はレンズ
系、4はセンサ、5は前処理回路、6は画像メモ
リ、7はプロセツサ、8は1画素メモリ、9−1
乃至9−4は切出し基点アドレス、10は文字
枠、11は左切出し位置、12ははみ出し部、1
3は左捜索、14は右捜索、15は右切出し位
置、16はビデオ、17は上下エツジテーブル、
18はテーブル最終アドレステーブル、19及び
20は最終ポインタ、21は連続エツジ登録テー
ブル、22は切出し回路、23はエツジテーブル
作成回路、24はエツジテーブル記憶回路、25
は連続セグメント判定回路、26は連続セグメン
ト記憶回路、27は連続セグメントとビデオデー
タ比較回路、28は不連続セグメント記憶回路、
29はビデオストレツジ、30は特徴抽出回路、
31は認識回路、32乃至34はアンドゲート、
35はオアゲート、は切出し回路スタート信
号、はSAVESW=1信号、はエツジ情報信
号、はSAVESW=0信号、は切出し回路エ
ンド信号、は切出し不良ステータス信号、は
エツジテーブルデータ、はエツジテーブル作成
回路エンド信号、はエツジテーブルデータ、
及び〓〓はリード信号、は分離失敗ステータス信
号、及びは連続セグメントデータ、は連続
セグメント判定回路エンド信号、及び〓〓はビデ
オデータ、はリード/ライト信号、はビデオ
ストレツジ消去データ、及びは不連続セグメ
ントデータ、は不連続セグメントのビデオスト
レツジへのロードスタート信号、は不連続セグ
メントのビデオストレツジへのロードエンド信
号、は特徴抽出回路エンド信号、〓〓,,〓〓は
ライト信号、〓〓及び〓〓はアドレスデータ、〓〓は特
徴データである。
Figure 1 is an explanatory diagram of the configuration of the character recognition device, Figure 2 is a diagram of the image memory configuration, Figure 3 is a diagram of the positional relationship between images on a form and format information, and Figure 4 is a diagram of video and cutout information on the image memory. , FIG. 5 is a diagram of the positional relationship of protruding characters on a form, FIG. 6 is a video diagram, and FIG. 7 is a segment diagram of an embodiment of the present invention.
FIG. 8 is the same right cutting flowchart, FIG. 9 is the same upper and lower edge table, FIG. 10 is the same continuous edge registration table, FIG. 11 is the same continuous discrimination condition diagram, and FIG. 12 is the same curved edge discrimination condition diagram. FIG. 13 is a circuit block diagram as well. In the figure, 1 is a form, 2 is a character, 3 is a lens system, 4 is a sensor, 5 is a preprocessing circuit, 6 is an image memory, 7 is a processor, 8 is a 1-pixel memory, 9-1
9 to 9-4 are the extraction base address, 10 is the character frame, 11 is the left extraction position, 12 is the protruding part, 1
3 is the left search, 14 is the right search, 15 is the right cutting position, 16 is the video, 17 is the upper and lower edge table,
18 is a table final address table, 19 and 20 are final pointers, 21 is a continuous edge registration table, 22 is an extraction circuit, 23 is an edge table creation circuit, 24 is an edge table storage circuit, 25
26 is a continuous segment storage circuit; 27 is a continuous segment and video data comparison circuit; 28 is a discontinuous segment storage circuit;
29 is a video storage, 30 is a feature extraction circuit,
31 is a recognition circuit, 32 to 34 are AND gates,
35 is the OR gate, is the cutout circuit start signal, is the SAVESW=1 signal, is the edge information signal, is the SAVESW=0 signal, is the cutout circuit end signal, is the cutout failure status signal, is the edge table data, is the edge table creation circuit end signal, is edge table data,
and 〓〓 is a read signal, 〓〓 is a separation failure status signal, and 〓 is a continuous segment data, is a continuous segment judgment circuit end signal, and 〓〓 is a video data, is a read/write signal, is a video storage erase data, and is an invalid data. Continuous segment data, is the load start signal of the discontinuous segment to the video storage, is the load end signal of the discontinuous segment to the video storage, is the feature extraction circuit end signal, 〓〓,, 〓〓 is the write signal, 〓 〓 and 〓〓 are address data, and 〓〓 is characteristic data.

Claims (1)

【特許請求の範囲】 1 画像メモリに蓄えられる複数の文字を含む画
像情報に対して、予め与えられた文字位置情報に
よつて決定される文字枠間境界の近傍を文字を横
断するように走査し、該走査の結果、黒画素含む
黒走査群と他の黒走査群の間に黒画素を含まない
白走査が存在する場合に当該白走査の検出された
走査位置を文字間の境界とみなして上記画像情報
から一文字ずつの情報を含んだ矩形領域の画像情
報を抽出する文字切出し方式において、 前記文字枠間境界を中心とし一定の大きさを有
する矩形領域を設定すると共に、 該矩形領域内の各走査線上の隣接走査線上との
黒領域の連続性を検査し該矩形領域の始端側につ
ながる黒領域と終端側につながる黒領域とに分別
する黒領域連続性検査手段1と、 前記矩形領域から処理対象の文字側と反対側の
黒領域につながる黒領域を除去し該除去した黒領
域画像を予め定めてある保持場所に保持しておく
除去/保持手段2と、 処理対象の文字枠内画像情報に前記反対側の黒
領域につながる黒領域を除去した矩形領域の画像
情報を接続した増加画像情報を作成する増加画像
情報作成手段3を備え、 前記文字枠間境界近傍の全ての走査において白
走査が検出されなかつたとき、前記黒領域連続性
検査手段1による検査を行い、その結果黒領域の
分離が出来ない場合は、前記文字枠境界をもつて
切り出し、分離が出来る場合は、前記増加画像情
報作成手段3の作成した画像情報から切り出し、
前記除去/保持手段2の保持した黒領域画像は次
の処理対象文字画像に接続して用いるよう構成し
たことを特徴とする文字切出し方式。
[Claims] 1. Scanning image information including a plurality of characters stored in an image memory near the boundary between character frames determined by character position information given in advance so as to traverse the characters. However, as a result of this scanning, if there is a white scan that does not include black pixels between a black scan group that includes black pixels and another black scan group, the scan position where the white scan is detected is regarded as the boundary between characters. In a character extraction method that extracts image information of a rectangular area containing information for each character from the above image information, a rectangular area having a constant size is set centered on the boundary between the character frames, and a black area continuity testing means 1 for testing the continuity of black areas on each scanning line with adjacent scanning lines and classifying the rectangular area into a black area connected to a starting end side and a black area connected to a terminal end side of the rectangular area; a removing/holding means 2 for removing a black area connected to a black area on the opposite side of the character side to be processed from the area and retaining the removed black area image in a predetermined holding location; and a character frame to be processed. an additional image information creating means 3 for creating increased image information in which image information of a rectangular area from which a black area connected to the black area on the opposite side has been removed is connected to the inner image information; When white scanning is not detected in , a test is performed by the black area continuity testing means 1, and if the black area cannot be separated as a result, it is cut out along the character frame boundary, and if separation is possible, Cutting out the image information created by the increased image information creation means 3,
A character cutting method characterized in that the black area image held by the removing/holding means 2 is connected to and used for the next character image to be processed.
JP56099262A 1981-06-26 1981-06-26 Character cut-out system Granted JPS581274A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56099262A JPS581274A (en) 1981-06-26 1981-06-26 Character cut-out system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56099262A JPS581274A (en) 1981-06-26 1981-06-26 Character cut-out system

Publications (2)

Publication Number Publication Date
JPS581274A JPS581274A (en) 1983-01-06
JPH0225553B2 true JPH0225553B2 (en) 1990-06-04

Family

ID=14242788

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56099262A Granted JPS581274A (en) 1981-06-26 1981-06-26 Character cut-out system

Country Status (1)

Country Link
JP (1) JPS581274A (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6170178A (en) * 1984-09-13 1986-04-10 Noiberuku Kk Discharge pump
JP2565150B2 (en) * 1988-04-28 1996-12-18 セイコーエプソン株式会社 Character cutting method
JP2570415B2 (en) * 1988-04-28 1997-01-08 セイコーエプソン株式会社 Character extraction method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5617574A (en) * 1979-07-23 1981-02-19 Nec Corp Noise picture eliminating device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5617574A (en) * 1979-07-23 1981-02-19 Nec Corp Noise picture eliminating device

Also Published As

Publication number Publication date
JPS581274A (en) 1983-01-06

Similar Documents

Publication Publication Date Title
JPH0546591B2 (en)
CA2091997C (en) Character recognition methods including locating and extracting predetermined and apparatus data from a document
JPH0225553B2 (en)
JP3268552B2 (en) Area extraction method, destination area extraction method, destination area extraction apparatus, and image processing apparatus
KR0186172B1 (en) Character recognition apparatus
JP3276555B2 (en) Format recognition device and character reader
US7103220B2 (en) Image processing apparatus, method and program, and storage medium
JP4731748B2 (en) Image processing apparatus, method, program, and storage medium
JPH07168911A (en) Document recognition device
JP3052438B2 (en) Table recognition device
JP3060248B2 (en) Table recognition device
JPH07160810A (en) Character recognizing device
JPS603676B2 (en) Intersection extraction method
JPH0217575A (en) Drawing automatic recognizing system
JP3027232B2 (en) Character recognition device
JP2882056B2 (en) How to identify specific patterns
JPH07104940B2 (en) Figure recognition device
JP4248700B2 (en) Ruled line identification method, ruled line identification apparatus and recording medium
JPH1049602A (en) Method for recognizing document
JPS609887Y2 (en) Preprocessing circuit in character reading device
JP2832035B2 (en) Character recognition device
JP2000113107A (en) Device and method for recognizing character
JPH10124610A (en) Optical character reading device
JPH05159100A (en) Table recognition device
JPH08171609A (en) High-speed character string extracting device