JPH0557632B2 - - Google Patents

Info

Publication number
JPH0557632B2
JPH0557632B2 JP59037506A JP3750684A JPH0557632B2 JP H0557632 B2 JPH0557632 B2 JP H0557632B2 JP 59037506 A JP59037506 A JP 59037506A JP 3750684 A JP3750684 A JP 3750684A JP H0557632 B2 JPH0557632 B2 JP H0557632B2
Authority
JP
Japan
Prior art keywords
pattern
character
trajectory
locus
photoelectric conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59037506A
Other languages
Japanese (ja)
Other versions
JPS60181880A (en
Inventor
Hiromi Nanba
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Tokyo Shibaura Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Shibaura Electric Co Ltd filed Critical Tokyo Shibaura Electric Co Ltd
Priority to JP59037506A priority Critical patent/JPS60181880A/en
Publication of JPS60181880A publication Critical patent/JPS60181880A/en
Publication of JPH0557632B2 publication Critical patent/JPH0557632B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は、例えば文字認識装置に使用される光
学的文字入力装置に関する。
DETAILED DESCRIPTION OF THE INVENTION [Technical Field of the Invention] The present invention relates to an optical character input device used, for example, in a character recognition device.

〔発明の技術的背景とその問題点〕[Technical background of the invention and its problems]

従来、光学的文字読取装置(OCR)では、比
較的文字行の傾きが小さく、行間隔が一定な文字
が記録されている文書を読取対象とするのが一般
的である。これは、文字認識処理では文書中の文
字群から1文字毎の検出切出し処理が行なわれ、
この検出切出し処理には文字行の位置を確実に検
出することが必要となるためである。
Conventionally, optical character reading devices (OCR) generally read documents in which characters are recorded with relatively small inclinations of character lines and constant line spacing. This is because character recognition processing detects and extracts each character from a group of characters in a document.
This is because this detection cutting process requires reliable detection of the position of the character line.

具体的には、例えば第1図aに示すような文書
10において、記録された文字に対して行方向に
走査し、各走査線11毎に検出される黒のドツト
数を計数して同図bに示すようなヒストグラム1
2を作成する。そして、ヒストグラム12を所定
のレベル13でスライスして2値化信号14に変
換し、この2値化信号14により文字行の位置を
検出する。この検出した文字行から、上記のよう
な検出切出し処理により文字が検出切出されて、
文字認識部で認識されることになる。
Specifically, for example, in a document 10 as shown in FIG. Histogram 1 as shown in b
Create 2. Then, the histogram 12 is sliced at a predetermined level 13 and converted into a binary signal 14, and the position of a character line is detected using this binary signal 14. From this detected character line, characters are detected and extracted by the detection extraction process as described above.
It will be recognized by the character recognition unit.

ところで近年、自由度の高いフオーマツトの文
書に対する読取処理を可能とするOCRの開発が
行なわれている。ここで、自由度の高いフオーマ
ツトの文書とは、例えば第2図に示すように、所
定の文字行20に対して行間隔、行スキユー、文
字サイズ及びフオント等のフオーマツトが異なる
文字行21が印刷された文書22である。このよ
うな文書22に対して、従来の方式によるOCR
では各文字行を正確に検出することは困難であ
り、このため文字の読取処理も不可能であつた。
Incidentally, in recent years, OCR has been developed to enable reading processing of documents with a high degree of freedom in format. Here, a document with a high degree of freedom in format means, for example, as shown in FIG. 2, a character line 21 is printed with a different format such as line spacing, line skew, character size, and font for a predetermined character line 20. This is document 22. OCR using the conventional method is applied to such documents 22.
In this case, it is difficult to accurately detect each character line, and therefore, character reading processing is also impossible.

〔発明の目的〕[Purpose of the invention]

本発明は上記の事情に鑑みてなされたもので、
その目的は、比較的自由度の高いフオーマツトの
文書の場合でも、文書に記録された文字の読取処
理を確実に行なうことができる光学的文字入力装
置を提供することにある。
The present invention was made in view of the above circumstances, and
The purpose is to provide an optical character input device that can reliably read characters recorded on a document even when the document has a relatively flexible format.

〔発明の概要〕[Summary of the invention]

本発明では、用紙上に記録された文字を光電変
換後に得られる2値化パターン信号を格納するパ
ターンバツフアメモリが設けられる。軌跡パター
ン作成手段は、上記2値化パターン信号を平行移
動して得られる軌跡パターンを作成する。この軌
跡パターン作成手段により作成された軌跡パター
ンは、軌跡パターンバツフアメモリに格納され
る。検出手段は、軌跡パターンバツフアメモリ内
を走査して文字行の輪郭を検出する。この検出結
果である文字行の輪郭点座標情報に基づいて、検
出切出し手段はパターンバツフアメモリ内の2値
化パターン信号から1文字毎の文字パターンを検
出切出しを行なうように構成されている。
In the present invention, a pattern buffer memory is provided for storing a binary pattern signal obtained after photoelectrically converting characters recorded on paper. The trajectory pattern creation means creates a trajectory pattern obtained by parallelly moving the binarized pattern signal. The trajectory pattern created by this trajectory pattern creation means is stored in a trajectory pattern buffer memory. The detection means scans the locus pattern buffer memory to detect the outline of the character line. Based on the contour point coordinate information of the character line which is the result of this detection, the detection and cutting means is configured to detect and cut out the character pattern of each character from the binary pattern signal in the pattern buffer memory.

これにより、行間隔等のフオーマツトが異なる
文字行を含む文書の場合でも、文字行の位置を確
実に検出することができる。そして、文字行の検
出結果に基づいて、1文字毎の文字パターンを確
実に検出切出すことができる。
As a result, even in the case of a document including character lines with different formats such as line spacing, the positions of the character lines can be reliably detected. Then, based on the detection result of the character line, the character pattern of each character can be reliably detected and cut out.

〔発明の実施例〕[Embodiments of the invention]

以下図面を参照して本発明の一実施例を説明す
る。第3図は一実施例に係わる光学的文字入力装
置の構成を示すブロツク図である。第3図におい
て、光電変換部30は文書上の文字を光電変換
し、光電変換で得られる電気信号を2値化パター
ン信号(以下2値化信号と称す)Pに変換して出
力する。ビデオバツフア31は、光電変換部30
から出力される2値化パターン信号Pを通常1頁
分格納する。カウンタ32は、周期式カウンタ
(例えばTexas Instruments社のSN74ALS16IN)
であり、光電変換部30から2値化信号Pが出力
される際の走査クロツクでカウントアツプし、2
値化信号Pが黒レベルのときは値「0」がロード
されるように動作する。コンパレータ33は、予
め設定される一定値B及びカウンタ32の出力値
Aとを比較し、一定値Bの方が大きい場合に出力
Qを軌跡パターンバツフア34に出力する。軌跡
パターンバツフア34は、コンパレータ33から
の出力Q即ち2値化信号P(第4図a)を一定距
離(一定値Bに相当)平行移動して得られる軌跡
パターン(第4図b)を格納する。
An embodiment of the present invention will be described below with reference to the drawings. FIG. 3 is a block diagram showing the configuration of an optical character input device according to one embodiment. In FIG. 3, a photoelectric conversion unit 30 photoelectrically converts characters on a document, converts the electrical signal obtained by the photoelectric conversion into a binary pattern signal (hereinafter referred to as a binary signal) P, and outputs the signal. The video buffer 31 includes a photoelectric conversion section 30
Normally, one page's worth of binary pattern signals P output from the memory are stored. The counter 32 is a periodic counter (for example, Texas Instruments SN74ALS16IN).
is counted up by the scanning clock when the binary signal P is output from the photoelectric conversion unit 30, and is counted up by 2.
When the digitized signal P is at the black level, the value "0" is loaded. The comparator 33 compares a preset constant value B and the output value A of the counter 32, and outputs an output Q to the locus pattern buffer 34 if the constant value B is larger. The trajectory pattern buffer 34 generates a trajectory pattern (FIG. 4b) obtained by parallelly moving the output Q from the comparator 33, that is, the binary signal P (FIG. 4a) by a certain distance (corresponding to a constant value B). Store.

カウンタ35は、1走査期間においてコンパレ
ータ33から出力される軌跡パターンの黒ビツト
数をカウントし、そのカウント出力である射影ヒ
ストグラムを射影バツフア36に出力する。一
方、書込みコントローラ37は、2値化信号Pが
ビデオバツフア31に格納される際、光電変換部
30、ビデオバツフア31、軌跡パターンバツフ
ア34、射影バツフア36及び各カウンタ32,
35の動作を制御する。また、読出しコントロー
ラ38は、ビデオバツフア31から1文字毎の文
字パターンが検出切出される際、ビデオバツフア
31、軌路パターンバツフア34及び射影バツフ
ア36の動作を制御する。
The counter 35 counts the number of black bits of the trajectory pattern output from the comparator 33 in one scanning period, and outputs a projection histogram which is the count output to the projection buffer 36. On the other hand, when the binary signal P is stored in the video buffer 31, the write controller 37 controls the photoelectric conversion unit 30, the video buffer 31, the trajectory pattern buffer 34, the projection buffer 36, and each counter 32,
35 operations. Further, the readout controller 38 controls the operations of the video buffer 31, the trajectory pattern buffer 34, and the projection buffer 36 when a character pattern for each character is detected and cut out from the video buffer 31.

上記のような構成の光学的文字入力装置におい
て、一実施例に係わる動作を説明する。いま仮
に、第5図aに示すような文書52が光電変換部
30により走査されて、各文字行に対応する2値
化信号Pがビデオバツフア31に格納される。一
方、2値化信号Pに基づいて、上記のようなカウ
ンタ32及びコンパレータ33の動作により、第
5図aに示すような各文字行に対応する軌跡パタ
ーンQが作成されて軌跡パターンバツフア34に
格納される。上記のようにして作成された軌跡パ
ターンQはカウンタ35に供給される。カウンタ
35は、上記のように1走査期間中にコンパレー
タ33から出力される軌跡パターンの黒ビツト数
をカウントする。このカウント出力である射影ヒ
ストグラム(第5図bの53)は、射影バツフア
36に格納される。
The operation of one embodiment of the optical character input device configured as described above will be described. Suppose now that a document 52 as shown in FIG. On the other hand, based on the binary signal P, by the operations of the counter 32 and the comparator 33 as described above, a locus pattern Q corresponding to each character line as shown in FIG. is stored in The trajectory pattern Q created as described above is supplied to the counter 35. The counter 35 counts the number of black bits of the locus pattern output from the comparator 33 during one scanning period as described above. A projection histogram (53 in FIG. 5b) which is the count output is stored in the projection buffer 36.

このようにして、用紙上の1頁分の2値化パタ
ーン信号Pがビデオバツフア31に書込まれて、
また2値化パターン信号Pに対応する軌跡パター
ンQが軌跡パターンバツフア34に書込まれる。
この書込み動作が終了すると、文字行の輪郭を検
出する動作が実行される。
In this way, the binary pattern signal P for one page on the paper is written to the video buffer 31,
Further, a locus pattern Q corresponding to the binary pattern signal P is written into the locus pattern buffer 34.
When this writing operation is completed, an operation for detecting the outline of a character line is executed.

即ち、読出しコントローラ38は、先ず射影バ
ツフア36内をサーチし、射影ヒストグラム53
に基づいて文字行の検出始点X0を求める。さら
に、読出しコントローラ38は、求めた検出視点
X0に基づいて、軌跡パターンバツフア34内を
サーチし、軌跡パターンQの追跡始点座標(第6
図のX1)を求める。この追跡始点座標X1から軌
跡パターンQの輪郭を追跡し、軌跡パターンQの
輪郭に対応する輪郭点座標系列を求める。この場
合、追跡始点座標X1から開始された追跡が追跡
始点座標X1に戻ると、追跡動作は停止となる。
これにより、第5図aに示す各文字行の輪郭を決
定する輪郭座標点系列を求める。この輪郭点座標
系列により、ビデオバツフア31に格納された2
値化パターン信号Pから文字行毎の2値化パター
ン信号Pを決定する。以下、文字行毎の2値化パ
ターン信号Pに対して、1文字毎の文字パターン
の検出処理を行なうことになる。ここで、次の軌
跡パターンの追跡では、既に検出された軌跡パタ
ーンを避けて水平に走査し、次の始点X2が検出
される。以下同様にして、軌跡パターンの追跡動
作が繰返される。
That is, the read controller 38 first searches the projection buffer 36 and obtains the projection histogram 53.
Find the character line detection starting point X 0 based on . Furthermore, the readout controller 38 reads the obtained detection viewpoint.
Based on
Find X 1 ) in the figure. The contour of the locus pattern Q is traced from this tracing start point coordinate X1 , and a contour point coordinate series corresponding to the contour of the locus pattern Q is determined. In this case, when the tracking started from the tracking start point coordinates X1 returns to the tracking start point coordinates X1 , the tracking operation stops.
As a result, a contour coordinate point sequence that determines the contour of each character line shown in FIG. 5a is obtained. Based on this contour point coordinate series, the 2 points stored in the video buffer 31 are
A binarized pattern signal P for each character line is determined from the digitized pattern signal P. Hereinafter, character pattern detection processing for each character will be performed on the binary pattern signal P for each character line. Here, in tracking the next trajectory pattern, the next starting point X2 is detected by scanning horizontally while avoiding the trajectory pattern that has already been detected. Thereafter, the trajectory pattern tracking operation is repeated in the same manner.

次に、上記のようにして求められた輪郭点座標
系列から、例えば第7図aに示すような文字検出
走査始点Yが読出しコントローラ38により求め
られる。そして、求められた始点Yに基づいて、
ビデオバツフア31内の2値化信号Pに対して、
第7図bに示すように縦方向走査が右方向へ移動
されるように行なわれる。これにより、1文字毎
の文字パターンが検出切出される。なお、上記の
ような軌跡パターンの作成動作において、2値化
信号Pを一方向に一定距離移動して作成したが、
両方向に移動させて作成してもよい。
Next, from the contour point coordinate series obtained as described above, a character detection scan starting point Y as shown in FIG. 7a, for example, is determined by the readout controller 38. Then, based on the found starting point Y,
For the binarized signal P in the video buffer 31,
As shown in FIG. 7b, the vertical scanning is performed so as to be shifted to the right. As a result, character patterns for each character are detected and cut out. In addition, in the operation of creating the trajectory pattern as described above, the binary signal P was created by moving a certain distance in one direction.
It may be created by moving in both directions.

上記にようにして、文書に記録された各文字行
に対応する軌跡パターンQを作成しこの軌跡パタ
ーンQに基づいて文字行の輪郭を検出する。この
検出された輪郭(輪郭点座標系列)に基づいて、
ビデオバツフア31に格納された2値化信号Pか
ら1文字毎の文字パターンが検出切出されること
になる。したがつて、行間隔、行スキユー、文字
サイズ及びフオント等のフオーマツトが異なる文
字行が混在する文書の場合でも、確実に各文字行
を検出することができ、1文字毎の文字パターン
を検出切出することができる。
As described above, a locus pattern Q corresponding to each character line recorded on the document is created, and the outline of the character line is detected based on this locus pattern Q. Based on this detected contour (contour point coordinate series),
Character patterns for each character are detected and cut out from the binary signal P stored in the video buffer 31. Therefore, even in the case of a document containing a mixture of character lines with different formats such as line spacing, line skew, character size, and font, each character line can be detected reliably, and the character pattern of each character can be detected and cut out. can be released.

〔発明の効果〕〔Effect of the invention〕

以上詳述したように本発明によれば、行間隔等
が異なる文字行が混在する比較的自由度の高いフ
オーマツトの文書の場合でも、各文字行を検出し
て1文字毎の文字を確実に読取処理することがで
きる。したがつて、OCRに適用した場合、文書
中の文字を確実に認識することができ、また文字
行単位のイメージデータを再編集する転記または
清書装置の入力装置として適用することができる
ものである。
As detailed above, according to the present invention, even in the case of a document with a relatively flexible format in which character lines with different line spacing etc. coexist, each character line can be detected and each character can be reliably identified. Can be read and processed. Therefore, when applied to OCR, characters in a document can be reliably recognized, and it can also be applied as an input device for transcription or transcription equipment that re-edits image data in character line units. .

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は従来のOCRの動作を説明するための
図で同図aは文書、同図bはヒストグラムを示す
図、第2図は自由度の高いフオーマツトの文書の
一例を示す図、第3図は本発明の一実施例に係わ
る光学的文字入力装置の構成を示すブロツク図、
第4図は第3図の装置の動作を説明するための図
で同図aは2値化パターン信号、同図bは軌跡パ
ターンの一例を示す図、第5図も同様に第3図の
装置の動作を説明するための図で同図aは文書、
同図bは射影ヒストグラムの一例を示す図、第6
図は第3図の装置において文字行の輪郭を検出す
るための動作を説明するための図、第7図は第3
図の装置において検出切出し動作を説明するため
の図で、同図aは軌跡パターン、同図bは2値化
パターン信号の一例を示す図である。 30……光電変換部、31……ビデオバツフ
ア、32,35……カウンタ、33……コンパレ
ータ、34……軌跡パターンバツフア、36……
射影バツフア、37……書込みコントローラ、3
8……読出しコントローラ。
Figure 1 is a diagram for explaining the operation of conventional OCR. Figure a shows a document, Figure b shows a histogram, Figure 2 shows an example of a document in a highly flexible format, and Figure 3 shows an example of a document with a highly flexible format. The figure is a block diagram showing the configuration of an optical character input device according to an embodiment of the present invention.
4 is a diagram for explaining the operation of the apparatus shown in FIG. 3, in which a shows a binary pattern signal, b shows an example of a locus pattern, and FIG. This figure is for explaining the operation of the device.
Figure 6b shows an example of a projection histogram.
The figure is a diagram for explaining the operation for detecting the outline of a character line in the apparatus of Figure 3, and Figure 7 is a diagram for explaining the operation for detecting the outline of a character line in the apparatus of Figure 3.
FIG. 2 is a diagram for explaining the detection and extraction operation in the apparatus shown in the figure, in which FIG. 30...Photoelectric conversion unit, 31...Video buffer, 32, 35...Counter, 33...Comparator, 34...Trajectory pattern buffer, 36...
Projection buffer, 37...Write controller, 3
8...read controller.

Claims (1)

【特許請求の範囲】 1 用紙上に記録された文字を光電変換して得ら
れる2値化パターン信号を出力する光電変換手段
と、 この光電変換手段から出力された前記2値化パ
ターン信号を格納するパターンバツフアメモリ
と、 前記光電変換手段から出力された前記2値化パ
ターン信号を平行移動して得られる軌跡パターン
を作成する軌跡パターン作成手段と、 この軌跡パターン作成手段により作成された前
記軌跡パターンを格納する軌跡パターンバツフア
メモリと、 この軌跡パターンバツフアメモリ内を走査して
前記軌跡パターンの輪郭を追跡して輪郭点座標情
報を求めて、前記用紙上に記録された文字部分に
相当する文字ブロツクの輪郭を検出する検出手段
と、 この検出手段で求めた前記輪郭点座標情報に基
づいて、前記軌跡パターンに対応する文字ブロツ
クパターンを前記パターンバツフアメモリから抽
出し、この文字ブロツクパターンから1文字毎の
文字パターンを検出切出する検出切出し手段とを
具備したことを特徴とする光学的文字入力装置。
[Scope of Claims] 1. Photoelectric conversion means for outputting a binary pattern signal obtained by photoelectrically converting characters recorded on paper, and storing the binary pattern signal output from this photoelectric conversion means. a pattern buffer memory for translating the binarized pattern signal outputted from the photoelectric conversion means, a trajectory pattern creation means for creating a trajectory pattern obtained by parallelly moving the binarized pattern signal output from the photoelectric conversion means, and the trajectory created by the trajectory pattern creation device. a locus pattern buffer memory for storing patterns, and scanning the locus pattern buffer memory to trace the contour of the locus pattern to obtain contour point coordinate information corresponding to the character portion recorded on the paper. a detection means for detecting the contour of a character block; and a detection means for extracting a character block pattern corresponding to the locus pattern from the pattern buffer memory based on the contour point coordinate information obtained by the detection means; 1. An optical character input device comprising: detection and cutting means for detecting and cutting out a character pattern for each character from a character pattern.
JP59037506A 1984-02-29 1984-02-29 Optical character inputting device Granted JPS60181880A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59037506A JPS60181880A (en) 1984-02-29 1984-02-29 Optical character inputting device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59037506A JPS60181880A (en) 1984-02-29 1984-02-29 Optical character inputting device

Publications (2)

Publication Number Publication Date
JPS60181880A JPS60181880A (en) 1985-09-17
JPH0557632B2 true JPH0557632B2 (en) 1993-08-24

Family

ID=12499411

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59037506A Granted JPS60181880A (en) 1984-02-29 1984-02-29 Optical character inputting device

Country Status (1)

Country Link
JP (1) JPS60181880A (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63291185A (en) * 1987-05-25 1988-11-29 Hitachi Seiko Ltd Character string extracting method
JPH0786906B2 (en) * 1987-05-25 1995-09-20 日立精工株式会社 Character string extraction method
JPH0833907B2 (en) * 1987-06-05 1996-03-29 住友電気工業株式会社 Optical character reader

Also Published As

Publication number Publication date
JPS60181880A (en) 1985-09-17

Similar Documents

Publication Publication Date Title
US4741045A (en) Optical character isolation system, apparatus and method
JPS58103266A (en) Character image processor
US3925760A (en) Method of and apparatus for optical character recognition, reading and reproduction
JPS6115284A (en) Optical character reader
JPH0557632B2 (en)
JP3160458B2 (en) Character reading device and character reading method
JP2824372B2 (en) Report recognition device
JPH0373916B2 (en)
JP2975720B2 (en) Optical character reader
JPH039506B2 (en)
JPH0223904B2 (en)
JPS5972577A (en) Drawing reader
JPS6027083A (en) Optical character reader
JPS59180783A (en) Optical character reader
JP2931041B2 (en) Character recognition method in table
JPH0426153B2 (en)
JPH03164885A (en) Optical character reader
JPH0433074B2 (en)
JPS59128677A (en) Optical character reader
JPS5831028B2 (en) character recognition device
JPS6394385A (en) Printed character pitch detection device
JPH0210471B2 (en)
JPH01245376A (en) Character segmenting device for character reader
JPH09282468A (en) Image processor and its method
JPS62279482A (en) Character recognizing device

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term