JPS5856076A - Optical character reader - Google Patents

Optical character reader

Info

Publication number
JPS5856076A
JPS5856076A JP56153572A JP15357281A JPS5856076A JP S5856076 A JPS5856076 A JP S5856076A JP 56153572 A JP56153572 A JP 56153572A JP 15357281 A JP15357281 A JP 15357281A JP S5856076 A JPS5856076 A JP S5856076A
Authority
JP
Japan
Prior art keywords
line
character
memory
characters
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP56153572A
Other languages
Japanese (ja)
Inventor
Hiromi Nanba
難波 広海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Tokyo Shibaura Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Tokyo Shibaura Electric Co Ltd filed Critical Toshiba Corp
Priority to JP56153572A priority Critical patent/JPS5856076A/en
Publication of JPS5856076A publication Critical patent/JPS5856076A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting

Abstract

PURPOSE:To output a readout result having the same intervals that a text original has, by recognizing and storing characters in plural lines in a line pattern memory, finding a base line position through controlling, and then automatically line intervals while eliminating the need to specify the line intervals. CONSTITUTION:A photoelectric conversion part 1 scans characters on a form and converts their character patterns into binary signals, which are applied to a recognition part 2; and the part 2 recognizes the character patterns to store character codes in a buffer memory 4 temporarily. Further, character patterns for one line of a text form are stored in the line pattern memory 3 of the recognition part 2 and under the control of a control part 6, the character patterns are read, character by character, out of the memory 3 to calculate the similarity with standard patterns selected in a dictionary memory 8 corresponding to the kind of a font, thus recognizing the characters. On this one-line character recognition, the control part 6 finds the center position of the characters stored in the memory 4 to find the base line position of each character pattern on the basis of correction data set up in a working memory 7, thereby outputting a readout result having the same intervals that the text form has.

Description

【発明の詳細な説明】 本発明はワードプロセッサへの文書や文章などのテキス
トを入力するための光学的文字読取装置に関する。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to an optical character reading device for inputting text such as documents and sentences to a word processor.

一般にワードプロセッサへのテキスト入力に用いられ−
る光学的文字IIl!取装置では、テキスト原稿の行間
隔をそのままの状態で読み取りてワードプロセラすへ入
力する必要がある。この丸め従来の光学的文字読取装置
では、オペレータがテキスト原稿の行間隔を見て、オペ
レートパネル上に設けた行間隔指定スイッチでテキスト
原稿の読取行間隔を指定していた。この行間隔指定は煩
雑であるとともに、指定を間違えると次のような不都合
が生じる。
Generally used for inputting text into word processors.
Optical character IIl! The scanning device must read the line spacing of the text original as it is and input it to the word processor. In the conventional optical character reading device, the operator looks at the line spacing of the text document and specifies the line spacing to be read from the text document using a line spacing designation switch provided on the operating panel. This line spacing specification is complicated, and if the specification is incorrect, the following problems will occur.

例えば行間隔が3行/インチのところを6行/インチと
指定すると、読取結果に不要なブランク行が挿入されて
しまう。この逆に行間隔が6行/インチのところを3行
/インチと指定すると、読取結果に行抜けが生じる。ま
た、行間隔の異なるテキスト原稿同士を混在して一度に
読み取らせることかで者なかった。
For example, if the line spacing is 3 lines/inch and you specify 6 lines/inch, unnecessary blank lines will be inserted into the reading results. Conversely, if the line spacing is 6 lines/inch and specified as 3 lines/inch, missing lines will occur in the reading results. In addition, it is difficult to mix and read text documents with different line spacings at the same time.

本発明はこれら従来の欠点を除去し、行間隔を自動的に
検出しテキスト原稿と同じ行間隔の読取結果を出力でき
る光学的文字読取装置を提供することを目的とする。
SUMMARY OF THE INVENTION It is an object of the present invention to provide an optical character reading device that can eliminate these conventional drawbacks, automatically detect line spacing, and output reading results with the same line spacing as a text original.

以下、図面を用いて本発明の一実施例を詳細に説明する
。第1図におiて、光電変換部(1)は用紙上に記録さ
れた文字を光学的に走査して光電変換したのち2値化し
て、用紙上の文字イメージを2値化された文字パターン
として出力する。図示しないが光電変換部(1)には、
光源と、鏡と、レンス゛と、−次元固体撮儂素子(リニ
ア・イメージ・センナ)とからなる光学系が設けられて
いる。用紙の表面は光源によって照明され、そこに記録
されて−る文字イメージは、鏡およびレンズの働きKよ
って、−次元固体撮儂素子の受光面上に結儂される。−
次元固体撮偉素子内部には、−列に並んだ多数の微小な
フォトダイオードが含まれている。各フォトダイオード
には、用紙あるいは用紙の搬送路の表面の対応する微小
領域からの反射光が入射する。
Hereinafter, one embodiment of the present invention will be described in detail using the drawings. In Figure 1i, the photoelectric conversion unit (1) optically scans the characters recorded on the paper, photoelectrically converts them, and then converts them into binarized characters, converting the character image on the paper into binarized characters. Output as a pattern. Although not shown, the photoelectric conversion section (1) includes
An optical system consisting of a light source, a mirror, a lens, and a -dimensional solid-state image sensor (linear image sensor) is provided. The surface of the paper is illuminated by a light source, and the character image recorded thereon is focused on the light-receiving surface of the -dimensional solid-state image sensor by the action of the mirror and lens. −
The interior of the dimensional solid-state sensor includes a large number of minute photodiodes arranged in rows. Each photodiode receives reflected light from a corresponding microscopic area on the surface of the paper or the conveyance path of the paper.

従って、この微小領域が光電変換の最小単位となる。こ
の微小領域をドツトと称する。
Therefore, this minute area becomes the minimum unit of photoelectric conversion. This minute area is called a dot.

のち2値化したものを白ビットと称し、反射率の低いド
ツトを充電変換したのち2値化したものを黒ビットと称
する。従って、充電変換部(1)は、用紙上の文字イメ
ージを白ピットと黒ビットの集合である文字パターンに
変換して出力する。認識部(2)は光電変換部(1)か
ら出力される文字パターンと辞書メモリ@)に格納され
ている標準パターンとの類似度計算をすることによって
文字を認識し、その結果を文字コード(例えばASCI
I)として出力する。
The bits that are then binarized are called white bits, and the bits that are binarized after charging and converting dots with low reflectance are called black bits. Therefore, the charge converter (1) converts the character image on the paper into a character pattern that is a set of white pits and black bits and outputs the character pattern. The recognition unit (2) recognizes characters by calculating the similarity between the character pattern output from the photoelectric conversion unit (1) and the standard pattern stored in the dictionary memory @), and converts the result into a character code ( For example, ASCII
Output as I).

認識部(2)内に設けられた行パターンメ篭り(3)は
、充電変換部(1)が用紙の1行分の文字イメージを走
査して得た文字イメージを格納する。
A line pattern storage (3) provided in the recognition unit (2) stores a character image obtained by scanning the character image of one line of paper by the charge conversion unit (1).

バッファメモリ(4)は、認識部(2)から出力される
文字コードを一時的に格納する。インタフェース部(5
)は、バッファメモリ(4)から出力される文字コード
を外部の装置へ出力する機能を有する1本実施例では、
この外部の装置とは英文ワードプロセッサを指す。
The buffer memory (4) temporarily stores the character code output from the recognition unit (2). Interface part (5
) has a function of outputting the character code output from the buffer memory (4) to an external device.
This external device refers to an English word processor.

認識部(2)K接続された辞書メモリは、n種類の印字
7オントに対応するn種類の辞書(JI)〜(JN)が
格納されている。各辞書には、それに対応する印字7オ
ントにおける各文字の標準パターンから構成されている
。制御5(6)は、この装置全体の制御を行危う。制御
部(6)に接続され九ワーキングメモリ(ηは、制御部
(6)の処理結果を一時的に格納する。
The dictionary memory connected to the recognition unit (2) stores n types of dictionaries (JI) to (JN) corresponding to n types of printing 7 onts. Each dictionary consists of standard patterns for each character in its corresponding printed 7 onts. Control 5 (6) controls the entire device. A working memory (η) connected to the control unit (6) temporarily stores the processing results of the control unit (6).

以下、動作を説明する。第2図は本発明の光学的文字読
取装置が読み取るべきテキストが記録されたテキスト用
紙(20)を示す。このテキスト用紙(20)の符号(
21)〜(24)で示す斜線部分は、それぞれテキスト
が記録されている第1〜第4の文字行を示す。光電変換
部Q)では、このテキスト用紙(20)を矢印A方向に
搬送させながら矢印B方向に走査する。仁の走査で得ら
れ九2値化パターンは、認識部(2)内の行/くターン
メモリ(3)に格納される。
The operation will be explained below. FIG. 2 shows a text sheet (20) on which text to be read by the optical character reading device of the present invention is recorded. The code of this text paper (20) (
21) to (24) indicate the first to fourth character lines in which text is recorded, respectively. In the photoelectric conversion unit Q), this text paper (20) is scanned in the direction of arrow B while being conveyed in the direction of arrow A. The nine-binarized pattern obtained by the single scan is stored in the row/turn memory (3) in the recognition unit (2).

この行パターンメモリ(3)は、128dの走査で得ら
れた2値化パターンを格納できるように、′&りている
。この行パターンメモリ(3)では、129回目の走査
で得られた2値化パターンは1回目の走査で得られた2
値化パターンを消去した後に格納される。以下同様に、
130回目以後の走査で得られた2値化パターンも格納
される。
This row pattern memory (3) is ``&'' so that it can store the binarized pattern obtained by scanning 128d. In this row pattern memory (3), the binarized pattern obtained in the 129th scan is the same as the 2 value pattern obtained in the 1st scan.
Stored after deleting the value pattern. Similarly below,
The binarized patterns obtained in the 130th and subsequent scans are also stored.

尚、図示しないが認識部(環内には、現在行パターンメ
モリ(3)に格納されている2値化パターンのうち、最
も古く格納された2値化パターンが、テキスト用紙(2
0)の先端から数えて何回目の走査で得られた2値化パ
ターンであるのかを示すカウンタを有している。
Although not shown, the oldest stored binarization pattern among the binarization patterns stored in the current line pattern memory (3) is stored in the recognition unit (ring) on the text paper (2
It has a counter that indicates how many times the binarized pattern was obtained counting from the tip of 0).

いま、テキスト用紙(20)の第1行目の文字行(21
)の文字イメージが、第3図に示すように行パターンメ
モリに格納されたとする。
Now, write the first character line (21) on the text paper (20).
) is stored in the line pattern memory as shown in FIG.

認識部(2) ti行パターンメモリ(3)から1文字
分づつの2値化パターンを読み出してくる。この読み出
された標準パターンとの類似度を計算することKより、
何の文字であるのかV!識される。
Recognition unit (2) reads the binary pattern for each character from the ti row pattern memory (3). By calculating the similarity with this read standard pattern,
What letter is V! be recognized.

この開繊結果は、バッファメモリに格納される。This opening result is stored in a buffer memory.

文字行(21)のすべての文字認識が終了したら、制御
部(6)は第2図に示すように文字行(21)の基線位
置(yl)を求める。即ち、文字行(21)の文字がま
っすぐに印字されているとはかぎらないので、まず文字
行(21)の各文字の基線位置を求める。制御部(6)
は行パターンメモリ(3)の格納内容を走査して、各文
字パターンの中心位置を求める。この中心位置にワーキ
ングメモリ(7)Kあらかじめ格納されている各文字と
とに設けた補正データを加えて、各文字パターンの基線
位置を求める。第4図に文字と基線位置との関係を示す
。アルファベットの大文字や数字は、その中心位置から
距離dはなれたところが基線位置(30)である。アル
ファベットの小文字のgやjやy#i、その中心位置が
基線位置(30)−t’16゜マ友、符号aprost
rophe r s Jは、その中心位置から距離eは
なれたところが、基線位置(30)である。従って、前
述のように各文字について、その中心位置と基線位置と
の距離納しておけばよい。このようKして文字行(21
)の各文字パターンの基線位置を求めたら、その平均値
を求める。この求めた平均値を文字行(21)の基線位
置(yl)としてワーキングメモリ(7) K格納する
When all characters in the character line (21) have been recognized, the control unit (6) determines the baseline position (yl) of the character line (21) as shown in FIG. That is, since the characters in the character line (21) are not necessarily printed straight, the base line position of each character in the character line (21) is first determined. Control part (6)
scans the contents stored in the line pattern memory (3) to find the center position of each character pattern. The base line position of each character pattern is determined by adding the correction data provided for each character previously stored in the working memory (7) K to this center position. FIG. 4 shows the relationship between characters and base line positions. For uppercase letters and numbers, the base line position (30) is a distance d from the center position. The lowercase letters g, j, and y #i of the alphabet, the center position is the base line position (30) - t'16°, code aprost
The base line position (30) of rophe r s J is a distance e from the center position. Therefore, as described above, it is sufficient to store the distance between the center position and the base line position for each character. K like this and the character line (21
) After finding the base line position of each character pattern, find the average value. The obtained average value is stored in the working memory (7) as the baseline position (yl) of the character line (21).

以下同様に複数行の文字を認識し、その結果をバッファ
メモリ(7)K格納するとともに、その基線位置を求め
る。
Thereafter, characters in a plurality of lines are similarly recognized, the results are stored in the buffer memory (7)K, and the base line position thereof is determined.

次に各文字行間の行ピッチを基線位置の差と5して計算
し求める。この求めた行ピッチのうち最小のものを、こ
のテキスト用紙における基準行ピッチとする。次に先に
求め九各文字行間の行ピッチをこの基準行ピッチで割算
をして、各文字行間にいくつブランク行が挿入されるか
を求める。制御部(6)は、この求めた各文字行間のブ
ランク行数に等しい個数の改行記号をバッファメモリ(
4)K格納されている認識結果の中に挿入して編集を行
なう。この編集が終了したら、バッファメモリ(4)の
格納内容をインタフェース部(5)を介して英文ワード
プロセッサへ出力する。
Next, the line pitch between each character line is calculated by dividing the difference between the base line positions by 5. The minimum line pitch among these determined line pitches is set as the standard line pitch for this text paper. Next, divide the line pitch between each character line by this reference line pitch to determine how many blank lines will be inserted between each character line. The control unit (6) stores line feed symbols in the buffer memory (
4) Edit by inserting into the recognition results stored in K. When this editing is completed, the contents stored in the buffer memory (4) are output to the English word processor via the interface section (5).

この実施例では、英文テキストを入力する実施例につい
て説明したが、日本文のテキスト入力にも応用できる。
In this embodiment, an example in which English text is input has been described, but it can also be applied to Japanese text input.

以上の説明から明らかなように本発明によれば、次のよ
うな効果がある。行間隔の指定が不用とな抄、オペル−
シ筺ンが非常に楽に々るユ行間隔が複数種混在するテキ
ストの読みゃ9や、行間隔の異なるテキスト同士の混在
した読み取りができる。テキストと同じ行間隔の読取結
果が出力できる光学的文字読取装置が提供できる。
As is clear from the above description, the present invention has the following effects. No need to specify line spacing, Opel
It is very easy to read texts with multiple types of line spacing, and can read texts with different line spacings. An optical character reading device that can output reading results with the same line spacing as text can be provided.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の一実施例を示すブロック図、第2図は
テキスト用紙を示す図、第3図は行ノ(ターンメモリに
格納されている2値化);ターンを示す図、第4図は文
字の中心と基線との関係を示す図。 (1)  ・・・・・・光電変換部 (2) ・・・・・・認識部 (3)  ・・・・・・行パターンメモリ373− (4)  ・・・・−バッファメモリ (5)  ・・・・−・インタフェース(6)  ・・
・・・・制御部 (7)  ・・・・・・ワーキングメモリ(8)  ・
・・・・・辞書メモリ (20)・・・・・・テキスト用紙 (21)〜(24)・・・−・文字行 (30)・・・・・・基線位置 (7317)  代理人弁理士 則近憲佑(7801)
  代理人弁理士 山王 −第  2  図 ↑ 第3図 第4図
FIG. 1 is a block diagram showing an embodiment of the present invention, FIG. 2 is a diagram showing a text sheet, FIG. 3 is a diagram showing rows (binarized stored in turn memory); Figure 4 is a diagram showing the relationship between the center of a character and a base line. (1) ...Photoelectric conversion section (2) ...Recognition section (3) ...Row pattern memory 373- (4) ...Buffer memory (5)・・−・Interface (6) ・・
...Control unit (7) ...Working memory (8) ・
...Dictionary memory (20) ...Text paper (21) to (24) ... - Character line (30) ... Baseline position (7317) Agent patent attorney Kensuke Norichika (7801)
Representative Patent Attorney Sanno - Figure 2 ↑ Figure 3 Figure 4

Claims (1)

【特許請求の範囲】[Claims] 用紙に記録された文字イメージを光電変換し2値化パタ
ーンとして量子化し出力する光電変換部と、1行分の前
記2値化パターンを格納する手段と、この1行分の2値
化パターンを認識するする手段と、この認識結果を格納
する手段と、各行の基線位置を求める手段と、この求め
た各行の基線位置から基準行間隔を求める手段と、この
求めた基準行間隔と前記基線・位置とから行間に挿入さ
れる改行数を求める手段と、この求めた改行数から前記
la!繊結果の中に所定の改行記号を挿入し認識結果を
編集する手段とを具備することを特徴とする光学的文字
読取装置。
a photoelectric conversion section that photoelectrically converts a character image recorded on paper, quantizes it as a binary pattern, and outputs it; a means for storing the binary pattern for one line; and a means for storing the binary pattern for one line. means for recognizing, means for storing the recognition result, means for determining the base line position of each row, means for determining the reference line spacing from the determined baseline position of each row, and means for calculating the reference line spacing between the determined base line spacing and the baseline. means for determining the number of line breaks to be inserted between lines from the position, and the la! 1. An optical character reading device comprising means for inserting a predetermined line feed symbol into a text result and editing the recognition result.
JP56153572A 1981-09-30 1981-09-30 Optical character reader Pending JPS5856076A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56153572A JPS5856076A (en) 1981-09-30 1981-09-30 Optical character reader

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56153572A JPS5856076A (en) 1981-09-30 1981-09-30 Optical character reader

Publications (1)

Publication Number Publication Date
JPS5856076A true JPS5856076A (en) 1983-04-02

Family

ID=15565420

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56153572A Pending JPS5856076A (en) 1981-09-30 1981-09-30 Optical character reader

Country Status (1)

Country Link
JP (1) JPS5856076A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63129484A (en) * 1986-11-19 1988-06-01 Matsushita Electric Ind Co Ltd Character recognition device
JPH02255947A (en) * 1989-01-24 1990-10-16 Fuji Electric Co Ltd Production method for document file

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63129484A (en) * 1986-11-19 1988-06-01 Matsushita Electric Ind Co Ltd Character recognition device
JPH02255947A (en) * 1989-01-24 1990-10-16 Fuji Electric Co Ltd Production method for document file

Similar Documents

Publication Publication Date Title
US5280544A (en) Optical character reading apparatus and method
EP0036149A2 (en) Character optical reader
EP0353842A2 (en) Technique for reading bar codes
EP0063454A2 (en) Method for recognizing machine encoded characters
US5375176A (en) Method and apparatus for automatic character type classification of European script documents
JPS6115284A (en) Optical character reader
US4817169A (en) Page segmentor
JPS5856076A (en) Optical character reader
JPH0147828B2 (en)
JPH06103358A (en) Image input device
JPH0431436B2 (en)
JPS60181880A (en) Optical character inputting device
JPS61289476A (en) Format forming system for character reader
JPS6160475B2 (en)
JPH0363116B2 (en)
JPS5856077A (en) Optical character reader
JPH0615327Y2 (en) Optical character reader
JPH04190473A (en) Optical character reader
JPH0119193B2 (en)
JPS61147379A (en) Optical character reader
JP2833040B2 (en) Optical character reader
JPS59158477A (en) Optical character reader
KR930007083B1 (en) Candidate character classification method
JPS58195983A (en) Optical character reader
JPH1040338A (en) Optical character reader