JPS5824975A - Optical character reader - Google Patents
Optical character readerInfo
- Publication number
- JPS5824975A JPS5824975A JP56122445A JP12244581A JPS5824975A JP S5824975 A JPS5824975 A JP S5824975A JP 56122445 A JP56122445 A JP 56122445A JP 12244581 A JP12244581 A JP 12244581A JP S5824975 A JPS5824975 A JP S5824975A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- dictionary
- character
- memory
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
Description
【発明の詳細な説明】 本発明は光学的文字読み堆シ装置に関し、411K。[Detailed description of the invention] 411K The present invention relates to an optical character reading/composition device.
複数の認識部が1つの辞書メモリを共有すゐ方式の光学
的文字読み*a装置に関する。The present invention relates to an optical character reading*a device in which a plurality of recognition units share one dictionary memory.
近年の光学的文字読み*C装置(以下、OCRと称す)
は、多種多様な文字を読み取ることができるようになっ
てきている。また、これに伜なりて、OCR内の辞書メ
モリに格納される参照用標準パターンの数も増加の一途
をえどっている。その丸め、辞書メモリの記憶容量は莫
大な40となってきている。Recent optical character reading*C devices (hereinafter referred to as OCR)
has become able to read a wide variety of characters. Furthermore, in line with this, the number of reference standard patterns stored in the dictionary memory within the OCR is also increasing. Rounding off, the storage capacity of the dictionary memory has become an enormous 40.
ところで、OCRの認識速度を向上させる丸めには、同
時並行動作する複数の認識部を設は為ことが有効である
。ところが、これら複数の認識部のそれぞれに大容量の
辞書メモリを付加すると、装置が大形化し、しかも高価
なものとなってしまう。By the way, for rounding to improve the recognition speed of OCR, it is effective to provide a plurality of recognition units that operate in parallel. However, if a large-capacity dictionary memory is added to each of these plurality of recognition sections, the device becomes large and expensive.
本発明は、上記実情に鑑みてなされ丸ものである。それ
ゆえ、本発明の目的は、認識速度が速く、しかも小形で
安価なOCRを提供することにToh。The present invention has been made in view of the above circumstances. Therefore, an object of the present invention is to provide an OCR that has high recognition speed, is small in size, and is inexpensive.
本発明の他の目的祉、複数Ow識部が1つの辞書メモリ
を共有する方式のOCRを提供することKある。Another object of the present invention is to provide an OCR system in which multiple OCR units share one dictionary memory.
以下、図面を参照して本発明の詳細な説明する。Hereinafter, the present invention will be described in detail with reference to the drawings.
第11拡、本発明一実施例のブロック図である。FIG. 11 is an eleventh enlarged block diagram of an embodiment of the present invention.
図中、符号1は光電変換部である。この充電変換部1に
は、読み取られるべき文字が記入された帳票を搬送する
搬送機構と、帳票上の文字パターンを走査する走査機構
とが含まれている。符号2拡前処通部である。この前処
理部2Fi、、光電変換された文字パターンに雑音除去
などの前処mを施す。In the figure, reference numeral 1 is a photoelectric conversion section. The charging conversion unit 1 includes a transport mechanism that transports a form on which characters to be read are written, and a scanning mechanism that scans the character pattern on the form. Code 2 is the expansion treatment section. This preprocessing unit 2Fi performs preprocessing such as noise removal on the photoelectrically converted character pattern.
符号3ti?インバツフアである。このラインバッファ
3は前処理された文字パターンを一行分記憶する。符号
4はI!識制御プロセッ4I″(以下、単にプロセッサ
と称す)である、このプ四セッサ4は文字認識に係わる
種々のデータ処理および装置内各部の制御を行なう、符
号5線フオーマツトテーブルである。このフォーラット
テーブル5には、文字読み取りに必要な各種のフォーマ
ット情報が記憶されている。符号6は辞書メ毫すである
。この辞書メモlJ6には各種の文字の標準パターンが
格納されている。符号7は辞書制御部である。この辞書
制御部7は、辞書メモリ6の読み出し制御を行なう、符
号8aは第1認識部である。この第tg識部8aは、帳
票上の文字パターンと辞書メモリ6から読み出された標
準パターンとを比較し、パターンマツチング法による文
字認識を行なう。Code 3ti? It's inbatshua. This line buffer 3 stores one line of preprocessed character patterns. Code 4 is I! This processor 4, which is a recognition control processor 4I'' (hereinafter simply referred to as a processor), is a 5-line format table that processes various data related to character recognition and controls various parts within the device. The rat table 5 stores various format information necessary for reading characters. Reference numeral 6 is a dictionary memory. Standard patterns of various characters are stored in this dictionary memory 1J6. Reference numeral 6 is a dictionary memory. 7 is a dictionary control unit. This dictionary control unit 7 controls reading of the dictionary memory 6. Reference numeral 8a is a first recognition unit. The standard pattern read from 6 is compared with the standard pattern, and character recognition is performed using a pattern matching method.
符号8bは第211識部である。こO第211識郁8b
は、第1II識部8aと同じものであるが、第ill識
部8aとは独立に動作する。符号9は、出力バッファで
ある。この出力バッファ9Ka認識結果が記憶される。Reference numeral 8b is the 211th identification section. Koo No. 211 Shikiku 8b
is the same as the first II recognition section 8a, but operates independently of the illumination recognition section 8a. Reference numeral 9 is an output buffer. This output buffer 9Ka recognition result is stored.
上述した構成要素は、前処理部2および辞書メモリ6を
除き、パスIOK接続されている。また。The above-mentioned components, except for the preprocessing section 2 and the dictionary memory 6, are connected by a path IOK. Also.
光電変換部1と前処理部2社、信号ll5lIKよって
接続されている。ま九、前処理部2とラインバッファ3
は信号線群12によって接続されている。まえ、辞書メ
モリ6と辞書制御部7は、信号線群1″AKよって接続
されている。さらに、第11111118aおよび第2
il!!識部8bは、信号線群14によって辞書制御部
7に接続されている。The photoelectric conversion section 1 and the two preprocessing sections are connected by signals ll5lIK. Nine, preprocessing section 2 and line buffer 3
are connected by a signal line group 12. In the front, the dictionary memory 6 and the dictionary control unit 7 are connected by a signal line group 1''AK.
Il! ! The identification section 8b is connected to the dictionary control section 7 by a signal line group 14.
次に、第2図を参照して、辞書メモリ6の配憶内容を説
明する。第2図(a)K示されているように、本爽施例
において、辞書メモリ60内部には3つの辞書Do 、
Dsおよび病が格納されてい石0手書1文字読み取シ用
辞書D0は、例えば第3図(a)K示されているような
字体の手書き文字を読与取ゐWAK利用される。この辞
書へは、辞書メ毫り6の&〜誉地か1賜番地オでの間の
領域に格納されている。活字文字読み取プ用辞書ハは、
例えば183図(b)に示されているような字体の活字
文字を読み取る際に利用される。仁の辞書へは、辞書メ
モリ6の8A111地から私1番池までの間の領域に格
納されている。ドツト文字読み取り用辞書へは、例えは
第3図(C)に示されているような字体のドツト文字を
読み取る際に利用される。この辞書りおけ辞書メモリ6
の8A、番地から働18番地までの間の領域に格納され
ている。Next, the contents stored in the dictionary memory 6 will be explained with reference to FIG. As shown in FIG. 2(a)K, in this embodiment, the dictionary memory 60 has three dictionaries Do,
The dictionary D0 for reading one handwritten character in which Ds and disease are stored is used to read and read handwritten characters in the font shown in FIG. 3(a)K, for example. This dictionary is stored in the area between & and Honchi of dictionary page 6 and address 1 and address O. Dictionary for reading printed characters is
For example, it is used when reading printed characters in the typeface shown in Figure 183(b). Jin's dictionary is stored in the area between area 8A111 of dictionary memory 6 and I-1 pond. The dot character reading dictionary is used, for example, when reading dot characters in a font as shown in FIG. 3(C). This dictionary storage dictionary memory 6
It is stored in the area between address 8A and address 18.
なお、2種類以上の字体の活字文字を読み填る必要があ
る場合には、活字文字読み取り用辞書を2種類以上設け
てもよい、同様に、2種類以上の字体のドツト文字を読
み取る必要がある場合には、ドツト文字読み取p用辞書
を2種類以上設けてもよい。In addition, if it is necessary to read printed characters of two or more types of fonts, two or more types of printed character reading dictionaries may be provided.Similarly, it is necessary to read dot characters of two or more types of fonts. In some cases, two or more types of dot character reading p dictionaries may be provided.
次に、辞書D0.D1およびり、のよp詳細な構造を説
明する。第2図(b)には、−例として、辞書D0の内
部構造が示されていゐ0図示されているように、辞書へ
の内部にはn種類の文字(例えば、10種類の数字と2
6種類の英字と「刊「−」などの記号)の標準パターン
P1〜Pnが格納されている。Next, dictionary D0. The detailed structure of D1 and RI will now be explained. As an example, FIG. 2(b) shows the internal structure of a dictionary D0. As shown in FIG.
Six kinds of alphabetic characters and standard patterns P1 to Pn (symbols such as "-") are stored.
各標準パターンP1〜Pnの先1[Kは、ヘッダー鳩〜
Hnが付加されている。各ヘッダーH1〜Hnには、そ
の文字の文字コードC8〜Cn、対応する標準パターン
P1〜Pnのデータ長(九とえはビット数)Bs〜Bn
、およびその他の情報が含まれている。他の辞書り、お
よび1もこれと同様な内部構造を有している。Tip 1 of each standard pattern P1 to Pn [K is the header pigeon]
Hn is added. Each header H1 to Hn contains the character code C8 to Cn of the character, and the data length (9 is the number of bits) of the corresponding standard pattern P1 to Pn, Bs to Bn.
, and other information. Other dictionaries and 1 have similar internal structures.
次に、第4図を参照して、辞書制御s7のよ)詳細な構
成を説明する0図示されているように、辞書制御部フに
は、辞書番号レジスタ71と、辞書アドレスメモリ72
と、辞書アドレスカウンタnと、文字コード検出回路7
4とが含まれている。辞書番号レジスタ71の入力端子
群は、パス10に接続されている。fた、辞書番号レジ
スタ71の出力端子群tlFWアドレスメモリ72のア
ドレス入力端子群に接続されている。この辞書アドレス
メ毫り720i番地にれ、辞書Diの先願番地8Aiお
よび最Mll地RAiが記憶されている。したが9て、
辞書番号レジスタ71に辞書番号iをセットすることK
よって、辞書アドレスメモ972から辞書DiO先頂番
地8Aiおよび最終番地EAsが読み出される。Next, with reference to FIG. 4, the detailed configuration of the dictionary control section s7 will be explained.As shown in FIG.
, dictionary address counter n, and character code detection circuit 7
4 is included. The input terminal group of the dictionary number register 71 is connected to the path 10. Furthermore, the output terminal group tlFW of the dictionary number register 71 is connected to the address input terminal group of the address memory 72. In this dictionary address 720i, the earliest application address 8Ai and the highest application address RAi of the dictionary Di are stored. However, at 9
Setting the dictionary number i in the dictionary number register 71K
Therefore, the dictionary DiO top address 8Ai and the final address EAs are read from the dictionary address memo 972.
辞書アドレスメモリ72から読み出された辞書Diの先
頭番地SAiシよび最終番地EAiは、辞書アドレスカ
ウンタ73に供給される。すると、辞書アドレスカウン
タ73社、先頭番地8Aiから最終番地EAiまで0間
を繰シ返しカウンタする。すなわち、辞書アドレスカウ
ンタna先頭番地S入iからカウントを開始し、最終番
地EAiiでカウントすると、再び先頭番地8Aiから
カウントを始める。このカウンタ73のカウント値は、
信号線群13a(信号線群13の一部である)を介して
、辞書メ篭り6のアドレス入力箋子群に供給される。し
たがって、辞書メモリ6からは、辞書Diの内容が繰〉
返し読み出される。このようKして辞書メモリ6から読
み出された辞書DIの内容は、信号一群13b(信号線
群13の一部である)を介して一担辞書制御部7に取り
込まれ、信号一群14a(信号線群14の一部である)
を介して第ill識部8aおよび第2m識部8bK供給
される。まえ、文字コード検出回路74は、信号線群1
3b上に文字コードC1〜Cnが出現し九とき、これを
検知して文字ブード検出信号C0DEを発生する。この
信号C0DEは、信号線14b(信号線群14の一部で
ある)を介して第1認識部8mおよび第211識郁8b
K供給される。The starting address SAi and ending address EAi of the dictionary Di read from the dictionary address memory 72 are supplied to a dictionary address counter 73. Then, the dictionary address counter 73 repeatedly counts between zeros from the first address 8Ai to the last address EAi. That is, the dictionary address counter na starts counting from the first address S entry i, counts at the last address EAii, and then starts counting again from the first address 8Ai. The count value of this counter 73 is
The signal is supplied to the address input paper group of the dictionary booklet 6 via the signal line group 13a (which is a part of the signal line group 13). Therefore, the contents of the dictionary Di are repeated from the dictionary memory 6.
It is read back. The contents of the dictionary DI read out from the dictionary memory 6 in this way are taken into the one-way dictionary control unit 7 via the signal group 13b (part of the signal line group 13), and the contents of the dictionary DI read out from the dictionary memory 6 in this manner are taken into the single dictionary control unit 7 via the signal group 13b (part of the signal line group 13), and the signal group 14a ( (Part of signal line group 14)
It is supplied to the ill-th recognition section 8a and the second m-th recognition section 8bK through. In the front, the character code detection circuit 74 is connected to the signal line group 1.
When character codes C1 to Cn appear on 3b, this is detected and a character code detection signal C0DE is generated. This signal C0DE is transmitted to the first recognition unit 8m and the 211th recognition unit 8b via the signal line 14b (which is part of the signal line group 14).
K is supplied.
なン、辞書アドレスカウンタnは、そのカウント値が先
頭アドレスSAiに勢しくなると、信号Q音発生する。The dictionary address counter n generates a signal Q sound when its count value reaches the leading address SAi.
この信号CI Bs辞書Di内O最初O文字コードC1
が信号線群13b上に送出されていることを文字コード
検出回路74に知らせる。2番目以後の文字コードC1
〜Cnの検出線、文字コード検出回路74内で行なわれ
る。その際、次の文字コードの存在位置を知るために、
各ヘッダー81〜式に含まれているデータB、〜Bn
(標準パターンP1〜Pnのデータ長)が利用される。This signal CI Bs dictionary Di O first O character code C1
The character code detection circuit 74 is informed that the character code is being sent onto the signal line group 13b. Second and subsequent character code C1
The detection lines ˜Cn are carried out in the character code detection circuit 74. At that time, in order to know the location of the next character code,
Data B, ~Bn included in each header 81 ~ expression
(data length of standard patterns P1 to Pn) is used.
次に、第1m!!!識部8aおよび第2il!識部8b
Oよシ詳細な構成を説明すゐ6本実施例にシいて、第1
m織部8鳳および第211識部8bO内部構威祉同−で
あるので、以後、両者を区別すゐ必要がない場合には、
単に認識部8と称す、第5図は、i!識郡部8内部構成
を示す図である。図示されているように、II識部8に
は一文字ノ(ツファ801および類似度計算回路802
が含まれている。後述するように、−文字バッファ80
1に祉認識対象となる一文字分の文字パターンが格納さ
れる。類似度計算回路802は、この−文字バッファ8
01に格納された文字パターンと信号線群14aを通じ
て送られて来る標準パターンとの間の類似度を計算する
。Next, the 1st m! ! ! Shikibu 8a and 2nd il! Shikibu 8b
The detailed configuration will be explained below.6 Based on this embodiment, the first
Since the internal structure of Oribe 8o and 211th Intelligence Department 8bO is the same, from now on, if there is no need to distinguish between the two,
FIG. 5, simply referred to as recognition section 8, shows i! FIG. 8 is a diagram showing the internal configuration of the intelligence unit 8. FIG. As shown in the figure, the II recognition unit 8 includes a single character (tufa 801 and similarity calculation circuit 802).
It is included. As described below, - character buffer 80
1 stores a character pattern for one character to be recognized. The similarity calculation circuit 802 calculates this −character buffer 8
The similarity between the character pattern stored in 01 and the standard pattern sent through the signal line group 14a is calculated.
求められた類似度は、類似度計算回路802の内部に記
憶され、プロセッサ4からの要求に応じて、バス10に
送出される。The obtained similarity is stored inside the similarity calculation circuit 802 and sent to the bus 10 in response to a request from the processor 4.
なお、類似度計算回路802は、後述するイネーブル信
号INが与えられた場合にのみ動作する。Note that the similarity calculation circuit 802 operates only when an enable signal IN, which will be described later, is applied.
したがって、−文字バッファ801に格納されている文
字パターンの種類(数字、英字、記号などの区別)が予
め判明している場合には、信号線群14a上に必要な標
準パターンが送出されている場合にのみ類似度計算回路
802 t−動作させることができる。また、類似度計
算回路802は類似度計算が終了するとローレベルにな
る計算終了信号FIMを発生する。Therefore, if the type of character pattern stored in the character buffer 801 (distinguishing between numbers, letters, symbols, etc.) is known in advance, the necessary standard pattern is sent out on the signal line group 14a. The similarity calculation circuit 802 can be operated only if t-. Furthermore, the similarity calculation circuit 802 generates a calculation end signal FIM that becomes low level when the similarity calculation is completed.
次に、上述したイネーブル信号を作成する丸めの回路構
成を説明する。第S図に示されているように、認識部8
には第1メモリ803と第8メモリ804とが備わりて
いゐ0文字コードのビット数をmとすると、第1メモリ
803および第2メ篭り泡には、それぞれ2m個(文字
コードのIl数)O記憶領域が備わっている。各記憶領
域には、1ビツトのデータが記憶される。第1メモリ8
0Bは、プロセッサ4からバス10を通じて送られて来
る認識指令信号RECGNが7・イレベルの場合は試み
出しモードとなシ、ローレベルの場合は書自込みモード
となる。また、第1メ屹り803のデータ入力端子には
プロセッサ4かもバス10を通じて送られて来る1ビツ
トデータVvDATAが供給される。一方、第2メモリ
804はアンドゲート805の出力信号がハイレベルで
ある場合は読み出しモードとな)。Next, a rounding circuit configuration for creating the above-mentioned enable signal will be explained. As shown in FIG.
is equipped with a first memory 803 and an eighth memory 804. If the number of bits of the 0 character code is m, then the first memory 803 and the second memory have 2m bits each (Il number of character codes). It has O storage area. Each storage area stores 1 bit of data. 1st memory 8
0B is in the trial start mode when the recognition command signal RECGN sent from the processor 4 through the bus 10 is at the 7-high level, and is in the write mode when it is at the low level. Further, the data input terminal of the first input terminal 803 is supplied with 1-bit data VvDATA sent from the processor 4 via the bus 10. On the other hand, the second memory 804 is in the read mode when the output signal of the AND gate 805 is at a high level).
ローレベルの場合社書き込与゛モードとなぁ、こOアン
トゲ−) $05の2つの入力端子にはそれぞれ信号R
ECGNおよび信号FINが印加される。第2メ498
04のデータ入力端子に拡信号RECGNが印加含れる
。If it is low level, it is the company write mode.) The two input terminals of $05 each have a signal R.
ECGN and signal FIN are applied. 2nd me 498
The expanded signal RECGN is applied to the data input terminal 04.
第1メモリ803およびjI2メモリ804は、アドレ
スカウンタ806によってアドレス設定される。The first memory 803 and the jI2 memory 804 are addressed by an address counter 806.
このカウンタ806は、プロセッサ4からバス10を通
じてクリア指令信号CLEARが送られて来るとクリア
され、クロック信号CLOCKが送られて来るとカウン
トアツプされる。また、アンドゲート807がロード指
令信号LOADを発生すると、そのときに信号線群14
a上に送出されているデータがカウンタ806にロード
される。アンドゲート807には、認識指令信号REC
GNと、辞書制御部7から送られて来る文字コード検出
信号C0DICとが供給される。This counter 806 is cleared when a clear command signal CLEAR is sent from the processor 4 via the bus 10, and counted up when a clock signal CLOCK is sent. Further, when the AND gate 807 generates the load command signal LOAD, the signal line group 14
The data being sent on a is loaded into counter 806. The AND gate 807 includes a recognition command signal REC.
GN and a character code detection signal C0DIC sent from the dictionary control section 7 are supplied.
第1メ毫り803の出力は、アントゲ−) 808に印
加される。また、第2メモリ804の出力は、認識終了
信号)Wとしてバス10およびインバータ卿に送出され
る。インバータ809の出力信号はアントゲ−)808
に印加される。アンドゲート808には、認識指令信号
RECGNも印加される。アンドゲート808の出力信
号は、イネーブル信号ENとして、類似度計算回路80
2に供給される。The output of the first screen 803 is applied to an analog game 808. Further, the output of the second memory 804 is sent to the bus 10 and the inverter as a recognition end signal)W. The output signal of the inverter 809 is 808
is applied to A recognition command signal RECGN is also applied to the AND gate 808 . The output signal of the AND gate 808 is sent to the similarity calculation circuit 80 as an enable signal EN.
2.
第1メモリ803および第2メ毫り804の内容れ、認
識開始に先立って、プロセッサ4の働IIKよシ初期化
される。その際、プロセッサ4紘壕ず認識指令信号RE
CGNをローベルにする。すると、第1メモリ803お
よび第2メモリ804は書會込み篭−ドになる。また、
アンドゲート809はイネーブル信号ENo発生を中止
し、アントゲ−) 807はロード指令信号LOADの
発生を中止する。これKよシ、認識部8嬬休止状態とな
る0次いで、プロセッサ4はクリア指令信号CLEAR
を発生する。The contents of the first memory 803 and the second memory 804 are initialized by the processor 4 prior to the start of recognition. At that time, the processor 4 recognizes the command signal RE.
Set CGN to Robel. Then, the first memory 803 and the second memory 804 become a book storage area. Also,
The AND gate 809 stops generating the enable signal ENo, and the AND gate 807 stops generating the load command signal LOAD. After this, the recognition unit 8 goes into a dormant state.Then, the processor 4 outputs a clear command signal CLEAR.
occurs.
これによシ、第1メ毫り803および第2メ篭す鍋の0
11地にデータが書き込まれる。第1メモ17803に
書き込まれるデータWDATAは、プロセッサ4からバ
スlOを送じて送られて来る。また、信号RECGNが
ローレベルになりているので、第2メモリ804に紘“
O″′が書き込まれる。In addition to this, the first frame 803 and the second frame 0
Data is written to location 11. Data WDATA written to the first memory 17803 is sent from the processor 4 via the bus IO. In addition, since the signal RECGN is at a low level, the second memory 804
O″′ is written.
0番地への書置込みが終了すると、プロセッサ4はカウ
ント信号C0UNTを発生し、カラン列部のカウント値
を「1」Kする。これKより、1番地への書き込みが行
なわれる。以下同様にして、第1メモI7803および
第2メモリ804の全記憶領域にデータが書き込まれる
。When the writing to address 0 is completed, the processor 4 generates a count signal C0UNT and increments the count value of the column column by "1". From this K onwards, writing to address 1 is performed. Thereafter, data is written to all storage areas of the first memo I 7803 and the second memory 804 in the same manner.
第1メモリ803 K書き込まれるデータWDATAの
値祉、その記憶領域のアドレスと同じ値の文字コードを
有する標準パターンについて類似度を計算する必要があ
る場合は“1”Kされ、そうでない場合は@0”Kされ
る。一方、第2メモリ804には常に”O”が書き込ま
れる。The value of the data WDATA to be written in the first memory 803 is set to "1" if it is necessary to calculate the similarity for a standard pattern having a character code with the same value as the address of its storage area, otherwise @ 0"K. On the other hand, "O" is always written in the second memory 804.
第1メモリ803および第2メモIJ 804の初期化
が完了すると、プロセッサ4は認識指令信号ぼlをハイ
レベルにすゐ、すると、第1メモリ803および第2メ
モリ804は読み出しモードになる。また、アントゲ−
) 807は文字コード検出信号C0DEが発生するた
びにロード指令信号LOADを発生するようになる。し
たがって、信号線群14a上に文字コードが出現すると
、その値がレジスタ806にロードされ、第1メ毫り8
03および第2メモリ8G4内の対応する記憶領域の内
容が読み出される。第1メモ!J
ンドゲート808はイネーブル信号ENを発生しない、
すなわち、その場合類似度計算は行なわない。When the initialization of the first memory 803 and the second memory IJ 804 is completed, the processor 4 sets the recognition command signal vol to a high level, and the first memory 803 and the second memory 804 enter the read mode. Also, anime games
) 807 generates a load command signal LOAD every time the character code detection signal C0DE is generated. Therefore, when a character code appears on the signal line group 14a, its value is loaded into the register 806 and the first message 806 is loaded.
03 and the contents of the corresponding storage areas in the second memory 8G4 are read out. First memo! J and gate 808 does not generate an enable signal EN;
That is, in that case, similarity calculation is not performed.
第1メモ!J 803から11”が読み出され、第2メ
毫りから“0”が読み出され九場合は、アンドゲート8
08がイネーブル信号ENを発生し、類似度計算が行な
われる。類似度計算が終了すると、計算終了偏分FIN
がローレベルになる。これにより、第2メモリ804紘
書き込みモードになる。信号擬■劇はハイレベルになっ
ているので、このと自第2メモリ804には@1″が書
き込まれる。このようにして、第2メモ!7804内の
各記憶領域には対応する標準パターンに関する類似度計
算が終了するたびに11”が書き込まれて行く、シたが
って、同一〇標準パターンについて2度目の類似度計算
が行なわれようとすると、第2メモリ804から″1″
が読み出され、l!!繊終了信号ENDが発生する。こ
れKよシ、プロセッサ4に認識終了が通知堪れる。First memo! If ``11'' is read from J 803 and ``0'' is read from the second message, AND gate 8
08 generates an enable signal EN, and similarity calculation is performed. When the similarity calculation is completed, the calculation end partial FIN
becomes low level. This causes the second memory 804 to enter the write mode. Since the signal pseudo* is at a high level, @1'' is written to the second memory 804. In this way, each storage area in the second memo!7804 is filled with the corresponding standard pattern. 11" is written each time the similarity calculation for the same standard pattern is completed. Therefore, when the second similarity calculation is about to be performed for the same standard pattern, "1" is written from the second memory 804.
is read and l! ! A fiber end signal END is generated. This will notify processor 4 of the end of recognition.
次に、本実施例の全体的な動作を説明する0本実施例の
OCRは、帳票上の文字を1行分ずつ読み取る。各行の
読み取シに先立って、プロセッサ4はフォーマットテー
ブル5をアクセスし、次に読み取られるべき文字行の存
在位置を調べる。その結果に応じて、プロセッサ4は光
電変換部1に高速搬送指令を与え、帳票を次の行位置ま
で高速搬送させる0次いで、プロセッサ4は光電変換部
1に走査開始指令を与える。すると、光電変換部1は文
字パターンの走査を開始する。走査方式によっては、走
査中に帳票を低速搬送する場合もある。光電変換された
文字パターンは、信号線11を通じて、逐次前処[1s
2に送られる。前も環部2祉、光電変換された文字パタ
ーンを量子化した後、これに雑音除去などの前処理を施
す、前処塩された文字パターン社、信号線群12を通じ
て、逐次ラインバッファ3に書き込まれて行く。−桁分
の文字ハターンの書き込みが完了すると、ラインバッフ
ァ3は、その旨をプロセッサ4に通知する。Next, the overall operation of this embodiment will be explained.The OCR of this embodiment reads characters on a form one line at a time. Prior to reading each line, processor 4 accesses format table 5 to determine the location of the next character line to be read. According to the result, the processor 4 gives a high-speed conveyance command to the photoelectric conversion unit 1 to cause the form to be conveyed at high speed to the next line position.Then, the processor 4 gives a scan start command to the photoelectric conversion unit 1. Then, the photoelectric conversion unit 1 starts scanning the character pattern. Depending on the scanning method, the form may be conveyed at low speed during scanning. The photoelectrically converted character pattern is sequentially transmitted through the signal line 11 to the prefix [1s
Sent to 2. After the photoelectrically converted character pattern is quantized, it is subjected to preprocessing such as noise removal. It will be written. When the writing of character patterns corresponding to - digits is completed, the line buffer 3 notifies the processor 4 of this fact.
文字パターンがライ/バッファ3に書き込まれている間
にプロセッサ4紘再度フォーiットテーブル5をアクセ
スし、走査中の文字行を構成してらる文字の字体(手書
き文字か活字文字かドツト文字かの区別)を調べ、参照
すべ龜辞書を選ぶ。While the character pattern is being written to the line/buffer 3, the processor 4 accesses the format table 5 again and determines the font of the characters (handwritten, printed, dot) that make up the character line being scanned. (distinction) and select a dictionary to refer to.
選ばれた辞書の番号iは辞書制御部7の辞書番号レジス
タ71に書き込まれる。これにより、以後辞書メモリ6
からは辞書DIの内容が繰シ返し読み出される。なお、
本実施例の0CRKThいては、同一の文字行中に手書
き文字と活字文字のように字体の異なる文字が混在する
ことは許されていない。The selected dictionary number i is written into the dictionary number register 71 of the dictionary control section 7. As a result, the dictionary memory 6
From then on, the contents of the dictionary DI are repeatedly read out. In addition,
0CRKTh of this embodiment does not allow characters with different fonts, such as handwritten characters and printed characters, to coexist in the same character line.
次に、プロセッサ4はもう一1Kフォーマットテーブル
5をアクセスし、走査中0文字行に含まれる各フィール
ド(商品名欄、単価欄、数量欄など)の開始位置および
終了位置ならびに各フィールドに記入される文字の種類
(数字、英字、記号などの区別)を調べておく。Next, the processor 4 accesses another 1K format table 5, and fills in the start and end positions of each field (product name field, unit price field, quantity field, etc.) included in the 0-character line during scanning, as well as the fields filled in. Check the types of characters (numbers, letters, symbols, etc.).
ラインバッファ3かも書き込み終了が通知されると、プ
ロセッサ4はラインバッファ3に記憶されている一桁分
の文字パターンの中から最左端〇−文字分を切シ出す、
このと亀、先にフォーマットテーブル5から読み出した
第1フイールド(最左端フィールド)の開始位置が参照
される0次いで、プロセッサ4はラインバッファ3から
切り出された一文字分の文字パターンについて文字の大
きさや線幅の正規化を行なう。正規化された文字パター
ンは、第1a識部8aの一文字パッファ801にSき込
まれる。この後、プロセッサ4は第1フイールドに記入
される文字の種類に応じて、第1認識部8a内の第1メ
モIJ 803を初期化する。以上の処理が終了すると
、プロセッサ4は第ill識部8aに対して認識終了信
号几ECGNを送出する。When the line buffer 3 is notified of the end of writing, the processor 4 cuts out the leftmost 0-characters from the one-digit character pattern stored in the line buffer 3.
At this point, the start position of the first field (leftmost field) read earlier from the format table 5 is referenced. Next, the processor 4 determines the character size and character pattern for one character extracted from the line buffer 3. Normalize line width. The normalized character pattern is loaded into the single character puffer 801 of the 1a identification section 8a. Thereafter, the processor 4 initializes the first memo IJ 803 in the first recognition unit 8a according to the type of character written in the first field. When the above processing is completed, the processor 4 sends a recognition end signal ECGN to the ill recognition section 8a.
これKよシ、第1認識部8aにおける認識動作が起動さ
れる。At this point, the recognition operation in the first recognition section 8a is activated.
次K、プロセッサ4は2文字目の文字パターンの切り出
しおよび正規化を行なう。正規化された2文字目の文字
パターンは第211!識部8bに送られる。以後同様に
して、次々と切り出された文字パターンが動作中でない
方の認識部8に送られる。Next, the processor 4 cuts out and normalizes the character pattern of the second character. The normalized second character pattern is number 211! It is sent to the intelligence section 8b. Thereafter, in the same manner, character patterns cut out one after another are sent to the recognition section 8 that is not in operation.
認識部8からの認識終了信号ENDを受は取ると。When the recognition end signal END is received from the recognition unit 8.
プロセッサ4は認識部8に記憶されている類似度計算結
果を参照して答えを決定し、出力バッ7.ア9に書き込
む。The processor 4 determines the answer by referring to the similarity calculation results stored in the recognition unit 8, and outputs an output buffer 7. Write in A9.
第1フイールドに含まれる全文字の認識が終了すると、
同様にして第2フイールドの認識が開始される。ただし
、初期化時に第1メモ9803 K書き込まれる内容は
、第2フイールドに記入される文字の種類に応じて変更
される。When all characters in the first field have been recognized,
Recognition of the second field is started in the same manner. However, the contents written in the first memo 9803K at the time of initialization are changed depending on the type of characters written in the second field.
以上、本発明をパターンマツチング方式の■3に適用し
た場合について説明したが、本発明は時機抽出方式のO
CRにも適用可能である。その場合、プロセッサ4は切
り出された文字パターンについて、正規化を行なうかわ
シに幾何学的位相特徴(たとえば、ブロック、ループ、
ストローク、凹凸等の特徴)の抽出をしたシ、文字線縁
の傾斜方向を示す方向コード列を作成したりして特徴パ
ターンを作成し、その結果を一文字パッファ801に書
龜込む。また、辞書メモリ6に拡標準となる特徴パター
ンが格納される。さらに、類似度計算回路8020代わ
9に、相関器が用いられる。Above, the case where the present invention is applied to (3) of the pattern matching method has been explained, but the present invention also applies to the O
It is also applicable to CR. In that case, the processor 4 performs normalization on the extracted character pattern, and also performs geometric topological features (for example, blocks, loops, etc.).
A feature pattern is created by extracting features (such as strokes and unevenness) and creating a direction code string indicating the inclination direction of the character line edge, and the results are loaded into the single character puffer 801. Further, the dictionary memory 6 stores feature patterns that serve as expanded standards. Further, a correlator is used in place of the similarity calculation circuit 8020.
また、上記実施例においては認識部8を2つ設け九例を
説明したが、3つ以上の認識部を設けることも可能であ
る。Further, in the above embodiment, nine examples were described in which two recognition units 8 were provided, but it is also possible to provide three or more recognition units.
また、上記111施例においては、文字種(手書き文字
か活字文字かドツト文字かの区別)に応じて3つの辞書
り、 −D、を設は九が、これをよシ細分して手書き数
字、手書き英字、手書き記号、活字数字、活字英字、活
字記号、ドツト数字、ドツト英字およびドツト記号用の
辞書を設けることなども可能である。In addition, in the above-mentioned Example 111, three dictionaries are provided depending on the character type (distinction between handwritten characters, printed characters, and dot characters). It is also possible to provide dictionaries for handwritten letters, handwritten symbols, printed numbers, printed letters, printed symbols, dotted numbers, dotted letters and dotted symbols.
以上詳述したように、本発明によれば複数の認識部が1
つの辞書メモリを共有する方式のOCRが提供される。As described in detail above, according to the present invention, a plurality of recognition units are connected to one
An OCR system that shares two dictionary memories is provided.
し九がって、認識速度が速く、シかも小形で安価tOc
Rが提供される。Furthermore, the recognition speed is fast, and it is also small and inexpensive.
R is provided.
第1図は本発明一実施例の構成図、第2図は辞書メモリ
の内容を示す図、第3図は文字種の一例を示す図、第4
図は辞書制御部の構成図、第5図は認識部の構成図であ
る。
1・・・光電変換部 2・・・前処理部3・・
・ラインバッファ
4・・・制御認識プロセッサ
5・・・フォーマットテーブル
6・・・辞書メモリ 7・・・辞書制御部8a
・・・第1II識部 8b・・・第2認織部9・
・・出力バッファ
特許出願人 東京芝浦電気株式会社
代理人弁理士 則 近 憲 佑
(他1名)
第1図
第2図
((1) (b)
第3図
第4図
ワFig. 1 is a configuration diagram of an embodiment of the present invention, Fig. 2 is a diagram showing the contents of a dictionary memory, Fig. 3 is a diagram showing an example of character types, and Fig. 4 is a diagram showing an example of character types.
The figure is a block diagram of the dictionary control section, and FIG. 5 is a block diagram of the recognition section. 1... Photoelectric conversion section 2... Pre-processing section 3...
- Line buffer 4...Control recognition processor 5...Format table 6...Dictionary memory 7...Dictionary control unit 8a
...1st II Knowledge Department 8b...2nd Knowledge Department 9.
...Output Buffer Patent Applicant Tokyo Shibaura Electric Co., Ltd. Representative Patent Attorney Kensuke Noriyuki (and 1 other person) Figure 1 Figure 2 ((1) (b) Figure 3 Figure 4
Claims (1)
部からの指令にし九がりて前記辞書メモリから複数個の
標準パターンを選択的に読み出して前記複数の認識部に
供給し、前記複mow識部拡それぞれ前記認識制御部か
らの指示にしたがって前記複数個の標準パターンの中か
らさらに81Iなものだけを複数個選択して文字認識を
行なうようにしたことを特徴とする光学的文字読み散j
1装置。[Claims] A plurality of recognition units, a dictionary memo 49, and a dictionary control unit. a recognition control unit; the dictionary control unit selectively reads out a plurality of standard patterns from the dictionary memory and supplies them to the plurality of recognition units in response to a command from the recognition control unit; The optical character is characterized in that character recognition is performed by selecting a plurality of 81I patterns from among the plurality of standard patterns in accordance with instructions from the recognition control unit. Read a lot
1 device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56122445A JPS5824975A (en) | 1981-08-06 | 1981-08-06 | Optical character reader |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56122445A JPS5824975A (en) | 1981-08-06 | 1981-08-06 | Optical character reader |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS5824975A true JPS5824975A (en) | 1983-02-15 |
Family
ID=14836017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP56122445A Pending JPS5824975A (en) | 1981-08-06 | 1981-08-06 | Optical character reader |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS5824975A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS638989A (en) * | 1986-06-30 | 1988-01-14 | Toshiba Corp | Character reader |
AU647191B2 (en) * | 1990-09-27 | 1994-03-17 | Cgk Computer Gesellschaft Konstanz Mbh | Process and circuit for automatic character recognition on documents |
US5560039A (en) * | 1993-02-25 | 1996-09-24 | Intel Corporation | Apparatus and method for a four address arithmetic unit |
US5881312A (en) * | 1993-03-19 | 1999-03-09 | Intel Corporation | Memory transfer apparatus and method useful within a pattern recognition system |
-
1981
- 1981-08-06 JP JP56122445A patent/JPS5824975A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS638989A (en) * | 1986-06-30 | 1988-01-14 | Toshiba Corp | Character reader |
AU647191B2 (en) * | 1990-09-27 | 1994-03-17 | Cgk Computer Gesellschaft Konstanz Mbh | Process and circuit for automatic character recognition on documents |
US5560039A (en) * | 1993-02-25 | 1996-09-24 | Intel Corporation | Apparatus and method for a four address arithmetic unit |
US5881312A (en) * | 1993-03-19 | 1999-03-09 | Intel Corporation | Memory transfer apparatus and method useful within a pattern recognition system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3139521B2 (en) | Automatic language determination device | |
US6370269B1 (en) | Optical character recognition of handwritten or cursive text in multiple languages | |
Jacobs et al. | Text recognition of low-resolution document images | |
JPH0727543B2 (en) | Character recognition device | |
JPS5824975A (en) | Optical character reader | |
GB2222476A (en) | Hand-written, on line, character recognition | |
Sagar et al. | OCR for printed Kannada text to machine editable format using database approach | |
Lin et al. | Identification of business forms using relationships between adjacent frames | |
CN110298020B (en) | Text anti-cheating variant reduction method and equipment, and text anti-cheating method and equipment | |
Nagabhushan et al. | Modified region decomposition method and optimal depth decision tree in the recognition of non-uniform sized characters–An experimentation with Kannada characters | |
JP3208340B2 (en) | How to recognize continuous text | |
JPH0247788B2 (en) | ||
JPS6385695A (en) | Serial character generation system | |
JP3025382B2 (en) | Document processing device | |
JPS63263588A (en) | Character reader | |
Kurén et al. | Handwritten Text Recognition Using a Vision Transformer | |
Lebourgeois et al. | An OCR System for Printed Documents. | |
JP2784004B2 (en) | Character recognition device | |
JP3012269B2 (en) | Printing control device | |
JP2549831B2 (en) | Character recognition device input pattern / character string registration method | |
JP2917310B2 (en) | Word dictionary search method for word matching | |
JPH0325667A (en) | Japanese word processing system | |
JPH09179935A (en) | Character recognition device and control method therefor | |
KR950011809B1 (en) | Korean character compound writing method in laser printer | |
JP2931485B2 (en) | Character extraction device and method |