JPH0620094A - Character recognition device - Google Patents

Character recognition device

Info

Publication number
JPH0620094A
JPH0620094A JP4173167A JP17316792A JPH0620094A JP H0620094 A JPH0620094 A JP H0620094A JP 4173167 A JP4173167 A JP 4173167A JP 17316792 A JP17316792 A JP 17316792A JP H0620094 A JPH0620094 A JP H0620094A
Authority
JP
Japan
Prior art keywords
character
image
recognition
dictionary
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4173167A
Other languages
Japanese (ja)
Inventor
Yasuhisa Nakamura
安久 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP4173167A priority Critical patent/JPH0620094A/en
Publication of JPH0620094A publication Critical patent/JPH0620094A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To provide the character recognition device which optically reads a document printed in type and accurately recognizes symbols or the like even of low recognition precision. CONSTITUTION:In a general optical character recognition device 20, vertical positions in rows and forms of circumscribed rectangles for symbols which are not included in the recognition object but frequently appear in a specific document or for symbols which have character forms resembling those of another symbols and cannot be accurately recognized by collation of only character features at the time of recognition are stored in a dictionary memory 6 as a register dictionary together with their character features to recognize the type characters more accurately.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、文字を含む原稿を画像
として読取り、読取った文字画像を文字として認識する
文字認識装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition apparatus for reading a document containing characters as an image and recognizing the read character image as a character.

【0002】[0002]

【従来の技術】文書の文字画像をコンピュータ処理によ
って認識する文字認識装置として、認識しようとする文
字情報、たとえば日本語文字をCCD(電荷結合素子)
などを用いて光電変換し、該光電変換された電気信号を
1文字画像単位で切出し、認識部において所定の認識論
理に従って1文字画像ずつ認識を行う、光学的文字認識
装置(OCR)が知られている。
2. Description of the Related Art As a character recognition device for recognizing a character image of a document by computer processing, character information to be recognized, for example, a Japanese character is CCD (charge coupled device).
There is known an optical character recognition device (OCR) in which photoelectric conversion is performed using, for example, the photoelectrically converted electric signal is cut out for each character image unit, and the recognition unit recognizes each character image according to a predetermined recognition logic. ing.

【0003】認識の方法としては、文字の始点から輪郭
を追跡し、方向コードを付与し、これを、方向コード列
として辞書中の同様の標準パターンと照合し、類似度順
に候補をあげ、文字コードを出力するなどの認識方法が
ある。
As a recognition method, the contour is traced from the start point of the character, a direction code is given, this is compared with a similar standard pattern in the dictionary as a direction code string, candidates are listed in order of similarity, and the character There is a recognition method such as outputting the code.

【0004】[0004]

【発明が解決しようとする課題】前述の文字認識装置に
おいて、活字文書を対象として読取る場合には、認識対
象となっている活字記号は、約200文字程度であり、
読取り対象として活字文書中に出現する記号の数に比し
て非常に少ない。また、文字認識装置において認識対象
に含まれない記号は、特定な文書中で使用されることが
多い。
In the above-mentioned character recognition device, when reading a type document, the type symbol to be recognized is about 200 characters.
It is very small compared to the number of symbols that appear in printed documents for reading. In addition, a symbol that is not included in the recognition target in the character recognition device is often used in a specific document.

【0005】したがって、ただ単に認識対象文字として
標準パターンを作成し、文字認識辞書中に記憶させると
いう方法では、一般的な文書を読取り、認識する際に
は、文字特徴の類似した標準パターンが増えることによ
って認識精度が低下し、また、標準パターンの数が増加
することによって、認識処理速度が低下するなどの不都
合を生じる。
Therefore, when a standard pattern is simply created as a character to be recognized and stored in a character recognition dictionary, when reading and recognizing a general document, standard patterns having similar character characteristics increase. As a result, the recognition accuracy is reduced, and the number of standard patterns is increased, which causes a disadvantage such as a reduction in the recognition processing speed.

【0006】このような問題を解決するために、手書き
文字認識装置において、標準パターンとの照合におい
て、認識が困難であるような文字、たとえば、ユーザが
個別的に有する文字特徴を文字認識辞書中に登録する方
法などが考えられている。
In order to solve such a problem, in a handwriting character recognition device, a character that is difficult to recognize in collation with a standard pattern, for example, a character feature that a user individually has in a character recognition dictionary. The method of registering with is considered.

【0007】しかし、このような方法、すなわち、文字
特徴だけを辞書中に登録する方法をそのまま適用して
も、活字文書中の記号など、形状類似性が高く、かつ、
行中の上下位置や並びが認識結果を決定するような文字
に関しては、たとえば、特に記号などは、「,」
と「’」や、「−」と「‐」の様に、文字の上に位置す
るか下に位置するかによって出力すべきコードが異なる
場合や、その文字が正方形に近いかどうかといった情報
を併せて判断されるべき文字、さらに、ルビ、上つき文
字、下つき文字などはその位置関係が重要であり、それ
らを単に処理するだけでは、文字の切出しや認識処理に
不具合を生じ、かえって不都合である。
However, even if such a method, that is, the method of registering only the character feature in the dictionary is applied as it is, the shape similarity such as a symbol in a printed document is high, and
For characters whose vertical position or arrangement in the line determines the recognition result, for example, especially for symbols, ","
Information such as when the code to be output differs depending on whether it is located above or below the character, such as "and", and "-" and "-", and whether the character is close to a square. The positional relationship between characters that should be judged at the same time, as well as ruby, superscript, subscript, etc., is important, and simply processing them will cause problems in character extraction and recognition processing, which is rather inconvenient. Is.

【0008】本発明の目的は、このような問題点を解消
し、文字認識において精度が高く、認識処理を高速に行
える文字認識装置を提供することである。
An object of the present invention is to solve the above problems and to provide a character recognition apparatus which has high accuracy in character recognition and can perform recognition processing at high speed.

【0009】[0009]

【課題を解決するための手段】本発明は、予め定める認
識対象文字の標準文字画像が記憶されている辞書メモリ
と、複数の文字が一方向に配列されて構成される行が少
なくとも1行表示された原稿を画像として読取る読取手
段と、前記辞書メモリを参照して、前記読取手段からの
文字画像を文字として認識する認識手段とを備える文字
認識装置において、読取手段からの文字画像を表示する
表示手段と、表示手段に表示された文字画像のうちから
1文字の文字画像の表示領域を指定する文字指定手段
と、前記文字指定手段によって指定された文字画像に関
して、行における位置および当該指定文字の表示領域の
矩形形状を検出する検出手段と、前記文字指定手段によ
って指定された文字に関して、文字画像を標準文字画像
に変換して前記検出手段による検出結果とともに前記辞
書メモリに登録する登録手段とを含むことを特徴とする
文字認識装置である。
According to the present invention, a dictionary memory in which a standard character image of a predetermined character to be recognized is stored, and at least one line composed of a plurality of characters arranged in one direction is displayed. In a character recognition device including a reading unit that reads the read original as an image and a recognition unit that refers to the dictionary memory and recognizes the character image from the reading unit as a character, the character image from the reading unit is displayed. With respect to the display means, the character designating means for designating the display area of the character image of one character among the character images displayed on the display means, the position in the line and the designated character with respect to the character image designated by the character designating means. Detecting means for detecting the rectangular shape of the display area, and converting the character image into a standard character image for the character designated by the character designating means. A character recognition apparatus, characterized in that together with the detection result by the stage and a registration means for registering in the dictionary memory.

【0010】[0010]

【作用】本発明に従えば、文字認識装置は、読取手段に
おいて複数の文字が一方向に配列されて構成される行が
少なくとも1行表示された原稿を画像として読取り、予
め定める認識対象文字の標準文字画像を記憶している辞
書メモリを認識手段において参照し、前記読取手段から
の文字画像を文字として認識する。これに際し、表示手
段において読取手段からの文字画像を表示し、文字指定
手段において前記文字画像のうちから1文字の文字画像
の表示領域を指定し、検出手段において前記指定された
文字画像に関して、行における位置および当該指定文字
の表示領域の矩形形状を検出し、登録手段において前記
指定された文字に関して、文字画像を標準文字画像に変
換して前記検出手段による検出結果とともに前記辞書メ
モリに登録する。
According to the present invention, in the character recognition device, the reading means reads a document in which at least one line constituted by arranging a plurality of characters in one direction is displayed as an image and determines a predetermined recognition target character. The recognition unit refers to the dictionary memory storing the standard character image to recognize the character image from the reading unit as a character. At this time, the display means displays the character image from the reading means, the character designating means designates a display area of a character image of one character among the character images, and the detecting means displays a line for the designated character image. The position and the rectangular shape of the display area of the designated character are detected, the character image of the designated character is converted into a standard character image by the registration means, and the standard character image is registered in the dictionary memory together with the detection result by the detection means.

【0011】[0011]

【実施例】図1は、本発明の一実施例の文字認識装置2
0全体の構成を示すブロック図である。文字認識装置2
0は認識部1と、入出力部2と入力部7とから成る。認
識部1は、認識部1全体を制御するプログラムを格納す
るROM3と、読取った画像を座標上に記憶する画像メ
モリや、文字認識に際して切出しや登録辞書作成などの
処理の作業バッファとなるRAM4と、ROM3のプロ
グラムに従って文字認識処理全体の制御を行うCPU
(中央処理装置)5と、文字認識処理に際して照合に用
いられる標準パターンと、後述の登録辞書16とを記憶
する辞書メモリ6と、画像メモリから切出された1文字
分の画像から文字特徴を抽出する特徴抽出部8と、入力
文字画像の前記特徴抽出部8によって抽出された文字特
徴と、前記辞書メモリ6中の標準パターンとを照合し、
類似度順に文字コードを出力する文字認識専用プロセッ
サ9と、外部装置とデータの入出力を行うインターフェ
イス10とから成る。また、入力部7は、文書画像を読
取るスキャナなどの光学的入力装置である。
1 is a block diagram of a character recognition device 2 according to an embodiment of the present invention.
It is a block diagram which shows the structure of 0 whole. Character recognition device 2
Reference numeral 0 includes a recognition unit 1, an input / output unit 2 and an input unit 7. The recognition unit 1 includes a ROM 3 that stores a program that controls the entire recognition unit 1, an image memory that stores a read image on coordinates, and a RAM 4 that serves as a work buffer for processing such as cutout and registration dictionary creation when recognizing characters. , CPU for controlling the entire character recognition process according to the program in the ROM 3
(Central processing unit) 5, a standard pattern used for collation at the time of character recognition processing, a dictionary memory 6 for storing a registered dictionary 16 which will be described later, and a character feature from an image for one character cut out from the image memory. The feature extraction unit 8 to extract, the character features extracted by the feature extraction unit 8 of the input character image, and the standard pattern in the dictionary memory 6 are collated,
It is composed of a character recognition dedicated processor 9 for outputting character codes in order of similarity, and an interface 10 for inputting / outputting data to / from an external device. The input unit 7 is an optical input device such as a scanner that reads a document image.

【0012】また、本実施例においては、認識部1と入
出力部2をインタフェイスを介して接続し、データのや
り取りを行う。入出力部2は、入力部7において入力さ
れた文書画像の元画像を表示する表示部11と、入出力
部2に対してユーザが登録や認識処理などの処理モード
を指示したり、後述の登録文字を指定するなどの際に使
用するキーボード12と、後述の登録辞書や、入出力部
2が文字認識以外の処理において作成したファイルを記
憶し、保存するための外部記憶、たとえば、フロッピィ
ディスクなどにデータの書込み、読出しを行う外部出力
13と、入出力部2の全体の制御を行うCPU14など
から成る。
Further, in this embodiment, the recognition unit 1 and the input / output unit 2 are connected via an interface to exchange data. The input / output unit 2 displays the original image of the document image input in the input unit 7 and the input / output unit 2 by the user to instruct a processing mode such as registration and recognition processing, and will be described later. An external storage for storing and storing a keyboard 12 used for designating registered characters, a later-described registration dictionary, and files created by the input / output unit 2 in processes other than character recognition, such as a floppy disk. An external output 13 for writing and reading data to and from the CPU, a CPU 14 for controlling the entire input / output unit 2, and the like.

【0013】図2は、本実施例の文字認識装置の外観を
示す斜視図である。入力部7は、スキャナであり、光源
から原稿に光を照射して走査し、その反射光をCCD
(電荷結合素子)や光電子増倍管などを用いて光電変換
し、紙面に書かれた画像を電気信号に変えて読み取る装
置である。
FIG. 2 is a perspective view showing the external appearance of the character recognition device of this embodiment. The input unit 7 is a scanner, which irradiates an original with light from a light source to scan the original and reflects the reflected light to a CCD.
It is a device that performs photoelectric conversion using a (charge-coupled device) or a photomultiplier tube and converts the image written on the paper into an electrical signal to read.

【0014】入出力部2は、計算機としての一般的な機
能を有する計算機であり、本実施例の登録辞書作成だけ
でなく、文字認識処理を行わないときはその他種々の計
算処理を行う。表示部11は、CRT(陰極線管)ディ
スプレイであり、本実施例の原稿の元画像、認識結果な
どを表示する。また、登録モードではこの表示画面内に
表示された元画像の中の登録したい文字画像を、ドット
表示あるいは、適当な大きさ、形状で表示されたカーソ
ル19を用いて矩形で囲むことによって、登録指定す
る。文字画像の登録指定は、ライトペンを用いて行って
もよい。また表示部11は、文字認識処理を行わないと
きには、入出力部2が行う他の計算処理の入力画面やモ
ード選択画面、あるいは、処理結果などを表示する。
The input / output unit 2 is a computer having a general function as a computer, and performs not only the creation of the registration dictionary of this embodiment but also various other calculation processes when the character recognition process is not performed. The display unit 11 is a CRT (cathode ray tube) display and displays the original image of the document of the present embodiment, the recognition result, and the like. Further, in the registration mode, the character image to be registered in the original image displayed on the display screen is registered by dot display or by enclosing it in a rectangle using the cursor 19 displayed in an appropriate size and shape. specify. The registration designation of the character image may be performed using a light pen. Further, when the character recognition process is not performed, the display unit 11 displays an input screen of another calculation process performed by the input / output unit 2, a mode selection screen, or a processing result.

【0015】キーボード12は、入出力部2に、モード
選択を指示したり、カーソル19を移動して文字画像を
指定する他、他の処理動作においては入出力部2に入力
データや指示データなどを与える。外部出力13は、デ
ィスクドライブなどの装置であり、フロッピィディスク
などの外部記憶にデータファイルなどの書込み、読出し
を行う。
The keyboard 12 instructs the input / output unit 2 to select a mode or move the cursor 19 to specify a character image, and in other processing operations, the input / output unit 2 receives input data and instruction data. give. The external output 13 is a device such as a disk drive, and writes / reads a data file or the like to / from an external storage such as a floppy disk.

【0016】図3は、認識用辞書の作成手順を示す図で
ある。特徴抽出部8およびCPU5は、RAM4内の登
録辞書バッファ15で登録辞書を作成し、同一の登録辞
書16を辞書メモリ6の標準パターン17に追加して認
識用辞書を作成する。表示部11に表示された元画像中
から、ユーザはキーボード12を用いて入出力部2に1
文字分の文字画像を指定し、さらにその文字画像の文字
コードを入力する。
FIG. 3 is a diagram showing a procedure for creating a recognition dictionary. The feature extraction unit 8 and the CPU 5 create a registration dictionary in the registration dictionary buffer 15 in the RAM 4 and add the same registration dictionary 16 to the standard pattern 17 of the dictionary memory 6 to create a recognition dictionary. From the original image displayed on the display unit 11, the user inputs 1 to the input / output unit 2 using the keyboard 12.
The character image for the character is specified, and the character code of the character image is input.

【0017】このデータは、入出力部2からCPU14
を介して認識部1に与えられ、このデータを用い特徴抽
出部8は文字特徴を抽出し、CPU5は指定された文字
画像と、隣接する文字画像とを比較することによって、
指定された文字画像の行中に占める位置情報、すなわ
ち、画像メモリ内の位置座標と外接矩形の形状情報とを
検出し、各々、RAM4の登録辞書バッファ15に、与
えられた文字コードとともに記憶する。
This data is transferred from the input / output unit 2 to the CPU 14
Is given to the recognition unit 1 via this data, the feature extraction unit 8 extracts character features using this data, and the CPU 5 compares the designated character image with an adjacent character image,
The position information occupied in the line of the designated character image, that is, the position coordinates in the image memory and the shape information of the circumscribing rectangle are detected and stored in the registration dictionary buffer 15 of the RAM 4 together with the given character code. .

【0018】また、この際、CPU5は、以下に示す判
断基準に基づき、登録辞書として、この文字データを登
録すべきかどうかを判断し、その結果を入出力部2の表
示部11に表示する。
At this time, the CPU 5 determines whether or not this character data should be registered as a registration dictionary based on the following criteria, and displays the result on the display unit 11 of the input / output unit 2.

【0019】以下の条件に従う場合は、登録を行わな
い。
If the following conditions are met, registration will not be performed.

【0020】(1)登録文字数が、制限数を超えてい
る。
(1) The number of registered characters exceeds the limit.

【0021】(2)登録すべき箇所の画像に異常があ
る。
(2) There is an abnormality in the image of the part to be registered.

【0022】(3)以前登録したものに同じものがあ
る。
(3) There is the same one registered before.

【0023】また、登録された文字画像については、登
録内容を表示部11に表示する。この登録辞書16は、
辞書メモリ6内で標準パターン17に追加される。
The registered contents of the registered character image are displayed on the display unit 11. This registration dictionary 16
It is added to the standard pattern 17 in the dictionary memory 6.

【0024】図4は、図3に示したRAM4および辞書
メモリ6に作成された登録辞書16の具体的な構成を示
す図である。登録辞書16には、行の中心からの位置、
および外接矩形の形状の類似した文字に関するデータが
隣接するように分類されて配置される。
FIG. 4 is a diagram showing a specific configuration of the registration dictionary 16 created in the RAM 4 and the dictionary memory 6 shown in FIG. In the registration dictionary 16, the position from the center of the line,
And data relating to similar characters in the shape of a circumscribed rectangle are classified and arranged so as to be adjacent to each other.

【0025】たとえば、図4のの行に示すように、文
字の縦の長さが行の幅とほぼ等しく、行の中心に位置す
る文字のグループ、図4のの行で示すように、文字の
縦の長さが行の幅より小さく、文字が行の中心より下側
にあるグループ、図4のの行に示すように、文字の縦
の長さが行の幅より小さく、文字が行の中心より上側に
あるグループなどに分類し、それらに関する辞書データ
が隣接するように辞書メモリ6内に区分して記憶する。
For example, as shown in the line of FIG. 4, a group of characters whose vertical length is approximately equal to the width of the line and which is located at the center of the line, as shown in the line of FIG. Group whose vertical length is less than the width of the line and the character is below the center of the line, the vertical length of the character is less than the width of the line and the character is The data is classified into groups above the center of, and is stored in the dictionary memory 6 so that the dictionary data relating to them are adjacent to each other.

【0026】登録辞書16は、RAM4に登録辞書バッ
ファ15として確保されており、入出力部2からの登録
辞書更新や登録辞書使用モードなどの指示に従って辞書
メモリ6内のデータの更新が行われる。
The registered dictionary 16 is secured in the RAM 4 as the registered dictionary buffer 15, and the data in the dictionary memory 6 is updated in accordance with the registered dictionary update from the input / output unit 2 and the instruction such as the registered dictionary use mode.

【0027】この辞書は、RAM4に同一の構造を持た
せてあるため、登録数が上限を超えれば入出力部2に転
送して外部記憶装置にデータを蓄えれば、また新たに登
録辞書を作成できる。このことは以前作った登録用の辞
書の原稿と同じものであれば、その辞書を入出力部2か
ら認識部1に呼び出せばよく同様の作業を繰り返し行う
必要はない。
Since this dictionary has the same structure in the RAM 4, if the number of registrations exceeds the upper limit, if it is transferred to the input / output unit 2 and data is stored in the external storage device, a new registration dictionary is created. Can be created. If this is the same as the original of the previously created dictionary for registration, it is sufficient to call the dictionary from the input / output unit 2 to the recognition unit 1, and it is not necessary to repeat the same work.

【0028】本実施例では、入出力部2に登録された辞
書を外部記憶装置に蓄えるようにしていたが、認識部1
に外部記憶装置を取付け、そこにデータを蓄えるように
してもよい。
In the present embodiment, the dictionary registered in the input / output unit 2 is stored in the external storage device, but the recognition unit 1
An external storage device may be attached to and the data may be stored therein.

【0029】図5は、本実施例の文字認識装置20が登
録辞書16を作成する際の動作を示すフローチャートで
あり、図6は、入力部7において読取った原稿18と、
表示部11の画像処理画面内に表示される元画像との一
例を示す図である。
FIG. 5 is a flowchart showing the operation when the character recognition device 20 of this embodiment creates the registration dictionary 16, and FIG. 6 shows the document 18 read by the input unit 7,
9 is a diagram showing an example of an original image displayed in the image processing screen of the display unit 11. FIG.

【0030】登録処理は、ユーザが入出力部2のキーボ
ード12を操作し、登録モードを指示することによって
開始される。
The registration process is started when the user operates the keyboard 12 of the input / output unit 2 to instruct the registration mode.

【0031】ステップk1で、入力部7において、スキ
ャナによって図6(1)に示す原稿18が光学的に読取
られ、原稿18上の画像はRAM4内の画像メモリの座
標上に記憶される。ステップk2で、入力部7から入力
された元画像を拡大し、図6(2)に示すように入出力
部2の表示部11に表示する。
At step k1, the document 18 shown in FIG. 6A is optically read by the scanner in the input section 7, and the image on the document 18 is stored in the coordinates of the image memory in the RAM 4. At step k2, the original image input from the input unit 7 is enlarged and displayed on the display unit 11 of the input / output unit 2 as shown in FIG.

【0032】次のステップk3で、画像処理の入力かあ
るいは登録終了を指示するキー入力かの判断を行い、登
録処理終了のキー入力があれば、ステップk10に移
り、次の処理モード選択、たとえば、認識処理などを選
択することができる。ステップk3で、画像処理の入力
があれば、次のステップk4に移る。
At the next step k3, it is judged whether the image processing is input or the key input for instructing the end of registration is made. If there is a key input for ending the registration processing, the process goes to step k10 to select the next processing mode, for example, , Recognition processing, etc. can be selected. If there is an image processing input at step k3, the process proceeds to the next step k4.

【0033】ステップk4では、図6(2)に示すよう
に、たとえば、まず、文字画像を囲む矩形の、縦あるい
は横方向の一辺の始端と終端とをカーソル19で設定し
て一辺を表示させ、その後、前記設定された一辺の終端
を始端とし、この辺に直交する一辺の終端をカーソル1
9で設定することによって、矩形を決定し、登録する文
字画像を指定する。カーソル19を用いて文字画像を矩
形で囲む方法は、他の方法であってもよいし、また、い
わゆるライトペンを用いて表示画面に直接入力してもよ
い。登録文字画像の指定が完了すると、次のステップk
5に移る。
In step k4, as shown in FIG. 6 (2), for example, first, the start and end of one side of the rectangle surrounding the character image in the vertical or horizontal direction is set by the cursor 19 to display one side. After that, the end of the set side is set as the start end, and the end of the side orthogonal to this side is set as the cursor 1
By setting in 9, the rectangle is determined and the character image to be registered is designated. The method of enclosing the character image in a rectangle using the cursor 19 may be another method, or may be directly input to the display screen using a so-called light pen. When the designation of the registered character image is completed, the next step k
Go to 5.

【0034】ステップk5において、表示画面11で、
ユーザに文字コードの入力を要求し、入力を待つ。文字
コードが入力されると、次のステップk6に移る。
At step k5, on the display screen 11,
It requests the user to input the character code and waits for the input. When the character code is input, the process proceeds to the next step k6.

【0035】ステップk6では、図4に示すRAM4内
の登録辞書バッファ15において特徴抽出部8は、指定
された登録文字画像から文字特徴を抽出し、CPU5
は、CPU14から与えられた矩形で指定された文字画
像の位置データから、画像メモリの前記指定された文字
画像の位置座標を割出し、行の中心からの文字画像の位
置、外接矩形の形状などを検出する。
At step k6, the feature extraction unit 8 extracts character features from the designated registered character image in the registered dictionary buffer 15 in the RAM 4 shown in FIG.
Calculates the position coordinates of the specified character image in the image memory from the position data of the character image specified by the rectangle provided by the CPU 14, and determines the position of the character image from the center of the line, the shape of the circumscribed rectangle, etc. To detect.

【0036】次のステップk7でCPU5は、この文字
データを登録辞書16中に登録すべきかどうか判断し、
登録できない場合は、ステップk9に移り、表示部11
に指定された文字データが登録されないことを表示して
ステップk3に戻る。
At the next step k7, the CPU 5 judges whether or not this character data should be registered in the registration dictionary 16,
If registration is not possible, the process moves to step k9 and the display unit 11
It is displayed that the character data designated by is not registered and the process returns to step k3.

【0037】また、ステップk7で、CPU5が該文字
データを登録することができると判断すると、次のステ
ップk8に移る。
If it is determined in step k7 that the CPU 5 can register the character data, the process proceeds to next step k8.

【0038】ステップk8では、RAM4の登録辞書バ
ッファ15において作成された登録辞書が、辞書メモリ
6に登録辞書16として追加される。その後、次のステ
ップk9に移り、表示部11に登録データの登録状況を
表示して、ステップk3に戻る。
At step k8, the registration dictionary created in the registration dictionary buffer 15 of the RAM 4 is added to the dictionary memory 6 as the registration dictionary 16. Then, the process proceeds to the next step k9, the registration status of the registration data is displayed on the display unit 11, and the process returns to step k3.

【0039】ステップk3で、登録終了のキー入力を判
断すると、ステップk10に移る。ステップk10にお
いて、たとえば、次に認識処理などの処理モードが選択
されたことを判断し、登録に引続き認識処理モードが選
択された場合には、前記k3からk9のステップで更新
された認識辞書に基づいて認識処理が行われる。したが
って、登録された文字は、新しく認識対象文字として扱
われる。
When it is determined in step k3 that the key input for ending the registration is determined, the process proceeds to step k10. In step k10, for example, it is determined that the processing mode such as the recognition processing is selected next, and when the recognition processing mode is continuously selected for registration, the recognition dictionary updated in steps k3 to k9 is added. The recognition processing is performed based on this. Therefore, the registered character is treated as a new recognition target character.

【0040】次のステップk11で、CPU5は画像メ
モリから1文字分の文字画像を切出し、RAM4の作業
バッファに送る。ステップk12では、切出された文字
画像から特徴抽出部8が文字特徴を抽出する。
At the next step k11, the CPU 5 cuts out a character image for one character from the image memory and sends it to the work buffer of the RAM 4. In step k12, the feature extraction unit 8 extracts the character feature from the cut out character image.

【0041】ステップk13では、文字認識専用プロセ
ッサ9が前記抽出された文字特徴を辞書メモリ6の内容
に基づいて文字認識処理を行うのであるが、この際、文
字認識専用プロセッサ9は、前記行の中心からの位置デ
ータおよび外接矩形の形状に基づいて、どの登録辞書を
使用するかを判断する。
In step k13, the character recognition dedicated processor 9 performs the character recognition processing on the extracted character features based on the contents of the dictionary memory 6. At this time, the character recognition dedicated processor 9 performs the character recognition processing. Which registration dictionary to use is determined based on the position data from the center and the shape of the circumscribed rectangle.

【0042】次のステップk14では、文字認識専用プ
ロセッサ9は、ステップk13で得られた認識結果を類
似度順に並び変え、表示部11に表示し、処理を終了す
る。また、ステップk10で、終了キーが入力された場
合には、処理を終了する。
At the next step k14, the character recognition dedicated processor 9 rearranges the recognition results obtained at step k13 in the order of similarity and displays them on the display unit 11 to finish the processing. If the end key is pressed in step k10, the process ends.

【0043】以上のように、本実施例によれば、一般の
活字文書の文字認識処理において認識対象文字に含まれ
ないが、文書によっては出現頻度の高い記号、あるい
は、文字特徴による照合だけでは認識精度の低下を招く
ような、活字原稿中の記号においても、前後の文字か
ら、行中の上下位置を検出し、外接矩形の形状とともに
辞書中に登録し、登録辞書16の使用については、CP
U5が、入力文字画像の行中の位置や外接矩形の形状か
ら登録辞書16を使用するかしないか、あるいは使用す
る場合には、どの登録辞書を使用するかを判断すること
によって、より正確に状況に応じた文字認識を行うこと
ができる。
As described above, according to the present embodiment, the characters are not included in the recognition target character in the character recognition processing of the general type document, but depending on the document, the collation based on the symbol having the high appearance frequency or the character feature is sufficient. Even for symbols in a printed manuscript that causes a decrease in recognition accuracy, the upper and lower positions in a line are detected from the characters before and after, and registered in the dictionary along with the shape of the circumscribed rectangle. CP
More accurately by determining whether or not the U5 uses the registration dictionary 16 based on the position in the line of the input character image or the shape of the circumscribing rectangle, or in the case of using, which registration dictionary to use. Character recognition can be performed according to the situation.

【0044】[0044]

【発明の効果】以上のように本発明によれば、文字認識
装置は表示手段に表示された文字画像のうちから1文字
分の文字画像の表示領域を指定する文字指定手段によっ
て指定された文字画像に関して、検出手段において行に
おける位置および当該指定文字の表示領域の矩形形状を
検出し、前記文字指定手段によって指定された文字に関
して文字画像を標準文字画像に変換して前記検出手段に
よる検出結果とともに辞書メモリに登録するので、単に
標準文字画像と照合を行うだけでは、誤認識されるよう
な文字画像についても、正確な認識処理を行うことがで
きる。
As described above, according to the present invention, the character recognition device has the character designated by the character designating means for designating the display area of the character image of one character among the character images displayed on the display means. Regarding the image, the detecting means detects the position in the line and the rectangular shape of the display area of the designated character, converts the character image into the standard character image for the character designated by the character designating means, and detects the result together with the detection result by the detecting means. Since the character image is registered in the dictionary memory, it is possible to perform accurate recognition processing even for a character image that is erroneously recognized by simply matching with the standard character image.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例の全体の構成を示すブロック
図である。
FIG. 1 is a block diagram showing the overall configuration of an embodiment of the present invention.

【図2】本実施例の文字認識装置20を構成する具体的
装置を示す斜視図である。
FIG. 2 is a perspective view showing a specific device that constitutes the character recognition device 20 of the present embodiment.

【図3】認識用辞書の作成手順を示す図である。FIG. 3 is a diagram showing a procedure for creating a recognition dictionary.

【図4】図3で示したRAM4および辞書メモリ6内に
作成された登録辞書16の具体的な構成を示す図であ
る。
4 is a diagram showing a specific configuration of a registration dictionary 16 created in a RAM 4 and a dictionary memory 6 shown in FIG.

【図5】本実施例の文字認識装置20が登録辞書16を
作成する際の動作を示すフローチャートである。
FIG. 5 is a flowchart showing an operation when the character recognition device 20 of the present embodiment creates a registration dictionary 16.

【図6】入力部7において読取った原稿18と、表示部
11の画像処理画面内に表示される元画像の一例を示す
図である。
6 is a diagram showing an example of a document 18 read by an input unit 7 and an original image displayed in an image processing screen of a display unit 11. FIG.

【符号の説明】[Explanation of symbols]

1 認識部 5 CPU(中央処理装置) 6 辞書メモリ 7 入力部 9 文字認識専用プロセッサ 11 表示部 12 キーボード 20 文字認識装置 1 Recognition Unit 5 CPU (Central Processing Unit) 6 Dictionary Memory 7 Input Unit 9 Character Recognition Processor 11 Display Unit 12 Keyboard 20 Character Recognition Device

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 予め定める認識対象文字の標準文字画像
が記憶されている辞書メモリと、 複数の文字が一方向に配列されて構成される行が少なく
とも1行表示された原稿を画像として読取る読取手段
と、 前記辞書メモリを参照して、前記読取手段からの文字画
像を文字として認識する認識手段とを備える文字認識装
置において、 読取手段からの文字画像を表示する表示手段と、 表示手段に表示された文字画像のうちから1文字の文字
画像の表示領域を指定する文字指定手段と、 前記文字指定手段によって指定された文字画像に関し
て、行における位置および当該指定文字の表示領域の矩
形形状を検出する検出手段と、 前記文字指定手段によって指定された文字に関して、文
字画像を標準文字画像に変換して前記検出手段による検
出結果とともに前記辞書メモリに登録する登録手段とを
含むことを特徴とする文字認識装置。
1. A reading in which a dictionary memory in which a standard character image of a predetermined recognition target character is stored, and a document in which at least one line constituted by arranging a plurality of characters in one direction is displayed as an image A character recognition device that recognizes a character image from the reading unit as a character by referring to the dictionary memory, a display unit that displays the character image from the reading unit, and a display unit that displays the character image on the display unit. A character designating unit that designates a display region of a character image of one character from the displayed character images; and a position in a line and a rectangular shape of the display region of the designated character with respect to the character image designated by the character designating unit. Detecting means for converting the character image into a standard character image for the character designated by the character designating means, and the detection result by the detecting means. A character recognizing device, characterized in that the character recognizing device includes a registration means for registering in the dictionary memory.
JP4173167A 1992-06-30 1992-06-30 Character recognition device Pending JPH0620094A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4173167A JPH0620094A (en) 1992-06-30 1992-06-30 Character recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4173167A JPH0620094A (en) 1992-06-30 1992-06-30 Character recognition device

Publications (1)

Publication Number Publication Date
JPH0620094A true JPH0620094A (en) 1994-01-28

Family

ID=15955347

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4173167A Pending JPH0620094A (en) 1992-06-30 1992-06-30 Character recognition device

Country Status (1)

Country Link
JP (1) JPH0620094A (en)

Similar Documents

Publication Publication Date Title
US5717794A (en) Document recognition method and system
JPS63155386A (en) Document data reader
JPH01253077A (en) Detection of string
US5265171A (en) Optical character reading apparatus for performing spelling check
US6947596B2 (en) Character recognition method, program and recording medium
EP1662362A1 (en) Desk top scanning with hand gestures recognition
JPH06103411A (en) Document reader
JPH0620094A (en) Character recognition device
JP3276555B2 (en) Format recognition device and character reader
JP2000076378A (en) Character recognizing method
JP2662404B2 (en) Dictionary creation method for optical character reader
JP2827227B2 (en) Character recognition method
JPH0757040A (en) Filing device provided with ocr
JP3077580B2 (en) Character reader
JP2023046687A (en) Information processing device, information processing method and program
JP2829186B2 (en) Optical character reader
JP2954218B2 (en) Image processing method and apparatus
JPH04288691A (en) Character recognition device
JP2002157550A (en) Device and method for recognizing character and recording medium
JPH06259594A (en) Method an device for processing optical read data
JPH07334611A (en) Display method for non-recognized character
JPH096910A (en) Document reader
JPH0757047A (en) Character segmentation system
JPS63155385A (en) Optical character reader
JPH05174179A (en) Document image processor