JP3484446B2 - Optical character recognition device - Google Patents

Optical character recognition device

Info

Publication number
JP3484446B2
JP3484446B2 JP30473196A JP30473196A JP3484446B2 JP 3484446 B2 JP3484446 B2 JP 3484446B2 JP 30473196 A JP30473196 A JP 30473196A JP 30473196 A JP30473196 A JP 30473196A JP 3484446 B2 JP3484446 B2 JP 3484446B2
Authority
JP
Japan
Prior art keywords
format
registered
character recognition
line frame
ruled line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP30473196A
Other languages
Japanese (ja)
Other versions
JPH10143605A (en
Inventor
和宏 竹原
陽二 岸田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP30473196A priority Critical patent/JP3484446B2/en
Publication of JPH10143605A publication Critical patent/JPH10143605A/en
Application granted granted Critical
Publication of JP3484446B2 publication Critical patent/JP3484446B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は光学文字認識装置に
係り、詳しくは、運転免許証や保険証、学生証などの一
般的な定型文書の登録及び認識を行う際に用いられる光
学文字認識装置の構成に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an optical character recognition device, and more particularly, to an optical character recognition device used for registering and recognizing general fixed form documents such as a driver's license, an insurance card, and a student ID card. Regarding the configuration of.

【0002】[0002]

【従来の技術】従来から、光学文字認識装置の一例とし
ては、特開平6−52156号公報で開示された文書処
理装置が知られており、この文書処理装置においては、
個人の属性に関する情報を示す文字が未記入のままの文
書、いわゆる見本文書を電子化したうえで登録してお
き、見本文書の画像から罫線枠及び罫線枠間の関係を抽
出した後、罫線枠内に記入されている項目名などの文字
を識別し、かつ、予め与えられた知識と照合したうえで
罫線枠部分及び識別した文字からなる見本文書の画像構
造を理解して自動的に文書の書式情報を登録することが
行われている。そして、入力文書の認識に際しても、登
録時と同様、文書処理装置内において入力文書の画像構
造を理解したうえで予め登録されていた見本文書のうち
のいずれであるかを判断した後、該当する見本文書の書
式情報に基づいた認識処理が実行されることになってい
る。
2. Description of the Related Art Conventionally, as an example of an optical character recognition device, a document processing device disclosed in Japanese Patent Application Laid-Open No. 6-52156 has been known. In this document processing device,
A document in which characters indicating information about personal attributes are left blank, a so-called sample document is digitized and registered, and the ruled line frame and the relationship between the ruled line frames are extracted from the image of the sample document. Characters such as item names written in are identified, and after checking against the given knowledge, the ruled line frame part and the image structure of the sample document consisting of the identified characters are understood and the Format information is being registered. When recognizing the input document, as in the case of registration, the image processing apparatus understands the image structure of the input document and determines which one of the sample documents has been registered in advance. A recognition process is to be executed based on the format information of the sample document.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、従来の
技術に係る文書処理装置には、見本文書を必要とするば
かりか、入力文書の画像構造を理解する機能を実現する
手段を備えている必要があり、さらには、入力文書の画
像構造を理解するのに多大な処理時間を要するため、使
い勝手が悪くて実用的でないという不都合があった。
However, the document processing apparatus according to the conventional technique needs not only the sample document but also the means for realizing the function of understanding the image structure of the input document. In addition, it takes a lot of processing time to understand the image structure of the input document, which is inconvenient and impractical.

【0004】本発明は、このような不都合に鑑みて創案
されたものであって、個人の属性に関する情報を示す文
字が記入済みの入力文書であっても登録及び認識が可能
であり、構成が大幅に簡略化されているとともに、処理
時間の短縮を実現することができる光学文字認識装置の
提供を目的としている。
The present invention was devised in view of such inconveniences, and even if it is an input document in which characters indicating information regarding personal attributes have been entered, registration and recognition are possible, and the configuration is It is an object of the present invention to provide an optical character recognition device that is significantly simplified and that can shorten the processing time.

【0005】[0005]

【課題を解決するための手段】本発明の請求項1に係る
光学文字認識装置は、入力文書を電子化する光電変換手
段と、電子化された入力文書の画像を記憶する画像記憶
手段と、入力文書の画像から罫線枠を抽出する罫線枠抽
出手段と、抽出された罫線枠の格子点の座標列を記憶す
る罫線枠座標列記憶手段と、罫線枠の格子点の座標列と
登録名や罫線枠で区切られた登録領域の属性、キーワー
ドなどの外部からの入力情報とで表される入力文書のフ
ォーマットを設定するフォーマット設定手段と、入力文
書のフォーマットが登録済みフォーマットのうちのいず
れかに該当するかを検索し判定するフォーマット検索/
判定手段と、登録済みフォーマットの数を記憶するフォ
ーマット登録数記憶手段とを備えた光学文字認識装置で
あって、登録モードの場合には、前記フォーマット検索
/判定手段は、前記フォーマット設定手段で設定された
フォーマットをフォーマット構造体登録領域に一次登録
し、この一次登録されたフォーマットと登録済みフォー
マットを順次比較し、フォーマット判定不可の場合に
は、前記フォーマット設定手段はさらに、類似フォーマ
ットと入力フォーマットとのキーワードによる比較を登
録済みのフォーマット全てについて繰り返し行い、登録
済み全フォーマットについて入力フォーマットが異なる
場合、入力文書のフォーマットを登録することを特徴と
する。 請求項2に係る光学文字認識装置は、請求項1に
記載されたものであって、類似フォーマットと入力フォ
ーマットとのキーワードの差異が無い場合、前記フォー
マット設定手段は差異が無いことを表示し、いずれか一
方のフォーマットの再設定を行なうことに特徴を有して
いる。
An optical character recognition apparatus according to claim 1 of the present invention comprises a photoelectric conversion means for digitizing an input document, an image storage means for storing an image of the digitized input document, A ruled line frame extracting means for extracting a ruled line frame from the image of the input document, a ruled line frame coordinate sequence storage means for storing a coordinate sequence of the extracted grid points of the ruled line frame, a coordinate sequence of grid points of the ruled line frame and a registered name. A format setting means for setting the format of the input document represented by the attributes of the registration area delimited by the ruled line frame and external input information such as keywords, and the format of the input document is one of the registered formats. Format search / Search to determine if applicable /
An optical character recognition device comprising a judgment means and a format registration number storage means for storing the number of registered formats , wherein the format search is performed in the registration mode.
/ The determination means is set by the format setting means
Primary registration of the format in the format structure registration area
This primary registered format and registered
When mats are compared sequentially and format judgment is not possible,
The format setting means further includes a similar former.
Input and keyword comparison between input formats
Repeat and register for all recorded formats
Input format is different for all formats
If you want to register the format of the input document,
To do. The optical character recognition device according to claim 2 is the optical character recognition device according to claim 1.
The same format and input
If there is no difference in the keywords from the format,
The mat setting means displays that there is no difference, and either
One of the features is to reset the format
There is.

【0006】請求項に係る光学文字認識装置は、入力
文書を電子化する光電変換手段と、電子化された入力文
書の画像を記憶する画像記憶手段と、入力文書の画像か
ら罫線枠を抽出する罫線枠抽出手段と、抽出された罫線
枠の格子点の座標列を記憶する罫線枠座標列記憶手段
と、罫線枠の格子点の座標列と登録名や罫線枠で区切ら
れた登録領域の属性、キーワードなどの外部からの入力
情報とで表される入力文書のフォーマットを設定するフ
ォーマット設定手段と、入力文書のフォーマットが登録
済みフォーマットのうちのいずれかに該当するかを検索
し判定するフォーマット検索/判定手段と、登録済みフ
ォーマットの数を記憶するフォーマット登録数記憶手段
とを備えた光学文字認識装置であって、認識モードの場
合には、前記フォーマット検索/判定手段は、前記フォ
ーマット設定手段で設定されたフォーマットをフォーマ
ット構造体登録領域に一次登録し、この一次登録された
フォーマットと登録済みフォーマットを順次比較し、フ
ォーマット判定不可の場合には、前記フォーマット設定
手段は、さらに類似フォーマットと入力フォーマットと
のキーワードによる比較を登録済みのフォーマット全て
について繰り返し行い、登録済みのフォーマットのうち
のいずれであるのかの判定が成功した場合、文字認識を
必要とする領域を認識することを特徴とする。
The optical character recognition device according to the third aspect of the present invention is an input device.
Photoelectric conversion means for digitizing documents and digitized input sentences
Image storage means for storing the image of the document and whether the image of the input document
Ruled line frame extraction means for extracting a ruled line frame from the extracted ruled line
Ruled line frame coordinate sequence storage means for storing a coordinate sequence of grid points of a frame
And the grid of coordinate points of the ruled line frame, separated by the registered name and ruled line frame.
Input from outside such as registered area attributes and keywords
A file that sets the format of the input document represented by information and
Format setting method and input document format are registered
Search for one of the supported formats
Format search / judgment means for judging
Format registration number storage means for storing the number of formats
Is an optical character recognition device equipped with
The format search / determination means,
Format the format set by the mat setting means.
The primary registration was made in the registration structure registration area, and this primary registration was performed.
Compare the format and the registered format one by one, and
If the format cannot be determined, set the above format.
The means are more similar to the input format
All formats registered for comparison by keywords
About the registered formats
If it succeeds in determining which of
The feature is that the necessary area is recognized.

【0007】請求項に係る光学文字認識装置は、入力
文書を電子化する光電変換手段と、電子化された入力文
書の画像を記憶する画像記憶手段と、入力文書の画像か
ら罫線枠を抽出する罫線枠抽出手段と、抽出された罫線
枠の格子点の座標列を記憶する罫線枠座標列記憶手段
と、罫線枠の格子点の座標列と登録名や罫線枠で区切ら
れた登録領域の属性、キーワードなどの外部からの入力
情報とで表される入力文書のフォーマットを設定するフ
ォーマット設定手段と、入力文書のフォーマットが登録
済みフォーマットのうちのいずれかに該当するかを検索
し判定するフォーマット検索/判定手段と、登録済みフ
ォーマットの数を記憶するフォーマット登録数記憶手段
とを備えた光学文字認識装置であって、認識モードの場
合、フォーマット検索/判定手段は、前記フォーマット
設定手段で設定されたフォーマットをフォーマット構造
体登録領域に一次登録し、この一次登録されたフォーマ
ットと登録済みフォーマットを順次比較し、フォーマッ
ト判定不可の場合には、少なくともどちらか一方のフォ
ーマットにキーワードが登録されていない場合、キーワ
ードが登録されていないフォーマットに関する情報を表
示し、両方のフォーマットにキーワードが登録されてい
る場合には、文字認識を実行し、キーワード登録名と文
字認識結果を比較することを特徴とする。
The optical character recognition apparatus according to claim 4 is an input device
Photoelectric conversion means for digitizing documents and digitized input sentences
Image storage means for storing the image of the document and whether the image of the input document
Ruled line frame extraction means for extracting a ruled line frame from the extracted ruled line
Ruled line frame coordinate sequence storage means for storing a coordinate sequence of grid points of a frame
And the grid of coordinate points of the ruled line frame, separated by the registered name and ruled line frame.
Input from outside such as registered area attributes and keywords
A file that sets the format of the input document represented by information and
Format setting method and input document format are registered
Search for one of the supported formats
Format search / judgment means for judging
Format registration number storage means for storing the number of formats
Is an optical character recognition device equipped with
If the format search / determination means
Format the format set by the setting means
The primary registration is performed in the body registration area, and the primary registration is performed.
Format and the registered formats are sequentially compared, and the format is
If the result cannot be determined, at least one of the
If no keywords are registered in the mat,
Display information about formats that are not registered
Shows that keywords are registered in both formats.
Character recognition, the keyword registration name and
Characterized by comparing the character recognition results.

【0008】請求項に係る光学文字認識装置は、入力
文書を電子化する光電変換手段と、電子化された入力文
書の画像を記憶する画像記憶手段と、入力文書の画像か
ら罫線枠を抽出する罫線枠抽出手段と、抽出された罫線
枠の格子点の座標列を記憶する罫線枠座標列記憶手段
と、罫線枠の格子点の座標列と登録名や罫線枠で区切ら
れた登録領域の属性、キーワードなどの外部からの入力
情報とで表される入力文書のフォーマットを設定するフ
ォーマット設定手段と、入力文書のフォーマットが登録
済みフォーマットのうちのいずれかに該当するかを検索
し判定するフォーマット検索/判定手段と、登録済みフ
ォーマットの数を記憶するフォーマット登録数記憶手段
とを備えた光学文字認識装置であって、外部から指示さ
れた登録領域の属性と文字認識結果との関係をチェック
し、文字認識結果が不適切であることを外部に対して指
示する認識結果チェック手段と、入力情報に基づいた高
速認識を実行するか、あるいはまた、通常速度での認識
を実行したうえで入力情報に対応した文字認識結果が得
られたか否かを認識結果チェック手段で行なわせるかを
利用者が選択する認識モード選択手段を備えたことを特
徴とする。
The optical character recognition apparatus according to claim 5 is an input device.
Photoelectric conversion means for digitizing documents and digitized input sentences
Image storage means for storing the image of the document and whether the image of the input document
Ruled line frame extraction means for extracting a ruled line frame from the extracted ruled line
Ruled line frame coordinate sequence storage means for storing a coordinate sequence of grid points of a frame
And the grid of coordinate points of the ruled line frame, separated by the registered name and ruled line frame.
Input from outside such as registered area attributes and keywords
A file that sets the format of the input document represented by information and
Format setting method and input document format are registered
Search for one of the supported formats
Format search / judgment means for judging
Format registration number storage means for storing the number of formats
An optical character recognition device equipped with
Check the relation between the attribute of the registered area and the character recognition result
However, if the character recognition result is incorrect,
The recognition result check means to show and the high level based on the input information.
Perform fast recognition or, alternatively, recognize at normal speed
Then, the character recognition result corresponding to the input information is obtained.
Whether the recognition result check means determines whether or not
It is equipped with a recognition mode selection means that the user selects.
To collect.

【0009】請求項6に係る光学文字認識装置は、請求
項1ないし請求項5のいずれかに記載されたものであっ
て、フォーマット検索/判定手段は、入力文書のフォー
マットが登録済みフォーマットのいずれに該当するかの
判定が不可となった要因を外部に対して指示させる機能
を有していることを特徴とする。 請求項7に係る光学文
字認識装置は、請求項1ないし請求項6のいずれかに記
載のものであって、フォーマット検索/判定手段は、入
力文書のフォーマットが該当する登録済みフォーマット
の登録名を外部に対して指示させる機能を有しているこ
とを特徴とする。
The optical character recognition device according to claim 6
According to any one of claims 1 to 5,
Format search / judgment means
Which of the registered formats does Matt have?
A function to instruct the outside of the factors that made the judgment impossible
It is characterized by having. Optical sentence according to claim 7
The character recognition device is described in any one of claims 1 to 6.
The format search / determination means
Registered format corresponding to the document format
Has a function to let the outside know the registered name of
And are characterized.

【0010】請求項8に係る光学文字認識装置は、請求
項3ないし請求項7のいずれかに記載されたものであっ
て、入力文書のフォーマットが登録済みフォーマットの
いずれに該当するかを外部からの指示に基づいて指定す
るフォーマット指定手段と、指摘された登録済みフォー
マットに基づく文字認識の実行を指示するフォーマット
検索/判定手段とを備えていることを特徴とする。 請求
項9に係る光学文字認識装置は、請求項8記載に記載さ
れたものであって、フォーマット検索/判定手段は、フ
ォーマット指定手段で指定されたフォーマットの登録名
を外部に対して指示させる機能を有していることを特徴
とする。
An optical character recognizing device according to claim 8 claims
According to any one of claims 3 to 7,
The input document format is registered
Specify which is applicable based on instructions from the outside
Format specification method and the registered registered file
A format that directs the execution of matte-based character recognition
It is characterized in that it comprises a search / determination means. Claim
The optical character recognition device according to item 9 is described in item 8.
The format search / determination means is
Registered name of the format specified by the format specification method
It has a function to instruct the outside to
And

【0011】[0011]

【発明の実施の形態】以下、本発明の実施の形態を図面
に基づいて説明する。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below with reference to the drawings.

【0012】図1は本実施の形態に係る光学文字認識装
置の構成を示すブロック図であり、本実施の形態に係る
光学文字認識装置は運転免許証などのような定型文書の
登録及び認識を行う際に用いられるものである。
FIG. 1 is a block diagram showing the configuration of the optical character recognition device according to the present embodiment. The optical character recognition device according to the present embodiment is for registering and recognizing a fixed form document such as a driver's license. It is used when performing.

【0013】光学文字認識装置は、図1で示すように、
登録/認識モード切替手段1と、光電変換手段2と、一
時記憶領域であるRAM3と、データ記憶装置であるハ
ードディスク4と、罫線枠抽出手段である罫線枠読取手
段5と、フォーマット設定手段6とともに、フォーマッ
ト指定手段7と、フォーマット検索/判定手段8と、文
字認識手段9と、文字認識結果処理手段10と、文字認
識手順指定手段である認識モード選択手段11と、認識
結果チェック手段12と、認識/単語辞書13と、外部
への情報表示手段であるディスプレイ14と、外部から
の情報入力手段であるキーボード15及びマウス16と
を備えており、これらの各種手段同士はバス17を介し
たうえで互いに接続されている。そして、RAM3に
は、光電変換手段2で電子化された入力文書の画像を一
時記憶するための画像記憶手段である文書画像格納領域
3aと、罫線枠読取手段5で読み取られた罫線枠の格子
点の座標列(以下、罫線枠座標列という)を一時記憶す
るための罫線枠座標列記憶手段である罫線枠座標列格納
領域3bとが設けられている。
The optical character recognition device, as shown in FIG.
Along with registration / recognition mode switching means 1, photoelectric conversion means 2, RAM 3 as a temporary storage area, hard disk 4 as a data storage device, ruled line frame reading means 5 as ruled line frame extraction means, and format setting means 6. , A format designation means 7, a format search / determination means 8, a character recognition means 9, a character recognition result processing means 10, a recognition mode selection means 11 which is a character recognition procedure designation means, a recognition result check means 12, It comprises a recognition / word dictionary 13, a display 14 which is a means for displaying information to the outside, and a keyboard 15 and a mouse 16 which are means for inputting information from the outside. These various means are connected via a bus 17. Are connected to each other. Then, in the RAM 3, a document image storage area 3a, which is an image storage unit for temporarily storing the image of the input document digitized by the photoelectric conversion unit 2, and a grid of ruled line frames read by the ruled line frame reading unit 5. There is provided a ruled line frame coordinate sequence storage area 3b which is a ruled line coordinate sequence storage means for temporarily storing a coordinate sequence of points (hereinafter referred to as a ruled line coordinate sequence).

【0014】また、この際におけるハードディスク4に
は、RAM3の罫線枠座標列格納領域3bに格納された
罫線枠座標列と、登録名や罫線枠で区切られた登録領域
の属性、キーワードなどの利用者によって外部から与え
られる入力情報とが登録されるフォーマット内容登録手
段としてのフォーマット構造体登録領域4aと、このフ
ォーマット構造体登録領域4aに登録されたフォーマッ
トの数を記憶するフォーマット登録数記憶手段であると
ころのフォーマット登録数記憶領域4bと、認識結果/
画像格納領域4cとが設けられている。
At this time, the hard disk 4 uses the ruled line frame coordinate sequence stored in the ruled line frame coordinate sequence storage area 3b of the RAM 3, the registered name and the attributes and keywords of the registered region delimited by the ruled line frame. A format structure registration area 4a as a format content registration means for registering input information given from the outside by a person and a format registration number storage means for storing the number of formats registered in the format structure registration area 4a. A certain number of format registration number storage area 4b and the recognition result /
An image storage area 4c is provided.

【0015】ところで、光学文字認識装置を構成する各
種手段のそれぞれは、以下のようなものとなっている。
すなわち、登録/認識モード切替手段1は、利用者が光
学文字認識装置を入力文書の登録モードで使用するか認
識モードで使用するかを決定するためのブロックであ
り、具体的には切替スイッチなどである。そして、光電
変換手段2は、入力文書を光学的に読み込んで電子化し
たうえ、電子化された入力文書の画像をRAM3の文書
画像格納領域3aに送って格納させるものであり、罫線
枠読取手段5は、文書画像格納領域3aに格納された入
力文書の画像から罫線枠を抽出して読み取ったうえ、読
み取った罫線枠座標列を罫線枠座標列格納領域3bに格
納して記憶させるブロックである。
By the way, each of the various means constituting the optical character recognition device is as follows.
That is, the registration / recognition mode switching means 1 is a block for the user to determine whether to use the optical character recognition device in the input document registration mode or in the recognition mode, and specifically, a changeover switch or the like. Is. The photoelectric conversion unit 2 optically reads the input document and digitizes it, and then sends the digitized image of the input document to the document image storage area 3a of the RAM 3 to store the image. Reference numeral 5 is a block for extracting and reading a ruled line frame from the image of the input document stored in the document image storage area 3a, and storing the read ruled line frame coordinate sequence in the ruled line frame coordinate sequence storage region 3b for storage. .

【0016】また、フォーマット設定手段6は、RAM
3の罫線枠座標列格納領域3bに格納された罫線枠座標
列と、登録名や罫線枠で区切られた登録領域の属性、キ
ーワードなどの利用者によって外部から与えられる入力
情報とをハードディスク4のフォーマット構造体登録領
域4aに登録して格納させるブロックであり、登録モー
ド時にのみ作動することになっている。そして、このフ
ォーマット設定手段6は、入力文書のフォーマットに付
される登録名が登録済みフォーマットの登録名に該当す
るか否かを判定し、登録済みフォーマットの登録名に該
当しない登録名のフォーマットのみをフォーマット構造
体登録領域4aに対して登録する機能と、キーボード1
5やマウス16を用いて外部から指示された入力情報を
登録する機能とを有しているとともに、入力文書のフォ
ーマットを登録済みフォーマットと区別するキーワード
が必要であるか否かを判定したうえで必要なキーワード
の入力を外部に指示する機能を有している。
The format setting means 6 is a RAM.
The ruled line frame coordinate sequence stored in the ruled line frame coordinate sequence storage region 3b of No. 3 and the input information externally given by the user such as the registered name and the attributes of the registered region delimited by the ruled line frame, and the keyword of the hard disk 4. It is a block that is registered and stored in the format structure registration area 4a, and is to be operated only in the registration mode. Then, the format setting means 6 determines whether or not the registered name given to the format of the input document corresponds to the registered name of the registered format, and only the format of the registered name that does not correspond to the registered name of the registered format. Function for registering the format structure registration area 4a with the keyboard 1
5 and the function of registering input information instructed from the outside by using the mouse 16 and determining whether or not a keyword for distinguishing the input document format from the registered format is necessary. It has the function of instructing the outside to input the necessary keywords.

【0017】さらに、フォーマット指定手段7は入力文
書のフォーマットがフォーマット構造体登録領域4aに
登録済みのフォーマットのうちのいずれに該当するかを
利用者が外部から指示して指定するためのブロックであ
る一方、フォーマット検索/判定部8は、入力文書のフ
ォーマットが直接指定されたときは該当する登録済みフ
ォーマットを検索し、また、指定されなかったときは登
録済みフォーマットのいずれに該当するかを自動的に検
索したうえで判定するブロックであり、フォーマット指
定手段7及びフォーマット検索/判定部8は認識モード
時のみ作動することになっている。なお、このフォーマ
ット検索/判定部8による登録済みフォーマットの検索
は、罫線枠座標列格納領域3bに格納された罫線枠座標
列が同じであることを基準として行われることになって
おり、罫線枠座標列で判定できない場合には、文字認識
手段9を動作させたうえでのキーワードに基づく判定も
実行される。そして、フォーマット検索/判定部8は、
入力文書のフォーマットが登録済みフォーマットのいず
れに該当するかの判定が不可となった要因、例えばキー
ワードの未入力などをディスプレイ14上の表示でもっ
て外部に対して指示させる機能と、入力文書のフォーマ
ットが該当する登録済みフォーマットの登録名を外部に
対して指示させる機能とを有している。
Further, the format designating means 7 is a block for a user to externally designate and designate which of the formats registered in the format structure registration area 4a the format of the input document corresponds to. On the other hand, the format search / judgment unit 8 searches for a corresponding registered format when the format of the input document is directly specified, and automatically selects which of the registered formats when not specified. The format designating unit 7 and the format search / determination unit 8 operate only in the recognition mode. The format search / determination unit 8 searches for registered formats based on the fact that the ruled line frame coordinate sequence stored in the ruled line frame coordinate sequence storage area 3b is the same. If the coordinate sequence cannot be determined, the character recognition means 9 is operated and the determination based on the keyword is also executed. Then, the format search / determination unit 8
A factor that makes it impossible to determine which of the registered formats the input document format corresponds to, for example, a function of instructing the outside with a display on the display 14 of a keyword not input, and an input document format. Has a function of causing the outside to instruct the registered name of the corresponding registered format.

【0018】一方、文字認識手段9は文字認識を実行す
るためのブロックであり、フォーマット検索/判定部8
からの指示に基づいて文字認識手段9で実行された文字
認識の結果は文字認識結果処理手段10によって処理さ
れたうえ、ハードディスク4の認識結果/画像格納領域
4cに格納して保存されることになっている。なお、こ
の際における文字認識結果は、ディスプレイ14上に表
示されることになっており、キーボード15やマウス1
6を用いたうえでの利用者による文字認識結果の修正な
ども文字認識結果処理手段10によって処理される。そ
して、認識モード選択手段11は、外部から指示された
登録領域の属性に基づく文字認識手段9での文字認識の
実行手順を指定するブロックであり、入力情報に基づい
た高速認識を実行するか、あるいはまた、通常速度での
認識を実行したうえで入力情報に対応した文字認識結果
が得られたか否かを認識結果チェック手段12で行わせ
るかを利用者が選択する際に用いられるものである。
On the other hand, the character recognition means 9 is a block for executing character recognition, and the format search / determination unit 8
The result of the character recognition executed by the character recognition means 9 based on the instruction from is processed by the character recognition result processing means 10, and then stored and saved in the recognition result / image storage area 4c of the hard disk 4. Has become. The character recognition result at this time is to be displayed on the display 14, and the keyboard 15 and the mouse 1
The correction of the character recognition result by the user using 6 is also processed by the character recognition result processing means 10. The recognition mode selection means 11 is a block for designating an execution procedure of the character recognition in the character recognition means 9 based on the attribute of the registration area designated from the outside, and executes the high-speed recognition based on the input information. Alternatively, it is used when the user selects whether or not the recognition result check means 12 should perform whether or not the character recognition result corresponding to the input information is obtained after executing the recognition at the normal speed. .

【0019】さらにまた、この認識結果チェック手段1
2は、外部から指示された登録領域の属性と文字認識結
果との関係をチェックし、文字認識結果が不適切である
場合には文字認識結果が不適切であることをディスプレ
イ14上の表示でもって外部に指示する機能を有してい
る。そして、認識/単語辞書13は文字認識手段9によ
る文字認識の実行時に用いられるブロックであり、以上
説明した文字認識手段9、フォーマット検索/判定部
8、文字認識結果処理手段10、認識モード選択手段1
1、認識結果チェック手段12、認識/単語辞書13の
それぞれは認識モード時にのみ作動することになってい
る。なお、ディスプレイ14は利用者が作業する際に必
要となる情報、例えば画像や罫線枠に関する情報などを
表示するものであり、フォーマット設定手段6や文字認
識結果処理手段10などによって利用されることになっ
ている。また、キーボード15やマウス16は利用者が
外部からの指示や情報を入力する場合に用いられるもの
であり、フォーマット設定手段5や文字認識結果処理手
段10において利用されている。
Furthermore, this recognition result checking means 1
2 checks the relationship between the attribute of the registration area designated from the outside and the character recognition result, and if the character recognition result is inappropriate, displays on the display 14 that the character recognition result is inappropriate. It has a function to give instructions to the outside. The recognition / word dictionary 13 is a block used when the character recognition unit 9 executes character recognition, and the character recognition unit 9, the format search / determination unit 8, the character recognition result processing unit 10, and the recognition mode selection unit described above are used. 1
1, the recognition result checking means 12, and the recognition / word dictionary 13 are to operate only in the recognition mode. The display 14 displays information necessary for the user to work, for example, information regarding images and ruled line frames, and is used by the format setting means 6 and the character recognition result processing means 10. Has become. The keyboard 15 and mouse 16 are used when the user inputs an instruction or information from the outside, and are used in the format setting means 5 and the character recognition result processing means 10.

【0020】図2(a)〜(d)の各々は本実施の形態
に係る光学文字認識装置において登録及び認識される入
力文書の書式例を示す説明図であり、この際の入力文書
としては運転免許証などが一般的である。まず、これら
の書式例における「氏名」,「生年月日」,「住所」の
文字が記載された領域は予め印刷済みの領域であり、
「(写真)」の文字が記載された領域は写真などが貼付
される領域である一方、「氏名」,「生年月日」,「住
所」が記載された領域の右側に位置する領域に記載され
た文字列は4つの書式例ごとに異なっている。
2A to 2D are explanatory views showing a format example of an input document registered and recognized by the optical character recognition apparatus according to the present embodiment, and as the input document at this time, A driver's license is common. First, the areas in which the characters “name”, “date of birth”, and “address” are described in these format examples are areas that have been printed in advance,
The area with the text "(photo)" is the area where the photo is pasted, while the area on the right side of the area with "name", "date of birth", and "address" is described. The generated character string is different for each of the four format examples.

【0021】そして、光電変換後における入力文書それ
ぞれの画像はRAM3の文書画像格納領域3a内におけ
る左上隅側に寄せて格納されることになっており、図2
中に記入された(0,0)などの座標点は文書画像格納領
域3a内における左上隅位置を原点とした際の座標位置
を示している。なお、図2(a)と(d)とでは座標点
が少し異なっているが、このような座標点の相違は電子
化に伴う誤差であるに過ぎず、これら2つの入力文書は
同じフォーマットを有している。そこで、この際におい
ては、図2(a)及び(d)の入力文書が同じフォーマ
ットであり、図2(b)及び(c)で示された入力文書
のそれぞれは図2(a)及び(d)と異なるフォーマッ
トを有していることになる。
The images of the respective input documents after photoelectric conversion are stored near the upper left corner in the document image storage area 3a of the RAM 3, as shown in FIG.
Coordinate points such as (0, 0) entered therein indicate coordinate positions when the upper left corner position in the document image storage area 3a is the origin. 2A and 2D, the coordinate points are slightly different, but such a difference in coordinate points is merely an error due to digitization, and these two input documents have the same format. Have Therefore, in this case, the input documents shown in FIGS. 2A and 2D have the same format, and the input documents shown in FIGS. 2B and 2C respectively have the same format as FIGS. It will have a different format than d).

【0022】図3は本実施の形態に係る光学文字認識装
置の登録モード時における動作手順を示すフローチャー
トであり、以下、図3に基づいて登録モード時の動作手
順を説明する。
FIG. 3 is a flow chart showing the operation procedure in the registration mode of the optical character recognition device according to the present embodiment. The operation procedure in the registration mode will be described below with reference to FIG.

【0023】まず、最初に、登録/認識モード切替手段
1を用いたうえで登録モードであることが利用者によっ
て設定され(ステップ3−1)、光電変換手段2に対し
て入力された登録用文書が2値化によって電子化された
後、電子化された入力文書の画像がRAM3の文書画像
格納領域3aに格納される(ステップ3−2)。つぎ
に、文書画像格納領域3aに格納された入力文書の画像
から罫線枠を読み取ることを、罫線枠手段5が実行す
る。なお、ここでは、画像処理において直線を求める際
のハフ変換が利用されており、縦横方向の罫線を求めた
うえで両方向の罫線の論理和を得ることによって罫線枠
を算出している。
First, the user sets the registration mode by using the registration / recognition mode switching means 1 (step 3-1), and the registration input is made to the photoelectric conversion means 2. After the document is digitized by binarization, the digitized image of the input document is stored in the document image storage area 3a of the RAM 3 (step 3-2). Next, the ruled line frame means 5 executes reading the ruled line frame from the image of the input document stored in the document image storage area 3a. Note that, here, the Hough transform is used in obtaining a straight line in image processing, and the ruled line frame is calculated by obtaining the logical sum of the ruled lines in both directions after obtaining the ruled lines in the vertical and horizontal directions.

【0024】そして、読み取られた罫線枠は、罫線枠座
標列として表されたうえでRAM3の罫線枠座標列格納
領域3bに格納される(ステップ3−3)。つまり、こ
の際における罫線枠座標列の順序は上側にある座標優
先、かつ、同一行では左側の座標優先とされており、図
2(a)の文書画像における罫線枠座標列は、(0,
0)、(30,0)、(50,0)、(120,0)、(30,1
0)、(50,10)、(120,10)、(30,20)、(50,2
0)、(120,20)、(0,30)、(30,30)、(50,3
0)、(120,30)というような長さ14の罫線枠座標列
として表されることになる。
Then, the read ruled line frame is represented as a ruled line frame coordinate sequence and stored in the ruled line frame coordinate sequence storage area 3b of the RAM 3 (step 3-3). That is, the order of the ruled line frame coordinate sequence at this time is the coordinate on the upper side and the coordinate on the left side in the same row, and the ruled line frame coordinate sequence in the document image in FIG. 2A is (0,
0), (30,0), (50,0), (120,0), (30,1
0), (50,10), (120,10), (30,20), (50,2)
0), (120,20), (0,30), (30,30), (50,3
It is represented as a ruled line frame coordinate sequence of length 14 such as 0) and (120, 30).

【0025】引き続き、フォーマット設定手段6を用い
たうえで入力文書のフォーマットを設定することが利用
者によって行われた後、設定されたフォーマットはハー
ドディスク4のフォーマット構造体登録領域4aに登録
される(ステップ3−4)。すなわち、ここでのフォー
マットとは入力文書に対して付加される情報の構造体を
意味しており、ステップ3−3で求められた罫線枠座標
列とともに、登録名や罫線枠で区切られた登録領域の属
性、キーワードなどのような外部からの入力情報を含ん
でいる。なお、フォーマット設定動作の詳しい手順につ
いては、図4に基づいて後述する。そして、入力文書の
フォーマット設定が終了した後、さらに登録すべき入力
文書があるか否かに基づく処理終了の判断をしたうえ
(ステップ3−5)、登録すべき入力文書があればステ
ップ3−2へと戻ることになり、登録すべき入力文書が
なければ登録モードに従った処理を終了する。
Subsequently, after the user sets the format of the input document by using the format setting means 6, the set format is registered in the format structure registration area 4a of the hard disk 4 ( Step 3-4). That is, the format here means a structure of information added to the input document, and together with the ruled line frame coordinate sequence obtained in step 3-3, the registration name or the registration separated by the ruled line frame. It contains external input information such as area attributes and keywords. The detailed procedure of the format setting operation will be described later with reference to FIG. Then, after the format setting of the input document is completed, it is judged whether or not there is an input document to be further registered (step 3-5), and if there is an input document to be registered, the step 3 is carried out. The process returns to step 2, and if there is no input document to be registered, the process according to the registration mode ends.

【0026】図4は入力文書のフォーマット設定時にお
ける動作手順を示すフローチャートであり、光学文字認
識装置の登録モード時における入力文書のフォーマット
設定(ステップ3−4)では以下のような手順に従った
動作が行われる。
FIG. 4 is a flow chart showing the operation procedure when setting the format of the input document. In the format setting of the input document (step 3-4) in the registration mode of the optical character recognition device, the following procedure is followed. The action is taken.

【0027】まず、利用者によってフォーマットの登録
名(以下、ラベルともいう)が設定される(ステップ4
−1)。なお、ここでの登録名またはラベルとは入力文
書が何の文書であるかを示す表示であり、「運転免許
証」や「○○大学学生証」といった類いである。そし
て、フォーマット設定手段5では、登録済みフォーマッ
トのラベルと重複するラベルの登録を拒否することと
し、キーボード15やマウス16を用いて外部から指示
されたラベルがハードディスク4のフォーマット構造体
登録領域4aにおける登録済みフォーマットのラベルと
重複している場合にはディスプレイ14上に表示するこ
とによって利用者に異なるラベルを入力するよう促すこ
とが行われる。また、利用者がラベルを入力しやすいよ
うディスプレイ14上に登録済みフォーマットのラベル
を一覧的に表示させることも実行されている。
First, a user sets a registered name (hereinafter also referred to as a label) of the format (step 4).
-1). The registered name or label here is a display indicating what document the input document is, such as "driver's license" or "XX university student card". Then, the format setting means 5 rejects the registration of the label which overlaps with the label of the registered format, and the label designated from the outside by using the keyboard 15 or the mouse 16 is stored in the format structure registration area 4a of the hard disk 4. If it overlaps with the label of the registered format, it is displayed on the display 14 to prompt the user to input a different label. Also, a list of labels in registered formats is displayed on the display 14 so that the user can easily input the labels.

【0028】つぎに、罫線枠座標列の修正/登録が実行
されることになり、ここでは、RAM3の罫線枠座標列
格納領域3bに一時記憶されている罫線枠座標列を利用
しながら罫線枠画像を作成し、かつ、ディスプレイ14
上に表示された罫線枠画像を視認しながら利用者がキー
ボード15やマウス16を用いて罫線枠座標列を修正し
たうえ、修正された罫線枠座標列をハードディスク4の
フォーマット構造体登録領域4aに対して登録すること
が行われる(ステップ4−2)。引き続き、罫線枠で分
割されている長方形の小領域である登録領域として表さ
れるフィールドのそれぞれに対して登録領域の属性が設
定/登録されることになり、RAM3の罫線枠座標列格
納領域3b内に一時記憶されている罫線枠座標列から抽
出したフィールドの座標及び数を利用したうえで利用者
が各フィールドについての属性登録を実行する。
Next, the correction / registration of the ruled line frame coordinate sequence will be executed. Here, the ruled line frame coordinate sequence temporarily stored in the ruled line frame coordinate sequence storage area 3b of the RAM 3 is used while utilizing the ruled line frame coordinate sequence. Create an image and display 14
While visually checking the ruled line frame image displayed above, the user corrects the ruled line frame coordinate sequence using the keyboard 15 or the mouse 16, and the corrected ruled line frame coordinate sequence is stored in the format structure registration area 4a of the hard disk 4. The registration is performed for that (step 4-2). Subsequently, the attribute of the registration area is set / registered for each of the fields represented as the registration area, which is a rectangular small area divided by the ruled line frame, and the ruled line frame coordinate sequence storage area 3b of the RAM 3 is set. The user executes the attribute registration for each field by using the coordinates and the number of fields extracted from the ruled line coordinate sequence temporarily stored therein.

【0029】そして、この際における処理の流れとして
は、まず、フィールド数カウンタCNを初期化(CN=
0)した後(ステップ4−3)、フィールド数ANのフ
ィールドに対して属性を設定/登録することが繰り返し
て行われる(ステップ4−4からステップ4−6)。な
お、属性が設定/登録されるフィールドは順不同であ
り、この際におけるフィールドの座標は、左上座標及び
右下座標が自動的に登録され、かつ、左下座標及び右上
座標が左上座標及び右下座標から計算で求められた後、
ディスプレイ14上の表示によって現フィールドの属性
登録を促された利用者がキーボード15やマウス16を
用いて属性を設定することが行われる。ところで、フィ
ールドの属性とは、文字登録領域と、画像登録領域と、
その他の登録領域との相違を示すための基準を意味して
おり、文字登録領域については「住所」,「氏名」,
「生年月日」などの詳しい属性が設定される。
As the flow of processing at this time, first, the field number counter CN is initialized (CN =
After 0) (step 4-3), attribute setting / registration is repeatedly performed for the field of the number AN of fields (step 4-4 to step 4-6). Note that the fields for which attributes are set / registered are in no particular order, and the coordinates of the fields at this time are the upper left coordinates and the lower right coordinates that are automatically registered, and the lower left coordinates and the upper right coordinates are the upper left coordinates and the lower right coordinates. After being calculated from
The user prompted to register the attribute of the current field by the display on the display 14 sets the attribute using the keyboard 15 or the mouse 16. By the way, the attributes of a field are a character registration area, an image registration area,
It means the standard to show the difference from other registration areas. For the character registration area, "address", "name",
Detailed attributes such as "date of birth" are set.

【0030】さらに、フィールド数カウンタCNがフィ
ールド数AN以上になると、各フィールドに対する属性
の設定/登録が終了したことになり、キーワードを登録
するか否かが選択された後(ステップ4−7)、利用者
がキーワード登録を選択した際には引き続いてキーワー
ドの登録が実行される(ステップ4−8)。なお、キー
ワードとは、類似の罫線枠をもった入力文書の画像であ
っても1つのフィールドを認識することによって区別可
能とするために設定されるものである。すなわち、第2
図(a)の入力文書と図2(c)の入力文書とを登録し
た場合、両者は同じ罫線枠座標のフォーマットを有して
おり、これだけでは判別が不可能となるので、このよう
な不都合を回避すべくキーワードが登録されるのであ
る。
Further, when the field number counter CN becomes equal to or more than the field number AN, it means that the setting / registration of the attribute for each field is completed, and it is selected whether or not to register the keyword (step 4-7). When the user selects the keyword registration, the keyword registration is subsequently executed (step 4-8). The keyword is set so that even an image of an input document having a similar ruled line frame can be distinguished by recognizing one field. That is, the second
When the input document shown in FIG. 2A and the input document shown in FIG. 2C are registered, both have the same format of ruled line frame coordinates, and the determination cannot be made by this alone. Keywords are registered in order to avoid.

【0031】そして、キーワードの登録時には、単語を
登録しておくキーワード名登録と、キーワードの属性を
登録しておくキーワード属性登録とが採用されており、
キーワード名登録においては、図2(a)中の左上座標
(30,0)と右下座標(50,10)との間の領域には「氏
名」という単語が記載されていると登録される一方、図
2(c)中の左上座標(30,0)と右下座標(50,10)
との間の領域には「生年月日」という単語が記載されて
いることが登録される。また、キーワード属性登録で
は、図2(a)の左上座標(50,0)と右下座標(120,
10)との間の頼域が「氏名」の属性であると登録し、図
2(c)の左上座標(50,0)と右下座標(120,10)と
の間の領域が「生年月日」の属性であるとして登録する
ことが行われる。さらに、キーワード登録が実行された
後もしくはステップ4−7でキーワードを登録しないこ
とが選択された場合には、入力文書のフォーマット設定
に関わる処理が終了する。
At the time of registering a keyword, a keyword name registration for registering a word and a keyword attribute registration for registering a keyword attribute are adopted.
In the keyword name registration, it is registered that the word "name" is described in the area between the upper left coordinates (30,0) and the lower right coordinates (50,10) in FIG. 2 (a). On the other hand, upper left coordinates (30,0) and lower right coordinates (50,10) in Fig. 2 (c).
It is registered that the word "birth date" is described in the area between and. Further, in keyword attribute registration, the upper left coordinates (50, 0) and the lower right coordinates (120,
The area between the upper left coordinates (50,0) and the lower right coordinates (120,10) in Fig. 2 (c) is registered as the "year of birth". It is registered as an attribute of "month day". Further, after the keyword registration is executed or when it is selected not to register the keyword in step 4-7, the process relating to the format setting of the input document is finished.

【0032】図5はハードディスク4のフォーマット構
造体登録領域4aに登録された入力文書のフォーマット
を例示する説明図であり、このフォーマットは図4で示
したフローチャートの動作手順にしたがって設定された
うえ、図3で示したフローチャートのステップ3−4で
フォーマット構造体登録領域4aに対して登録されたフ
ォーマットの一例である。
FIG. 5 is an explanatory diagram illustrating the format of the input document registered in the format structure registration area 4a of the hard disk 4. This format is set according to the operation procedure of the flowchart shown in FIG. 4 is an example of a format registered in the format structure registration area 4a in step 3-4 of the flowchart shown in FIG.

【0033】この際におけるフォーマットは入力文書に
対して付加される各種情報の構造体であり、最初の32
バイト分の領域5aがステップ4−1で設定されるラベ
ル用として確保され、つぎの2バイト分の領域5bがス
テップ4−2でもって登録される罫線枠座標列の長さ用
として確保されたうえ、4バイト分ずつで罫線枠座標列
用となる領域5cが罫線枠座標列の長さ分だけ確保され
ている。そして、これらの領域5cでは、先頭側の2バ
イト分がX座標用、残りの2バイト分がY座標用となっ
ている。引き続いては、フィールドの総数を示す2バイ
ト分の領域5dが確保されており、この領域5dには文
字登録領域または画像登録領域のいずれかに対して登録
されたフィールドの総数を示す数値が収納されている。
なお、この際、文字登録にも画像登録にも使われないフ
ィールドは省かれている。
The format at this time is a structure of various information added to the input document, and the first 32
An area 5a for bytes is reserved for the label set in step 4-1 and an area 5b for the next 2 bytes is reserved for the length of the ruled line frame coordinate sequence registered in step 4-2. In addition, the area 5c for the ruled line frame coordinate sequence is secured for each 4 bytes by the length of the ruled line coordinate sequence. Then, in these areas 5c, the first 2 bytes are for the X coordinate and the remaining 2 bytes are for the Y coordinate. Subsequently, a 2-byte area 5d indicating the total number of fields is secured, and a numerical value indicating the total number of fields registered in either the character registration area or the image registration area is stored in this area 5d. Has been done.
At this time, fields that are not used for character registration or image registration are omitted.

【0034】さらに、ステップ4−3及び4−4で設定
されるフィールドそれぞれの座標及び属性を示す10バ
イト分ずつ複数の領域5eがフィールドの総数に対応し
た分だけ確保されており、各領域5eにおける2バイト
分ずつのそれぞれは左上座標(X座標)用、左上座標
(Y座標)用、右下座標(X座標)用、右下座標(Y座
標)用及びフィールド属性用となっている。なお、フィ
ールド属性用である2バイト分には、文字登録領域また
は画像登録領域のいずれかであるか、そして、文字登録
領域であれば「氏名」であるか「住所」であるかなどを
示す数値が収納されることになる。引き続き、キーワー
ド登録の有無を示す2バイト分の領域5fが確保されて
おり、キーワード登録がある場合には、キーワード属性
を示す2バイト分の領域5gと、キーワード名を示す3
2バイト分の領域5hとがそれぞれ確保されているとと
もに、キーワードの座標を示す2バイト分ずつの領域5
iが確保されている。
Further, a plurality of areas 5e of 10 bytes each indicating the coordinates and attributes of each field set in steps 4-3 and 4-4 are secured by the number corresponding to the total number of fields. 2 bytes each are used for upper left coordinate (X coordinate), upper left coordinate (Y coordinate), lower right coordinate (X coordinate), lower right coordinate (Y coordinate), and field attribute. The 2 bytes for the field attribute indicate whether it is a character registration area or an image registration area, and if it is a character registration area, it is "name" or "address". Numerical values will be stored. Subsequently, a 2-byte area 5f indicating the presence / absence of keyword registration is secured, and when there is keyword registration, a 2-byte area 5g indicating a keyword attribute and 3 indicating a keyword name.
An area 5h for 2 bytes is secured respectively, and an area 5 for each 2 bytes showing the coordinates of the keyword.
i is secured.

【0035】そして、この際の領域5iにおける2バイ
ト分ずつのそれぞれは、左上座標(X座標)用、左上座
標(Y座標)用、右下座標(X座標)用、右下座標(Y
座標)用及びフィールド属性用となっている。なお、キ
ーワード登録がない場合の領域5fには0の数値が収納
される一方、キーワード登録がある場合の領域5fには
1の数値が収納されることになり、キーワード属性が登
録された場合は領域5gに対してキーワード属性を示す
数値が収納されることになる。また、キーワード名が登
録された場合のキーワード属性を示す領域5gには意味
をなさない数値が収納されることになり、領域5hに対
してはキーワード名が収納される。したがって、図2
(a)で示した入力文書の書式例の登録名を「○○大学
学生証」とし、かつ、左上座標(30,0)と右下座標(5
0,10)との間の「氏名」と書かれた領域をキーワード
名=「氏名」として登録した場合には、以下に示すよう
なフォーマットが得られることになる。
In this case, each of 2 bytes in the area 5i is for upper left coordinate (X coordinate), upper left coordinate (Y coordinate), lower right coordinate (X coordinate), lower right coordinate (Y
Coordinates) and field attributes. It should be noted that while a numerical value of 0 is stored in the area 5f when there is no keyword registration, a numerical value of 1 is stored in the area 5f when there is keyword registration. Numerical values indicating keyword attributes are stored in the area 5g. Further, a meaningless numerical value is stored in the area 5g indicating the keyword attribute when the keyword name is registered, and the keyword name is stored in the area 5h. Therefore, FIG.
The registered name in the format example of the input document shown in (a) is "XX University Student ID Card", and the upper left coordinates (30,0) and lower right coordinates (5
If the area written as “name” between 0 and 10) is registered as keyword name = “name”, the following format will be obtained.

【0036】 ==== 登録名(32byte) ○○大学学生証 座標列長さ(2byte) 14 座標(4×14byte) (0,0)、(30,0)、(50,0)、(120,0)、(30,10) (50,10)、(120,10)、(30,20)、(50,20)、(120,20) (0,30)、(30,30)、(50,30)、(120,30) 登録数(2byte) 4 1番目(10byte) (0,0)、(30,30)…画像登録を表す数値 2番目(10byte) (50,0)、(120,10)…「氏名」を表す数値 3番目(10byte) (50,10)、(120,20)…「生年月日」を表す数値 4番目(10byte) (50,20)、(120,30)…「住所」を表す数値 キーワード有無(2byte) 1 属性(2byte) 属性に割り当てられていない数値 キーワード名(32byte) 氏名 座標(4×2byte) (30,0)、(50,10) ==== 図6は本実施の形態に係る光学文字認識装置の認識モー
ド時における動作手順を示すフローチャートであり、以
下、図6に基づいて認識モード時の動作手順を説明す
る。
==== Registered Name (32byte) ○○ University Student ID Coordinate Sequence Length (2byte) 14 Coordinates (4 × 14byte) (0,0), (30,0), (50,0), ( 120,0), (30,10) (50,10), (120,10), (30,20), (50,20), (120,20) (0,30), (30,30) , (50,30), (120,30) Number of registrations (2byte) 4 1st (10byte) (0,0), (30,30) ... Numerical value representing image registration 2nd (10byte) (50,0) , (120,10)… 3rd numerical value representing “name” (10byte) (50,10), (120,20)… 4th numerical value representing “date of birth” (10byte) (50,20), ( 120, 30)… Presence / absence of numeric keyword indicating “address” (2byte) 1 attribute (2byte) Numeric keyword name not assigned to attribute (32byte) Name coordinate (4 × 2byte) (30,0), (50,10) ) ==== FIG. 6 shows optical character recognition according to the present embodiment. A flow chart showing an operation procedure in the recognition mode of location, the following, an operation procedure at the time of recognition mode will be described with reference to FIG.

【0037】まず、登録/認識モード切替手段1を用い
たうえで認識モードであることが利用者によって設定さ
れた後(ステップ6−1)、利用者がフォーマットを指
定する際にはキーボード15またはマウス16を用いた
うえで外部から指示されたラベルの登録済みフォーマッ
トがフォーマット指定手段7によって直接的に設定され
る(ステップ6−2)。そして、認識モード選択手段1
1でもって認識モードを利用者が選択することにより、
入力情報に基づいた高速認識を実行する高速モードか、
通常速度での認識を実行したうえで入力情報に対応した
文字入力結果が得られたか否かをチェックするチェック
モードかが外部からの指示に基づいて選択される(ステ
ップ6−3)。その後、光電変換手段2に対して入力さ
れた登録用文書が2値化して電子化された後、電子化さ
れた入力文書の画像がRAM3の文書画像格納領域3a
に対して格納される(ステップ6−4)。
First, after the user has set the recognition mode using the registration / recognition mode switching means 1 (step 6-1), when the user specifies the format, the keyboard 15 or The registered format of the label designated from the outside by using the mouse 16 is directly set by the format designation means 7 (step 6-2). And the recognition mode selection means 1
When the user selects the recognition mode with 1,
A high-speed mode that executes high-speed recognition based on input information,
A check mode for checking whether or not a character input result corresponding to the input information is obtained after performing recognition at the normal speed is selected based on an instruction from the outside (step 6-3). After that, the registration document input to the photoelectric conversion unit 2 is binarized and digitized, and the image of the digitized input document is stored in the document image storage area 3a of the RAM 3.
(Step 6-4).

【0038】つぎに、文書画像格納領域3aに格納され
た入力文書の画像から罫線枠を読み取ることが実行さ
れ、読み取られた罫線枠は罫線枠座標列としたうえでR
AM3の罫線枠座標列格納領域3bに対して格納される
(ステップ6−5)。そして、フォーマットの指定があ
るか否かが判定されることになり(ステップ6−6)、
ステップ6−2でフォーマットが指定されている場合に
は、フォーマット検索/判定手段8が指定された登録済
みフォーマットを検索して特定したうえ、指定された登
録済みフォーマットを文字認識手段9へと送ることが行
われる(ステップ6−7)。また、フォーマットが指定
されていない場合のフォーマット検索/判定手段8は、
罫線枠座標列格納領域3bによって一時記憶されている
フォーマットが登録済みフォーマットのうちのいずれに
該当するかを検索したうえで判定することを行う(ステ
ップ6−8)。なお、罫線枠座標列のみによるフォーマ
ットの判定が不可の場合にはキーワードの認識も実行さ
れることになるが、フォーマット判定動作についての詳
しい説明は図7及び図8に基づいて後述する。
Next, the ruled line frame is read from the image of the input document stored in the document image storage area 3a, and the read ruled line frame is converted into a ruled line frame coordinate sequence and then R
It is stored in the ruled line frame coordinate sequence storage area 3b of AM3 (step 6-5). Then, it is determined whether or not the format is designated (step 6-6),
If the format is designated in step 6-2, the format search / determination means 8 searches for and identifies the designated registered format, and then sends the designated registered format to the character recognition means 9. Is performed (steps 6-7). Further, the format search / determination means 8 when the format is not specified is
A determination is made after searching which of the registered formats corresponds to the format temporarily stored in the ruled line frame coordinate sequence storage area 3b (step 6-8). It should be noted that when the format determination based on only the ruled line frame coordinate sequence is not possible, the keyword recognition is also executed, but a detailed description of the format determination operation will be given later with reference to FIGS. 7 and 8.

【0039】そして、フォーマットの判定が成功したか
否かがステップ6−9でもって判定された後、判定が失
敗である場合には、フォーマットを指定し直したうえで
ステップ6−7に戻って文字認識を続行するか、認識モ
ードでの処理を終了するかが利用者によって判断される
(ステップ6−10)。また、フォーマットの判定が成
功した場合には、外部からの指示に基づいてフォーマッ
トを直接的に指定することが実行された場合(ステップ
6−7)と同じく、判定もしくは指定されたフォーマッ
トに基づく文字認識が文字認識手段9によって実行され
ることになる。なお、文字認識の実行に先立っては、高
速モードまたはチェックモードのいずれがステップ6−
3において選択されているかによって動作が異なり(ス
テップ6−11)、高速モードである場合には判定もし
くは指定されたフォーマットに基づく文字認識が文字認
識手段9によって実行される(ステップ6−12)一
方、チェックモードが選択されている場合には文字認識
手段9による通常速度での文字認識が実行されたうえ、
認識結果チェック手段12によって入力情報に対応した
文字認識結果が得られたか否かがチェックされる(ステ
ップ6−13)。
Then, after it is determined in step 6-9 whether or not the format determination is successful, if the determination is unsuccessful, the format is redesignated and the process returns to step 6-7. The user determines whether to continue the character recognition or to end the processing in the recognition mode (step 6-10). If the format determination is successful, the character based on the determined or designated format is used as in the case where the format is directly designated based on the instruction from the outside (step 6-7). The recognition will be executed by the character recognition means 9. Prior to executing the character recognition, whether the high speed mode or the check mode is in step 6-
The operation differs depending on whether it is selected in step 3 (step 6-11). In the high speed mode, character recognition based on the determined or designated format is executed by the character recognition means 9 (step 6-12). When the check mode is selected, the character recognition means 9 performs character recognition at normal speed, and
The recognition result checking means 12 checks whether or not a character recognition result corresponding to the input information has been obtained (step 6-13).

【0040】すなわち、この際における文字認識では、
判定もしくは指定されたフォーマットの文字認識を必要
とする領域に対応する入力画像の登録領域を算出したう
え、この入力画像の登録鎖域内を文字認識することが行
われており、高速モードの場合には登録領域の属性に即
した文字認識、例えば、「氏名」の属性を持つフィール
ドでは認識/単語辞書13の算用数字や記号などを使用
しない文字認識が実行される一方、チェックモードの場
合には登録領域の属性と関係のない文字認識、例えば、
「氏名」の属性を持つフィールドであっても認識/単語
辞書13の算用数字や記号などを含む辞書すべてを使用
しながらの文字認識が実行されることになる。そして、
チェックモードの場合には、引き続いて文字認識結果と
フィールドの属性とを認識結果チェック手段12に転送
したうえ、この認識結果チェック手段12において文字
認識結果とフィールドの属性との間に矛盾が生じている
か否かをチェックすることが行われる。なお、このチェ
ックにおいては、例えば、「氏名」の属性を持つフィー
ルドの文字認識結果に算用数字や記号などが存在してい
れば文字認識結果が信用できないなどという判断がなさ
れる。そして、文字認識結果が信用できないとの判断が
なされた場合には、文字認識結果とともに信用できない
旨が文字認識結果処理手段10に対して転送される。
That is, in the character recognition at this time,
After calculating the registration area of the input image corresponding to the area that requires character recognition in the determined or specified format, character recognition is performed in the registration chain area of this input image. Is a character recognition according to the attribute of the registration area, for example, in the field having the attribute of "name", the recognition / character recognition without using the arithmetic digits or symbols of the word dictionary 13 is executed, while in the check mode. Is character recognition unrelated to the attributes of the registration area, for example,
Even in the field having the attribute of "name", the character recognition is executed while using all the dictionaries of the recognition / word dictionary 13 including the numerals and symbols. And
In the check mode, the character recognition result and the field attribute are subsequently transferred to the recognition result checking means 12, and the recognition result checking means 12 causes a contradiction between the character recognition result and the field attribute. Checking is done. Note that, in this check, for example, it is determined that the character recognition result cannot be trusted if the numeral recognition character or the symbol exists in the character recognition result of the field having the attribute of "name". If it is determined that the character recognition result is untrustworthy, the fact that the character recognition result is untrustworthy is transferred to the character recognition result processing means 10 together with the character recognition result.

【0041】さらに、引き続き、文字認識結果処理手段
10においては文字認識結果を処理することが行われて
おり、ディスプレイ14上に表示された文字認識結果を
視認しながらの利用者による文字認識結果の修正などが
キーボード15やマウス16を用いたうえで実行される
(ステップ6−14)。なお、文字認識結果が信用でき
ないとの判断がなされたフィールドでは反転表示などに
よって利用者の注意が喚起されており、修正された文字
認識結果はハードディスク4の認識結果/画像格納領域
4cに格納して保存される。ところで、この際における
フィールドの属性が画像登録領域である場合には、指定
もしくは判定された登録済みフォーマットから算出され
た画像登録領域に基づいたうえ、その画像登録領域内の
画像が認識結果/画像格納領域4cによって保存される
ことになる。そして、以上のような認識処理が終了する
と、さらに認識すべき入力文書があるか否かに基づく処
理終了の判断が行われることになり(ステップ6−1
5)、認識すべき入力文書があればステップ6−4へと
戻ることになり、なければ認識モードに従った処理を終
了する。
Further, subsequently, the character recognition result processing means 10 processes the character recognition result, and the user recognizes the character recognition result displayed on the display 14 while viewing the character recognition result. Correction and the like are executed using the keyboard 15 and the mouse 16 (step 6-14). In the field where it is determined that the character recognition result is unreliable, the user's attention is called by the reverse display and the corrected character recognition result is stored in the recognition result / image storage area 4c of the hard disk 4. Saved. By the way, when the attribute of the field at this time is the image registration area, the image in the image registration area is based on the image registration area calculated from the specified or determined registered format, and the image in the image registration area is the recognition result / image. It will be saved by the storage area 4c. Then, when the recognition process as described above is completed, it is determined whether or not there is an input document to be recognized (step 6-1).
5) If there is an input document to be recognized, the process returns to step 6-4, and if not, the process according to the recognition mode ends.

【0042】図7はフォーマット判定時の動作手順を示
すフローチャートであり、光学文字認識装置の認識モー
ド時におけるフォーマット判定(ステップ6−8)では
以下のような手順に従った動作が実行される。
FIG. 7 is a flow chart showing the operation procedure at the time of format judgment. In the format judgment (step 6-8) in the recognition mode of the optical character recognition device, the operation according to the following procedure is executed.

【0043】最初に、フォーマットカウンタCNを0と
し、距離値FD1,FD2を無限大とする初期化が行わ
れる(ステップ7−1)。なお、この際においては、登
録済みフォーマットの番号や登録済みフォーマットの数
を表すFN1,FN2の初期値を定めておく必要はな
く、フォーマット登録数記憶領域4bに保存されている
登録済みフォーマットの数を示すFNは1以上(FN≧
1)とされている。つぎに、RAM3の罫線枠座標列格
納領域3bに一時記憶されている罫線枠座標列とCN番
目のフォーマットの罫線枠座標列との距離dis(CN)
を求める(ステップ7−2)。ところで、この際におけ
る距離の算出方法としては時系列のデータの距離を求め
る際のDP−マッチング(動的計画法)が利用されてお
り、各座標間の距離は絶対値差距離を用いて表されると
ともに、数ドット程度の誤差は吸収するものとしてい
る。したがって、図2の入力文書に適用した際、図2
(a),(c),(d)のそれぞれで示された書式例の
罫線枠座標列は全て同じであって距離が0となる一方、
図2(b)で示された書式例の罫線枠座標列の罫線枠座
標列のみが他とは異なり、距離が0ではないことになっ
ている。なお、距離の数値は、DP−マッチングの構成
の仕方に依存している。
First, initialization is performed by setting the format counter CN to 0 and setting the distance values FD1 and FD2 to infinity (step 7-1). In this case, it is not necessary to set the initial values of FN1 and FN2 indicating the number of registered formats and the number of registered formats, and the number of registered formats stored in the format registration number storage area 4b. Is 1 or more (FN ≧
1). Next, the distance dis (CN) between the ruled line frame coordinate sequence temporarily stored in the ruled line frame coordinate sequence storage area 3b of the RAM 3 and the ruled line frame coordinate sequence of the CNth format.
Is calculated (step 7-2). By the way, as a method of calculating the distance in this case, DP-matching (dynamic programming) for obtaining the distance of time-series data is used, and the distance between each coordinate is expressed by using the absolute value difference distance. At the same time, the error of several dots is absorbed. Therefore, when applied to the input document of FIG.
The ruled line frame coordinate sequences of the format examples shown in (a), (c), and (d) are all the same and the distance is 0, while
Unlike the others, only the ruled line frame coordinate sequence of the ruled line frame coordinate sequence of the format example shown in FIG. 2B is different from the others, and the distance is not zero. The numerical value of the distance depends on how the DP-matching is configured.

【0044】引き続き、FD1とdis(CN)とを比較
し(ステップ7−3)、FD1<dis(CN)ならばF
D2=FD1,FN2=FN1とし、FD1,FN1は
新たにFD1=dis(CN),FN1=CNと設定し直
すことを行う(ステップ7−4)。また、FD1<dis
(CN)でなければdis(CN)<FD2であるか否か
が判定されることになり(ステップ7−5)、dis(C
N)<FD2ならばFD2=dis(CN),FN2=C
Nと設定し直すことが行われる(ステップ7−6)。つ
ぎに、フォーマットカウンタCNの値を1だけ増加させ
て(ステップ7−7)CN≧ANになったか否かを判定
し(ステップ7−8)、CN≧ANになるまでステップ
7−2からステップ7−7の動作を繰り返した後、CN
≧ANになったと判定された場合には、FD1≠FD2
であるか否かが判定される(ステップ7−9)。そし
て、FD1≠FD2である場合には、FD1が最小値で
あってFD2が2番目に小さい値であるため、入力文書
のフォーマットはFD1番目の登録済みフォーマットに
最も近似しているとの判断が下されることになり、登録
済みフォーマットの番号としてFN1の値を文字認識手
段9に対して伝え、かつ、判定成功としてフォーマット
判定の処理を終了する(ステップ7−12)。
Subsequently, FD1 is compared with dis (CN) (step 7-3). If FD1 <dis (CN), F
D2 = FD1 and FN2 = FN1 are set, and FD1 and FN1 are newly set to FD1 = dis (CN) and FN1 = CN (step 7-4). Also, FD1 <dis
If it is not (CN), it is judged whether or not dis (CN) <FD2 (step 7-5), and dis (C).
If N) <FD2, then FD2 = dis (CN), FN2 = C
It is reset to N (step 7-6). Next, the value of the format counter CN is incremented by 1 (step 7-7), it is determined whether CN ≧ AN (step 7-8), and steps 7-2 to 7 are repeated until CN ≧ AN. After repeating 7-7, CN
If it is determined that ≧ AN, FD1 ≠ FD2
Is determined (step 7-9). When FD1 ≠ FD2, FD1 is the minimum value and FD2 is the second smallest value, so it is determined that the format of the input document is the closest to the FD1 registered format. As a result, the value of FN1 as the number of the registered format is transmitted to the character recognizing means 9, and the determination of the format is successful, and the format determination process is terminated (step 7-12).

【0045】一方、ステップ7−9でFD1=FD2と
判定された場合には、FD1番目の登録済みフォーマッ
トとFD2番目の登録済みフォーマットとの距離が等し
く、罫線枠座標列のみでは入力文書のフォーマットに最
も近似している登録済みフォーマットが何番目であるか
を特定できないため、キーワードを用いたうえでの判定
を行うことになる。そこで、引き続き、キーワードを用
いたうえでの判定、つまり、FD1番目及びFD2番目
のうちのいずれの登録済みフォーマットが入力文書のフ
ォーマットに近似しているかがキーワードを用いて判定
されることになり(ステップ7−10)、キーワードを
用いた判定が成功したか否かを判定したうえ(ステップ
7−11)、キーワードによる判定が成功した場合には
特定された登録済みフォーマットの番号を文字認識手段
9に伝えてフォーマット判定の処理を終了する(ステッ
プ7−12)。
On the other hand, when FD1 = FD2 is determined in step 7-9, the distance between the FD1th registered format and the FD2th registered format is equal, and the format of the input document is determined only by the ruled line frame coordinate sequence. Since it is not possible to specify the registered format that most closely resembles the above, the determination is performed using the keyword. Therefore, subsequently, it is determined using a keyword, that is, which of the FD1st and FD2th registered formats is close to the format of the input document is determined using the keyword ( In step 7-10), it is determined whether or not the determination using the keyword is successful (step 7-11). If the determination using the keyword is successful, the number of the specified registered format is used as the character recognizing means 9 Then, the format determination process is terminated (step 7-12).

【0046】また、ステップ7−11によってキーワー
ドを用いた判定が失敗したと判定された場合には、キー
ワードによる判定が失敗したことをディスプレイ14上
に表示したうえでフォーマット判定の処理を終了する
(ステップ7−13)。なお、キーワード判定時の動作
については、図8に基づいて後述する。ところで、本実
施の形態ではFD1=FD2の際にキーワード判定を実
行するとしているが、予め所要の閾値THを設定してお
いたうえ、FD2の値から閾値THを差し引いた値より
もFD1の値が大きい(FD1>FD2−TH)場合に
のみキーワード判定を実行することも考えられる。ま
た、本実施の形態では、入力文書のフォーマットにおけ
る罫線枠座標列と最小距離をなす2つの登録済みフォー
マットのうちから近似したフォーマットを求めるとして
いるが、より多くの登録済みフォーマットのうちから近
似したものを求めるような拡張を行うことも可能であ
る。
If it is determined in step 7-11 that the determination using the keyword has failed, the fact that the determination using the keyword has failed is displayed on the display 14 and the format determination processing ends (( Steps 7-13). The operation at the time of keyword determination will be described later with reference to FIG. By the way, in the present embodiment, the keyword determination is executed when FD1 = FD2. However, the required threshold value TH is set in advance, and the value of FD1 is smaller than the value obtained by subtracting the threshold value TH from the value of FD2. It is also conceivable to execute the keyword determination only when is large (FD1> FD2-TH). Further, in the present embodiment, the approximate format is obtained from the two registered formats that form the minimum distance from the ruled line frame coordinate sequence in the format of the input document, but the approximate format is obtained from the more registered formats. It is also possible to make an extension that asks for something.

【0047】図8はキーワード判定時の動作手順を示す
フローチャートであり、このキーワード判定は罫線枠座
標列のみによってフォーマット判定を行うことができな
い際に採用されることになっている。
FIG. 8 is a flow chart showing the operation procedure at the time of keyword determination, and this keyword determination is adopted when the format determination cannot be performed only by the ruled line frame coordinate sequence.

【0048】最初に、FN1番目及びFN2番目両方の
フォーマットについてキーワードが登録されているか否
かを判定する(ステップ8−1)。そして、少なくとも
どちらか一方のフォーマットにキーワードが登録されて
いなければ、キーワードが未登録であるフォーマットの
番号や登録名などをディスプレイ14上に表示すること
により、利用者に対してキーワード判定が失敗したこと
を知らせる(ステップ8−5)。また、両方のフォーマ
ットにキーワードが登録されている場合には、キーワー
ドの座標で囲われた文書画像格納領域3aの画像に対す
る文字認識が文字認識手段9によって実行されたうえ、
両方のフォーマットに関する文字認識結果がフォーマッ
ト検索/判定手段9に送られる(ステップ8−2)。つ
ぎに、両方の認識結果に基づき、どちらか一方のみが正
解であるか否かが判定される(ステップ8−3)。な
お、この判定においては、図4のステップ4−8で行わ
れたキーワードの登録がキーワード登録名で実行されて
いる際にはキーワード登録名と文字認識結果とが等しい
ことによって正解とし、キーワード属性登録が実行され
ている際には文字認識結果の適否が認識結果チェック手
段12でもってチェックされたうえ、適切であれば正解
とすることが行われる。
First, it is determined whether or not keywords have been registered for both the FN first format and the FN second format (step 8-1). If the keyword is not registered in at least one of the formats, the number of the format in which the keyword is not registered, the registered name, etc. are displayed on the display 14, and the keyword determination fails for the user. Notify that (step 8-5). If keywords are registered in both formats, the character recognition means 9 executes character recognition for the image in the document image storage area 3a surrounded by the coordinates of the keywords, and
The character recognition results for both formats are sent to the format search / determination means 9 (step 8-2). Next, based on both recognition results, it is determined whether only one of them is the correct answer (step 8-3). Note that in this determination, when the keyword registration performed in step 4-8 of FIG. 4 is executed with the keyword registration name, the keyword registration name and the character recognition result are the same, and thus the correct answer is obtained, and the keyword attribute is set. When the registration is being performed, the recognition result check means 12 checks whether or not the character recognition result is appropriate, and if the result is correct, it is determined as a correct answer.

【0049】そして、どちらか一方のみが正解であれば
判定は成功したことになり、正解した登録済みフォーマ
ットの番号を文宇認識手段9に伝えたうえで処理を終了
する(ステップ8−4)。また、どちらもが正解でない
場合には、「どちら(FN1及びFN2)の登録済みフ
ォーマットも不正解」というような内容をディスプレイ
14上に表示し、利用者に対してキーワード判定が失敗
したことを知らせる(ステップ8−5)。なお、この実
施の形態では1つのキーワードだけが登録されるとして
いるが、複数のキーワードを登録しておいてもよいこと
は勿論であり、また、少なくとも一方の登録済みフォー
マットにおけるキーワード登録名と文字認識結果とが等
しいという条件が厳し過ぎるならば、文字認識結果がキ
ーワード登録名により近似しているかという条件に基づ
く判定を行うことも可能である。
If only one of them is correct, the judgment is successful, the number of the correct registered format is transmitted to the sentence recognition means 9 and the process is terminated (step 8-4). . If neither is the correct answer, a message such as “wrong answer of registered format of either (FN1 and FN2)” is displayed on the display 14 to inform the user that the keyword determination has failed. Notify (step 8-5). Although only one keyword is registered in this embodiment, it goes without saying that a plurality of keywords may be registered, and the keyword registration name and character in at least one of the registered formats may be registered. If the condition that the recognition result is equal is too strict, it is also possible to make the determination based on the condition that the character recognition result is closer to the keyword registration name.

【0050】ところで、以上説明した入力文書の登録及
び認識の具体例を、図2によって示すと以下のようにな
る。まず、図2(a),(b)が登録された際、キーワ
ードが登録されていなくても、認識時における図2
(d)は図2(a)と同じであると判定される。しか
し、図2(a),(c)がキーワード登録なしで登録さ
れた際、認識時の罫線枠座標列による判定では図2
(d)が図2(a),(c)と同じと判定されることに
なり、キーワードが登録がされていないので、キーワー
ドが必要である旨のメッセージがディスプレイ14上に
表示されることになる。また、図2(a),(c)にお
いて、図2(a)では左上座標(30,0)及び右下座標
(50,10)の領域内に「氏名」という単語が書かれてい
ると登録し、かつ、図2(c)では左上座標(30,0)
及び右下座標(50,10)の領域内に「生年月日」という
単語が書かれていると登録することを行うと、図2
(d)はキーワード判定によって図2(a)と同じフォ
ーマットであると判定されることになる。
By the way, a specific example of the registration and recognition of the input document described above is shown in FIG. 2 as follows. First, when FIGS. 2A and 2B are registered, even if no keyword is registered, FIG.
It is determined that (d) is the same as FIG. 2 (a). However, when FIGS. 2A and 2C are registered without keyword registration, the determination based on the ruled line coordinate sequence at the time of recognition is performed as shown in FIG.
2D will be determined to be the same as FIGS. 2A and 2C, and since the keyword is not registered, a message indicating that the keyword is required is displayed on the display 14. Become. 2 (a) and 2 (c), in FIG. 2 (a), the word "name" is written in the area of the upper left coordinates (30,0) and the lower right coordinates (50,10). Registered, and in Fig. 2 (c), the upper left coordinate (30,0)
If you register that the word "date of birth" is written in the area of the lower right coordinates (50,10),
(D) is determined to have the same format as that of FIG. 2 (a) by the keyword determination.

【0051】つぎに、本実施の形態に係る光学文字認識
装置を発展させた変形例を、図9に基づいて説明する。
すなわち、以上説明した光学文字認識装置においては、
類似した罫線枠を有する入力文書のフォーマットを判定
するためにキーワードを用いており、キーワード登録が
不備であることを認識時に知らせるとしていたが、この
変形例はキーワード登録が不備の際には登録時に知らせ
る機能を有していることを特徴とするものである。な
お、この変形例に係る光学文字認識装置の構成は実施の
形態と基本的に同一であるから、ここでの詳しい説明は
省略する。
Next, a modified example in which the optical character recognition device according to the present embodiment is developed will be described with reference to FIG.
That is, in the optical character recognition device described above,
A keyword is used to determine the format of an input document having a similar ruled line frame, and it was notified that the keyword registration was inadequate at the time of recognition. It is characterized by having a notification function. Since the configuration of the optical character recognition device according to this modification is basically the same as that of the embodiment, detailed description thereof will be omitted here.

【0052】図9は変形例に係る光学文字認識装置の登
録モード時における動作手順を示すフローチャートであ
り、以下、入力文書(用紙1枚分)のフォーマット登録
を行う際の手順を説明する。なお、図9中で使用されて
いる記号CNはカウンタであり、ANはハードディスク
4のフォーマット登録数記憶領域4bに保存されている
登録済みフォーマットの登録数を示している。
FIG. 9 is a flow chart showing the operation procedure in the registration mode of the optical character recognition apparatus according to the modification. The procedure for registering the format of the input document (one sheet) will be described below. Note that the symbol CN used in FIG. 9 is a counter, and AN indicates the number of registered registered formats stored in the format registration number storage area 4b of the hard disk 4.

【0053】まず、最初に、利用者が外部からフォーマ
ット設定手段6を介したうえで現在登録中の入力文書に
対するフォーマットを設定することが行われる(ステッ
プ9−1)。なお、フォーマット設定の動作手順は、実
施の形態と全く同じである。そこで、設定されたフォー
マットはフォーマット構造体登録領域4aに一時登録さ
れることになるが、フォーマット登録数記憶領域4bに
おける登録済みフォーマットの登録数は増加していない
こととなる。そして、この際、フォーマット検索/判定
手段8では、新たに一時登録されたフォーマットと、こ
れ以外のフォーマットとを区別することが行われてい
る。つぎに、カウンタCN=0の初期化が実行され(ス
テップ9−2)、かつ、CN≧ANであるか否かの判定
が行われた後(ステップ9−3)、CN≧ANでなけれ
ば現在登録中のフォーマットとCN番目のフォーマット
とが異なっているか否かが判定される(ステップ9−
4)。なお、この際における判定は、罫線枠座標列が違
っているか、つまり、DP−マッチングによる距離が0
でないか、また、距離が0である場合にはキーワードが
異なっているかに基づいて行われることになっており、
その詳しい手順は実施の形態の場合と同じである。
First, the user externally sets the format for the currently registered input document through the format setting means 6 (step 9-1). The operation procedure of the format setting is exactly the same as that of the embodiment. Therefore, the set format will be temporarily registered in the format structure registration area 4a, but the number of registered formats registered in the format registration number storage area 4b will not increase. At this time, the format search / determination means 8 distinguishes between the newly temporarily registered format and other formats. Next, after initialization of the counter CN = 0 is executed (step 9-2) and it is judged whether or not CN ≧ AN (step 9-3), if CN ≧ AN is not satisfied. It is determined whether or not the currently registered format is different from the CNth format (step 9-
4). Note that the determination at this time is whether the ruled line frame coordinate sequence is different, that is, the distance by DP-matching is 0.
Or if the distance is 0, it is supposed to be based on whether the keywords are different,
The detailed procedure is the same as in the embodiment.

【0054】そして、ステップ9−4でフォーマットが
異なっていると判定された際には、カウンタCNの値を
1だけ増加させたうえ(ステップ9−5)、つぎの登録
済みフォーマットと比較することが繰り返して実行され
ることになり、現在登録中のフォーマットとCN番目の
フォーマットとの差異を発見できなければステップ9−
1へと進んだうえ、実施の形態におけると同様、ディス
プレイ14上に差異が発見できない旨を表示する。そこ
で、利用者は、新たなフォーマットとCN番目のフォー
マットとの両方、あるいは、いずれか一方についてのフ
ォーマット設定を再度行うことになる。さらにまた、登
録済みフォーマットの全てと異なるフォーマットである
と判定された場合には、ステップ9−3からステップ9
−6へと進むことになり、一時登録中のフォーマットを
実際に登録してしまうことが行われる。その結果、登録
済みフォーマットの登録数も1だけ増加することにな
り、登録処理が終了する。
When it is determined in step 9-4 that the formats are different, the value of the counter CN is incremented by 1 (step 9-5) and compared with the next registered format. Will be repeatedly executed, and if a difference between the currently registered format and the CNth format cannot be found, step 9-
After proceeding to step 1, the fact that no difference can be found is displayed on the display 14 as in the embodiment. Therefore, the user will again set the format for both the new format and the CNth format, or for either one. Furthermore, if it is determined that the format is different from all the registered formats, the steps 9-3 to 9
As the process proceeds to -6, the format being temporarily registered is actually registered. As a result, the number of registered formats also increases by 1, and the registration process ends.

【0055】[0055]

【発明の効果】以上説明したように、本発明の請求項1
に係る光学文字認識装置によれば、見本文書を必要とせ
ず、また、入力文書の構造を理解する必要もなくなるの
で、個人の属性に関する情報を示す文字が記入済みの入
力文書であっても登録及び認識が可能であり、構成が大
幅に簡略化されているとともに、処理時間の短縮を実現
でき、さらには、罫線枠座標列のみでは判定が不可とな
る際にもキーワードによって確実な判定が行えることに
なる。
As described above, according to the first aspect of the present invention.
According to the optical character recognizing device of the present invention, since the sample document is not required and the structure of the input document is not required to be understood, even if the input document in which the characters indicating the information regarding the personal attributes are written is registered. And the recognition is possible, the configuration is greatly simplified, and the processing time is shortened.
Yes, moreover, the judgment cannot be made only with the ruled line coordinate sequence.
When making a decision, it is possible to make a reliable judgment using keywords.
Become.

【0056】また、請求項の構成によれば、該当する
フォーマットの判定が不可となる要因が利用者に対して
示されることとなり、請求項の構成によれば、利用者
の指定によって登録済みフォーマットのうちから該当す
るフォーマットを選択しうる。
Further, according to the configuration of claim 6 , the factor indicating that the corresponding format cannot be determined is indicated to the user, and according to the configuration of claim 8 , the registration is performed by the user's designation. A corresponding format can be selected from the already-used formats.

【0057】[0057]

【図面の簡単な説明】[Brief description of drawings]

【図1】本実施の形態に係る光学文字認識装置の構成を
示すブロック図である。
FIG. 1 is a block diagram showing a configuration of an optical character recognition device according to an embodiment.

【図2】本実施の形態に係る光学文字認識装置において
登録及び認識される入力文書の書式例を示す説明図であ
る。
FIG. 2 is an explanatory diagram showing a format example of an input document registered and recognized in the optical character recognition device according to the present embodiment.

【図3】本実施の形態に係る光学文字認識装置の登録モ
ード時における動作手順を示すフローチャートである。
FIG. 3 is a flowchart showing an operation procedure in the registration mode of the optical character recognition device according to the present embodiment.

【図4】フォーマット設定時における動作手順を示すフ
ローチャートである。
FIG. 4 is a flowchart showing an operation procedure when setting a format.

【図5】フォーマット構造体登録領域に登録された入力
文書のフォーマットを例示する説明図である。
FIG. 5 is an explanatory diagram illustrating a format of an input document registered in a format structure registration area.

【図6】本実施の形態に係る光学文字認識装置の認識モ
ード時における動作手順を示すフローチャートである。
FIG. 6 is a flowchart showing an operation procedure in the recognition mode of the optical character recognition device according to the present embodiment.

【図7】フォーマット判定時の動作手順を示すフローチ
ャートである。
FIG. 7 is a flowchart showing an operation procedure at the time of format determination.

【図8】キーワード判定時の動作手順を示すフローチャ
ートである。
FIG. 8 is a flowchart showing an operation procedure at the time of keyword determination.

【図9】変形例に係る光学文字認識装置の登録モード時
における動作手順を示すフローチャートである。
FIG. 9 is a flowchart showing an operation procedure in the registration mode of the optical character recognition device in the modified example.

【符号の説明】[Explanation of symbols]

2 光電変換手段 3a 文書画像格納領域(画像記憶手段) 3b 罫線枠座標列格納領域(罫線枠座標列記憶手段) 4a フォーマット構造体登録領域(フォーマット内容
登録手段) 4b フォーマット登録数記憶領域(フォーマット登録
数記憶手段) 5 罫線枠読取手段(罫線枠抽出手段) 6 フォーマット設定手段 7 フォーマット指定手段 8 フォーマット検索/判定手段 9 文字認識手段 10 文字認識結果処理手段 11 認識モード選択手段(文字認識手順指定手段) 12 認識結果チェック手段
2 photoelectric conversion means 3a document image storage area (image storage means) 3b ruled line frame coordinate sequence storage area (ruled frame coordinate sequence storage means) 4a format structure registration area (format content registration means) 4b format registration number storage area (format registration Number storage means 5 Ruled line frame reading means (ruled line frame extraction means) 6 Format setting means 7 Format designating means 8 Format search / determination means 9 Character recognition means 10 Character recognition result processing means 11 Recognition mode selection means (Character recognition procedure designating means) ) 12 Recognition result check means

フロントページの続き (56)参考文献 特開 平7−152859(JP,A) 特開 平7−114616(JP,A) 特開 平3−268084(JP,A) 特開 平7−282193(JP,A) 特開 昭61−54575(JP,A) 特開 昭63−155386(JP,A) 特開 平4−23185(JP,A) 特開 平8−221510(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06K 9/00 - 9/82 Continuation of the front page (56) Reference JP-A-7-152859 (JP, A) JP-A-7-114616 (JP, A) JP-A-3-268084 (JP, A) JP-A-7-282193 (JP , A) JP 61-54575 (JP, A) JP 63-155386 (JP, A) JP 4-23185 (JP, A) JP 8-221510 (JP, A) (58) Fields investigated (Int.Cl. 7 , DB name) G06K 9/00-9/82

Claims (9)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 入力文書を電子化する光電変換手段と、
電子化された入力文書の画像を記憶する画像記憶手段
と、入力文書の画像から罫線枠を抽出する罫線枠抽出手
段と、抽出された罫線枠の格子点の座標列を記憶する罫
線枠座標列記憶手段と、罫線枠の格子点の座標列と登録
名や罫線枠で区切られた登録領域の属性、キーワードな
どの外部からの入力情報とで表される入力文書のフォー
マットを設定するフォーマット設定手段と、入力文書の
フォーマットが登録済みフォーマットのうちのいずれか
に該当するかを検索し判定するフォーマット検索/判定
手段と、登録済みフォーマットの数を記憶するフォーマ
ット登録数記憶手段とを備えた光学文字認識装置であっ
て、登録モードの場合には、 前記フォーマット検索/判定手段は、前記フォーマット
設定手段で設定されたフォーマットをフォーマット構造
体登録領域に一次登録し、この一次登録されたフォーマ
ットと登録済みフォーマットを順次比較し、フォーマッ
ト判定不可の場合には、前記フォーマット設定手段はさ
らに、類似フォーマットと入力フォーマットとのキーワ
ードによる比較を登録済みのフォーマット全てについて
繰り返し行い、登録済み全フォーマットについて入力フ
ォーマットが異なる場合、入力文書のフォーマットを登
録する ことを特徴とする光学文字認識装置。
1. A photoelectric conversion means for digitizing an input document,
An image storage unit that stores an electronic image of an input document, a ruled line frame extraction unit that extracts a ruled line frame from the image of the input document, and a ruled line frame coordinate sequence that stores a coordinate sequence of grid points of the extracted ruled line frame Format setting means for setting the format of the input document represented by the storage means, the coordinate sequence of the grid points of the ruled line frame, the registered name, the attributes of the registration area delimited by the ruled line frame, and external input information such as keywords And an optical character including a format search / determination means for searching and determining whether the format of the input document corresponds to any of the registered formats and a format registration number storage means for storing the number of registered formats. In the case of the recognition device and in the registration mode, the format search / determination means is
Format the format set by the setting means
The primary registration is performed in the body registration area, and the primary registration is performed.
Format and the registered formats are sequentially compared, and the format is
If it cannot be determined, the format setting means
In addition, the key word between the similar format and the input format
For all formats that have been registered for comparison
Repeat for all registered formats.
If the format is different, enter the input document format.
Optical character recognition device characterized by recording .
【請求項2】 請求項1記載の光学文字認識装置であっ
て、類似フォーマットと入力フォーマットとのキーワードの
差異が無い場合、前記フォーマット設定手段は差異が無
いことを表示し、いずれか一方のフォーマットの再設定
を行なう ことを特徴とする光学文字認識装置。
2. The optical character recognition device according to claim 1 , wherein the keywords of the similar format and the input format are used.
If there is no difference, the format setting means has no difference.
Message is displayed and either format is reset.
An optical character recognition device characterized by performing .
【請求項3】 入力文書を電子化する光電変換手段と、
電子化された入力文書の画像を記憶する画像記憶手段
と、入力文書の画像から罫線枠を抽出する罫線枠抽出手
段と、抽出された罫線枠の格子点の座標列を記憶する罫
線枠座標列記憶手段と、罫線枠の格子点の座標列と登録
名や罫線枠で区切られた登録領域の属性、キーワードな
どの外部からの入力情報とで表される入力文書のフォー
マットを設定するフォーマット設定手段と、入力文書の
フォーマットが登録済みフォーマットのうちのいずれか
に該当するかを検索し判定するフォーマット検索/判定
手段 と、登録済みフォーマットの数を記憶するフォーマ
ット登録数記憶手段とを備えた光学文字認識装置であっ
認識モードの場合には、 前記フォーマット検索/判定手段は、前記フォーマット
設定手段で設定されたフォーマットをフォーマット構造
体登録領域に一次登録し、この一次登録されたフォーマ
ットと登録済みフォーマットを順次比較し、フォーマッ
ト判定不可の場合には、前記フォーマット設定手段は、
さらに類似フォーマットと入力フォーマットとのキーワ
ードによる比較を登録済みのフォーマット全てについて
繰り返し行い、登録済みのフォーマットのうちのいずれ
であるのかの判定が成功した場合、文字認識を必要とす
る領域を認識する ことを特徴とする光学文字認識装置。
3. A photoelectric conversion means for digitizing an input document,
Image storage means for storing an electronic image of an input document
And a ruled line frame extractor that extracts the ruled line frame from the image of the input document.
A rule that stores the columns and the coordinate sequence of the extracted grid points of the ruled line frame
Line frame coordinate sequence storage means and registration of coordinate sequence of grid points of ruled line frame
Names, attributes of registered areas separated by ruled lines, keywords, etc.
Input document format represented by which external input information
Formatting means to set matte and input document
The format is one of the registered formats
Format search / judgment
Means and a former that stores the number of registered formats
It is an optical character recognition device equipped with
In the recognition mode, the format search / determination means is
Format the format set by the setting means
The primary registration is performed in the body registration area, and the primary registration is performed.
Format and the registered formats are sequentially compared, and the format is
If the judgment is impossible, the format setting means,
Furthermore, the key word of the similar format and the input format
For all formats that have been registered for comparison
Repeatedly, any of the registered formats
If it succeeds in determining whether or not
An optical character recognition device characterized by recognizing a region to be marked .
【請求項4】 入力文書を電子化する光電変換手段と、
電子化された入力文書の画像を記憶する画像記憶手段
と、入力文書の画像から罫線枠を抽出する罫線枠抽出手
段と、抽出された罫線枠の格子点の座標列を記憶する罫
線枠座標列記憶手段と、罫線枠の格子点の座標列と登録
名や罫線枠で区切られた登録領域の属性、キーワードな
どの外部からの入力情報とで表される入力文書のフォー
マットを設定するフォーマット設定手段と、入力文書の
フォーマットが登録済みフォーマットのうちのいずれか
に該当するかを検索し判定するフォーマット検索/判定
手段と、登録済みフォーマットの数を記憶するフォーマ
ット登録数記憶手段とを備えた光学文字認識装置であっ
て、 認識モードの場合、 フォーマット検索/判定手段は、前記フォーマット設定
手段で設定されたフォーマットをフォーマット構造体登
録領域に一次登録し、この一次登録されたフォーマット
と登録済みフォーマットを順次比較し、フォーマット判
定不可の場合には、少なくともどちらか一方のフォーマ
ットにキーワードが登録されていない場合、キーワード
が登録されていないフォーマットに関する情報を表示
し、両方のフォーマットにキーワードが登録されている
場合には、文字認識を実行し、キーワード登録名と文字
認識結果を比較する ことを特徴とする光学文字認識装
置。
4. A photoelectric conversion means for digitizing an input document,
Image storage means for storing an electronic image of an input document
And a ruled line frame extractor that extracts the ruled line frame from the image of the input document.
A rule that stores the columns and the coordinate sequence of the extracted grid points of the ruled line frame
Line frame coordinate sequence storage means and registration of coordinate sequence of grid points of ruled line frame
Names, attributes of registered areas separated by ruled lines, keywords, etc.
Input document format represented by which external input information
Formatting means to set matte and input document
The format is one of the registered formats
Format search / judgment
Means and a former that stores the number of registered formats
It is an optical character recognition device equipped with
In the recognition mode, the format search / determination means sets the format setting
The format set by
Primary registration in the recording area, and the format in which this primary registration was made
And the registered formats are sequentially compared, and the format
If it cannot be determined, at least one of the formers
If the keyword is not registered in the
Display information about formats that are not registered
And keywords are registered in both formats
In this case, character recognition is executed and the keyword registration name and character
An optical character recognition device characterized by comparing recognition results .
【請求項5】 入力文書を電子化する光電変換手段と、
電子化された入力文書の画像を記憶する画像記憶手段
と、入力文書の画像から罫線枠を抽出する罫線枠 抽出手
段と、抽出された罫線枠の格子点の座標列を記憶する罫
線枠座標列記憶手段と、罫線枠の格子点の座標列と登録
名や罫線枠で区切られた登録領域の属性、キーワードな
どの外部からの入力情報とで表される入力文書のフォー
マットを設定するフォーマット設定手段と、入力文書の
フォーマットが登録済みフォーマットのうちのいずれか
に該当するかを検索し判定するフォーマット検索/判定
手段と、登録済みフォーマットの数を記憶するフォーマ
ット登録数記憶手段とを備えた光学文字認識装置であっ
て、 外部から指示された登録領域の属性と文字認識結果との
関係をチェックし、文字認識結果が不適切であることを
外部に対して指示する認識結果チェック手段と、入力情
報に基づいた高速認識を実行するか、あるいはまた、通
常速度での認識を実行したうえで入力情報に対応した文
字認識結果が得られたか否かを認識結果チェック手段で
行なわせるかを利用者が選択する認識モード選択手段を
備えた ことを特徴とする光学文字認識装置。
5. A photoelectric conversion means for digitizing an input document,
Image storage means for storing an electronic image of an input document
And a ruled line frame extractor that extracts the ruled line frame from the image of the input document.
A rule that stores the columns and the coordinate sequence of the extracted grid points of the ruled line frame
Line frame coordinate sequence storage means and registration of coordinate sequence of grid points of ruled line frame
Names, attributes of registered areas separated by ruled lines, keywords, etc.
Input document format represented by which external input information
Formatting means to set matte and input document
The format is one of the registered formats
Format search / judgment
Means and a former that stores the number of registered formats
It is an optical character recognition device equipped with
Of the registered area attributes and character recognition results
Check the relationship and confirm that the character recognition result is incorrect.
Recognition result checking means to instruct the outside and input information
Performs fast, information-based recognition, or
A sentence corresponding to the input information after performing recognition at normal speed
Whether the character recognition result is obtained or not
The recognition mode selection means by which the user selects whether to perform
An optical character recognition device that is equipped with .
【請求項6】 請求項1ないし請求項5のいずれかに記
載の光学文字認識装置であって、フォーマット検索/判定手段は、入力文書のフォーマッ
トが登録済みフォーマットのいずれに該当するかの判定
が不可となった要因を外部に対して指示させる機能を有
している ことを特徴とする光学文字認識装置。
6. The optical character recognition device according to claim 1, wherein the format search / determination means is a format of the input document.
The registered format corresponds to one of the registered formats
It has a function to instruct the outside of the reason why
Optical character recognition apparatus characterized by being.
【請求項7】 請求項1ないし請求項6のいずれかに記
載の光学文字認識装置であって、 フォーマット検索/判定手段は、入力文書のフォーマッ
トが該当する登録済みフォーマットの登録名を外部に対
して指示させる機能を有していることを特徴とする光学
文字認識装置。
7. The method according to any one of claims 1 to 6.
In the optical character recognition device described above, the format search / determination means is a format of the input document.
The registered name of the registered format corresponding to
Optics characterized by having the function of instructing
Character recognizer.
【請求項8】 請求項3ないし請求項7のいずれかに記
載の光学文字認識装置であって、 入力文書のフォーマットが登録済みフォーマットのいず
れに該当するかを外部からの指示に基づいて指定するフ
ォーマット指定手段と、指摘された登録済みフォーマッ
トに基づく文字認識の実行を指示するフォーマット検索
/判定手段とを備えていることを特徴とする光学文字認
識装置。
8. The method according to any one of claims 3 to 7.
The optical character recognition device installed in the
This is a function to specify whether this applies based on instructions from the outside.
Format specification method and registered registered format
Format search that directs character recognition based on text
/ Optical character recognition characterized by having a determination means
Intelligence device.
【請求項9】 請求項8記載の光学文字認識装置であっ
て、 フォーマット検索/判定手段は、フォーマット指定手段
で指定されたフォーマットの登録名を外部に対して指示
させる機能を有していることを特徴とする光学文字認識
装置。
9. The optical character recognition device according to claim 8.
The format search / determination means is a format designation means.
Externally instruct the registered name of the format specified in
Optical character recognition characterized by having the function of
apparatus.
JP30473196A 1996-11-15 1996-11-15 Optical character recognition device Expired - Fee Related JP3484446B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP30473196A JP3484446B2 (en) 1996-11-15 1996-11-15 Optical character recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30473196A JP3484446B2 (en) 1996-11-15 1996-11-15 Optical character recognition device

Publications (2)

Publication Number Publication Date
JPH10143605A JPH10143605A (en) 1998-05-29
JP3484446B2 true JP3484446B2 (en) 2004-01-06

Family

ID=17936540

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30473196A Expired - Fee Related JP3484446B2 (en) 1996-11-15 1996-11-15 Optical character recognition device

Country Status (1)

Country Link
JP (1) JP3484446B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3912463B2 (en) * 1998-09-29 2007-05-09 富士ゼロックス株式会社 Logical structure extraction device and logical structure extraction method
JP4065484B2 (en) * 2001-11-06 2008-03-26 キヤノン株式会社 Form search system
JP2004139484A (en) * 2002-10-21 2004-05-13 Hitachi Ltd Form processing device, program for implementing it, and program for creating form format
JP6820578B1 (en) * 2019-03-29 2021-01-27 Arithmer株式会社 Type string recognition device, program, and method.

Also Published As

Publication number Publication date
JPH10143605A (en) 1998-05-29

Similar Documents

Publication Publication Date Title
JP4998219B2 (en) Form recognition program, form recognition apparatus, and form recognition method
JP3469345B2 (en) Image filing apparatus and filing method
JP3294995B2 (en) Form reader
JP2713622B2 (en) Tabular document reader
JP4183527B2 (en) Form definition data creation method and form processing apparatus
JPH03201166A (en) Display system at the time of correcting japanese document reading translation system
JP2835178B2 (en) Document reading device
JP2008003740A (en) Input correction method, postscript information processing method, postscript information processor, and program
JPH11161736A (en) Method for recognizing character
JPH09231291A (en) Slip reading method and device
JP3484446B2 (en) Optical character recognition device
JP4983464B2 (en) Form image processing apparatus and form image processing program
JPH0689365A (en) Document image processor
JPH08329187A (en) Document reader
JP2001052112A (en) Recognizing processing method, information processor and recording medium
JP2000137728A (en) Document analyzing device and program recording medium
JPS63146187A (en) Character recognizing device
JP2004046388A (en) Information processing system and character correction method
JPH10302025A (en) Handwritten character recognizing device and its program recording medium
KR102673900B1 (en) Table data extraction system and the method of thereof
JPH0689330A (en) Image filing system
JP2013182459A (en) Information processing apparatus, information processing method, and program
JP2731394B2 (en) Character input device
JP4092768B2 (en) Character recognition device and character recognition method
JPH0749924A (en) Handwritten character recognizing device

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071024

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081024

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081024

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091024

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091024

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101024

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111024

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121024

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees