JP3294995B2 - Form reader - Google Patents

Form reader

Info

Publication number
JP3294995B2
JP3294995B2 JP16157796A JP16157796A JP3294995B2 JP 3294995 B2 JP3294995 B2 JP 3294995B2 JP 16157796 A JP16157796 A JP 16157796A JP 16157796 A JP16157796 A JP 16157796A JP 3294995 B2 JP3294995 B2 JP 3294995B2
Authority
JP
Japan
Prior art keywords
character string
field
image
preprint
preprinted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP16157796A
Other languages
Japanese (ja)
Other versions
JPH1011531A (en
Inventor
美由紀 林
康裕 岡田
敬 平野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP16157796A priority Critical patent/JP3294995B2/en
Publication of JPH1011531A publication Critical patent/JPH1011531A/en
Application granted granted Critical
Publication of JP3294995B2 publication Critical patent/JP3294995B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、未記入の帳票画像
をもとに帳票フォーマットを作成し、記入済みの帳票を
読み取る帳票読取装置に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a form reading apparatus which forms a form based on an unfilled form image and reads the filled form.

【0002】[0002]

【従来の技術】帳票に記入された文字を文字認識装置で
読取るためには、帳票内の読取領域や読取条件等、文字
を読取るために必要な情報を記述した帳票フォーマット
データを作成する必要がある。従来のこの種の文字認識
装置において帳票フォーマット情報を作成するには、未
記入の帳票をイメージスキャナで読取り、読み取ったイ
メージから帳票の構成を自動的に抽出した上で、人手に
よる修正を加える必要があった。
2. Description of the Related Art In order to read characters written on a form using a character recognition device, it is necessary to create form format data in which information necessary for reading characters, such as a reading area in the form and reading conditions, is described. is there. In order to create form format information in this type of conventional character recognition device, it is necessary to read an unfilled form with an image scanner, automatically extract the structure of the form from the read image, and make manual corrections was there.

【0003】図40は例えば特開平4−343190号
公報に開示されている従来の帳票フォーマット作成装置
の処理フローである。図40において、401は画像入
力手段、402は画像格納手段、403は枠・文字の認
識手段、405は文字データ領域認識手段、407はフ
ィールド処理手続き作成手段、409は文字データ認識
パラメタの作成手段、207はフォーマット情報、20
8はフィールド情報、414は知識データベース、41
5は文字データ認識パラメタ、404は修正処理
(1)、406は修正処理(2)、408は修正処理
(3)である。また602はフィールド情報の例であ
る。
FIG. 40 is a processing flow of a conventional form format creating apparatus disclosed in, for example, Japanese Patent Application Laid-Open No. 4-343190. In FIG. 40, 401 is an image input unit, 402 is an image storage unit, 403 is a frame / character recognition unit, 405 is a character data area recognition unit, 407 is a field processing procedure creation unit, and 409 is a character data recognition parameter creation unit. , 207 are format information, 20
8 is field information, 414 is a knowledge database, 41
5 is a character data recognition parameter, 404 is a correction process (1), 406 is a correction process (2), and 408 is a correction process (3). Reference numeral 602 denotes an example of field information.

【0004】次に、上記従来の帳票フォーマット作成装
置の処理フローについて説明する。まず、画像入力手段
401はイメージスキャナやFAXなどから構成され、
未記入の帳票イメージを読み込む。次に画像格納手段4
02では、読み込んだ帳票イメージをバッファに格納す
る。次に、枠・文字の認識手段403は帳票イメージ上
の罫線を抽出し、帳票イメージ上のプレプリント文字
(予め印刷されている文字)を認識した後、抽出した罫
線と認識したプレプリント文字の情報をフォーマット情
報207に格納する。次に修正手段(1)404では、
罫線やプレプリント文字を認識した結果を画面に表示
し、修正があればマウスまたはキーボードを用いてオペ
レータが修正を行なう。次に文字データ領域認識手段4
05は、フォーマット情報207と知識データベース4
14を使用して、黒枠で囲まれた領域や、”月”、”
日”等の文字の記入を示すキーワードの近傍空白領域を
フィールドとして抽出し、フィールド情報208にフィ
ールドの情報を格納する。ここでフィールドの情報は、
フィールド情報の例602に示すように、各フィールド
の始点位置と幅・高さ、記入文字数、”月 日”等のキ
ーワードで指定したフィールドの名称、記入される文字
の種類(数字、英字等)を示す属性情報である。次に、
修正手段(2)406ではフィールド情報を画面に表示
し、修正があればオペレータが修正を行なう。次にフィ
ールド処理手続き作成手段407では、フィールドの情
報208と知識データベース414を参照して処理手続
きを作成する。ここで処理手続きは、各認識結果に対す
る知識処理の有無や、認識結果が数値の場合に認識結果
に対する演算処理の内容を示すものである。次に修正手
段(3)408では作成したフィールド処理手続きを画
面に表示し、修正があればオペレータが修正を行なう。
最後に文字データ認識パラメタ作成手段409はフィー
ルド情報208を元にして、文字データを認識するため
に必要な情報を作成し、文字データ認識パラメタ415
に格納する。
Next, a processing flow of the above-described conventional form format creating apparatus will be described. First, the image input unit 401 includes an image scanner, a facsimile, and the like.
Read the blank form image. Next, image storage means 4
In 02, the read form image is stored in the buffer. Next, the frame / character recognizing unit 403 extracts a ruled line on the form image, recognizes a preprinted character (character printed in advance) on the form image, and then extracts the preprinted character recognized as the extracted ruled line. The information is stored in the format information 207. Next, in the correction means (1) 404,
The result of recognition of ruled lines and preprinted characters is displayed on the screen, and if there is any correction, the operator makes correction using a mouse or keyboard. Next, character data area recognition means 4
05 is the format information 207 and the knowledge database 4
14, the area enclosed by the black frame, the month,
A blank area near a keyword indicating entry of a character such as "date" is extracted as a field, and the field information is stored in the field information 208. Here, the field information is
As shown in the field information example 602, the starting point position and width / height of each field, the number of characters to be entered, the name of the field specified by a keyword such as “month / day”, the type of characters to be entered (numerical characters, alphabetic characters, etc.) Is attribute information that indicates next,
The correction means (2) 406 displays the field information on the screen, and if there is a correction, the operator makes the correction. Next, the field processing procedure creation means 407 creates a processing procedure with reference to the field information 208 and the knowledge database 414. Here, the processing procedure indicates the presence / absence of knowledge processing for each recognition result, and the contents of the arithmetic processing for the recognition result when the recognition result is a numerical value. Next, the correcting means (3) 408 displays the created field processing procedure on the screen, and if there is a correction, the operator makes the correction.
Finally, the character data recognition parameter creating unit 409 creates information necessary for recognizing the character data based on the field information 208, and generates the character data recognition parameter 415.
To be stored.

【0005】上記従来の帳票フォーマット作成装置では
フォーマット情報207とフィールド情報208と文字
データ認識パラメタ15を作成し、これらのデータをひ
とまとめにして帳票フォーマットデータを作成する。た
だし、従来の帳票フォーマット作成装置により帳票フォ
ーマットに格納される情報の内容は、上記帳票フォーマ
ット作成装置で作成された情報に限定されるものではな
く、プレプリント文字の位置と大きさ情報を加えること
でフィールド内のプレプリント文字を消去して、記入文
字のみを認識できる例(特開平7−13996号公報)
も開示されている。また、マークの施される文字パター
ン列の特徴データを加えることで、マークの有無を判定
できる例(特開平6−266884号公報)も開示され
ている。また、一般に複数種類の帳票を文字認識装置で
読取る場合は、読取対象である帳票上の固定位置にID
番号を印刷しておき、そのID番号が帳票フォーマット
に記述される。
[0005] In the above-mentioned conventional form format creation apparatus, format information 207, field information 208 and character data recognition parameter 15 are created, and these data are put together to create form format data. However, the content of the information stored in the form format by the conventional form format creation apparatus is not limited to the information created by the form format creation apparatus described above, and the position and size information of the preprint character is added. Example in which the preprinted characters in the field are erased and only the entered characters can be recognized (Japanese Patent Laid-Open No. 7-13996)
Are also disclosed. Further, there is disclosed an example in which the presence or absence of a mark can be determined by adding feature data of a character pattern string to be marked (Japanese Patent Laid-Open No. Hei 6-266883). In general, when a plurality of types of forms are read by a character recognition device, IDs are stored in fixed positions on the forms to be read.
The number is printed, and the ID number is described in a form format.

【0006】[0006]

【発明が解決しようとする課題】従来の帳票フォーマッ
ト作成装置は、以上のように構成されていたため、文字
の記入を示す”月”、”日”等のキーワードが帳票に印
刷されておらず、近傍に文字を記入するための空白領域
のないマーク記入用のフィールドの抽出は人手を介さな
ければならず、ユーザがフィールドの位置を対話的に指
定する手間がかかるという問題点があった。
Since the conventional form format creation apparatus is configured as described above, keywords such as "month" and "day" indicating the entry of characters are not printed on the form. Extraction of a field for writing a mark without a blank area for writing a character in the vicinity has to be performed manually, and there is a problem that the user has to interactively specify the position of the field.

【0007】また、抽出されたフィールドが文字の記入
されるフィールドであるか、図の記入されるフィールド
であるか、マークの記入されるフィールドであるか、と
いったフィールド種別を自動的に判別することができな
いため、ユーザがフィールド種別を対話的に指定する手
間がかかるという問題点があった。
It is also possible to automatically determine a field type such as whether the extracted field is a field in which a character is to be entered, a field in which a figure is to be entered, or a field in which a mark is to be entered. However, there is a problem that it takes time and effort for the user to interactively specify the field type.

【0008】また、複数種類の帳票を文字認識装置で読
取る場合、ユーザが帳票上にID番号を印刷すると共
に、そのID番号を帳票フォーマットに記述する手間が
かかるという問題点があった。
In addition, when reading a plurality of types of forms with a character recognition device, there is a problem that the user has to print an ID number on the form and write the ID number in a form format.

【0009】また、プレプリントの線幅が太く、かつ記
入文字が接触した場合はプレプリントの除去ができなか
ったり、記入文字が損なわれるという問題点があった。
Further, when the line width of the preprint is large and the written characters come into contact with the preprint, the preprint cannot be removed or the written characters are damaged.

【0010】また、マークがどこに記入されたかを判定
することができるが、記入されたマークの形状を判別す
ることができないという問題点があった。
Further, it is possible to determine where the mark is written, but there is a problem that the shape of the written mark cannot be determined.

【0011】本発明は上記のような問題点を解決するた
めになされたものであり、帳票フォーマットを作成する
際に、ユーザが指定しなければならない情報を減らし、
より自動的に帳票フォーマットを作成できると共に、作
成した帳票フォーマットを用いて記入済帳票を読取る場
合において、プレプリントの文字の消去を正確に行い、
かつ記入されたマークの形状を判別することができる文
字認識装置を提供することを目的とする。
SUMMARY OF THE INVENTION The present invention has been made to solve the above problems, and reduces the information that must be specified by a user when creating a form format.
A form format can be created more automatically, and when a completed form is read using the created form format, characters in the preprint are correctly erased,
It is another object of the present invention to provide a character recognition device capable of determining the shape of a marked mark.

【0012】[0012]

【課題を解決するための手段】請求項1の帳票読取装置
は、帳票フォーマット作成時には、帳票全体イメージを
格納する帳票イメージ格納手段と、格納した帳票イメー
ジから直線部分を検出する罫線抽出手段と、プレプリン
ト文字列を帳票イメージから抽出するプレプリント文字
列抽出手段と、抽出したプレプリント文字列イメージ内
の文字を認識してプレプリント文字コード列に変換する
プレプリント文字列認識手段と、プレプリント文字列の
認識結果とキーボード辞書とを照合するキーワード照合
手段と、罫線に囲まれた領域と選択肢を表すキーワード
となるプレプリント文字列を含む領域と図やイメージ領
域を表すキーワードとなるプレプリント文字列近傍の領
域を記入領域の候補として抽出するフィールド候補抽出
手段と、フィールド内、あるいはフィールド近傍のプレ
プリント文字列の認識結果を元にフィールド種別を文字
列フィールド、又はチェックマークフィールド、又はイ
メージフィールドであるかを自動的に判定するフィール
ド種別判定手段と、文字列が記入されるフィールドの場
合、記入される文字種を推定してフィールド属性として
設定するフィールド属性設定手段と、プレプリント文字
列の認識結果とタイトル条件格納テーブルとを照合して
帳票識別用ID番号の代わりに帳票タイトル候補を抽出
する帳票タイトル候補抽出手段と、選択肢から項目を選
択してマークを記入するフィールド(チェックマークフ
ィールド)の認識結果出力時に、マークだけではなくマ
ークされた選択肢のプレプリント文字コード列を出力で
きるように出力形式を設定する出力形式設定手段と、帳
票フォーマットに格納するためにプレプリント文字列の
イメージからプレプリント文字列の形状情報を抽出・作
成するプレプリント文字列形状情報作成手段と、帳票タ
イトル候補抽出手段で得られた帳票タイトル情報と、罫
線抽出手段で得られた罫線情報と、プレプリント文字列
抽出手段で得られたプレプリント文字列情報と、フィー
ルド候補抽出手段で得られたフィールド候補に対する外
周罫線の情報と内包プレプリント文字列情報と、フィー
ルド種別判定手段で得られたフィールド種別と、フィー
ルド属性設定手段で得られたフィールド属性と、プレプ
リント文字列形状情報作成手段で得られたプレプリント
文字列の形状情報と、出力形式設定手段で得られた出力
形式とを帳票フォーマ ットとして出力する帳票フォーマ
ット出力手段と、を備えたことを特徴とする。
A form reading apparatus according to a first aspect of the present invention comprises: a form image storing means for storing an entire form image when creating a form format; a ruled line extracting means for detecting a straight line portion from the stored form image; A preprint character string extracting means for extracting a preprint character string from a form image; a preprint character string recognizing means for recognizing characters in the extracted preprint character string image and converting the characters into a preprint character code string; Keyword matching means for matching the result of character string recognition with the keyboard dictionary, an area surrounded by ruled lines and an area including a preprinted character string serving as a keyword representing an option, and a preprinted character serving as a keyword representing a figure or image area A field candidate extracting means for extracting an area near a column as a candidate for an entry area; Among, or fields near the preprinted text character recognition result field type based on the
Column field, checkmark field, or
A field type determining means for automatically determining whether the field is a message field, a field attribute setting means for estimating a type of a character to be entered and setting it as a field attribute in the case of a field where a character string is entered, and a preprint character string Form title candidate extracting means for extracting form title candidates instead of form identification ID numbers by comparing the result of recognition with the title condition storage table, and a field for selecting an item from the options and writing a mark (check mark field Output format setting means for setting the output format so that not only the mark but also the preprinted character code string of the marked option can be output when the recognition result is output, and an image of the preprinted character string to be stored in the form format To extract and create preprinted character string shape information from And a string shape information creation means, the form data
The form title information obtained by the
Ruled line information obtained by line extraction means and preprinted character strings
The preprint character string information obtained by the extraction
Out of the field candidates obtained by the field candidate extraction means.
Ruled line information, embedded preprint character string information,
Field type obtained by the field type
Field attribute obtained by the field attribute setting means
Preprint obtained by the lint character string shape information creation means
Character string shape information and output obtained by output format setting means
Document format to output the format as a document format
Output means .

【0013】請求項2の帳票読取装置は、フィールド種
別判定手段が、フィールドに含むプレプリント文字列の
キーワード種類が選択肢を表すものであるかどうかを判
定し、選択肢を表わすと判定した場合にはフィールド種
別をチェックマークフィールドとして出力することを特
徴とする。
[0013] In the form reading apparatus according to a second aspect, the field type determining means determines whether or not the keyword type of the preprint character string included in the field represents an option. The field type is output as a check mark field.

【0014】請求項3の帳票読取装置は、フィールド種
別判定手段が、フィールドに含むプレプリント文字列の
キーワード種類がイメージ領域を示すものであるかどう
かを判定し、イメージ領域を示すと判定した場合にはフ
ィールド種別をイメージフィールドとして出力すること
を特徴とする。
According to a third aspect of the present invention, in the form reading apparatus, the field type determining means determines whether the keyword type of the preprint character string included in the field indicates an image area, and determines that the keyword indicates an image area. Is characterized in that the field type is output as an image field.

【0015】請求項4の帳票読取装置は、出力形式設定
手段が、選択肢の中の項目にマークを記入するチェック
マークフィールドにおいて、チェックマークフィールド
の選択項目として記入者が文字列を記入する文字列フィ
ールドを内包するかどうかを判定し、内包すると判定し
た場合は、選択肢を表すプレプリント文字列コードおよ
び文字列フィールドに記入される文字列のイメージを出
力するという出力形式を決定することを特徴とする。
According to a fourth aspect of the present invention, there is provided a form reading apparatus, wherein the output format setting means writes a character string as a check mark field selection item in a check mark field for writing a mark in an option item. It is determined whether or not to include the field, and if it is determined to include, the output format of outputting a preprinted character string code representing an option and an image of a character string written in the character string field is determined. I do.

【0016】請求項5の帳票読取装置は、出力形式設定
手段が、選択肢の中の項目にマークを記入するチェック
マークフィールドにおいて、チェックマークフィールド
の選択項目として記入者が文字列を記入する文字列フィ
ールドを内包するかどうかを判定し、内包すると判定し
た場合は、選択肢を表すプレプリント文字列コードおよ
び文字列フィールドに記入される文字列の認識結果を出
力するという出力形式を決定することを特徴とする。
According to a fifth aspect of the present invention, there is provided a form reading apparatus, wherein the output format setting means writes a character string as a check mark field selection item in a check mark field for writing a mark in an option item. Determines whether to include the field, and if so, determines the output format that outputs the preprinted character string code representing the option and the recognition result of the character string entered in the character string field. And

【0017】請求項6の帳票読取装置は、出力形式設定
手段が、チェックマークフィールドが連続する直線で構
成され、かつ、記入マークはフィールド内の任意の位置
に記入できると判定した場合、フィールド全体の長さに
対するマーク位置までの長さの割合を計算して出力する
という出力形式を決定することを特徴とする。
According to a sixth aspect of the present invention, when the output format setting means determines that the check mark field is constituted by a continuous straight line and the entry mark can be entered at any position in the field, The output format in which the ratio of the length to the mark position with respect to the length of the mark is calculated and output is determined.

【0018】請求項7の帳票読取装置は、帳票タイトル
抽出手段が、予め帳票タイトル条件格納テーブルに格納
しておく帳票タイトル条件に評価値を与え、帳票内のプ
レプリント文字列に対して評価値を計算して、評価値の
総合得点の最も大きいプレプリント文字列を帳票タイト
ルとして出力することを特徴とする。
According to a seventh aspect of the present invention, the form title extracting means assigns an evaluation value to the form title condition stored in the form title condition storage table in advance, and evaluates the evaluation value for the preprint character string in the form. Is calculated, and the preprint character string having the largest total score of the evaluation value is output as the form title.

【0019】請求項8の帳票読取装置は、プレプリント
文字列形状情報作成手段が、帳票フォーマットに格納す
るプレプリント文字列形状情報として、プレプリント文
字列の小領域での方向成分を出力することを特徴とす
る。
In the form reading device according to the present invention, the preprint character string shape information creating means outputs a directional component in a small area of the preprint character string as the preprint character string shape information stored in the form format. It is characterized by.

【0020】[0020]

【0021】[0021]

【0022】[0022]

【発明の実施の形態】BEST MODE FOR CARRYING OUT THE INVENTION

実施の形態1.以下、この発明の実施の形態1を図につ
いて説明する。図1はこの発明の実施の形態1における
帳票読取装置のブロック図である。図において、1は帳
票全体のイメージを格納する帳票イメージ格納手段、2
は帳票全体イメージから直線部分を検出する罫線抽出手
段、3は帳票全体イメージからプレプリント文字列部分
を抽出するプレプリント文字列抽出手段、4はプレプリ
ント文字列画像に対して文字認識を行うプレプリント文
字列認識手段、5は帳票の内容において文字記入領域・
選択肢・イメージ領域を表すキーワードとなり得る文字
列を格納しておくキーワード辞書、6は認識後のプレプ
リント文字列とキーワード辞書とを照合するキーワード
照合手段、7は記入領域となるフィールドを抽出するフ
ィールド候補抽出手段、8は何が記入されるフィールド
であるかを判定するフィールド種別判定手段、9はフィ
ールドに記入される文字の種類などのフィールド属性を
付与するフィールド属性設定手段、10は記入文字列の
認識結果の出力形式を設定する出力形式設定手段、11
はプレプリント文字列が帳票タイトルであるための条件
を格納したタイトル条件格納テーブル、12は認識後の
プレプリント文字列とタイトル条件格納テーブルとを照
合して帳票タイトル候補を抽出する手段、13はプレプ
リント文字列画像から帳票フォーマットに格納するプレ
プリント文字列形状情報を作成する手段、14は帳票フ
ォーマットを出力する手段である。
Embodiment 1 FIG. Hereinafter, a first embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram of a form reading apparatus according to Embodiment 1 of the present invention. In the figure, 1 is a form image storage means for storing an image of the entire form, 2
Is a ruled line extracting means for detecting a straight line portion from the entire form image; 3, a preprinted character string extracting means for extracting a preprinted character string portion from the whole form image; The print character string recognition means 5 is a character entry area in the form contents.
A keyword dictionary for storing a character string that can be a keyword representing an option / image area, 6 is a keyword matching unit that matches a preprinted character string after recognition with the keyword dictionary, and 7 is a field for extracting a field to be an entry area Candidate extracting means, 8 is a field type determining means for determining what is a field to be entered, 9 is a field attribute setting means for assigning a field attribute such as a type of a character to be entered in the field, 10 is an entry character string Output format setting means for setting the output format of the recognition result
Is a title condition storage table storing conditions for the preprint character string to be a form title, 12 is a means for comparing the recognized preprint character string with the title condition storage table to extract a form title candidate, 13 is Means for creating preprint character string shape information to be stored in the form format from the preprint character string image, and means 14 for outputting the form format.

【0023】次に帳票フォーマット作成時の動作を図1
に沿って説明する。まず、帳票イメージ格納手段1はイ
メージスキャナやファクシミリから入力された未記入の
帳票イメージを格納する。格納された未記入帳票イメー
ジの例を図2に示す。
Next, the operation when creating a form format is shown in FIG.
It is explained along. First, the form image storage unit 1 stores an unfilled form image input from an image scanner or a facsimile. FIG. 2 shows an example of the stored blank form image.

【0024】次に、罫線抽出手段2は帳票イメージ格納
手段1によって格納した帳票イメージを解析し、罫線部
分を抽出する。罫線の抽出は、たとえば特開平4−34
3190号公報に示されている従来の技術により実現す
ることができる。
Next, the ruled line extracting means 2 analyzes the form image stored by the form image storing means 1 and extracts a ruled line portion. The ruled line is extracted, for example, as disclosed in
This can be realized by the conventional technique disclosed in Japanese Patent No. 3190.

【0025】図2の未記入帳票イメージから抽出した罫
線の例を図3に示す。罫線抽出手段2は図3中に示す罫
線1201、1202、1203、1204、120
5、1206に関して、点1207は罫線1201の始
点、点1208は罫線1201の終点、点1209は罫
線1202の始点であると同時に罫線1204との交
点、点1210は罫線1202と罫線1205との交
点、点1211は罫線1202の終点であると同時に罫
線1206との交点であると決定する。さらに、罫線抽
出手段2は罫線1201、1202、1203、120
4、1205、1206を抽出した後、罫線1201の
始点として点1207、終点として点1208の位置座
標を計算して罫線情報として出力する。罫線1201に
は他の罫線との交点はないので、交点の位置座標は設定
しない。罫線1202に関しては、始点として点120
9、終点として点1211、他の罫線との交点として点
1209、1210、1211の位置座標を計算して罫
線の情報として出力する。
FIG. 3 shows an example of ruled lines extracted from the blank form image of FIG. The ruled line extracting means 2 includes ruled lines 1201, 1202, 1203, 1204, and 120 shown in FIG.
5, 1206, the point 1207 is the start point of the ruled line 1201, the point 1208 is the end point of the ruled line 1201, the point 1209 is the start point of the ruled line 1202 and the intersection with the ruled line 1204, the point 1210 is the intersection of the ruled line 1202 and the ruled line 1205, The point 1211 is determined to be the end point of the ruled line 1202 and also the intersection of the ruled line 1206. Further, the ruled line extracting means 2 determines the ruled lines 1201, 1202, 1203, 120
After extracting 4, 1205 and 1206, position coordinates of a point 1207 as a start point of the ruled line 1201 and a point 1208 as an end point are calculated and output as ruled line information. Since the ruled line 1201 has no intersection with another ruled line, the position coordinates of the intersection are not set. Regarding the ruled line 1202, the point 120 is used as a starting point.
9. The position coordinates of the point 1211 as an end point and the points 1209, 1210, and 1211 as intersections with other ruled lines are calculated and output as ruled line information.

【0026】罫線抽出手段2で抽出した罫線情報の例を
図4に示す。図4中、1225は図3の罫線1201に
対応する罫線番号、1226は図3の罫線1202に対
応する罫線番号である。図4における1220は図3の
点1207の座標、1221は図3の点1208の座
標、1222は図3の点1209の座標、1223は図
3の点1210の座標、1224は図3の点1211の
座標の例である。1220および1221は図3におけ
る罫線1201の始終点の座標情報であり、1222・
1223・1224は図3における罫線1202の始終
点及び交点の座標情報である。
FIG. 4 shows an example of ruled line information extracted by the ruled line extracting means 2. In FIG. 4, 1225 is a ruled line number corresponding to the ruled line 1201 in FIG. 3, and 1226 is a ruled line number corresponding to the ruled line 1202 in FIG. In FIG. 4, reference numeral 1220 denotes the coordinates of point 1207 in FIG. 3, 1221 denotes the coordinates of point 1208 in FIG. 3, 1222 denotes the coordinates of point 1209 in FIG. 3, 1223 denotes the coordinates of point 1210 in FIG. 3, and 1224 denotes the point 1211 in FIG. It is an example of the coordinates of. Reference numerals 1220 and 1221 denote coordinate information of the start and end points of the ruled line 1201 in FIG.
Reference numerals 1223 and 1224 denote coordinate information of the start and end points and the intersection of the ruled line 1202 in FIG.

【0027】次に、プレプリント文字列抽出手段3では
帳票イメージ格納手段1によって格納した帳票イメージ
を解析し、プレプリント文字列のイメージを抽出して出
力すう。これは、たとえば特開平4−343190号公
報に示されている従来技術によって実現することができ
る。また、プレプリント文字列抽出手段3は、抽出した
プレプリント文字列イメージの開始位置座標、幅、高さ
を計算し、プレプリント文字列情報として出力する。図
2の未記入帳票イメージから抽出したプレプリント文字
列の例を図5に示す。図5中、1301はプレプリント
文字列「サンプル帳票」、1302はプレプリント文字
列1301の開始点、1303はプレプリント文字列1
301の幅、1304はプレプリント文字列1301の
高さである。
Next, the preprint character string extracting means 3 analyzes the form image stored by the form image storing means 1 and extracts and outputs the image of the preprint character string. This can be realized by a conventional technique disclosed in, for example, Japanese Patent Application Laid-Open No. 4-343190. Further, the preprint character string extracting means 3 calculates the start position coordinates, width, and height of the extracted preprint character string image and outputs it as preprint character string information. FIG. 5 shows an example of a preprinted character string extracted from the blank form image of FIG. In FIG. 5, reference numeral 1301 denotes a preprint character string “sample form”; 1302, a starting point of the preprint character string 1301; 1303, a preprint character string 1
The width 301 and 1304 are the height of the preprinted character string 1301.

【0028】プレプリント文字列情報を格納したテーブ
ルの例を図6に示す。図6中、1401・1408・1
409・1410・1411は図5に示したプレプリン
ト文字列1301・1305・1306・1307・1
308に対応するプレプリント文字列番号である。図5
に示したプレプリント文字列「サンプル帳票」1301
に対するプレプリント文字列情報は、開始点1302に
対する開始位置1402、幅1303に対する情報14
03、高さ1304に対する情報1404である。
FIG. 6 shows an example of a table storing preprint character string information. In FIG. 6, 1401, 1408, and 1
409, 1410, 1411 are the preprinted character strings 1301, 1305, 1306, 1307-1 shown in FIG.
This is the preprint character string number corresponding to 308. FIG.
Preprinted character string "sample form" 1301 shown in
Are the start position 1402 for the start point 1302 and the information 14 for the width 1303.
03, information 1404 for the height 1304.

【0029】次に、プレプリント文字列認識手段4は上
記プレプリント文字列抽出手段3で出力したプレプリン
ト文字列イメージを認識して文字コードに変換し、文字
修飾情報とともに図6に示すプレプリント文字列情報と
して出力する。これはたとえば従来の印刷文字読取り技
術によって実現することができる。
Next, the preprint character string recognizing means 4 recognizes the preprint character string image output by the preprint character string extracting means 3 and converts it into a character code. The preprint character string image shown in FIG. Output as character string information. This can be achieved, for example, by conventional printed character reading techniques.

【0030】以上のように構成したプレプリント文字列
認識手段4は、図5のプレプリント文字列「サンプル帳
票」1301のイメージを受け取ると、その認識結果と
して「サンプル帳票」という文字コード1405と、
「ゴシック体」というフォント情報1406と、「ボー
ルド」という文字修飾情報1407を検出し、図6に示
したプレプリント文字列1401のプレプリント文字列
情報に加える。
When the preprinted character string recognizing means 4 configured as described above receives the image of the preprinted character string "sample form" 1301 in FIG. 5, as a recognition result, a character code 1405 of "sample form" is obtained.
The font information 1406 “Gothic” and the character modification information 1407 “Bold” are detected and added to the preprinted character string information of the preprinted character string 1401 shown in FIG.

【0031】キーワード辞書5は帳票上で一般的に記入
を促す文字列、例えば「年」「月」「日」や、選択肢を
表す文字列、例えば「はい」「いいえ」・「大正」「昭
和」「平成」や、連続する数字やアルファベットなどを
予め格納したテーブルで構成する。キーワード辞書の内
容の例を図7に示す。
The keyword dictionary 5 is a character string that generally prompts entry on a form, for example, “year”, “month”, “day”, or a character string representing an option, for example, “yes”, “no”, “taisho”, “showa” "", "Heisei", and a table in which consecutive numbers and alphabets are stored in advance. FIG. 7 shows an example of the contents of the keyword dictionary.

【0032】キーワード照合手段6は、図6に示したプ
レプリント文字列の認識結果文字コードをキーワード辞
書から検索して、それがキーワード辞書に存在するかど
うかを判定し、存在するプレプリント文字列に対してプ
レプリント文字列情報にフラグを立てる。たとえば、図
6に示したプレプリント文字列1305、1306、1
307、1308の認識結果1412、1413、14
14、1415が図7に示したキーワード辞書の150
1、1502、1503、1504に存在しているの
で、図6に示したプレプリント文字列情報のキーワード
フラグ1416、1417、1418、1419をオン
にする。
The keyword collating means 6 searches the keyword dictionary for a character code of the recognition result of the preprinted character string shown in FIG. 6, determines whether or not it exists in the keyword dictionary, A flag in the preprint character string information. For example, the preprinted character strings 1305, 1306, 1 shown in FIG.
307, 1308 recognition results 1412, 1413, 14
14 and 1415 are 150 of the keyword dictionary shown in FIG.
1, 1502, 1503, and 1504, the keyword flags 1416, 1417, 1418, and 1419 of the preprint character string information shown in FIG. 6 are turned on.

【0033】さらに、キーワード照合手段6はキーワー
ド辞書5を参照する際に、「文字記入領域を示すキーワ
ード」1505、「イメージ領域を示すキーワード」1
506、「選択肢を示すキーワード」1507のどの項
目に該当するかどうかを検出し出力する。たとえば、図
6に示したプレプリント文字列「月」1305の認識結
果「月」1412は、図7の1501に示したキーワー
ド「月」が「文字記入領域を示すキーワード」1505
の項目に該当しているので、プレプリント文字列情報の
キーワード種類は図6に示すように「文字列」1420
とする。
Further, when the keyword collating means 6 refers to the keyword dictionary 5, the "keyword indicating the character entry area" 1505 and the "keyword indicating the image area" 1
506, Detect and output which item of “keyword indicating option” 1507 is applicable. For example, the recognition result “month” 1412 of the preprinted character string “month” 1305 shown in FIG. 6 indicates that the keyword “month” 1501 in FIG.
, The keyword type of the preprint character string information is “character string” 1420 as shown in FIG.
And

【0034】フィールド候補抽出手段7は、記入者が文
字やその他の情報を記入する領域(フィールド)の候補
を抽出する。フィールド候補抽出手段はたとえば特開平
4−343190号公報に示す方法などの従来技術で実
現することができる。すなわち、まず罫線抽出手段2で
抽出した罫線で囲まれた領域をフィールド候補とし、図
8に示す罫線1202、1203、1204、1205
によって囲まれている部分をフィールド1702として
抽出した後、罫線1202、1203、1204、12
05とともにフィールド情報として出力する。フィール
ド情報の例を図9に示す。図9中、1720・1721
・1729は、図8のフィールド1701・1702・
1703に対応するフィールド番号である。図9におい
て1722は図8のフィールド1702の外周罫線を罫
線番号で示した情報である。
The field candidate extracting means 7 extracts a candidate for an area (field) in which a writer enters characters and other information. The field candidate extracting means can be realized by a conventional technique such as a method disclosed in Japanese Patent Application Laid-Open No. 4-343190. That is, first, an area surrounded by the ruled line extracted by the ruled line extracting means 2 is set as a field candidate, and the ruled lines 1202, 1203, 1204, and 1205 shown in FIG.
After extracting the portion surrounded by the squares as a field 1702, the ruled lines 1202, 1203, 1204, 12
05 and output as field information. FIG. 9 shows an example of the field information. In FIG. 9, 1720 and 1721
1729 is the field 1701 1702 in FIG.
A field number corresponding to 1703. In FIG. 9, reference numeral 1722 denotes information indicating the outer peripheral ruled line of the field 1702 in FIG. 8 by the ruled line number.

【0035】次に図6に示したプレプリント文字列情報
を参照して、キーワードのフラグがオンになっているプ
レプリント文字列「月」1305と「日」1306を含
む領域を抽出する。この時、プレプリント文字列「月」
1305、「日」1306のプレプリント文字列情報で
ある図6の開始位置1421のy座標と1422のy座
標および高さ1424と1425が同じであるので、プ
レプリント文字1305と1306は同一フィールド内
に含まれると判断する。プレプリント文字列1305と
1306を含むフィールドのx座標は、たとえばプレプ
リント文字列1305の左側にプレプリント文字列13
05の幅1423で文字が記入されるという事前に決定
した条件から、プレプリント文字列「月」1305の開
始位置1421のx座標−幅1423とする。また、フ
ィールドの幅はプレプリント文字列1306の終点(プ
レプリント文字列「日」1306の開始位置1422の
x座標+プレプリント文字列1306の幅1427)−
前記のフィールドx座標とする。これによって図8の1
701に示す領域をフィールド候補とし、内包プレプリ
ント文字列「月」1305、「日」1306とともにフ
ィールド情報として出力する。図9において、1723
はフィールド1701に含まれるプレプリント文字列を
プレプリント文字列番号で示したものである。
Next, referring to the preprint character string information shown in FIG. 6, an area including the preprint character strings “month” 1305 and “day” 1306 with the keyword flag turned on is extracted. At this time, the preprint character string "month"
1305, the y-coordinate of the start position 1421 and the y-coordinate of 1422, and the heights 1424 and 1425, which are the pre-print character string information of "day" 1306, are the same, so that the pre-print characters 1305 and 1306 are in the same field. Is determined to be included. The x-coordinate of the field containing the preprinted character strings 1305 and 1306 is, for example, the preprinted character string 13 on the left side of the preprinted character string 1305.
Based on a predetermined condition that characters are to be entered with a width 1423 of 05, the x coordinate of the start position 1421 of the preprint character string “month” 1305 minus the width 1423 is set. The width of the field is the end point of the preprinted character string 1306 (the x coordinate of the start position 1422 of the preprinted character string “day” 1306 + the width 1427 of the preprinted character string 1306) −
The above-mentioned field x coordinate is used. As a result, FIG.
The area indicated by reference numeral 701 is set as a field candidate, and is output as field information together with the included preprint character strings "month" 1305 and "day" 1306. In FIG. 9, 1723
Indicates a preprint character string included in the field 1701 by a preprint character string number.

【0036】フィールド種別判定手段8は、フィールド
候補抽出手段7で抽出したフィールドに記入される内容
を推定しフィールド種別を決定した上で、図9に示した
フィールド情報にフィールド種別を設定する。例えば、
図8に示したフィールド1701は、キーワードとなる
プレプリント文字列、「月」1305・「日」1306
を含んでいる。一方、プレプリント文字列1305、1
306に対する図6のプレプリント文字列情報を参照す
ると、認識結果「月」1412、「日」1413のキー
ワード種は1420、1426に示すように「文字列」
であるので、図8のフィールド1701は文字列フィー
ルドであると判断し、フィールド1701に対応する図
9のフィールド番号1720のフィールドのフィールド
種別として「文字列」という情報1724を出力する。
The field type judging means 8 estimates the contents to be written in the fields extracted by the field candidate extracting means 7, determines the field type, and sets the field type in the field information shown in FIG. For example,
A field 1701 illustrated in FIG. 8 includes a preprint character string serving as a keyword, “month” 1305 and “day” 1306.
Contains. On the other hand, the preprint character strings 1305, 1
Referring to the preprint character string information of FIG. 6 corresponding to 306, the keyword types of the recognition results “month” 1412 and “day” 1413 are “character string” as shown in 1420 and 1426.
Therefore, it is determined that the field 1701 in FIG. 8 is a character string field, and information 1724 of “character string” is output as the field type of the field of the field number 1720 in FIG. 9 corresponding to the field 1701.

【0037】また、図8のフィールド1702は罫線に
囲まれたフィールドであり、フィールド内部および隣接
するフィールドにフィールド種別を判定するためのキー
ワードとなるプレプリント文字列が存在しないため、デ
フォルトでフィールド種別を文字列フィールドであると
判断し、フィールド1702に対応する図9のフィール
ド番号1721のフィールドのフィールド種別として
「文字列」という情報1725を出力する。
The field 1702 in FIG. 8 is a field surrounded by ruled lines, and since there is no preprint character string serving as a keyword for determining the field type inside and adjacent to the field, the field type is defaulted to the field type. Is determined as a character string field, and information 1725 “character string” is output as the field type of the field of the field number 1721 in FIG. 9 corresponding to the field 1702.

【0038】フィールド属性設定手段9は、フィールド
種別が文字列フィールドの場合、記入される文字種をフ
ィールド情報に設定する。たとえば図8に示すプレプリ
ント文字「月」1305と「日」1306を含むフィー
ルド1701に関しては、プレプリント文字列1305
の認識結果1412を図7のキーワード辞書から検索す
ると、キーワード「月」1501に対する記入文字種は
図7の1508に示すように「数字」であることが決定
できる。図8のプレプリント文字列1306に関しても
同様の処理により数字が記入されると判断し、フィール
ド1701に対応する図9のフィールド番号1720の
フィールドのフィールド属性として「数字」1726を
出力する。図8に示したキーワードのない文字フィール
ド1702の文字種はデフォルトの設定である全字種と
して、図9の対応するフィールド番号1721のフィー
ルドのフィールド属性として「全字種」1727を出力
する。
If the field type is a character string field, the field attribute setting means 9 sets the character type to be entered in the field information. For example, regarding the field 1701 including the preprinted characters “month” 1305 and “day” 1306 shown in FIG.
7 is retrieved from the keyword dictionary of FIG. 7, it can be determined that the character type to be entered for the keyword “month” 1501 is “numeric” as shown by 1508 in FIG. It is determined that a numeral is to be entered in the preprinted character string 1306 in FIG. 8 by the same processing, and “numerical” 1726 is output as the field attribute of the field with the field number 1720 in FIG. The character type of the character field 1702 having no keyword shown in FIG. 8 is output as “all character types” 1727 as a field attribute of the corresponding field number 1721 in FIG.

【0039】出力形式設定手段10は、選択肢のひとつ
にチェックマークを記入するチェックマークフィールド
に対して、記入されたチェックマークの認識結果と、チ
ェックされた項目を表すキーワードとを出力するという
出力形式をフィールド情報に設定する。たとえば、図8
に示すフィールド1703上でプレプリント文字列17
04にチェックマークを認識した場合は認識結果に「は
い」という文字列コードを付加して出力することができ
るように、1704・1705の認識結果「はい」「い
いえ」の文字列コードを図9に示したフィールド情報の
出力形式1728に設定する。
The output format setting means 10 outputs a recognition result of the entered check mark and a keyword representing the checked item to a check mark field for entering a check mark in one of the options. Is set to the field information. For example, FIG.
In the field 1703 shown in FIG.
When a check mark is recognized at 04, the character string codes of “Yes” and “No” are recognized as the recognition results of 1704 and 1705 so that a character string code of “Yes” can be added to the recognition result and output. Is set to the output format 1728 of the field information shown in FIG.

【0040】タイトル条件格納テーブル11はプレプリ
ント文字列が帳票のタイトルとなり得る条件を格納した
テーブルである。このテーブルには図10に示すよう
に、「帳票画像の最上部に位置する」1801、「帳票
上部中央に位置する」1802、「文字サイズが帳票全
体の文字サイズの中で最も大きい」1803、「文字太
さが帳票全体の文字太さの中で最も太い」1804、
「フォントが帳票全体の文字フォントと異なる」180
5、「下線で強調されている」1806、「罫線で囲ま
れている」1807という帳票タイトルとなる条件の文
字列や条件を表す論理式を格納しておく。
The title condition storage table 11 is a table storing conditions under which a preprinted character string can be a title of a form. In this table, as shown in FIG. 10, “located at the top of the form image” 1801, “located at the top center of the form” 1802, “character size is the largest among the character sizes of the entire form” 1803, “The character thickness is the thickest among the character thicknesses of the entire form.” 1804
"The font is different from the character font of the entire form" 180
5, a character string of a condition for a form title such as “highlighted by underline” 1806 and “enclosed by ruled line” 1807 and a logical expression representing the condition are stored.

【0041】帳票タイトル候補抽出手段12は上記帳票
タイトル条件格納テーブル11内に格納した情報を参照
して、文字認識後のプレプリント文字列の中で帳票タイ
トルの候補となる文字列を抽出する。図6に示した文字
認識後のプレプリント文字列のうち、「サンプル帳票」
1405が図10の1801・1802・1803・1
804・1805・1806に当てはまるので、図6の
プレプリント文字列「サンプル帳票」1405を帳票タ
イトルとして選択し、プレプリント文字列情報を参照し
て、帳票タイトル情報として開始位置1402・幅14
03・高さ1404・認識結果文字コード1405を出
力する。
The form title candidate extracting means 12 refers to the information stored in the form title condition storage table 11 and extracts a character string that is a form title candidate from the preprinted character strings after character recognition. Of the preprinted character strings after character recognition shown in FIG.
Reference numeral 1405 denotes 1801, 1802, 18033.1 in FIG.
Since this applies to 804, 1805, and 1806, the preprint character string “sample form” 1405 in FIG. 6 is selected as the form title, and the start position 1402 and the width 14 are determined as form title information by referring to the preprint character string information.
03, height 1404, and recognition result character code 1405 are output.

【0042】プレプリント文字列形状情報作成手段13
は、プレプリント文字列自体を帳票フォーマットに格納
するために、プレプリント文字列の形状情報を作成す
る。プレプリント文字列の形状情報は記入済の帳票を読
み取る際に、プレプリント文字列のイメージを帳票イメ
ージから除去するために用いるものである。実施の形態
1においてはこのプレプリント文字列情報は、プレプリ
ント文字列に外接する矩形内の画像データとする。たと
えば、図11において、フィールド1703に含まれる
プレプリント文字列1704および1705をその外接
する矩形内の画像データとして取り出し、それらの画像
データをプレプリント文字列の形状情報として、フィー
ルド1703に対応する図9のフィールド番号1729
のフィールドに対して、プレプリント文字列形状情報1
730および1731を設定する。
Preprint character string shape information creating means 13
Creates the preprint character string shape information in order to store the preprint character string itself in a form format. The shape information of the preprinted character string is used to remove the image of the preprinted character string from the form image when reading the filled out form. In the first embodiment, this preprint character string information is image data in a rectangle circumscribing the preprint character string. For example, in FIG. 11, the preprint character strings 1704 and 1705 included in the field 1703 are extracted as image data within a circumscribed rectangle, and the image data is used as the shape information of the preprint character string in the field 1703 corresponding to the field 1703. 9 field number 1729
Preprinted character string shape information 1
730 and 1731 are set.

【0043】帳票フォーマット出力手段14では、帳票
タイトル候補抽出手段12で得られた帳票タイトル情報
と、罫線抽出手段2で得られた罫線情報と、プレプリン
ト文字列抽出手段3で得られたプレプリント文字列情報
と、フィールド候補抽出手段7で得られたフィールド候
補に対する外周罫線の情報と内包プレプリント文字列情
報と、フィールド種別判定手段8で得られたフィールド
種別とフィールド属性設定手段9で得られたフィールド
属性と、プレプリント文字列形状情報作成手段13で得
られたプレプリント文字列の形状情報、出力形式設定手
段10で得られた出力形式とを帳票フォーマットとして
ディスクやメモリに出力する。
The form format output means 14 includes the form title information obtained by the form title candidate extraction means 12, the ruled line information obtained by the ruled line extraction means 2, and the preprinted character string obtained by the preprint character string extraction means 3. The character string information, the information on the outer peripheral ruled line for the field candidate obtained by the field candidate extracting means 7 and the included preprint character string information, and the field type obtained by the field type determining means 8 and the field attribute obtained by the field attribute setting means 9 The field attributes, the preprinted character string shape information obtained by the preprinted character string shape information creating means 13, and the output format obtained by the output format setting means 10 are output to a disk or memory as a form format.

【0044】出力する帳票フォーマットテーブルの例を
図12に示す。図12中、1911は帳票タイトル19
10の左上位置、1912は同幅、1913は同高さ、
1914は同文字列コードを示す。[罫線1]1915
に対応する罫線の情報は始点1916、終点1917、
[罫線2]1918に対応する罫線の情報は始点191
9、終点1921、交点1919・1920・1921
である。[フィールド1]1922に対応するフィール
ドの情報は、フィールド種別1923、フィールド属性
1924、プレプリント文字列情報1925、その位置
1926、同幅1927、同高さ1928、同形状情報
1929である。また、ディスプレイへの表示手段を設
けて、オペレータによる上記帳票フォーマットの修正を
受け付けてもよい。
FIG. 12 shows an example of a form format table to be output. In FIG. 12, reference numeral 1911 denotes a form title 19
10, upper left position, 1912 is the same width, 1913 is the same height,
Reference numeral 1914 denotes the same character string code. [Rule 1] 1915
The information on the ruled line corresponding to the start point 1916, the end point 1917,
[Rule 2] The information of the rule corresponding to 1918 is the starting point 191.
9, End point 1921, Intersection points 1919, 1920, 1921
It is. The information of the field corresponding to [Field 1] 1922 is a field type 1923, a field attribute 1924, preprint character string information 1925, a position 1926, a width 1927, a height 1928, and a shape information 1929. Further, a display means on a display may be provided to receive the correction of the form format by the operator.

【0045】実施の形態1によれば、未記入の帳票画像
から、フィールド種別とチェックマークフィールドの認
識結果の出力形式と帳票識別のためのID番号に相当す
る帳票タイトルの設定を自動化したことによって、帳票
読取フォーマットを効率的に作成することができる。
According to the first embodiment, from the blank form image, the setting of the field type, the output format of the recognition result of the check mark field, and the setting of the form title corresponding to the ID number for form identification are automated. And a form reading format can be efficiently created.

【0046】実施の形態2.以下、この発明の実施の形
態2(特長的構成要素であるフィールド種別判定手段の
動作)を図1、図13〜15を用いて説明する。図13
はチェックマークフィールドの例、図14は図13に示
したチェックマークフィールド中のプレプリント文字列
に対応するプレプリント文字列情報テーブルの例、図1
5は図13に示したチェックマークフィールドのフィー
ルド情報の例である。なお、フィールド種別判定手段以
外の動作は実施の形態1と同様であるため説明を省略す
る。実施の形態2におけるフィールド種別判定手段8
は、フィールド候補抽出手段7でフィールド候補として
抽出した図13の領域1703内部のプレプリント文字
列1704・1705に対応する図14に示すプレプリ
ント文字列情報テーブルのプレプリント文字列番号22
01・2202のプレプリント文字列情報を参照する
(図14のプレプリント文字列情報は、プレプリント文
字列抽出手段3、プレプリント文字列認識手段4、キー
ワード照合手段6によって作成した情報である)。
Embodiment 2 Hereinafter, Embodiment 2 of the present invention (the operation of the field type determining means as a characteristic component) will be described with reference to FIG. 1 and FIGS. FIG.
FIG. 14 is an example of a check mark field, FIG. 14 is an example of a preprint character string information table corresponding to the preprint character string in the check mark field shown in FIG.
5 is an example of field information of the check mark field shown in FIG. The operation other than the field type determining means is the same as that of the first embodiment, and the description is omitted. Field type determination means 8 in the second embodiment
The preprint character string number 22 in the preprint character string information table shown in FIG. 14 corresponding to the preprint character strings 1704 and 1705 in the area 1703 in FIG.
Reference is made to the preprinted character string information of 01.2202 (the preprinted character string information in FIG. 14 is information created by the preprinted character string extracting means 3, the preprinted character string recognizing means 4, and the keyword matching means 6). .

【0047】次に、フィールド種別判定手段8は図14
に示すプレプリント文字列1704・1705に対応す
るそれぞれの認識結果2203・2204をたとえば図
7に示したキーワード辞書から検索する。図13の例で
は図7の1509、1510に示したプレプリント文字
列が選択肢を表すキーワードの項目1507の中に記載
されているので、上記フィールド種別判定手段8は、図
13のフィールド1703はチェックマークフィールド
であると判断し、図13のフィールド1703に対応す
る図15に示すフィールド番号2301のフィールドの
フィールド種別を「マーク」2302と出力する。
Next, the field type judging means 8 shown in FIG.
For example, the recognition results 2203 and 2204 corresponding to the preprinted character strings 1704 and 1705 shown in FIG. In the example of FIG. 13, the preprint character strings shown in 1509 and 1510 in FIG. 7 are described in the item 1507 of the keyword representing the option, so that the field type determination unit 8 checks the field 1703 in FIG. It is determined that the field is a mark field, and the field type of the field with the field number 2301 shown in FIG. 15 corresponding to the field 1703 in FIG. 13 is output as “mark” 2302.

【0048】実施の形態2によれば、抽出したフィール
ドがチェックマークフィールドであっても、フィールド
種別を判定することができる。
According to the second embodiment, even if the extracted field is a check mark field, the field type can be determined.

【0049】実施の形態3.以下、この発明の実施の形
態3(特長的構成要素であるフィールド種別判定手段の
動作)を図1、図16〜18を用いて説明する。図16
はイメージフィールドの例、図17は図16に示したイ
メージフィールド中のプレプリント文字列に対応するプ
レプリント文字列情報の例、図18図16に示したイメ
ージフィールドのフィールド情報の例である。なお、フ
ィールド種別判定手段以外の動作は実施の形態1と同様
であるため説明を省略する。実施の形態3におけるフィ
ールド種別判定手段8は、フィールド候補抽出手段7で
図16に示すように罫線で囲まれる領域として抽出した
フィールド3101内部のプレプリント文字列3102
に対応する、図17に示したプレプリント文字列情報テ
ーブルのプレプリント文字列番号3201のプレプリン
ト文字列情報を参照する(図17のプレプリント文字列
情報は、プレプリント文字列抽出手段3、プレプリント
文字列認識手段4、キーワード照合手段6によって作成
した情報である)。
Embodiment 3 Hereinafter, Embodiment 3 of the present invention (the operation of the field type determining means as a characteristic component) will be described with reference to FIG. 1 and FIGS. FIG.
17 shows an example of the image field, FIG. 17 shows an example of preprint character string information corresponding to the preprint character string in the image field shown in FIG. 16, and FIG. 18 shows an example of field information of the image field shown in FIG. The operation other than the field type determining means is the same as that of the first embodiment, and the description is omitted. The field type determining means 8 according to the third embodiment includes a preprint character string 3102 in a field 3101 extracted by the field candidate extracting means 7 as an area surrounded by ruled lines as shown in FIG.
Reference is made to the preprinted character string information of the preprinted character string number 3201 in the preprinted character string information table shown in FIG. 17 (the preprinted character string information in FIG. This is information created by the preprint character string recognition means 4 and the keyword collation means 6).

【0050】次に、フィールド種別判定手段8はプレプ
リント文字列3102に対応する認識結果3202を得
た後、この認識結果文字列3202が図7に示したキー
ワード辞書に存在するかどうかを検索する。図16の例
では、図7の1511に示したプレプリント文字列「図
面」がイメージ領域を表すキーワードの項目1506の
中に記載されているので、フィールド種別判定手段8は
図16のフィールド3101はイメージフィールドであ
ると判断し、フィールド3101に対応する図18に示
したフィールド番号3301のフィールドのフィールド
種別を「イメージ」3302と出力する。
Next, after obtaining the recognition result 3202 corresponding to the preprinted character string 3102, the field type determining means 8 searches whether or not the recognition result character string 3202 exists in the keyword dictionary shown in FIG. . In the example of FIG. 16, the preprint character string “drawing” shown at 1511 in FIG. 7 is described in the keyword item 1506 representing the image area. It is determined that the field is an image field, and the field type of the field with the field number 3301 shown in FIG.

【0051】実施の形態3によれば、抽出したフィール
ドがイメージフィールドであっても、フィールド種別を
判定することができる。
According to the third embodiment, the field type can be determined even if the extracted field is an image field.

【0052】実施の形態4.以下、この発明の実施の形
態4(特長的構成要素である出力形式設定手段)を図
1、図19〜21を用いて説明する。図19は選択項目
として文字列を記入するフィールドを含むチェックマー
クフィールドの例、図20は図19に示した文字列記入
フィールドに文字列を記入した例、図21は図19に示
したチェックマークフィールドおよび文字列フィールド
のフィールド情報の例である。なお、出力形式設定手段
以外の動作は実施の形態1と同様であるため説明を省略
する。実施の形態4においてフィールド候補抽出手段7
とフィールド種別判定手段8は、図19に示すようなプ
レプリント文字列4102、4104、4106、41
08の4つの選択肢にマークを記入するチェックマーク
フィールド4101を検出した後、各選択肢を表すプレ
プリント文字列4103、4105、4107、410
9の他にプレプリント文字「(」4111と「)」41
12ではさまれた文字列フィールド4110が存在して
いるかどうかを判定する。文字列フィールドが存在する
と判定した場合は、フィールド候補抽出手段7とフィー
ルド種別判定手段8は、実施例1の動作で示した方法
で、チェックマークフィールド4101に内包されるフ
ィールド4110を抽出する。
Embodiment 4 FIG. Hereinafter, Embodiment 4 (output format setting means as a characteristic component) of the present invention will be described with reference to FIG. 1 and FIGS. 19 shows an example of a check mark field including a field for entering a character string as a selection item, FIG. 20 shows an example in which a character string is entered in the character string entry field shown in FIG. 19, and FIG. 21 shows a check mark shown in FIG. It is an example of field information of a field and a character string field. The operation other than the output format setting means is the same as that of the first embodiment, and the description is omitted. Field candidate extracting means 7 in the fourth embodiment
And the field type determining means 8 performs a preprint character string 4102, 4104, 4106, 41 as shown in FIG.
After detecting a check mark field 4101 for writing marks in four options 08, preprint character strings 4103, 4105, 4107, 410 representing each option
9 and the preprinted characters "(" 4111 and ")" 41
It is determined whether or not a character string field 4110 sandwiched between the two exists. If it is determined that a character string field exists, the field candidate extracting unit 7 and the field type determining unit 8 extract the field 4110 included in the check mark field 4101 by the method described in the operation of the first embodiment.

【0053】次に、出力形式設定手段10は、チェック
マークフィールド4101に内包されるフィールド41
10の位置と、各選択肢を表すプレプリント文字列41
03、4105、4107、4109との位置を照合
し、チェックマークフィールド4101に内包されるフ
ィールド4110が対応するプレプリント文字を決定す
る。図19の例では、垂直方向の座標位置が一致するプ
レプリント文字列4109に対応付けられる。
Next, the output format setting means 10 checks the field 41 included in the check mark field 4101.
Preposition character string 41 indicating the position of 10 and each option
03, 4105, 4107, and 4109 are collated, and a preprint character corresponding to a field 4110 included in the check mark field 4101 is determined. In the example of FIG. 19, the pre-printed character string 4109 is associated with the coordinate position in the vertical direction.

【0054】次に図19に示すフィールド4101に対
応する、図21に示したフィールド番号4301のフィ
ールドのフィールド情報における出力形式として、「プ
レプリント文字列4103、4105、4107の認識
結果および4109の認識結果にフィールド4110の
記入文字列イメージ4201を付加したもののうち、マ
ークを認識したプレプリント文字列4102・4104
・4106・4108に対応するものを出力する」とい
う命令4302を設定する。帳票認識時には、図20に
示すような記入があった場合に認識結果として、「その
他」という文字コードとフィールド4110に記入され
た画像4112を出力する。
Next, as the output format in the field information of the field with the field number 4301 shown in FIG. 21 corresponding to the field 4101 shown in FIG. 19, "recognition result of preprint character strings 4103, 4105, 4107 and recognition of 4109" Of the result obtained by adding the character string image 4201 of the field 4110 to the result, the preprinted character strings 4102 and 4104 that recognize the mark
"Output corresponding to 4106 and 4108" is set. At the time of form recognition, when an entry as shown in FIG. 20 is made, a character code of “others” and an image 4112 entered in the field 4110 are output as a recognition result.

【0055】実施の形態4によれば、選択肢に文字記入
フィールドがあるチェックマークフィールドの認識結果
出力時に、マークの認識結果に選択肢を表わすプレプリ
ント文字列と記入文字のイメージを付加することによっ
て、選択肢以外の項目の入力を円滑に行うことができ
る。
According to the fourth embodiment, when a recognition result of a check mark field having a character entry field as an option is output, a preprinted character string representing the option and an image of an entry character are added to the recognition result of the mark. Items other than options can be smoothly input.

【0056】実施の形態5.以下、この発明の実施の形
態(特長的構成要素である出力形式設定手段)を図1、
図19、図22、図23を用いて説明する。図19は選
択項目として文字列を記入するフィールドを含むチェッ
クマークフィールドの例、図22はチェックマークフィ
ールド内の文字列記入フィールドに記入された文字列の
例、図23は図19に示したチェックマークフィールド
および文字列フィールドのフィールド情報の例である。
なお、出力形式設定手段以外の動作は実施の形態1と同
様であるため、説明を省略する。実施の形態5において
フィールド候補抽出手段7とフィールド種別判定手段8
は、図19に示すようなプレプリント文字列4102、
4104、4106、4108の4つの選択肢にマーク
を記入するチェックマークフィールド4101を検出し
た後、各選択肢を表すプレプリント文字列4103、4
105、4107、4109の他にプレプリント文字
「(」4111と「)」4112ではさまれた文字列フ
ィールド4110が存在しているかどうかを判定する。
文字列フィールドが存在すると判定した場合は、フィー
ルド候補抽出手段7とフィールド種別判定手段8は、実
施の形態1の動作で示した方法で、チェックマークフィ
ールド4101に内包されるフィールド4110を抽出
する。
Embodiment 5 An embodiment of the present invention (output format setting means as a characteristic component) will be described below with reference to FIG.
This will be described with reference to FIGS. 19, 22 and 23. 19 shows an example of a check mark field including a field for entering a character string as a selection item, FIG. 22 shows an example of a character string entered in a character string entry field in the check mark field, and FIG. 23 shows a check shown in FIG. It is an example of field information of a mark field and a character string field.
The operation other than the output format setting means is the same as that of the first embodiment, and the description is omitted. In the fifth embodiment, the field candidate extracting means 7 and the field type determining means 8
Is a preprinted character string 4102 as shown in FIG.
After detecting a check mark field 4101 for writing marks in the four options 4104, 4106, and 4108, a preprinted character string 4103,
It is determined whether there is a character string field 4110 sandwiched between preprinted characters “(” 4111 and “)” 4112 in addition to 105, 4107, and 4109.
If it is determined that a character string field exists, the field candidate extracting unit 7 and the field type determining unit 8 extract the field 4110 included in the check mark field 4101 by the method described in the operation of the first embodiment.

【0057】次に出力形式設定手段10は、チェックマ
ークフィールド4101に内包されるフィールド411
0の位置と、各選択肢を表すプレプリント文字列410
3、4105、4107、4109との位置を照合し、
チェックマークフィールド4101に内包されるフィー
ルド4110が対応するプレプリント文字を決定する。
図19の例では、垂直方向の座標位置が一致するプレプ
リント文字列4109に対応付ける。
Next, the output format setting means 10 outputs a field 411 included in the check mark field 4101.
Pre-printed character string 410 representing the position of 0 and each option
3, 4105, 4107, and 4109,
A field 4110 included in the check mark field 4101 determines a corresponding preprint character.
In the example of FIG. 19, the preprinted character string 4109 having the same coordinate position in the vertical direction is associated.

【0058】次に、図19に示したフィールド4101
に対応する図23のフィールド番号4301のフィール
ドのフィールド情報における出力形式として、「プレプ
リント文字列4102・4104・4106にマークさ
れた場合は、それぞれプレプリント文字列4103、4
105、4107の認識結果を出力し、プレプリント文
字列4108にマークされた場合は、プレプリント文字
列4109の認識結果にフィールド4110の記入文字
列の認識結果を付加したものを出力する」という命令を
5202を記述する。帳票認識時に図22に示すような
記入があった場合、認識結果として「その他」という文
字コードと記入文字列イメージ5101の認識結果の文
字コード列「寒い時」5102を出力する。
Next, the field 4101 shown in FIG.
As the output format in the field information of the field with the field number 4301 in FIG. 23 corresponding to “preprint character strings 4102, 4104, and 4106, the preprint character strings 4103, 4103,
105, the recognition result of 4107 is output, and when the preprint character string 4108 is marked, the recognition result of the preprint character string 4109 and the recognition result of the character string entered in the field 4110 are output. 5202 is described. If there is an entry as shown in FIG. 22 at the time of form recognition, a character code of “Others” and a character code string “when cold” 5102 of the recognition result of the input character string image 5101 are output as the recognition result.

【0059】実施の形態5によれば、選択肢に文字記入
フィールドがあるチェックマークフィールドの認識結果
出力時に、マークの認識結果に選択肢を表わすプレプリ
ント文字列と記入文字の認識結果を付加することによっ
て、選択肢以外の項目の入力を円滑に行うことができ
る。
According to the fifth embodiment, at the time of outputting the recognition result of the check mark field in which the character entry field is included in the option, the preprint character string representing the option and the recognition result of the input character are added to the recognition result of the mark. , Items other than options can be smoothly input.

【0060】実施の形態6.以下、この発明の実施の形
態6(特長的構成要素である出力形式設定手段)を図
1、図24〜26を用いて説明する。図24は水平線で
構成されたチェックマークフィールドの例、図25は図
24に示したチェックマークフィールドにマークを記入
した例、図26は図24に示したチェックマークフィー
ルドのフィールド情報の例である。なお、出力形式設定
手段以外の動作は実施の形態1と同様であるため説明を
省略する。実施の形態6においてフィールド候補抽出手
段7とフィールド種別判定手段8は、図24に示すよう
な、連続する水平線に対して複数の短い垂直線が交差し
ているフィールドを検出した場合は、連続した直線で構
成され直線上の任意の位置にマークを記入することがで
きるチェックマークフィールド6101であると判断す
る。
Embodiment 6 FIG. Hereinafter, a sixth embodiment (output format setting means as a characteristic component) of the present invention will be described with reference to FIG. 1 and FIGS. 24 shows an example of a check mark field composed of horizontal lines, FIG. 25 shows an example in which a mark is written in the check mark field shown in FIG. 24, and FIG. 26 shows an example of field information of the check mark field shown in FIG. . The operation other than the output format setting means is the same as that of the first embodiment, and the description is omitted. In the sixth embodiment, when the field candidate extracting unit 7 and the field type determining unit 8 detect a field where a plurality of short vertical lines intersect a continuous horizontal line as shown in FIG. It is determined that the check mark field 6101 is a check mark field 6101 which is formed of a straight line and in which a mark can be written at an arbitrary position on the straight line.

【0061】次に出力形式設定手段10は、連続した直
線で構成され直線上の任意の位置にマークを記入するこ
とができるチェックマークフィールド6101に対し
て、図25に示すフィールド左端位置6202とフィー
ルド右端位置6203を検出し、フィールドの出力形式
として、(マーク中央位置−フィールド左端位置)/
(フィールド右端位置−フィールド左端位置)なる命令
6302を設定する。
Next, the output format setting means 10 sets a field left end position 6202 shown in FIG. 25 to a check mark field 6101 which is formed of a continuous straight line and in which a mark can be written at an arbitrary position on the straight line. The right end position 6203 is detected, and the output format of the field is (mark center position−field left end position) /
An instruction 6302 of (field right end position-field left end position) is set.

【0062】帳票認識時に図25の丸印マーク6201
に示すような記入があった場合、フィールド左端位置6
202とフィールド右端位置6203の間の距離620
5を計測する。次に、公知の技術を用いて直線を消去す
ることにより、マーク6201を抽出して中心座標を求
め、フィールド左端位置6202とマーク6201の間
の距離6206を計測する。その上で、図26の命令6
302に従って全体の長さに対するマーク位置の割合を
認識結果として出力する。
At the time of form recognition, a circle mark 6201 in FIG.
If there is an entry as shown in the above, the field left end position 6
Distance 620 between 202 and field right end position 6203
5 is measured. Next, by erasing the straight line using a known technique, the mark 6201 is extracted to obtain the center coordinates, and the distance 6206 between the field left end position 6202 and the mark 6201 is measured. Then, the instruction 6 in FIG.
According to 302, the ratio of the mark position to the entire length is output as a recognition result.

【0063】実施の形態6によれば、連続する直線で構
成されたチェックマークフィールドの任意の位置に記入
したマークに対する認識結果を出力できるため、記入者
が記入しやすく多彩なチェックマークフィールドを構成
することができる。
According to the sixth embodiment, since a recognition result for a mark entered at an arbitrary position in a check mark field constituted by a continuous straight line can be output, a variety of check mark fields can be easily entered by a writer. can do.

【0064】実施の形態7.以下、この発明の実施の形
態7(特長的構成要素である帳票タイトル候補抽出手
段)を図1、図6、図27、図28を用いて説明する。
図27は帳票タイトル候補となる条件と、それぞれの条
件が満たされた場合の評価値とを予め格納した帳票タイ
トル条件格納テーブルの例、図28は図6に示した帳票
に含まれるプレプリント文字列に対して帳票タイトルと
しての評価値を示した例である。なお、帳票タイトル候
補抽出手段以外の動作は実施の形態1と同様であるため
説明を省略する。
Embodiment 7 FIG. Hereinafter, a seventh embodiment of the present invention (a form title candidate extracting unit as a characteristic component) will be described with reference to FIGS. 1, 6, 27, and 28.
FIG. 27 is an example of a form title condition storage table in which conditions that are form title candidates and evaluation values when the respective conditions are satisfied are previously stored. FIG. 28 is a diagram illustrating a preprinted character included in the form shown in FIG. It is an example showing an evaluation value as a form title for a column. The operation other than the form title candidate extracting means is the same as that of the first embodiment, and the description is omitted.

【0065】実施の形態7において帳票タイトル候補抽
出手段12は、たとえば図6に示した文字認識後のすべ
てのプレプリント文字列に対して、予め各項目に対して
定めた評価値を格納した図27に示すような帳票タイト
ル条件格納テーブルを参照することにより、プレプリン
ト文字列が帳票タイトルとなりえるかどうかを判定す
る。すなわち、帳票タイトル条件格納テーブルに格納さ
れている条件を満たしているかどうかを調べ、条件を満
たしている項目に関しては帳票タイトル条件格納テーブ
ルに記載されている評価値を加算し、評価値の和が最も
大きいプレプリント文字列を帳票タイトルと判定する。
図6のプレプリント文字列の評価値の例を図28に示
す。プレプリント文字列「サンプル帳票」7201は図
27の条件7101、7103、7105、7106、
7107、7108に該当するので、その評価値「5」
7202、「5」7203、「5」7204、「5」7
205、「3」7206、「5」7207を加算して合
計値「28」7208を得る。ここで他のプレプリント
文字列の合計値と比較すると「28」7208が最大で
あるので「サンプル帳票」7201を帳票タイトルと判
定し、図6に示したプレプリント文字列情報を参照して
開始位置1402、幅1403、高さ1404、認識結
果文字コード1405を帳票タイトル情報として出力す
る。
In the seventh embodiment, the form title candidate extraction means 12 stores, for example, evaluation values determined in advance for each item for all preprinted character strings after character recognition shown in FIG. By referring to a form title condition storage table as shown in FIG. 27, it is determined whether or not the preprint character string can be a form title. That is, it is checked whether or not the condition stored in the form title condition storage table is satisfied. For the items that satisfy the condition, the evaluation values described in the form title condition storage table are added, and the sum of the evaluation values is calculated. The largest preprint character string is determined as the form title.
FIG. 28 shows an example of the evaluation value of the preprinted character string in FIG. The preprint character string “sample form” 7201 is the condition 7101, 7103, 7105, 7106 in FIG.
7107 and 7108, the evaluation value “5”
7202, “5” 7203, “5” 7204, “5” 7
205, “3” 7206, and “5” 7207 are added to obtain a total value “28” 7208. Since “28” 7208 is the largest when compared with the total value of the other preprinted character strings, “sample form” 7201 is determined as the form title, and the processing is started with reference to the preprinted character string information shown in FIG. The position 1402, width 1403, height 1404, and recognition result character code 1405 are output as form title information.

【0066】実施の形態7によれば、より正確に帳票I
Dとしての帳票タイトルを検出することができる。
According to the seventh embodiment, the form I
The form title as D can be detected.

【0067】実施の形態8.以下、この発明の実施の形
態8(特長的構成要素であるプレプリント文字列形状情
報作成手段)を図1、図29を用いて説明する。図29
の101はプレプリント文字列形状情報作成手段への入
力であるプレプリント文字列領域画像、102はNxN
ドットの小領域、103はプレプリント文字列領域画像
101から抽出したプレプリント文字列形状情報、10
4は縦方向成分を持つ小領域、105は横方向成分を持
つ小領域を示す。なお、プレプリント文字列形状情報作
成手段以外の動作は実施の形態1と同様であるため説明
を省略する。
Embodiment 8 FIG. Embodiment 8 of the present invention (preprinted character string shape information creating means as a characteristic component) will be described below with reference to FIGS. FIG.
Reference numeral 101 denotes a preprinted character string area image input to the preprinted character string shape information creating means, and 102 denotes an NxN
Small dot area 103 is preprinted character string shape information extracted from preprinted character string area image 101,
Reference numeral 4 denotes a small area having a vertical component, and 105 denotes a small area having a horizontal component. Operations other than the preprinted character string shape information creating means are the same as those in the first embodiment, and a description thereof will be omitted.

【0068】実施の形態8においてプレプリント文字列
形状情報作成手段13は、まず図29に示すプレプリン
ト文字列画像101を入力すると、その画像をNxNド
ットサイズの小領域102に分割する。次に分割した各
小領域内で黒画素が縦方向に連続する場合は、その小領
域を縦方向成分を持つ小領域104とする。同様に黒画
素が横方向に連続する場合は、横方向成分を持つ小領域
105とする。ここで各小領域は、方向成分として”縦
方向成分”、”横方向成分”、”縦方向+横方向成分”
のいずれかを持つ。このように、プレプリント文字列領
域101上の全ての小領域に対して方向成分を求めた結
果を、プレプリント文字列形状情報103とする。
In the eighth embodiment, when the preprinted character string shape information creating means 13 receives a preprinted character string image 101 shown in FIG. 29, it divides the image into small areas 102 of N × N dot size. Next, when black pixels continue in the vertical direction in each divided small area, the small area is defined as a small area 104 having a vertical component. Similarly, when the black pixels are continuous in the horizontal direction, the small area 105 has a horizontal component. Here, each of the small areas has a “vertical component”, a “horizontal component”, and a “vertical + horizontal component”
With one of As described above, the result of obtaining the directional components for all the small areas on the preprinted character string area 101 is referred to as preprinted character string shape information 103.

【0069】実施の形態8によれば、プレプリント文字
列の形状情報を各小領域毎の方向成分で表現しているた
め、プレプリント文字列画像をそのまま形状情報として
帳票フォーマットに格納した場合よりも帳票フォーマッ
トのサイズを削減できる。
According to the eighth embodiment, since the shape information of the preprinted character string is expressed by the directional component of each small area, the preprinted character string image is stored as it is as the shape information in the form format. Can also reduce the size of the form format.

【0070】実施の形態9.以下、この発明の実施の形
態9を図について説明する。図30は本発明の実施の形
態9である記入済みの帳票を読取る過程のブロック図で
ある。図30において、1および2は図1と同様であ
る。図30の18は予め作成した帳票フォーマット群、
17は帳票フォーマットに記載されている帳票タイトル
情報に従い入力された帳票の種類を識別し、対応する帳
票フォーマットを1つ選択する帳票フォーマット選択手
段である。
Embodiment 9 Hereinafter, a ninth embodiment of the present invention will be described with reference to the drawings. FIG. 30 is a block diagram showing a process of reading a filled out form according to the ninth embodiment of the present invention. 30, 1 and 2 are the same as those in FIG. 30 in FIG. 30 is a form format group created in advance,
Reference numeral 17 denotes a form format selection unit that identifies the type of the input form according to the form title information described in the form format and selects one corresponding form format.

【0071】図30の19は帳票イメージから抽出した
罫線と帳票フォーマットに記載されている罫線とを対応
付ける罫線対応付け手段、20は帳票イメージ上のプレ
プリント文字列と帳票フォーマットに記載されているプ
レプリント文字列とを対応付けるプレプリント文字列対
応付け手段である。
30 in FIG. 30 is a ruled line associating means for associating ruled lines extracted from the form image with ruled lines described in the form format, and 20 is a preprint character string on the form image and a pre-printed character string described in the form format. This is a preprint character string associating means for associating with a print character string.

【0072】図30の21は帳票イメージから記入フィ
ールドを抽出するフィールド抽出手段、22は帳票フォ
ーマットの罫線情報を参照して帳票イメージ上の罫線画
像を消去する手段、23は帳票フォーマットのプレプリ
ント文字列情報を参照して帳票イメージ上のプレプリン
ト文字列部分を消去する手段である。
30 is a field extracting means for extracting an entry field from a form image, 22 is a means for deleting a ruled line image on a form image by referring to ruled line information in a form format, and 23 is a preprinted character in a form format. This is a means for deleting the preprinted character string portion on the form image by referring to the column information.

【0073】図30の24は文字列記入フィールド上に
残された文字列画像を認識する記入文字列認識手段、2
5はチェックマークフィールド上に残されたマークを認
識する記入マーク認識手段、26は帳票フォーマットの
出力コード情報を参照して記入文字列およびマークの認
識結果を出力する手段である。
Reference numeral 24 in FIG. 30 denotes an entry character string recognizing means for recognizing a character string image left on the character string entry field.
Reference numeral 5 denotes an entry mark recognition means for recognizing the mark left on the check mark field, and reference numeral 26 denotes a means for outputting the recognition result of the entry character string and the mark by referring to the output code information in the form format.

【0074】図31は記入済みの帳票イメージである。
図32は罫線対応付け手段19の動作を説明するもので
あり、図において、110は帳票フォーマットに記載さ
れた罫線を表し、112〜114は帳票フォーマットに
記載された罫線の一部である。また111は記入済み帳
票イメージから抽出された罫線を表し、115〜117
はそれら抽出された罫線の一部である。
FIG. 31 shows a completed form image.
FIG. 32 illustrates the operation of the ruled line association means 19. In the figure, reference numeral 110 denotes a ruled line described in a form format, and 112 to 114 are part of the ruled lines described in the form format. Reference numeral 111 denotes a ruled line extracted from the filled-out form image.
Are part of the extracted ruled lines.

【0075】図33と図34はプレプリント文字列対応
付け手段20の動作を説明するものであり、130は記
入済み帳票イメージ上のプレプリント文字列領域、13
1はプレプリント文字列領域の概略形状、133はNx
Nドット小領域、140は帳票フォーマットに記載され
たプレプリント文字列の形状情報、132はプレプリン
ト文字列の形状情報140から作成した概略形状であ
る。また134〜139と177は小領域の例である。
FIGS. 33 and 34 illustrate the operation of the preprinted character string associating means 20. Reference numeral 130 denotes a preprinted character string area on a completed form image.
1 is the schematic shape of the preprinted character string area, 133 is Nx
N dot small area, 140 is the shape information of the preprinted character string described in the form format, 132 is the schematic shape created from the shape information 140 of the preprinted character string. 134 to 139 and 177 are examples of small areas.

【0076】図35はフィールド抽出手段21と罫線消
去手段22、およびプレプリント文字列消去手段23の
動作を説明するものであり、150、151と154は
フィールド抽出手段21で抽出したフィールド領域イメ
ージ、152と153はプレプリント文字列消去手段2
3によりプレプリントを除去した結果、155は罫線消
去手段22で罫線を除去した結果、156は罫線であ
る。図37は認識結果の例である。
FIG. 35 illustrates the operation of the field extracting means 21, the ruled line erasing means 22, and the preprinted character string erasing means 23. Reference numerals 150, 151 and 154 denote field region images extracted by the field extracting means 21, 152 and 153 are preprint character string erasing means 2
As a result of removing the preprint by the step 3, the result 155 is the result of removing the ruled line by the ruled line erasing means 22, and the numeral 156 is a ruled line. FIG. 37 shows an example of the recognition result.

【0077】次に動作を説明する。図30に示した記入
済み帳票を読取る過程のブロック図を基に、図31の具
体的な記入済み帳票例を参照しながら動作を説明する。
まず帳票イメージ格納手段1は、図1で既に示したと同
様に、記入済みの帳票をイメージスキャナやファクシミ
リによって読取り、図31に示す帳票イメージを取得す
る。
Next, the operation will be described. The operation will be described based on the block diagram of the process of reading the filled-out form shown in FIG. 30 and referring to a specific filled-out form example in FIG.
First, the form image storage unit 1 reads the completed form with an image scanner or a facsimile and acquires the form image shown in FIG. 31 in the same manner as shown in FIG.

【0078】次に帳票フォーマット選択手段17は、予
め作成しておいた帳票フォーマット群18から各帳票フ
ォーマットに記載された帳票タイトルの情報(位置、幅
高さ、文字コード)を順に読込み、帳票タイトル位置の
近傍に存在する帳票イメージ上の文字列を認識する。こ
の時、文字列の認識結果と帳票タイトルの文字コードが
一致した場合、その帳票フォーマットを入力された帳票
イメージに対応する帳票フォーマットであるとする。そ
して以降の処理過程では、その帳票フォーマットを用い
て処理を行う。ここで、文字列の認識結果と帳票タイト
ルの文字コードが一致する帳票フォーマットがなかった
場合は、入力された帳票イメージが未登録の帳票である
と考え、全処理を終了する。
Next, the form format selecting means 17 sequentially reads the form title information (position, width, height, character code) described in each form format from the form formats group 18 created in advance, and Recognize a character string on the form image existing near the position. At this time, when the character string recognition result matches the character code of the form title, the form format is assumed to be a form format corresponding to the input form image. In the subsequent processing steps, processing is performed using the form format. Here, if there is no report format in which the character string recognition result matches the character code of the report title, it is considered that the input report image is an unregistered report, and the entire process ends.

【0079】次に罫線抽出手段2は、図31に示す帳票
イメージを与えると、実施の形態1で示した方法により
帳票イメージから図32に示すような罫線群11を抽出
する。そして、全罫線の始点・終点および交点位置座標
を出力する。
Next, given the form image shown in FIG. 31, the ruled line extracting means 2 extracts the ruled line group 11 as shown in FIG. 32 from the form image by the method shown in the first embodiment. Then, the start point / end point and intersection position coordinates of all the ruled lines are output.

【0080】次に罫線対応付け手段19は図32に示す
ように、罫線抽出手段2で抽出された罫線111と帳票
フォーマットに記載されている罫線110とを、罫線の
始点・終点および交点位置座標を元に対応付ける。これ
により例えば、罫線112と罫線115が、罫線113
と罫線116が、罫線114と罫線117が対応付く。
この罫線同士の対応付けは、例えば特出願平06−07
6795号公報の「表を含む帳票処理装置」に示された
手法や、「パターン認識」(舟久保 登著、共立出版)
のP.75に記述された弛緩法等の既存技術で実現でき
る。
Next, as shown in FIG. 32, the ruled line associating means 19 compares the ruled line 111 extracted by the ruled line extracting means 2 and the ruled line 110 described in the form format with the start point / end point of the ruled line and the intersection position coordinates. To the original. Thereby, for example, the ruled line 112 and the ruled line 115 are
And the ruled line 116, and the ruled line 114 and the ruled line 117 are associated with each other.
The correspondence between the ruled lines is described in, for example, Japanese Patent Application No. 06-07.
No.6795, “Method for processing a form including a table”, “Pattern recognition” (Noboru Funakubo, Kyoritsu Shuppan)
P. 75 can be realized by existing techniques such as the relaxation method.

【0081】次にプレプリント文字列対応付け手段20
は、帳票フォーマットに記述されているプレプリント文
字列を帳票イメージ上の文字列と対応付ける。対応付け
では、まず帳票フォーマットに記述されたプレプリント
文字列位置座標に対し、罫線対応付け手段19で得た罫
線同士の対応付け結果を元に補正を加えることで、帳票
イメージ上でのプレプリント文字列位置を推定する。そ
して推定した文字列位置の近傍のイメージを切り出す。
これにより、例えば帳票フォーマットに記述されたプレ
プリント文字列”月 日”を対応付ける場合、図31に
示した記入済み帳票イメージから図33に示すイメージ
130が切り出される。
Next, the preprint character string associating means 20
Associates a preprint character string described in a form format with a character string on a form image. In the association, first, the preprint character string position coordinates described in the form format are corrected based on the result of association between the ruled lines obtained by the ruled line associating means 19, so that preprinting on the form image is performed. Estimate the character string position. Then, an image near the estimated character string position is cut out.
Thus, for example, when associating the preprinted character string "month and day" described in the form format, the image 130 shown in FIG. 33 is cut out from the filled-out form image shown in FIG.

【0082】次に、切り出したイメージ130をNxN
ドットの小領域133に分割して、各小領域内部で黒画
素の密度を求める。これにより切り出したイメージ13
0の概略形状131を得る。ここで概略形状131内部
の四角形は各小領域での黒画素密度を示しており、四角
形が大きいほど黒画素密度が高いことを表わす。同様
に、帳票フォーマットに格納されたプレプリント文字列
形状情報140(プレプリント文字列のビットマップイ
メージ)からも各小領域での黒画素密度を求めて、帳票
フォーマットに記述されたプレプリント文字列の概略形
状132を得る。
Next, the extracted image 130 is represented by N × N
The density of black pixels is obtained by dividing the dot into small areas 133 and inside each small area. Image 13 cut out by this
A general shape 131 of 0 is obtained. Here, the square inside the schematic shape 131 indicates the black pixel density in each small area, and the larger the square, the higher the black pixel density. Similarly, the black pixel density in each small area is obtained from the preprint character string shape information 140 (bitmap image of the preprint character string) stored in the form format, and the preprint character string described in the form format is obtained. Is obtained.

【0083】その後、図34に示すように、記入済み帳
票イメージから作成したプレプリント文字列の概略形状
131を構成する各小領域と、帳票フォーマットに記述
されたプレプリント文字列の概略形状132を構成する
各小領域とを、小領域の黒画素密度を考慮して最適に対
応付ける。これにより、例えば小領域134と小領域1
37、小領域135と小領域138、小領域136と小
領域139が対応付く。この対応付けをプレプリント文
字列を含む全てのフィールドについて行う。
Thereafter, as shown in FIG. 34, each of the small regions constituting the schematic shape 131 of the preprinted character string created from the filled-out form image and the schematic shape 132 of the preprinted character string described in the form format are displayed. Each of the constituent small regions is optimally associated with each other in consideration of the black pixel density of the small region. Thereby, for example, the small area 134 and the small area 1
37, the small area 135 and the small area 138, and the small area 136 and the small area 139 are associated with each other. This association is performed for all fields including the preprint character string.

【0084】このような小領域の対応付けは、例えば
「ニューラルネットと脳理論」(M.A.アービフ著、
サイエンス社)のP.382に記述されているMATC
Hアルゴリズム等の既存技術で実現できる。これによ
り、帳票イメージに位置ずれや歪み、拡大・縮小が存在
しても、帳票イメージ上のプレプリント文字列位置を正
確に特定できる。
For example, the correspondence between such small regions is described in “Neural Network and Brain Theory” (MA Erbiff,
Science). MATC described in 382
It can be realized by the existing technology such as the H algorithm. As a result, even if there is a positional shift, distortion, or enlargement / reduction in the form image, the preprint character string position on the form image can be accurately specified.

【0085】次にフィールド抽出手段21は、まず罫線
対応付け手段19で得た罫線同士の対応結果、およびプ
レプリント文字列対応付け手段20で得られたプレプリ
ント文字列同士の対応付け結果を元にして、帳票フォー
マットに記載された記入フィールドの位置(始点、幅高
さ)を補正し、帳票イメージ上での正確な記入フィール
ド領域位置を特定する。これにより、例えば図35に示
すようなフィールド領域のイメージ150、151、1
54を取得する。
Next, the field extracting means 21 first obtains the correspondence result between the ruled lines obtained by the ruled line associating means 19 and the result of association between the preprinted character strings obtained by the preprinted character string associating means 20. Then, the position (start point, width and height) of the entry field described in the form format is corrected, and the accurate entry field area position on the form image is specified. Thereby, for example, images 150, 151, 1 of the field area as shown in FIG.
Acquire 54.

【0086】次に罫線消去手段22では、罫線対応付け
手段19で求めた罫線同士の対応関係を元にして、帳票
フォーマットに記載された罫線に対応付いた罫線の画像
を、フィールド抽出手段21で求めたフィールド領域イ
メージから消去する。これにより罫線を含んだフィール
ド領域のイメージ154から罫線部分156を取り除い
たイメージ155を得る。
Next, in the ruled line erasing means 22, based on the correspondence between the ruled lines obtained by the ruled line associating means 19, the image of the ruled line corresponding to the ruled line described in the form format is extracted by the field extracting means 21. Erase from the obtained field area image. As a result, an image 155 is obtained by removing the ruled line portion 156 from the image 154 of the field area including the ruled line.

【0087】次にプレプリント文字列消去手段23で
は、プレプリント文字列対応付け手段20で得た文字列
同士の対応関係を元にして、フィールド領域イメージか
らプレプリントの画像を消去する。ここで消去する画像
領域は、プレプリント文字列対応付け手段20での小領
域同士の対応付け(図34)において、概略形状132
上の小領域と対応付いた、概略形状131上の小領域内
部とする。ただし、概略形状131上の小領域177の
ように、その上下左右に位置する小領域のいずれかが概
略形状132上の小領域と対応付かない場合は、その内
部の画像を消去しない。
Next, the preprint character string erasing means 23 deletes the preprint image from the field area image based on the correspondence between the character strings obtained by the preprint character string associating means 20. Here, the image area to be erased has a schematic shape 132 in association of small areas by the preprint character string association means 20 (FIG. 34).
The inside of the small area on the schematic shape 131 is associated with the upper small area. However, if any of the small areas located on the upper, lower, left, and right sides of the small area on the general shape 131 does not correspond to the small area on the general shape 132 as in the small area 177 on the general shape 131, the image inside the small area is not deleted.

【0088】これにより、図35のイメージ150に示
すように記入した文字と線幅の太いプレプリント文字列
とが接触した場合でも、記入文字を損なうことなくプレ
プリント文字列のみを消去したフィールド領域イメージ
152を得ることができる。同様に、図35のイメージ
151に示すように、チェックマークフィールドに対し
ても、プレプリント文字列のみを消去したフィールド領
域イメージ153を得ることができ、マークが記入され
たかの判定だけでなく、文字列上に記入されたマークの
形状も得ることができる。
As a result, even if a character entered as shown in image 150 in FIG. 35 contacts a preprinted character string having a large line width, the field area in which only the preprinted character string is erased without losing the entered character. An image 152 can be obtained. Similarly, as shown in an image 151 in FIG. 35, a field area image 153 in which only the preprint character string is erased can be obtained for the check mark field. The shape of the mark entered on the column can also be obtained.

【0089】その後、記入文字列認識手段24では、罫
線およびプレプリント文字列の画像が消去された文字記
入フィールド領域イメージ152、155に対して、記
入された文字列を文字認識する。その結果イメージ15
2から文字コード”11 4”を、イメージ155から
は”山田”を得る。
Thereafter, the entered character string recognizing means 24 recognizes the entered character string with respect to the character entry field area images 152 and 155 from which the image of the ruled line and the preprinted character string has been deleted. Result image 15
The character code “114” is obtained from “2”, and “Yamada” is obtained from the image 155.

【0090】次に、記入マーク認識手段25では、罫線
およびプレプリント文字列の画像が消去されたチェック
フィールド領域イメージ153に対して記入されたマー
クの認識を行ない、その結果イメージ153から文字コ
ード”レ”を得る。
Next, the entry mark recognizing means 25 recognizes the entered mark with respect to the check field area image 153 from which the image of the ruled line and the preprinted character string has been deleted. As a result, the character code " Get "

【0091】最後に、記入文字列・マーク認識結果出力
手段26は、文字認識結果を外部に出力する。ここで記
入マーク認識手段25で得たマークの認識結果には、帳
票フォーマット18に記載された出力形式にしたがって
出力する。これにより、チェックフィールド領域イメー
ジ153のマーク認識結果として得られた文字コード”
レ”+”はい”となる。
Finally, the input character string / mark recognition result output means 26 outputs the character recognition result to the outside. Here, the mark recognition result obtained by the entry mark recognition means 25 is output according to the output format described in the form format 18. As a result, the character code obtained as the mark recognition result of the check field area image 153 "
Re "+" Yes ".

【0092】図36に図31の記入済み帳票から抽出し
た帳票タイトル180および記入フィールド181〜1
89を示す。これらのフィールドの認識結果を図37の
190〜199に示す。図37において184Aは図3
6におけるフィールド184に対応したフィールド番号
である。
FIG. 36 shows a form title 180 and entry fields 181-1 extracted from the completed form shown in FIG.
89 is shown. The recognition results of these fields are shown in 190 to 199 in FIG. In FIG. 37, 184A corresponds to FIG.
6 is a field number corresponding to the field 184 in FIG.

【0093】以上のように本実施の形態によれば、罫線
同士の対応付けとプレプリント文字列同士の対応付けを
おこない、その結果を元にしてフィールド領域位置を補
正する。そのため帳票イメージに拡大・縮小や歪み、平
行移動が生じた場合でも正しくフィールド領域を特定で
きる。また、プレプリント文字列同士の対応付けを小領
域単位で行い、帳票フォーマットに記載されたプレプリ
ント文字列から抽出した小領域に対応付く帳票イメージ
上の小領域に対してのみ、その小領域内部の画像を消去
する。ただし、帳票イメージ上の小領域において、その
上下左右に位置する小領域のいずれかが帳票イメージ上
の小領域と対応付かない場合は、その内部の画像を消去
しないとする。これにより記入文字とプレプリント文字
列が接触した場合も記入文字を損なうことなくプレプリ
ント部分を除去できると共に、マークが記入された際に
は、マークの有無だけでなく、そのマーク形状も知るこ
とができる。
As described above, according to the present embodiment, the correspondence between the ruled lines and the preprinted character strings are performed, and the field area position is corrected based on the result. Therefore, the field area can be correctly specified even when the form image is enlarged, reduced, distorted, or translated. In addition, the preprint character strings are associated with each other on a small area basis, and only the small area on the form image associated with the small area extracted from the preprint character string described in the form format is included in the small area. Delete the image of. However, in the small area on the form image, if any of the small areas located above, below, left and right does not correspond to the small area on the form image, the image inside the small area is not erased. This makes it possible to remove the preprinted part without losing the characters even if the characters to be written and the preprinted character string are in contact, and to know not only the presence or absence of the mark but also the shape of the mark when the mark is written. Can be.

【0094】実施の形態10.次にこの発明の実施の形
態10について図38と図39を用いて説明する。図3
8と図39は実施の形態10において、プレプリント文
字列対応付け手段20とプレプリント文字列消去手段2
3の動作を説明するものであり、図38の130は記入
済み帳票イメージ上のプレプリント文字列領域、133
はNxNドット小領域である。また図39の103は帳
票フォーマットに記載されたプレプリント文字列の形状
情報である。また161はプレプリント文字列領域13
0から抽出した形状情報、170は縦方向成分をもつ小
領域、171は横方向成分を持つ小領域、164〜16
9および172、173は小領域の例である。
Embodiment 10 FIG. Next, a tenth embodiment of the present invention will be described with reference to FIGS. FIG.
8 and FIG. 39 show the preprinted character string associating means 20 and the preprinted character string erasing means 2 in the tenth embodiment.
38 is described. Reference numeral 130 in FIG. 38 denotes a preprinted character string area 133 on the completed form image.
Is an N × N dot small area. Reference numeral 103 in FIG. 39 denotes shape information of a preprinted character string described in a form format. 161 is the preprint character string area 13
Shape information extracted from 0, 170 is a small area having a vertical component, 171 is a small area having a horizontal component, 164 to 16
9 and 172, 173 are examples of small areas.

【0095】実施の形態10は、帳票フォーマットに格
納されたプレプリント文字列形状情報が、実施の形態8
で説明したように小領域毎の方向成分で表現された場合
における、記入済み帳票の読取り方式である。ここでは
帳票フォーマット作成処理の動作を示す図1に基づいて
実施の形態10の動作を説明するが、プレプリント文字
列対応付け手段20とプレプリント文字列消去手段23
以外の動作は実施の形態9と同様であるため説明を割愛
する。まず、プリント文字列対応付け手段20は、帳票
フォーマットに記述されているプレプリント文字列を帳
票イメージ上の文字列と対応付ける。対応付けでは、ま
ず帳票フォーマットに記述されたプレプリント文字列位
置座標に対し、罫線対応付け手段19で得た罫線同士の
対応付け結果を元に補正を加えることで、帳票イメージ
上でのプレプリント文字列位置を推定する。そして推定
した文字列位置の近傍のイメージを切り出す。これによ
り帳票フォーマットに記述されたプレプリント文字列”
月 日”を対応付ける場合、記入済み帳票イメージ(図
31)から図38に示すイメージ130を切り出す。
In the tenth embodiment, the preprinted character string shape information stored in the form
This is a method for reading a filled-out form when it is represented by a directional component for each small area as described in. Here, the operation of the tenth embodiment will be described with reference to FIG. 1 showing the operation of the form format creation processing, but the preprint character string associating means 20 and the preprint character string erasing means 23
Operations other than the above are the same as those in the ninth embodiment, and a description thereof will be omitted. First, the print character string associating means 20 associates the preprint character string described in the form format with the character string on the form image. In the association, first, the preprint character string position coordinates described in the form format are corrected based on the result of association between the ruled lines obtained by the ruled line associating means 19, so that preprinting on the form image is performed. Estimate the character string position. Then, an image near the estimated character string position is cut out. The preprint character string described in the form format
When associating "month and day", an image 130 shown in FIG. 38 is cut out from the completed form image (FIG. 31).

【0096】次に、切り出したイメージ130をNxN
ドットの小領域133に分割して、各小領域内部で方向
成分を求める。この方向成分は実施例8に示した方法で
求めることができる。これにより切り出したイメージ1
30から縦方向成分を持つ小領域170や、横方向成分
を持つ小領域171を得る。そしてこれら方向性を持っ
た小領域を形状情報161とする。
Next, the extracted image 130 is converted into an N × N
The dot is divided into small regions 133, and the directional component is obtained inside each small region. This direction component can be obtained by the method described in the eighth embodiment. Image 1 cut out by this
From 30, a small area 170 having a vertical component and a small area 171 having a horizontal component are obtained. Then, the small areas having these directions are defined as shape information 161.

【0097】次に、プレプリント文字列の形状情報10
3を帳票フォーマットから読み込む。実施の形態8で示
したように形状情報103も、小領域毎の方向成分で構
成されている。
Next, the pre-print character string shape information 10
3 is read from the form format. As described in the eighth embodiment, the shape information 103 is also composed of a directional component for each small area.

【0098】その後、図39に示すように、記入済み帳
票イメージから作成したプレプリント文字列の形状情報
161を構成する各小領域と、帳票フォーマットに記述
されたプレプリント文字列形状情報103を構成する各
小領域とを、小領域の方向性を考慮して最適に対応付け
る。このような小領域の対応付けは、実施の形態9での
プレプリント文字列対応付け手段20で説明した既存技
術において、同じ方向成分を持った小領域同士が高い類
似度を持ち、異なった方向成分を持った小領域同士が低
い類似度を持つと定義することで、実現できる。これに
より、例えば小領域164と小領域167、小領域16
5と小領域168、小領域166と小領域169、小領
域172と小領域173が対応付く。この対応付けをプ
レプリント文字列を含む全てのフィールドについて行
う。
Thereafter, as shown in FIG. 39, each small area forming the preprint character string shape information 161 created from the filled-out form image and the preprint character string shape information 103 described in the form format are formed. Are optimally associated with each of the small regions in consideration of the directionality of the small region. In the existing technology described in the preprinted character string associating means 20 in the ninth embodiment, such small regions are associated with small regions having the same directional component having high similarity and having different directions. This can be realized by defining that small regions having components have low similarity. Thereby, for example, the small area 164 and the small area 167, the small area 16
5 and the small region 168, the small region 166 and the small region 169, and the small region 172 and the small region 173 are associated with each other. This association is performed for all fields including the preprint character string.

【0099】次に、実施の形態9と同様にフィールド抽
出手段21と罫線消去手段22を実行した後、プレプリ
ント文字列消去手段23では、プレプリント文字列対応
付け手段20で得た文字列同士の対応関係を元にして、
フィールド領域イメージからプレプリント領域の画像を
消去する。ここで消去する画像領域は、プレプリント文
字列対応付け手段20での小領域同士の対応付け(図3
9)において、帳票フォーマットに記載された形状情報
103上の小領域と対応付く帳票イメージの形状情報1
61上の小領域内部とする。ただし、帳票イメージの形
状情報161上の小領域172のように、小領域172
と対応付いた小領域173が、小領域172の方向成分
と直交した方向成分を持つ場合、その内部の画像を消去
しない。
Next, after executing the field extracting means 21 and the ruled line erasing means 22 in the same manner as in the ninth embodiment, the preprinted character string erasing means 23 outputs the character strings obtained by the preprinted character string associating means 20. Based on the correspondence of
The image in the preprint area is deleted from the field area image. Here, the image area to be erased is associated with the small areas by the preprint character string associating means 20 (see FIG. 3).
In 9), the form information 1 of the form image associated with the small area on the form information 103 described in the form format
It is inside the small area on 61. However, like the small area 172 on the form information 161 of the form image,
When the small area 173 associated with has a direction component orthogonal to the direction component of the small area 172, the image inside the small area 173 is not erased.

【0100】これにより、図35のイメージ150に示
すように記入した文字と線幅の太いプレプリント文字列
とが接触した場合でも、記入文字を損なうことなくプレ
プリント文字列のみを消去したフィールド領域イメージ
152を得ることができる。同様に、図35のイメージ
151に示すように、チェックマークフィールドに対し
ても、プレプリント文字列のみを消去したフィールド領
域イメージ153を得ることができ、マークが記入され
たかの判定だけでなく、文字列上に記入されたマークの
形状も得ることができる。
As a result, even if the entered character and the preprinted character string having a large line width come into contact with each other as shown in image 150 in FIG. 35, the field area in which only the preprinted character string is erased without losing the entered character. An image 152 can be obtained. Similarly, as shown in an image 151 in FIG. 35, a field area image 153 in which only the preprint character string is erased can be obtained for the check mark field. The shape of the mark entered on the column can also be obtained.

【0101】以上のように本実施の形態によれば、プレ
プリント文字列対応付け手段20において、同じ方向成
分を持った小領域同士が高い類似度を、異なった方向成
分を持った小領域同士が低い類似度を持つと定義して小
領域同士の対応付けを行なう。これにより実施例8に示
したプレプリント形状情報を用いた場合でもプレプリン
ト文字列同士の対応付けを行なうことができる。また、
プレプリント文字列消去手段23において、帳票フォー
マットの小領域と対応付く帳票イメージ上の小領域に対
し、その内部の画像を消去する。ただし、帳票イメージ
上の小領域と、それに対応ついた帳票フォーマットの小
領域とが互いに直交した方向成分を持つ場合は、画像の
消去を行なわない。これにより実施の形態8に示したプ
レプリント形状情報を用いた場合でも、記入文字とプレ
プリント文字列が接触しても記入文字を損なうことなく
プレプリント部分を除去できると共に、マークが記入さ
れた際には、マークの有無だけでなく、そのマーク形状
も知ることができる。
As described above, according to the present embodiment, in preprinted character string associating means 20, small areas having the same directional component have a high similarity and small areas having different directional components have a high similarity. Are defined as having low similarity, and the small areas are associated with each other. Thus, even when the preprint shape information shown in the eighth embodiment is used, it is possible to associate preprint character strings with each other. Also,
The preprint character string erasing means 23 erases the image inside the small area on the form image associated with the small area in the form format. However, if the small area on the form image and the corresponding small area in the form format have directional components orthogonal to each other, the image is not erased. As a result, even when the preprinted shape information shown in Embodiment 8 is used, the preprinted portion can be removed without losing the written characters even if the written characters touch the preprinted character string, and the mark is written. At this time, not only the presence or absence of the mark but also the mark shape can be known.

【0102】[0102]

【発明の効果】請求項1の帳票読取装置によれば、未記
入の帳票画像から、フィールド種別とチェックマークフ
ィールドの認識結果の出力形式と帳票識別のためのID
番号に相当する帳票タイトルの設定を自動化したことに
よって、帳票読取フォーマットを効率的に作成すること
ができる。
According to the form reader of the first aspect, the output format of the recognition result of the field type and the check mark field from the blank form image and the ID for form identification
By automating the setting of the form title corresponding to the number, the form reading format can be efficiently created.

【0103】請求項2の帳票読取装置によれば、抽出し
たフィールドがチェックマークフィールドであっても、
フィールド種別を判定することができる。
According to the form reader of claim 2, even if the extracted field is a check mark field,
The field type can be determined.

【0104】請求項3の帳票読取装置によれば、抽出し
たフィールドがイメージフィールドであっても、フィー
ルド種別を判定することができる。
According to the form reader of claim 3, even if the extracted field is an image field, the field type can be determined.

【0105】請求項4の帳票読取装置によれば、選択肢
に文字記入フィールドがあるチェックマークフィールド
の認識結果出力時に、マークの認識結果に選択肢を表わ
すプレプリント文字列と記入文字のイメージを付加する
ことによって、選択肢以外の項目の入力を円滑に行うこ
とができる。
According to the form reading apparatus of the present invention, when the recognition result of the check mark field having the character entry field in the option is output, the preprint character string representing the option and the image of the entry character are added to the recognition result of the mark. This makes it possible to smoothly input items other than options.

【0106】請求項5の帳票読取装置によれば、選択肢
に文字記入フィールドがあるチェックマークフィールド
の認識結果出力時に、マークの認識結果に選択肢を表わ
すプレプリント文字列と記入文字の認識結果を付加する
ことによって、選択肢以外の項目の入力を円滑に行うこ
とができる。
According to the form reader of the present invention, when the recognition result of the check mark field having the character entry field in the option is output, the preprint character string representing the option and the recognition result of the input character are added to the recognition result of the mark. By doing so, it is possible to smoothly input items other than options.

【0107】請求項6の帳票読取装置によれば、連続す
る直線で構成されたチェックマークフィールドの任意の
位置に記入したマークに対する認識結果を出力できるた
め、記入者が記入しやすく多彩なチェックマークフィー
ルドを構成することができる。
According to the form reader of claim 6, since the recognition result for the mark entered at an arbitrary position in the check mark field constituted by a continuous straight line can be output, a variety of check marks can be easily entered by the entry person. Fields can be configured.

【0108】請求項7の帳票読取装置によれば、より正
確に帳票IDとしての帳票タイトルを検出することがで
きる。
According to the form reader of claim 7, the form title as the form ID can be detected more accurately.

【0109】請求項8の帳票読取装置によれば、プレプ
リント文字列の形状情報を各小領域毎の方向成分で表現
しているため、プレプリント文字列画像をそのまま形状
情報として帳票フォーマットに格納した場合よりも帳票
フォーマットのサイズを削減できる。
According to the form reading device of the present invention, since the shape information of the preprinted character string is represented by the directional component for each small area, the preprinted character string image is stored as it is as the shape information in the form format. It is possible to reduce the size of the form format as compared with the case of performing the above.

【0110】[0110]

【0111】[0111]

【図面の簡単な説明】[Brief description of the drawings]

【図1】 この発明の実施の形態1による帳票読取装置
の動作を示すブロック図である。
FIG. 1 is a block diagram showing an operation of a form reading device according to a first embodiment of the present invention.

【図2】 この発明の実施の形態1による帳票読取装置
の未記入帳票の例を示す図である。
FIG. 2 is a diagram showing an example of a blank form of the form reading device according to the first embodiment of the present invention;

【図3】 この発明の実施の形態1による帳票読取装置
の抽出した罫線を示す図である。
FIG. 3 is a diagram showing extracted ruled lines of the form reading device according to the first embodiment of the present invention;

【図4】 この発明の実施の形態1による帳票読取装置
の抽出した罫線のフォーマット情報を示す図である。
FIG. 4 is a diagram showing format information of ruled lines extracted by the form reading apparatus according to the first embodiment of the present invention;

【図5】 この発明の実施の形態1による帳票読取装置
の抽出したプレプリント文字列を示す図である。
FIG. 5 is a diagram showing an extracted preprinted character string of the form reading apparatus according to the first embodiment of the present invention.

【図6】 この発明の実施の形態1による帳票読取装置
の抽出したプレプリント文字列の情報を示す図である。
FIG. 6 is a diagram showing information of a preprinted character string extracted by the form reading apparatus according to the first embodiment of the present invention.

【図7】 この発明の実施の形態1による帳票読取装置
のキーワード辞書を示す図である。
FIG. 7 is a diagram showing a keyword dictionary of the form reading device according to the first embodiment of the present invention.

【図8】 この発明の実施の形態1による帳票読取装置
の抽出したフィールド候補を示す図である。
FIG. 8 is a diagram showing extracted field candidates of the form reading apparatus according to the first embodiment of the present invention.

【図9】 この発明の実施の形態1による帳票読取装置
の抽出したフィールド情報の例を示す図である。
FIG. 9 is a diagram showing an example of extracted field information of the form reading device according to the first embodiment of the present invention.

【図10】 この発明の実施の形態1による帳票読取装
置の帳票タイトル条件格納テーブルを示す図である。
FIG. 10 is a diagram showing a form title condition storage table of the form reading device according to the first embodiment of the present invention.

【図11】 この発明の実施の形態1による帳票読取装
置のプレプリント文字列形状情報を作成するプレプリン
ト文字列の例を示す図である。
FIG. 11 is a diagram showing an example of a preprinted character string for creating preprinted character string shape information of the form reading apparatus according to the first embodiment of the present invention.

【図12】 この発明の実施の形態1による帳票読取装
置の帳票フォーマットを示す図である。
FIG. 12 is a diagram showing a form format of the form reading device according to the first embodiment of the present invention.

【図13】 この発明の実施の形態2による帳票読取装
置のチェックマークフィールド例を示す図である。
FIG. 13 is a diagram showing an example of a check mark field of the form reading device according to the second embodiment of the present invention.

【図14】 この発明の実施の形態2による帳票読取装
置の図13のフィールドに対するプレプリント文字列情
報を示す図である。
FIG. 14 is a diagram showing preprint character string information for the fields in FIG. 13 of the form reading apparatus according to the second embodiment of the present invention.

【図15】 この発明の実施の形態2による帳票読取装
置の図13のフィールドに対するフィールド情報を示す
図である。
FIG. 15 is a diagram showing field information for the fields in FIG. 13 of the form reading apparatus according to the second embodiment of the present invention.

【図16】 この発明の実施の形態3による帳票読取装
置のイメージフィールドの例を示す図である。
FIG. 16 is a diagram showing an example of an image field of the form reading device according to the third embodiment of the present invention.

【図17】 この発明の実施の形態3による帳票読取装
置の図16のフィールドに対するプレプリント文字列情
報を示す図である。
FIG. 17 is a diagram showing preprinted character string information for the fields in FIG. 16 of the form reading apparatus according to the third embodiment of the present invention.

【図18】 この発明の実施の形態3による帳票読取装
置の図16のフィールドに対するフィールド情報を示す
図である。
FIG. 18 is a diagram showing field information corresponding to the fields in FIG. 16 of the form reading apparatus according to the third embodiment of the present invention.

【図19】 この発明の実施の形態4による帳票読取装
置のチェックフィールド内に文字列フィールドが存在す
る帳票(未記入)の例を示す図である。
FIG. 19 is a diagram showing an example of a form (not filled) in which a character string field exists in a check field of the form reading apparatus according to the fourth embodiment of the present invention.

【図20】 この発明の実施の形態4による帳票読取装
置の図19に示したフィールドに文字を記入した例を示
す図である。
FIG. 20 is a diagram showing an example in which characters are entered in the fields shown in FIG. 19 of the form reader according to the fourth embodiment of the present invention.

【図21】 この発明の実施の形態4による帳票読取装
置の図19に示したフィールドのフィールド情報を示す
図である。
FIG. 21 is a diagram showing field information of the fields shown in FIG. 19 of the form reading device according to the fourth embodiment of the present invention.

【図22】 この発明の実施の形態5による帳票読取装
置のチェックマークフィールド内文字列フィールドの記
入文字例を示す図である。
FIG. 22 is a diagram showing an example of characters entered in a character string field in a check mark field of the form reader according to the fifth embodiment of the present invention.

【図23】 この発明の実施の形態5による帳票読取装
置の図19に示したフィールドのフィールド情報を示す
図である。
FIG. 23 is a diagram showing field information of the fields shown in FIG. 19 of the form reading apparatus according to the fifth embodiment of the present invention.

【図24】 この発明の実施の形態6による帳票読取装
置のチェックマークフィールドを示す図である。
FIG. 24 is a diagram showing a check mark field of the form reading device according to the sixth embodiment of the present invention.

【図25】 この発明の実施の形態6による帳票読取装
置の図24に示したフィールドにマークを記入した例を
示す図である。
FIG. 25 is a diagram showing an example in which a mark is entered in the field shown in FIG. 24 of the form reading apparatus according to the sixth embodiment of the present invention.

【図26】 この発明の実施の形態6による帳票読取装
置の出力されるフィールド情報の例を示す図である。
FIG. 26 is a diagram showing an example of field information output from the form reading device according to the sixth embodiment of the present invention.

【図27】 この発明の実施の形態7による帳票読取装
置の評価値付き帳票タイトル条件格納テーブルを示す図
である。
FIG. 27 is a diagram showing a form title condition storage table with evaluation values of the form reading apparatus according to the seventh embodiment of the present invention.

【図28】 この発明の実施の形態7による帳票読取装
置の出力される帳票タイトル評価値の例を示す図であ
る。
FIG. 28 is a diagram showing an example of a form title evaluation value output from the form reading apparatus according to the seventh embodiment of the present invention.

【図29】 この発明の実施の形態8による帳票読取装
置のプレプリント文字列形状情報を示す図である。
FIG. 29 is a diagram illustrating preprinted character string shape information of the form reading apparatus according to the eighth embodiment of the present invention.

【図30】 この発明の実施の形態9による帳票読取装
置の動作を示すブロック図である。
FIG. 30 is a block diagram showing an operation of a form reading apparatus according to Embodiment 9 of the present invention.

【図31】 この発明の実施の形態9による帳票読取装
置の記入済帳票の例を示す図である。
FIG. 31 is a diagram showing an example of a filled-out form of the form reading apparatus according to Embodiment 9 of the present invention.

【図32】 この発明の実施の形態9による帳票読取装
置の罫線の対応付けの例を示す図である。
FIG. 32 is a diagram showing an example of association of ruled lines in a form reading apparatus according to Embodiment 9 of the present invention.

【図33】 この発明の実施の形態9による帳票読取装
置の記入済帳票から抽出したプレプリント文字列の形状
情報の例を示す図である。
FIG. 33 is a diagram showing an example of shape information of a preprinted character string extracted from a filled-out form of the form reading apparatus according to Embodiment 9 of the present invention.

【図34】 この発明の実施の形態9による帳票読取装
置のプレプリント文字列形状情報の対応付けの例を示す
図である。
FIG. 34 is a diagram showing an example of association of preprinted character string shape information of the form reading apparatus according to Embodiment 9 of the present invention.

【図35】 この発明の実施の形態9による帳票読取装
置のプレプリント文字列を消去したイメージの例を示す
図である。
FIG. 35 is a diagram illustrating an example of an image in which a preprinted character string has been deleted by the form reading apparatus according to Embodiment 9 of the present invention;

【図36】 この発明の実施の形態9による帳票読取装
置の図31に示した記入済帳票から抽出した全フィール
ドを示した図である。
FIG. 36 is a diagram showing all fields extracted from the filled-out form shown in FIG. 31 of the form reading apparatus according to Embodiment 9 of the present invention.

【図37】 この発明の実施の形態9による帳票読取装
置の図31に示した記入済帳票の認識結果の例を示す図
である。
FIG. 37 is a diagram illustrating an example of a recognition result of the filled-in form illustrated in FIG. 31 by the form reading apparatus according to the ninth embodiment of the present invention;

【図38】 この発明の実施の形態10による帳票読取
装置の記入済帳票から抽出したプレプリント文字列の形
状情報の例を示す図である。
FIG. 38 is a diagram showing an example of shape information of a preprinted character string extracted from a filled-out form of the form reading apparatus according to the tenth embodiment of the present invention.

【図39】 この発明の実施の形態10による帳票読取
装置のプレプリント文字列形状情報の対応付けの例を示
す図である。
FIG. 39 is a diagram showing an example of association of preprinted character string shape information of the form reading apparatus according to Embodiment 10 of the present invention.

【図40】 従来の帳票読取装置の処理フローを示す図
である。
FIG. 40 is a diagram showing a processing flow of a conventional form reading apparatus.

【符号の説明】[Explanation of symbols]

1 帳票イメージ格納手段、2 罫線抽出手段、3 プ
レプリント文字列抽出手段、4 プレプリント文字列認
識手段、5 キーワード辞書、6 キーワード照合手
段、7 フィールド候補抽出手段、8 フィールド種別
判別手段、9 フィールド属性設定手段、10 出力形
式設定手段、11 タイトル条件格納テーブル、12
帳票タイトル候補抽出手段、13 プレプリント文字列
形状情報作成手段、14 帳票フォーマット出力手段、
17 帳票フォーマット選択手段、18 帳票フォーマ
ット、19 罫線対応付け手段、20 プレプリント文
字列対応付け手段、21 フィールド抽出手段、22
罫線消去手段、23 プレプリント文字列消去手段、2
4 記入文字列認識手段、25 記入マーク認識手段、
26 記入文字列・マーク認識結果出力手段。
1 form image storing means, 2 ruled line extracting means, 3 preprint character string extracting means, 4 preprint character string recognizing means, 5 keyword dictionary, 6 keyword collating means, 7 field candidate extracting means, 8 field type discriminating means, 9 fields Attribute setting means, 10 output format setting means, 11 title condition storage table, 12
Form title candidate extracting means, 13 preprint character string shape information creating means, 14 form format output means,
17 form format selecting means, 18 form format, 19 ruled line associating means, 20 preprint character string associating means, 21 field extracting means, 22
Ruled line erasing means, 23 preprinted character string erasing means, 2
4 Entry character string recognition means, 25 Entry mark recognition means,
26 Entry character string / mark recognition result output means.

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平4−343190(JP,A) 特開 平5−28310(JP,A) 特開 平7−13996(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06K 9/20 ────────────────────────────────────────────────── ─── Continuation of the front page (56) References JP-A-4-343190 (JP, A) JP-A-5-28310 (JP, A) JP-A-7-13996 (JP, A) (58) Field (Int.Cl. 7 , DB name) G06K 9/20

Claims (8)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 読取対象の帳票画像を格納する帳票イメ
ージ格納手段と、 前記帳票イメージ格納手段に格納した帳票イメージから
帳票を構成する罫線を抽出する罫線抽出手段と、 前記帳票イメージ格納手段に格納した帳票イメージから
前記帳票に予め印刷された文字列(プレプリント文字
列)を抽出するプレプリント文字列抽出手段と、 前記プレプリント文字列抽出手段により抽出した前記文
字列画像を認識し文字コード化するプレプリント文字列
認識手段と、 前記プレプリント文字列認識手段で文字コード化した前
記プレプリント文字列と、前記帳票に予め記入される単
語列を格納したキーワード辞書に登録した単語とを照合
するキーワード照合手段と、 前記罫線抽出手段で得た罫線情報とキーワード照合手段
で得た照合結果とを利用して読取領域(フィールド)で
あるか否かを判定するフィールド候補抽出手段と、 前記フィールド候補抽出手段で得たフィールド候補の内
容を解析して前記フィールドの種別が、文字列フィール
ド、又はチェックマークフィールド、又はイメージフィ
ールドであるかを自動的に判定するフィールド種別判定
手段と、 前記フィールド種別判定手段で判定した前記フィールド
種別と前記キーワード照合手段で得た前記照合結果から
前記フィールドに記入される項目を判定して読取条件を
設定するフィールド属性設定手段と、 前記フィールド種別判定手段で判定した前記フィールド
種別と前記キーワード照合手段で得た照合結果から帳票
読取時に出力する結果の形式を決定する結果出力形式設
定手段と、 前記プレプリント文字列認識手段で得た認識結果と、前
記帳票に付加される帳票タイトルの特性を記述したタイ
トル条件格納テーブルとを照合し、前記プレプリント文
字列の中から前記帳票タイトルの候補を抽出する帳票タ
イトル候補抽出手段と、 前記プレプリント文字列抽出手段で得た前記プレプリン
ト文字列画像から帳票フォーマット情報に記録する前記
プレプリント文字列の形状情報を抽出するプレプリント
文字列形状情報作成手段と、前記帳票タイトル候補抽出手段で得られた帳票タイトル
情報と、前記罫線抽出手段で得られた罫線情報と、前記
プレプリント文字列抽出手段で得られたプレプリント文
字列情報と、前記フィールド候補抽出手段で得られたフ
ィールド候補に対する外周罫線の情報と内包プレプリン
ト文字列情報と、前記フィールド種別判定手段で得られ
たフィールド種別と、前記フィールド属性設定手段で得
られたフィールド属性と、前記プレプリント文字列形状
情報作成手段で得られたプレプリント文字列の形状情報
と、前記出力形式設定手段で得られた出力形式とを帳票
フォーマットとして出力する帳票フォーマット出力手段
と、 を備えたことを特徴とする帳票読取装置。
1. A form image storage means for storing a form image to be read, a ruled line extraction means for extracting a ruled line constituting a form from the form image stored in the form image storage means, and a form line stored in the form image storage means A preprinted character string extracting means for extracting a character string (preprinted character string) printed in advance on the form from the formed form image, and recognizing the character string image extracted by the preprinted character string extracting means and converting the character string into a character code A preprinted character string recognizing means for comparing the preprinted character string coded by the preprinted character string recognizing means with a word registered in a keyword dictionary storing a word string to be pre-filled in the form. Keyword matching means, using ruled line information obtained by the ruled line extracting means and a matching result obtained by the keyword matching means. A field candidate extraction unit determines whether or not the reading area (field), the type of the field the field by analyzing the contents of the field candidate obtained by the candidate extracting means, a character string field
Or check mark field or image field
Field type determining means for automatically determining whether the field is a field, and determining an item to be entered in the field from the field type determined by the field type determining means and the matching result obtained by the keyword matching means. Field attribute setting means for setting reading conditions; and a result output format setting means for determining a format of a result to be output at the time of reading a form from the field type determined by the field type determination means and the matching result obtained by the keyword matching means. Comparing the recognition result obtained by the preprint character string recognition means with a title condition storage table describing characteristics of a form title added to the form, and selecting the form title candidate from the preprint character string. A form title candidate extracting means for extracting the preprint character string extracting means, A preprint character string shape information creating means for extracting shape information of the preprint character string to be recorded in form format information from the preprint character string image , and a form title obtained by the form title candidate extracting means
Information, the ruled line information obtained by the ruled line extracting means,
Preprint sentence obtained by preprint character string extraction means
The character string information and the file obtained by the field candidate extraction means.
Information on Outer Ruled Lines for Field Candidates and Inclusive Preprinting
Character string information and the field type
Obtained by the field attribute setting means.
Field attributes and the preprinted character string shape
Preprint character string shape information obtained by the information creation means
And an output format obtained by the output format setting means.
Form format output means to output as a format
And a form reader.
【請求項2】 フィールド種別判定手段が、フィールド
に含むプレプリント文字列のキーワード種類が選択肢を
表すものであるかどうかを判定し、選択肢を表わすと判
定した場合にはフィールド種別をチェックマークフィー
ルドとして出力することを特徴とする請求項1記載の帳
票読取装置。
2. The method according to claim 1, wherein the field type determining means includes a
The keyword type of the preprint character string included in
Judge whether it represents the option.
If specified, check the field type
2. The form reading apparatus according to claim 1, wherein the form is output as a field .
【請求項3】 フィールド種別判定手段は、フィールド
内に図やイメージ入力を促す単語があるかどうかを検出
し、図やイメージ入力を促す単語があると判定した場合
には該単語の上下左右の所定の近傍領域をイメージフィ
ールドとすることを特徴とする請求項1記載の帳票読取
装置。
3. A field type determining unit detects whether there is a word that prompts input of a figure or an image in a field, and when it is determined that there is a word that prompts input of a figure or an image, the upper, lower, left and right of the word is determined. 2. The form reading apparatus according to claim 1, wherein the predetermined neighboring area is an image field.
【請求項4】 出力形式設定手段は、チェックマークフ
ィールドの中に、選択肢を表すプレプリント文字列の他
に文字列を記入する領域が存在するかどうかを判定し、
存在すると判定した場合は、認識結果の出力時に選択肢
を表すプレプリント文字列および文字領域に記入される
文字列のイメージを付加するという出力形式を決定する
ことを特徴とする請求項1記載の帳票読取装置。
4. An output format setting means determines whether or not there is an area for entering a character string in the check mark field in addition to a preprinted character string representing an option,
2. The form according to claim 1, wherein when it is determined that there is a document, an output format is determined in which a preprint character string representing an option and an image of a character string written in a character area are added when the recognition result is output. Reader.
【請求項5】 出力形式設定手段は、チェックマークフ
ィールドの中に選択肢を表すプレプリント文字列の他
に、文字列を記入する領域が存在するかどうかを判定
し、存在すると判定した場合は、認識結果の出力時に選
択肢を表すプレプリント文字列および文字領域に記入さ
れる文字列の認識結果の文字コードを付加するという出
力形式を決定することを特徴とする請求項1記載の帳票
読取装置。
5. The output format setting means determines whether or not there is an area for entering a character string in the check mark field in addition to the preprinted character string representing an option. 2. The form reading apparatus according to claim 1, wherein an output format in which a preprint character string representing an option and a character code of a recognition result of a character string written in a character area are added when the recognition result is output is determined.
【請求項6】 出力形式設定手段は、チェックマークフ
ィールドが連続する 直線で構成され、かつ、記入マーク
をフィールドの任意の位置に記入できると判定した場
合、フィールド全体の長さに対するフィールド端からマ
ーク記入位置までの長さの割合を付加するという出力形
式を設定することを特徴とする請求項1記載の帳票読取
装置。
6. An output format setting means, wherein the check mark field is constituted by a continuous straight line, and
If it is determined that can be entered at any position in the field
2. The form reading apparatus according to claim 1, wherein an output format is set in which a ratio of a length from a field end to a mark entry position with respect to an entire length of the field is added.
【請求項7】 帳票タイトル抽出手段は、帳票イメージ
から得たプレプリント文字列が帳票タイトル条件格納テ
ーブルに格納されている条件に合致するかどうかを判定
し、合致すると判定した場合は該プレプリント文字列を
帳票タイトルとして出力することを特徴とする請求項1
記載の帳票読取装置。
7. The form title extracting means determines whether a preprint character string obtained from the form image matches a condition stored in a form title condition storage table. 2. A character string is output as a form title.
Form reader.
【請求項8】 プレプリント文字列形状情報作成手段
は、プレプリント文字列の位置と大きさ、およびプレプ
リント文字列が存在する領域の、分割した小領域内での
方向成分を出力することを特徴とする請求項1記載の帳
票読取装置。
8. The preprinted character string shape information creating means outputs a position and a size of the preprinted character string and a directional component in a divided small area of an area where the preprinted character string exists. 2. The form reading device according to claim 1, wherein:
JP16157796A 1996-06-21 1996-06-21 Form reader Expired - Fee Related JP3294995B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP16157796A JP3294995B2 (en) 1996-06-21 1996-06-21 Form reader

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP16157796A JP3294995B2 (en) 1996-06-21 1996-06-21 Form reader

Publications (2)

Publication Number Publication Date
JPH1011531A JPH1011531A (en) 1998-01-16
JP3294995B2 true JP3294995B2 (en) 2002-06-24

Family

ID=15737773

Family Applications (1)

Application Number Title Priority Date Filing Date
JP16157796A Expired - Fee Related JP3294995B2 (en) 1996-06-21 1996-06-21 Form reader

Country Status (1)

Country Link
JP (1) JP3294995B2 (en)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4450888B2 (en) 1999-05-28 2010-04-14 富士通株式会社 Form recognition method
JP4731748B2 (en) * 2001-07-12 2011-07-27 キヤノン株式会社 Image processing apparatus, method, program, and storage medium
JP2003114780A (en) 2001-10-04 2003-04-18 Seiko Epson Corp Layout control in output of image
JP4525270B2 (en) * 2004-09-22 2010-08-18 富士ゼロックス株式会社 Printing apparatus and printing result inspection method
JP4756456B2 (en) * 2005-06-20 2011-08-24 富士ゼロックス株式会社 Teaching material processing apparatus, teaching material processing method, and teaching material processing program
JP2008065533A (en) * 2006-09-06 2008-03-21 Sharp Corp Image processing apparatus, image processing method, program and recording medium
JP4748013B2 (en) * 2006-09-21 2011-08-17 沖電気工業株式会社 Character recognition device, character recognition system, and character recognition method
JP4935459B2 (en) * 2007-03-28 2012-05-23 沖電気工業株式会社 Character recognition method, character recognition program, and character recognition device
JP4983464B2 (en) * 2007-07-25 2012-07-25 富士ゼロックス株式会社 Form image processing apparatus and form image processing program
JP5098504B2 (en) * 2007-08-09 2012-12-12 富士通株式会社 Character recognition program, character recognition device, and character recognition method
JP5107203B2 (en) * 2008-10-08 2012-12-26 株式会社リコー Information processing apparatus, information processing method, information processing system, and program
JP5604814B2 (en) * 2009-06-18 2014-10-15 キヤノンマーケティングジャパン株式会社 Information processing apparatus, information processing method, and program
JP5476884B2 (en) * 2009-09-16 2014-04-23 富士ゼロックス株式会社 Image processing apparatus and image processing program
JP5189056B2 (en) * 2009-09-30 2013-04-24 富士通フロンテック株式会社 Mark item recognition device, mark item recognition method, and mark item recognition program
KR101870773B1 (en) * 2011-08-31 2018-06-26 삼성전자 주식회사 Method and apparatus for managing schedule using optical character reader
JP6497012B2 (en) * 2014-09-19 2019-04-10 富士ゼロックス株式会社 Information processing apparatus and information processing program
JP6220770B2 (en) * 2014-12-12 2017-10-25 株式会社エヌ・ティ・ティ・データ Form definition device, form definition method, and form definition program
JP6896292B2 (en) * 2016-07-21 2021-06-30 株式会社ミラボ Form input form generation device, form input form generation method and program
JP6907565B2 (en) * 2017-02-02 2021-07-21 富士フイルムビジネスイノベーション株式会社 Image processing equipment and image processing program
JP6487100B1 (en) * 2018-05-24 2019-03-20 株式会社東芝 Form processing apparatus and form processing method
US10726865B2 (en) 2018-10-11 2020-07-28 Western Digital Technologies, Inc. Zoned block command to stream command translator
JP2020119480A (en) * 2019-01-25 2020-08-06 寛 森本 System for easily creating database application from format data
JP6973433B2 (en) * 2019-03-07 2021-11-24 日本電気株式会社 Forms processing device, form processing method, and program
JP2022186026A (en) * 2021-06-04 2022-12-15 AI inside株式会社 Program, information processing apparatus and method

Also Published As

Publication number Publication date
JPH1011531A (en) 1998-01-16

Similar Documents

Publication Publication Date Title
JP3294995B2 (en) Form reader
JP3469345B2 (en) Image filing apparatus and filing method
KR100412317B1 (en) Character recognizing/correcting system
US7885464B2 (en) Apparatus, method, and program for handwriting recognition
US6687401B2 (en) Pattern recognizing apparatus and method
US6614929B1 (en) Apparatus and method of detecting character writing area in document, and document format generating apparatus
JPS61267177A (en) Retrieving system for document picture information
JP4280355B2 (en) Character recognition device
JPH11161736A (en) Method for recognizing character
JP4807618B2 (en) Image processing apparatus and image processing program
JPH0689365A (en) Document image processor
JP4810853B2 (en) Character image cutting device, character image cutting method and program
JP4117648B2 (en) Form, form processing method, form processing program, recording medium recording form processing program, and form processing apparatus
JP2001126010A (en) Document processor, document definition generation method and area extraction method and storage medium
JP3142986B2 (en) Document information retrieval device
JPH11219409A (en) Document reader
JP3484446B2 (en) Optical character recognition device
JP2581353B2 (en) Graph image registration system
JP3487523B2 (en) Document processing device
JPH0689330A (en) Image filing system
JP7404625B2 (en) Information processing device and program
JPH0991385A (en) Character recognition dictionary adding method and terminal ocr device using same
JP2906758B2 (en) Character reader
JP2993533B2 (en) Information processing device and character recognition device
JP4081074B2 (en) Form processing apparatus, form processing method, and form processing program

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020319

LAPS Cancellation because of no payment of annual fees