JP2006331180A - Method for recognizing document - Google Patents

Method for recognizing document Download PDF

Info

Publication number
JP2006331180A
JP2006331180A JP2005155541A JP2005155541A JP2006331180A JP 2006331180 A JP2006331180 A JP 2006331180A JP 2005155541 A JP2005155541 A JP 2005155541A JP 2005155541 A JP2005155541 A JP 2005155541A JP 2006331180 A JP2006331180 A JP 2006331180A
Authority
JP
Japan
Prior art keywords
variable
fixed
data
cell
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005155541A
Other languages
Japanese (ja)
Inventor
Yutaka Kato
豊 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005155541A priority Critical patent/JP2006331180A/en
Publication of JP2006331180A publication Critical patent/JP2006331180A/en
Withdrawn legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a document recognition method capable of recognizing not only a table existing in a scanned paper document but also a state that the table is a variable table or a fixed table and capable of easily performing succeeding form editing operation by reflecting the set contents to a table object in an electronic form. <P>SOLUTION: The document recognizing method is provided with: a document image reading step for reading image data in the paper document; a table recognition step for recognizing a table from the image read out in the document image reading step; a fixed/variable judgment step for judging whether the table recognized by the table recognition step is a variable table or a fixed table; and a table object preparation step for preparing a table object from the results recognized and judged by the table recognition step and the fixed/variable judgment step. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

帳票を認識するための読み込み方法に係るものである。   The present invention relates to a reading method for recognizing a form.

従来よりフォームにおいては、図4のようにデータを別ファイルで受け取り、それを表示する方法が用いられる場合がある。以下データを受け取り、そのデータを表示する図形をフィールド図形と呼ぶ。また、フォーム上のフィールド図形に、データファイル中のデータを動的に埋め込んで表示/印刷することをオーバレイ印刷と呼ぶ。   Conventionally, in a form, a method of receiving data in a separate file and displaying it as shown in FIG. 4 may be used. Hereinafter, a graphic that receives data and displays the data is called a field graphic. Also, overlay printing is a process in which data in a data file is dynamically embedded in a field figure on a form for display / printing.

また、フィールド図形を連結することで表を作成することができ、表に対して行数や段数、見出し行の指定など各種属性を設定することが出来る。以下表を設定されたフィールド図形の集合のことを表シート図形と呼ぶ。さらに、オーバレイ印刷時に表へ流し込まれるデータ量によって表の外形を動的に変形させる設定を行うことができる。以下外形を動的に変化させる設定がされた表を可変表、設定されていない表を固定表と呼ぶ。   In addition, a table can be created by concatenating field graphics, and various attributes such as the number of rows, the number of columns, and designation of heading rows can be set for the table. A set of field figures set with a table is called a table sheet figure. Furthermore, it is possible to perform a setting for dynamically deforming the outer shape of the table according to the amount of data that is flowed into the table during overlay printing. Hereinafter, a table set to dynamically change the outer shape is called a variable table, and a table not set is called a fixed table.

一方、オフィスなどですでに利用されている紙帳票をスキャナなどの読取装置を用いて認識し、フォーム編集ソフトなどで読み込める形式へ電子化できる。電子化されたフォームには、図形や文字列、表などの情報が定められた形式で記述されており、この情報を元に、ディスプレイへの描画、プリンタへの印刷が行われる。以下、フォーム中に記述される図形などの各部品の事をオブジェクトと呼ぶ。例えば、紙帳票に含まれる罫線はフォーム中の罫線オブジェクトとして認識され、罫線の集合である表は表オブジェクトとして認識される。   On the other hand, a paper form already used in an office or the like can be recognized using a reading device such as a scanner and digitized into a format that can be read by form editing software or the like. The digitized form describes information such as figures, character strings, and tables in a predetermined format. Based on this information, drawing on a display and printing on a printer are performed. Hereinafter, each part such as a graphic described in the form is called an object. For example, a ruled line included in a paper form is recognized as a ruled line object in the form, and a table that is a set of ruled lines is recognized as a table object.

又、従来例としては、例えば特許文献1をあげることが出来る。
特開平8−320914号公報
As a conventional example, for example, Patent Document 1 can be cited.
JP-A-8-320914

しかし、紙帳票から表を認識するにあたり、従来では表が固定表なのか可変表なのかまでは認識していなかった。そのため、紙帳票中の表を表オブジェクトとして認識した後に、フォーム編集ソフト等で再度、固定表か可変表かの設定を行う必要があった。   However, when recognizing a table from a paper form, conventionally, it has not recognized whether the table is a fixed table or a variable table. Therefore, after recognizing a table in a paper form as a table object, it is necessary to set again a fixed table or a variable table using form editing software or the like.

そこで本発明では、スキャンした紙帳票内に存在する表を認識するだけでなく、その表が可変表か固定表かも認識し、電子化したフォーム中の表オブジェクトへ設定を反映させることで、後のフォーム編集作業を容易にすることを目的とする。   Therefore, in the present invention, not only the table existing in the scanned paper form is recognized, but also the table is recognized as a variable table or a fixed table, and the setting is reflected in the table object in the digitized form. The purpose is to make the form editing work easier.

上記の問題を解決するために、本発明では紙帳票の画像データを読み取る、帳票画像読み取りステップと、前記帳票画像読み取りステップで読み取った画像から表を認識する、表認識ステップと、前記表認識ステップで認識した表が可変表か固定表かを判定する、固定・可変判定ステップと、前記表認識ステップおよび前記固定・可変判定ステップで認識・判定した結果から表オブジェクトを作成する、表オブジェクト作成ステップと、を設ける。   In order to solve the above problem, in the present invention, a form image reading step for reading image data of a paper form, a table recognition step for recognizing a table from an image read in the form image reading step, and the table recognition step Determining whether the table recognized in step 1 is a variable table or a fixed table, and a table object creation step for creating a table object from the result of recognition and determination in the table recognition step and the fixed / variable determination step And are provided.

以上説明したように、紙帳票のスキャンにおいて、固定表・可変表の別を認識できるようになり、認識結果に基づいて電子フォームを作成することで、その後の編集操作を効率よく行えるようになる。   As explained above, it becomes possible to recognize whether the table is fixed or variable when scanning a paper form. By creating an electronic form based on the recognition result, subsequent editing operations can be performed efficiently. .

(実施例1)
図面を参照しながら、本発明の実施例を詳細に説明する。
Example 1
Embodiments of the present invention will be described in detail with reference to the drawings.

図1は、本実施形態である帳票認識作成編集システムのハードウェアの構成を表わすブロック図である。このシステムは、CPU10などで構成される中央処理装置と、ROM11/RAM12などで構成される主記憶装置、FDドライブ13やHDドライブ15などで構成される外部記憶装置、マウス18などのポインティングデバイス(座標指示手段)やキーボード16で構成される指示入力装置、CRTディスプレイ17などで構成される表示装置、プリンタやプロッタで構成される印刷装置19とそれらを結ぶシステムバス20とからなるコンピュータシステムであるものとする。また、このシステムは、ネットワークなどの通信回線を介して他のコンピュータシステムと接続されているものとする。   FIG. 1 is a block diagram showing the hardware configuration of a form recognition creation / editing system according to this embodiment. This system includes a central processing unit composed of a CPU 10 and the like, a main storage unit composed of a ROM 11 / RAM 12 and the like, an external storage unit composed of an FD drive 13 and an HD drive 15, a pointing device such as a mouse 18 ( A computer system comprising a coordinate input means), an instruction input device including a keyboard 16, a display device including a CRT display 17, a printing device 19 including a printer and a plotter, and a system bus 20 connecting them. Shall. This system is assumed to be connected to another computer system via a communication line such as a network.

本システムは、基本I/OプログラムやOSおよび帳票認識作成編集プログラムをCPUが実行することにより動作する。基本I/OプログラムはROM11に書き込まれており、OSはHD15に書き込まれているものとする。そして本システムの電源がONされたときに、基本I/Oプログラム中のIPL(イニシャル・プログラム・ローディング)機能によりHD15からOSがRAM12に読み込まれ、OSの動作が開始される。   This system operates when the CPU executes a basic I / O program, an OS, and a form recognition creation / editing program. It is assumed that the basic I / O program is written in the ROM 11 and the OS is written in the HD 15. When the system power is turned on, the OS is read from the HD 15 into the RAM 12 by the IPL (Initial Program Loading) function in the basic I / O program, and the operation of the OS is started.

また、本実施形態を実現するための制御プログラム(帳票認識作成編集プログラム)および関連データはFD14中に記録されており、その記録されている内容の構成を図2に示す。FD14に記録された制御プログラム及び関連データは、図1に示すようにFDドライブ13を通じて本コンピュータシステムにロードすることができる。このFDがFDドライブ13にセットされると、OSおよび基本I/Oプログラムの制御の下に本制御プログラムおよび関連データがFD14から読み出され、RAM12にロードされて動作可能となる。図3は、本制御プログラムがRAMにロードされ実行可能となった状態のメモリマップを示す。   Further, a control program (form recognition creation / editing program) and related data for realizing the present embodiment are recorded in the FD 14, and the configuration of the recorded contents is shown in FIG. The control program and related data recorded in the FD 14 can be loaded into the computer system through the FD drive 13 as shown in FIG. When the FD is set in the FD drive 13, the control program and related data are read from the FD 14 under the control of the OS and the basic I / O program, and loaded into the RAM 12 to be operable. FIG. 3 shows a memory map in a state where the control program is loaded into the RAM and becomes executable.

なお、本実施形態では、FD14から制御プログラム及び関連データを直接RAM12にロードして実行させる例を示したが、この制御プログラム及び関連データを、HD15に予め格納(インストール)しておき、本プログラムを動作させる段にHD15からRAM12にロードするようにしてもよい。また本制御プログラムを記録する媒体は、FD以外にCD−ROM、ICメモリカードなど他のリムーバブル記憶媒体を用いることも可能である。さらに本プログラムをROM11に記録しておき、これをメモリマップの一部をなすように構成し、直接CPU10で実行することも可能である。また、ネットワークを介して他の装置から本制御プログラムを読み込んで実行するようにしても構わない。   In this embodiment, the control program and related data are directly loaded from the FD 14 to the RAM 12 and executed. However, the control program and related data are stored (installed) in the HD 15 in advance, and this program is stored. It is also possible to load from the HD 15 to the RAM 12 when operating. In addition to the FD, other removable storage media such as a CD-ROM and an IC memory card can be used as a medium for recording the control program. Furthermore, this program can be recorded in the ROM 11, configured so as to form a part of the memory map, and directly executed by the CPU 10. Further, the present control program may be read from another device via a network and executed.

図4はフォームファイルのフィールドに対してフィールドデータを流し込んで出力フォームを生成する形態を示す一例である。本実施例では、フィールド図形を複数個連結することで表を作成できるとし、連結された表部分を表シート図形と呼ぶことにする。表シート図形に流し込むフィールドデータは、定められた形式でフィールドデータファイル中に記述されており、オーバレイの際には各行のデータが順次、表のレコードに流し込まれていく。   FIG. 4 is an example showing a form of generating an output form by inserting field data into a field of a form file. In the present embodiment, it is assumed that a table can be created by connecting a plurality of field graphics, and the connected table portion is called a table sheet graphic. The field data to be flowed into the table sheet graphic is described in a field data file in a predetermined format, and the data of each row is flowed into the table record sequentially at the time of overlay.

また、本実施例では、図5のように、可変的な表を含む帳票を作成できるとする。フィールドデータのデータ量にあわせて、表の行数が可変的に変化する。表が1ページに治まらない場合、複数ページにまたがって表が作成される。また、表の編集により、ある列の合計等の計算結果も表示させることができるとする。   In this embodiment, it is assumed that a form including a variable table can be created as shown in FIG. The number of table rows changes variably according to the amount of field data. If the table does not settle on one page, the table is created across multiple pages. Further, it is assumed that calculation results such as the sum of a certain column can be displayed by editing the table.

さらに、本実施例では、図6のように、固定的な表を含む帳票を作成できるとする。フィールドデータのデータ量に関わらず、表の行数が固定的で外形が変化せず、データが入らない行は空行として出力される。表が1ページに治まらない場合も1ページ目とnページ目で表の形状は変化しない。合計等の計算結果は可変的な表と同様表示させることができるとする。   Furthermore, in this embodiment, it is assumed that a form including a fixed table can be created as shown in FIG. Regardless of the amount of field data, the number of rows in the table is fixed, the outer shape does not change, and rows that do not contain data are output as blank rows. Even when the table is not cured on one page, the shape of the table does not change between the first page and the nth page. It is assumed that calculation results such as totals can be displayed in the same manner as a variable table.

以下に本実施例の動作の説明を行う。   The operation of this embodiment will be described below.

図7は本実施例における動作の流れを表すフローチャートである。   FIG. 7 is a flowchart showing the flow of operation in this embodiment.

図8は本実施例において読み込みの対象となる紙帳票の1例である。2行3列の表シート図形が紙帳票のX座標:15、Y座標:70の位置に印刷されている。表シート図形を構成する各セルのサイズは図示したとおりである。また、各セル内に書かれた文字はセルの識別番号である。   FIG. 8 shows an example of a paper form to be read in this embodiment. A table sheet figure of 2 rows and 3 columns is printed at a position of X coordinate: 15 and Y coordinate: 70 of the paper form. The size of each cell constituting the table sheet figure is as shown in the figure. Moreover, the character written in each cell is a cell identification number.

まずステップ1において、スキャナなどの読取装置を用い、紙帳票をスキャンする。   First, in step 1, a paper form is scanned using a reading device such as a scanner.

次にステップ2において、スキャンした画像に含まれる全ての罫線を抽出する。抽出方法として、ヒストグラムを用いる方法など、既存の技術が利用できる。また、本実施形態では一旦全ての罫線を読み込んだ後、後述する解析処理を行うが、帳票の上方から下方に向かって罫線を抽出しながら、後述する解析処理を行っても良い。   Next, in step 2, all ruled lines included in the scanned image are extracted. As an extraction method, an existing technique such as a method using a histogram can be used. In this embodiment, after all the ruled lines are read once, the analysis process described later is performed. However, the analysis process described later may be performed while extracting the ruled lines from the top to the bottom of the form.

次に、ステップ3において、抽出した罫線の情報からセルを認識する。左→右、上→下の順で走査して行き、4つの罫線で囲まれている領域が見つかったらその部分をセルとして認識し、図9に示したようなセル情報管理テーブルへセルの識別番号、セルの左上隅のX・Y座標、高さ、幅などの情報を書き込む。   Next, in step 3, a cell is recognized from the extracted ruled line information. Scan from left to right, top to bottom, and if an area surrounded by four ruled lines is found, that part is recognized as a cell, and the cell is identified in the cell information management table as shown in FIG. Information such as the number, the X / Y coordinates of the upper left corner of the cell, the height, and the width is written.

次に、ステップ4において、セル情報を元にレコードを検出する。セル情報管理テーブルの各セル情報を比較し、Y座標と高さがそれぞれ等しいセルが見つかったら、それらはレコードを構成していると判断し、図10に示したようなレコード情報管理テーブルへレコードを構成するセルの個数、各セルのセル番号、レコードの左上隅のX・Y座標、レコードの高さ、幅などの情報を書き込む。なお、本実施形態ではセル情報管理テーブルおよびレコード情報管理テーブルを用いて表の情報を管理しているが、テーブルの構成方法、セル・レコードデータの管理方法をこのとおりにする必要はなく、あくまでデータを管理できれば良い。また、図11に示すような複雑な形状の表の場合でも認識の方法は変わらない。この場合、c1からc6が一つのレコードを構成することになる。   Next, in step 4, a record is detected based on the cell information. Each cell information in the cell information management table is compared, and if cells having the same Y coordinate and height are found, it is determined that they constitute a record, and the record is stored in the record information management table as shown in FIG. Information such as the number of cells constituting each cell, the cell number of each cell, the X / Y coordinates of the upper left corner of the record, the height and width of the record, etc. are written. In this embodiment, table information is managed using the cell information management table and the record information management table. However, the table configuration method and the cell / record data management method do not need to be as described above, It only has to be able to manage the data. Further, the recognition method does not change even in the case of a table having a complicated shape as shown in FIG. In this case, c1 to c6 constitute one record.

次に、ステップ5において、表が終了しているかどうかを判定する。   Next, in step 5, it is determined whether the table is finished.

ステップ5で表が終了していないと判断された場合には、ステップ2に戻り、セル・レコード情報の検出、テーブルへの書き込みを行い、表が終了するまでこの操作を繰り返す。   If it is determined in step 5 that the table has not ended, the process returns to step 2 to detect cell record information and write to the table, and this operation is repeated until the table ends.

ステップ5で表が終了していると判断された場合には、ステップ6において、レコード情報管理テーブルとセル情報管理テーブルを用い、各レコードの形状およびそのレコードを構成する全てのセルの形状を比較し、全てのレコードが等しいかどうか判定する。レコードの形状およびそれを構成する全てのセルの形状が同一、または一定の誤差範囲内である時、2つのレコードを等しいとする。   If it is determined in step 5 that the table has been completed, in step 6, the record information management table and the cell information management table are used to compare the shape of each record and the shape of all cells constituting the record. And determine whether all records are equal. Two records are equal when the shape of the record and the shape of all the cells constituting it are the same or within a certain error range.

ステップ6で全てのレコードが等しいと判断された場合には、ステップ7において、表を可変的であると判断する。   If step 6 determines that all records are equal, then step 7 determines that the table is variable.

一方、ステップ6で1つでも形状の異なるレコードがあった場合には、ステップ8において、表を固定的であると判断する。   On the other hand, if at least one record has a different shape in step 6, it is determined in step 8 that the table is fixed.

ステップ9において、前記ステップ7またはステップ8での判断に基づき、可変的または固定的な表を含むフォームファイルを電子データとして作成する。   In step 9, a form file including a variable or fixed table is created as electronic data based on the determination in step 7 or step 8.

以上のステップにより、スキャン画像から表を認識するだけでなく、表が可変的か固定的かを判定できる。また、判定結果をフォーム作成に用いることで、フォーム内の表オブジェクトを適切に初期化できる。   Through the above steps, not only can the table be recognized from the scanned image, but it can also be determined whether the table is variable or fixed. Further, by using the determination result for form creation, the table object in the form can be appropriately initialized.

(実施例2)
可変表では、流し込まれるデータ量に応じて表の形状が変化するため、データの存在しない行が印刷されることはない。一方、固定表では、データ量によらず印刷される表の形状は固定的なため、データが存在せず枠線のみが印刷されるレコードが存在する可能性がある。そこで本実施例では、表の最終レコード中に何らかのデータが存在するかどうかで可変表か固定表かを判断する。
(Example 2)
In the variable table, the shape of the table changes in accordance with the amount of data to be flowed, so that a line where no data exists is not printed. On the other hand, in the fixed table, since the shape of the table to be printed is fixed regardless of the data amount, there may be a record in which only the frame line is printed without the data. Therefore, in this embodiment, whether a variable table or a fixed table is determined based on whether any data exists in the last record of the table.

以降本実施例の詳細を説明する。   Hereinafter, details of the present embodiment will be described.

まず、セル内にデータが存在するかどうか判定するために、図9で示したセル情報管理テーブルを変更し、セルないデータを格納する「データ」項目を持たせる。   First, in order to determine whether data exists in a cell, the cell information management table shown in FIG. 9 is changed to have a “data” item for storing data without a cell.

図12は本実施例を用いて紙帳票中の表を可変表と判定する流れを示したものである。   FIG. 12 shows the flow of determining a table in a paper form as a variable table using this embodiment.

まず、実施例1と同様の手順でレコード情報管理テーブル、セル情報管理テーブルへ情報を格納していく。セル内のデータについてもセル情報管理テーブルの「データ」項目へ格納する。セル内にデータがない場合は何も格納しない。   First, information is stored in the record information management table and the cell information management table in the same procedure as in the first embodiment. The data in the cell is also stored in the “data” item of the cell information management table. If there is no data in the cell, nothing is stored.

次に、レコード情報管理テーブルを参照し、表の最終行r2を構成するセルのセル識別番号c4,c5,c6を取得する。   Next, with reference to the record information management table, cell identification numbers c4, c5 and c6 of the cells constituting the last row r2 of the table are acquired.

次に、セル情報管理テーブルを参照し、最終レコードを構成するセルc4,c5,c6がデータを保持しているかどうかを判定する。   Next, referring to the cell information management table, it is determined whether or not the cells c4, c5, and c6 constituting the final record hold data.

図12では、セルc4,c5,c6はデータを持っているので、表が可変的であると判断できる。   In FIG. 12, since the cells c4, c5, and c6 have data, it can be determined that the table is variable.

一方、図13は本実施例を用いて紙帳票中の表を固定表と判定する流れを示したものである。   On the other hand, FIG. 13 shows the flow of determining a table in a paper form as a fixed table using this embodiment.

まず、実施例1と同様の手順でレコード情報管理テーブル、セル情報管理テーブルへ情報を格納していく。セル内のデータについてもセル情報管理テーブルの「データ」項目へ格納する。セル内にデータがない場合は何も格納しない。   First, information is stored in the record information management table and the cell information management table in the same procedure as in the first embodiment. The data in the cell is also stored in the “data” item of the cell information management table. If there is no data in the cell, nothing is stored.

次に、レコード情報管理テーブルを参照し、表の最終行r3を構成するセルのセル識別番号c7,c8,c9を取得する。   Next, with reference to the record information management table, cell identification numbers c7, c8, c9 of the cells constituting the last row r3 of the table are acquired.

次に、セル情報管理テーブルを参照し、最終レコードを構成するセルc7,c8,c9がデータを保持しているかどうかを判定する。   Next, with reference to the cell information management table, it is determined whether or not the cells c7, c8, c9 constituting the final record hold data.

図13では、セルc7,c8,c9はともにデータを持っていないので、表が固定的であると判断できる。   In FIG. 13, since the cells c7, c8, and c9 do not have data, it can be determined that the table is fixed.

(実施例3)
表の編集により、ある列の合計等の計算結果を表示させることができる。合計値等の計算結果を表示する設定になっている表は、その性質上、レコード形状が等しく、可変表である可能性が高い。そこで、本実施例では「合計」等の文字列を検出することで固定・可変を判定する形態を示す。
(Example 3)
By editing the table, it is possible to display calculation results such as the sum of a certain column. Tables that are set to display the calculation result such as the total value have the same record shape and are highly likely to be variable tables. Therefore, in this embodiment, a mode is shown in which fixed / variable is determined by detecting a character string such as “total”.

図14は本実施例を示す1例である。表の最終レコードr3はセルc7のみから構成されており、セルc7は「合計¥1500」という文字列データを保持している。本実施例では、表の最終レコードを構成する全てのセル中の文字列データを抽出し、それらの文字列とデータベースに登録されている文字列を比較することで固定・可変を判定する。図14では、最終レコード中のセルc7から検出した「合計¥1500」という文字列を、データベースに登録済みの「合計」「集計」といった文字列と比較していく。その結果、画像から検出した文字列中にデータベース登録文字列「合計」が見つかったので、可変表と判断する。もし、見つからない場合は固定表と判断する。   FIG. 14 is an example showing the present embodiment. The last record r3 in the table is composed of only the cell c7, and the cell c7 holds character string data “total ¥ 1500”. In this embodiment, character string data in all cells constituting the final record of the table is extracted, and fixed / variable is determined by comparing these character strings with character strings registered in the database. In FIG. 14, the character string “total ¥ 1500” detected from the cell c7 in the final record is compared with character strings such as “total” and “total” registered in the database. As a result, since the database registered character string “total” is found in the character strings detected from the image, it is determined as a variable table. If not found, it is determined as a fixed table.

(実施例4)
流し込むデータの量によっては、表が複数ページにまたがって印刷されることがあり得る。本実施例では複数ページにまたがる表の固定・可変を判定する形態を示す。
Example 4
Depending on the amount of data to be flowed, the table may be printed across multiple pages. In the present embodiment, a mode of determining whether a table is fixed or variable across a plurality of pages is shown.

図15は複数ページにまたがる表の印刷例を示したものであり、上が可変表を含むフォームの印刷例、下が固定表を含むフォームの印刷例である。   FIG. 15 shows an example of printing a table that spans a plurality of pages. The upper example is a printing example of a form including a variable table, and the lower is an example of printing a form including a fixed table.

フォーム作成時に固定表として作られた表の場合には、全てのページで同一形状の表が印刷される。一方、可変表の場合には、例えば1ページ目のみにヘッダ図形を表示させる場合などに、2ページ目以降の表の上限の設定を変更することが可能である。この場合、1ページ目と2ページ目以降の表の外形が異なる。そこで、本実施例では、1ページ目と2ページ目以降の表の外形を比較することで固定表か可変表かを判定する。   In the case of a table created as a fixed table at the time of form creation, a table having the same shape is printed on all pages. On the other hand, in the case of a variable table, for example, when a header graphic is displayed only on the first page, it is possible to change the upper limit setting for the second and subsequent pages. In this case, the outer shapes of the first page and the second and subsequent tables are different. Therefore, in this embodiment, it is determined whether the table is a fixed table or a variable table by comparing the outer shapes of the first and second pages.

(実施例5)
前記実施例1から実施例4は単体で用いてもよいが、複数を組み合わせることによって表の固定・可変の判定の精度を上げることができる。本実施例では、複数の判定方法を組み合わせ、判定の精度を上げる実施の形態を示す。
(Example 5)
The first to fourth embodiments may be used singly, but the accuracy of the table fixing / variable determination can be improved by combining a plurality. In the present embodiment, an embodiment in which a plurality of determination methods are combined to increase determination accuracy will be described.

図16は本実施例における動作の流れを表すフローチャートである。   FIG. 16 is a flowchart showing the flow of operation in this embodiment.

まずステップ1において、表中の全てのレコード形状が等しいかどうかを判定する。   First, in step 1, it is determined whether or not all record shapes in the table are equal.

全てのレコード形状が等しくなければ、ステップ7において表を固定的であると判断し、その情報を設定した電子フォームを作成する。(ステップ8)
全てのレコード形状が等しければ、ステップ2において、表の最終行が空白かどうかを判定する。
If all the record shapes are not equal, it is determined in step 7 that the table is fixed, and an electronic form in which the information is set is created. (Step 8)
If all the record shapes are equal, it is determined in step 2 whether the last row of the table is blank.

表の最終行が空白であれば、ステップ7において表を固定的であると判断し、その情報を設定した電子フォームを作成する。(ステップ8)
表の最終行が空白でなければ、ステップ3において、最終行のセル中データにデータベースに登録された文字が含まれているかどうか判定する。
If the last line of the table is blank, it is determined in step 7 that the table is fixed, and an electronic form in which the information is set is created. (Step 8)
If the last line of the table is not blank, it is determined in step 3 whether the data registered in the database is included in the data in the cell of the last line.

登録文字が含まれていない場合には、ステップ7において表を固定的であると判断し、その情報を設定した電子フォームを作成する。(ステップ8)
登録文字が含まれている場合には、ステップ4において、表が複数ページにまたがっているかどうかを判定する。
If the registered character is not included, it is determined in step 7 that the table is fixed, and an electronic form in which the information is set is created. (Step 8)
If registered characters are included, it is determined in step 4 whether or not the table covers a plurality of pages.

1ページに収まっている表の場合は、ステップ6において表を可変的であると判定し、その情報を設定した電子フォームを作成する。(ステップ8)
1ページに治まりきらない表の場合は、ステップ5において、各ページの表の外形が異なるかどうかを判定する。
In the case of a table that fits on one page, it is determined in step 6 that the table is variable, and an electronic form in which the information is set is created. (Step 8)
In the case of a table that cannot be completely settled on one page, it is determined in step 5 whether or not the outline of the table on each page is different.

表の外形が各ページで異なっていない場合は、ステップ7において表を固定的であると判断し、その情報を設定した電子フォームを作成する。(ステップ8)
表の外形が各ページで異なっている場合は、ステップ6において表を可変的であると判定し、その情報を設定した電子フォームを作成する。(ステップ8)
If the outer shape of the table is not different for each page, it is determined in step 7 that the table is fixed, and an electronic form in which the information is set is created. (Step 8)
If the outer shape of the table is different for each page, it is determined in step 6 that the table is variable, and an electronic form in which the information is set is created. (Step 8)

本発明のハードウェアの構成ブロック図Hardware configuration block diagram of the present invention 本発明における媒体に記録されている内容の構成の例Example of configuration of contents recorded on medium in the present invention 本発明における実行可能状態での記憶領域の構成の例Example of storage area configuration in an executable state in the present invention 表を含む出力フォームの生成例Generation example of output form including table 可変的な表を含む出力フォームの生成例Example of generating an output form with a variable table 固定的な表を含む出力フォームの生成例Example of generating an output form with a fixed table 本発明の実施例における動作のフローチャートFlowchart of operation in the embodiment of the present invention 表を含むフォームの例Example of a form with a table セル情報を管理する構成の例Configuration example for managing cell information レコード情報を管理する構成の例Configuration example for managing record information 複雑なレコード形状の表の例Example of complex record shape table 可変表の認識例Example of variable table recognition 固定表の認識例Recognition example of fixed table 固定・可変表の認識例Recognition example of fixed / variable table 固定・可変表の認識例Recognition example of fixed / variable table 複数の手法を組み合わせた固定・可変表の認識例Examples of recognition of fixed / variable tables by combining multiple methods

Claims (1)

紙帳票に含まれる表に対して固定表か可変表かの判別を行う帳票認識方法であって、紙帳票の画像データを読み取る帳票画像読み取りステップと、前記帳票画像読み取りステップで読み取った画像から表を認識する、表認識ステップと、前記表認識ステップで認識した表が可変表か固定表かを判定する、固定・可変判定ステップと、前記表認識ステップおよび前記固定・可変判定ステップで認識・判定した結果から表オブジェクトを作成する、表オブジェクト作成ステップとを有することを特徴とする帳票認識方法。   A form recognition method for determining whether a table included in a paper form is a fixed table or a variable table, a form image reading step for reading the image data of the paper form, and a table from the image read in the form image reading step. Recognizing, determining whether the table recognized in the table recognition step is a variable table or a fixed table, recognizing and determining in the fixed / variable determination step, the table recognition step, and the fixed / variable determination step A form recognition method characterized by comprising a table object creation step for creating a table object from the result obtained.
JP2005155541A 2005-05-27 2005-05-27 Method for recognizing document Withdrawn JP2006331180A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005155541A JP2006331180A (en) 2005-05-27 2005-05-27 Method for recognizing document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005155541A JP2006331180A (en) 2005-05-27 2005-05-27 Method for recognizing document

Publications (1)

Publication Number Publication Date
JP2006331180A true JP2006331180A (en) 2006-12-07

Family

ID=37552793

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005155541A Withdrawn JP2006331180A (en) 2005-05-27 2005-05-27 Method for recognizing document

Country Status (1)

Country Link
JP (1) JP2006331180A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106033534A (en) * 2015-03-18 2016-10-19 成都理想境界科技有限公司 Electronic paper marking method based on linear detection

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106033534A (en) * 2015-03-18 2016-10-19 成都理想境界科技有限公司 Electronic paper marking method based on linear detection
CN106033534B (en) * 2015-03-18 2020-01-31 成都理想境界科技有限公司 Electronic paper marking method based on straight line detection

Similar Documents

Publication Publication Date Title
CN102117269B (en) Apparatus and method for digitizing documents
JP4926004B2 (en) Document processing apparatus, document processing method, and document processing program
US6377704B1 (en) Method for inset detection in document layout analysis
US8155425B1 (en) Automated check detection and image cropping
JP3962891B2 (en) Document image processing apparatus, document image processing method, and storage medium
JP4183527B2 (en) Form definition data creation method and form processing apparatus
JP2004139484A (en) Form processing device, program for implementing it, and program for creating form format
US20110044539A1 (en) Information processing device, computer readable medium storing information processing program, and information processing method
JPH08249329A (en) Method and apparatus for discrimination of word stated in portable electronic document
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
US11321558B2 (en) Information processing apparatus and non-transitory computer readable medium
JPH11184894A (en) Method for extracting logical element and record medium
US7280693B2 (en) Document information input apparatus, document information input method, document information input program and recording medium
JP5950700B2 (en) Image processing apparatus, image processing method, and program
JP3733310B2 (en) Document format identification device and identification method
JP2008108114A (en) Document processor and document processing method
US20080266606A1 (en) Optimized print layout
JP4136282B2 (en) Image processing apparatus, image processing method, and storage medium
JP2009031937A (en) Form image processing apparatus and form image processing program
JP2006331180A (en) Method for recognizing document
JP7430219B2 (en) Document information structuring device, document information structuring method and program
JP2002170079A (en) Device and method of discriminating document form
JP2005208934A (en) Document distribution processing device and program
JP2012243121A (en) Data creation device, data creation program, recording medium and data creation method
JP2008181383A (en) Character recognition apparatus, and method and program for controlling the same

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080805