JP2012190434A - Form defining device, form defining method, program and recording medium - Google Patents

Form defining device, form defining method, program and recording medium Download PDF

Info

Publication number
JP2012190434A
JP2012190434A JP2011254143A JP2011254143A JP2012190434A JP 2012190434 A JP2012190434 A JP 2012190434A JP 2011254143 A JP2011254143 A JP 2011254143A JP 2011254143 A JP2011254143 A JP 2011254143A JP 2012190434 A JP2012190434 A JP 2012190434A
Authority
JP
Japan
Prior art keywords
processing
information
processing area
unit
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011254143A
Other languages
Japanese (ja)
Inventor
Toshifumi Yamaai
敏文 山合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2011254143A priority Critical patent/JP2012190434A/en
Publication of JP2012190434A publication Critical patent/JP2012190434A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a form defining device capable of saving labor in form definition as much as possible by properly performing automatic classification and grouping of processing areas.SOLUTION: A form defining device 1 for defining form information comprises: a processing area detection part 21 for automatically detecting a processing area in the form information from an inputted form image; a processing area grouping generation part 22 for performing classification so that contents of the same category are written in the same group, based on information about similarity of size of each of the detected processing areas, a connection situation of each of the processing areas in vertical and horizontal directions, and similarity of information about ruled lines surrounding each of the processing areas; a group selection I/F part 24 for selecting a processing area classified into the same group based on input information from an input part; and a group information defining part 25 for collectively defining setting information of the selected group.

Description

本発明は、定型帳票に帳票情報を自動的に入力処理する定型帳票処理システムに用いられる帳票を定義する帳票定義装置、帳票定義方法、プログラム、及び記録媒体に関するものである。   The present invention relates to a form definition device, a form definition method, a program, and a recording medium for defining a form used in a fixed form processing system that automatically inputs form information to a fixed form.

受発注書などの定型帳票に帳票情報を自動的に入力処理する定型帳票処理システムが提案されている。このような定型帳票処理システムにおいては、帳票上に帳票情報の処理領域を設定し、各処理領域をグループ化した後、帳票情報を処理領域のグループ毎に一括して定義して設定する技術が既に知られている。さらに、処理領域のグループを自動的に分類する方法等も既に知られている。
例えば、特許文献1には、ユーザが帳票処理システムにおける帳票情報をより容易に定義できるようにすることを目的として、帳票上の処理領域を予めグループ化し、帳票情報を各グループ毎に一括して定義すること、グループ化を行う際に帳票画像から文字領域、表領域、図領域などを自動的に分類・識別する構成が開示されている。
There has been proposed a fixed form processing system that automatically inputs form information into a fixed form such as a purchase order. In such a fixed form processing system, there is a technology for setting a form information processing area on a form, grouping each processing area, and then defining and setting the form information for each group of processing areas. Already known. Furthermore, a method for automatically classifying a group of processing areas is already known.
For example, Patent Document 1 discloses that processing areas on a form are grouped in advance for the purpose of enabling a user to more easily define form information in a form processing system, and form information is collectively collected for each group. A configuration is disclosed in which character areas, table areas, figure areas, and the like are automatically classified and identified from form images when defining and grouping.

しかしながら、従来の定型帳票処理システムにおける自動分類方法では、1カテゴリーの設定情報が独立した大きな枠になっているような帳票では、自動分類は成功するが、そうではない複雑な帳票、具体的にはいろいろな記入項目が組み合わさって、一つの大きな表となっているようなものであったり、或いは沢山のチェックマークのある表では、適切に同じ種類の枠をグループ化する精度が低いという問題点があった。
自動グループ化が適切にされていれば、例えば、その後の処理で一括設定という省力化ができるのに、グループ化が正しくできないことが多いために、せっかく機能としてある一括設定による省力化が活かせないことにつながってしまう。
本発明は、上記したような問題点を鑑みてなされたものであり、処理領域の自動分類、グループ化を適切に行い、帳票定義をできるだけ省力化することができる帳票定義装置、帳票定義方法、プログラム、及び記録媒体を提供することを目的とする。
However, with the automatic classification method in the conventional fixed form processing system, automatic classification succeeds in a form in which the setting information of one category is an independent large frame, but a complicated form that is not so, specifically, Is a combination of various entries into a single large table, or a table with many checkmarks is not accurate enough to properly group the same type of frame There was a point.
If automatic grouping is appropriate, for example, although it is possible to save labor by batch setting in the subsequent processing, grouping cannot often be performed correctly. It will lead to things.
The present invention has been made in view of the problems as described above, and appropriately performs automatic classification and grouping of processing areas, and a form definition device, a form definition method capable of saving form definition as much as possible, It is an object to provide a program and a recording medium.

上記目的を達成するため、本発明の第1の形態は、帳票情報を定義する帳票定義装置であって、入力された前記帳票画像から帳票情報の処理領域を自動的に検出する処理領域検出部と、前記検出された各処理領域のサイズの類似性、前記各処理領域の上下左右への接続状況、及び前記各処理領域を囲む周囲の罫線情報の類似性に関する情報に基づいて、前記各処理領域を同一カテゴリーの内容が記入されるべき同一グループに分類する処理領域グルーピング作成部と、入力部からの入力情報に基づいて、前記同一グループに分類された処理領域を選択するグループ選択I/F部と、前記グループ選択I/F部において選択されたグループの設定情報を一括して定義するグループ情報定義部と、を備えたことを特徴とする。
本発明によれば、帳票上の処理領域をグループ化する際に、同一処理領域であるものと、異なる処理領域を高精度にグループ化することで、帳票情報をグループ毎に一括して定義することができるので、帳票情報の設定作業を省力化することができる。
本発明の第2の形態は、前記処理領域グルーピング作成部は、前記処理領域検出部によって検出された各処理領域が、上下左右に最も近接している他の処理領域と同一グループであるか否かの判定を行うことにより、全ての処理領域を同一カテゴリーの内容が記入されるべきグループに分類することを特徴とする。
本発明によれば、帳票情報の設定処理の処理時間を短縮することができる。
In order to achieve the above object, a first form of the present invention is a form definition device that defines form information, and a processing area detection unit that automatically detects a processing area of form information from the inputted form image And each processing area based on information on the similarity of the size of each detected processing area, the connection status of each processing area in the vertical and horizontal directions, and the similarity of the ruled line information surrounding each processing area. A processing area grouping creation unit for classifying areas into the same group in which the contents of the same category should be entered, and a group selection I / F for selecting the processing areas classified into the same group based on input information from the input unit And a group information definition unit that collectively defines setting information of the group selected in the group selection I / F unit.
According to the present invention, when grouping processing areas on a form, form information is collectively defined for each group by grouping different processing areas with the same processing area with high accuracy. Therefore, it is possible to save labor in setting up the form information.
In the second aspect of the present invention, the processing area grouping creation unit determines whether each processing area detected by the processing area detection unit is in the same group as another processing area that is closest to the top, bottom, left, or right. It is characterized by classifying all the processing areas into groups in which the contents of the same category should be entered.
According to the present invention, it is possible to shorten the processing time of the form information setting process.

本発明の第3の形態は、前記処理領域グルーピング作成部は、前記処理領域検出部によって検出された各処理領域に対して、前記各処理領域のサイズ情報と前記各処理領域を囲む周囲の罫線情報とに類似性があり、且つ、前記各処理領域が上下左右で他の処理領域と直接連結していない状態で、前記各処理領域と前記他の処理領域との間に更に他の処理領域がない状態であると判定した場合は、他の処理領域を同一グループに分類することを特徴とする。
本発明によれば、処理領域が連結していない場合でも分類することが可能になる。
本発明の第4の形態は、前記処理領域グルーピング作成部は、前記処理領域のサイズ情報、前記処理領域を囲む周囲の罫線情報、及び前記処理領域の連結情報の3つの情報の組み合わせを予めルール化した情報を記憶するグループ作成ルール記憶部を備え、該グループ作成ルール記憶部に記憶されたルールに従って、前記処理領域のグルーピングの判断を行うことを特徴とする。
本発明によれば、グルーピングの判断をルール化して記憶しておくことで、ユーザの帳票修正をよりカスタマイズし易くなるという利点がある。
According to a third aspect of the present invention, the processing area grouping creation unit is configured to, for each processing area detected by the processing area detection unit, size information of each processing area and surrounding ruled lines surrounding each processing area. Other processing areas between the respective processing areas and the other processing areas in a state similar to the information, and in a state where the respective processing areas are not directly connected to the other processing areas in the upper, lower, left, and right directions. When it is determined that there is no state, the other processing areas are classified into the same group.
According to the present invention, it is possible to classify even when processing regions are not connected.
According to a fourth aspect of the present invention, the processing area grouping creation unit predefines a combination of three pieces of information: size information of the processing area, ruled line information surrounding the processing area, and connection information of the processing area. A group creation rule storage unit for storing the converted information, and the grouping of the processing areas is determined according to the rules stored in the group creation rule storage unit.
According to the present invention, there is an advantage that it is easier to customize a user's form correction by storing the grouping determination as a rule.

本発明の第5の形態は、前記処理領域グルーピング作成部において、同一グループに分類された処理領域を視覚的に表現する表示部を備えることを特徴とする。
本発明によれば、自動グルーピング結果の誤認があった場合にもユーザが状況を簡単に把握でき、修正し易いという利点がある。
本発明の第6の形態は、前記処理領域検出部によって検出された領域の構造解析を行って、前記領域のツリー構造を生成する領域構造解析部を備え、前記処理領域グルーピング作成部は、前記領域構造解析部の解析結果に基づいて、前記領域構造が同一の領域部分を同一のグループと判定することを特徴とする。
本発明によれば、同じ構造を持つ領域の一致する部分を構造的に探して、同じグループとすることで、隣接していない離れた位置にある同じ内容の領域を一つのグループと判定できユーザの設定が容易になる。
本発明の第7の形態は、前記処理領域グルーピング作成部は、文字情報と該文字情報が記入された処理領域のサイズ情報が一致し、且つ、前記文字情報が記入された処理領域の右、あるいは下に同一サイズの処理領域がある場合に前記同一サイズの処理領域を同じグループと判定することを特徴とする。
本発明によれば、文字情報がある領域の右、あるいは下の領域を探して同じグループとすることで、隣接してない離れた位置にある同じ内容の領域を一つのグループと判定でき、ユーザの設定が容易になる。
本発明の第8の形態は、前記グループ選択I/F部は、前記同一グループに分類された処理領域を、前記入力部の入力操作により一括選択できるように構成されていることを特徴とする。
本発明によれば、入力部の操作を減らすことができるので、ユーザに簡単な設定方法を提供することができる。
According to a fifth aspect of the present invention, the processing region grouping creation unit includes a display unit that visually represents the processing regions classified into the same group.
According to the present invention, there is an advantage that even when an automatic grouping result is misidentified, the user can easily grasp the situation and easily correct it.
A sixth aspect of the present invention includes a region structure analysis unit that performs a structure analysis of a region detected by the processing region detection unit and generates a tree structure of the region, and the processing region grouping generation unit includes Based on the analysis result of the region structure analysis unit, region portions having the same region structure are determined to be the same group.
According to the present invention, it is possible to determine a region having the same content at a distant position that is not adjacent to one group by structurally searching for a matching portion of regions having the same structure and forming the same group. Easy to set up.
In the seventh aspect of the present invention, the processing area grouping creation unit matches the character information with the size information of the processing area in which the character information is entered, and the right of the processing area in which the character information is entered. Alternatively, when there are processing areas of the same size below, the processing areas of the same size are determined as the same group.
According to the present invention, by searching for the right or lower area of the area where the character information exists and making it the same group, it is possible to determine an area having the same content at a position not adjacent to each other as one group, Easy to set up.
According to an eighth aspect of the present invention, the group selection I / F unit is configured to be able to collectively select processing areas classified into the same group by an input operation of the input unit. .
According to the present invention, since the operation of the input unit can be reduced, a simple setting method can be provided to the user.

本発明の第9の形態は、帳票情報を定義する帳票定義方法であって、入力された前記帳票画像から帳票情報の処理領域を自動的に検出するステップと、前記検出された各処理領域のサイズの類似性、前記各処理領域の上下左右への接続状況、及び前記各処理領域を囲む周囲の罫線情報の類似性に関する情報に基づいて、前記各処理領域を同一カテゴリーの内容が記入されるべき同一グループに分類するステップと、入力部からの入力情報に基づいて、前記同一グループに分類された処理領域を選択するステップと、前記グループ選択I/F部において選択されたグループの設定情報を一括して定義するステップと、を含むことを特徴とする。
本発明によれば、帳票上の処理領域をグループ化する際に、同一処理領域であるものと、異なる処理領域を高精度にグループ化することで、帳票情報をグループ毎に一括して定義することができるので、帳票情報の設定作業を省力化することができる。
本発明の第10の形態は、コンピュータに第9の形態記載の帳票定義方法を実行させるためのプログラムである。
本発明の第11の形態は、第10の形態記載のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
According to a ninth aspect of the present invention, there is provided a form defining method for defining form information, the step of automatically detecting a process area of form information from the input form image, and the detection of each of the detected process areas. Based on information on the similarity in size, the connection status of each processing area in the vertical and horizontal directions, and the similarity in the ruled line information surrounding each processing area, the contents of each processing area are filled in with the same category. A step of classifying the same group, a step of selecting processing regions classified into the same group based on input information from the input unit, and setting information of the group selected in the group selection I / F unit And defining all at once.
According to the present invention, when grouping processing areas on a form, form information is collectively defined for each group by grouping different processing areas with the same processing area with high accuracy. Therefore, it is possible to save labor in setting up the form information.
A tenth aspect of the present invention is a program for causing a computer to execute the form defining method described in the ninth aspect.
An eleventh aspect of the present invention is a computer-readable recording medium on which the program according to the tenth aspect is recorded.

本発明によれば、帳票上の処理領域をグループ化する際に、同一処理領域であるものと、異なる処理領域を高精度にグループ化することで、帳票情報をグループ毎に一括して定義することができるので、帳票情報の設定作業を省力化することができる。   According to the present invention, when grouping processing areas on a form, form information is collectively defined for each group by grouping different processing areas with the same processing area with high accuracy. Therefore, it is possible to save labor in setting up the form information.

本発明の実施形態に係る帳票定義装置を備えた帳票入力処理システムの構成図である。It is a block diagram of the form input processing system provided with the form definition apparatus which concerns on embodiment of this invention. 本実施形態に係る帳票定義装置のハードウェア構成を示した図である。It is the figure which showed the hardware constitutions of the form definition apparatus which concerns on this embodiment. 本実施形態の帳票定義装置の帳票定義部の機能ブロック図である。It is a functional block diagram of the form definition part of the form definition apparatus of this embodiment. グルーピング処理の説明図である。It is explanatory drawing of a grouping process. 自動グルーピングが失敗する例を示した図である。It is the figure which showed the example in which automatic grouping fails. サイズと連結性を考慮した情報の分類結果を示した図である。It is the figure which showed the classification result of the information which considered size and connectivity. 本実施形態の処理領域検出部21における表枠抽出処理の一例を示したフローチャートである。It is the flowchart which showed an example of the table frame extraction process in the process area | region detection part 21 of this embodiment. 処理領域グルーピング作成部22におけるグルーピング処理の一例を示したフローチャートである。It is the flowchart which showed an example of the grouping process in the process area grouping preparation part. グルーピング処理の過程を示した図である。It is the figure which showed the process of the grouping process. グルーピング処理の過程及び結果を示した図である。It is the figure which showed the process and result of grouping processing. 属性を定義情報に入力する設定画面の一例を示した図である。It is the figure which showed an example of the setting screen which inputs an attribute into definition information. 金額を記入する金額欄の一例を示した図である。It is the figure which showed an example of the money amount column which fills in the money amount. 連続した矩形枠の一例を示した図である。It is the figure which showed an example of the continuous rectangular frame. 郵便番号を記入する郵便番号の欄の一例を示した図である。It is the figure which showed an example of the column of the postal code which fills in a postal code. 独立した枠で記入欄を構成している場合を示した図である。It is the figure which showed the case where the entry column was comprised with the independent frame. 表枠の他の例を示した図である。It is the figure which showed the other example of the table frame. 個々の記入領域が独立した枠である場合のグルーピング処理の一例を示したフローチャートである。It is the flowchart which showed an example of the grouping process in case each entry area | region is an independent frame. 本実施形態の帳票定義装置の帳票定義部の他の機能ブロック図である。It is another functional block diagram of the form definition part of the form definition apparatus of this embodiment. 領域分割された枠の一例を示した図である。It is the figure which showed an example of the area | region divided | segmented frame. 図19に示した枠をツリー構造により示した場合の一例を示した図である。It is the figure which showed an example at the time of showing the frame shown in FIG. 19 by the tree structure. 図19に示した枠におけるセルIDの付与の過程を示した図である。It is the figure which showed the process of provision of the cell ID in the frame shown in FIG. 帳票の他の例を示した図である。It is the figure which showed the other example of the form. 図22に示した帳票の枠にセルIDを付与する過程を示した図である。FIG. 23 is a diagram showing a process of assigning a cell ID to the form frame shown in FIG. 22. 図23に示した枠をツリー構造により示した場合の一例を示した図である。It is the figure which showed an example at the time of showing the frame shown in FIG. 23 by the tree structure. 第2の実施形態の帳票定義部の機能ブロック図である。It is a functional block diagram of the form definition part of 2nd Embodiment. 枠のツリー構造を生成する処理の一例を示した図である。It is the figure which showed an example of the process which produces | generates the tree structure of a frame. 第2の実施形態の処理領域グルーピング作成部22におけるグルーピング処理の一例を示したフローチャートである。It is the flowchart which showed an example of the grouping process in the process area grouping preparation part 22 of 2nd Embodiment. 第2の実施形態の処理領域グルーピング作成部22におけるグルーピング処理の他の例を示したフローチャートである。It is the flowchart which showed the other example of the grouping process in the process area grouping preparation part 22 of 2nd Embodiment.

以下、本発明の実施形態について説明する。
図1は、本発明の実施形態に係る帳票定義装置を備えた帳票入力処理システムの構成図である。この図1に示す帳票入力処理システム100は、本実施形態の帳票定義装置1と帳票入力処理装置50とにより構成される。
帳票定義装置1は、帳票入力処理装置50を運用する上で事前準備として必要な処理装置であり、マスター画像入力部10、帳票定義部20、帳票定義保存部(帳票定義データベース(DB))30により構成される。
マスター画像入力部10は、帳票情報の定義を行う画像(以下、「マスター画像」と称する)の入力処理を行う。帳票定義部20は、マスター画像入力部10からのマスター画像情報に基づいて帳票定義処理を行う。帳票定義DB30は、帳票定義部20において定義された帳票定義情報を保存する。
Hereinafter, embodiments of the present invention will be described.
FIG. 1 is a configuration diagram of a form input processing system including a form definition device according to an embodiment of the present invention. A form input processing system 100 shown in FIG. 1 includes a form definition apparatus 1 and a form input processing apparatus 50 according to this embodiment.
The form definition device 1 is a processing device necessary as advance preparation for operating the form input processing device 50, and includes a master image input unit 10, a form definition unit 20, a form definition storage unit (form definition database (DB)) 30. Consists of.
The master image input unit 10 performs an input process of an image for defining form information (hereinafter referred to as “master image”). The form definition unit 20 performs a form definition process based on the master image information from the master image input unit 10. The form definition DB 30 stores form definition information defined in the form definition unit 20.

一方、帳票入力処理装置50は、処理画像入力部51、認識処理部52、認識結果部53、業務関連DB54により構成される。
処理画像入力部51は、処理を行う帳票画像の入力処理を行う。認識処理部52は、帳票定義DB30に保存された帳票定義情報に基づいて処理画像入力部51から帳票画像情報の認識処理を行う。認識結果部53は、認識処理部52の認識処理の認識結果を表示する。業務関連DB54は、認識結果部53の認識結果情報を保存する。
On the other hand, the form input processing device 50 includes a processing image input unit 51, a recognition processing unit 52, a recognition result unit 53, and a business related DB 54.
The processed image input unit 51 performs input processing of a form image to be processed. The recognition processing unit 52 performs recognition processing of the form image information from the processing image input unit 51 based on the form definition information stored in the form definition DB 30. The recognition result unit 53 displays the recognition result of the recognition process performed by the recognition processing unit 52. The business relation DB 54 stores the recognition result information of the recognition result unit 53.

図2は、本実施形態の帳票定義装置のハードウェア構成を示したブロック図である。
この図に示す帳票定義装置1は、マイクロプロセッサ等のデジタル処理により実行し得るために構築したものである。この図において、スキャナー101は、マスター画像などの文書画像原稿を光学的に読み取り電気信号である画像データに変換する。CPU102は、本実施形態に係る処理プログラムを格納してあるプログラム格納ROM/RAM103から、又はCD−ROM/FDの記録媒体104からCD−ROM/FDドライブ105によって当該プログラムを読み出してワークエリアRAM106において文書画像データに対する分割処理及び画像処理を実行する。処理された文書画像データはCPU102の指示によりメモリ107に格納され、必要によりディスプレイ108に表示したり、印字装置109から出力したりする。
FIG. 2 is a block diagram showing a hardware configuration of the form definition device of the present embodiment.
The form definition device 1 shown in this figure is constructed so that it can be executed by digital processing such as a microprocessor. In this figure, a scanner 101 optically reads a document image original such as a master image and converts it into image data that is an electric signal. The CPU 102 reads out the program from the program storage ROM / RAM 103 in which the processing program according to the present embodiment is stored or from the CD-ROM / FD recording medium 104 by the CD-ROM / FD drive 105, and in the work area RAM 106. Division processing and image processing are executed on the document image data. The processed document image data is stored in the memory 107 in accordance with an instruction from the CPU 102, and is displayed on the display 108 or output from the printing device 109 as necessary.

[第1の実施形態]
以下、本発明の第1の実施形態に係る帳票定義部について説明する。
図3は、本実施形態の帳票定義装置の帳票定義部の機能ブロック図である。
帳票定義装置1では、マスター画像入力部10からマスター画像2を入力することで、処理が開始される。
帳票定義部20は、処理領域検出部21、処理領域グルーピング作成部22、表示部23、グループ選択I/F部24、グループ情報定義部25を備えている。
処理領域検出部21は、入力されたマスター画像(帳票画像)から、ユーザがその帳票に対して記入などを行う処理領域を抽出して、位置座標、周囲の罫線情報などを含む処理領域情報を出力する。なお、処理領域検出部21における処理領域の自動検出は、特開2001−126010号公報、特開2001−266068号公報、特開2002−042143号公報などに開示されている既知の方法を利用することができる。
処理領域グルーピング作成部22は、処理領域検出部21において抽出された処理領域のどの領域とどの領域が同じカテゴリーであるかというグルーピングを行う。なお、カテゴリーが同じグループとは、ユーザにより帳票定義として同一の設定情報が記録される状態をいう。
[First Embodiment]
The form definition unit according to the first embodiment of the present invention will be described below.
FIG. 3 is a functional block diagram of the form definition unit of the form definition apparatus of this embodiment.
In the form definition device 1, processing is started by inputting the master image 2 from the master image input unit 10.
The form definition unit 20 includes a processing region detection unit 21, a processing region grouping creation unit 22, a display unit 23, a group selection I / F unit 24, and a group information definition unit 25.
The processing area detection unit 21 extracts a processing area in which the user fills in the form from the input master image (form image), and obtains processing area information including position coordinates and surrounding ruled line information. Output. In addition, the automatic detection of the processing region in the processing region detection unit 21 uses a known method disclosed in Japanese Patent Application Laid-Open Nos. 2001-125010, 2001-266068, 2002-042143, and the like. be able to.
The processing area grouping creation unit 22 performs grouping of which areas of the processing areas extracted by the processing area detection unit 21 and which areas are in the same category. The group having the same category means a state in which the same setting information is recorded as a form definition by the user.

表示部23は、処理領域グルーピング作成部22において作成されたグルーピング結果を表示する。
グループ選択I/F部24は、表示部23に表示された処理領域をポインティングデバイスなどの入力部により選択可能にするためのI/Fである。グループ選択I/F部24は、自動の処理領域グルーピング作成部22におけるグルーピング処理にて誤認が発生した場合にユーザが間違いを訂正し、必要なグループの範囲を選択するためのものである。
グループ帳票定義部25は、グループが選択された後に処理領域に応じた設定を行うと、グループに共通した処理領域情報を帳票定義として定義する。
グループ帳票定義部25において定義された帳票定義情報は、帳票定義DB30に保存する。なお、帳票定義DB30に保存された帳票定義情報は、メモリ形式、ファイル形式の何れの形式でも出力可能である。
The display unit 23 displays the grouping result created by the processing area grouping creation unit 22.
The group selection I / F unit 24 is an I / F that enables the processing area displayed on the display unit 23 to be selected by an input unit such as a pointing device. The group selection I / F unit 24 is used by the user to correct a mistake and select a necessary group range when an error occurs in the grouping process in the automatic processing area grouping creation unit 22.
When the group form definition unit 25 performs the setting corresponding to the processing area after the group is selected, the group form definition unit 25 defines the processing area information common to the group as the form definition.
The form definition information defined in the group form definition unit 25 is stored in the form definition DB 30. Note that the form definition information stored in the form definition DB 30 can be output in either a memory format or a file format.

次に、帳票定義部20におけるグルーピング処理について説明する。
図4は、グルーピング処理の説明図であり、例えば帳票の形式として図4に示すような郵便番号の記入枠41があった場合、1つの枠41a毎に郵便番号を示す数値が手書きで記入されるケースが多い。そのときに、一枠ごとに例えば「認識:手書きOCR、文字種:数字 罫線枠:除外して認識」という設定を行うよりは、グループとしてまとめて一括設定をできる方が設定を行うユーザにとってはより手間が少ない。そして、図4に示すように1つのグループが単独で存在しているケースでは、領域識別技術を用いて自動的にグルーピングが可能であり、一括設定も可能となる。
Next, the grouping process in the form definition unit 20 will be described.
FIG. 4 is an explanatory diagram of the grouping process. For example, when there is a postal code entry frame 41 as shown in FIG. 4 as a form, a numerical value indicating the postal code is entered by hand for each frame 41a. There are many cases. At that time, for example, “recognition: handwritten OCR, character type: number, ruled line frame: excluding and recognizing” is set for each frame. Less effort. And in the case where one group exists independently as shown in FIG. 4, grouping is automatically possible using area identification technology, and batch setting is also possible.

自動領域識別の方法は、例えば特開2002−42143公報に開示されている。この方法によると、入力画像データより黒画素の連結成分の外接矩形を抽出する黒画素矩形抽出手段と、前記黒画素矩形抽出手段によって抽出された黒画素矩形について、該黒画素矩形の領域情報を用いて該黒画素矩形を枠候補又は非枠候補に弁別する一次判定手段と、枠候補と弁別された前記黒画像矩形の内部に対して白画素の連結成分矩形を抽出し、その位置関係から枠と非枠に分別する。この方法によって枠の塊を自動で抽出することができる。この方法で枠の固まりを自動抽出した場合、枠の塊と、その塊内部の枠が抽出されていることになる。その枠に対してグルーピングを行う技術としては、先行技術である特許文献1等に開示されている。この発明では、枠の塊の位置は処理領域設定手段として、ユーザから指定されることを想定しているが、自動抽出した領域を処理させる応用は可能である。枠の塊と、その塊に属している個別の枠が既知となっている状態であるため、グルーピング化は容易に可能で、そのグルーピングした枠を一括設定するのもまた容易である。なお、枠の領域を抽出する手段は、ここで述べた手法以外にも各種提案されており、上記した方法に限定されるものではない。例えば、処理領域の自動検出は、上記した特開2001−126010公報、特開2001−266068公報、特開2002−042143公報いくつかの既知の方法を適用することができる。   A method of automatic area identification is disclosed in, for example, Japanese Patent Application Laid-Open No. 2002-42143. According to this method, black pixel rectangle extracting means for extracting a circumscribed rectangle of a connected component of black pixels from input image data, and the black pixel rectangle extracted by the black pixel rectangle extracting means, the area information of the black pixel rectangle is obtained. A primary determination means for discriminating the black pixel rectangle into a frame candidate or a non-frame candidate, and extracting a connected component rectangle of a white pixel with respect to the inside of the black image rectangle discriminated from the frame candidate; Sort into frame and non-frame. By this method, a block of frames can be automatically extracted. When the mass of the frame is automatically extracted by this method, the frame lump and the frame inside the lump are extracted. A technique for performing grouping on the frame is disclosed in Patent Document 1 as a prior art. In this invention, it is assumed that the position of the block of frames is designated by the user as the processing area setting means, but an application for processing the automatically extracted area is possible. Since the block of frames and the individual frames belonging to the block are already known, grouping can be easily performed, and it is also easy to set the grouped frames at once. Various means for extracting the frame region have been proposed in addition to the method described here, and the method is not limited to the method described above. For example, for the automatic detection of the processing area, several known methods can be applied as described above in Japanese Patent Application Laid-Open Nos. 2001-122010, 2001-266068, and 2002-042143.

しかしながら、特許文献1においては、図5に示すような形式の帳票42の場合は、ほぼ同じ大きさの枠42dが並んでおり、しかもグループごとに独立して間隔が空いていないため、自動でグルーピング化することができなかった。
そこで、例えば、帳票定義部20の処理領域検出部21において処理領域(枠)のサイズ、処理領域の罫線情報、処理領域の連結性の情報を取得し、最初に処理領域のサイズで分類を行うことが考えられるが、図5に示すような形式の帳票42では、記入領域のサイズは同じであり、印刷、スキャンを経て画像となったものであっても、それほど大きな違いは生じないため、図6に示すようなサイズと連結性を考慮した分類、例えば5つの枠42a〜42eに分類した分類結果となってしまう。
However, in Patent Document 1, in the case of a form 42 as shown in FIG. 5, frames 42d having almost the same size are arranged and there is no space independently for each group. Could not be grouped.
Therefore, for example, the processing area detection unit 21 of the form definition unit 20 acquires the size of the processing area (frame), the ruled line information of the processing area, and the connectivity information of the processing area, and first classifies the processing area according to the size of the processing area. However, in the form 42 shown in FIG. 5, the size of the entry area is the same, and even if it is an image after printing and scanning, there is no significant difference. The classification in consideration of the size and connectivity as shown in FIG. 6, for example, the classification results classified into five frames 42a to 42e.

そこで、本実施形態では、処理領域検出部21において、自動で表枠抽出とその後の個々の枠抽出を行う。そして処理領域グルーピング作成部22において、処理領域の罫線情報を利用してグルーピング化処理を行うようにした点に特徴がある。つまり、相対的に太い罫線は、グルーピングの切れ目にあるというルールを用いてグルーピング処理を行うようにした。   Therefore, in the present embodiment, the processing region detection unit 21 automatically performs table frame extraction and subsequent individual frame extraction. The processing area grouping creation unit 22 is characterized in that grouping processing is performed using ruled line information of the processing area. That is, the grouping process is performed using the rule that relatively thick ruled lines are at the grouping breaks.

自動で表枠抽出を行う技術は、上述した領域抽出技術により実現可能であるが、他の例としては特許第3215163号の発明により、文書画像(またはその縮小画像)から黒連結成分の外接矩形を抽出する。その外接矩形の中から、特定方向にしきい値が異常に長い黒画素の連結成分だけを用いて外接矩形を抽出し、そこで得られた縦長、横長の外接矩形の本数、配置によって表領域という判定をすることができるため、そういった方法で表の領域を抽出することができる。そうして得られた表領域の中身を、今度は特許第2851089号に示される方法では、主走査方向及び副走査方向の罫線の矩形を抽出し、罫線によって囲まれる枠を罫線の矩形の外側の座標を用いてそれを一つの枠と考えるようにしている。テンプレートに使用する枠は、基本的にはユーザが未記入のものを使用することが多く、一つの枠の中の空白領域を求めるか、枠を構成する内側の座標値を求めるかの手段でそれぞれの枠の領域を得ることができる。   The technology for automatically extracting the table frame can be realized by the above-described region extraction technology, but as another example, according to the invention of Japanese Patent No. 3215163, a circumscribed rectangle of a black connected component from a document image (or a reduced image thereof) is used. To extract. The circumscribed rectangle is extracted from the circumscribed rectangle using only the connected components of black pixels whose threshold value is abnormally long in a specific direction, and the number of vertical and horizontal circumscribed rectangles obtained there and the table area are determined. Therefore, the table area can be extracted by such a method. In the method shown in Japanese Patent No. 2851089, the contents of the table area thus obtained are extracted from the ruled line rectangle in the main scanning direction and the sub-scanning direction, and the frame surrounded by the ruled line is placed outside the ruled line rectangle. It is considered to be one frame using the coordinates of. The frame used for the template is basically the one that the user has not filled in. Basically, it is possible to obtain the blank area in one frame or the inner coordinate value constituting the frame. Each frame area can be obtained.

図7は、本実施形態の処理領域検出部21における表枠抽出処理の一例を示したフローチャートである。
この場合、処理領域検出部21では、その帳票に記入を行うユーザが記入を行い、システムが読み取る可能性のある項目・枠を全て検出するのが目的となる。
このため、処理領域検出部21は、マスター画像入力部10からの画像入力(全面)を領域に分割し(S1)、表の類の領域を抽出する(S2)。
次に、抽出された表の内部から、その表を構成する罫線を抽出し(S3)、罫線で構成される枠を抽出して(S4)、出力する。
上記した処理領域検出部21における表枠抽出処理は、既存の技術として例えば特許第3140079号に開示されている。
なお、上記した枠抽出処理はあくまでも一例であり、本発明における枠抽出処理は、上記した枠抽出処理に限定されるものでなく、他の枠抽出処理も適用可能であることは言うまでもない。
FIG. 7 is a flowchart showing an example of a table frame extraction process in the processing area detection unit 21 of the present embodiment.
In this case, the processing area detection unit 21 aims to detect all items / frames that the user who fills in the form fills in and can be read by the system.
Therefore, the processing area detection unit 21 divides the image input (entire surface) from the master image input unit 10 into areas (S1), and extracts a table-like area (S2).
Next, ruled lines constituting the table are extracted from the extracted table (S3), and a frame composed of the ruled lines is extracted (S4) and output.
The table frame extraction processing in the processing region detection unit 21 described above is disclosed in, for example, Japanese Patent No. 3140079 as an existing technique.
Note that the frame extraction process described above is merely an example, and the frame extraction process in the present invention is not limited to the frame extraction process described above, and other frame extraction processes can be applied.

次に、本実施形態の処理領域グルーピング作成部22におけるグルーピング処理について説明する。
枠をグループに分類化するには、枠の高さ、幅というサイズの情報、枠の連結性の情報、及び枠の周囲の罫線の情報(太さ、実線・点線などの罫線の種類)等を利用する。
これは、同じグループになるべき一連の枠は、基本的にサイズが同じであることが大多数であること、また一連の枠は独立した枠で形成されているものではない場合、上下左右のどこかで連結していることが大多数であるからである。また一連の枠を構成する罫線の情報も、大多数は類似しているからである。
但し、例外的に最外周の枠を構成する罫線だけが実線罫線であり、中の罫線が点線であるという構成を採る場合もある。このような場合、最も左に位置している枠と、その隣の枠とでは枠を構成する罫線情報が異なるという状態になるが、最外周のみ例外扱いをすることで、罫線の情報を使用できる。
Next, the grouping process in the processing area grouping creation unit 22 of this embodiment will be described.
To classify frames into groups, information on the height and width of the frame, information on the connectivity of the frame, and information on the ruled lines around the frame (thickness, type of ruled lines such as solid and dotted lines), etc. Is used.
This is because the majority of the series of frames that should be in the same group are basically the same size, and if the series of frames is not formed of independent frames, This is because the majority is connected somewhere. This is also because most of the ruled line information constituting a series of frames is similar.
However, there may be an exception in which only the ruled lines constituting the outermost frame are exceptionally solid lined lines and the inner ruled lines are dotted lines. In such a case, the ruled line information that forms the frame is different between the leftmost frame and the adjacent frame, but the ruled line information is used by treating the outermost circumference as an exception. it can.

図8は、処理領域グルーピング作成部22におけるグルーピング処理の一例を示したフローチャートである。
この場合、処理領域グルーピング作成部22は、入力(画像、枠領域座標)から枠の罫線情報を抽出する(S11)。
この罫線情報には、罫線の種類(点線・実線)や罫線の太さ情報が含まれる。また、罫線情報抽出には、罫線太さ取得をする処理が含まれる。罫線の太さは、罫線の太さ方向のランレングスの平均を求める方法や、罫線領域の黒画素数を罫線領域の長さの値(ピクセル数)で割ることで、およその太さ(ピクセル数)が推定できる。
ランレングスの平均を求める方法は、垂直罫線であれば、その罫線を水平方向に操作したときに得られる黒画素の連結成分、ランの長さランレングスを求めて、それを平均する。例えば、棒を輪切りにして、その直径の平均を求めているようなイメージとされる。
FIG. 8 is a flowchart showing an example of grouping processing in the processing area grouping creation unit 22.
In this case, the processing area grouping creation unit 22 extracts the ruled line information of the frame from the input (image, frame area coordinates) (S11).
This ruled line information includes ruled line type (dotted line / solid line) and ruled line thickness information. Further, the ruled line information extraction includes a process of acquiring the ruled line thickness. The thickness of the ruled line can be roughly calculated by calculating the average run length in the thickness direction of the ruled line, or by dividing the number of black pixels in the ruled line area by the value of the length of the ruled line area (number of pixels). Number) can be estimated.
If the average run length is a vertical ruled line, the black pixel connected component and run length run length obtained when the ruled line is manipulated in the horizontal direction are obtained and averaged. For example, it is an image in which a rod is cut into circles and the average of the diameters is obtained.

次に、枠の罫線の太さによるグルーピングを行う(S12)。例えば、枠の罫線の太さ情報を用いて大きく分類して、図9(a)のような塊61aに分ける。
次に同じグループ内を領域のサイズ(縦・横)でグルーピングを行う(S13)。例えば、太い枠の中に小さい枠が存在するものは、「太い枠の単位」で別なグループと判定する。図9に示した例では、太い枠の中に縦横サイズの同じ枠が揃っていることから、図9(b)のようなグルーピングされたら枠62a〜62gができる(個々では罫線の種類:実線、点線は使用していない)。
次に、グループ内(太い枠の中)に枠が一枠しかない場合、他の一枠しかないグループと同じかどうかを判定してグルーピングを行う(S14)。図9(b)に示す枠62a〜62gの中で枠62bと枠62gはいずれも1グループ1枠である。この後、枠の中に存在する文字列が異なるものは別のグループと判定すれば、図10(a)に示すように、枠62a〜62f、63a〜63eに分けることができる。
次に、グループ内が一枠であった場合、これは「郵便番号」などの書誌事項が書かれている枠63a〜63fがそれに相当する。このグループ枠のサイズを比較すると、「郵便番号」と「氏名」は枠の大きさが縦横、一定の範囲に収まるため、同じとグルーピングできる。同様に、「氏名フリガナ」と「住所」も同じ大きさであるため、同じとグルーピングできる。
この後、枠のグルーピングの属性を出力する。グルーピングの属性とは、グループ番号1、2といったシリアル番号のようなものでも良いし、グループA,B,Cでも良く、その表でどのグループかを示すIDのようなものとされる。
Next, grouping based on the thickness of the ruled line of the frame is performed (S12). For example, it is roughly classified using the thickness information of the ruled line of the frame, and is divided into chunks 61a as shown in FIG.
Next, grouping is performed within the same group with the area size (vertical / horizontal) (S13). For example, when a small frame exists in a thick frame, it is determined as a different group by “unit of thick frame”. In the example shown in FIG. 9, the same vertical and horizontal size frames are arranged in a thick frame, so that the frames 62 a to 62 g are formed when grouped as shown in FIG. 9B (individual types of ruled lines: solid lines). , Dotted lines are not used).
Next, when there is only one frame in the group (in the thick frame), it is determined whether it is the same as the group having only one other frame (S14). Of the frames 62a to 62g shown in FIG. 9B, both the frame 62b and the frame 62g are one group and one frame. Thereafter, if different character strings existing in the frame are determined to be different groups, they can be divided into frames 62a to 62f and 63a to 63e as shown in FIG.
Next, when there is one frame in the group, this corresponds to the frames 63 a to 63 f in which bibliographic items such as “zip code” are written. Comparing the sizes of the group frames, the “zip code” and the “name” can be grouped in the same size because the size of the frame is within a certain range. Similarly, since “name reading” and “address” have the same size, they can be grouped together.
Thereafter, the grouping attribute of the frame is output. The grouping attribute may be a serial number such as group numbers 1 and 2 or a group A, B, or C, and may be an ID indicating which group in the table.

なお、本実施形態では、処理領域グルーピング作成部22において、枠の罫線情報の抽出を行っているが、これはあくまでも一例であり、図7に示した処理領域検出部21の表枠抽出処理におけるステップS3において、枠の罫線情報を抽出することを可能であり、その処理順序に関しては、適宜変更可能である。   In the present embodiment, the processing area grouping creation unit 22 extracts frame ruled line information, but this is merely an example, and in the table frame extraction process of the processing area detection unit 21 shown in FIG. In step S3, the ruled line information of the frame can be extracted, and the processing order can be changed as appropriate.

図10(b)は、処理領域グルーピング作成部22において、個々の処理領域(枠)の罫線情報を用いてグルーピング化した結果を示した図である。
上述したように、一つのグループの内部が、幾つかの枠で構成されている場合、その枠をサイズでグルーピングする。この例では、一つのグループを構成している枠、すなわち、郵便番号の記入枠60d、氏名の記入枠60f、氏名フリガナの記入枠60g、住所の記入枠60h、住所フリガナの記入枠60iが、全部同じグループであるという結果が得られる。
一方、グループ内が一枠であった場合、これは「郵便番号」などの書誌事項が記載されているところがそれに相当する。このグループ枠のサイズを比較すると、「郵便番号」と「氏名」は枠の大きさが縦横、一定の範囲に収まるため、同じとグルーピングできる。同様に、「氏名フリガナ」と「住所」も同じ大きさである。従って、「郵便番号」と「氏名」と印刷された枠60a、60aが同一グループ、「氏名フリガナ」と「住所」と印刷された枠60b、60bが同一グループになっている。また、「住所フリガナ」と印刷された枠60cが単独枠となっている。
これは、一つの枠において、罫線種類が4方向とも同一の太い罫線であるため、相対的な違いがないために、同種のグループと分類した結果である。仮に罫線の太さの情報を高精度に取得することができる枠検出装置があれば、こういった分類も詳細にグルーピングすることも可能になる。
FIG. 10B is a diagram showing a result of grouping using the ruled line information of each processing region (frame) in the processing region grouping creation unit 22.
As described above, when the inside of one group is composed of several frames, the frames are grouped by size. In this example, a frame constituting one group, that is, a postal code entry box 60d, a name entry box 60f, a name reading box 60g, an address entry box 60h, and an address reading box 60i, The result is that all are in the same group.
On the other hand, when the group is one frame, this corresponds to a place where bibliographic items such as “zip code” are described. Comparing the sizes of the group frames, the “zip code” and the “name” can be grouped in the same size because the size of the frame is within a certain range. Similarly, “name reading” and “address” have the same size. Accordingly, the frames 60a and 60a printed with “zip code” and “name” are in the same group, and the frames 60b and 60b printed with “name full name” and “address” are in the same group. A frame 60c printed with “address reading” is a single frame.
This is a result of classification into groups of the same type because there is no relative difference in one frame because the ruled line type is the same thick ruled line in all four directions. If there is a frame detection device that can acquire the information of the thickness of the ruled line with high accuracy, such classification can be grouped in detail.

なお、枠60a〜60c等のプレ印刷のある領域(枠)は、ユーザが記入する記入枠とならないケースが多いため、一括設定の邪魔にならないと考えて、特別の処理は行わなくても良い。   Note that the preprinted areas (frames), such as the frames 60a to 60c, often do not serve as entry frames for the user to enter, and therefore, special processing may not be performed on the assumption that they do not interfere with batch setting. .

このように本実施形態では、処理領域グルーピング作成部22において、同じ処理領域と異なる処理領域とを高精度にグループ化することで、帳票情報をグループ毎に一括して定義することができるので、帳票情報の設定作業を省力化することができる。   As described above, in the present embodiment, the processing area grouping creation unit 22 can group form information for each group by grouping the same processing area and different processing areas with high accuracy. It is possible to save labor for setting up the form information.

帳票情報をグループ毎に一括するというのは、例えばプロトタイプとして使用しているテンプレート作成ツールでは、Ctrlボタンを押しながら一つの枠をクリックすると、同じグループに属している枠が全て同じように選択されるような処理とされる。勿論、Ctrlボタンの代わりにシフトボタンを用いても良く、グループの一部を触るとグループ全体が選択状態になるような操作であれば良い。このように構成すれば、マウスドラッグで選択したい範囲を囲むとか、シフトボタンを押しながら必要な領域を一つずつクリックするとかいう操作に比べて簡単に行うことができるという利点がある。
また帳票情報をグループ毎に一括して定義する場合は、例えば図11に示すような設定画面70に属性を定義情報に入力しておけば良い。
For example, in a template creation tool that is used as a prototype, if you click one frame while holding down the Ctrl button, all the frames belonging to the same group are selected in the same way. The process is as follows. Of course, a shift button may be used in place of the Ctrl button, and any operation may be used as long as the entire group is selected when a part of the group is touched. This configuration has an advantage that it can be easily performed compared to operations such as surrounding a range to be selected by mouse dragging or clicking a necessary region one by one while pressing the shift button.
When form information is defined collectively for each group, for example, an attribute may be input to the definition information on a setting screen 70 as shown in FIG.

また、主に金額欄にある3桁区切りで、罫線の種類を変えることも良くある。帳票のフォームを設計するときには、見栄えを良くするという意味の他にも、ユーザの誤記入を減らすことを目的として、記入枠をユーザが混乱しないように設計を行っているケースが多い。
そこで、本実施形態では、ユーザの誤記入を減らすための帳票設計ノウハウを自動分類方法に取り込むようにしている。
ここで、帳票設計ノウハウとして、グループ作成ルール記憶部に記憶されたルールについて説明する。
図12は、金額を記入する金額欄の一例を示した図である。なお、図12には、異なる2種類の金額欄71a、71bが示されている。
図12に示す金額欄71a、71bにおいて「金額欄にある3桁区切り」をルール化すると、例として以下になる。
この場合、ターゲットとするのは、金額欄71a又は71bの枠72a又は72bが連結している塊である。
(1)連結している枠72a、72bの外周を構成する罫線は同じ太さである。
(2)外周の枠72a、72bからみて、内部にある子の枠73a、73bの大きさ(縦・横のサイズ)は同じ大きさである。同じ大きさとは、閾値が一定値以内、分散が一定値以内などを意味する。
(3)枠3つ置きに、罫線74a、74bの種類あるいは太さ・罫線の長さのいずれか一つ以上が変化する。
この条件(1)〜(3)に全て当てはまる場合、3つ単位のグループ化をするのではなく、外周の枠の中は金額欄的な同一のグループであるという判定を行うようにする。このように構成すると、セル枠の自動分類精度を上げることができる。
Also, it is often the case that the type of ruled line is changed mainly by the three-digit break in the amount column. When designing a form for a form, in addition to improving the appearance, there are many cases where the user does not confuse the entry frame with the aim of reducing erroneous entry by the user.
Therefore, in the present embodiment, form design know-how for reducing user entry errors is incorporated into the automatic classification method.
Here, the rules stored in the group creation rule storage unit will be described as the form design know-how.
FIG. 12 is a diagram showing an example of an amount field for entering an amount. In FIG. 12, two different types of money amount columns 71a and 71b are shown.
In the amount fields 71a and 71b shown in FIG. 12, when “three-digit break in the amount field” is ruled, the following is an example.
In this case, the target is a block in which the frames 72a or 72b of the amount column 71a or 71b are connected.
(1) The ruled lines constituting the outer peripheries of the connected frames 72a and 72b have the same thickness.
(2) When viewed from the outer peripheral frames 72a and 72b, the sizes (vertical and horizontal sizes) of the child frames 73a and 73b inside are the same. The same size means that the threshold value is within a certain value, the variance is within a certain value, and the like.
(3) Every three frames, one or more of the type or thickness / ruled line length of the ruled lines 74a and 74b changes.
When all of the conditions (1) to (3) are satisfied, it is determined not to group in units of three, but to determine that the outer frames are the same group in the amount column. If comprised in this way, the automatic classification precision of a cell frame can be raised.

また、本実施形態では、処理領域グルーピング作成部22において、上記図8に示したグルーピング処理において、各処理領域のサイズに関してグルーピングを行い、同一サイズと判定されたグループの中で、連結性のあるものだけをさらに纏めて最終的に同一グループとする方法を採用することも可能である。   Further, in the present embodiment, the processing area grouping creation unit 22 performs grouping on the size of each processing area in the grouping process shown in FIG. 8, and there is connectivity among the groups determined to be the same size. It is also possible to adopt a method in which only things are further grouped and finally made into the same group.

実際に領域が連結しているかどうかは、2つの処理領域が罫線を共有しているかという方法で判定可能である。
さらに、本実施形態では、処理領域グルーピング作成部22において、一つの処理領域(枠)にとって、その処理領域の上下左右に位置している4つの矩形(場合によっては4つ以上存在することもある)に対して、サイズが同じであるかを判定する方法でも良い。つまりこの場合、処理領域グルーピング作成部22は、処理領域検出部21によって検出した各処理領域の中の一つの処理領域(枠)が、上下左右に最も近接している自分以外の4つ以下の他の処理領域と同じグループであるかどうかの判定を行い、それを検出された処理領域分繰り返すことで、全ての処理領域を同一カテゴリーの内容が記入されるべきグループに分類する。
Whether or not the areas are actually connected can be determined by a method of whether the two processing areas share a ruled line.
Furthermore, in the present embodiment, in the processing area grouping creation unit 22, there are four rectangles (in some cases, four or more in some cases) that are located on the top, bottom, left, and right of a processing area (frame). In contrast, a method of determining whether the sizes are the same may be used. In other words, in this case, the processing region grouping creation unit 22 has one processing region (frame) in each processing region detected by the processing region detection unit 21 having four or less other than itself closest to the top, bottom, left, and right. It is determined whether or not it is the same group as the other processing areas, and this is repeated for the detected processing areas, thereby classifying all the processing areas into groups in which the contents of the same category should be entered.

このように、一つの処理枠が最も上下左右に近い他の処理領域と接触しているかを調べることで連結性を把握することができるので、例えば図13に示したような記入枠43があったときに、記入枠43aと記入枠43cの状態をいちいちみて記入枠43aと記入枠43cの連結性やサイズ判定を行う無駄を省くことができる。   In this way, connectivity can be ascertained by examining whether one processing frame is in contact with another processing region that is closest to the top, bottom, left, and right, so there is an entry frame 43 as shown in FIG. In this case, it is possible to eliminate the waste of determining the connectivity and size of the entry frame 43a and the entry frame 43c by checking the state of the entry frame 43a and the entry frame 43c.

また、本実施形態における連結性の判定においては、基本的に連結しているものを同一のグループにグルーピング化するというルールがあればよいが、典型的な例の一つとして、枠が独立して存在するような場合でも同一のグループにグルーピングにするルールを加える。   Further, in the determination of connectivity in this embodiment, it is sufficient if there is a rule of grouping basically connected items into the same group. However, as a typical example, the frame is independent. Even if they exist, add rules to group them into the same group.

図14は、郵便番号を記入する郵便番号の欄の一例を示した図である。なお、図14には、異なる2種類の郵便番号の欄81a、81bが示されている。
この場合のルールとしては、
(1)連結している枠の外周を構成する罫線82a、82bは同じ太さである。
(2)内部に3つの子枠83a、83bがある枠84a、84bと4つの子枠83a、83bがある枠85a、85bが隣り合っている。
なお、枠84a、84bと枠85a、85bの順番は関係あるが、隣あうルールとしては、接している必要はない。また、枠84a、84bと枠85a、85bとの間に「−」のような記号の有無は無視する。なお、無視する方法としては、例外処理をあらかじめ作成しておくことが考えられる。
この条件(1)(2)にあてはまる場合、3つの枠84a、84bと4つの枠85a、85bを別のグループにするのではなく、合わせて郵便番号欄的な同一のグループであるという判定を行う。
FIG. 14 is a diagram showing an example of a postal code column for entering a postal code. FIG. 14 shows two different types of postal code columns 81a and 81b.
As a rule in this case,
(1) The ruled lines 82a and 82b constituting the outer periphery of the connected frames have the same thickness.
(2) Frames 84a and 84b having three child frames 83a and 83b are adjacent to frames 85a and 85b having four child frames 83a and 83b.
Although the order of the frames 84a and 84b and the frames 85a and 85b is related, the adjacent rules do not have to be in contact with each other. In addition, the presence or absence of a symbol such as “−” between the frames 84a and 84b and the frames 85a and 85b is ignored. As an ignoring method, it is conceivable to create exception handling in advance.
When these conditions (1) and (2) are satisfied, it is determined that the three frames 84a and 84b and the four frames 85a and 85b are not in different groups but are in the same group as a postal code column. Do.

上記したルールは、例えば製品番号などにも応用でき、「R11−A082034」といった製品番号などの型番の桁数が決まっている場合、隣接状態、太さでグルーピングするかどうか、内部に子枠が何個必要かという情報をルール化しておき、それらのルールで条件文を設定することで、製品番号らしきところを同じグループとして取得することができる。   The above rule can be applied to, for example, a product number. When the number of digits of a model number such as “R11-A082034” is determined, whether or not grouping is performed depending on the adjacent state and thickness, and a child frame is provided inside. Information on how many items are necessary is made into rules, and by setting conditional statements with those rules, it is possible to acquire parts that appear to be product numbers as the same group.

図15は、独立した枠で記入欄の構成を示した図であり、この図15に示すように、個々の記入領域44aが独立した(他の処理領域と罫線を共有していない)枠であるケースは多々ある。これまで説明した例だけでは、こういう帳票に対応できないため、連結していない2つの処理領域(一の処理領域と他の処理領域との間)を調べる。
(1)上記2つの領域の間に、別の処理領域が存在しない、
(2)上記2つの領域のサイズが同じ(あるいは閾値以下の差)、
(3)上記2つの領域(枠)を構成する罫線情報(点線か、実線か、破線かといった罫線の状態)の対応しているものに差異がない、
という3つの条件が成立した場合に同一のグループであると見なすことで、分類精度を高めることができる。
より詳細にいえば、対応している罫線とは、A,Bという二つの枠を考えた場合、枠Aの上下の罫線が実線で左右の罫線が点線。枠Bの上下の罫線も実線で、左右が点線である状態をいう。
但し、例外として、図16に示すような間だけ点線のように種類が違う表枠90は、普通に存在するため、表の塊の際、外郭を構成する罫線を例外扱いする処理を入れることは望ましい。
FIG. 15 is a diagram showing the structure of the entry field in an independent frame. As shown in FIG. 15, each entry area 44a is an independent frame (not sharing ruled lines with other processing areas). There are many cases. Only the examples described so far cannot deal with such a form, so two unprocessed processing areas (between one processing area and another processing area) are examined.
(1) There is no other processing area between the two areas.
(2) The sizes of the two areas are the same (or a difference equal to or less than a threshold value),
(3) There is no difference in the correspondence of ruled line information (ruled line state such as dotted line, solid line, broken line) constituting the above two regions (frames),
If the three conditions are satisfied, the classification accuracy can be improved by considering the same group.
More specifically, when the corresponding ruled lines are two frames A and B, the upper and lower ruled lines of the frame A are solid lines and the left and right ruled lines are dotted lines. The ruled lines above and below the frame B are also solid lines, and the left and right are dotted lines.
However, as an exception, a table frame 90 of a different type such as a dotted line as shown in FIG. 16 is normally present, and therefore processing for treating the ruled lines constituting the outline as exceptions when a table lump is added. Is desirable.

図17は、個々の記入領域が独立した枠である場合のグルーピング処理の一例を示したフローチャートである。
この場合、処理領域グルーピング作成部22は、入力された画像・抽出枠(領域)からサイズによるグルーピングを行う(S21)。
次に、水平方向の配置のグルーピングを行い(S22)、グルーピングした領域の左にプレ印刷がある否かを判定する(S23)。グルーピングした領域の左にプレ印刷があると判定した場合は、1つのグループと決定する(S24)。
次に、グループ化した領域の全てのチェックが終了したか否かの判定を行い(S25)。全てのチェックが終了していないと判定した場合は、ステップS23に戻って処理を継続する。一方、ステップS23において、グルーピングした領域の左にプレ印刷がないと判定した場合は、1つのグループと決定することなく、ステップS25に移行する。
また、ステップS25において、グループ化した領域の全てのチェックが終了したと判定した場合は、次にグループが決定していない領域について、垂直方向の配置のグルーピングを行う(S26)。そして、グルーピングした領域の上にプレ印刷がある否かを判定する(S27)。グルーピングした領域の上にプレ印刷があると判定した場合は、1つのグループと決定する(S28)。
次に、グループ化した領域の全てのチェックが終了したか否かの判定を行い(S29)、全てのチェックが終了していないと判定した場合は、ステップS23に戻って処理を継続する。一方、ステップS27において、グルーピングした領域の左にプレ印刷がないと判定した場合は、1つのグループと決定することなく、ステップS29に移行する。そして、ステップS29において、グループ化した領域の全てのチェックが終了したと判定した場合に処理を終了する。
FIG. 17 is a flowchart showing an example of grouping processing when each entry area is an independent frame.
In this case, the processing area grouping creation unit 22 performs grouping by size from the input image / extraction frame (area) (S21).
Next, horizontal grouping is performed (S22), and it is determined whether there is pre-printing on the left of the grouped area (S23). If it is determined that there is pre-printing on the left of the grouped area, it is determined as one group (S24).
Next, it is determined whether or not all checks of the grouped areas have been completed (S25). If it is determined that all checks have not been completed, the process returns to step S23 and continues. On the other hand, if it is determined in step S23 that there is no pre-printing to the left of the grouped area, the process proceeds to step S25 without determining that it is one group.
If it is determined in step S25 that all of the grouped areas have been checked, grouping is performed in the vertical direction for the area where the group has not been determined (S26). Then, it is determined whether or not there is pre-printing on the grouped area (S27). If it is determined that there is pre-printing on the grouped area, it is determined as one group (S28).
Next, it is determined whether or not all the checks of the grouped areas have been completed (S29). If it is determined that all the checks have not been completed, the process returns to step S23 to continue the processing. On the other hand, if it is determined in step S27 that there is no pre-printing to the left of the grouped area, the process proceeds to step S29 without determining that it is one group. If it is determined in step S29 that all checks for the grouped areas have been completed, the process ends.

ところで、帳票の種類は劇的に変化する場合は少なく、運用上でフォーマットの小規模修正が行われることの方が多い。
そこで、本実施形態では、処理領域グルーピング作成部22に、処理領域のサイズ情報、処理領域を囲む周囲の罫線情報、処理領域の連結情報の3つの情報の組み合わせを予めルール化した情報を記憶するグループ作成ルール記憶部を備え、そのグループ作成ルール記憶部に記憶されたルールに従って処理領域のグルーピングの判断を行うようにすることも可能である。このように構成することで、当該システムを入れたユーザの帳票の修正をよりカスタマイズし易くなる。
By the way, there are few cases where the type of form changes dramatically, and there are many cases where small-scale correction of the format is performed on the operation.
Therefore, in the present embodiment, the processing region grouping creation unit 22 stores information in which a combination of three pieces of information, that is, processing region size information, surrounding ruled line information surrounding the processing region, and processing region connection information, is ruled in advance. It is also possible to provide a group creation rule storage unit and to determine the grouping of the processing areas according to the rules stored in the group creation rule storage unit. With this configuration, it becomes easier to customize the correction of the form of the user who has installed the system.

図18は、本実施形態の帳票定義装置の帳票定義部の他の機能ブロック図である。なお、図3と同一ブロックには同一符号を付して説明は省略する。
この図18に示す帳票定義部20は、グループ作成ルール記憶部として、グルーピングルール格納DB26を備えている。そして、処理領域グルーピング作成部22は、グルーピングルール格納DB26に格納されたルールに従って処理領域のグルーピングの判断を行うようにしている。
グルーピングルール格納DB26は、グルーピングルールの編集エディタ27によって編集可能とされる。
FIG. 18 is another functional block diagram of the form definition unit of the form definition apparatus of this embodiment. Note that the same blocks as those in FIG.
The form definition unit 20 shown in FIG. 18 includes a grouping rule storage DB 26 as a group creation rule storage unit. Then, the processing area grouping creating unit 22 determines the grouping of the processing areas in accordance with the rules stored in the grouping rule storage DB 26.
The grouping rule storage DB 26 can be edited by a grouping rule editing editor 27.

グルーピングルール格納DB26により格納されるルールとしては、
(1)子枠の罫線の太さの許容度が違っていたらNG、外周が同じでそれぞれの枠が同じであることが必要
(2)子枠のサイズの許容度が(閾値を設定)閾値以上はNG
(3)枠の連続性については、空間ありを許容、文字ありを許容、但し隣接していないとNG
(4)子枠の連続する数「3・3・3」「3・4」
といった形で記述される。
As a rule stored by the grouping rule storage DB 26,
(1) If the tolerance of the ruled line thickness of the child frame is different, NG, the outer periphery must be the same and each frame must be the same. (2) The child frame size tolerance is (threshold is set) threshold The above is NG
(3) Concerning the continuity of frames, allow space, allow characters, but NG if not adjacent
(4) Consecutive number of child frames “3 ・ 3 ・ 3” “3 ・ 4”
It is described in the form.

図12の例であれば、
(1)外周が同じ必要あり
(2)Thresh1(ほぼ同じ大きさにしたいので、Thresh1は小さめの値)
(3)隣接していないとNG
(4)「3・3・3」
となる。
また、図14の例であれば、
(1)外周が同じ必要あり
(2)Thresh2(ほぼ同じ大きさにしたいので、Thresh2は小さめの値)
(3)文字ありを許容
(4)「3・4」
となる。
In the example of FIG.
(1) The outer circumferences must be the same. (2) Thresh1 (Thresh1 is a smaller value because we want to make it approximately the same size.)
(3) NG if not adjacent
(4) “3 ・ 3 ・ 3”
It becomes.
In the example of FIG.
(1) The outer periphery must be the same (2) Thresh2 (Thresh2 is a smaller value because we want to make it approximately the same size)
(3) Allow characters (4) "3.4"
It becomes.

なお、上記したルールに則っているか否かの判定処理では、(1)〜(4)の条件を全て満たすか否かの判定を行うようにすればよい。このとき、必要なパラメーターは、グルーピングルール格納DB26からルールパラメーターを取得して判定に使用することになる。   In the determination process for determining whether or not the above rule is satisfied, it may be determined whether or not all of the conditions (1) to (4) are satisfied. At this time, necessary parameters are obtained from the grouping rule storage DB 26 and used for determination.

グルーピングルールは、基本はシステム側に予め格納されているが、ユーザにより変更可能である。そのように構成すれば、予め格納された状態でのルールに追加したい、修正したいという場合に、ルールの編集エディタ27によってルールを変更することが可能になる。つまり、新しいルールにしたがって処理領域のグルーピングを実行することができる。なお、テンプレート作成とグルーピングルールの編集は、特に同期していないものとする。したがって、ルールを編集したほうが、効率があると判断された時にルールは変更され、その後に新しいテンプレートを作成するときに、新しいルールが適用されることになる。   The grouping rules are basically stored on the system side in advance, but can be changed by the user. With such a configuration, the rule can be changed by the rule editing editor 27 when it is desired to add or modify the rule in the state stored in advance. That is, grouping of processing areas can be executed according to a new rule. Note that template creation and grouping rule editing are not particularly synchronized. Therefore, the rule is changed when it is determined that it is more efficient to edit the rule, and the new rule is applied when a new template is subsequently created.

なお、設定ファイルとその設定ルールを、学習機能などによりアップデート可能なシステムも考えることができ、より設定の容易化を実現することができる。
また本実施形態では、処理領域グルーピング作成部22において、同一グループに分類された処理領域(同一グループに属している処理領域)の枠は同じ色で示し、異なるグループとの違いをビジュアル(視覚的)に表現する表示部23を備えているので、処理領域グルーピングの結果は、その後のグループ選択I/F部24でユーザが選択されるのを待つことになるため、視覚的に状態を表現できていることで、自動グルーピング結果の誤認があった場合にも、ユーザが状況を簡単に把握でき、修正しやすい状態にできるという利点がある。
A system that can update the setting file and its setting rule by a learning function or the like can be considered, and the setting can be further facilitated.
In the present embodiment, the processing area grouping creation unit 22 displays the frames of the processing areas classified into the same group (processing areas belonging to the same group) with the same color, and visually shows the difference between the different groups (visually). ), The processing region grouping result waits for the user to be selected in the subsequent group selection I / F unit 24, so that the state can be expressed visually. Therefore, even if there is a misidentification of the automatic grouping result, there is an advantage that the user can easily grasp the situation and can easily correct the situation.

さらに本実施形態のグループ選択I/F部24では、同一グループに属している処理領域は、ポインティングデバイス等の入力部の操作で、一括選択が容易に行われるように構成している。例えば、同一グループに分類された処理領域の一つをShift−Key+マウスの左ダブルクリックをすることで、同一グループに分類された処理領域を一括して選択することができるというような状態を想定している。こうすることで、処理領域の範囲をわざわざマウスドラッグで選択するとか、一つ一つをクリックしてから一括設定をするなどの操作を減らし、ユーザに簡単な設定方法を提供することができる。
なお、本実施形態の帳票定義装置1では、枠領域の処理を行うことを例に挙げて説明したが、処理領域は、必ずしも枠領域に限定されるものでなく、例えば、特開2001−126010公報のように、プレ印刷文字を利用して処理領域を自動抽出することも可能である。また、例えば、本出願人による特開2001−266068公報、特開2002−042143公報などの方法も利用できる。
Further, the group selection I / F unit 24 of the present embodiment is configured such that the processing areas belonging to the same group can be easily selected in a batch by operating an input unit such as a pointing device. For example, it is assumed that one of the processing areas classified into the same group can be selected at once by Shift-Key + left double-clicking on the mouse. is doing. By doing this, it is possible to provide a simple setting method to the user by reducing operations such as selecting the range of the processing area by dragging the mouse or clicking one by one and performing batch setting.
In the form definition device 1 of the present embodiment, the processing of the frame area has been described as an example. However, the processing area is not necessarily limited to the frame area. For example, Japanese Patent Application Laid-Open No. 2001-12610 As in the publication, it is also possible to automatically extract the processing area using pre-printed characters. Further, for example, methods such as Japanese Patent Application Laid-Open Nos. 2001-266068 and 2002-042143 by the present applicant can be used.

[第2の実施形態]
次に、本発明の第2の実施形態に係る帳票定義部について説明する。
図19は領域分割された枠の一例を示した図である。
この図に示すような構成の枠201の塊があった場合に、それぞれの枠201a〜201cに、図19に示すような枠IDを振ることができる。すなわち、枠201aの枠IDは(1,1)、枠201bの枠IDは(1,2)、枠201cの枠IDは(2,1)となる。このとき、枠201aは枠201bと枠201cを子供として持つという解釈を行う。
図20は、図19に示した枠をツリー構造により示した場合の一例である。
図19、図20に示す枠IDの付け方は、特許3157534号公報の段落[0016]などに記載されている。
[Second Embodiment]
Next, a form definition unit according to the second embodiment of the present invention will be described.
FIG. 19 is a diagram showing an example of a frame that is divided into regions.
When there is a block of frames 201 having the configuration shown in this figure, a frame ID as shown in FIG. 19 can be assigned to each of the frames 201a to 201c. That is, the frame ID of the frame 201a is (1, 1), the frame ID of the frame 201b is (1, 2), and the frame ID of the frame 201c is (2, 1). At this time, the frame 201a is interpreted as having the frame 201b and the frame 201c as children.
FIG. 20 shows an example in which the frame shown in FIG. 19 is shown in a tree structure.
The method of attaching the frame ID shown in FIGS. 19 and 20 is described in paragraph [0016] of Japanese Patent No. 3157534.

また、この場合は、罫線が実際には無くても有ったと仮定して、セル枠をつけておき、最終的に仮想的な罫線を使用している枠は枠番号の小さいものに吸収されるという考えをとるようにしている。
従って、図19に示す枠201であれば、図21に示すようにマトリクス上にセルIDが付与される。そして、(2,1)は(1,1)に統合された形で、図19に示すように表記するようにしている。なお、この表記方法は既知である。
In this case, it is assumed that there is actually no ruled line, a cell frame is attached, and the frame using the virtual ruled line is finally absorbed by the one with the smaller frame number. To take the idea of
Therefore, in the case of the frame 201 shown in FIG. 19, a cell ID is given on the matrix as shown in FIG. Then, (2, 1) is expressed as shown in FIG. 19 in a form integrated with (1, 1). This notation method is known.

図22は、帳票の他の例を示した図である。
この図22に示す帳票210は、上下に共通のフォームの枠を有しているものである。
このようなフォームの構造は、上記した枠IDの付与方法によって、図23に示すような枠IDを付与できる。
さらに、図23に示す枠IDの親子関係をツリー構造にすると、図24に示すことができる。この場合、図24では、二つ存在するツリーの構成が同じこと、対応する枠:例えば(1,3)と(7.3)のサイズが変わらないという情報から、この二つのツリー構造は一致すると判定できる。そうした判定結果から、(1,3)と(7,3)など対応する枠が同じグループと判定するのが第2の実施形態の特徴である。
FIG. 22 is a diagram showing another example of a form.
The form 210 shown in FIG. 22 has a common form frame at the top and bottom.
Such a form structure can be given a frame ID as shown in FIG. 23 by the above-described frame ID assigning method.
Furthermore, when the parent-child relationship of the frame IDs shown in FIG. 23 has a tree structure, it can be shown in FIG. In this case, in FIG. 24, the two tree structures are identical from the fact that the configuration of the two existing trees is the same and the corresponding frames: for example, the sizes of (1, 3) and (7.3) do not change. Then it can be determined. It is a feature of the second embodiment that it is determined from the determination result that the corresponding frames such as (1, 3) and (7, 3) are the same group.

図25は、第2の実施形態の帳票定義部の機能ブロック図である。なお、図3と同一ブロックには同一符号を付して説明は省略する。
この図25に示す帳票定義部20は、処理領域検出部21と処理領域グルーピング作成部22との間に枠構造解析部28を備えている。
枠構造解析部28は、処理領域検出部21によって検出された領域の構造解析を行って、領域のツリー構造を理解する。例えば、枠の構造を検出して大きな塊から小さな部分へのツリー構造を生成する。
図26は、枠のツリー構造を生成する処理の一例を示した図である。
なお、ステップS31〜S34の処理は処理領域検出部21が実行する処理であり、ステップS35〜S38の処理は枠構造解析部28が実行する処理となる。
この場合、処理領域検出部21は、入力された画像(全面)を領域に分割し(S31)、「表」の類の領域を抽出する(S32)。
次に、抽出された表の内部から、その表を構成する罫線を抽出し(S33)、罫線で構成される枠を抽出する。
次に、枠構造解析部28が、抽出した枠に枠IDを付与し(S35)、枠IDの従属関係からツリー構造を生成して(S36)、出力する。
FIG. 25 is a functional block diagram of a form definition unit according to the second embodiment. Note that the same blocks as those in FIG.
The form definition unit 20 shown in FIG. 25 includes a frame structure analysis unit 28 between the processing region detection unit 21 and the processing region grouping creation unit 22.
The frame structure analysis unit 28 analyzes the structure of the region detected by the processing region detection unit 21 and understands the tree structure of the region. For example, the structure of the frame is detected and a tree structure from a large lump to a small part is generated.
FIG. 26 is a diagram illustrating an example of processing for generating a tree structure of a frame.
Note that the processing of steps S31 to S34 is processing executed by the processing region detection unit 21, and the processing of steps S35 to S38 is processing executed by the frame structure analysis unit 28.
In this case, the processing area detection unit 21 divides the input image (entire surface) into areas (S31), and extracts an area of the “table” type (S32).
Next, ruled lines constituting the table are extracted from the extracted table (S33), and a frame constituted by the ruled lines is extracted.
Next, the frame structure analysis unit 28 assigns a frame ID to the extracted frame (S35), generates a tree structure from the dependency relationship of the frame ID (S36), and outputs it.

このように、本実施形態によれば、枠構造解析部28の解析結果に基づいて、同じ構造を持つ枠(領域)の一致する部分を構造的に探して、同じグループとすることで、隣接していない離れた位置にある同じ内容の枠を一つのグループと判定できるようになり、ユーザの設定が容易になる。   Thus, according to the present embodiment, based on the analysis result of the frame structure analysis unit 28, the matching portion of the frames (regions) having the same structure is structurally searched and set as the same group. It becomes possible to determine a frame with the same content at a distant position as a single group, and the setting of the user becomes easy.

次に、第2の実施形態に係る帳票定義装置において、処理領域グルーピング作成部がプレ印刷文字の情報を用いて行うグルーピング処理について説明する。
なお、本実施形態では、文字認識(OCR)を使用する場合と、文字認識は使用せずにプレ印刷部分の画像の一致度合いで判断を行う場合を例に挙げて説明する。
図27は、第2の実施形態の処理領域グルーピング作成部22におけるグルーピング処理の一例を示したフローチャートである。この処理は、文字認識(OCR)を使用する例である。
この場合は、処理領域グルーピング作成部22は、先ず、入力画像から枠領域と文字列を抽出する(S41、S42)。次に、文字の認識を行い(S43)、プレ印刷文字のある枠の認識文字同士を比較し(S44)、プレ印刷文字のある枠の認識文字同士が一致しない場合は、ステップS44に戻って、次の文字の探索を行う。
一方、プレ印刷文字のある枠の認識文字同士が一致する場合は、次にプレ印刷文字のある領域同士の枠サイズが同等であるか否かの判定を行う(S46)。
ステップS46において、プレ印刷文字のある領域同士の枠サイズが同等であると判定した場合は、次にプレ印刷文字位置の右、或いは下にサイズが同等の記入枠があるか否かの判定を行う(S47)。
ステップS47において、サイズが同等の記入枠があると判定した場合は、対応する二つの枠を同じグループとする(S48)
なお、ステップS46において、プレ印刷文字のある領域同士の枠サイズが同等でないと判定した場合、ステップS47において、サイズが同等の記入枠でないと判定した場合は、ステップS44に戻って、6において、プレ印刷文字のある領域同士の枠サイズが同等であると判定した場合はプレ印刷文字のある枠の認識文字同士が一致しない場合は、ステップS44に戻って、次の文字の探索を行う。
Next, in the form definition device according to the second embodiment, a grouping process performed by the processing area grouping creation unit using information on preprinted characters will be described.
In this embodiment, a case where character recognition (OCR) is used and a case where determination is made based on the degree of coincidence of images in a pre-printed part without using character recognition will be described as examples.
FIG. 27 is a flowchart illustrating an example of grouping processing in the processing area grouping creation unit 22 according to the second embodiment. This process is an example using character recognition (OCR).
In this case, the processing area grouping creation unit 22 first extracts a frame area and a character string from the input image (S41, S42). Next, the characters are recognized (S43), the recognized characters in the frame with the pre-printed characters are compared (S44), and if the recognized characters in the frame with the pre-printed characters do not match, the process returns to step S44. , Search for the next character.
On the other hand, if the recognized characters in the frame with the pre-printed character match, it is next determined whether or not the frame sizes of the regions with the pre-printed character are equal (S46).
If it is determined in step S46 that the frame sizes of the areas with the pre-printed characters are equal, it is next determined whether or not there is an entry frame of the same size to the right or below the pre-printed character position. Perform (S47).
If it is determined in step S47 that there are entry frames of the same size, the corresponding two frames are set to the same group (S48).
If it is determined in step S46 that the frame sizes of the areas with the pre-printed characters are not equal, or if it is determined in step S47 that the size is not the same, the process returns to step S44, and in step 6, If it is determined that the frame sizes of the areas with the pre-printed characters are equal, if the recognized characters in the frame with the pre-printed characters do not match, the process returns to step S44 to search for the next character.

図28は、第2の実施形態の処理領域グルーピング作成部22におけるグルーピング処理の他の例を示したフローチャートである。この処理は、文字認識は使用せずにプレ印刷部分の画像の一致度合いで判断を行う例である。
この場合は、処理領域グルーピング作成部22は、先ず、入力画像から枠領域と文字列を抽出する(S51、S52)。次に、文字の認識を行い(S53)、プレ印刷文字のある領域同士の枠のサイズを比較し(S54)、枠のサイズが同等でない場合は、ステップS54に戻って、次の文字の探索を行う。
一方、プレ印刷文字のある領域同士の枠のサイズが同等である場合は、次にプレ印刷文字の画像マッチングを行い(S56)、ステップS57において、画像の差異が小さく一致すると判定した場合は、プレ印刷文字位置の右、或いは下にサイズが同等の記入枠があるか否かの判定を行う(S58)。
ステップS58において、サイズが同等の記入枠があると判定した場合は、対応する二つの枠を同じグループとする(S59)
なお、ステップS57において、画像の差異が大きく一致しないと判定した場合、ステップS58において、サイズが同等の記入枠でないと判定した場合は、ステップS54に戻って、次の文字の探索を行う。
FIG. 28 is a flowchart illustrating another example of the grouping process in the processing area grouping creation unit 22 according to the second embodiment. This process is an example in which determination is made based on the degree of coincidence of images in the preprinted portion without using character recognition.
In this case, the processing area grouping creation unit 22 first extracts a frame area and a character string from the input image (S51, S52). Next, character recognition is performed (S53), the sizes of the frames of the areas with the pre-printed characters are compared (S54), and if the frame sizes are not equal, the process returns to step S54 to search for the next character. I do.
On the other hand, if the size of the frame between the areas where the pre-printed characters are equal, image matching of the pre-printed characters is performed next (S56), and if it is determined in step S57 that the image difference is small, It is determined whether there is an entry box of the same size on the right or below the pre-print character position (S58).
If it is determined in step S58 that there are entry frames of the same size, the corresponding two frames are set to the same group (S59).
If it is determined in step S57 that the image differences do not match greatly, or if it is determined in step S58 that the size of the entry boxes is not equal, the process returns to step S54 to search for the next character.

上記したグルーピング処理を実行すれば、例えば図22では、「フリガナ」と記載されているものは対応するものが複数存在するが、領域サイズが一致するのは、(1,3)(5,3)(7,3)(11,3)の4パターンとなり、これらが同じグループとされる。他に(3,3)と(9,3)が同じグループとなる。   If the above-described grouping process is executed, for example, in FIG. 22, there are a plurality of corresponding “frigana” items, but the region sizes coincide with each other when (1, 3) (5, 3 ) (7, 3) (11, 3), which are the same group. In addition, (3, 3) and (9, 3) are the same group.

このように本実施形態では、処理領域グルーピング作成部22において、同じプレ印刷文字がある領域の右、あるいは下の領域を探して同じグループとすることで、隣接してない離れた位置にある同じ内容の領域を一つのグループと判定できるようになり、ユーザの設定が容易になる。   As described above, in the present embodiment, the processing area grouping creation unit 22 searches the right or lower area of the area with the same pre-printed character to make the same group, and thus the same at a position that is not adjacent to each other. It becomes possible to determine the content area as one group, and the setting of the user becomes easy.

なお、文字認識を使用する場合は、認識した文字列の情報から、さらに知識的な処理と組み合わせることが出来る。但し、文字認識は100%が難しい技術であり、今回の用途の場合、文字列比較ではなく、プレ印刷の画像同士で差分が大きいか小さいかというレベルの判定でも良好な精度は得られる。
また、上記図26、図28に示したフローチャートでは、二重ループに入ったときに、最初に枠のサイズ判定をするか、後にするかが異なっているが、これは対象と求める速度などに応じて変更が可能である(チューニングの範囲)。
Note that when character recognition is used, it can be combined with more intelligent processing from the information of the recognized character string. However, character recognition is a technology that is difficult to achieve 100%, and in the present application, good accuracy can be obtained not by character string comparison but also by determination of whether the difference between preprinted images is large or small.
In the flowcharts shown in FIG. 26 and FIG. 28, when entering the double loop, the frame size is determined first or later, but this depends on the target and the required speed. It can be changed accordingly (tuning range).

また、本発明は上述した実施形態のみに限定されたものではなく、上述した実施形態の帳票定義装置1を構成する各機能をプログラム化し、このプログラムを図2に示したCPU102が実行することによって、本発明の目的を達成することができる。
また、記録媒体としては半導体媒体(例えば、ROM、不揮発性メモリカード等)、光媒体(例えば、DVD、MO、MD、CD−R等)、磁気媒体(例えば、磁気テープ、フレキシブルディスク等)のいずれであってもよい。
また、ロードしたプログラムの指示に基づき、オペレーティングシステム等が実際の処理の一部または全部を行い、その処理によって上述した実施形態の機能が実現される場合も含まれる。さらに、上述したプログラムが、機能拡張ボードや機能拡張ユニットに備わるメモリにロードされ、そのプログラムの実行によって、上述した実施形態の機能が実現される場合も含まれる。
また、上述したプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークで接続された利用者のコンピュータからダウンロードして頒布する場合、また、サーバコンピュータから配信して頒布する場合、このサーバコンピュータの記憶装置も本発明の記録媒体に含まれる。
このように、本発明の機能を有するプログラムを記録媒体に記録して頒布することによって、コスト、可搬性、汎用性を向上させることができる。
Further, the present invention is not limited to the above-described embodiment, but the functions constituting the form definition device 1 of the above-described embodiment are programmed, and the program is executed by the CPU 102 shown in FIG. The object of the present invention can be achieved.
As recording media, semiconductor media (eg, ROM, nonvolatile memory card, etc.), optical media (eg, DVD, MO, MD, CD-R, etc.), magnetic media (eg, magnetic tape, flexible disk, etc.) Either may be sufficient.
Further, the case where the operating system or the like performs part or all of the actual processing based on the instruction of the loaded program and the functions of the above-described embodiments are realized by the processing is also included. Furthermore, the case where the above-described program is loaded into a memory provided in a function expansion board or a function expansion unit and the functions of the above-described embodiments are realized by executing the program is included.
Further, when the above-described program is stored in a storage device of a server computer and downloaded from a user's computer connected via a network and distributed, or when distributed and distributed from a server computer, A storage device is also included in the recording medium of the present invention.
As described above, by recording and distributing the program having the function of the present invention on a recording medium, cost, portability, and versatility can be improved.

1…帳票定義装置、10…マスター画像入力部、20…帳票定義部、21…処理領域検出部、22…処理領域グルーピング作成部、23…表示部、24…グループ選択I/F部、25…グループ情報定義部、26…グルーピングルール格納DB部、27…グルーピングルールの編集エディタ、30…帳票定義データベース(DB)、50…帳票入力処理装置、51…処理画像入力部、52…認識処理部、53…認識結果部、54…業務関連DB、54…設定画面、100…帳票入力処理システム、101…スキャナー、102…CPU、103…プログラム格納ROM/RAM、104…記録媒体、105…CD−ROM/FDドライブ、106…ワークエリアRAM、107…メモリ、108…ディスプレイ、109…印字装置   DESCRIPTION OF SYMBOLS 1 ... Form definition apparatus, 10 ... Master image input part, 20 ... Form definition part, 21 ... Processing area detection part, 22 ... Processing area grouping preparation part, 23 ... Display part, 24 ... Group selection I / F part, 25 ... Group information definition unit, 26 ... Grouping rule storage DB unit, 27 ... Grouping rule editing editor, 30 ... Form definition database (DB), 50 ... Form input processing device, 51 ... Processed image input unit, 52 ... Recognition processing unit, 53 ... Recognition result part, 54 ... Business-related DB, 54 ... Setting screen, 100 ... Form input processing system, 101 ... Scanner, 102 ... CPU, 103 ... Program storage ROM / RAM, 104 ... Recording medium, 105 ... CD-ROM / FD drive, 106 ... work area RAM, 107 ... memory, 108 ... display, 109 ... printing device

特開平11−66232号公報Japanese Patent Laid-Open No. 11-66232

Claims (11)

帳票情報を定義する帳票定義装置であって、
入力された前記帳票画像から帳票情報の処理領域を自動的に検出する処理領域検出部と、
前記検出された各処理領域のサイズの類似性、前記各処理領域の上下左右への接続状況、及び前記各処理領域を囲む周囲の罫線情報の類似性に関する情報に基づいて、前記各処理領域を同一カテゴリーの内容が記入されるべき同一グループに分類する処理領域グルーピング作成部と、
入力部からの入力情報に基づいて、前記同一グループに分類された処理領域を選択するグループ選択I/F部と、
前記グループ選択I/F部において選択されたグループの設定情報を一括して定義するグループ情報定義部と、
を備えたことを特徴とする帳票定義装置。
A form definition device for defining form information,
A processing area detection unit for automatically detecting a processing area of the form information from the input form image;
Based on the information on the similarity of the size of each detected processing area, the connection status of each processing area in the vertical and horizontal directions, and the similarity of the surrounding ruled line information surrounding each processing area, A processing area grouping creation unit that classifies the same category contents into the same group to be filled in;
A group selection I / F unit that selects processing regions classified into the same group based on input information from the input unit;
A group information definition unit that collectively defines setting information of the groups selected in the group selection I / F unit;
A form definition device characterized by comprising:
前記処理領域グルーピング作成部は、
前記処理領域検出部によって検出された各処理領域が、上下左右に最も近接している他の処理領域と同一グループであるか否かの判定を行うことにより、全ての処理領域を同一カテゴリーの内容が記入されるべきグループに分類することを特徴とする請求項1記載の帳票定義装置。
The processing area grouping creation unit
By determining whether or not each processing region detected by the processing region detection unit is in the same group as another processing region that is closest to the top, bottom, left, and right, all processing regions are classified into the same category. The form definition device according to claim 1, wherein the form is classified into a group to be filled in.
前記処理領域グルーピング作成部は、
前記処理領域検出部によって検出された各処理領域のサイズ情報と前記各処理領域を囲む周囲の罫線情報とに類似性があり、且つ、前記各処理領域が上下左右で他の処理領域と直接連結していない状態で、前記各処理領域と前記他の処理領域との間に更に他の処理領域がない状態であると判定した場合は、他の処理領域を同一グループに分類することを特徴とする請求項1または2記載の帳票定義装置。
The processing area grouping creation unit
There is similarity between the size information of each processing area detected by the processing area detection unit and the ruled line information surrounding each processing area, and each processing area is directly connected to other processing areas vertically and horizontally. If it is determined that there is no further processing area between each processing area and the other processing area, the other processing areas are classified into the same group. The form definition device according to claim 1 or 2.
前記処理領域グルーピング作成部は、
前記処理領域のサイズ情報、前記処理領域を囲む周囲の罫線情報、及び前記処理領域の連結情報の3つの情報の組み合わせを予めルール化した情報を記憶するグループ作成ルール記憶部を備え、該グループ作成ルール記憶部に記憶されたルールに従って、前記処理領域のグルーピングの判断を行うことを特徴とする請求項1乃至3の何れか一項記載の帳票定義装置。
The processing area grouping creation unit
A group creation rule storage unit for storing information in which a combination of three pieces of information of size information of the processing region, surrounding ruled line information surrounding the processing region, and connection information of the processing region is previously ruled; The form definition device according to any one of claims 1 to 3, wherein the grouping of the processing areas is determined according to a rule stored in a rule storage unit.
前記処理領域グルーピング作成部において、同一グループに分類された処理領域を視覚的に表現する表示部を備えることを特徴とする請求項1乃至4の何れか一項記載の帳票定義装置。   5. The form definition device according to claim 1, further comprising a display unit that visually expresses the processing regions classified into the same group in the processing region grouping creation unit. 前記処理領域検出部によって検出された領域の構造解析を行い、前記領域のツリー構造を生成する領域構造解析部を備え、
前記処理領域グルーピング作成部は、前記領域構造解析部の解析結果に基づいて、前記領域構造が同一の領域部分を同一のグループと判定することを特徴とする請求項1記載の帳票定義装置。
An area structure analysis unit that performs a structure analysis of the area detected by the processing area detection unit and generates a tree structure of the area,
The form definition device according to claim 1, wherein the processing area grouping generation unit determines that the area portions having the same area structure are the same group based on the analysis result of the area structure analysis section.
前記処理領域グルーピング作成部は、
文字情報と該文字情報が記入された処理領域のサイズ情報が一致し、且つ、前記文字情報が記入された処理領域の右、あるいは下に同一サイズの処理領域がある場合に前記同一サイズの処理領域を同じグループと判定することを特徴とする請求項1記載の帳票定義装置。
The processing area grouping creation unit
When the character information and the size information of the processing area in which the character information is entered match and there is a processing area of the same size on the right or below the processing area in which the character information is entered, the processing of the same size The form defining apparatus according to claim 1, wherein the areas are determined to be the same group.
前記グループ選択I/F部は、前記同一グループに分類された処理領域を、前記入力部の入力操作により一括選択できるように構成されていることを特徴とする請求項1乃至7の何れか一項記載の帳票定義装置。   The group selection I / F unit is configured to be able to collectively select processing regions classified into the same group by an input operation of the input unit. Form definition device described in the section. 帳票情報を定義する帳票定義方法であって、
入力された前記帳票画像から帳票情報の処理領域を自動的に検出するステップと、
前記検出された各処理領域のサイズの類似性、前記各処理領域の上下左右への接続状況、及び前記各処理領域を囲む周囲の罫線情報の類似性に関する情報に基づいて、前記各処理領域を同一カテゴリーの内容が記入されるべき同一グループに分類するステップと、
入力部からの入力情報に基づいて、前記同一グループに分類された処理領域を選択するステップと、
前記グループ選択I/F部において選択されたグループの設定情報を一括して定義するステップと、
を含むことを特徴とする帳票定義方法。
A form definition method for defining form information,
Automatically detecting the processing area of the form information from the input form image;
Based on the information on the similarity of the size of each detected processing area, the connection status of each processing area in the vertical and horizontal directions, and the similarity of the surrounding ruled line information surrounding each processing area, Classifying the same category content into the same group to be filled in;
Selecting processing regions classified into the same group based on input information from the input unit;
Defining collectively the setting information of the groups selected in the group selection I / F unit;
A form definition method characterized by including:
コンピュータに請求項9記載の帳票定義方法を実行させるためのプログラム。   A program for causing a computer to execute the form defining method according to claim 9. 請求項10記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。   The computer-readable recording medium which recorded the program of Claim 10.
JP2011254143A 2011-02-24 2011-11-21 Form defining device, form defining method, program and recording medium Pending JP2012190434A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011254143A JP2012190434A (en) 2011-02-24 2011-11-21 Form defining device, form defining method, program and recording medium

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011038267 2011-02-24
JP2011038267 2011-02-24
JP2011254143A JP2012190434A (en) 2011-02-24 2011-11-21 Form defining device, form defining method, program and recording medium

Publications (1)

Publication Number Publication Date
JP2012190434A true JP2012190434A (en) 2012-10-04

Family

ID=47083470

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011254143A Pending JP2012190434A (en) 2011-02-24 2011-11-21 Form defining device, form defining method, program and recording medium

Country Status (1)

Country Link
JP (1) JP2012190434A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017187931A (en) * 2016-04-06 2017-10-12 コニカミノルタ株式会社 Table data conversion method, program, and image reading device
JPWO2018016552A1 (en) * 2016-07-21 2019-05-16 株式会社ミラボ Form input form generation device, form input form generation method and program
JP2019095858A (en) * 2017-11-17 2019-06-20 グローリー株式会社 Slip image processing device, slip image processing system, slip image processing method, and program
US11113559B2 (en) 2018-07-20 2021-09-07 Ricoh Company, Ltd. Information processing apparatus for improving text data recognition, information processing method, and non-transitory recording medium
US11151373B2 (en) 2018-07-20 2021-10-19 Ricoh Company, Ltd. Information processing apparatus and information processing method
US11416674B2 (en) 2018-07-20 2022-08-16 Ricoh Company, Ltd. Information processing apparatus, method of processing information and storage medium

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11184949A (en) * 1997-12-19 1999-07-09 Casio Comput Co Ltd Slip processing device and storage medium
JPH11282957A (en) * 1998-03-26 1999-10-15 Oki Electric Ind Co Ltd Method for deciding recognition object area
JP2000207484A (en) * 1999-01-06 2000-07-28 Internatl Business Mach Corp <Ibm> Image data analyzing method and device and record medium storing program product for analysis of image data
JP2001331764A (en) * 2000-03-13 2001-11-30 Fujitsu Ltd Method for recognizing character
JP2002042143A (en) * 2000-07-28 2002-02-08 Ricoh Co Ltd Frame recognition device and recording medium
JP2004220340A (en) * 2003-01-15 2004-08-05 Fujitsu Ltd Business form format editing device and business form format editing program
JP2006099480A (en) * 2004-09-29 2006-04-13 Toshiba Corp Document processor

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11184949A (en) * 1997-12-19 1999-07-09 Casio Comput Co Ltd Slip processing device and storage medium
JPH11282957A (en) * 1998-03-26 1999-10-15 Oki Electric Ind Co Ltd Method for deciding recognition object area
JP2000207484A (en) * 1999-01-06 2000-07-28 Internatl Business Mach Corp <Ibm> Image data analyzing method and device and record medium storing program product for analysis of image data
JP2001331764A (en) * 2000-03-13 2001-11-30 Fujitsu Ltd Method for recognizing character
JP2002042143A (en) * 2000-07-28 2002-02-08 Ricoh Co Ltd Frame recognition device and recording medium
JP2004220340A (en) * 2003-01-15 2004-08-05 Fujitsu Ltd Business form format editing device and business form format editing program
JP2006099480A (en) * 2004-09-29 2006-04-13 Toshiba Corp Document processor

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017187931A (en) * 2016-04-06 2017-10-12 コニカミノルタ株式会社 Table data conversion method, program, and image reading device
JPWO2018016552A1 (en) * 2016-07-21 2019-05-16 株式会社ミラボ Form input form generation device, form input form generation method and program
JP2019095858A (en) * 2017-11-17 2019-06-20 グローリー株式会社 Slip image processing device, slip image processing system, slip image processing method, and program
US11113559B2 (en) 2018-07-20 2021-09-07 Ricoh Company, Ltd. Information processing apparatus for improving text data recognition, information processing method, and non-transitory recording medium
US11151373B2 (en) 2018-07-20 2021-10-19 Ricoh Company, Ltd. Information processing apparatus and information processing method
US11416674B2 (en) 2018-07-20 2022-08-16 Ricoh Company, Ltd. Information processing apparatus, method of processing information and storage medium

Similar Documents

Publication Publication Date Title
US10489682B1 (en) Optical character recognition employing deep learning with machine generated training data
JP4973063B2 (en) Table data processing method and apparatus
US7970213B1 (en) Method and system for improving the recognition of text in an image
US10191889B2 (en) Systems, apparatuses and methods for generating a user interface by performing computer vision and optical character recognition on a graphical representation
CN102289667B (en) The user of the mistake occurred in the text document to experience optical character identification (OCR) process corrects
JP5663866B2 (en) Information processing apparatus and information processing program
US7996761B2 (en) Table format data processing method and table format data processing
US20090226090A1 (en) Information processing system, information processing apparatus, information processing method, and storage medium
JP2012190434A (en) Form defining device, form defining method, program and recording medium
JP2007279828A (en) Business form processor, business form format preparation device, business form, program for processing business form and program for preparing business form format
JP2005173730A (en) Business form ocr program, method, and device
WO2000052645A1 (en) Document image processor, method for extracting document title, and method for imparting document tag information
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
RU2605078C2 (en) Image segmentation for data verification
JP5380040B2 (en) Document processing device
US11348331B2 (en) Information processing apparatus and non-transitory computer readable medium
CN115828874A (en) Industry table digital processing method based on image recognition technology
JP5446877B2 (en) Structure identification device
Chen et al. UI layers merger: merging UI layers via visual learning and boundary prior
US9026482B2 (en) Method and system for analyzing a legacy system based on trails through the legacy system
JP2008108114A (en) Document processor and document processing method
CN116682118A (en) Ancient character recognition method, system, terminal and medium
JP4518212B2 (en) Image processing apparatus and program
Cao et al. Automatic recognition of tables in construction tender documents
JP2006134079A (en) Image processing device and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141020

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150630

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160405